JP3704933B2 - 個人プロファイル管理装置及び方法 - Google Patents
個人プロファイル管理装置及び方法 Download PDFInfo
- Publication number
- JP3704933B2 JP3704933B2 JP36453697A JP36453697A JP3704933B2 JP 3704933 B2 JP3704933 B2 JP 3704933B2 JP 36453697 A JP36453697 A JP 36453697A JP 36453697 A JP36453697 A JP 36453697A JP 3704933 B2 JP3704933 B2 JP 3704933B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- data
- individual
- words
- personal profile
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、個人の専門領域や興味等を知るための情報として重要な単語をプロファイルとしてテキスト中から抽出する個人プロファイル管理を実現する装置及び方法に関し、特に、複数の個人間で各個人に顕現度の高い単語を抽出する個人プロファイル管理を実現する装置及び方法に関する。
【0002】
【従来の技術】
電子化された大量の情報の中から自分にとって有用な情報のみを選択的に参照するために、個人の興味を登録した個人プロファイルを有する情報フィルタリング装置が提案されている。また、多数の人物の中から自分にとって有用な情報を持つ人物のみと選択的にコミュニケーションを行うために、個人の興味を登録した個人プロファイルを有する個人プロファイル検索装置が提案されている。
このような個人プロファイルは、個人の興味等を特徴付けるために属性名と属性値の組み、あるいは、複数のフリーキーワード等によって構成されている。
【0003】
ここで、これらの個人プロファイルは、本人が自己について記述した場合には、本当の専門性や興味を表現していないことや、興味の時間的な変化に合わせて個人プロファイルも更新しなければならない等の問題点があり、これに対処するために、個人プロファイルを自動的に抽出する技術が提案されている。この抽出技術では、例えば特開平8−235088号公報に開示されるように、送受信されるテキスト情報から個人の興味を表現する複数の単語を抜き出し、該個人が該テキスト情報に対して行った処理の頻度情報などを活用して、プロファイルに含まれる個々の項目の優先度を該個人の興味の実態に合致するように調整している。
【0004】
しかしながら、個人の興味を的確に表現しているだけでは、情報フィルタリング装置あるいは個人プロファイル検索装置の手段として利用する場合、他者との相対的な関係に起因する問題点があった。例えば、或る個人の興味を的確に表現する単語群の内の上位に位置する単語が、「情報」や「コンピュータ」等であった場合、専門分野を特定していない集団においては十分に個人プロファイルとして機能するが、情報やコンピュータに興味を持っている集団においては、他の多くの人々の個人プロファイル中にも同じ単語が出現するために、「情報」「コンピュータ」は個人を特徴付ける単語にはならない。したがって、個人の興味を的確に表現しているだけでは、集団における個人の特徴を表現するために最適なプロファイルを抽出することができなかった。
【0005】
なお、個人プロファイルの抽出を目的とした技術ではないが、他のテキストとの相対的な関係を考慮したテキストに対するキーワード抽出技術が知られている。
例えば、特開平2−244274号公報に開示されるように、或る単語について、一つのテキスト内に出現する比率(単語の出現回数÷単語の総数)と、或る領域のテキスト集合中に出現する比率(領域内の単語の出現回数÷領域内の単語の総数)との比率の大小を考慮して、キーワードを選択する。
【0006】
また、tfidf理論(G. Salton & C. Buckley, "Term Weighting Approaches in Automatic Text Retrieval", Department of Computer Science, Cornell University, 87-881, November, 1987)のようなキーワードの重み付けの方法が知られている。
このtfidf理論においては、tfikをテキストDiにおけるキーワードTkの出現回数、Nを全テキスト数、nkを全テキストの内のキーワードTkを含むテキスト数とするとき、テキストDiにおけるキーワードTkの重みwikを次式(1)で決定する。このことにより、テキスト中の出現回数が多く、かつ、他のテキスト中の出現比率が低い単語をキーワードとして選択することが可能になる。
【0007】
【数1】
【0008】
【発明が解決しようとする課題】
前述のキーワード抽出技術は、個人プロファイル抽出を目的に考案された方法ではないが、他のテキストとの相対的な関係を利用するという考え方は、前述の個人プロファイル抽出技術の欠点を克服できる可能性がある。つまり、キーワード抽出技術における1テキストを、1人の個人に係わるテキスト群とし、他の一群のテキスト集合を、他の一群の人物集合に係わる全テキスト集合とみなすことで、他者のテキスト群にはあまり表れないが、その個人のテキスト群には頻繁に表れる単語の重みを大きくすることが実現可能であるとも考えられる。
【0009】
しかしながら、本来、テキスト群中の各々のテキストに適切なキーワードを付与するために考案されたキーワード抽出技術を、人物の集団の中の個々の人物に適切なプロファイル情報を作成する目的に応用しようとすると以下に述べるような問題点があった。
なお、以下では、個人プロファイルを抽出するために好適な特性を持つ対象テキストとして、個人が送受信した電子メールテキスト群を例に説明する。
【0010】
「内容の他者への開示制限」
個人プロファイルを抽出する対象となるテキストは、内容を他者に開示されることを制限したいという特徴がある。例えば、電子メールの内容は私信に相当し、他者への内容の開示は可能な限り避けたいという要求がある。
しかしながら、tfidfなどに代表されるキーワード抽出技術は、キーワードの重みを計算する度に、全対象テキストの内容のスキャン処理を行う必要のあるアルゴリズムである。したがって、個人プロファイルの抽出処理が他者の管理下にある装置で行われる場合は、計算の都度、電子メールテキスト群の全文を他者の管理下に預けなければならないという問題点があった。一方、個人プロファイルの抽出処理を自分の管理下にある装置で行う場合には、逆に、他者の電子メールテキスト群の全文を預かる必要がある。また、個人プロファイルの抽出処理を信頼できる第三者の管理下にある装置で行う場合でも、全文を預けなければならず、利用者の心理的な負担の根本的な解決にはなっていない。
【0011】
したがって、個人プロファイル抽出の対象となるテキスト群に、従来のキーワード抽出処理をそのまま応用すると、内容の他者への開示を制限したいという要求に反してしまう。
そのため、従来のキーワード抽出処理を、各自の管理下にある装置上での処理と、第三者の管理下にある装置での処理とに、適切に分散させることが必要になってくるが、その実現方法は従来においては何ら考慮されていない。
【0012】
「対象文書の非保存性」
計算機の記憶手段の容量は有限であるが、個人プロファイルを抽出する対象となるテキスト群は一過性のテキストが多い。例えば、パソコン通信サービスでは、一定の期間が経過すると送信済みの電子メールのテキストは削除され、記憶容量の有効利用を図っている。
しかしながら、前述のキーワード抽出技術は、キーワードの重みを計算する度に、全対象テキストの内容のスキャン処理を行う必要のあるアルゴリズムである。したがって、個人の管理下であるか否かを問わず、重みの計算以外には利用価値のないテキスト群を記憶しておく必要がある。
【0013】
したがって、個人プロファイル抽出の対象となるテキスト群に、従来のキーワード抽出処理をそのまま応用すると、不要なテキストが記憶容量を圧迫するという問題が生じる。
この問題の解決のために、個人プロファイル抽出の処理の中に、情報を圧縮して保存しておくアルゴリズムを導入する必要があるが、その実現方法は従来においては何ら考慮されていない。
【0014】
「変化への追従性」
個人の専門性や興味は時々刻々変化をする。前述のキーワード抽出技術では、個々のテキストの作成日時情報などを参照しなから、最新のテキスト群だけを選択すること等で対処可能な問題である。
しかしながら、専門性や興味の変化に追従し続けるという課題は、上記の他者への開示制限と非保存性の問題と同時に解決する必要がある。処理の分散と情報の圧縮を安易に行うことは、変化への追従性を確保するために重要な、対象テキストの再選択を困難なものにしてしまう。
したがって、他者への開示制限と非保存性の問題に対する処理の分散と情報の圧縮という解決は、個人情報の変化への追従性を保持した解決でなければならないが、その実現方法は従来においては何ら考慮されていない。
【0015】
本発明は上記従来の事情に鑑みなされたもので、個人の専門性や興味等を精度よく表した個人プロファイルを生成することができる個人プロファイル管理装置を提供することを目的とする。
さらに、本発明は、電子メールテキスト等の内容の他者への開示を制限して、このような個人プロファイルを生成することができる個人プロファイル管理装置を提供することを目的とする。
【0016】
【課題を解決するための手段】
本発明に係る個人プロファイル管理装置は、複数のクライアントシステムと少なくとも1つのサーバシステムとを有し、当該クライアントシステムを利用する個人に関する情報を管理する個人プロファイル管理装置として構成される。
そして、このクライアントシステムでは、送信情報獲得手段により当該クライアントシステムを利用する個人が他者に送信する(すなわち、他者へ送信した、あるいは、他者が取得可能な状態とした)テキストを獲得し、単語分割/頻度計算手段が当該テキストから単語を抜き出すとともに当該単語の出現回数を計数して、当該単語に出現頻度を対応付けた単語データを生成する。一方、サーバシステムでは、高頻度単語獲得手段により単語データを複数のクライアントシステムから受信し、単語出現人数計算手段が当該受信した複数の単語データから複数の個人間で同一の単語が出現する人数を単語人数データとして計算し、さらに、単語顕現度決定手段が当該単語人数データに基づいて個人毎の単語データを補正して、他者に対する各個人の単語の相対的な顕現性の度合いを個人プロファイルとして定める。
【0017】
したがって、テキストは各個人が利用するクライアントシステムで処理されるため、電子メールテキスト等のように内容の他者への開示を制限したいという要求を満すことができ、しかも、他者に対する各個人の単語の相対的な顕現度を加味して個人プロファイルを定めるため、各個人の特徴をよく表した個人プロファイルを生成することができる。
なお、上記のような個人プロファイルの生成は、本発明に係る個人プロファイル管理方法によっても実現される。
【0018】
また、本発明に係る個人プロファイル管理装置は、複数のクライアントシステムを有し、当該クライアントシステムを利用する各個人に関する情報を管理する個人プロファイル管理装置として構成される。
そして、このクライアントシステムでは、送信情報獲得手段により当該クライアントシステムを利用する個人が他者に送信するテキストを獲得し、また、受信情報獲得手段により他のクライアントシステムを利用する他者から受信したテキストを獲得し、これらテキストから単語分割/頻度計算手段が単語を抜き出すとともに当該単語の出現回数を計数して、当該単語に出現頻度を対応付けた単語データを個人毎に生成する。そして、このクライアントシステムでは、単語出現人数計算手段が複数の単語データから複数の個人間で同一の単語が出現する人数を単語人数データとして計算し、この単語人数データに基づいて個人毎の単語データを補正して、他者に対する各個人の単語の相対的な顕現性の度合いを個人プロファイルとして定める。
【0019】
したがって、テキストは各個人が利用するクライアントシステムおよび送信先に指定した特定のクライアントシステムで処理されるため、電子メールテキスト等のように内容の他者への開示を制限したいという要求を満すことができ、しかも、他者に対する各個人の単語の相対的な顕現度を加味して個人プロファイルを定めるため、各個人の特徴をよく表した個人プロファイルを生成することができる。
なお、上記のような個人プロファイルの生成は、本発明に係る個人プロファイル管理方法によっても実現される。
【0020】
また、本発明に係る個人プロファイル管理装置では、単語分割/頻度計算手段は所定の条件を満たす一定以上の出現頻度の単語について単語データを生成し、これによって、必要性の低い単語についての処理を回避して処理負担を軽減するとともに処理に利用する記憶容量の低減化を実現する。
また、本発明に係る個人プロファイル管理装置では、クライアントシステムは、単語分割/頻度計算手段が過去に生成した単語データを保持する記憶手段と、単語分割/頻度計算手段が生成した単語データと記憶手段に保持された過去の単語データとを1つの単語データに合成する単語管理手段とをさらに有し、異なる時間属性を持つ複数の単語データを管理することにより、専門性や話題の時間的な変化に対して良好に追従可能な形態で個人プロファイルを生成することができる。
【0021】
【発明の実施の形態】
本発明の一実施形態に係る個人プロファイル管理装置を、図面を参照して説明する。
図1には、本実施形態に係る個人プロファイル管理装置の全体構成を示してあり、当該個人プロファイル管理装置は、複数のクライアントシステム1と1つのサーバシステム3とを、これらの間の通信を行うネットワーク4で接続して構成されている。
【0022】
各クライアントシステム1は、送信情報獲得部10、テキスト記憶部11、単語分割/頻度計算部12、高頻度単語記憶部13、高頻度単語管理部14、前期高頻度単語記憶部15、および、通信インタフェース部16を備えている。これらクライアントシステム1はユーザ毎に存在し、通信インタフェース部16とコンピュータネットワーク4を通してサーバシステム3と互いに通信を行う。
また、各クライアントシステム1には、電子メールシステム20、個人のwebクライアント21、個人のwebサーバ22が備えられている。
【0023】
サーバシステム3は、通信インタフェース部31、高頻度単語獲得部32、個人−高頻度単語テーブル記憶部33、単語出現人数計算部34、高頻度単語−出現人数テーブル記憶部35、個人別単語顕現度計算部36、および、個人プロファイル記憶部37を備えている。
なお、クライアントシステム1およびサーバシステム3はコンピュータハードウエア資源を用いて所定のプログラムを実行することにより構成されている。
【0024】
各クライアントシステム1の各機能手段はそれぞれ下記のように動作して、通信インタフェース部16からネットワーク4を介してサーバシステム3へ単語データを送信する。
まず、送信情報獲得部10は、電子メールシステム20、個人のwebクライアント21、個人のwebサーバ22などが、他者の管理下にあるクライアントシステム1に情報を送信したこと、および、当該クライアントシステム1において他者の管理下にあるクライアントシステム1が情報を入手することができる状態にしたことを検出し、これら送信される情報からテキスト部分を獲得する。例えば、電子メールシステム20とwebクライアント21の場合、SMTP,HTTP,FTPなどのプロトコルにしたがって、他者の管理下にあるクライアントシステム1に情報を送信したことを検出する。また、個人のwebサーバ22の場合、他者のアクセスを許す特定のディレクトリなどに情報を記憶したことを検出し、記憶された情報からテキスト部分を獲得する。
【0025】
次に、テキスト記憶部11は、送信情報獲得部10が獲得したテキストをそれまでの記憶内容に追加して、ファイル単位で記憶する。また、後述するように高頻度単語管理部14から単語分割/頻度計算部12の処理の終了を通知された場合に、テキスト記憶部11は記憶している全テキスト内容をクリアにして、不必要な記憶容量の圧迫を回避する。
【0026】
次に、単語分割/頻度計算部12は、例えば公知の形態素解析技術を用いて、テキスト記憶部11に記憶されたテキストから単語を抜き出し、これら単語の総数を計数する。なお、このとき、プロファイルとして不適な単語を登録した不用語テーブルを用意しておき、不用語テーブル中に存在する単語については、以降の処理を行わないようにして処理負担を軽減することも可能である。
そして、単語分割/頻度計算部12は、抜き出した各単語に重複があれば、同じ単語がいくつ存在するかを計数し、各単語とその出現回数とを組みとした単語データを作成し、出現回数が所定の条件を満たすデータに限り、高頻度単語記憶部13に記憶する。ここに、所定の条件には、例えば、出現回数の大きい単語から上位W個、出現回数がX以上の単語、あるいは、出現回数が大きい単語から上位(Y÷総単語数)個、出現回数が(Z÷総単語数)以上の単語、などの条件を用いることができる。なお、この所定の条件は、他者への内容開示の制限、処理の効率化、および、記憶容量の有効利用のために、出現回数の大きい単語だけをサンプリングするための条件であればこれらに限らない。
【0027】
図2には、高頻度単語記憶部13に記憶される高頻度単語データの一例を示してある。
図示のように、単語データは、抜き出された単語の総数「190」と、各単語に対応付けたその出現頻度が一覧として含まれている。なお、この単語の総数には単語の重複が含まれている。
例えば、抜き出された単語「意見」は、処理対象のテキスト中に延べ11個存在することが表されている。
【0028】
高頻度単語管理部14は、高頻度単語記憶部13とテキスト記憶部11のクリアおよび高頻度単語データの更新(手続きA)を行い、さらにまた、高頻度単語記憶部13と前期高頻度単語記憶部15の内容を統合して、通信インタフェース部16を通して高頻度単語データをサーバシステム3に通知(手続きB)する。なお、前期高頻度単語記憶部15には、高頻度単語記憶部13のクリアに際して当該記憶内容(クリア対象の高頻度単語データ)が記憶され、その結果、高頻度単語記憶部13が記憶している高頻度単語データに対して過去に生成された高頻度単語データが記憶されている。
【0029】
高頻度単語管理部14が行う手続きAは図3に示す処理手順で実行され、当該手続きAはテキストが或る量以上に貯まったところで繰り返し実行される。
まず、テキスト記憶部11の記憶されているテキスト量を調べ、テキスト量が閾値を越えたかどうかを判断する(ステップS1)。そして、テキスト量が閾値を越えた場合には、当該テキスト中から単語の抜き出しと抜き出された単語数の計数を行い(ステップS2)、n番目の単語がwa[n]、wa[n]の出現回数がwfa[n]の組みからなるデータ{wa[n],wfa[n]}を作成する(ステップS3)。
【0030】
次いで、高頻度単語記憶部13の記憶内容を読み出し、m番目の単語がwb[m]、wb[m]の出現回数がwfb[m]の組みからなるデータ{wb[m],wfb[m]}を作成する(ステップS4)。そして、{wa[n],wfa[n]}と{wb[m],wfb[m]}との論理和{w[k],wf[k]}とし(ステップS5)、この{w[k],wf[k]}の要素を調べて、w[i]=w[j]の場合には、wf[i]+wf[j]を新たなwf[i]として重複をまとめた後に、一方のw[j]とwf[j]の組を削除する(ステップS6)。
そして、高頻度単語記憶部13の単語総数を抜き出した単語数だけ増加させ(ステップS7)、出現頻度wf[i]が所定の閾値(X)以上の組だけを高頻度単語記憶部13に上書きし(ステップS8)、テキスト記憶部11の記憶内容をクリアする(ステップS9)。なお、上記の一連の処理は、テキスト記憶部11が記憶するテキスト量が閾値を超えると繰り返し行われる。
【0031】
また、高頻度単語管理部14が行う手続きBは図4に示す処理手順で実行され、当該手続きBは一定の時間間隔で実行される。
まず、手続きBが前回起動されてからの時間を調べ、経過時間が一定値を越えたかどうかを判断する(ステップS11)。そして、経過時間が一定値を越えた場合には、高頻度単語記憶部13の単語総数をWC1とするとともに、前期高頻度単語記憶部15の単語総数をWC2とし(ステップS12)、さらに、高頻度単語記憶部13の単語と頻度の組みを{w1[n],wf1[n]}とするとともに、前期高頻度単語記憶部15の単語と頻度の組みを{w2[m],wf2[m]}とする(ステップS13)。
【0032】
次いで、(WC1+WC2)÷2をWCとして、すべてのnとmについて、wf1[n]×WC1÷WCを新しいwf1[n]とするとともに、wf2[m]×WC2÷WCを新しいwf2[m]とし(ステップS14)、さらに、
{w1[n],wf1[n]}と{w2[m],wf2[m]}との論理和を{w[k],wf[k]}とし(ステップS15)、この{w[k],wf[k]}の要素を調べて、w[i]=w[j]の場合には、wf[i]+wf[j]を新たなwf[i]として重複をまとめた後に、一方のw[j]とwf[j]の組を削除する(ステップS16)。
そして、出現頻度wf[k]が所定の閾値(X)以上の組だけを高頻度単語データとして通信インタフェース部16を通してサーバシステム3に通知する(ステップS17)。
【0033】
図5には、前期高頻度単語記憶部15に記憶されている単語データの一例を示してあり、この過去の単語データでは、単語の総数が「221」で、例えば「君」という単語は延べ9個存在することを表している。
また、図6には、図2に示した高頻度単語データと図5に示した前期高頻度単語データに対して、上記の手続きBを行った後に得られた高頻度単語データの一例を示してある。手続きBを行って得られた高頻度単語データでは、単語総数は平均値の「205.5」、例えば、「検討」という単語は6×221÷205.5=6.5の頻度となっている。
【0034】
なお、上記の手続きAにおいて出現頻度wf[k]が所定の閾値(X)以上の組だけを選択するようにし、また、上記の手続きBにおいて出現頻度wf[k]が所定の閾値(X)以上の組だけを選択するようにしたが、本発明では、このような選択条件に限らず、他者への内容開示の制限、処理の効率化、および、記憶容量の有効利用のために、出現頻度wf[k]の大きいものだけをサンプリングするための条件であれば、種々な条件を設定することができる。例えば、出現頻度wf[k]が大きいものから上位W個を選択する、出現頻度wf[k]が大きいものから上位(Y÷総単語数)個を選択するなどの条件を用いることができる。
また、上記の手続きAはテキスト量に応じて開始され、上記の手続きBは一定の時間間隔で開始されるようにしたが、例えば、通信インタフェース部を通してサーバシステム3から手続きの起動の指示を受け取ることによって一連の処理を開始するようにすることもできる。
【0035】
上記のようにして、各クライアントシステム1で生成された高頻度単語データがサーバーシステム3に対して送信され、サーバシステム3の各機能手段はそれぞれ下記のように動作して、これら高頻度単語データに基づいて個人プロファイルを生成する。
まず、高頻度単語獲得部32は、複数のクライアントシステム1から通信インタフェース部31を介して通知される高頻度単語データを収集し、これら高頻度単語データを個人毎に集計して、個人−高頻度単語テーブルを生成して記憶部33に記憶させる。なお、或る個人が複数のクライアントシステム1を利用する可能性がある場合には、各個人の識別子あるいは各クライアントシステム1の識別子から特定の個人を同定し、同一の個人の高頻度単語データであれば、前記手続きAと同様の方法で高頻度単語データを統合するようにすればよい。
【0036】
図7には、高頻度単語獲得部32が収集した高頻度単語データから生成した個人−高頻度単語テーブルの一例を示してある。
この個人−高頻度単語テーブルは、Aさん、Bさん、Cさん、および、Dさんの4人分の例であるが、例えば「私」や「問題」といった単語のように、多くの個人のテキスト中に高頻度で出現するために、必ずしもAさんやBさんなどといった特定の個人を特徴付けることにはならない単語も上位に存在している。したがって、単語とその出現頻度との関係だけでは、個々人の特徴を十分には判別することができない。
【0037】
単語出現人数計算部34は、単語毎に、その単語を個人−高頻度単語テーブル中に含む個人の人数を計算し、高頻度単語−出現人数テーブルを生成して記憶部35に記憶させる。
図8には、高頻度単語−出現人数テーブルの一例を示してあり、この高頻度単語−出現人数テーブルは、図7に示した4人を含む6人の個人−高頻度単語テーブルから生成されている。例えば、「私」や「問題」は6人中3人の個人−高頻度単語テーブル中に含まれており、多くの個人のテキスト中に高頻度で出現するために顕現度が低く、必ずしも特定の個人を特徴付けることにはならない単語となっている。
【0038】
個人別単語顕現度計算部36は、個人−高頻度単語テーブルと高頻度単語−出現人数テーブルの内容から、個人プロファイルを生成して記憶部37に記憶させる。
この個人別単語顕現度計算部36での処理は次のように行われるが、以下の説明では、対象となる人数をP、個人の個人−高頻度単語テーブル中のn番目(全部でN個)の個人の単語と頻度の組みを{w[n],wf[n]}、高頻度単語−出現人数テーブル中のj番目の単語と人数の組みを{wr[j],pf[j]}で表現する。このとき、単語w[n]の顕現度p[n]を式(2)で計算する。
【0039】
【数2】
【0040】
例えば、Bさんの場合、顕現度は以下の手順で計算する。n=1のとき、個人−高頻度単語テーブルではw[1]=「意見」の出現頻度wf[1]は13である。一方、「意見」は高頻度単語−出現人数テーブル中では12番目に相当し、その出現人数pf[12]は1である。したがって、式(2)によって、顕現度p[1]=13×ln(6÷1)=23.3となる。また、n=2のとき、個人−高頻度単語テーブルではw[2]=「君」の出現頻度wf[2]は9である。一方、「君」は高頻度単語−出現人数テーブル中では1番目に相当し、その出現人数pf[1]は3である。したがって、式(2)によって、顕現度p[1]=9×ln(6÷3)=6.23となる。以下同様にして、N番目までの単語について顕現度p[n]を求める。
このように、各個人毎の各単語の出現頻度を全人数に対する当該単語を用いた人数の対数で補正(すなわち、使用した人数が少なければ大きな値で出現頻度を補正)することにより、各個人における各単語が当該個人の特徴をどの程度表しているかを定量化することができる。
【0041】
なお、この顕現度p[n]の値を他者と比較するために、さらに正規化を行うことも可能である。その場合、個人内での他の単語の顕現度の自乗和の平方を求めて、各単語の顕現度との比率を正規化顕現度とする。正規化顕現度pn[n]は式(3)で計算する。
例えば、「意見」の正規化顕現度はpn[1]は、23.3÷51.60=0.45である。図8には、A〜Dの4人について正規化顕現度を求め、その正規化顕現度の大きい順に単語を並べたテーブルの一例を示してあり、このテーブルが個人プロファイル記憶部37に記憶される個人プロファイルである。
【0042】
【数3】
【0043】
なお、上記の例では、顕現度pn[n]の計算において自然対数lnを用いたが、例えば任意の正数aを底とする対数logaを用いるように変更してもよく、要は、全体の人数Pに対して、或る単語を使っている人数が多い場合に、顕現度pn[n]の値を小さくすることができれば、これらの関数に限定するものではない。
【0044】
図10には、本発明の他の一実施形態に係る個人プロファイル管理装置の全体構成を示してあり、本実施形態は、クライアントシステム1が自ら送信するテキストに加えて受信したテキストからも単語を抽出して個人プロファイルを作成するものである。
本実施形態の個人プロファイル管理装置は、複数のクライアントシステム1と、これらの間の通信を行うネットワーク4で構成されている。なお、図示は省略してあるが、前日した実施形態と同様なサーバシステム3も当該ネットワーク4に接続されている。
ここで、以下の説明において、前述した実施形態と同様な機能手段については同一符号を付して重複する説明を割愛する。
【0045】
少なくとも1つのクライアントシステム1には、送信情報獲得部10、受信情報獲得部17、テキスト記憶部11、単語分割/頻度計算部12、高頻度単語記憶部13、高頻度単語管理部14、前期高頻度単語記憶部15、個人−高頻度単語テーブル記憶部33、単語単語出現人数計算部34、高頻度単語−出現人数テーブル記憶部35、個人別単語顕現度計算部36、個人プロファイル記憶部37、および、通信インタフェース部31が備えられている。
すなわち、本実施形態では、前述した実施形態(図1)に較べて、サーバシステム3側に設けられていた各機能手段32〜37を高頻度単語獲得部32を除いてクライアントシステム1側に設け、また、当該クライアントシステムに受信情報獲得部17を新たに設けた構成となっている。
【0046】
この受信情報獲得部17は、電子メールシステム20、個人のwebクライアント21、webサーバ22などが、他者の管理下にあるクライアントシステム1から情報を受信したことを検出し、受信された情報からテキスト部分を獲得する。例えば、電子メールシステム20とwebクライアント21の場合、SMTP,HTTP,FTPなどのプロトコルにしたがって、他者の管理下にあるクライアントシステム1から情報を受信したことを検出する。
【0047】
ここで、テキスト記憶部11は、前述した実施形態と同様に送信情報獲得部10が獲得したテキストの記憶処理を行うが、これに加えて、受信情報獲得部17が獲得したテキストを、それまでの記憶内容に追加して、ファイル単位で個人毎に記憶する処理も行う。
また、単語分割/頻度計算部12は、テキストから単語を抜き出して単語の総数を計数するといった前述の実施形態と同様の処理を行うが、本実施形態では、単語とその出現回数とを組みとした単語データを、1人の個人についてだけでなく、当該クライアントシステム1と通信する複数の個人別に作成する。
【0048】
また、高頻度単語管理部14は、高頻度単語記憶部13とテキスト記憶部11のクリアおよび高頻度単語データの更新(手続きC)を行い、また、高頻度単語記憶部13と前期高頻度単語記憶部15の内容を統合して、通信インタフェース部31を通して高頻度単語データを図外のサーバシステム3に通知(手続きD)する。
この手続きCでは、一定の時間間隔で以下の一連の処理を行う。まず、個人識別用の変数を初期化し、現在の個人識別用の変数が指し示す個人について、前述した手続きA(図3)を行う。そして、個人識別用の変数をインクリメントし、もし手続きAが終了ていない個人があれば、その個人について手続きAを実行する。もし、すべての対象となる個人について手続きAが終了したならば、再度、一定の時間間隔が経過するのを待って処理を繰り返し行う。
【0049】
また、手続きDは手続きB’を用いてなされ、まず、手続きB’を説明すると、手続きB’は前述した手続きB(図4)において、「wf[k]がX以上のデータを、通信インタフェース部を通してサーバシステムに通知する(ステップS17)」処理のみを、新しく「wf[k]がX以上のデータを、個人−高頻度単語テーブル記憶部に記憶する」に変更した手続きである。
そして、手続きDでは、まず、個人識別用の変数を初期化し、現在の個人識別用の変数が指し示す個人について、手続きB’を行う。そして、個人識別用の変数をインクリメントし、もし手続きB’が終了ていない個人があれば、その個人について手続きB’を実行する。もし、すべての対象となる個人について手続きB’が終了したならば、再度、一定の時間間隔が経過するのを待って処理を繰り返し行う。
【0050】
【発明の効果】
以上説明したように、本発明によれば、テキストを各個人が利用するクライアントシステムで処理して抽出された単語に基づいて個人プロファイルを作成するようにしたため、テキストを意図しない他者が処理することがなく、電子メールテキスト等のように内容の他者への開示を制限したいという要求を満すことができる。さらに、他者に対する各個人の単語の相対的な顕現度を加味して個人プロファイルを定めるため、各個人の特徴をよく表した個人プロファイルを生成することができる。さらに、異なる時間属性を持つ複数の高頻度単語データを管理するようにしたため、専門性や話題の時間的な変化に対して良好に追従可能な形態で個人プロファイルを管理することができる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る個人プロファイル管理装置の構成図である。
【図2】 高頻度単語データの一例を示す図である。
【図3】 高頻度単語管理部の手続きAの処理手順を示すフローチャートである。
【図4】 高頻度単語管理部の手続きBの処理手順を示すフローチャートである。
【図5】 前期高頻度単語データの一例を示す図である。
【図6】 手続きBを施した後の高頻度単語データの一例を示す図である。
【図7】 個人−高頻度単語テーブルの一例を示す図である。
【図8】 高頻度単語−出現人数テーブルの一例を示す図である。
【図9】 個人プロファイルの一例を示す図である。
【図10】 本発明の他の一実施形態に係る個人プロファイル管理装置の構成図である。
【符号の説明】
1・・・クライアントシステム、 3・・・サーバシステム、
4・・・ネットワーク、 10・・・送信情報獲得部、
11・・・テキスト記憶部、 12・・・単語分割/頻度計算部、
13・・・高頻度単語記憶部、 14・・・高頻度単語管理部、
15・・・前期高頻度単語記憶部、 16・・・通信インタフェース部、
31・・・通信インタフェース部、 32・・・高頻度単語獲得部、
33・・・個人−高頻度単語テーブル記憶部、
34・・・単語出現人数計算部、
35・・・高頻度単語−出現人数テーブル記憶部、
36・・・個人別単語顕現度計算部、 37・・・個人プロファイル記憶部、
Claims (8)
- 複数のクライアントシステムと当該クライアントシステム間の通信を管理するサーバシステムとを有し、当該クライアントシステムを利用する個人に関する情報を管理する個人プロファイル管理装置であって、
前記クライアントシステムは、
当該クライアントシステムを利用する個人が他者に送信するテキストを獲得する送信情報獲得手段と、
前記テキストから単語を抜き出すとともに当該単語の出現回数を計数して、当該単語に出現頻度を対応付けた単語データを生成する単語分割/頻度計算手段と、を有し、
前記サーバシステムは、
前記単語データを複数のクライアントシステムから受信する高頻度単語獲得手段と、
前記受信した複数の単語データから複数の個人間で同一の単語が出現する人数を単語人数データとして計算する単語出現人数計算手段と、
前記単語人数データに基づいて個人毎の単語データを補正して、他者に対する各個人の単語の相対的な顕現性の度合いを個人プロファイルとして定める単語顕現度決定手段と、を有することを特徴とする個人プロファイル管理装置。 - 複数のクライアントシステムを有し、当該クライアントシステムを利用する各個人に関する情報を管理する個人プロファイル管理装置であって、
前記クライアントは、
当該クライアントシステムを利用する個人が他者に送信するテキストを獲得する送信情報獲得手段と、
他のクライアントシステムを利用する他者から受信したテキストを獲得する受信情報獲得手段と、
前記送信するテキストと前記受信したテキストとから単語を抜き出すとともに当該単語の出現回数を計数して、当該単語に出現頻度を対応付けた単語データを個人毎に生成する単語分割/頻度計算手段と、
前記複数の単語データから複数の個人間で同一の単語が出現する人数を単語人数データとして計算する単語出現人数計算手段と、
前記単語人数データに基づいて個人毎の単語データを補正して、他者に対する各個人の単語の相対的な顕現性の度合いを個人プロファイルとして定める単語顕現度決定手段と、を有することを特徴とする個人プロファイル管理装置。 - 請求項1または請求項2に記載の個人プロファイル管理装置において、
前記単語分割/頻度計算手段は所定の条件を満たす一定以上の出現頻度の単語について単語データを生成することを特徴とする個人プロファイル管理装置。 - 請求項1乃至請求項3のいずれか1項に記載の個人プロファイル管理装置において、
前記クライアントシステムは、
前記単語分割/頻度計算手段が過去に生成した単語データを保持する記憶手段と、
前記単語分割/頻度計算手段が生成した単語データと前記記憶手段に保持された過去の単語データとを1つの単語データに合成する単語管理手段と、
をさらに有することを特徴とする個人プロファイル管理装置。 - 複数のクライアントシステム間の通信を管理し、当該クライアントシステムを利用する個人に関する情報を管理するための処理を行うサーバシステムであって、
前記クライアントシステムを利用する個人が他者と通信するテキストから抜き出された単語にその出現頻度を対応付けた単語データを複数のクライアントシステムから受信する高頻度単語獲得手段と、
前記受信した複数の単語データから複数の個人間で同一の単語が出現する人数を単語人数データとして計算する単語出現人数計算手段と、
前記単語人数データに基づいて個人毎の単語データを補正して、他者に対する各個人の単語の相対的な顕現性の度合いを個人プロファイルとして定める単語顕現度決定手段と、を有することを特徴とするサーバシステム。 - 複数のクライアントシステムを利用する複数の個人に関する情 報を管理する個人プロファイル管理方法であって、
前記クライアントシステムにより、当該クライアントシステムを利用する個人が他者に送信するテキストから単語を抜き出すとともに当該単語の出現回数を計数し、当該単語に出現頻度を対応付けた単語データを生成し、
複数のクライアントシステム間の通信を管理するサーバシステムにより、前記複数のクライアントシステムから取得した複数の前記単語データから複数の個人間で同一の単語が出現する人数を単語人数データとして計算し、前記単語人数データに基づいて個人毎の単語データを補正して、他者に対する各個人の単語の相対的な顕現性の度合いを個人プロファイルとして定めることを特徴とする個人プロファイル管理方法。 - クライアントシステムを利用して通信を行う複数の個人のそれぞれに関する情報を管理する個人プロファイル管理方法であって、
前記クライアントシステムにより、当該クライアントシステムを利用する個人が他者に送信する又は他者から受信したテキストから単語を抜き出すとともに当該単語の出現回数を計数し、前記単語に出現頻度を対応付けた個人毎の単語データを複数生成し、前記複数の単語データから複数の個人間で同一の単語が出現する人数を単語人数データとして計算し、 前記単語人数データに基づいて個人毎の単語データを補正して、他者に対する各個人の単語の相対的な顕現性の度合いを個人プロファイルとして定めることを特徴とする個人プロファイル管理方法。 - クライアントシステムを利用して通信を行う複数の個人のそれぞれに関する情報を管理する個人プロファイル管理方法であって、
複数のクライアントシステム間の通信を管理するサーバシステムにより、前記クライアントシステムを利用する個人が他者と通信するテキストから抜き出された単語にその出現頻度を対応付けた単語データを複数のクライアントシステムから取得し、前記取得した複数の単語データから複数の個人間で同一の単語が出現する人数を単語人数データとして計算し、前記単語人数データに基づいて個人毎の単語データを補正して、他者に対する各個人の単語の相対的な顕現性の度合いを個人プロファイルとして定めることを特徴とする個人プロファイル管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP36453697A JP3704933B2 (ja) | 1997-12-18 | 1997-12-18 | 個人プロファイル管理装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP36453697A JP3704933B2 (ja) | 1997-12-18 | 1997-12-18 | 個人プロファイル管理装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11184891A JPH11184891A (ja) | 1999-07-09 |
JP3704933B2 true JP3704933B2 (ja) | 2005-10-12 |
Family
ID=18482053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP36453697A Expired - Fee Related JP3704933B2 (ja) | 1997-12-18 | 1997-12-18 | 個人プロファイル管理装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3704933B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6321221B1 (en) | 1998-07-17 | 2001-11-20 | Net Perceptions, Inc. | System, method and article of manufacture for increasing the user value of recommendations |
US6334127B1 (en) * | 1998-07-17 | 2001-12-25 | Net Perceptions, Inc. | System, method and article of manufacture for making serendipity-weighted recommendations to a user |
US6412012B1 (en) | 1998-12-23 | 2002-06-25 | Net Perceptions, Inc. | System, method, and article of manufacture for making a compatibility-aware recommendations to a user |
US7461058B1 (en) | 1999-09-24 | 2008-12-02 | Thalveg Data Flow Llc | Optimized rule based constraints for collaborative filtering systems |
JP3852814B2 (ja) * | 1999-09-24 | 2006-12-06 | 富士通株式会社 | プロファイル作成方法及びシステム |
US7788123B1 (en) | 2000-06-23 | 2010-08-31 | Ekhaus Michael A | Method and system for high performance model-based personalization |
JP2003030234A (ja) * | 2001-07-18 | 2003-01-31 | Toshiba Tec Corp | 個人興味自動認識システム |
JP5031416B2 (ja) * | 2007-03-20 | 2012-09-19 | 株式会社日立ソリューションズ | 検索方法および検索装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2625397B2 (ja) * | 1995-02-23 | 1997-07-02 | 日本電気株式会社 | テキスト情報フィルタリングシステム |
JP3140944B2 (ja) * | 1995-06-20 | 2001-03-05 | 松下電器産業株式会社 | 感性入力装置及びデータ検索装置 |
JPH09245049A (ja) * | 1996-03-05 | 1997-09-19 | Toshiba Corp | 情報受け取り方法および装置 |
-
1997
- 1997-12-18 JP JP36453697A patent/JP3704933B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11184891A (ja) | 1999-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9444826B2 (en) | Method and system for filtering communication | |
US11010429B2 (en) | Dynamic social network relationship determination method and apparatus | |
US7409641B2 (en) | Method for replying to related messages | |
US20060143155A1 (en) | Method and apparatus for classifying document information | |
US7930301B2 (en) | System and method for searching computer files and returning identified files and associated files | |
US7725421B1 (en) | Duplicate account identification and scoring | |
US6208988B1 (en) | Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes | |
US20030225841A1 (en) | System and method for preventing spam mails | |
CN106570144A (zh) | 推荐信息的方法和装置 | |
JP2002541589A (ja) | ユーザの問合せに基づいてユーザにデータを供給するための方法およびシステム | |
JP3704933B2 (ja) | 個人プロファイル管理装置及び方法 | |
JP2000172696A (ja) | ドキュメント管理システム | |
JPH0749875A (ja) | 文書情報分類方法およびそれを用いた文書情報収集方法、文書情報収集システム | |
JP2000076109A (ja) | データ表示装置およびデータ表示方法 | |
US20030009440A1 (en) | Profile management method for information filtering and profile management program | |
US7818680B2 (en) | Method for deleting related messages | |
JP4003314B2 (ja) | 個人プロファイル管理装置 | |
JP2009259039A (ja) | 複数のデータベースの検索方法及びメタ検索サーバ | |
US20020062341A1 (en) | Interested article serving system and interested article serving method | |
US20070180115A1 (en) | System and method for self-configuring multi-type and multi-location result aggregation for large cross-platform information sets | |
EP1170677A2 (en) | Method and system of weighted context feedback for result improvement in information retrieval | |
JP2004157649A (ja) | 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 | |
CN108090084A (zh) | 一种知识管理方法和系统 | |
JPH1063752A (ja) | 病名データベース | |
JP2000348039A (ja) | 情報提供方式及びその方式を用いた情報提供装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050718 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090805 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100805 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110805 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120805 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120805 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130805 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |