JP2000112946A - 分散リコメンドシステムにおける個人情報作成方法及び情報選択方法並びに個人情報作成プログラムを記録した記録媒体 - Google Patents

分散リコメンドシステムにおける個人情報作成方法及び情報選択方法並びに個人情報作成プログラムを記録した記録媒体

Info

Publication number
JP2000112946A
JP2000112946A JP10281817A JP28181798A JP2000112946A JP 2000112946 A JP2000112946 A JP 2000112946A JP 10281817 A JP10281817 A JP 10281817A JP 28181798 A JP28181798 A JP 28181798A JP 2000112946 A JP2000112946 A JP 2000112946A
Authority
JP
Japan
Prior art keywords
information
concept
vector
frequency vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10281817A
Other languages
English (en)
Inventor
Hiroyuki Kikko
博行 橘高
Naoyuki Sato
直之 佐藤
Hideaki Suzuki
英明 鈴木
Akinao Soneoka
昭直 曽根岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10281817A priority Critical patent/JP2000112946A/ja
Publication of JP2000112946A publication Critical patent/JP2000112946A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数リコメンドシステム間で、推薦される情
報に矛盾を生じさせずに共有できる個人情報を構築す
る。 【解決手段】 個人情報を概念情報の集合として定義す
る。概念情報は各々一つの概念を表現し、〔単語、単語
の重要度〕の組を複数含む集合の概念ベクトルで構成す
る。頻度ベクトルはテキスト情報の内容のインデックス
情報とする。利用者が参照したテキスト情報の頻度ベク
トルを計算し、該頻度ベクトルと既存の各概念情報の概
念ベクトルとの類似度を計算し、最も類似する概念情報
を選択し、類似度が基準値より小さいか大きいかによっ
て、概念情報を更新する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワーク上で
利用されるリコメンドシステムにおける、個人情報の作
成方法及びこの個人情報を利用した情報選択方法並びに
個人情報作成プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】現在、インターネットなどの広域ネット
ワークにおいては、利用者の求める情報をあらかじめ予
測し、これを推薦するリコメンドシステムが多数提案さ
れている。しかし、これらのシステムは、個々別々に開
発されており、各々がそれぞれ別々に利用者の情報を収
集する処理を行っている。このため、複数の異なったシ
ステムによって推薦される情報には、その内容に矛盾が
起こる可能性は高く、全く関連のない情報がそれぞれ推
薦されることもある。
【0003】
【発明が解決しようとする課題】これまで、複数システ
ム間での個人情報の統一が困難であった一因には、作成
された情報の解釈を統一することが難しいという問題が
あった。例えば個人情報の作成手法として、単語とその
出現度数を参考にする予法は数多く提案されている。こ
れらの手法では、個々の単語に注目し、利用者が参照し
たテキスト情報に使用された単語から個人情報を作成す
る。このようにして作成された個人情報は、単語をキー
ワードとして検索を行うようなシステムには非常に適し
ている。しかし、情報を単語レベルではなく、さらに抽
象化した「概念」として利用するようなシステムにおい
ては、この情報は役立たない。また、通常単語には複数
の異なった意味があるので、この形式の個人情報は人
(管理者等)が見て理解することが難しいという欠点も
ある。
【0004】また別の作成手法として、システムが定め
た「概念」の基準に対する相対的な値として個人情報を
作成する手法も多々存在する。この場合は、異なったシ
ステム間で同一「概念」を明確に定義することが難し
く、複数システムで推薦する情報に矛盾が生じないよう
にすることは極めて難しい。
【0005】本発明の目的は、上述のような問題を解決
し、ネットワークで接続された複数のシステムにおいて
同時に利用できる個人情報の作成方法及びこの情報を利
用した標準的な情報選択方法を提供し、更には個人情報
作成プログラムを記録した記録媒体を提供することにあ
る。
【0006】
【課題を解決するための手段】本発明では、個人情報
(ユーザプロファイル)を「単語とその重要度の集合」
と、それによって定義される「概念」で構築する。「概
念」を、より明確な「単語とその重要度の集合」によっ
て示すことで、個人情報のリコメンドシステム間での相
互利用を容易にし、推薦される情報間に矛盾を生じさせ
なくすることが可能になる。
【0007】
【発明の実施の形態】初めに、実施の形態で用いる用語
を説明する。 (1)概念情報 一つの概念情報は一つの概念を表現するためにある。本
発明では、個人情報を概念情報の集合として定義し、各
利用者の個人情報は、概念情報を各々最大既定値Nだけ
保持することができるとする。初期化段階においては個
人情報は概念情報を持っていない。利用者がその嗜好に
よって、テキストなどの情報を参照する度に、自動的に
構築・更新される。
【0008】概念情報は以下の要素を含む。 概念ベクトル:頻度ベクトルは、概念を表現し、多シス
テム間で計算機によって取り扱えるようにするためにあ
る。概念ベクトルは[単語、単語の重要度]の組を最大
M個含む集合であるとする。このような、[単語、単語
の重要度]を組として保存する手法は、従来から数多く
提案されている。特に、後述のTFIDF(Term Fre
quency and Inverse DocumentFrequency)と呼ばれ
る方法は、テキスト情報に対して、そのインデックス情
報として上記の集合(ただしMは固定値でない)を計算
する。この手法は非常に有名かつ有効である。 重要度:概念情報間における、重要性の度合を表現す
る。この値が高い程、利用者は当該概念に対して深い興
味を持つことを意味する。
【0009】(2)頻度ベクトル 頻度ベクトルは、テキスト情報の内容を示すためのイン
デックス情報である。概念ベクトルと同様に、[単語、
単語の重要度]の組の集合で表現する。概念情報がN個
未満の場合、参照した情報の頻度ベクトルが一つの概念
情報となる。この情報は既存のTFIDF等の技術を用
いて計算する。
【0010】(3)類似度の計算 頻度ベクトルと概念ベクトル、あるいは概念ベクトル同
士がどのくらい関連を持っているかの度合を類似度と呼
んでいる。類似度が高いほど、これらは関連が深い。類
似度の計算は、[単語、単語の重要度]の集合を、各単
語が軸を示し、その重要度が値を示していると考えた多
次元多値ベクトルを用いて行う。二つのベクトルをX及
びYとすると、類似度Sim(X,Y)の計算は以下の
ように行う。
【数1】 この計算では、各々のベクトルの向く方向の違いに注目
しており、方向が近付くほど類似度Sim(X,Y)の
値は大きくなる。
【0011】(4)TFIDF テキストから、その文中に出現する全ての単語(名詞の
みの場合もある)を抽出し、各単語の出現頻度を利用し
てテキスト全体を示す情報として用いる手法の一つであ
る。TFIDFでは、次の処理によって対象としたテキ
ストの内容を要約した特徴量である多次元多値ベクトル
を生成する。なお、特徴情報を計算する全てのテキスト
は集められているとする。
【0012】特徴情報を計算したいテキストXについ
て、そのテキストで使用される全単語(名詞のみの場合
もある)と、その単語の当該テキスト中で出現度数を調
べる。TF(Term Frequency)を以下のように定め
る。 TF=単語kがテキストXで使用された回数 テキストX中で使用された全ての単語について、これら
が各々全テキスト中で何個のテキストに出現するか調べ
る。この情報を用いてIDF(InverseDocument Fre
quency)を以下のように定める。 IDF(k)=f(n(k),N) n(k)=単語(k)=単語kが(全テキスト中で)使用
されているテキストの数 N=全テキストの数 f(x,y)は任意の関数 f(x,y)=log(y/x)であることが多い テキストXで使用される全ての単語について、以下の値
を計算する。 TFIDF(X,k)=TF(X,k)×IDF(k)
【0013】各単語ごとにTFIDF値を求めると、単
語を各々軸とした多次元多値ベクトルとなる。本実施の
形態では、この多次元多値ベクトルを概念ベクトルや頻
度ベクトルとして扱い、単語の重要度にTFIDF値を
使用する。
【0014】次に、本発明の一実施の形態の処理につい
て詳述する。処理は、概念情報の集合である個人情報を
作成する処理と、この個人情報を用いて情報を選択する
処理に大別される。
【0015】〔個人情報の作成〕図1は個人情報作成の
概念図を示したものである。110はユーザが参照した
情報群、120は情報の頻度ベクトル、130は個人情
報のユーザプロファイルである。初期化段階において
は、個人情報(プロファイル)は概念情報を持たない。
【0016】図2に、個人情報作成の処理フローを示
す。この処理は、ユーザが情報を参照する度に繰り返さ
れる。 (1)利用者が参照したテキスト情報110から単語を
抽出する。テキスト情報が日本語であった場合には、形
態素解析等の手段を利用する必要がある。抽出された各
単語に対して、その単語のテキスト中での出現度数を調
べ、頻度ベクトル120を計算する。頻度ベクトルの計
算には、既存のTFIDF等を利用する。 (2)利用者の個人情報(ユーザプロファイル)130
に含まれる概念情報の数が、既定値Nより少ない場合に
は、上記(1)の頻度ベクトル120を概念ベクトルと
する新しい概念情報を作成し、該概念情報の重要度を例
えば「1」とする。この際、頻度ベクトルの要素[単
語、単語の重要度]の数が、既定値Mよりも大きかった
場合には、単語の重要度の大きい順にM個を選択し、こ
れを概念ベクトルとする。この場合、この時点で1図の
作成処理が終了する。 (3)概念情報の数が既定値Nより大きかった場合は、
既存の各概念情報の概念ベクトルと、上記(1)の頻度
ベクトルとの類似度を計算し、最も類似する概念情報を
選択する。そして、この選択された概念情報との類似度
によって、次の(i)、(ii)のどちらかの処理を行
う。
【0017】(i)類似度が基準値Lより小さかった場
合 既存の概念情報の数を一つ減らしN−1とする。この方
法として、既存の概念情報のうち最も重みの少ないもの
を削除する方法と、類似する概念情報同士を一つに合成
する方法の二つがある。なお、最も重みの少ないものを
削除する方法において、その候補が複数存在する場合に
は、最も古く作成された概念情報を削除する。概念情報
を削減した後、新たな概念情報として、上記(1)の頻
度ベクトル120を持つ情報を追加する。追加時に[単
語、単語の重要度]の個数が既定値Mより大きかった場
合は、上記(2)と同様の処理を行って、個数をMとす
る。
【0018】(ii)類似度が基準値Lより大きかった場
合 上記(1)の頻度ベクトルを、選択した概念情報の持つ
頻度ベクトルに加え合わせる。具体的には、頻度ベクト
ルの各[単語、単語の重要度]に対して、概念ベクトル
に同一の単語を持つ組があった場合、この組の単語の重
要度を頻度ベクトルの組の単語の重要度分だけ増加させ
る。また、概念ベクトルに同一の単語を持つ組がなかっ
た場合、新たに[単語、単語の重要度]の組を作成し、
これを概念ベクトルの集合に加える。この加え合わせの
処理によって、[単語、単語の重要度]の個数が既定値
Mより大きくなる場合は、(2)と同様に単語の重要度
の高いM個を選択して残りを削除する。また、同時に、
概念情報の重要度を既定値Sだけ増加させる。
【0019】〔情報の選択〕図3は、情報選択の概念図
を示したものである。310は上記のようにして作成さ
れた利用者の個人情報(ユーザプロファイル)、320
や330は選択(推薦)される情報群である。
【0020】図4に情報選択の処理フローを示す。この
処理は、各リコメンドシステムにおいて、利用者から情
報要求がある毎に繰り返される。リコメンドシステムで
は、複数のテキスト情報の集合から、利用者へ推薦すべ
き情報を次のようにして選択する。 (1)各々のテキスト情報の頻度ベクトルと、ユーザプ
ロファイル310の各概念情報の概念ベクトルとの類似
度を計算する。 (2)概念情報ごとに、類似度の高いテキスト情報を必
要数だけ選択する。 (3)選択した情報を、該当概念に属する情報320と
して利用者に提示する。この際、概念情報の持つ重要度
を利用して、重要度の高い順に情報330を表示するこ
ともできる。
【0021】図5に、本発明を用いた分散リコメンドシ
ステムの第1の実現例を示す。これは、利用者側(利用
者端末)において個人情報を直接管理する例である。利
用者aは、例えばリコメンドシステムAに情報を要求す
る際、一緒に個人情報を送付する()。リコメンドシ
ステムAは、送付された個人情報を使用して情報の選択
処理を実施し、推薦情報を利用者aへ送付する()。
利用者aでは、該送付された情報を利用して個人情報
(ユーザプロファイル)を更新する()。これによ
り、ユーザの好みの変化に応じて、個人情報は常に最新
のものが構築される。
【0022】図6に、本発明を用いた分散リコメンドシ
ステムの第2の実現例を示す。これは、ネットワーク上
に、個人情報を一括して管理するサーバ(個人情報管理
データベース)600を設ける例である。個人情報管理
データベース600は、利用者IDを見出しとして各利
用者の個人情報を管理する。利用者aは、リコメンドシ
ステムAに情報を要求する()。リコメンドシステム
Aは、利用者aの個人情報を個人情報管理データベー6
00に要求し()、個人情報管理データベース600
は該当個人情報をリコメンドシステムAに送付する
()。リコメンドシステムAは、該個人情報を使用し
て情報の選択処理を実施し、推薦情報を利用者aへ送付
する()。同時に、リコメンドシステムAは、該利用
者aに送付した情報を個人情報管理データベース600
へも送付する()。個人情報管理データベース600
では、該送付された情報を利用して利用者aの個人情報
(ユーザプロファイル)を更新する()。
【0023】以上、本発明の一実施の形態を説明した
が、図3に示したような処理フローチャートをコンピュ
ータに実行させるためのプログラムは、該コンピュータ
が読み取り可能な記録媒体、例えばフロッピーディスク
やメモリカード、コンパクトディスク(CD−ROM)
などに記録して提供することが可能である。
【0024】
【発明の効果】以上説明したように、本発明では、個人
情報を「単語とその重要度」と、それによって定義され
る「概念」で構築することによってネットワークで接続
された複数のリコメンドシステムにおいて、推薦される
情報間に矛盾を生じさせないようにすることが可能にな
る。
【図面の簡単な説明】
【図1】本発明による個人情報の作成の概念図である。
【図2】個人情報作成の処理フロー図である。
【図3】本発明による個人情報を利用したテキスト情報
選択の概念図である。
【図4】テキスト情報選択の処理フロー図である。
【図5】本発明による分散リコメンドシステムの第1の
実現例である。
【図6】本発明による分散リコメンドシステムの第2の
実現例である。
【符号の説明】
110 ユーザ参照情報群 120 情報の頻度ベクトル 130 作成された個人情報 310 選択に利用される個人情報 320、330 推薦情報群
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 英明 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 曽根岡 昭直 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 KK07 KK40 ND03 NK02 NK32 NR10 NR20 PP28 PR06 PR08 QM08 UU06 UU40

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークで接続された複数のリコメ
    ンドシステムにおいて、情報選択に利用される個人情報
    の作成方法であって、 個人情報を各々一つの概念を表現する概念情報の集合と
    して定義し、各概念情報を[単語、単語の重要度]の組
    を複数含む概念ベクトルで構成し、テキスト情報の内容
    を示す[単語、単語の重要度]の組の集合を頻度ベクト
    ルとし、 利用者が参照したテキスト情報の頻度ベクトルを計算
    し、 利用者の個人情報に含まれる概念情報の数が、既定値よ
    り少ない場合には、上記頻度ベクトルを概念ベクトルと
    する新しい概念情報を作成し、 概念情報の数が既定値より大きい場合は、既存の各概念
    情報の概念ベクトルと上記頻度ベクトルとの類似度を計
    算して最も類似する概念情報を選択し、類似度が基準値
    より小さい場合は、既存の概念情報の数を減らして、新
    たな概念情報として上記頻度ベクトルを持つ情報を追加
    し、類似度が基準値より大きい場合は、上記頻度ベクト
    ルを、選択した概念情報の持つ頻度ベクトルに加え合わ
    せる、ことを特徴とする分散リコメンドシステムにおけ
    る個人情報作成方法。
  2. 【請求項2】 請求項1で作成された個人情報を用いた
    情報の選択方法であって、テキスト情報の各々の頻度ベ
    クトルと、個人情報の各概念情報の概念ベクトルとの類
    似度を計算し、概念情報ごとに、類似度の高いテキスト
    情報を必要数だけ選択することを特徴とする分散リコメ
    ンドシステムにおける情報選択方法。
  3. 【請求項3】 ネットワークで接続された複数のリコメ
    ンドシステムにおいて情報選択に利用される個人情報作
    成のためのプログラムを記録したコンピュータ読み取り
    可能な記録媒体であって、 利用者が参照したテキスト情報の頻度ベクトルを計算す
    る処理プロセスと、 利用者の個人情報に含まれる概念情報の数が、既定値よ
    り少ない場合には、上記頻度ベクトルを概念ベクトルと
    する新しい概念情報を作成する処理プロセスと、 概念
    情報の数が既定値より大きい場合は、既存の各概念情報
    の概念ベクトルと上記頻度ベクトルとの類似度を計算し
    て最も類似する概念情報を選択し、類似度が基準値より
    小さい場合は、既存の概念情報の数を減らして、新たな
    概念情報として上記頻度ベクトルを持つ情報を追加し、
    類似度が基準値より大きい場合は、上記頻度ベクトル
    を、選択した概念情報の持つ頻度ベクトルに加え合わせ
    る、ことを特徴とする個人情報作成プログラムを記録し
    た記録媒体。
JP10281817A 1998-10-02 1998-10-02 分散リコメンドシステムにおける個人情報作成方法及び情報選択方法並びに個人情報作成プログラムを記録した記録媒体 Pending JP2000112946A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10281817A JP2000112946A (ja) 1998-10-02 1998-10-02 分散リコメンドシステムにおける個人情報作成方法及び情報選択方法並びに個人情報作成プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10281817A JP2000112946A (ja) 1998-10-02 1998-10-02 分散リコメンドシステムにおける個人情報作成方法及び情報選択方法並びに個人情報作成プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000112946A true JP2000112946A (ja) 2000-04-21

Family

ID=17644418

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10281817A Pending JP2000112946A (ja) 1998-10-02 1998-10-02 分散リコメンドシステムにおける個人情報作成方法及び情報選択方法並びに個人情報作成プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000112946A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063205A (ja) * 2000-05-27 2002-02-28 Lg Electronics Inc ユーザ嗜好度情報と内容描写情報とを効率的に比較演算するための対象データのマッピング装置及びその方法
JP2012164007A (ja) * 2011-02-03 2012-08-30 Nec Personal Computers Ltd 情報処理システム、情報処理装置及びプログラム
JP2013004013A (ja) * 2011-06-21 2013-01-07 Konica Minolta Business Technologies Inc プロファイル更新装置およびその制御方法、ならびに、プロファイル更新用プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063205A (ja) * 2000-05-27 2002-02-28 Lg Electronics Inc ユーザ嗜好度情報と内容描写情報とを効率的に比較演算するための対象データのマッピング装置及びその方法
JP2012164007A (ja) * 2011-02-03 2012-08-30 Nec Personal Computers Ltd 情報処理システム、情報処理装置及びプログラム
JP2013004013A (ja) * 2011-06-21 2013-01-07 Konica Minolta Business Technologies Inc プロファイル更新装置およびその制御方法、ならびに、プロファイル更新用プログラム

Similar Documents

Publication Publication Date Title
JP6511487B2 (ja) 情報プッシュ用の方法及び装置
CN106874435B (zh) 用户画像构建方法和装置
US8666984B2 (en) Unsupervised message clustering
CN108304444B (zh) 信息查询方法及装置
EP1225517A2 (en) System and methods for computer based searching for relevant texts
US20080201297A1 (en) Method and System for Determining Relation Between Search Terms in the Internet Search System
Yang et al. A Time‐Aware CNN‐Based Personalized Recommender System
JP4743766B2 (ja) 印象判定システム、広告記事生成システム、印象判定方法、広告記事生成方法、印象判定プログラムおよび広告記事生成プログラム
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
CN116340617B (zh) 一种搜索推荐方法和装置
JP3692416B2 (ja) 情報フィルタリング方法および装置
CN116401271A (zh) 数据库表查询方法、计算机设备及计算机存储介质
JP2000112946A (ja) 分散リコメンドシステムにおける個人情報作成方法及び情報選択方法並びに個人情報作成プログラムを記録した記録媒体
CN112925872A (zh) 一种数据搜索方法和装置
JP2007041700A (ja) トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体
JP2004157649A (ja) 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体
US10394761B1 (en) Systems and methods for analyzing and storing network relationships
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
CN114610859A (zh) 基于内容与协同过滤的产品推荐方法、装置及设备
CN115048483A (zh) 信息管理系统
JP2000348039A (ja) 情報提供方式及びその方式を用いた情報提供装置
Pu et al. A semantic-based short-text fast clustering method on hotline records in Chengdu
CN117634894B (zh) 生态环境风险评估方法、装置、电子设备及存储介质
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
CN111079010B (zh) 一种数据处理方法、装置及系统