JP7266838B2

JP7266838B2 - 情報分析装置及びプログラム

Info

Publication number: JP7266838B2
Application number: JP2018160577A
Authority: JP
Inventors: 俊彦山崎; 軼威張
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2023-05-01
Anticipated expiration: 2038-08-29
Also published as: WO2020045526A1; JP2020035148A

Description

本発明は、情報分析装置及びプログラムに関する。

近年では、企業等の組織の広告宣伝のために、いわゆるソーシャルネットワークサービス（ＳＮＳ）が広く用いられている。ソーシャルネットワークサービス等では、企業側からユーザへの情報提供は、企業等の組織が発信した情報を、ユーザが購読する（フォローする）ことで行われる。このとき、購読する側のユーザは「フォロワー（follower）」と呼ばれる。

また、各組織は、各ソーシャルネットワークサービスにおいて一つずつのアカウント（情報発信元）を用いるのではなく、組織が有するブランド（企業名だけでなく、商品のコンセプトをブランド化している場合のブランドや、サービスマークのブランドなどを含む）ごとに異なるアカウントを設定して、それぞれのアカウントから対応するブランドに関する情報を提供する例もある。

特許文献１には、フォロワーの情報をマーケティングに利用するため、フォロワーを特定する情報を取得して、案内の送信先として用いる例が開示されている。

特表２０１３－５１１７７８号公報

複数の組織や複数のブランドの間で、それぞれの組織やブランドのファンがどれだけ重複しているかを知ることは、ブランド等の戦略を立案する上で重要な情報となる。例えば、ブランドＡと、ブランドＢとのファン層が互いに重複していないならば（つまり、ブランドＡ，Ｂが互いに類似しないブランドであるならば）、ブランドＡを取り扱う店舗のある地域に、ブランドＢを扱う店舗を出店しても、ブランドＡの店舗と競合することはないと考えられる。

このように、組織間、あるいはブランド間の類似性（例えばそれぞれのファン層の類似性）は、経営上重要な情報であるにも関わらず、従来、このような分析は売り上げ情報に依存せざるを得ず、そうなると具体的な売り上げ情報が存在しない場合には情報が得られないこととなって、限られた場面でしか組織間、あるいはブランド間の類似性を評価することができなかった。

本発明は上記実情に鑑みて為されたもので、組織間、あるいはブランド間、組織とブランドの間、ユーザとブランドの間、ユーザ間…など、ソーシャルネットワークサービスのアカウント間の類似性等を、情報発信サイトにおける複数の分析対象アカウントの類似性により評価し、広い場面で組織やブランド等の間の類似性を評価できる情報分析装置、及びプログラムを提供することを、その目的の一つとする。

上記従来例の問題点を解決する本発明は、情報分析装置であって、所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、前記購読者ごとに、購読者に関係する購読者関係情報を収集する手段と、前記複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定する判定手段と、前記判定した一対の分析対象アカウント間の類似性を出力する手段とを含むこととしたものである。

本発明によると、情報発信サイトにおける複数の分析対象アカウントの類似性により評価でき、広い場面で組織やブランドなどの間の類似性を評価できる。

本発明の実施の形態に係る情報分析装置の構成例を表すブロック図である。本発明の実施の形態に係る情報分析装置の例を表す機能ブロック図である。本発明の実施の形態に係る情報分析装置が保持する購読者関係情報と、それを特徴づける値との関係の例を表す説明図である。本発明の実施の形態に係る情報分析装置の学習処理の例を表すフローチャート図である。本発明の実施の形態に係る情報分析装置の推定処理の例を表すフローチャート図である。

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報分析装置１は、図１に例示するように、制御部１１と、記憶部１２と、操作部１３と、表示部１４と、通信部１５とを含んで構成されている。

制御部１１は、ＣＰＵ等のプログラム制御デバイスであり、記憶部１２に格納されたプログラムを実行する。本実施の形態では、この制御部１１は、所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得し、購読者ごとに、購読者に関係する購読者関係情報を収集する。またこの制御部１１は、複数の分析対象アカウントに含まれる、一対の分析対象アカウント間の類似性を、各分析対象アカウントの購読者の購読者関係情報に基づいて判定し、当該判定した一対の分析対象アカウント間の類似性を出力する。この制御部１１の詳しい動作については後に述べる。

記憶部１２は、メモリデバイスやディスクデバイス等であり、制御部１１によって実行されるプログラムを保持する。本実施の形態ではこのプログラムは、コンピュータ可読かつ非一時的な、ＤＶＤ等の記録媒体に格納されて提供され、この記憶部１２に格納されたものであってもよい。またこの記憶部１２は、制御部１１のワークメモリとしても動作する。

操作部１３は、マウスやキーボード等であり、利用者の指示操作を受け入れて、当該指示操作の内容を表す情報を、制御部１１に出力する。表示部１４は、ディスプレイ等であり、制御部１１が出力する指示に従って情報を表示する。

通信部１５は、ネットワークインタフェース等であり、制御部１１が出力する指示に従い、ネットワークを介して接続されるサーバ等に対して情報を送出する。また、この通信部１５は、ネットワークを介して接続されるサーバ等から情報を受信して制御部１１に出力する。

次に、制御部１１の処理について説明する。本実施の形態の制御部１１は、機能的には図２に例示するように、学習処理部２１と、推定処理部２２とを含んで構成されている。また学習処理部２１は、情報取得部３１と、購読者関係情報収集部３２と、関係情報学習部３３と、関係情報統合部３４とを含んで構成される。推定処理部２２は、判定処理部４１と、出力部４２とを含む。

学習処理部２１の情報取得部３１は、分析の対象とする情報発信サイトの指定を利用者から受けて、当該指定された情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する。ここで情報発信サイトの指定は、当該情報発信サイトのＵＲＬ（Uniform Resource Locator）等でよい。

また分析対象アカウントは当該情報発信サイトに登録されているすべてのアカウント（登録者）でもよいし、予め利用者が指定したアカウントを分析対象アカウントとしてもよい。

情報取得部３１は、購読者の情報として、分析対象アカウントの名義で行われた投稿（以下、アカウントの名義で行われた投稿を、当該アカウントの投稿という）を購読している購読者のアカウントを表す情報（例えば当該アカウントのユーザ名など、アカウントに固有の情報）を取得する。

購読者関係情報収集部３２は、分析対象アカウントごとに情報取得部３１が取得した購読者の各アカウントの投稿に含まれる所定の情報を、投稿ごとに、購読者関係情報として収集する。ここで収集する購読者関係情報は例えばアカウントの投稿に含まれる文字情報、あるいは当該文字情報のうち予め定めたパターンに合致する部分、または当該投稿に含まれる画像の情報であってもよい。本実施の形態の以下の説明では、アカウントの投稿のうち、投稿者自身が当該投稿の内容を特徴づける語として投稿に含めた単語（タグ）を抽出するものとする。

具体的にツイッター（登録商標）や、インスタグラム（登録商標）等のＳＮＳサービスでは、「＃」記号に続いて入力される文字列（次の「＃」または改行等までの文字列）はタグとして扱われるので、購読者関係情報収集部３２は、アカウントの投稿のうち、当該タグ部分を抽出して購読者関係情報として収集してもよい。

関係情報学習部３３は、投稿ごとに収集された購読者関係情報のリストを購読者関係情報収集部３２から受け入れる。そして、関係情報学習部３３は、生成された投稿ごとの購読者関係情報のリストを用いて、購読者関係情報の特徴量を演算する。

具体的な例として、この関係情報学習部３３は、タグ情報つきの動画データの分析に用いられるtag2vec（https://arxiv.org/abs/1612.04061）などを用いて購読関係情報の特徴量を演算する。一例では、この関係情報学習部３３は、取得された購読者関係情報に基づいて語彙リストを生成する。この語彙リストは、取得したすべての投稿に含まれる購読者関係情報を、重複を省いてリストとしたものである。以下、この語彙リストに含まれる情報を、語彙情報と呼ぶ。

そして関係情報学習部３３は、tag2vecに対応する処理として次の処理を行う。すなわち関係情報学習部３３は、この語彙リストに含まれる語彙情報とのそれぞれについて、予め定めたｎ次元のベクトル（例えばｎ＝３００となどする）を初期化する。初期化の方法はベクトルの各成分の値をランダムな値とすることで行えばよいが、各ベクトルはそれぞれ大きさが「１」（単位ベクトル）となるように規格化しておく。関係情報学習部３３は、語彙リストのｊ番目（ｊ＝１，２…）にある語彙情報に対応するベクトルをｊ列目に配した行列Ｍを記憶部１２に格納して記憶する。

関係情報学習部３３は、投稿ごとに、当該投稿に含まれる購読者関係情報を順次取り出し、当該取り出した購読者関係情報（注目関係情報と呼ぶ）に対応する語彙情報のベクトルｖiと、当該投稿に含まれる、注目関係情報以外の購読者関係情報に対応する語彙情報のベクトルｖjとの内積ｕiを求め、そのsoftmaxの値と、当該分析対象アカウントの投稿を購読するアカウントの投稿に含まれる購読者関係情報のワン・ホット・ベクトル（購読者関係情報に対応する語彙情報が語彙リストのｊ番目の位置にある場合にｊ番目の成分を「１」、その他の成分を「０」としたベクトル）との間の差により、注目関係情報に対応する語彙情報のベクトルｖiと、当該投稿に含まれる、注目関係情報以外の購読者関係情報に対応する語彙情報のベクトルｖjとを機械学習する（この機械学習の方法はスキップグラム（skip-gram）モデルに相当する）。

関係情報学習部３３は、このような、tag2vecなどの機械学習により、語彙リストに含まれる語彙情報のそれぞれについてのベクトル表現を得る。このとき、スキップグラムモデルに従い、同じ投稿に含まれやすい複数の語彙情報のベクトルｖが互いに近接するように機械学習された状態となる。

関係情報統合部３４は、購読者関係情報の語彙リストに含まれる各語彙情報を、互いに類似する概念（例えば類語）ごとに分類する。一例としてこの関係情報統合部３４は、関係情報学習部３３の機械学習により得られた、語彙情報のベクトルｖiを、クラスタリング処理して互いに類似するベクトルごとのグループに分類する。

ここでのクラスタリングの方法は、ｋｍｅａｎｓ法、階層的クラスタリング法など、広く知られた方法を採用でき、またクラスタリングを行う際のベクトル間の距離の演算方法としては、例えば一対のベクトルの情報ｖi，ｖjの距離をコサイン類似度Ｄcos

を用いて定める（類似度は値が大きいほどより類似することを表し、距離は値が小さい（０に近い）ほどより類似することを表すため、逆数を用いるなどしてクラスタリングの処理に適応させる）こととすればよい。ここで｜ｖ｜は、ベクトルｖの大きさを意味する。また、この距離の演算方法は、ユークリッド距離など、他の方法で求めてもよい。

この関係情報統合部３４の動作により、互いに類似する関係にある語彙情報ごとのクラスタに、語彙リストに含まれる語彙情報が分類される。関係情報統合部３４は、語彙リストに含まれる語彙情報ごとに、クラスタリング処理により当該語彙情報が属することとなったクラスタを特定する情報（クラスタ特定情報）を関連付けて記憶部１２に格納する（図３）。

例えば関係情報統合部３４は、クラスタリング処理によって得られた各クラスタを代表するベクトル情報（各クラスタに属する購読者関係情報のベクトルの算術平均ベクトルなど中心ないし重心でもよいし、当該重心等に最も近い距離にある購読者関係情報のベクトルであってもよい。以下代表ベクトルと呼ぶ）を得て、各代表ベクトルのそれぞれに固有な情報（代表ベクトルを表す情報）を、クラスタを特定する情報として、代表ベクトルの情報に関連付けて記憶部１２に格納しておく。

そして関係情報統合部３４は、語彙情報ごとに、当該語彙情報が属するクラスタの代表ベクトルを表す情報を関連付けて記憶部１２に格納する。

推定処理部２２の判定処理部４１は、利用者により指定された複数の分析対象アカウントに含まれる、一対の分析対象アカウント（一対の分析対象アカウントの組み合わせのすべてとしてよい）間の類似性を、当該一対の分析対象アカウントのそれぞれの分析対象アカウントの購読者の購読者関係情報に基づいて判定する。

具体的には、判定処理部４１は、指定された分析対象アカウントごとに、その購読者の購読者関係情報を取得する。そして判定処理部４１は、取得した購読者関係情報ごとに、購読者関係情報に対応する語彙情報が属するクラスタ（関係情報統合部３４により得られたクラスタ）を特定する情報として、クラスタの代表ベクトルを表す情報Ｖｃxを取り出して列挙する。

ここで判定処理部４１が生成した、購読者関係情報に含まれる語彙情報のリスト（重複を許したリスト）を、以下、購読者関係語彙リストと呼ぶ。

そして判定処理部４１は、購読者関係語彙リストに含まれる語彙ごとに、当該語彙に対応する代表ベクトルを表す情報を取得して列挙し、クラスタ情報リストを生成する。判定処理部４１は、このクラスタ情報リストに含まれる、代表ベクトルを表す情報の出現頻度を表すヒストグラムを生成し、分析対象アカウントを特徴づけるベクトルＶａｃk（分析対象アカウントの特徴量）とする。判定処理部４１は、指定された（Ｎ個の）分析対象アカウントｋ（ｋ＝１，２，…Ｎ）ごとに、この処理を行って、対応するベクトルＶａｃk（ｋ＝１，２，…Ｎ）を求める。

判定処理部４１は、一対の分析対象アカウントのそれぞれについて上述のように求められたベクトルの情報Ｖａｃi，Ｖａｃj（ｉ≠ｊ）の距離の情報（各分析対象アカウントに係る購読者関係情報の分類ごとの代表ベクトルを表す情報のヒストグラム間の距離の情報）を求める。ここで求める距離の情報は、コサイン類似度（（１）式で規定される類似度）を用いた距離であってもよいし、ユークリッド距離であってもよい。またこの距離の情報は、これら以外であっても、ベクトルの情報間の類似度を定義できるものであれば、どのようなものであってもよい。ここで求められる距離の情報が、本発明における購読者関係情報の分類間の類似性に相当する。

出力部４２は、判定処理部４１が距離の情報の演算に用いた一対の分析対象アカウントのそれぞれを表す情報と、当該一対の分析対象アカウント間の距離の情報とを表示部１４等に表示出力する。複数の対について距離の情報が求められた場合は、出力部４２は、各距離の情報に係る一対の分析対象アカウントのそれぞれを表す情報と、当該距離の情報とを出力する。

［動作］
本実施の形態は以上の構成を備えており、次のように動作する。以下の例では、予め、所定の情報発信サイトにおいて登録された、ブランドＡ，Ｂ，Ｃのアカウントを分析対象アカウントとするものとする。

また、各ブランドＡ，Ｂ，Ｃのアカウント（以下、アカウントＡ，Ｂ，Ｃとして示す）について、それぞれフォロワー（購読者）が
アカウントＡのフォロワー：α，β
アカウントＢのフォロワー：γ，ε
アカウントＣのフォロワー：κ，μ
となっているものとする。

さらにフォロワーα，β，γ，ε，κ，μのそれぞれが情報発信サイト（上記所定の情報発信サイトであっても、フォロワーと同一人物が投稿するアカウントであると知られていれば他の情報発信サイトであってもよい）において次のようなタグを付したテキストデータを投稿しているものとする。なお、ここではタグから「＃」など、タグを表す文字列は除外している。
αの第１の投稿に含まれるタグ（以下これをα１などと略して記す）：「pink」，「love」，「cosmetic」，「l4l(like for like)」
α２：「cosmetic」，「fashion」，「l4l(like for like)」
…
β１：「summer」,「white」，「style」
β２：「pink」，「lovely」，「cute」
…
γ１：「son」，「mama」，「school」
γ２：「mother」，「family」
…
ε1：「daughter」，「son」，「kindergarten」
ε２：「children」，「sibling」,「family」
…
κ１：「work」，「coffee」，「f4f（follow for follow）」
κ２：「fashionable」，「black」，「simple」，「f4f（follow for follow）」
…
μ１：「trend」，「mode」，「white」，「fff（follow for follow）」
μ２：「mode」，「fff（follow for follow）」
…

情報分析装置１は、図４に例示するように、まず学習処理を実行する。この学習処理では、情報分析装置１は、分析対象アカウント（となり得る候補のアカウント）ごとに、その購読者のアカウントを表す情報を取得する（Ｓ１）。ここでは、上述のように、アカウントＡについてα，β、アカウントＢについてγ，ε…というように、購読者のアカウントを表す情報を取得する。

情報分析装置１は、分析対象アカウントごとに情報取得部３１が取得した購読者の各アカウントの投稿に含まれる情報を、投稿ごとに購読者関係情報として収集する（Ｓ２）。そして情報分析装置１は、取得された購読者関係情報を、重複を省いてリストとし、語彙リストを生成する（Ｓ３）。

情報分析装置１は、生成した語彙リストに含まれる情報（語彙情報）のそれぞれについて、予め定めた次元のベクトル量（特徴量）をランダムに決定するなどして初期化し、投稿ごとに共通して含まれる語彙情報間のベクトルが互いに近接するように更新しつつ機械学習を行う（Ｓ４）。

このような機械学習方法は、既に述べたように、スキップグラムモデル等として広く知られた方法を用いることができる。これにより、一つ投稿に含まれやすい複数の語彙情報のベクトルｖが、互いに近接するように機械学習された状態となる。

さらに情報分析装置１は、この語彙情報のベクトルｖを、クラスタリング処理する（Ｓ５）。上記の例において、例えば、αやβの投稿に含まれる「love」や「lovely」という語は、いずれも「pink」の語と同じ投稿に（ここでの例では）含まれやすいこととなっているので、これら「love」や「lovely」の語（語彙情報）に対応するベクトルｖ_love，ｖ_lovelyは、互いに近接したベクトルとして機械学習される。

一方、「work」と「son」とは、それぞれの語と同じ投稿に含まれる語のうちに共通した語が（ここでの例では）ないため、これら「work」や「son」の語（語彙情報）に対応するベクトルｖ_work，ｖ_son間の距離は、ベクトルｖ_love，ｖ_lovely間の距離に比べて離れたものとなるよう機械学習される。

従って、クラスタリング処理では、例えば、「love」や「lovely」の語は一つの共通したクラスタに属する語となり、「work」や「son」の語は互いに異なるクラスタに属する語となる。

情報分析装置１は、こうして得たクラスタリングの結果、及び、各語彙情報のベクトルの情報、分析対象アカウントごとの購読者を表す情報、各購読者の投稿に含まれる語彙情報を表す情報等から、指定された複数の分析対象アカウントに含まれる一対の分析対象アカウントの類似性を判定する処理を実行する（図５）。

具体的に情報分析装置１は、分析対象アカウントの指定を受け入れ（Ｓ１１）、指定された分析対象アカウントの一対の組み合わせごとに次の処理を繰り返す。情報分析装置１は、上述の例のように学習された情報がある場合に分析対象アカウントとしてブランドＡ，Ｂ，Ｃが指定された場合、例えばまず、ブランドＡとブランドＢとの間の類似性を次のようにして求める。

すなわち、情報分析装置１は、アカウントＡのフォロワーα，βの投稿に含まれる語彙情報と、アカウントＢのフォロワー：γ，εとのそれぞれの投稿に含まれる語彙情報とを、それぞれアカウントＡ，Ｂの購読者関係情報として列挙する（Ｓ１２）。

上述の例では、
アカウントＡの購読者関係情報：「pink」，「love」，「cosmetic」，「l4l(like for like)」，「cosmetic」，「fashion」，「l4l(like for like)」，「summer」,「white」，「style」，「pink」，「lovely」，「cute」…
アカウントＢの購読者関係情報：「son」，「mama」，「school」，「mother」，「family」，「daughter」，「son」，「kindergarten」，「children」，「sibling」,「family」…
というように取得されることになる。なおここでは重複を許して取得しているが、重複は排除することとしてもよい。

情報分析装置１は、取得した各購読者関係情報についてそれぞれに含まれる語彙情報を、当該語彙情報が属するクラスタを特定する情報（各クラスタの代表ベクトルを表す情報）で置き換える（Ｓ１３）。例えば「pink」，「love」，「lovely」…が番号「１」で特定されるクラスタ、「son」，「mama」，「school」，「kindergarten」…が番号「２」で特定されるクラスタ…というように分類されているとすると、上述の、類似性を求める一対の分析対象アカウントごとに取得した各購読者関係情報に含まれる語彙情報について、
アカウントＡ：「１」（「pink」が属するクラスタの代表ベクトルを表す情報、以下同様），「１」，「３」，「４」，「３」，「５」，「４」，「６」,「６」，「５」，「１」，「１」，「１」…
アカウントＢ：「２」，「２」，「２」，「２」，「７」，「２」，「２」，「２」，「７」，「７」,「７」…
などといった代表ベクトルを表す情報のリスト（クラスタ情報リスト）が得られることとなる。

情報分析装置１は、分析対象アカウントごとに得られたクラスタ情報リストに含まれる代表ベクトルを表す情報の出現数をそれぞれカウントしてヒストグラムを生成して、分析対象アカウントを特徴づけるベクトルＶａｃkとする（Ｓ１４）。

上述の例では（ｉ番目のクラスタの代表ベクトルをＶrep_iとすると）、分析対象アカウントを特徴づけるベクトルＶａｃkは、
アカウントＡ：Ｖａｃa＝（Ｃa（Ｖrep_1），Ｃa（Ｖrep_2）…）
アカウントＢ：Ｖａｃb＝（Ｃb（Ｖrep_1），Ｃb（Ｖrep_2）…）
といったように演算される。ここで、Ｃp（Ｖ）は、アカウントＰについて得られたクラスタの代表ベクトルＶの数（カウント数）を表す。つまり、Ｃa（Ｖrep_1）は、アカウントＡについての購読者関係情報に含まれる語彙情報のうち、クラスタ番号「１」に属している語彙情報の数（クラスタ情報リストに、クラスタ番号「１」の代表ベクトルが現れた数）を表す。また、各分析対象アカウントを特徴づけるベクトルの第ｉ番目の成分は、いずれも共通の、ｉ番目のクラスタの代表ベクトルのカウント数を表すものとする。

情報分析装置１は、ここで求められたベクトルＶａｃa，Ｖａｃbの距離の情報を求めて（Ｓ１５）、一対の分析対象アカウントである、ブランドＡとブランドＢとの類似性として出力する（Ｓ１６）。
情報分析装置１は、分析対象アカウントとして指定された複数のブランドの一対の組み合わせごとに上記の処理を繰り返して行う。

すなわち、ブランドＡ，Ｂ，Ｃが指定されたときには、ブランドＡ，Ｂ間、ブランドＡ，Ｃ間、ブランドＢ，Ｃ間のそれぞれについて上述の処理を繰り返して行い、それぞれ
ブランドＡ，Ｂ間：ベクトルＶａｃa，Ｖａｃbの距離の情報、
ブランドＡ，Ｃ間：ベクトルＶａｃa，Ｖａｃcの距離の情報、
ブランドＢ，Ｃ間：ベクトルＶａｃb，Ｖａｃcの距離の情報
をそれぞれのブランド間の類似性を表す情報として出力する。

これらベクトルＶａｃa，Ｖａｃb等の間の距離の情報は、各分析対象アカウントに係る購読者関係情報に含まれる語彙情報の、分類ごとの代表ベクトルの総和間の距離に相当するものであり、ここでのベクトルＶａｃa，Ｖａｃb等の間の距離の情報は、コサイン類似度を用いるものでも、ユークリッド距離でもその他の距離の情報でも構わないが、距離が短いほど（互いに類似するほど）小さい値となるように調整して出力してもよい。例えばコサイン類似度の場合は、その逆数などとしてもよい。

［画像を購読者関係情報として用いる場合］
ここまでの説明において、購読者関係情報は、情報発信サイトにおいて投稿された文字列の情報であるものとしたが、本実施の形態は、これらが文字列である場合に限られない。

例えば、購読者関係情報は、情報発信サイトにおいて投稿された写真等の画像データであってもよい。すなわち、本実施の形態の購読者関係情報は、その特徴量が、購読者関係情報間の類似性に対応する距離が定められた値（ここまでの例における、スキップグラムで学習されたベクトル量など）として表現できればよい。

購読者関係情報が画像データである場合、特徴量は、例えば予め定められた画像データのセットで機械学習された画像分類器の分類判定の基礎となるベクトル量（多層のニューラルネットが用いられる場合、最終層の一つ手前の層の出力でよい）を用いることができる。

［出現頻度を用いる場合］
さらに、上述の例では、制御部１１が推定処理部２２の判定処理部４１として動作する際に、指定された分析対象アカウントごとに、その購読者の購読者関係情報を取得し、取得した購読者関係情報に含まれる語彙情報ごとに、語彙情報が属するクラスタの代表ベクトルの情報Ｖｃxを取り出していたが、本実施の形態では、購読者関係情報に含まれる語彙情報自体の出現頻度の情報をさらに用いてもよい。

一例として、投稿ごとの購読者関係情報について、制御部１１は投稿ごとの出現頻度ｔｆと、購読者関係情報に含まれる語彙情報が出現する投稿の数ｄｆの逆数（またはその対数の逆数）ｉｄｆとを用いて、ｔｆ－ｉｄｆの値を求める。

そして制御部１１は、このｔｆ－ｉｄｆの値によって、投稿によらず頻出する語彙情報については比較的一般的に使われ、特徴を表さない語彙情報であるものとして除外してもよい。この場合、制御部１１は、分析対象アカウントごとに、当該除外した後に残っている語彙情報について、各語彙情報が属するクラスタの代表ベクトルの情報Ｖｃxを取り出して、各代表ベクトルを表す情報のヒストグラムを生成し、当該ヒストグラムを、分析対象アカウントの特徴量としてもよい。

［実施の形態の効果］
本実施の形態によれば、情報発信サイトにおける複数の分析対象アカウントの類似性により評価するので、売り上げの情報が得られない場合などであっても組織間、やブランド間の類似性、あるいは、組織とユーザ（人）との間の類似性など、複数のアカウントの間の類似性を、当該複数のアカウントが同質もの（例えばブランドのみ、組織のみ、など）からなっていても、また、異質なものを含む（例えばブランドとユーザ、組織とユーザなど）場合であっても、数値的に評価できる。

１情報分析装置、１１制御部、１２記憶部、１３操作部、１４表示部、１５通信部、２１学習処理部、２２推定処理部、３１情報取得部、３２購読者関係情報収集部、３３関係情報学習部、３４関係情報統合部、４１判定処理部、４２出力部。

Claims

所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、
前記購読者ごとに、当該購読者の投稿に含まれる情報を、当該購読者に関係する購読者関係情報として収集する収集手段と、
当該収集した購読者関係情報に含まれる語彙情報を用いてベクトル値を生成する手段であって、意味または用法が互いに類似する複数の語彙情報のベクトル値が互いに近接するよう機械学習したモデルを用いて、前記語彙情報に係るベクトル値を得る手段と、
前記語彙情報を、対応するベクトル値を用いてクラスタリングする分類手段と、
分析対象アカウントの購読者ごとの前記購読者関係情報に含まれる語彙情報に係るクラスタの出現頻度の情報を得て、当該得られた出現頻度の情報を用いて、一対の分析対象アカウント間の類似性を判定する判定手段と、
前記判定した一対の分析対象アカウント間の類似性を出力する手段と、
を含む情報分析装置。
請求項１に記載の情報分析装置であって、
前記ベクトル値を生成する手段は、購読者関係情報に含まれる語彙情報の投稿ごとの出現頻度と、購読者関係情報に含まれる語彙情報の出現する投稿の数とに基づいて、投稿によらずに頻出する語彙情報を除外してベクトル値を得る情報分析装置。
請求項１または２に記載の情報分析装置であって、
前記購読者関係情報は、投稿に含まれるタグである情報分析装置。
コンピュータを、
所定の情報発信サイトにおける複数の分析対象アカウントについてのそれぞれの購読者の情報を取得する手段と、
前記購読者ごとに、当該購読者の投稿に含まれる情報を、当該購読者に関係する購読者関係情報として収集する収集手段と、
当該収集した購読者関係情報に含まれる語彙情報を用いてベクトル値を生成する手段であって、意味または用法が互いに類似する複数の語彙情報のベクトル値が互いに近接するよう機械学習したモデルを用いて、前記語彙情報に係るベクトル値を得る手段と、
前記語彙情報を、対応するベクトル値を用いてクラスタリングする分類手段と、
分析対象アカウントの購読者ごとの前記購読者関係情報に含まれる語彙情報に係るクラスタの出現頻度の情報を得て、当該得られた出現頻度の情報を用いて、一対の分析対象アカウント間の類似性を判定する判定手段と、
前記判定した一対の分析対象アカウント間の類似性を出力する手段と、
として機能させるプログラム。