JP2008257351A

JP2008257351A - 属性判定装置、属性判定方法及びコンピュータプログラム

Info

Publication number: JP2008257351A
Application number: JP2007096700A
Authority: JP
Inventors: Hideaki Yasukawa; 英明安川; Hironori Katsura; 宏徳桂
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2007-04-02
Filing date: 2007-04-02
Publication date: 2008-10-23
Anticipated expiration: 2027-04-02
Also published as: JP5028128B2

Abstract

【課題】本発明の属性判定装置は、コンテンツデータの内容を解析することにより、コンテンツデータを作成したユーザの属性を判定する。
【解決手段】データ処理部１１は、各ＣＧＭサイト２０からコンテンツデータ２１をそれぞれ収集する。前処理部１２は、コンテンツデータ２１から不要なデータを除去する。属性判定部１３は、複数の解析対象項目に基づいて、コンテンツデータ２１から要素データを抽出する。属性判定部１３は、属性リンクマスタ１４を用いることにより、各属性判定項目に予め対応付けられている各解析対象項目毎に、それぞれの判定結果を求め、各判定結果から総合的な判定結果を求めて属性判定データ２００を生成する。異常検出部１６によって判定結果に異常が検出されると、マスタ補正部１７は、属性リンクマスタ１４の記憶内容を補正する。
【選択図】図１

Description

本発明は、属性判定装置、属性判定方法及びコンピュータプログラムに関する。

インターネット等の大規模通信網及びパーソナルコンピュータの普及に伴って、インターネットを用いた情報伝達の形態が急速に変化しつつある。即ち、マスメディアによる一方的な情報伝達に代えて、一般消費者が生の情報をリアルタイムに生産して自由に流通させるという、いわゆるＣＧＭ（Consumer Generated Media）が注目を集めている。

ＣＧＭとしては、例えば、ソーシャル・ネットワーキングサービス（SNS）、ウェブログ（Blog）、いわゆる口コミサイト、テキストや画像あるいは画像に対するコメント等を投稿する投稿サイト、好みの記事や画像に投票する人気投票サイト、特定の関心事項について意見を交換するコミュニティ等のような、各種ウェブサイトが知られている。

ＣＧＭでは、一般消費者が消費者の立場から客観的に商品やサービス（以下、商品等）に関する情報を自由に生産し、編集し、流通させることができる。例えば、ブログを有するユーザ（ブロガー）は、購入した商品等に満足すれば、その商品等に関する満足感を伝える記事（エントリ）を作成する。この記事に賛成または反対する他のユーザは、その記事に直接コメントを付けることにより、あるいは、自分自身のブログで新たな記事を作成することにより、意見を述べることができる。また、例えば、商品等の使い勝手等に関する情報を集積する口コミサイトでは、より直接的に、その商品等に関する自由な評価が生成される。

このようにＣＧＭでは、一般消費者によって、商品等の直接的な評価が日常的に行われるため、商品等を提供する企業にとって無視できない存在となっている。そこで、消費者による商品等の満足度をネットワークから収集して解析することにより、市場調査等を支援する技術も提案されている（特許文献１）。
特開２００４−１８５５７２号公報

前記文献に記載の技術によれば、商品等の評価を含む投稿の回数や投稿者数等に基づいて、市場調査のための資料を得ることができる。しかし、従来技術では、その商品等に関する市場の全体的な動向を把握可能であったとしても、各消費者がどのような年代、性別、地域に属するのかまでは判断することができない。即ち、商品等の評価を生成する消費者の個人属性までは検出できないため、どのようなカテゴリに属する消費者が商品等を購入しているのか、購入した商品等に満足しているのか等を判断することはできない。

例えば、商品等の評価を投稿する消費者に対して、事前にユーザ登録を求めたり、投稿時に年齢や性別等の記入を求めたりすることも考えられる。また、ブログサイトに公表されたプロフィールとエントリの内容とを対応付けて解析することも考えられる。しかし、ユーザ登録の内容や公表されたプロフィールが正しい情報であるとの保証はない。誰に見られているかわからないネットワーク上では、個人を特定されない程度で年齢や性別をぼかして、あるいは偽って開示する場合が多いと考えられる。従って、例えば、公表された明示的な情報（年齢や性別等）を素直に信じて市場調査用の資料を作成しても、利用価値に乏しいという問題がある。

そこで、本発明の目的は、コンテンツデータの内容を解析することにより、コンテンツデータの作成者の属性を判定できるようにした属性判定装置、属性判定方法及びコンピュータプログラムを提供することにある。本発明の他の目的は、消費者の嗜好や言葉の変化に応じて、コンテンツデータの内容を解析し、コンテンツデータの作成者の属性を判定することができるようにした属性判定装置、属性判定方法及びコンピュータプログラムを提供することにある。本発明のさらなる目的は、後述する実施形態の記載から明らかになるであろう。

上記課題を解決すべく、本発明の一つの観点に従う属性判定装置は、コンテンツデータを収集するデータ収集部と、コンテンツデータの作成者の属性解析に使用される解析用データベースと、収集されたコンテンツデータを解析用データベースを用いて解析することにより、作成者の属性を各コンテンツデータ毎にそれぞれ判定し、その判定結果を第１の属性判定データとして出力する属性判定部と、第１の属性判定データを記憶する記憶部と、属性判定部による判定結果に基づいて、解析用データベースの記憶内容を補正する補正部と、を備える。

本発明の実施形態では、解析用データベースは、複数の属性判定項目と複数の解析対象項目とを所定の対応関係で対応付けて管理する。

本発明の実施形態では、解析用データベースは、所定の対応関係に従って、各解析対象項目のうちの所定の解析対象項目と各属性判定項目のうちの所定の属性判定項目とを予め対応付けて構成される複数のサブデータベースを備えており、かつ、各サブデータベースは、所定の解析対象項目に基づいてコンテンツデータから抽出される要素データと該要素データに予め設定される判定値とを対応付けて管理する。

本発明の実施形態では、属性判定部は、各サブデータベースからそれぞれ取得される判定値に基づいて、作成者の属性を属性判定項目毎にそれぞれ判定する。

本発明の実施形態では、所定の対応関係では、各解析対象項目間に重み付けが設定される。

本発明の実施形態では、補正部は、属性判定部による判定結果に基づいて、重み付けに使用するための係数を補正する。

本発明の実施形態では、補正部は、属性判定部による判定結果が予め設定される許容値を超えた場合に、解析用データベースの記憶内容を補正する。

本発明の実施形態では、解析対象項目には、コンテンツデータに関連づけられている画像データの管理用データ、または、コンテンツデータの更新時刻の少なくともいずれか一方が含まれている。

本発明の実施形態では、記憶部に記憶された各第１の属性判定データに基づいて各作成者毎の属性を示す第２の属性判定データを生成する。

本発明の他の観点に従う、ネットワーク上の記憶装置に蓄積されたコンテンツデータの作成者の属性を解析するための方法は、コンテンツデータを収集するステップと、コンテンツデータから、予め設定される解析対象項目毎に要素データをそれぞれ抽出するステップと、各要素データと解析用データベースとに基づいて、作成者の属性を予め設定される複数の属性判定項目毎にそれぞれ判定し、その判定結果を第１の属性判定データとして出力するステップと、第１の属性判定データが予め設定される許容値を外れた場合には、第１属性判定データに基づいて解析用データベースの記憶内容を補正するステップと、を含む。

本発明のさらに別の観点に従う、ネットワーク上の記憶装置に蓄積されたコンテンツデータの作成者の属性を解析するためのコンピュータプログラムは、コンテンツデータを収集する機能と、コンテンツデータの作成者の属性解析に使用される解析用データベースを用いてコンテンツデータを解析することにより、作成者の属性を各コンテンツデータ毎にそれぞれ判定し、その判定結果を第１の属性判定データとして出力させる機能と、第１の属性判定データを記憶部に記憶させる機能と、属性判定部による判定結果に基づいて、解析用データベースの記憶内容を補正する機能と、をコンピュータ上に実現させる。

以下、図面に基づき、本発明の実施の形態を説明する。図１は、本実施形態に係る属性判定装置１０の全体構成を示す説明図である。後述のように、属性判定装置１０は、ＣＧＭサイト２０に掲載されている各種コンテンツデータ２１を収集し、収集したコンテンツデータの内容を属性リンクマスタ１４を用いて判定する。属性判定装置１０は、各コンテンツデータ単位の属性判定データ２００を属性データ蓄積部１５に記憶させる。記憶された属性判定データ２００をそのままで、あるいは適宜加工することにより、市場調査等に役立たせることができる。属性判定部１３による判定結果に異常が検出された場合、属性判定装置１０は、属性リンクマスタ１４の記憶内容を補正する。以下、本実施形態を詳細に説明する。

属性判定システムは、少なくとも１つの属性判定装置１０及びＣＧＭサイト２０とを通信ネットワークＣＮで通信可能に接続することによって構成される。先にＣＧＭサイト２０について説明する。各ＣＧＭサイト２０は、「ネットワーク上の記憶装置」に該当し、それぞれ複数のコンテンツデータ２１を記憶している。ここで、ＣＧＭサイト２０としては、例えば、ソーシャル・ネットワーキングサービス、ブログ、口コミサイト、投稿サイト、人気投票サイト、コミュニティサイト等を挙げることができる。コンテンツデータ２１としては、例えば、テキストデータ、グラフィックスデータ、画像データあるいは音楽データ等を挙げることができる。各ＣＧＭサイト２０は、図外のユーザコンピュータとインターネットのような通信ネットワークを介して接続されている。ユーザは、ＣＧＭサイト２０にアクセスして、コンテンツデータ２１を新たに生成したり、既存のコンテンツデータ２１を修正等することができる。

属性判定装置１０の構成を説明する。属性判定装置１０は、例えば、データ収集部１１と、前処理部１２と、属性判定部１３と、属性リンクマスタ１４と、属性データ蓄積部１５と、異常検出部１６と、マスタ補正部１７と、単語等データベース１８とを備えて構成することができる。さらに、属性判定装置１０は、市場分析部３０を備えてもよい。

データ収集部１１は、各ＣＧＭサイト２０に記憶されている各コンテンツデータ２１を収集するものである。前処理部１２は、収集された各コンテンツデータ２１から不要な情報を除去するためのものである。不要な情報とは、コンテンツデータ２１の作成者に関する属性解析に使用しない情報を意味し、例えば、ブログに設定された広告ページへのリンク情報等が該当する。前処理部１２は、単語等のデータベース１８を用いて、コンテンツデータ２１から不要な情報を取り除くことができる。

属性判定部１３は、前処理されたコンテンツデータ２１の内容に基づいて、そのコンテンツデータ２１を作成したユーザの属性を判定するものである。ユーザ属性を判定する方法については、さらに後述するが、属性判定部１３は、コンテンツデータ２１から抽出される複数の要素データと属性リンクマスタ１４とを用いることにより、各コンテンツデータ２１単位でユーザの属性をそれぞれ判定する。

判定結果は、属性判定データ２００（コンテンツ別属性判定データ２００）として、属性データ蓄積部１５に記憶される。属性データ蓄積部１５は「記憶部」に該当する。属性判定データ２００は、「第１の属性判定データ」に該当する。なお、後述のユーザ別属性判定データ２１０は、「第２の属性判定データ」に該当する。

「解析用データベース」としての属性リンクマスタ１４は、予め設定される複数の属性判定項目について判定結果を得るための、複数の「サブデータベース」としてのサブマスタ３１０〜３８０（図５参照）をそれぞれ備える。属性リンクマスタ１４の詳細はさらに後述する。

異常検出部１６は、属性判定部１３による各属性判定項目の判定結果に基づいて、異常が示されたか否かを判定する。異常検出部１６と共に「補正部」を構成するマスタ補正部１７は、属性リンクマスタ１４の記憶内容を補正するものである。補正方法については、さらに後述する。

単語等データベース１８は、テキストマイニング等に利用するための単語データベースや、属性判定に利用するためのリンク情報データベース等を含んで構成される。リンク情報データベースには、例えば、広告サイトのＵＲＬ（Uniform Resource Locator）を検出するための情報等を記憶させることができる。

市場分析部３０は、属性判定装置１０内に設けることもできるし、属性判定装置１０の外部に設けることもできる。市場分析部３０は、コンテンツ別の属性判定データ２００から得られるユーザ別の属性判定データ２１０に基づいて、各コンテンツデータ２１における評価を解析する。即ち、市場分析部３０は、どのような年代、性別、地域のユーザによってどのような評価がされているかを解析する。

なお、図１中では、便宜上、属性判定装置１０を単一のコンピュータ装置であるかのように示している。しかし、これに限らず、複数のコンピュータ装置を用いて、属性判定装置１０を構成することもできる。

図２は、コンテンツデータ２１から解析対象項目別に要素データを抽出する様子を示す説明図である。ここでは、コンテンツデータ２１としてブログのエントリを例に挙げて説明する。解析対象項目とは、コンテンツデータ２１から抽出すべき情報の種類を意味し、例えば、ＵＲＬ１０１Ａ、単語１０１Ｂ、表現１０１Ｃ、ドメイン１０１Ｄ、デザイン１０１Ｅ、フォント１０１Ｆ、ユーザ名１０１Ｇ、画像情報１０１Ｈ及び更新時刻１０１Ｉを挙げることができる。このほかに、そのエントリにコメントを付けたユーザの名前や、そのエントリのトラックバック等の他の情報を解析対象項目に加えることもできる。

ＵＲＬ１０１Ａとは、コンテンツデータとしてのブログエントリの所在を一意に特定するための情報である。図１３で述べるように、ＵＲＬは一定の規則に従った構造を有するため、各コンテンツデータ２１のＵＲＬを解析することにより、同一ユーザに関する各コンテンツデータ２１を抽出することができる。

単語１０１Ｂとは、コンテンツデータ２１に含まれるテキストデータから抽出される単語を意味する。通常の場合、一つのコンテンツデータ２１には複数の単語が含まれているため、解析対象項目の単語１００Ｂについて、複数の単語が要素データとしてそれぞれ検出されることになる。本実施例では、説明の便宜上、要素データとして一つの単語のみを示してある。コンテンツデータ２１内に出現する単語には、例えば、ユーザの興味の対象や生活の様子、知的レベル等が反映される。従って、コンテンツデータ２１中の単語に基づいて、ユーザの属性の少なくとも一部を判定することができる。

表現１０１Ｃとは、コンテンツデータ２１に含まれるテキストデータか抽出される表現を意味する。解析対象項目の表現１０１Ｃについて、例えば、言い回し、方言、語尾、顔文字等が要素データとしてそれぞれ検出される。コンテンツデータ２１内の文章表現には、例えば、ユーザの居住地域、知的レベル、仕事、性格等が反映される。例えば、丁寧な言葉遣いで文章が表現されている場合、そのユーザは所定水準以上の知的レベルを有すると判断することができる。また、青少年の好む若者言葉が多用されている場合、そのユーザの年齢をある程度推測可能である。さらに、特定の地域で使用される方言が含まれている場合、そのユーザの居住地または出生地を推測可能である。従って、コンテンツデータ２１内の表現に基づいて、ユーザの属性の少なくとも一部を判定可能である。

ドメイン１０１Ｄとは、コンテンツデータ２１の属するＳＮＳ等を識別するための解析対象項目である。例えば、働く女性専用のＳＮＳ、特定地域に居住するメンバー専用のＳＮＳ等のように、メンバーの属性に応じてＳＮＳが構築されることがある。従って、どのＳＮＳに属するコンテンツデータ２１であるかを知ることは、その作成者であるユーザの属性解析に役立つ。

デザイン１０１Ｅとは、コンテンツデータ２１のデザイン構成を意味する。解析対象項目のデザイン１０１Ｅについて、例えば、壁紙の色（背景色）、アイコン等の画像素材の種類、テンプレートの種類等の要素データを抽出可能である。ユーザは、性格や心理状態や嗜好に応じて、多数の色彩の中から所望の色彩を選択する。従って、コンテンツデータ２１のデザイン（背景色）に基づいて、ユーザの属性の少なくとも一部を判定することができる。

フォント１０１Ｆとは、コンテンツデータ２１に含まれるテキストデータのフォントを意味する。例えば、明朝体やゴシック体等の種々のフォントの中から、ユーザは、自分の好みに応じたフォントを選択する。フォントの選択には、ユーザの年齢や知的レベル、あるいは性格等が反映される。従って、コンテンツデータ２１で使用されているフォントを解析することにより、ユーザの属性の少なくとも一部を判定可能である。

ユーザ名１０１Ｇとは、コンテンツデータ２１を作成したユーザの名称である。ユーザは、ユーザ名として、本名を使用することもできるし、本名の一部を使用することもできるし、ハンドルネームやニックネームを用いることもできる。本名以外の名称を用いる場合は、アルファベット、記号、ひらがな、カタカナ、漢字、ロシア文字、ギリシア文字、数字等を適宜組み合わせることもできる。どのような文字や記号を用いてユーザ名が構成されているかを知ることは、そのユーザの年齢や性格等を知ることに役立つ。

画像情報１０１Ｈとは、コンテンツデータ２１に含まれる画像から得られる情報を意味する。画像情報としては、例えば、画像の撮影された日時、画像の撮影された場所の緯度経度、画像を撮影した機器の種類等を挙げることができる。例えば、デジタルカメラで撮影される画像データは、Ｅｘｉｆ（Exchangeable Image File Format ）として知られる統一フォーマットを備える。Ｅｘｉｆでは、例えば、撮影日、使用したカメラの種類、カメラのメーカー名、シャッター速度等の撮影条件が含まれている。また、Ｅｘｉｆ形式の画像データに、ＧＰＳ（Global Positioning System）で取得した位置情報を対応付けて保存することも可能である。例えば、ユーザは、デジタルカメラ及びＧＰＳを内蔵した携帯電話のような情報処理装置を用いて、画像を撮影し、撮影した画像をブログに掲載できる。この場合、その画像に含まれる付属情報（撮影条件や位置情報等）には、ユーザの生活圏や行動範囲等の属性が含まれる。従って、画像情報に基づいて、ユーザの属性の少なくとも一部を判定することができる。

更新時刻１０１Ｉとは、そのコンテンツデータ２１が作成された、または修正された時刻を意味する。解析対象項目の更新時刻１０１Ｉでは、例えば、「2006-12-20 20:25:00」のような時刻情報が要素データとして抽出される。予め作成しておいたエントリを予め指定された時刻に掲載する機能をブログサイトが備える場合もあるが、通常の場合、ユーザは、エントリを作成した直後に掲載する。従って、更新時刻には、ユーザの行動時間帯が反映されている。例えば、コンテンツデータ２１の更新時刻が平日の深夜である場合、そのユーザは、平日の昼間は職場や学校等で過ごしていると考えることができる。そこで、更新時刻に基づいてユーザの属性の少なくとも一部を判定することができる。

図３は、ユーザ属性を判定するために使用されるプロファイリングシート１００の例を示す説明図である。プロファイリングシート１００には、上述の単語や表現あるいはユーザ名等の各解析対象項目毎に、各コンテンツデータ２１からそれぞれ抽出された要素データが登録されている。図３中の解析対象項目の「その他」１０１Ｊとしては、例えば、そのコンテンツデータ２１を引用しているサイトのＵＲＬ等を挙げることができる。

プロファイリングシート１００には、各コンテンツデータ２１毎に、それぞれ１つずつのレコードが登録される。各レコードには、各解析対象項目１０１Ａ〜１０１Ｊで抽出される要素データがそれぞれ記憶される。なお、単語や表現の解析対象項目では、それぞれ複数ずつの要素データを抽出可能であるが、紙面の都合上、それぞれ１つずつ抽出されるかのように示してある。

図４は、プロファイリングシート１００と属性リンクマスタ１４とに基づいて、コンテンツ別の属性判定データ２００を生成する様子を示す説明図である。属性判定データ２００には、各コンテンツデータ２１毎にそれぞれ１つずつのレコードが登録される。各レコードには、例えば、ＵＲＬ２０１Ａ、性別（図４中では便宜上、女性度と示す）２０１Ｂ、生活圏２０１Ｃ、第１の生活パターン２０１Ｄ、第２の生活パターン２０１Ｅ、職業２０１Ｆ、性質２０１Ｇ及びその他２０１Ｈの各属性判定項目毎に、その判定結果が記憶されている。そして、各属性判定項目は、その判定しようとする属性の性質に応じて、少なくとも一つ以上の解析対象項目と対応付けられている。

ＵＲＬ２０１Ａは、そのコンテンツデータ２１を一意に特定するための項目であり、解析対象項目のＵＲＬ１０１Ａに対応付けられている。ＵＲＬ２０１には、ＵＲＬ１０１Ａで抽出されるデータが登録される。

性別２０１Ｂは、そのコンテンツデータ２１を作成したユーザの性別を判定するための項目であり、例えば、解析対象項目の単語１０１Ｂ、表現１０１Ｃ、デザイン１０１Ｅ、ユーザ名１０１Ｇと対応付けられている。これらの予め対応付けられている各解析対象項目毎にそれぞれユーザの性別が判定され、各判定結果を総合的に考慮して得られる性別が性別２０１Ｂに登録される。

生活圏２０１Ｃは、そのコンテンツデータ２１を作成したユーザの居住または活動する地域を判定するための項目であり、例えば、解析対象項目の単語１０１Ｂ、表現１０１Ｃ、画像情報１０１Ｈと対応付けられている。前記同様に、これらの予め対応付けられている各解析対象項目毎にそれぞれユーザの生活圏が判定され、各判定結果を総合的に考慮して得られる生活圏が生活圏２０１Ｃに登録される。

第１の生活パターン２０１Ｄは、そのユーザの一つの生活パターンを判定するための項目であり、例えば、解析対象項目の単語１０１Ｂ及び更新時刻１０１Ｉと対応付けられている。第１の生活パターン２０１Ｄは、そのユーザの行動時間帯を推測するための項目である。前記同様に、予め対応付けられている各解析対象項目毎にそれぞれユーザの行動時間帯が判定され、各判定結果を総合的に考慮して得られる行動時間帯が第１の生活パターン２０１Ｄに登録される。

以下同様に、第２の生活パターン２０１Ｅは、そのユーザの他の生活パターンを判定するための項目であり、例えば、解析対象項目の更新時刻１０１Ｉに対応付けられている。第２の生活パターン２０１Ｅは、そのユーザの休日を判定するためのものである。

職業２０１Ｆは、そのユーザの職業を判定するための項目であり、例えば、解析対象項目の単語１０１Ａに対応付けられている。性質２０１Ｇは、そのユーザの性質、性格を判定するための項目であり、例えば、解析対象項目の表現１０１Ｃ、デザイン１０１Ｅに対応付けられている。

その他２０１Ｈとしては、例えば、そのユーザの購買力、そのユーザの趣味等を挙げることができる。これらの属性を判定するための項目は、予め所定の解析対象項目に対応付けられる。なお、上述した解析対象項目と属性判定項目との対応関係は、一例であって、本発明は上述の例に限定されない。

図５は、属性リンクマスタ１４の構成例を示す説明図である。属性リンクマスタ１４は、例えば、各解析対象項目毎のサブマスタ３１０〜３８０と、重み付けマスタ３９０とを含んで構成される。

単語判定マスタ３１０は、単語の出現頻度を管理するテーブル３１１と、各属性判定項目毎のテーブル３１２〜３１７を備えている。上述の通り、本実施例では、解析対象項目の単語は幾つかの属性判定項目に予め対応付けられているが、全ての解析対象項目に対応付けられるわけではない。従って、本実施例では、単語と対応付けられている属性判定項目についてのテーブルのみを用意すれば足りる。しかし、図５中では、説明の便宜上、コンテンツデータ２１から抽出された単語と各属性判定項目との関係を示す全てのテーブル３１２〜３１７を図示してある。なお、単語と対応付けられてない属性判定項目についても、値を設定しないか、あるいは、仮定の初期値を設定したテーブルを予め用意しておく構成としてもよい。

同様に、表現判定マスタ３２０も、表現の出現頻度を管理するテーブル３２１と、各属性判定項目毎のテーブル３２２〜３２７とを備えている。その他の解析対象項目についても、それぞれ判定マスタ３３０〜３８０が用意されており、これら各判定マスタ３３０〜３８０も、同様に、各属性判定項目毎のテーブルを備えることができる。なお、出現頻度を管理するためのテーブルを、全ての判定マスタが備える必要はなく、出現頻度を管理すべき解析対象項目に関する判定マスタのみが備えればよい。重み付けマスタ３９０については、さらに後述する。

各判定マスタ３１０〜３８０は、若干の相違はあるものの基本的に同様の、または類似の構成を備える。従って、以下の説明では、単語判定マスタ３１０を例に挙げて説明することとする。

図６は、単語の出現頻度を管理するためのテーブル３１１と、単語と性別の関連を管理するテーブル３１２との構成例を示す説明図である。先にテーブル３１１を説明する。テーブル３１１では、例えば、コンテンツデータ２１から抽出された要素データとしての単語と、各単語の出現回数と、各期間毎の出現頻度等を管理する。このテーブル３１１によって、単語の使用回数の変化や季節変化、他の単語との関係を推測できる。

単語と性別の関係を管理するテーブル３１２では、要素データとして抽出される各単語毎に、性別の判定値が予め設定されている。ユーザの性別によって、各単語の使用頻度は相違すると考えられる。例えば、紳士用品に関する単語等は、男性ユーザに使用される確率の方が女性ユーザに使用される確率よりも低いと考えられる。各単語に設定される性別の判定値は、属性判定装置１０がコンテンツデータ２１を解析するにつれて、自動的に補正することができる。

図７は、単語と年齢の関係を示すテーブル３１３と、単語と地域（以下、上述の生活圏のことを地域と示す場合がある）の関係を示すテーブル３１４との構成例を示す説明図である。

単語と年齢の関係を示すテーブル３１３では、各単語毎に、その単語を使用するユーザの年齢区分の確率値が設定される。例えば、時代の変遷につれて言葉は変化するため、単語から年齢を推測可能である。なお、テーブル３１３では、１０代、２０代、３０代、４０代等のように、１０歳を初期値として１０年単位で年齢を区切っているが、これに限らず、例えば、青少年、中年、老年等のような区分でもよい。

単語と地域の関係を示すテーブル３１４では、各単語毎に、その単語を使用するユーザの活動地域区分の確率値が設定される。例えば、特定地域の名産、特定地域のみで活動している企業名等のように、ユーザの使用する単語に、ユーザの活動する地域の情報が反映される可能性がある。なお、テーブル３１４では、関東、関西、東海、東北及び北海道、四国及び中国、九州及び沖縄のように地域を区切っているが、これに限らず、例えば、東日本と西日本のように範囲を広げたり、あるいは、東京都や大阪府のように範囲を狭めたりすることも可能である。

図８は、重み付けマスタ３９０の例を示す説明図である。重み付けマスタ３９０は、各属性判定項目毎に、各解析対象項目の重み付け係数が予め設定される。重み付け係数に「０」が設定される解析対象項目については、その属性の判定に際して利用されない。重み付け係数の値が大きい解析対象項目は、その属性の判定に際して重視される。つまり、重み付けマスタ３９０は、各属性の判定に際してどの解析対象項目をどの程度重視するかを管理している。重み付け係数の初期値は、属性判定装置１０がコンテンツデータ２１の解析を進めるにつれて自動的に補正することができる。

図９〜図１２に基づいて、属性判定方法を説明する。なお、以下に示す各フローチャートは、本発明の理解及び実施に必要な範囲で各処理の概要を示しており、実際のコンピュータプログラムとは相違する。いわゆる当業者であれば、フローチャート中のステップの実行順序を入れ替えたり、ステップを削除したり、新たなステップを追加したり、他のステップに入れ替えたりすることができる場合もあろう。

図９は、属性判定方法の全体を示す概略フローチャートである。属性判定装置１０は、通信ネットワークＣＮ上の各ＣＧＭサイト２０から各コンテンツデータ２１をそれぞれ収集し（Ｓ１０）、収集したコンテンツデータ２１から不要なデータを除去し（Ｓ１１）、プロファイリングシート１００を生成する（Ｓ１２）。

属性判定装置１０は、プロファイリングシート１００と属性リンクマスタ１４とに基づいて、各コンテンツデータ単位でユーザの属性を判定する（Ｓ１３）。そして、属性判定装置１０は、属性リンクマスタ１４を補正し（Ｓ１４）、属性判定データ２００を生成して属性データ蓄積部１５に保存する（Ｓ１５）。

図１０は、図９中にＳ１３で示す属性判定処理の詳細を示すフローチャートである。属性判定装置１０（以下、装置１０）は、上述した性別や年齢等の各属性判定項目のうち、判定対象の属性判定項目をいずれか１つ選択する（Ｓ２０）。

装置１０は、例えば、選択された属性判定項目について重み付けマスタ３９０を参照することにより、判定対象の属性判定項目に対応づけられている解析対象項目を１つ選択する（Ｓ２１）。

装置１０は、選択された解析対象項目について属性を判定し（Ｓ２２）、その判定結果を記憶する（Ｓ２３）。装置１０は、対象の属性判定項目に対応付けられている全ての解析対象項目に関する判定結果を得たか否かを判定する（Ｓ２４）。対象の属性判定項目に対応付けられている解析対象項目には、重み付けマスタ３９０において「０」以外の値が設定されている。装置１０は、対象の属性判定項目に対応する全ての解析対象項目についての判定結果を得るまで（S24:NO）、Ｓ２２及びＳ２３を繰り返す。

対象の属性判定項目に対応する全ての解析対象項目についての判定結果を得た場合（S24:YES）、装置１０は、各解析対象項目で得られた判定結果に基づいて総合的な判定を行う（Ｓ２６）。即ち、装置１０は、各解析対象項目における判定結果に重み付け係数を乗じた値を積算等することにより、最終的な判定結果を得る。

装置１０は、対象の属性判定項目についての総合判定の結果をコンテンツ別の属性判定データ２００に記憶させる（Ｓ２７）。装置１０は、全ての属性判定項目について判定を終えたか否かを判断する（Ｓ２８）。未判定の属性判定項目が残っている場合（S28:NO）、装置１０は、次の属性判定項目を１つ選択し（Ｓ２９）、Ｓ２１に戻る。

図１１は、図１０中にＳ２２で示す解析対象項目による判定処理を示すフローチャートである。装置１０は、その解析対象項目で抽出された要素データ（以下、対象データと呼ぶ場合がある）が複数存在する場合、処理対象のデータを一つ選択する（Ｓ４０）。

装置１０は、属性リンクマスタ１４内の所定のテーブルを参照し（Ｓ４１）、対象データ（例えば、単語「WEB2.0」）が属性リンクマスタ１４内の所定のテーブルに登録されているか否かを判定する（Ｓ４２）。所定のテーブルとは、例えば、解析対象項目が単語であって、かつ、対象の属性判定項目が性別である場合、単語判定マスタ３１０内のテーブル３１２である。

対象データが属性リンクマスタ１４内の所定のテーブルに登録されている場合（S42:YES）、装置１０は、対象データに関して予め設定されている判定値（確率値）を取得する（Ｓ４３）。

これに対し、対象データが属性リンクマスタ１４内の所定のテーブルに登録されていない場合（S42:NO）、装置１０は、他の解析対象項目における判定結果が既に得られているか否かを判定する（Ｓ４４）。

他の解析対象項目における判定結果が得られている場合（S44:YES）、装置１０は、その未登録の対象データを登録するためのマスタレコードを所定のテーブル内に生成し（Ｓ４５）、他の解析対象項目で得られた判定結果に応じた判定値を、その未登録の対象データの判定結果として設定する（Ｓ４６）。

具体例を挙げて説明する。現在処理中の属性判定項目が性別、処理中の解析対象項目が単語、対象データが「WEB2.0」であると仮定する。この単語「WEB2.0」は、比較的新しい単語であるため、テーブル３１２には登録されていないと仮定する。

この場合、装置１０は、性別に関連づけられている他の解析対象項目（例えば、表現、ドメイン、デザイン、ユーザ名等）について、性別の確率値が得られているか否かを判定する。例えば、女性専用のＳＮＳから収集されたコンテンツデータ２１の場合、その作成者であるユーザは、ほぼ女性であると推測可能である。また、例えば、コンテンツデータ２１に使用されている背景色がピンク色であり、コンテンツデータ２１に草花のアイコン画像等が表示されている場合、そのユーザは女性である確率が高いと判定できる。従って、装置１０は、未登録単語「WEB2.0」を使用するユーザが女性である確率を、例えば、７０％程度の高い値に設定することができる。

このように、本実施例では、一つの属性判定項目に複数の解析対象項目が対応付けられている場合、各解析対象項目毎にそれぞれ独立した判定結果を得ることができ、ある解析対象項目で得られた判定値を、他の解析対象項目に登録されていないデータの判定値を設定するために利用することができる。従って、最新のデータであっても、比較的信頼性の高い初期値（初期設定される確率値）を設定して対応することができる。

装置１０は、解析対象項目について抽出されて全ての要素データについて判定を終えたか否かを判定し（Ｓ４７）、未判定の要素データが残っている場合（S47:NO）、次の判定対象のデータを選択してＳ４１に戻る（Ｓ４８）。全ての要素データについて判定を終えた場合（S47:YES）、本処理は終了し、図１０中のＳ２３に移る。

図１２は、図９中にＳ１４で示す属性リンクマスタ１４を補正するための処理を示すフローチャートである。装置１０は、各属性判定項目毎に、以下に述べるＳ５１〜Ｓ５４をそれぞれ実行する（Ｓ５０）。

装置１０は、ある属性判定項目に対応付けられている各解析対象項目のうち、例外的な値を示す判定値の得られた解析対象項目が存在するか否かを判定する（Ｓ５１）。例外的な値、即ち異常な値が検出されなかった場合（S51:NO）、本処理は終了する。

例外的な値が検出された場合（S51:YES）、装置１０は、同一の対象データについて、所定期間内に所定値以上の例外的値が発生したか否かを判定する（Ｓ５２）。即ち、装置１０は、例外的な判定値を示す対象データが、比較的短い所定期間内に比較的多く発生しているか否かを判定する。

例外的判定値を示す対象データが、所定期間内に所定値以上発生していると判定された場合（S52:YES）、装置１０は、補正率を増加させる（Ｓ５３）。Ｓ５２で「ＮＯ」と判定された場合、装置１０は、初期設定されている通常の補正率を選択する。そして、装置１０は、初期設定された、または増加された補正率を用いて、例外的な判定値を修正する（Ｓ５４）。

具体例を挙げて説明する。例えば、属性判定項目が「地域」であり、地域に予め関連づけられている各解析対象項目「単語」について単語「日本橋」が関西を示す確率（判定値）が８％、「表現」において関西である確率（判定値）が６０％、「画像情報（位置情報）」において「関西」である確率（判定値）が８０％であったと仮定する。そして、各解析対象項目の重み付け係数を考慮した総合的判定値が６７％になったと仮定する。

装置１０は、「単語」、「表現」及び「画像情報（位置情報）」の各判定値から標準偏差及び加重平均をそれぞれ算出し、確率密度を演算する。そして、確率密度が所定値（例えば２０％程度）以下の判定値を、例外的な判定値であるとして検出する。この例では、単語「日本橋」が関西を示す判定値（８％）が例外的な値であるとして検出される。そこで、装置１０は、解析対象項目の「単語」における「日本橋」という単語の判定値を修正し、８％から例えば１０％程度の値に増加させる。

もしも、所定の短期間内に、日本橋という単語が多数のコンテンツデータ２１内に登場している場合（S52:YES）、装置１０は、補正率を増大させて、「日本橋」という単語が関西を示す確率をさらに増加させる。これにより、流行に速やかに対応できる。例えば、大阪の日本橋で注目度の高いイベントが発生した場合、そのイベント開催期間及び前後の期間において、大阪の「日本橋」を意味する単語が多数のコンテンツデータ２１に出現すると考えられる。従って、このように所定期間内に例外的な判定値を示す対象データが所定値以上発生する場合には、補正率を通常の値よりも増加させることにより、世間の動向や流行に対応することができる。

本実施例は上述の構成を採用するため、以下の効果を奏する。本実施例では、コンテンツデータ毎に、その作成者であるユーザの属性を判定することができるため、市場調査に有用な基礎資料を比較的簡単に得ることができる。即ち、コンテンツデータに含まれる商品等に対する評価とコンテンツデータの作成者の属性とを対応付けて考察することで、どのようなユーザ層がどのような商品等を購入しているのかを分析できる。

本実施例では、コンテンツデータ毎の属性判定結果に基づいて、属性リンクマスタ１４の記憶内容を補正することができる。従って、属性リンクマスタ１４の記憶内容を流行の変化等に追従させることができ、判定精度を高めることができる。

本実施例では、複数の属性判定項目に複数の解析対象項目をそれぞれ対応付けることが可能である。従って、ある項目の属性について複数の観点から判定することができ、属性判定の精度が向上する。例えば、ユーザがブログのプロフィール欄で性別や年齢、あるいは生活圏を偽っている場合でも、ブログのエントリに出現する単語や表現あるいは画像情報中の位置情報等から、真の性別や年齢あるいは生活圏を推測可能である。

本実施例では、属性判定項目に対応付けられる各解析対象項目に重みを付けて総合的に判定する構成である。従って、例えば、属性判定結果に応じて重み付け係数の値を適宜調整することにより、判定精度を常に改善することができる。

本実施例では、例外的な判定値を示す対象データを検出した場合に、その判定値を他の解析対象項目の判定値に基づいて補正する。これにより、流行の変化等に応じて属性リンクマスタ１４を改良することができる。

図１３，図１４に基づいて、本発明の第２実施例を説明する。本実施例を含む下記の実施例は、前記第１実施例の変形例に該当する。本実施例では、コンテンツデータ別の属性判定データ２００から、ユーザ別の属性判定データ２１０を生成することにより、市場分析に役立たせる。

図１３は、ユーザ別の属性判定データ２１０を生成する様子を示す説明図である。各コンテンツデータ２１は、そのＵＲＬによって一意に特定される。そして、通常の場合、同一のＣＧＭサイト２０において同一ユーザには、同一のユーザＩＤが設定される。ユーザＩＤは、そのユーザにより生成されるコンテンツデータ２１のＵＲＬの一部として使用される。従って、図１３中に示すように、コンテンツ別の属性判定データ２００をユーザ毎に分類するための機能１９は、同一のユーザＩＤを含むコンテンツデータ２１を、同一ユーザによって生成されたものであると判断してグループ化する。これにより、各ユーザ毎の属性判定データ２１０を得ることができる。ユーザ別の属性判定データ２１０は、属性データ蓄積部１５に保存することができる。

図１４は、市場分析処理を示すフローチャートである。市場分析部３０は、通信ネットワーク上の各コンテンツデータ２１の中から検索対象の商品名（サービス名でもよい）を含むコンテンツデータ２１を抽出する（Ｓ６０）。この抽出には、一般的な検索エンジンを利用することができる。

市場分析部３０は、対象商品名を含む各コンテンツデータ２１をテキスト分析し、評価算出テーブル２２０を用いて、各コンテンツデータ２１における対象商品の評価を数値化する（Ｓ６１）。評価算出テーブル２２０は、例えば、肯定的評価を算出するためのテーブルと、否定的評価を示すためのテーブルとを備えて構成される。肯定的な表現には、その強度に応じた正の値が設定される。否定的な表現には、その強度に応じた負の値が設定される。そして、肯定的評価の値と否定的評価の値との合計値を、そのコンテンツデータ２１における対象商品の評価値として使用する。なお、上記の方法は、対象表品の評価を数値化するための単純な例であり、本発明は上記方法に限定されない。

市場分析部３０は、ユーザ別の属性判定データ２１０を参照し（Ｓ６２）、Ｓ６０で抽出された各コンテンツデータ２１における評価と、そのコンテンツデータ２１の作成者であるユーザの属性とを対応付ける（Ｓ６３）。市場分析部３０は、対象商品に対して、どのようなユーザ層がどのように評価しているのか等を解析し、その解析結果を出力する（Ｓ６４）。

なお、Ｓ６０で抽出されたコンテンツデータ２１を作成したユーザの属性が、Ｓ６２の時点で不明である場合、装置１０は、ユーザ属性が不明なコンテンツデータ２１について、第１実施例で述べたような方法で属性を判定することができる。

このように構成される本実施例も第１実施例と同様の効果を奏する。これに加えて、本実施例では、コンテンツデータ２１における対象商品の評価と、その評価を与えたユーザの属性とを対応付けて解析できるため、より有用な資料を作成することができる。

図１５に基づいて第３実施例を説明する。本実施例では、図１５のフローチャートに示すように、例外的な判定値を示す対象データが所定期間内に所定値以上発生した場合（S52:YES）、トレンドを検出するための処理を起動させる。

トレンド検出処理では、補正率が増加された対象データを、最近のトレンドの一つであるとして出力する（Ｓ７０）。例えば、前記の例で言えば、大阪の「日本橋」を意味する「日本橋」が短期間で多数のブログに登場した場合、トレンド検出処理は、流行の言葉または流行の地域として「日本橋」を出力する。

なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。例えば、当業者であれば、前記各実施例を適宜組み合わせることができる。

本発明の実施形態に係る属性判定装置を含む情報処理システムの全体構成を示す説明図である。コンテンツデータから解析対象項目毎にデータを抽出する様子を示す説明図である。属性判定に使用されるプロファイリングシートの例を示す説明図である。プロファイリングシートに属性リンクマスタを適用することにより、コンテンツ別の属性判定データを生成する様子を示す説明図である。属性リンクマスタの構成を示す説明図である。単語と出現頻度の関係を管理するテーブル及び単語と性別の関係を管理するテーブルを示す説明図である。単語と年齢の関係を管理するテーブル及び単語と地域の関係を管理するテーブルを示す説明図である。重み付け係数を管理するマスタを示す説明図である。属性判定処理の全体を示すフローチャートである。図９中のＳ１３の詳細を示すフローチャートである。図１０中のＳ２２の詳細を示すフローチャートである。図９中のＳ１４の詳細を示すフローチャートである。第２実施例に係り、コンテンツ別の属性判定データからユーザ別の属性判定データを生成する様子を示す説明図である。コンテンツデータにおける対象商品等の評価とそのコンテンツデータを作成したユーザの属性とを対応付けて解析するための処理を示すフローチャートである。第３実施例に係り、属性リンクマスタを補正する処理を示すフローチャートである。

符号の説明

１０…属性判定装置、１１…データ収集部、１２…前処理部、１３…属性判定部、１４…属性リンクマスタ、１５…属性データ蓄積部、１６…異常検出部、１７…マスタ補正部、１８…単語等データベース、１９…ユーザ別属性判定データを生成する機能、２０…ＣＧＭサイト、２１…コンテンツデータ、３０…市場分析部、１００…プロファイリングシート、２００…コンテンツ別属性判定データ、２１０…ユーザ別属性判定データ
２２０評価算出テーブル、３１０〜３８０…各解析対象項目毎の判定マスタ、３１２〜３１７…テーブル

Claims

コンテンツデータを収集するデータ収集部と、
前記コンテンツデータの作成者の属性解析に使用される解析用データベースと、
収集された前記コンテンツデータを前記解析用データベースを用いて解析することにより、前記作成者の属性を前記各コンテンツデータ毎にそれぞれ判定し、その判定結果を第１の属性判定データとして出力する属性判定部と、
前記第１の属性判定データを記憶する記憶部と、
前記属性判定部による判定結果に基づいて、前記解析用データベースの記憶内容を補正する補正部と、
を備える属性判定装置。
前記解析用データベースは、複数の属性判定項目と複数の解析対象項目とを所定の対応関係で対応付けて管理する請求項１に記載の属性判定装置。
前記解析用データベースは、前記所定の対応関係に従って、前記各解析対象項目のうちの所定の解析対象項目と前記各属性判定項目のうちの所定の属性判定項目とを予め対応付けて構成される複数のサブデータベースを備えており、かつ、
前記各サブデータベースは、前記所定の解析対象項目に基づいて前記コンテンツデータから抽出される要素データと該要素データに予め設定される判定値とを対応付けて管理する請求項２に記載の属性判定装置。
前記属性判定部は、前記各サブデータベースからそれぞれ取得される前記判定値に基づいて、前記作成者の属性を前記属性判定項目毎にそれぞれ判定する請求項３に記載の属性判定装置。
前記所定の対応関係では、前記各解析対象項目間に重み付けが設定される請求項２に記載の属性判定装置。
前記補正部は、前記属性判定部による判定結果に基づいて、前記重み付けに使用するための係数を補正する請求項５に記載の属性判定装置。
前記補正部は、前記属性判定部による判定結果が予め設定される許容値を超えた場合に、前記解析用データベースの記憶内容を補正する請求項１に記載の属性判定装置。
前記解析対象項目には、前記コンテンツデータに関連づけられている画像データの管理用データ、または、前記コンテンツデータの更新時刻の少なくともいずれか一方が含まれている請求項２に記載の属性判定装置。
前記記憶部に記憶された前記各第１の属性判定データに基づいて前記各作成者毎の属性を示す第２の属性判定データを生成する請求項１に記載の属性判定装置。
ネットワーク上の記憶装置に蓄積されたコンテンツデータの作成者の属性を解析するための方法であって、
前記コンテンツデータを収集するステップと、
前記コンテンツデータから、予め設定される解析対象項目毎に要素データをそれぞれ抽出するステップと、
前記各要素データと解析用データベースとに基づいて、前記作成者の属性を予め設定される複数の属性判定項目毎にそれぞれ判定し、その判定結果を第１の属性判定データとして出力するステップと、
前記第１の属性判定データが予め設定される許容値を外れた場合には、前記第１属性判定データに基づいて前記解析用データベースの記憶内容を補正するステップと、
を含む属性判定方法。
ネットワーク上の記憶装置に蓄積されたコンテンツデータの作成者の属性を解析するためのコンピュータプログラムであって、
前記コンテンツデータを収集する機能と、
前記コンテンツデータの作成者の属性解析に使用される解析用データベースを用いて前記コンテンツデータを解析することにより、前記作成者の属性を前記各コンテンツデータ毎にそれぞれ判定し、その判定結果を第１の属性判定データとして出力させる機能と、
前記第１の属性判定データを記憶部に記憶させる機能と、
前記属性判定部による判定結果に基づいて、前記解析用データベースの記憶内容を補正する機能と、
をコンピュータ上に実現させるコンピュータプログラム。