JP2010218475A

JP2010218475A - ブログ分析方法及び装置

Info

Publication number: JP2010218475A
Application number: JP2009067173A
Authority: JP
Inventors: Junya Nakoshi; 潤也名越; Tetsuro Takahashi; 哲朗高橋; Yoshimi Yaegashi; 芳美八重樫; Daisuke Kamishiro; 大輔神代
Original assignee: Nifty Corp
Current assignee: Nifty Corp
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2010-09-30

Abstract

【課題】一般に公開されていない場合においてもブログ記事の情報伝播力を表す閲覧数を推定する。
【解決手段】本ブログ分析方法は、ブログ記事の識別情報とコメント数と被リンク数とトラックバック数とブログ記事データとを含む、閲覧数が既知の記事レコードのうち、予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出する工程、抽出された記事レコードと、当該記事レコードのブログ記事の識別情報に対応する閲覧数とから、閲覧数を従属変数とし、コメント数と被リンク数とトラックバック数とを独立変数とする回帰モデルの係数を算出する工程と、閲覧数が未知の記事レコードに含まれるコメント数と被リンク数とトラックバック数と回帰モデルの係数とから、閲覧数が未知の記事レコードの各々について閲覧数を推定する工程とを含む。
【選択図】図１

Description

本発明は、ブログ記事の分析技術に関する。

現在ブログ（＝ウェブログ）は、個人の情報発信媒体として広く利用されている。有用な情報や趣味などで興味を引くような情報を頻繁に更新して掲載しているブログには、固定の閲覧者がついて、ページビュー（Page View:ＰＶ）が非常に高いブログも存在している。このようなブログを介して商品やサービスなどの口コミ情報が広がることもある。従って、企業側もブログにおいて自社製品等がどのように取り上げられているかについて注意を払うようになってきている。また、一部の企業は商品広告のためのブログを掲載している場合もある。

なお、特開２００６−２０９５９８号公報には、情報を配信しているサイトの情報をより多く集めることが可能であると共に、閲覧者が容易に有用な配信サイトを判断することが可能なサイト情報収集システムが開示されている。具体的には、システムは、サーバコンピュータ上に開設され、閲覧用情報を配信すると共に、当該閲覧用情報の要約データを保有するサイトである配信サイトと、配信サイトからネットワークを介して配信される閲覧用情報を閲覧する端末装置である閲覧端末と、配信サイトに関する情報を登録するサーバコンピュータであるＰＩＮＧサーバにより構成される。そして、配信サイトが保有する要約データは、ＰＩＮＧサーバに当該要約データのＵＲＩを送信するためのＰＩＮＧサーバ送信用モジュールを有しており、閲覧端末は、配信サイトから要約データを取得して解析し、解析した内容に従って、ＰＩＮＧサーバ送信用モジュールに記録されたＵＲＩをＰＩＮＧサーバに送信する機能を有している。そして、ＰＩＮＧサーバは、閲覧端末から受信したＵＲＩを登録する機能を有する。そして、ＰＩＮＧサーバは、受信して蓄積したＵＲＩに関する情報を、ＵＲＩ別に集計し、ＵＲＩ別の閲覧数を算出する。このように特別なＰＩＮＧサーバ送信用モジュールを用いて閲覧端末から情報を取得してその情報から閲覧数を算出するような構成は、プライバシの問題もあって実現するのは難しい。

特開２００６−２０９５９８号公報

企業は自社製品等についての各種プロモーションを実施した後、そのプロモーションにより自社製品等がどの程度口コミで広まったかというようなことを確認したい場合がある。このように口コミというものを観点に効果を評価する場合には、ブログ記事は格好の情報ソースであるが、口コミによる広がりを定量化するには、製品等について記述したブログ記事の数だけでは十分ではない。

従って、本発明の目的は、一般に公開されていない場合においてもブログ記事の情報伝播力を表す閲覧数を推定するための技術を提供することである。

本発明に係るブログ分析方法は、ブログ記事の識別情報とコメント数と被リンク数（受信リンク数とも呼ぶ）とトラックバック数とブログ記事データとを含む記事レコードを複数格納している記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた特性（例えば収集されたブログ記事を検索した際の該当件数が満遍なくばらつくというような特性）を有する複数のキーワードのいずれかに該当する記事レコードを抽出する抽出ステップと、抽出された記事レコードと、ブログ記事の識別情報に対応付けて閲覧数を格納する基準データ格納部に当該記事レコードに含まれるブログ記事の識別情報に対応付けられて格納されている閲覧数とから、閲覧数を従属変数とし、コメント数と被リンク数とトラックバック数とを独立変数とする回帰モデルの係数を算出し、モデルデータ格納部に格納するモデル化ステップと、記事データ格納部に格納されている記事レコードのうち閲覧数が未知の記事レコードに含まれるコメント数と被リンク数とトラックバック数とモデルデータ格納部に格納されている回帰モデルの係数とから、閲覧数が未知の記事レコードの各々について閲覧数を推定し、閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて記事データ格納部に格納する閲覧数推定ステップとを含む。

口コミによる製品名などの広がりを分析する際には、当該製品名などが記述されたブログ記事の数だけではなく、当該ブログ記事の閲覧数をも考慮しなければ、十分な考察とはいえない。しかしながら、閲覧数はブログサイトの管理者でなければ知り得ない場合が多い。そこで、本発明の発明者は、コミュニケーションが活発に行われているブログ、すなわち、コメント数、被リンク数及びトラックバック数が多いブログほど閲覧数も多いという非自明な知見に基づき、閲覧数が分かっているブログ記事についてのこれらのパラメータの値から閲覧数を算出するためのモデルを生成するという構成を同じく非自明に着想した。但し、閲覧数が分かっているブログ記事であれば何でも採用してもよいというわけではなく、生成されるモデルが偏りを有さないように、例えば検索にヒットする記事数が満遍なくばらつくようにキーワードを選択した上で、当該キーワードを含むようなブログ記事を抽出している。このようにして生成されたモデルを用いれば、ある程度の信頼性を有する推定閲覧数を、実閲覧数が未知のブログ記事に対して算出できるようになる。

また、本ブログ分析方法は、分析者端末から検索キーワードを含む分析要求を受信した場合、記事データ格納部を検索キーワードで検索し、検索キーワードを含むブログ記事データを含む記事レコードを抽出し、当該記事レコードの数を計数すると共に、当該記事レコードのブログ記事の識別情報に対応付けて記事データ格納部に格納されている閲覧数の総和を算出し、分析者端末に、抽出された記事レコードの数と閲覧数の総和とを送信する返信ステップをさらに含むようにしてもよい。このようにすれば、分析者は例えば自社製品名などを含む分析要求を出力するだけで、関連するブログ記事数及び閲覧数の総和を得ることができるようになり、口コミによる広がりの程度を評価できるようになる。

さらに、記事レコードが更新日時をさらに含み、分析要求が履歴分析期間をさらに含むような場合もある。そのような場合には、返信ステップにおいて、検索キーワードを含むブログ記事データを含み且つ更新日時が履歴分析期間内である記事レコードを抽出し、当該記事レコードの更新日時に基づき当該記事レコードの数を履歴分析期間における各単位期間について計数すると共に、当該記事レコードの更新日時に基づき当該記事レコードに対応付けられている閲覧数を履歴分析期間における単位期間毎に合計し、分析者端末に、履歴分析期間における各単位期間について該当する記事レコードの数及び閲覧数の合計値を送信するようにしてもよい。このようにすれば、例えば製品等についてのプロモーションの効果を時系列で把握することができるようになる。

さらに、本ブログ分析方法は、記事データ格納部に格納されている記事レコードに対応付けられている閲覧数に基づき、記事レコードに含まれるブログ記事データの集合であるブログの閲覧数を算出し、ブログの識別情報に対応付けて記事データ格納部に格納するステップをさらに含むようにしてもよい。また、ブログ記事の識別情報は、ブログを特定するための情報を含むようにしてもよい。さらに、上で述べた返信ステップが、検索キーワードを含むブログ記事データを含む記事レコードのブログ記事の識別情報からブログを特定し、当該ブログの閲覧数を記事データ格納部から読み出し、特定されたブログを当該ブログの閲覧数でランク付けし、当該ランク毎の該当ブログ数を計数するステップと、ランク毎の該当ブログ数を分析者端末に送信するステップとを含むようにしてもよい。例えば、全体として情報伝播力の大きいブログに製品名等が掲載されることによって閲覧数が伸びているのか、情報伝播力の大きいブログではなく比較的情報伝播力が小さいブログに数多く製品名等が掲載されることによって閲覧数が伸びているのかというような、情報伝播の態様を分析することができるようになる。

さらに、上で述べた抽出ステップにおいて、記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた複数の業種の各々について予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出するようにしてもよい。その場合、上で述べたモデル化ステップにおいて、業種毎に、当該業種についてのキーワードにて抽出された記事レコードと、基準データ格納部に当該記事レコードに含まれる識別情報に対応付けられて格納されている閲覧数とから、閲覧数を従属変数とし、コメント数と被リンク数とトラックバック数とを独立変数とする業種別回帰モデルの係数を算出し、モデルデータ格納部に格納するようにしてもよい。さらに、上で述べた閲覧数推定ステップにおいて、記事データ格納部に格納されている記事レコードのうち閲覧数が未知の記事レコードに含まれるコメント数と被リンク数とトラックバック数とモデルデータ格納部に格納されている各業種別回帰モデルの係数とから、閲覧数が未知の記事レコードの各々について業種別の閲覧数を推定し、閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて記事データ格納部に格納するようにしてもよい。

このように、業種毎にモデルの生成を行うようにすれば、よりきめ細かい閲覧数の推定を行うことができるようになる。

なお、本ブログ分析方法において、業種毎にモデルの生成を行う場合に、分析者端末から検索キーワード及び業種を含む分析要求を受信した場合、記事データ格納部を検索キーワードで検索し、検索キーワードを含むブログ記事データを含む記事レコードを抽出し、当該記事レコードの数を計数すると共に、当該記事レコードのブログ記事の識別情報に対応付けて記事データ格納部に格納されており且つ分析要求に含まれる業種に該当する閲覧数の総和を算出し、分析者端末に、抽出された記事レコードの数と閲覧数の総和とを送信するステップをさらに含むようにしてもよい。このようにすれば、分析者指定の業種について閲覧数の総和を得ることができるようになる。なお、分析者が業種を指定しない場合には、業種を関係なく生成したモデルに従って閲覧数の総和などを算出するようにしても良い。

本発明に係る方法は、コンピュータ・ハードウエアとプログラムとの組み合わせにより実施される場合があり、本発明に係るプログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

本発明によれば、一般に公開されていない場合においてもブログ記事の情報伝播力を表す閲覧数を推定できるようになる。

図１は、本発明の実施の形態におけるシステム概要図である。図２は、メインの処理フローを示す図である。図３は、記事収集処理の処理フローを示す図である。図４は、記事テーブルの最初の段階を示す図である。図５は、記事テーブルの第２の段階を示す図である。図６は、ブログテーブルの最初の段階を示す図である。図７は、ＰＶモデル生成処理の処理フローを示す図である。図８は、サンプルクエリリストの一例を示す図である。図９は、基準ＰＶデータ格納部に格納されているデータの一例を示す図である。図１０は、ＰＶモデル生成処理において生成されるデータの一例を示す図である。図１１は、ＰＶモデル生成処理の処理フローを示す図である。図１２は、ＰＶ推定モデルデータ格納部に格納されるデータの一例を示す図である。図１３は、ＰＶ推定処理の処理フローを示す図である。図１４は、記事テーブルの第３の段階を示す図である。図１５は、ブログテーブルの第２の段階を示す図である。図１６は、分析処理の処理フローを示す図である。図１７は、第１の表示画面例を示す図である。図１８は、第２の表示画面例を示す図である。図１９は、コンピュータの機能ブロック図である。

図１に本発明の実施の形態に係るシステム概要図を示す。例えばインターネットであるネットワーク１には、分析者が操作する１又は複数のユーザ端末３と、閲覧数が未知のブログ記事を保持しており当該ブログ記事の配信を行う複数のブログサーバ１０と、閲覧数が既知であるブログ記事を配信する基準ブログサーバ１１と、分析者が操作するユーザ端末３からの分析要求を受信して分析結果のデータを返信するブログ検索サーバ１７と、ブログサーバ１０及び基準ブログサーバ１１からブログ記事をクロールするクローラサーバ５とが接続されている。

基準ブログサーバ１１は、閲覧数が既知であるブログ記事を格納する基準ブログ記事データ格納部１５と、基準ブログ記事データ格納部１５に格納されているブログ記事の閲覧数（すなわちＰＶ）のデータを格納する基準ＰＶデータ格納部１３とを管理している。また、クローラサーバ５によりクロールされたブログ記事データは、ブログ記事データ格納部９に格納されるようになっており、ブログ記事データ格納部９に格納されるデータは、ブログ記事解析サーバ７により処理される。また、ブログ記事解析サーバ７は、基準ブログサーバ１１及びブログ検索サーバ１７と協働する。さらに、ＰＶ推定モデル生成サーバ１９は、サンプルクエリリスト格納部２３に格納されているデータを用い、基準ブログサーバ１１及びブログ検索サーバ１７と連携してＰＶ推定モデルを生成して、ＰＶ推定モデルデータ格納部２１に格納するようになっている。ＰＶ推定モデルデータ格納部２１に格納されているデータについては、ブログ記事解析サーバ７により用いられる。

次に、図２乃至図１８を用いて図１に示したシステムの処理内容を説明する。まず、図２を用いて処理の概要を示す。最初に、ＰＶ推定モデルを生成するためのブログ記事を収集する記事収集処理を実施する（ステップＳ１）。記事収集処理の詳細については、後に述べる。その後、記事収集処理によって収集されたブログ記事データを用いてＰＶモデル生成処理を実施する（ステップＳ３）。このＰＶモデル生成処理の詳細についても後に述べる。そして、ＰＶモデル生成処理によって生成されたＰＶモデルに従って、ＰＶ推定処理を実施する（ステップＳ５）。ＰＶ推定処理の詳細についても後に述べる。なお、以上が前処理である。但し、ＰＶ推定処理については、例えば定期的に実施して保持データの拡充を行う。

そして、分析者が操作するユーザ端末３から分析要求を受信すると、分析処理を実施し、分析結果を要求元のユーザ端末３に返信する分析処理を実施する（ステップＳ７）。分析処理の詳細についても後に述べる。

以上のような処理を実施することによって、閲覧数（＝ＰＶ）が得られないブログ記事についても閲覧数を推定することができ、これによって例えば自社製品等の、消費者への浸透度合いを分析できるようになる。

次に、記事収集処理（ステップＳ１）について図３乃至図６を用いて説明する。クローラサーバ５は、予め定められたＵＲＬ（Uniform Resource Locator）のブログ記事をブログサーバ１０及び基準ブログサーバ１１から収集し、ブログ記事データ格納部９の記事テーブルに格納する（図３：ステップＳ１１）。ＰＶ推定モデルを生成するため、基準ブログ記事データ格納部１５に格納されている、閲覧数が既知のブログ記事データを基準ブログサーバ１１から必ず取得する。

ブログ記事データ格納部９には、例えば図４に示すような記事テーブルが格納される。図４の例では、記事ＵＲＬと、ブログＩＤと、タイトルと、記事本文と、本ブログ記事の公開日である更新日と、ブログ記事に付随して公開されているコメント数と、ブログ記事に含まれているリンクの数であるリンク数と、ブログ記事に付随して公開されている受信トラックバック（ＴＢ）数とが登録されるようになっている。ステップＳ１１では、収集した個別のブログ記事のデータを探索して、各ブログ記事について他のウェブ（Ｗｅｂ）ページへのリンク数をカウントして、ブログ記事データ格納部９の記事テーブルに登録する。ブログＩＤについては、ブログ記事の集合であるブログを例えばＵＲＬから特定してブログＩＤを発行して登録しても良い。

次に、ブログ記事解析サーバ７は、収集されたブログ記事間のリンク関係を解析して、各収集ブログ記事について、受信リンク数（＝被リンク数）をカウントして、ブログ記事データ格納部９に格納する（ステップＳ１３）。この処理自体は従来から行われている処理であるから、これ以上述べない。但し、図４に示した記事テーブルは、図５に示すような記事テーブルになる。すなわち、受信リンク数の列に、カウント結果が登録されている。

そして、ブログ記事解析サーバ７は、収集されたブログ記事から、ブログデータを生成し、ブログ記事データ格納部９のブログテーブルに格納する（ステップＳ１５）。例えば、ブログ記事の集合であるブログを、例えばＵＲＬのパターンなど（通常はドメイン又はドメイン＋ユーザ識別のための固定のパスに各ブログ記事のファイル名などが付加されたＵＲＬであるからドメイン又はドメイン＋ユーザ識別のための固定のパスで集約できる）で識別して、ブログ内の記事数、平均コメント数、平均リンク数、平均受信トラックバック数、平均受信リンク数を算出する。なお、ステップＳ１１でブログＩＤを発行している場合にはブログ記事の集合はブログＩＤで特定できる。一方、例えばステップＳ１５でブログＩＤを発行して、記事テーブルに登録されている各ブログ記事に登録するようにしても良い。

図６にブログ記事データ格納部９に格納されるブログテーブルの一例を示す。図６の例では、ブログＩＤと、ブログＵＲＬと、ブログタイトルと、ブログ内記事数と、平均コメント数と、平均リンク数と、平均受信トラックバック数と、平均受信リンク数とを含む。

以上のような処理を実施することによって、ＰＶ推定モデル生成の前処理が完了する。

次に、ＰＶモデル生成処理（ステップＳ３）について図７乃至図１２を用いて説明する。ＰＶ推定モデル生成サーバ１９は、サンプルクエリリスト格納部２３に格納されているサンプルクエリリストから未処理のクエリを１つ特定する（ステップＳ２１）。本実施の形態では、ブログにおいて書かれやすく口コミで効果が出やすい主要な業界を例えば１０個ほど選定し、各業界内において代表的な１０個ほどのブランド（例えば製品名など）をキーワードとして予め選択して、サンプルクエリリストに登録しておく。各ブランドを、業界内において、当該ブランドでブログ記事を検索した場合の検索結果である記事数が可能な限り満遍なくばらつくように選択することで、可能な限りブログ全体を偏りなくカバーし且つ代表するようにする。

図８にサンプルクエリリストの一例を示す。図８の例では、業界名に対応付けて当該業界についてのクエリ群が登録されるようになっている。

次に、ＰＶ推定モデル生成サーバ１９は、特定されたクエリをブログ検索サーバ１７に出力し、ブログ検索サーバ１７は当該クエリをさらにブログ記事解析サーバ７に出力し、当該クエリによる検索を実施させる（ステップＳ２３）。そして、ブログ記事解析サーバ７は、記事本文がクエリのキーワードを含むブログ記事を抽出し、ブログ検索サーバ１７を介してＰＶ推定モデル生成サーバ１９に出力する。

ＰＶ推定モデル生成サーバ１９は、検索結果であるブログ記事を受け取ると、抽出されたブログ記事から所定のＵＲＬ（具体的には基準ブログサーバ１１のＵＲＬ）のブログ記事をさらに抽出し、メインメモリなどの記憶装置に格納する（ステップＳ２５）。そして、ステップＳ２５で抽出されたブログ記事に対応するＰＶデータを基準ブログサーバ１１に対して要求する。例えばブログ記事のＵＲＬ及び更新日を含む期間（例えば更新日のみ又は更新日から所定日数後までの期間）を指定してＰＶデータを要求する。基準ブログサーバ１１は、例えばブログ記事のＵＲＬ及び期間の指定を含む要求を受信すると、該当するＰＶデータを基準ＰＶデータ格納部１３から読み出し、ＰＶ推定モデル生成サーバ１９に出力する。基準ＰＶデータ格納部１３には、例えば図９に示すようなデータが格納されている。図９の例では、ブログ記事のＵＲＬに対応付けて、日付及びＰＶが登録されている。ＵＲＬ及び日付が、要求に含まれる条件を満たすレコードをＰＶデータとして読み出す。

ＰＶ推定モデル生成サーバ１９は、基準ブログサーバ１１からＰＶデータを受信すると、ステップＳ２５で抽出されたブログ記事データと結合し、例えばメインメモリなどの記憶装置に格納する（ステップＳ２７）。なお、１つのブログ記事について複数のＰＶ値が得られている場合には、総和を計算する。ここで例えば図１０に示すようなデータを生成する。図１０の例では、クエリが属する業界と、クエリと、このクエリに該当するブログ記事データとして記事ＵＲＬとコメント数と受信リンク数と受信トラックバック数とＰＶとが含まれている。

そうすると、ＰＶ推定モデル生成サーバ１９は、サンプルクエリリストの全てのクエリについて処理したか判断する（ステップＳ２９）。未処理のクエリが存在している場合にはステップＳ２１に戻る。一方、全てのクエリについて処理した場合には、端子Ａを介して図１１の処理に移行する。

図１１の処理の説明に移行して、ＰＶ推定モデル生成サーバ１９は、ステップＳ２７で生成した結合データレコード（図１０）から、未処理の１つの業界について該当する全レコードを抽出する（ステップＳ３１）。そして、ステップＳ３１で抽出されたレコードを基に、ＰＶ数を従属変数とし、コメント数、受信リンク数及び受信トラックバック数を独立変数とする線形回帰モデル（ここでは線形としているが実態に合わせたモデルを選択する）を例えば最小二乗法で算出し、ＰＶ推定モデルデータ格納部２１に格納する（ステップＳ３３）。具体的には、推定ＰＶ数＝α＋β₁＊コメント数＋β₂＊受信リンク数＋β₃＊受信トラックバック数で表される式の係数α、β₁、β₂及びβ₃を算出する。最小二乗法については周知であるからここでは詳細な説明は省略する。

これによって、ＰＶ推定モデルデータ格納部２１には、図１２に示すようなデータが格納される。図１２の例では、業界名毎に、係数α、β₁、β₂及びβ₃が登録されるようになっている。以下でも述べるが、業界が指定されない場合に対応するため、汎用的に用いることができる全業界についての係数も算出するため、ＰＶ推定モデルデータ格納部２１にもそのための列が用意されている。

そして、ＰＶ推定モデル生成サーバ１９は、全ての業界について処理したか判断する（ステップＳ３５）。未処理の業界が存在していれば、ステップＳ３１に戻る。一方、全ての業界について処理した場合には、ステップＳ２７で生成した全結合データレコードから、ＰＶ数を従属変数とし、コメント数、受信リンク数及び受信トラックバック数を独立変数とする線形回帰モデルを例えば最小二乗法で算出し、ＰＶ推定モデルデータ格納部２１に格納する（ステップＳ３７）。基となるデータがステップＳ３３では特定の業界に係るレコードのみであるが、本ステップではステップＳ２７で生成した結合データレコード全部となる。そして元の処理に戻る。

このような処理を実施することによって、特定の業界が指定された場合に用いるＰＶを推定するためのＰＶ推定モデルデータと、特定の業界が指定されない場合に用いるＰＶを推定するためのＰＶ推定モデルデータが得られたことになる。なお、ＰＶ推定モデルについても例えば定期的に更新するようにする。

次に、ＰＶ推定処理（ステップＳ５）の処理内容について図１３乃至図１５を用いて説明する。ステップＳ１で収集されたブログ記事に加えて、クローラサーバ５は、所定のＵＲＬの新規ブログ記事をブログサーバ１０及び基準ブログサーバ１１から収集して、ブログ記事データ格納部９の記事テーブルに格納する（ステップＳ４１）。そして、ブログ記事解析サーバ７は、ブログ記事データ格納部９に格納されているブログ記事データのリンク関係を解析し、各収集ブログ記事について受信リンク数を計数し、ブログ記事データ格納部９の記事テーブルの受信リンク数の列に登録する（ステップＳ４３）。さらに、記事テーブルに登録されているブログ記事データから、ブログテーブルの内容を更新する（ステップＳ４５）。これらのステップは、記事収集処理と基本的には同じである。

その後、ブログ記事解析サーバ７は、ＰＶが未登録のブログ記事を１つ特定する（ステップＳ４７）。そして、特定されたブログ記事のＵＲＬが所定のＵＲＬ（具体的には基準ブログサーバ１１についてのＵＲＬ）であるか判断する（ステップＳ４９）。所定のＵＲＬについてのブログ記事であれば、ＰＶを推定しなくても実績値が基準ＰＶデータ格納部１３に登録されているので、ブログ記事解析サーバ７は、基準ブログサーバ１１に対してＵＲＬ及び期間（例えば更新日又は更新日から所定日数後までの期間）を指定したＰＶデータ要求を送信し、基準ブログサーバ１１は、このようなＰＶデータ要求を受信すると、該当するＰＶデータを基準ＰＶデータ格納部１３から読み出して、ブログ解析サーバ７に返信する。そして、ブログ記事解析サーバ７は、基準ブログサーバ１１からＰＶデータを受信すると、ブログ記事データ格納部９の記事テーブルの全てのＰＶ値の列に登録する（ステップＳ５１）。複数のＰＶ値を受信した場合には合計値を登録する。処理はステップＳ５５に移行する。

一方、特定されたブログ記事のＵＲＬが所定のＵＲＬでない場合には、ブログ記事解析サーバ７は、ＰＶ推定モデルデータ格納部２１に登録されている各業界のＰＶ推定モデルのデータ及び全業界のＰＶ推定モデルのデータから、各業界のＰＶ推定値及び全業界のＰＶ推定値を算出し、ブログ記事データ格納部９の記事テーブルの各ＰＶ値の列に登録する（ステップＳ５３）。処理はステップＳ５５に移行する。

ステップＳ５１及びＳ５３でＰＶ値が登録された記事テーブルの一例を図１４に示す。図１４の例では、図５に示した記事テーブルに、各業界のＰＶ値及び全業界のＰＶ値を登録するための列が追加されている。なお、ステップＳ５１の場合には、ＰＶの実績値が登録されるが、この場合には各業界及び全業界のＰＶ値は同じになる。一方、ステップＳ５３の場合には、各業界及び全業界についてのＰＶの推定値が登録される。このように実績値を得られる場合には、その値を用いるようにしてもよいし、全てのブログ記事について推定値を算出して登録するようにしても良い。

ステップＳ５５において、ブログ記事解析サーバ７は、全てのブログ記事にＰＶを登録したか判断する。ＰＶが未登録のブログ記事が存在する場合にはステップＳ４７に戻る。一方、全てのブログ記事にＰＶが登録された場合には、ブログ記事解析サーバ７は、ブログ記事のＰＶ値をブログ単位で集計し、集計結果でブログテーブルを更新する（ステップＳ５７）。例えば図１５に示すようなブログテーブルが得られる。図１５の例では、図６のブログテーブルに、ブログ全体について各業界のＰＶ（ブログ記事ＰＶの合計）とブログ全体について全業界のＰＶ（ブログ記事ＰＶの合計）とが登録されるようになっている。なお、ここでは各ブログ記事のＰＶ値を合計する例を示したが、単純な合計ではなく更新日などに応じて重み付けを行ってから加算するようにしても良い。

以上のような処理を実施することによって、外部からＰＶ値を知り得ないようなブログ記事及びブログについても、ＰＶ推定モデルのデータを用いて基準となるブログ記事及びブログの傾向に応じてＰＶ値を設定することができるようになる。

次に、分析処理（ステップＳ７）について図１６乃至図１８を用いて説明する。まず、分析者は、ユーザ端末３を操作して、対象期間、業界名及び商品名（キーワード）並びに表示方法を入力する。業界名については指定しなくとも良い。ユーザ端末３は、分析者の入力を受け付け、対象期間、業界名及び商品名並びに表示方法を指定した検索要求をブログ検索サーバ１７に送信する（ステップＳ６１）。ブログ検索サーバ１７は、ユーザ端末３から、対象期間、業界名及び商品名並びに表示方法を指定した検索要求を受信すると（ステップＳ６３）、対象期間及び商品名でブログ記事を検索するようにブログ記事解析サーバ７に対して要求する。ブログ記事解析サーバ７は、更新日が対象期間内であって且つ記事本文に商品名が含まれるブログ記事のデータをブログ記事データ格納部９から読み出し、ブログ検索サーバ１７に出力する。ブログ検索サーバ１７は、ブログ記事解析サーバ７から該当するブログ記事データを取得する（ステップＳ６５）。

そして、ブログ検索サーバ１７は、検索要求に含まれる表示方法が履歴表示であるか判断する（ステップＳ６７）。履歴表示でない場合には、ブログ検索サーバ１７は、ブログ記事データに含まれるブログＩＤを含むブログデータ要求をブログ記事解析サーバ７に送信する。ブログ記事解析サーバ７は、ブログＩＤを含むブログデータ要求を受信すると、ブログテーブルからブログデータ要求に含まれるブログＩＤに対応するブログデータを読み出し、ブログ検索サーバ１７に返信する。ブログ検索サーバ１７は、ブログ記事解析サーバ７からブログデータを受け取る（ステップＳ７６）。そして、ステップＳ６５で取得した、検索要求に該当するブログ記事の記事数を計数すると共に、検索要求に含まれる業界名についてのＰＶ値を集計し、例えばメインメモリなどの記憶装置に格納する（ステップＳ７７）。なお、業界名が指定されていない場合には、全業界についてのＰＶ値を合計する。

さらに、ブログ検索サーバ１７は、ステップＳ７６で取得したブログデータを、検索要求に含まれる業界名についてのＰＶ値でソートし、予め規定されている各ランクについての閾値とＰＶ値を比較して各ブログがどのランクに属するかを把握し、各ランクについて所属するブログの件数をカウントする（ステップＳ７９）。そして、ステップＳ７７及びＳ７９の処理結果を含む状態表示ページデータを生成する（ステップＳ８１）。その後、生成されたページデータをユーザ端末３に送信する（ステップＳ８３）。ユーザ端末３は、ブログ検索サーバ１７から生成されたページデータを受信し、表示装置に表示する（ステップＳ８５）。例えば、図１７に示すような表示画面が表示される。

図１７の表示画面例では、「カラダ」という飲料業界の商品名について検索した場合の結果を示している。口コミでの広がりを示すために、ステップＳ７７で計数された記事数に応じたサイズを有する中央部分の楕円の周りに、同じくステップＳ７７で合計されたＰＶ値に応じたサイズを有する、想定閲覧数の楕円とが示されるようになっている。さらに、本実施の形態では、想定閲覧数（＝ＰＶ値の合計）が、影響力の強い少数のブログから得られたのか、影響力の小さい多数のブログから得られたのかを表すブログの影響力分類（ランク）をも示している。

図１７の例では、影響力大、影響力中、影響力小という３つの分類となっており、それぞれに属するブログの数が示されている。分類の数は３に限定されるものではなく、より多くの分類を行っても良い。

このような表示を行うことによって、検索に係る商品名についてブログでの取り上げられ方及び想定閲覧数とから、口コミでのひろがりを直感的に把握することができるようになる。

一方、表示方法が履歴表示である場合には、ブログ検索サーバ１７は、検索要求に含まれる対象期間内の単位期間毎に、更新日時が該当するブログ記事の記事数を計数する（ステップＳ７１）。また、対象期間内の単位期間毎に、更新日時が該当するブログ記事のＰＶ値を合計する（ステップＳ７３）。そしてステップＳ７１及びＳ７３の結果を用いて、履歴表示ページデータを生成し（ステップＳ７５）、このように生成したページデータをユーザ端末３に送信する（ステップＳ８３）。ユーザ端末３は、ブログ検索サーバ１７から生成ページデータを受信し、表示装置に表示する（ステップＳ８５）。例えば図１８に示すような表示画面が表示される。

図１８の表示画面例では、図１７と同じく「カラダ」という飲料業界の商品名について検索した場合の結果を示している。ここでは、例えば単位期間を１日として記事数及び想定閲覧数（＝ＰＶ値の合計）の時間変化をグラフ化している。このようにすれば、消費者への浸透度合いの時間変化を容易に把握することができるようになる。なお、例えば具体的にプロモーションを実施した日からの記事数や想定閲覧数の時間変化によって、そのようなプロモーションの効果の有効性を判断することもできる。

これまでであれば閲覧数が未知であったブログ記事についてはその影響力を客観的な指標で比較することができなかったが、このような手法を用いることにより、全てのブログ記事を同じ指標にて比較することができるようになる。また、商品などの口コミでの広がりについても、記事数と並んで閲覧数という基準でもってその程度を客観的に把握することができるようになる。

以上本発明の一実施の形態について説明したが、本発明はこれに限定されたものではない。例えば、図１に示したシステム概要は一例であって、他のシステム構成を採用するようにしてもよい。例えばサーバ同士の接続関係については個別に必要なサーバ間が接続されるような図を示しているが、ＬＡＮ（Local Area Network）で関連する全てのサーバが接続するようにしてもよい。また、複数のサーバで機能を実現する例を示しているが、これより少ない台数（場合によっては１台）で同様の機能を実現するようにしても良い。逆にさらに多くのサーバにて同様の機能を実現するようにしても良い。さらに、各種テーブルのデータ構造についても様々に変形可能である。

さらに処理フローについても処理結果が変わらない限り、ステップの順番を入れ替えたり、並列実行するように変形しても良い。

表示画面についても一例であって、同様の情報を提供する他の表示態様を採用するようにしても良い。

なお、ユーザ端末３、ブログサーバ１０、基準ブログサーバ１１，ブログ検索サーバ１７、ＰＶ推定モデル生成サーバ１９、クローラサーバ５、ブログ記事解析サーバ７は、コンピュータ装置であって、図１９に示すように、メモリ２５０１とＣＰＵ２５０３とハードディスク・ドライブ（ＨＤＤ）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。必要に応じてＣＰＵ２５０３は、表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ２５０１に格納され、必要があればＨＤＤ２５０５に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

１ネットワーク３ユーザ端末５クローラサーバ
７ブログ記事解析サーバ９ブログ記事データ格納部
１０ブログサーバ
１１基準ブログサーバ１３基準ＰＶデータ格納部
１５基準ブログ記事データ格納部１７ブログ検索サーバ
１９ＰＶ推定モデル生成サーバ２１ＰＶ推定モデルデータ格納部
２３サンプルクエリリスト格納部

Claims

ブログ記事の識別情報とコメント数と被リンク数とトラックバック数とブログ記事データとを含む記事レコードを複数格納している記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出する抽出ステップと、
抽出された前記記事レコードと、前記ブログ記事の識別情報に対応付けて閲覧数を格納する基準データ格納部に当該記事レコードに含まれる前記ブログ記事の識別情報に対応付けられて格納されている前記閲覧数とから、前記閲覧数を従属変数とし、前記コメント数と前記被リンク数と前記トラックバック数とを独立変数とする回帰モデルの係数を算出し、モデルデータ格納部に格納するモデル化ステップと、
前記記事データ格納部に格納されている前記記事レコードのうち前記閲覧数が未知の記事レコードに含まれる前記コメント数と前記被リンク数と前記トラックバック数と前記モデルデータ格納部に格納されている前記回帰モデルの係数とから、前記閲覧数が未知の記事レコードの各々について前記閲覧数を推定し、前記閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて前記記事データ格納部に格納する閲覧数推定ステップと、
を含み、コンピュータにより実行されるブログ分析方法。
分析者端末から検索キーワードを含む分析要求を受信した場合、前記記事データ格納部を前記検索キーワードで検索し、前記検索キーワードを含むブログ記事データを含む記事レコードを抽出し、当該記事レコードの数を計数すると共に、当該記事レコードの前記ブログ記事の識別情報に対応付けて前記記事データ格納部に格納されている前記閲覧数の総和を算出し、前記分析者端末に、抽出された前記記事レコードの数と前記閲覧数の総和とを送信する返信ステップ
をさらに含む請求項１記載のブログ分析方法。
前記記事レコードが更新日時をさらに含み、
前記分析要求が履歴分析期間をさらに含み、
前記返信ステップにおいて、
前記検索キーワードを含むブログ記事データを含み且つ更新日時が履歴分析期間内である記事レコードを抽出し、当該記事レコードの更新日時に基づき当該記事レコードの数を前記履歴分析期間における各単位期間について計数すると共に、当該記事レコードの更新日時に基づき当該記事レコードに対応付けられている前記閲覧数を前記履歴分析期間における単位期間毎に合計し、前記分析者端末に、前記履歴分析期間における各単位期間について該当する前記記事レコードの数及び前記閲覧数の合計値を送信する
請求項２記載のブログ分析方法。
前記記事データ格納部に格納されている前記記事レコードに対応付けられている前記閲覧数に基づき、前記記事レコードに含まれるブログ記事データの集合であるブログの閲覧数を算出し、前記ブログの識別情報に対応付けて前記記事データ格納部に格納するステップ
をさらに含み、
前記ブログ記事の識別情報は、前記ブログを特定するための情報を含み、
前記返信ステップが、
前記検索キーワードを含むブログ記事データを含む記事レコードの前記ブログ記事の識別情報から前記ブログを特定し、当該ブログの閲覧数を前記記事データ格納部から読み出し、特定された前記ブログを当該ブログの閲覧数でランク付けし、当該ランク毎の該当ブログ数を計数するステップと、
前記ランク毎の該当ブログ数を前記分析者端末に送信するステップと、
を含む請求項２記載のブログ分析方法。
前記抽出ステップにおいて、
前記記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた複数の業種の各々について予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出し、
前記モデル化ステップにおいて、
前記業種毎に、当該業種についてのキーワードにて抽出された前記記事レコードと、前記基準データ格納部に当該記事レコードに含まれる識別情報に対応付けられて格納されている前記閲覧数とから、前記閲覧数を従属変数とし、前記コメント数と前記被リンク数と前記トラックバック数とを独立変数とする業種別回帰モデルの係数を算出し、前記モデルデータ格納部に格納し、
前記閲覧数推定ステップにおいて、
前記記事データ格納部に格納されている前記記事レコードのうち前記閲覧数が未知の記事レコードに含まれる前記コメント数と前記被リンク数と前記トラックバック数と前記モデルデータ格納部に格納されている各前記業種別回帰モデルの係数とから、前記閲覧数が未知の記事レコードの各々について業種別の前記閲覧数を推定し、前記閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて前記記事データ格納部に格納する
請求項１乃至４のいずれか１つ記載のブログ分析方法。
分析者端末から検索キーワード及び業種を含む分析要求を受信した場合、前記記事データ格納部を前記検索キーワードで検索し、前記検索キーワードを含むブログ記事データを含む記事レコードを抽出し、当該記事レコードの数を計数すると共に、当該記事レコードの前記ブログ記事の識別情報に対応付けて前記記事データ格納部に格納されており且つ前記分析要求に含まれる業種に該当する前記閲覧数の総和を算出し、前記分析者端末に、抽出された前記記事レコードの数と前記閲覧数の総和とを送信するステップ
をさらに含む請求項５記載のブログ分析方法。
請求項１乃至６のいずれか１つ記載のブログ分析方法をコンピュータに実行させるためのプログラム。
ブログ記事の識別情報とコメント数と被リンク数とトラックバック数とブログ記事データとを含む記事レコードを複数格納している記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出する抽出手段と、
抽出された前記記事レコードと、前記ブログ記事の識別情報に対応付けて閲覧数を格納する基準データ格納部に当該記事レコードに含まれる前記ブログ記事の識別情報に対応付けられて格納されている前記閲覧数とから、前記閲覧数を従属変数とし、前記コメント数と前記被リンク数と前記トラックバック数とを独立変数とする回帰モデルの係数を算出し、モデルデータ格納部に格納するモデル化手段と、
前記記事データ格納部に格納されている前記記事レコードのうち前記閲覧数が未知の記事レコードに含まれる前記コメント数と前記被リンク数と前記トラックバック数と前記モデルデータ格納部に格納されている前記回帰モデルの係数とから、前記閲覧数が未知の記事レコードの各々について前記閲覧数を推定し、前記閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて前記記事データ格納部に格納する閲覧数推定手段と、
を有するブログ分析装置。