JP2010218475A - ブログ分析方法及び装置 - Google Patents

ブログ分析方法及び装置 Download PDF

Info

Publication number
JP2010218475A
JP2010218475A JP2009067173A JP2009067173A JP2010218475A JP 2010218475 A JP2010218475 A JP 2010218475A JP 2009067173 A JP2009067173 A JP 2009067173A JP 2009067173 A JP2009067173 A JP 2009067173A JP 2010218475 A JP2010218475 A JP 2010218475A
Authority
JP
Japan
Prior art keywords
article
blog
browsing
storage unit
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009067173A
Other languages
English (en)
Inventor
Junya Nakoshi
潤也 名越
Tetsuro Takahashi
哲朗 高橋
Yoshimi Yaegashi
芳美 八重樫
Daisuke Kamishiro
大輔 神代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nifty Corp
Original Assignee
Nifty Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nifty Corp filed Critical Nifty Corp
Priority to JP2009067173A priority Critical patent/JP2010218475A/ja
Publication of JP2010218475A publication Critical patent/JP2010218475A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】一般に公開されていない場合においてもブログ記事の情報伝播力を表す閲覧数を推定する。
【解決手段】本ブログ分析方法は、ブログ記事の識別情報とコメント数と被リンク数とトラックバック数とブログ記事データとを含む、閲覧数が既知の記事レコードのうち、予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出する工程、抽出された記事レコードと、当該記事レコードのブログ記事の識別情報に対応する閲覧数とから、閲覧数を従属変数とし、コメント数と被リンク数とトラックバック数とを独立変数とする回帰モデルの係数を算出する工程と、閲覧数が未知の記事レコードに含まれるコメント数と被リンク数とトラックバック数と回帰モデルの係数とから、閲覧数が未知の記事レコードの各々について閲覧数を推定する工程とを含む。
【選択図】図1

Description

本発明は、ブログ記事の分析技術に関する。
現在ブログ(=ウェブログ)は、個人の情報発信媒体として広く利用されている。有用な情報や趣味などで興味を引くような情報を頻繁に更新して掲載しているブログには、固定の閲覧者がついて、ページビュー(Page View:PV)が非常に高いブログも存在している。このようなブログを介して商品やサービスなどの口コミ情報が広がることもある。従って、企業側もブログにおいて自社製品等がどのように取り上げられているかについて注意を払うようになってきている。また、一部の企業は商品広告のためのブログを掲載している場合もある。
なお、特開2006−209598号公報には、情報を配信しているサイトの情報をより多く集めることが可能であると共に、閲覧者が容易に有用な配信サイトを判断することが可能なサイト情報収集システムが開示されている。具体的には、システムは、サーバコンピュータ上に開設され、閲覧用情報を配信すると共に、当該閲覧用情報の要約データを保有するサイトである配信サイトと、配信サイトからネットワークを介して配信される閲覧用情報を閲覧する端末装置である閲覧端末と、配信サイトに関する情報を登録するサーバコンピュータであるPINGサーバにより構成される。そして、配信サイトが保有する要約データは、PINGサーバに当該要約データのURIを送信するためのPINGサーバ送信用モジュールを有しており、閲覧端末は、配信サイトから要約データを取得して解析し、解析した内容に従って、PINGサーバ送信用モジュールに記録されたURIをPINGサーバに送信する機能を有している。そして、PINGサーバは、閲覧端末から受信したURIを登録する機能を有する。そして、PINGサーバは、受信して蓄積したURIに関する情報を、URI別に集計し、URI別の閲覧数を算出する。このように特別なPINGサーバ送信用モジュールを用いて閲覧端末から情報を取得してその情報から閲覧数を算出するような構成は、プライバシの問題もあって実現するのは難しい。
特開2006−209598号公報
企業は自社製品等についての各種プロモーションを実施した後、そのプロモーションにより自社製品等がどの程度口コミで広まったかというようなことを確認したい場合がある。このように口コミというものを観点に効果を評価する場合には、ブログ記事は格好の情報ソースであるが、口コミによる広がりを定量化するには、製品等について記述したブログ記事の数だけでは十分ではない。
従って、本発明の目的は、一般に公開されていない場合においてもブログ記事の情報伝播力を表す閲覧数を推定するための技術を提供することである。
本発明に係るブログ分析方法は、ブログ記事の識別情報とコメント数と被リンク数(受信リンク数とも呼ぶ)とトラックバック数とブログ記事データとを含む記事レコードを複数格納している記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた特性(例えば収集されたブログ記事を検索した際の該当件数が満遍なくばらつくというような特性)を有する複数のキーワードのいずれかに該当する記事レコードを抽出する抽出ステップと、抽出された記事レコードと、ブログ記事の識別情報に対応付けて閲覧数を格納する基準データ格納部に当該記事レコードに含まれるブログ記事の識別情報に対応付けられて格納されている閲覧数とから、閲覧数を従属変数とし、コメント数と被リンク数とトラックバック数とを独立変数とする回帰モデルの係数を算出し、モデルデータ格納部に格納するモデル化ステップと、記事データ格納部に格納されている記事レコードのうち閲覧数が未知の記事レコードに含まれるコメント数と被リンク数とトラックバック数とモデルデータ格納部に格納されている回帰モデルの係数とから、閲覧数が未知の記事レコードの各々について閲覧数を推定し、閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて記事データ格納部に格納する閲覧数推定ステップとを含む。
口コミによる製品名などの広がりを分析する際には、当該製品名などが記述されたブログ記事の数だけではなく、当該ブログ記事の閲覧数をも考慮しなければ、十分な考察とはいえない。しかしながら、閲覧数はブログサイトの管理者でなければ知り得ない場合が多い。そこで、本発明の発明者は、コミュニケーションが活発に行われているブログ、すなわち、コメント数、被リンク数及びトラックバック数が多いブログほど閲覧数も多いという非自明な知見に基づき、閲覧数が分かっているブログ記事についてのこれらのパラメータの値から閲覧数を算出するためのモデルを生成するという構成を同じく非自明に着想した。但し、閲覧数が分かっているブログ記事であれば何でも採用してもよいというわけではなく、生成されるモデルが偏りを有さないように、例えば検索にヒットする記事数が満遍なくばらつくようにキーワードを選択した上で、当該キーワードを含むようなブログ記事を抽出している。このようにして生成されたモデルを用いれば、ある程度の信頼性を有する推定閲覧数を、実閲覧数が未知のブログ記事に対して算出できるようになる。
また、本ブログ分析方法は、分析者端末から検索キーワードを含む分析要求を受信した場合、記事データ格納部を検索キーワードで検索し、検索キーワードを含むブログ記事データを含む記事レコードを抽出し、当該記事レコードの数を計数すると共に、当該記事レコードのブログ記事の識別情報に対応付けて記事データ格納部に格納されている閲覧数の総和を算出し、分析者端末に、抽出された記事レコードの数と閲覧数の総和とを送信する返信ステップをさらに含むようにしてもよい。このようにすれば、分析者は例えば自社製品名などを含む分析要求を出力するだけで、関連するブログ記事数及び閲覧数の総和を得ることができるようになり、口コミによる広がりの程度を評価できるようになる。
さらに、記事レコードが更新日時をさらに含み、分析要求が履歴分析期間をさらに含むような場合もある。そのような場合には、返信ステップにおいて、検索キーワードを含むブログ記事データを含み且つ更新日時が履歴分析期間内である記事レコードを抽出し、当該記事レコードの更新日時に基づき当該記事レコードの数を履歴分析期間における各単位期間について計数すると共に、当該記事レコードの更新日時に基づき当該記事レコードに対応付けられている閲覧数を履歴分析期間における単位期間毎に合計し、分析者端末に、履歴分析期間における各単位期間について該当する記事レコードの数及び閲覧数の合計値を送信するようにしてもよい。このようにすれば、例えば製品等についてのプロモーションの効果を時系列で把握することができるようになる。
さらに、本ブログ分析方法は、記事データ格納部に格納されている記事レコードに対応付けられている閲覧数に基づき、記事レコードに含まれるブログ記事データの集合であるブログの閲覧数を算出し、ブログの識別情報に対応付けて記事データ格納部に格納するステップをさらに含むようにしてもよい。また、ブログ記事の識別情報は、ブログを特定するための情報を含むようにしてもよい。さらに、上で述べた返信ステップが、検索キーワードを含むブログ記事データを含む記事レコードのブログ記事の識別情報からブログを特定し、当該ブログの閲覧数を記事データ格納部から読み出し、特定されたブログを当該ブログの閲覧数でランク付けし、当該ランク毎の該当ブログ数を計数するステップと、ランク毎の該当ブログ数を分析者端末に送信するステップとを含むようにしてもよい。例えば、全体として情報伝播力の大きいブログに製品名等が掲載されることによって閲覧数が伸びているのか、情報伝播力の大きいブログではなく比較的情報伝播力が小さいブログに数多く製品名等が掲載されることによって閲覧数が伸びているのかというような、情報伝播の態様を分析することができるようになる。
さらに、上で述べた抽出ステップにおいて、記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた複数の業種の各々について予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出するようにしてもよい。その場合、上で述べたモデル化ステップにおいて、業種毎に、当該業種についてのキーワードにて抽出された記事レコードと、基準データ格納部に当該記事レコードに含まれる識別情報に対応付けられて格納されている閲覧数とから、閲覧数を従属変数とし、コメント数と被リンク数とトラックバック数とを独立変数とする業種別回帰モデルの係数を算出し、モデルデータ格納部に格納するようにしてもよい。さらに、上で述べた閲覧数推定ステップにおいて、記事データ格納部に格納されている記事レコードのうち閲覧数が未知の記事レコードに含まれるコメント数と被リンク数とトラックバック数とモデルデータ格納部に格納されている各業種別回帰モデルの係数とから、閲覧数が未知の記事レコードの各々について業種別の閲覧数を推定し、閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて記事データ格納部に格納するようにしてもよい。
このように、業種毎にモデルの生成を行うようにすれば、よりきめ細かい閲覧数の推定を行うことができるようになる。
なお、本ブログ分析方法において、業種毎にモデルの生成を行う場合に、分析者端末から検索キーワード及び業種を含む分析要求を受信した場合、記事データ格納部を検索キーワードで検索し、検索キーワードを含むブログ記事データを含む記事レコードを抽出し、当該記事レコードの数を計数すると共に、当該記事レコードのブログ記事の識別情報に対応付けて記事データ格納部に格納されており且つ分析要求に含まれる業種に該当する閲覧数の総和を算出し、分析者端末に、抽出された記事レコードの数と閲覧数の総和とを送信するステップをさらに含むようにしてもよい。このようにすれば、分析者指定の業種について閲覧数の総和を得ることができるようになる。なお、分析者が業種を指定しない場合には、業種を関係なく生成したモデルに従って閲覧数の総和などを算出するようにしても良い。
本発明に係る方法は、コンピュータ・ハードウエアとプログラムとの組み合わせにより実施される場合があり、本発明に係るプログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、ネットワークなどを介してデジタル信号として配信される場合もある。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
本発明によれば、一般に公開されていない場合においてもブログ記事の情報伝播力を表す閲覧数を推定できるようになる。
図1は、本発明の実施の形態におけるシステム概要図である。 図2は、メインの処理フローを示す図である。 図3は、記事収集処理の処理フローを示す図である。 図4は、記事テーブルの最初の段階を示す図である。 図5は、記事テーブルの第2の段階を示す図である。 図6は、ブログテーブルの最初の段階を示す図である。 図7は、PVモデル生成処理の処理フローを示す図である。 図8は、サンプルクエリリストの一例を示す図である。 図9は、基準PVデータ格納部に格納されているデータの一例を示す図である。 図10は、PVモデル生成処理において生成されるデータの一例を示す図である。 図11は、PVモデル生成処理の処理フローを示す図である。 図12は、PV推定モデルデータ格納部に格納されるデータの一例を示す図である。 図13は、PV推定処理の処理フローを示す図である。 図14は、記事テーブルの第3の段階を示す図である。 図15は、ブログテーブルの第2の段階を示す図である。 図16は、分析処理の処理フローを示す図である。 図17は、第1の表示画面例を示す図である。 図18は、第2の表示画面例を示す図である。 図19は、コンピュータの機能ブロック図である。
図1に本発明の実施の形態に係るシステム概要図を示す。例えばインターネットであるネットワーク1には、分析者が操作する1又は複数のユーザ端末3と、閲覧数が未知のブログ記事を保持しており当該ブログ記事の配信を行う複数のブログサーバ10と、閲覧数が既知であるブログ記事を配信する基準ブログサーバ11と、分析者が操作するユーザ端末3からの分析要求を受信して分析結果のデータを返信するブログ検索サーバ17と、ブログサーバ10及び基準ブログサーバ11からブログ記事をクロールするクローラサーバ5とが接続されている。
基準ブログサーバ11は、閲覧数が既知であるブログ記事を格納する基準ブログ記事データ格納部15と、基準ブログ記事データ格納部15に格納されているブログ記事の閲覧数(すなわちPV)のデータを格納する基準PVデータ格納部13とを管理している。また、クローラサーバ5によりクロールされたブログ記事データは、ブログ記事データ格納部9に格納されるようになっており、ブログ記事データ格納部9に格納されるデータは、ブログ記事解析サーバ7により処理される。また、ブログ記事解析サーバ7は、基準ブログサーバ11及びブログ検索サーバ17と協働する。さらに、PV推定モデル生成サーバ19は、サンプルクエリリスト格納部23に格納されているデータを用い、基準ブログサーバ11及びブログ検索サーバ17と連携してPV推定モデルを生成して、PV推定モデルデータ格納部21に格納するようになっている。PV推定モデルデータ格納部21に格納されているデータについては、ブログ記事解析サーバ7により用いられる。
次に、図2乃至図18を用いて図1に示したシステムの処理内容を説明する。まず、図2を用いて処理の概要を示す。最初に、PV推定モデルを生成するためのブログ記事を収集する記事収集処理を実施する(ステップS1)。記事収集処理の詳細については、後に述べる。その後、記事収集処理によって収集されたブログ記事データを用いてPVモデル生成処理を実施する(ステップS3)。このPVモデル生成処理の詳細についても後に述べる。そして、PVモデル生成処理によって生成されたPVモデルに従って、PV推定処理を実施する(ステップS5)。PV推定処理の詳細についても後に述べる。なお、以上が前処理である。但し、PV推定処理については、例えば定期的に実施して保持データの拡充を行う。
そして、分析者が操作するユーザ端末3から分析要求を受信すると、分析処理を実施し、分析結果を要求元のユーザ端末3に返信する分析処理を実施する(ステップS7)。分析処理の詳細についても後に述べる。
以上のような処理を実施することによって、閲覧数(=PV)が得られないブログ記事についても閲覧数を推定することができ、これによって例えば自社製品等の、消費者への浸透度合いを分析できるようになる。
次に、記事収集処理(ステップS1)について図3乃至図6を用いて説明する。クローラサーバ5は、予め定められたURL(Uniform Resource Locator)のブログ記事をブログサーバ10及び基準ブログサーバ11から収集し、ブログ記事データ格納部9の記事テーブルに格納する(図3:ステップS11)。PV推定モデルを生成するため、基準ブログ記事データ格納部15に格納されている、閲覧数が既知のブログ記事データを基準ブログサーバ11から必ず取得する。
ブログ記事データ格納部9には、例えば図4に示すような記事テーブルが格納される。図4の例では、記事URLと、ブログIDと、タイトルと、記事本文と、本ブログ記事の公開日である更新日と、ブログ記事に付随して公開されているコメント数と、ブログ記事に含まれているリンクの数であるリンク数と、ブログ記事に付随して公開されている受信トラックバック(TB)数とが登録されるようになっている。ステップS11では、収集した個別のブログ記事のデータを探索して、各ブログ記事について他のウェブ(Web)ページへのリンク数をカウントして、ブログ記事データ格納部9の記事テーブルに登録する。ブログIDについては、ブログ記事の集合であるブログを例えばURLから特定してブログIDを発行して登録しても良い。
次に、ブログ記事解析サーバ7は、収集されたブログ記事間のリンク関係を解析して、各収集ブログ記事について、受信リンク数(=被リンク数)をカウントして、ブログ記事データ格納部9に格納する(ステップS13)。この処理自体は従来から行われている処理であるから、これ以上述べない。但し、図4に示した記事テーブルは、図5に示すような記事テーブルになる。すなわち、受信リンク数の列に、カウント結果が登録されている。
そして、ブログ記事解析サーバ7は、収集されたブログ記事から、ブログデータを生成し、ブログ記事データ格納部9のブログテーブルに格納する(ステップS15)。例えば、ブログ記事の集合であるブログを、例えばURLのパターンなど(通常はドメイン又はドメイン+ユーザ識別のための固定のパスに各ブログ記事のファイル名などが付加されたURLであるからドメイン又はドメイン+ユーザ識別のための固定のパスで集約できる)で識別して、ブログ内の記事数、平均コメント数、平均リンク数、平均受信トラックバック数、平均受信リンク数を算出する。なお、ステップS11でブログIDを発行している場合にはブログ記事の集合はブログIDで特定できる。一方、例えばステップS15でブログIDを発行して、記事テーブルに登録されている各ブログ記事に登録するようにしても良い。
図6にブログ記事データ格納部9に格納されるブログテーブルの一例を示す。図6の例では、ブログIDと、ブログURLと、ブログタイトルと、ブログ内記事数と、平均コメント数と、平均リンク数と、平均受信トラックバック数と、平均受信リンク数とを含む。
以上のような処理を実施することによって、PV推定モデル生成の前処理が完了する。
次に、PVモデル生成処理(ステップS3)について図7乃至図12を用いて説明する。PV推定モデル生成サーバ19は、サンプルクエリリスト格納部23に格納されているサンプルクエリリストから未処理のクエリを1つ特定する(ステップS21)。本実施の形態では、ブログにおいて書かれやすく口コミで効果が出やすい主要な業界を例えば10個ほど選定し、各業界内において代表的な10個ほどのブランド(例えば製品名など)をキーワードとして予め選択して、サンプルクエリリストに登録しておく。各ブランドを、業界内において、当該ブランドでブログ記事を検索した場合の検索結果である記事数が可能な限り満遍なくばらつくように選択することで、可能な限りブログ全体を偏りなくカバーし且つ代表するようにする。
図8にサンプルクエリリストの一例を示す。図8の例では、業界名に対応付けて当該業界についてのクエリ群が登録されるようになっている。
次に、PV推定モデル生成サーバ19は、特定されたクエリをブログ検索サーバ17に出力し、ブログ検索サーバ17は当該クエリをさらにブログ記事解析サーバ7に出力し、当該クエリによる検索を実施させる(ステップS23)。そして、ブログ記事解析サーバ7は、記事本文がクエリのキーワードを含むブログ記事を抽出し、ブログ検索サーバ17を介してPV推定モデル生成サーバ19に出力する。
PV推定モデル生成サーバ19は、検索結果であるブログ記事を受け取ると、抽出されたブログ記事から所定のURL(具体的には基準ブログサーバ11のURL)のブログ記事をさらに抽出し、メインメモリなどの記憶装置に格納する(ステップS25)。そして、ステップS25で抽出されたブログ記事に対応するPVデータを基準ブログサーバ11に対して要求する。例えばブログ記事のURL及び更新日を含む期間(例えば更新日のみ又は更新日から所定日数後までの期間)を指定してPVデータを要求する。基準ブログサーバ11は、例えばブログ記事のURL及び期間の指定を含む要求を受信すると、該当するPVデータを基準PVデータ格納部13から読み出し、PV推定モデル生成サーバ19に出力する。基準PVデータ格納部13には、例えば図9に示すようなデータが格納されている。図9の例では、ブログ記事のURLに対応付けて、日付及びPVが登録されている。URL及び日付が、要求に含まれる条件を満たすレコードをPVデータとして読み出す。
PV推定モデル生成サーバ19は、基準ブログサーバ11からPVデータを受信すると、ステップS25で抽出されたブログ記事データと結合し、例えばメインメモリなどの記憶装置に格納する(ステップS27)。なお、1つのブログ記事について複数のPV値が得られている場合には、総和を計算する。ここで例えば図10に示すようなデータを生成する。図10の例では、クエリが属する業界と、クエリと、このクエリに該当するブログ記事データとして記事URLとコメント数と受信リンク数と受信トラックバック数とPVとが含まれている。
そうすると、PV推定モデル生成サーバ19は、サンプルクエリリストの全てのクエリについて処理したか判断する(ステップS29)。未処理のクエリが存在している場合にはステップS21に戻る。一方、全てのクエリについて処理した場合には、端子Aを介して図11の処理に移行する。
図11の処理の説明に移行して、PV推定モデル生成サーバ19は、ステップS27で生成した結合データレコード(図10)から、未処理の1つの業界について該当する全レコードを抽出する(ステップS31)。そして、ステップS31で抽出されたレコードを基に、PV数を従属変数とし、コメント数、受信リンク数及び受信トラックバック数を独立変数とする線形回帰モデル(ここでは線形としているが実態に合わせたモデルを選択する)を例えば最小二乗法で算出し、PV推定モデルデータ格納部21に格納する(ステップS33)。具体的には、推定PV数=α+β1*コメント数+β2*受信リンク数+β3*受信トラックバック数で表される式の係数α、β1、β2及びβ3を算出する。最小二乗法については周知であるからここでは詳細な説明は省略する。
これによって、PV推定モデルデータ格納部21には、図12に示すようなデータが格納される。図12の例では、業界名毎に、係数α、β1、β2及びβ3が登録されるようになっている。以下でも述べるが、業界が指定されない場合に対応するため、汎用的に用いることができる全業界についての係数も算出するため、PV推定モデルデータ格納部21にもそのための列が用意されている。
そして、PV推定モデル生成サーバ19は、全ての業界について処理したか判断する(ステップS35)。未処理の業界が存在していれば、ステップS31に戻る。一方、全ての業界について処理した場合には、ステップS27で生成した全結合データレコードから、PV数を従属変数とし、コメント数、受信リンク数及び受信トラックバック数を独立変数とする線形回帰モデルを例えば最小二乗法で算出し、PV推定モデルデータ格納部21に格納する(ステップS37)。基となるデータがステップS33では特定の業界に係るレコードのみであるが、本ステップではステップS27で生成した結合データレコード全部となる。そして元の処理に戻る。
このような処理を実施することによって、特定の業界が指定された場合に用いるPVを推定するためのPV推定モデルデータと、特定の業界が指定されない場合に用いるPVを推定するためのPV推定モデルデータが得られたことになる。なお、PV推定モデルについても例えば定期的に更新するようにする。
次に、PV推定処理(ステップS5)の処理内容について図13乃至図15を用いて説明する。ステップS1で収集されたブログ記事に加えて、クローラサーバ5は、所定のURLの新規ブログ記事をブログサーバ10及び基準ブログサーバ11から収集して、ブログ記事データ格納部9の記事テーブルに格納する(ステップS41)。そして、ブログ記事解析サーバ7は、ブログ記事データ格納部9に格納されているブログ記事データのリンク関係を解析し、各収集ブログ記事について受信リンク数を計数し、ブログ記事データ格納部9の記事テーブルの受信リンク数の列に登録する(ステップS43)。さらに、記事テーブルに登録されているブログ記事データから、ブログテーブルの内容を更新する(ステップS45)。これらのステップは、記事収集処理と基本的には同じである。
その後、ブログ記事解析サーバ7は、PVが未登録のブログ記事を1つ特定する(ステップS47)。そして、特定されたブログ記事のURLが所定のURL(具体的には基準ブログサーバ11についてのURL)であるか判断する(ステップS49)。所定のURLについてのブログ記事であれば、PVを推定しなくても実績値が基準PVデータ格納部13に登録されているので、ブログ記事解析サーバ7は、基準ブログサーバ11に対してURL及び期間(例えば更新日又は更新日から所定日数後までの期間)を指定したPVデータ要求を送信し、基準ブログサーバ11は、このようなPVデータ要求を受信すると、該当するPVデータを基準PVデータ格納部13から読み出して、ブログ解析サーバ7に返信する。そして、ブログ記事解析サーバ7は、基準ブログサーバ11からPVデータを受信すると、ブログ記事データ格納部9の記事テーブルの全てのPV値の列に登録する(ステップS51)。複数のPV値を受信した場合には合計値を登録する。処理はステップS55に移行する。
一方、特定されたブログ記事のURLが所定のURLでない場合には、ブログ記事解析サーバ7は、PV推定モデルデータ格納部21に登録されている各業界のPV推定モデルのデータ及び全業界のPV推定モデルのデータから、各業界のPV推定値及び全業界のPV推定値を算出し、ブログ記事データ格納部9の記事テーブルの各PV値の列に登録する(ステップS53)。処理はステップS55に移行する。
ステップS51及びS53でPV値が登録された記事テーブルの一例を図14に示す。図14の例では、図5に示した記事テーブルに、各業界のPV値及び全業界のPV値を登録するための列が追加されている。なお、ステップS51の場合には、PVの実績値が登録されるが、この場合には各業界及び全業界のPV値は同じになる。一方、ステップS53の場合には、各業界及び全業界についてのPVの推定値が登録される。このように実績値を得られる場合には、その値を用いるようにしてもよいし、全てのブログ記事について推定値を算出して登録するようにしても良い。
ステップS55において、ブログ記事解析サーバ7は、全てのブログ記事にPVを登録したか判断する。PVが未登録のブログ記事が存在する場合にはステップS47に戻る。一方、全てのブログ記事にPVが登録された場合には、ブログ記事解析サーバ7は、ブログ記事のPV値をブログ単位で集計し、集計結果でブログテーブルを更新する(ステップS57)。例えば図15に示すようなブログテーブルが得られる。図15の例では、図6のブログテーブルに、ブログ全体について各業界のPV(ブログ記事PVの合計)とブログ全体について全業界のPV(ブログ記事PVの合計)とが登録されるようになっている。なお、ここでは各ブログ記事のPV値を合計する例を示したが、単純な合計ではなく更新日などに応じて重み付けを行ってから加算するようにしても良い。
以上のような処理を実施することによって、外部からPV値を知り得ないようなブログ記事及びブログについても、PV推定モデルのデータを用いて基準となるブログ記事及びブログの傾向に応じてPV値を設定することができるようになる。
次に、分析処理(ステップS7)について図16乃至図18を用いて説明する。まず、分析者は、ユーザ端末3を操作して、対象期間、業界名及び商品名(キーワード)並びに表示方法を入力する。業界名については指定しなくとも良い。ユーザ端末3は、分析者の入力を受け付け、対象期間、業界名及び商品名並びに表示方法を指定した検索要求をブログ検索サーバ17に送信する(ステップS61)。ブログ検索サーバ17は、ユーザ端末3から、対象期間、業界名及び商品名並びに表示方法を指定した検索要求を受信すると(ステップS63)、対象期間及び商品名でブログ記事を検索するようにブログ記事解析サーバ7に対して要求する。ブログ記事解析サーバ7は、更新日が対象期間内であって且つ記事本文に商品名が含まれるブログ記事のデータをブログ記事データ格納部9から読み出し、ブログ検索サーバ17に出力する。ブログ検索サーバ17は、ブログ記事解析サーバ7から該当するブログ記事データを取得する(ステップS65)。
そして、ブログ検索サーバ17は、検索要求に含まれる表示方法が履歴表示であるか判断する(ステップS67)。履歴表示でない場合には、ブログ検索サーバ17は、ブログ記事データに含まれるブログIDを含むブログデータ要求をブログ記事解析サーバ7に送信する。ブログ記事解析サーバ7は、ブログIDを含むブログデータ要求を受信すると、ブログテーブルからブログデータ要求に含まれるブログIDに対応するブログデータを読み出し、ブログ検索サーバ17に返信する。ブログ検索サーバ17は、ブログ記事解析サーバ7からブログデータを受け取る(ステップS76)。そして、ステップS65で取得した、検索要求に該当するブログ記事の記事数を計数すると共に、検索要求に含まれる業界名についてのPV値を集計し、例えばメインメモリなどの記憶装置に格納する(ステップS77)。なお、業界名が指定されていない場合には、全業界についてのPV値を合計する。
さらに、ブログ検索サーバ17は、ステップS76で取得したブログデータを、検索要求に含まれる業界名についてのPV値でソートし、予め規定されている各ランクについての閾値とPV値を比較して各ブログがどのランクに属するかを把握し、各ランクについて所属するブログの件数をカウントする(ステップS79)。そして、ステップS77及びS79の処理結果を含む状態表示ページデータを生成する(ステップS81)。その後、生成されたページデータをユーザ端末3に送信する(ステップS83)。ユーザ端末3は、ブログ検索サーバ17から生成されたページデータを受信し、表示装置に表示する(ステップS85)。例えば、図17に示すような表示画面が表示される。
図17の表示画面例では、「カラダ」という飲料業界の商品名について検索した場合の結果を示している。口コミでの広がりを示すために、ステップS77で計数された記事数に応じたサイズを有する中央部分の楕円の周りに、同じくステップS77で合計されたPV値に応じたサイズを有する、想定閲覧数の楕円とが示されるようになっている。さらに、本実施の形態では、想定閲覧数(=PV値の合計)が、影響力の強い少数のブログから得られたのか、影響力の小さい多数のブログから得られたのかを表すブログの影響力分類(ランク)をも示している。
図17の例では、影響力大、影響力中、影響力小という3つの分類となっており、それぞれに属するブログの数が示されている。分類の数は3に限定されるものではなく、より多くの分類を行っても良い。
このような表示を行うことによって、検索に係る商品名についてブログでの取り上げられ方及び想定閲覧数とから、口コミでのひろがりを直感的に把握することができるようになる。
一方、表示方法が履歴表示である場合には、ブログ検索サーバ17は、検索要求に含まれる対象期間内の単位期間毎に、更新日時が該当するブログ記事の記事数を計数する(ステップS71)。また、対象期間内の単位期間毎に、更新日時が該当するブログ記事のPV値を合計する(ステップS73)。そしてステップS71及びS73の結果を用いて、履歴表示ページデータを生成し(ステップS75)、このように生成したページデータをユーザ端末3に送信する(ステップS83)。ユーザ端末3は、ブログ検索サーバ17から生成ページデータを受信し、表示装置に表示する(ステップS85)。例えば図18に示すような表示画面が表示される。
図18の表示画面例では、図17と同じく「カラダ」という飲料業界の商品名について検索した場合の結果を示している。ここでは、例えば単位期間を1日として記事数及び想定閲覧数(=PV値の合計)の時間変化をグラフ化している。このようにすれば、消費者への浸透度合いの時間変化を容易に把握することができるようになる。なお、例えば具体的にプロモーションを実施した日からの記事数や想定閲覧数の時間変化によって、そのようなプロモーションの効果の有効性を判断することもできる。
これまでであれば閲覧数が未知であったブログ記事についてはその影響力を客観的な指標で比較することができなかったが、このような手法を用いることにより、全てのブログ記事を同じ指標にて比較することができるようになる。また、商品などの口コミでの広がりについても、記事数と並んで閲覧数という基準でもってその程度を客観的に把握することができるようになる。
以上本発明の一実施の形態について説明したが、本発明はこれに限定されたものではない。例えば、図1に示したシステム概要は一例であって、他のシステム構成を採用するようにしてもよい。例えばサーバ同士の接続関係については個別に必要なサーバ間が接続されるような図を示しているが、LAN(Local Area Network)で関連する全てのサーバが接続するようにしてもよい。また、複数のサーバで機能を実現する例を示しているが、これより少ない台数(場合によっては1台)で同様の機能を実現するようにしても良い。逆にさらに多くのサーバにて同様の機能を実現するようにしても良い。さらに、各種テーブルのデータ構造についても様々に変形可能である。
さらに処理フローについても処理結果が変わらない限り、ステップの順番を入れ替えたり、並列実行するように変形しても良い。
表示画面についても一例であって、同様の情報を提供する他の表示態様を採用するようにしても良い。
なお、ユーザ端末3、ブログサーバ10、基準ブログサーバ11,ブログ検索サーバ17、PV推定モデル生成サーバ19、クローラサーバ5、ブログ記事解析サーバ7は、コンピュータ装置であって、図19に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
1 ネットワーク 3 ユーザ端末 5 クローラサーバ
7 ブログ記事解析サーバ 9 ブログ記事データ格納部
10 ブログサーバ
11 基準ブログサーバ 13 基準PVデータ格納部
15 基準ブログ記事データ格納部 17 ブログ検索サーバ
19 PV推定モデル生成サーバ 21 PV推定モデルデータ格納部
23 サンプルクエリリスト格納部

Claims (8)

  1. ブログ記事の識別情報とコメント数と被リンク数とトラックバック数とブログ記事データとを含む記事レコードを複数格納している記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出する抽出ステップと、
    抽出された前記記事レコードと、前記ブログ記事の識別情報に対応付けて閲覧数を格納する基準データ格納部に当該記事レコードに含まれる前記ブログ記事の識別情報に対応付けられて格納されている前記閲覧数とから、前記閲覧数を従属変数とし、前記コメント数と前記被リンク数と前記トラックバック数とを独立変数とする回帰モデルの係数を算出し、モデルデータ格納部に格納するモデル化ステップと、
    前記記事データ格納部に格納されている前記記事レコードのうち前記閲覧数が未知の記事レコードに含まれる前記コメント数と前記被リンク数と前記トラックバック数と前記モデルデータ格納部に格納されている前記回帰モデルの係数とから、前記閲覧数が未知の記事レコードの各々について前記閲覧数を推定し、前記閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて前記記事データ格納部に格納する閲覧数推定ステップと、
    を含み、コンピュータにより実行されるブログ分析方法。
  2. 分析者端末から検索キーワードを含む分析要求を受信した場合、前記記事データ格納部を前記検索キーワードで検索し、前記検索キーワードを含むブログ記事データを含む記事レコードを抽出し、当該記事レコードの数を計数すると共に、当該記事レコードの前記ブログ記事の識別情報に対応付けて前記記事データ格納部に格納されている前記閲覧数の総和を算出し、前記分析者端末に、抽出された前記記事レコードの数と前記閲覧数の総和とを送信する返信ステップ
    をさらに含む請求項1記載のブログ分析方法。
  3. 前記記事レコードが更新日時をさらに含み、
    前記分析要求が履歴分析期間をさらに含み、
    前記返信ステップにおいて、
    前記検索キーワードを含むブログ記事データを含み且つ更新日時が履歴分析期間内である記事レコードを抽出し、当該記事レコードの更新日時に基づき当該記事レコードの数を前記履歴分析期間における各単位期間について計数すると共に、当該記事レコードの更新日時に基づき当該記事レコードに対応付けられている前記閲覧数を前記履歴分析期間における単位期間毎に合計し、前記分析者端末に、前記履歴分析期間における各単位期間について該当する前記記事レコードの数及び前記閲覧数の合計値を送信する
    請求項2記載のブログ分析方法。
  4. 前記記事データ格納部に格納されている前記記事レコードに対応付けられている前記閲覧数に基づき、前記記事レコードに含まれるブログ記事データの集合であるブログの閲覧数を算出し、前記ブログの識別情報に対応付けて前記記事データ格納部に格納するステップ
    をさらに含み、
    前記ブログ記事の識別情報は、前記ブログを特定するための情報を含み、
    前記返信ステップが、
    前記検索キーワードを含むブログ記事データを含む記事レコードの前記ブログ記事の識別情報から前記ブログを特定し、当該ブログの閲覧数を前記記事データ格納部から読み出し、特定された前記ブログを当該ブログの閲覧数でランク付けし、当該ランク毎の該当ブログ数を計数するステップと、
    前記ランク毎の該当ブログ数を前記分析者端末に送信するステップと、
    を含む請求項2記載のブログ分析方法。
  5. 前記抽出ステップにおいて、
    前記記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた複数の業種の各々について予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出し、
    前記モデル化ステップにおいて、
    前記業種毎に、当該業種についてのキーワードにて抽出された前記記事レコードと、前記基準データ格納部に当該記事レコードに含まれる識別情報に対応付けられて格納されている前記閲覧数とから、前記閲覧数を従属変数とし、前記コメント数と前記被リンク数と前記トラックバック数とを独立変数とする業種別回帰モデルの係数を算出し、前記モデルデータ格納部に格納し、
    前記閲覧数推定ステップにおいて、
    前記記事データ格納部に格納されている前記記事レコードのうち前記閲覧数が未知の記事レコードに含まれる前記コメント数と前記被リンク数と前記トラックバック数と前記モデルデータ格納部に格納されている各前記業種別回帰モデルの係数とから、前記閲覧数が未知の記事レコードの各々について業種別の前記閲覧数を推定し、前記閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて前記記事データ格納部に格納する
    請求項1乃至4のいずれか1つ記載のブログ分析方法。
  6. 分析者端末から検索キーワード及び業種を含む分析要求を受信した場合、前記記事データ格納部を前記検索キーワードで検索し、前記検索キーワードを含むブログ記事データを含む記事レコードを抽出し、当該記事レコードの数を計数すると共に、当該記事レコードの前記ブログ記事の識別情報に対応付けて前記記事データ格納部に格納されており且つ前記分析要求に含まれる業種に該当する前記閲覧数の総和を算出し、前記分析者端末に、抽出された前記記事レコードの数と前記閲覧数の総和とを送信するステップ
    をさらに含む請求項5記載のブログ分析方法。
  7. 請求項1乃至6のいずれか1つ記載のブログ分析方法をコンピュータに実行させるためのプログラム。
  8. ブログ記事の識別情報とコメント数と被リンク数とトラックバック数とブログ記事データとを含む記事レコードを複数格納している記事データ格納部に格納されている、閲覧数が既知の記事レコードのうち、予め定められた特性を有する複数のキーワードのいずれかに該当する記事レコードを抽出する抽出手段と、
    抽出された前記記事レコードと、前記ブログ記事の識別情報に対応付けて閲覧数を格納する基準データ格納部に当該記事レコードに含まれる前記ブログ記事の識別情報に対応付けられて格納されている前記閲覧数とから、前記閲覧数を従属変数とし、前記コメント数と前記被リンク数と前記トラックバック数とを独立変数とする回帰モデルの係数を算出し、モデルデータ格納部に格納するモデル化手段と、
    前記記事データ格納部に格納されている前記記事レコードのうち前記閲覧数が未知の記事レコードに含まれる前記コメント数と前記被リンク数と前記トラックバック数と前記モデルデータ格納部に格納されている前記回帰モデルの係数とから、前記閲覧数が未知の記事レコードの各々について前記閲覧数を推定し、前記閲覧数が未知の記事レコードのブログ記事の識別情報に対応付けて前記記事データ格納部に格納する閲覧数推定手段と、
    を有するブログ分析装置。
JP2009067173A 2009-03-19 2009-03-19 ブログ分析方法及び装置 Withdrawn JP2010218475A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009067173A JP2010218475A (ja) 2009-03-19 2009-03-19 ブログ分析方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009067173A JP2010218475A (ja) 2009-03-19 2009-03-19 ブログ分析方法及び装置

Publications (1)

Publication Number Publication Date
JP2010218475A true JP2010218475A (ja) 2010-09-30

Family

ID=42977205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009067173A Withdrawn JP2010218475A (ja) 2009-03-19 2009-03-19 ブログ分析方法及び装置

Country Status (1)

Country Link
JP (1) JP2010218475A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014050837A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 判定装置、判定方法、及びコンピュータ読み取り可能な記録媒体
WO2014153971A1 (en) * 2013-03-27 2014-10-02 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining number of visits of a user generated content
US9785677B2 (en) 2012-02-09 2017-10-10 Tencent Technology (Shenzhen) Company Limited Method and system for sorting, searching and presenting micro-blogs
CN110222909A (zh) * 2019-06-20 2019-09-10 郑州工程技术学院 一种新闻传播力预测方法
JP7098122B1 (ja) * 2021-12-10 2022-07-11 株式会社トドオナダ 記事監視システム、注目情報が記述された記事の監視方法、コンピュータプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785677B2 (en) 2012-02-09 2017-10-10 Tencent Technology (Shenzhen) Company Limited Method and system for sorting, searching and presenting micro-blogs
WO2014050837A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 判定装置、判定方法、及びコンピュータ読み取り可能な記録媒体
WO2014153971A1 (en) * 2013-03-27 2014-10-02 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining number of visits of a user generated content
US20150169678A1 (en) * 2013-03-27 2015-06-18 Haiyang TAO Method and apparatus for obtaining number of visits of a user generated content
CN110222909A (zh) * 2019-06-20 2019-09-10 郑州工程技术学院 一种新闻传播力预测方法
JP7098122B1 (ja) * 2021-12-10 2022-07-11 株式会社トドオナダ 記事監視システム、注目情報が記述された記事の監視方法、コンピュータプログラム

Similar Documents

Publication Publication Date Title
Zhou et al. How YouTube videos are discovered and its impact on video views
US10269024B2 (en) Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content
US8494897B1 (en) Inferring profiles of network users and the resources they access
US9465872B2 (en) Segment sensitive query matching
US9497277B2 (en) Interest graph-powered search
Zhang et al. Time series analysis of a Web search engine transaction log
US20210279232A1 (en) Chatbot Search System, Chatbot Search Method, and Program
TWI454945B (zh) 大規模之搜尋引擎優化
KR101566616B1 (ko) 빅데이터 처리를 통한 광고의사결정시스템 및 방법
US20110161336A1 (en) Search supporting device and a method for search supporting
Jayamalini et al. Research on web data mining concepts, techniques and applications
EP2933734A1 (en) Method and system for the structural analysis of websites
JP2011227721A (ja) 関心抽出装置、関心抽出方法、及び関心抽出プログラム
JP2010218475A (ja) ブログ分析方法及び装置
Ortiz-Cordova et al. External to internal search: Associating searching on search engines with searching on sites
Shang et al. A micro-video recommendation system based on big data
JP2008097259A (ja) アクセス解析を利用した営業支援システム及び営業支援方法
JP5284064B2 (ja) 商品idサーバ装置、および商品idサーバ装置の制御方法
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Zhou et al. Boosting video popularity through recommendation systems
Müllner et al. Towards employing recommender systems for supporting data and algorithm sharing
US9128993B2 (en) Presenting secondary music search result links
JP6476395B1 (ja) 検索語の評価装置、評価システム、及び評価方法
Sadanand et al. Movie recommender engine using collaborative filtering
Xiong et al. Synthesizing knowledge through a data analytics-based systematic literature review protocol

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120605