JP2010044462A - コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム - Google Patents

コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム Download PDF

Info

Publication number
JP2010044462A
JP2010044462A JP2008206242A JP2008206242A JP2010044462A JP 2010044462 A JP2010044462 A JP 2010044462A JP 2008206242 A JP2008206242 A JP 2008206242A JP 2008206242 A JP2008206242 A JP 2008206242A JP 2010044462 A JP2010044462 A JP 2010044462A
Authority
JP
Japan
Prior art keywords
evaluation
content
storage unit
evaluated
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008206242A
Other languages
English (en)
Inventor
Satoshi Tabuchi
聡 田渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TWOBYTES CORP
Original Assignee
TWOBYTES CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TWOBYTES CORP filed Critical TWOBYTES CORP
Priority to JP2008206242A priority Critical patent/JP2010044462A/ja
Publication of JP2010044462A publication Critical patent/JP2010044462A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】一定の評価基準に従いコンテンツの品質、安全性、信憑性等を査定するコンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラムを提供する。
【解決手段】コンテンツ評価サーバ1は、各評価対象コンテンツ固有のコンテンツIDを格納するID管理記憶部16と、本文データを格納する未処理本文記憶部17と、コンテンツIDを作成してID管理記憶部に格納し、コンテンツIDと紐づけられた本文データを未処理本文記憶部に格納するタイムマネージングエンジン手段15aと、客観的評価を行う客観的評価装置15b〜15jと、観的評価を行う主観的評価装置15k〜15mと、客観的評価及び主観的評価の評価結果を格納する評価記憶部23と、評価記憶部に格納される評価結果を基に評価対象コンテンツの総合的なキャラクタを判断するキャラクタエンジン手段15n等を備える。
【選択図】図2

Description

本発明は、インターネット上のコンテンツに一定の評価基準を作成し、この評価基準に従いコンテンツの品質、安全性、信憑性等を査定する為のコンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラムに関する。
web2.0におけるインターネットコンテンツは企業ホームページ、個人ブログ等のCGM(コンシューマ・ジェネレイテッド・メディア:消費者生成メディア)コンテンツがその7割を占め、このCGMコンテンツを媒体としたアフィリエイト等の広告配信ビジネスが一般化している。CGMコンテンツの多くは情報の出元が不明瞭であり、信憑性、話題性、標準性等において不透明であり、自殺サイト等の不適切な情報を発信するコンテンツもある。しかし、中には非常に優良なコンテンツも存在し、その評価・格付けが課題となっている。
この評価手段として、Google(登録商標)等に代表されるクローラタイプ検索エンジンでは対象となるテキストコンテンツをインターネット全体から検索し、有効被リンク数等の評価により、ページランク等の客観的な評価を下すようにしている(非特許文献1参照。)。
西田圭介著、「Googleを支える技術 巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)」、初版、株式会社技術評論社、2008年3月28日、P6
しかしながら、クローラタイプ検索エンジンでは、被有効リンク数等の客観的な評価を下すのみであり、実際にそのCGMコンテンツの優劣を判断している訳ではなかった。又客観的評価としての評価項目も、適切な評価に十分な項目がそろっているとは言えなかった。更に評価の対象となるのは各コンテンツ内のテキストのみであった。評価もプラス評価のみで、そのコンテンツが優秀なコンテンツか有害サイトが判断することはできなかった。
本発明は、上記の問題点に鑑みてなされたものであり、複数種類の客観的評価項目と主観的評価項目を組み合わせ、合理的にCGMコンテンツの評価を行う為のコンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラムを提供することを目的とする。
上記の問題点を鑑みて、本発明の第1の特徴は、[イ]インターネット上のコンテンツの評価を行う為のコンテンツ評価サーバであって、評価対象コンテンツのURL及び初回評価のタイムスタンプを含む各評価対象コンテンツ固有のコンテンツIDを格納するID管理記憶部(16)と、[ロ]評価対象コンテンツのテキスト、音声、画像及び動画の少なくとも1つ以上を含む本文データを格納する未処理本文記憶部(17)と、[ハ]コンテンツIDを作成してID管理記憶部に格納し、コンテンツIDと紐づけられた本文データを未処理本文記憶部に格納するタイムマネージングエンジン手段(15a)と、[ニ]評価対象コンテンツに関する機械的に計測される値を評価する客観的評価を行う客観的評価装置と、[ホ]評価対象コンテンツに対する視聴者からの評価である主観的評価を行う主観的評価装置と、[ヘ]客観的評価及び主観的評価の評価結果を格納する評価記憶部(23)と、[ト]評価記憶部に格納される評価結果を基に評価対象コンテンツの総合的なキャラクタを判断するキャラクタエンジン手段(15n)とを備えるコンテンツ評価サーバであることを要旨とする。
本発明の第1の特徴としては、更に、[チ]客観的評価装置として、劣悪なコンテンツに含まれるNGワードを格納するNGワード記憶部(18)、[リ] 評価対象コンテンツの本文データに、NGワード記憶部に格納されるNGワードと一致する用語があるか抽出し、抽出されたNGワードの出現率を算出し、算出結果を算出日時と共に評価記憶部に格納するNGワードエンジン手段(15b)、[ヌ]話題となっている旬なキーワードより成る独自キーワードランキングリストを一定時間毎に作成し、独自キーワードランキングリストと評価対象コンテンツに含まれるキーワードが一致するかを一定時間毎に判定し、判定結果を判定日時と共にキーワードランキングデータとして評価記憶部に格納するキーワードランキングエンジン手段(15c)、[ル]評価対象コンテンツへのリンクイン及び評価対象コンテンツからのリンクアウトを一定時間毎に評価し、評価結果を評価日時と共にリンクデータとして評価記憶部に格納するリンクエンジン手段(15e)、[ヲ]評価対象コンテンツと類似するコンテンツが存在するか判断し、判断結果を評価記憶部に格納するコピぺエンジン手段(15f)、[ワ]評価対象コンテンツのPV数及びUU数を含むトラフィックデータを一定時間毎に算出し、算出日時と共にトラフィックデータを評価記憶部に格納するトラフィックエンジン手段(15g)、[カ]評価対象コンテンツの本文データの絶対量及び更新頻度を一定時間毎に算出し、算出結果を算出日時と共に評価記憶部に格納するページエンジン手段(15h)、[ヨ] 評価対象コンテンツの視聴者のコンテンツ滞在時間を測定し、測定結果を測定日時と共に評価記憶部に格納するビュータイムエンジン手段(15i)、[タ]評価対象コンテンツの本文データ内の同一ワード出現率を算出しスパム率として評価し、評価結果を評価日時と共にスパム評価記憶部23jに格納するスパムエンジン手段(15j)の少なくとも一つ以上を備えることを加えても良い。
更に本発明の第1の特徴として、[レ]NGワードエンジン手段は、NGワードの出現率を基に、放送禁止用語を含むレッドレベル、低俗な用語を含むイエローレベル、標準的な言葉からかけ離れている不透明レベルを含むレベル別に分類すること、[ソ]客観的評価装置は、評価対象コンテンツの本文データより、そのコンテンツが取り扱う主たるテーマの方向性を解析し、主たるキーワード及び主たるキーワードに付属するキーワード群の組み合わせを抽出し、評価記憶部に格納するキーワードセグメントエンジン手段(15d)を更に備えること、[ツ]主観的評価装置として、評価対象コンテンツの視聴者に対し、評価対象コンテンツに対するアンケートを実施して結果を回収し、回収結果を基に評価対象コンテンツに対する視聴者の主観的評価を一定時間毎に査定し、査定結果を査定日時と共にオーディエンスデータとして評価記憶部に格納するオーディエンスエンジン手段(15k)、[ネ]評価対象コンテンツに対するソーシャルブックマーク数を回収し、回収結果を基に一定時間毎に評価を行い、評価結果を評価日時と共にブックマークデータとして評価記憶部に格納するブックマークエンジン手段(15l)、[ナ]評価対象コンテンツを評価する評価委員に対し、評価対象コンテンツに対するアンケートを実施して結果を回収し、回収結果を基に評価対象コンテンツに対する評価委員の主観的評価を一定時間毎に査定し、査定結果を査定日時と共にコミッティデータとして評価記憶部に格納するコミッティエンジン手段(15m)の少なくとも一つ以上を備えること、[ラ]評価記憶部に格納されるキーワードランキングデータ、リンクデータ、トラフィックデータ、オーディエンスデータ、ブックマークデータ及びコミッティデータの内の少なくとも1つ以上のデータと時間毎の相関関係を、加速度データとして作成し、評価記憶部に格納する加速度分析エンジン手段(15o)と、[ム]評価記憶部に格納される加速度データを基に加速度予測を行う加速度予測エンジン手段(15p)とを更に備えることを加えても良い。
本発明の第2の特徴は、[イ]インターネット上のコンテンツの評価を行う為のコンテンツ評価方法であって、タイムマネージングエンジン手段(15a)が、評価対象コンテンツのURL及び初回評価のタイムスタンプを含む各評価対象コンテンツ固有のコンテンツIDを作成してID管理記憶部(16)に格納し、評価対象コンテンツのテキスト、音声、画像及び動画の少なくとも1つ以上を含む本文データをコンテンツIDと紐づけて未処理本文記憶部(17)に格納するステップと、[ロ]評価対象コンテンツに関する機械的に計測される値を客観的評価するステップと、[ハ]評価対象コンテンツに対する視聴者からの評価である主観的評価を行うステップと、[ニ]客観的評価及び主観的評価の評価結果を評価記憶部(23)に格納するステップと、[ホ]評価記憶部に格納される評価結果を基に評価対象コンテンツの総合的なキャラクタをキャラクタエンジン手段(15n)が判断するステップとを備えるコンテンツ評価方法であることを要旨とする。
本発明の第3の特徴は、[イ]インターネット上のコンテンツの評価を行うコンピュータに実施させるコンテンツ評価プログラムであって、タイムマネージングエンジン手段(15a)が、評価対象コンテンツのURL及び初回評価のタイムスタンプを含む各評価対象コンテンツ固有のコンテンツIDを作成してID管理記憶部(16)に格納し、評価対象コンテンツのテキスト、音声、画像及び動画の少なくとも1つ以上を含む本文データをコンテンツIDと紐づけて未処理本文記憶部(17)に格納する命令と、[ロ]評価対象コンテンツに関する機械的に計測される値を客観的評価する命令と、[ハ]評価対象コンテンツに対する視聴者からの評価である主観的評価を行う命令と、[ニ]客観的評価及び主観的評価の評価結果を評価記憶部(23)に格納する命令と、[ホ]評価記憶部に格納される評価結果を基に評価対象コンテンツの総合的なキャラクタをキャラクタエンジン手段(15n)が判断する命令とを備えるコンテンツ評価プログラムであることを要旨とする。
本発明のコンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラムによると、客観的評価項目と主観的評価項目を組み合わせ、合理的に対象コンテンツの評価を行い、評価結果によりコンテンツを格付けすることができる。
評価対象コンテンツ内のテキストのみばかりでなく、音声、動画をも評価対象とすることが出来る。これにより他社の音声、動画等に関する著作権侵害を抑制することも可能となる。
評価結果はプラス・マイナスの得点にて算出することが出来、マイナス得点である有害コンテンツの発見、削除を容易にする。これにより有害コンテンツ等へのモバイル接続制限を効果的に実施することができる。
企業やコンテンツ制作者の評価依頼により、評価実施を行うことができる。
各評価の内容、評価要素をサーバ側で任意に調整することができる。
コンテンツの評価を適正に行うことにより、優良コンテンツの付加価値が向上する。又、効果的なSEO(サーチエンジン最適化)、SEM(検索エンジンマーケティング)対策ともなる。
更に、評価結果を分析することで、今後のコンテンツの人気度を予測することもできる。
以下、本発明の実施の形態に係るコンテンツ評価サーバについて説明する。尚、本発明の実施の形態において使用される機器、手法等は一例であり、本発明はこれらに限定されるものではないことは勿論である。
(コンテンツ評価システム)
本発明の実施の形態に係るコンテンツ評価サーバ1を備えるコンテンツ評価システム100は、図1に示すように、コンテンツ評価サーバ1と、評価対象となるTVポータルサービス6、モバイルサイト7、個人ブログ8、企業ホームページ9(以下、これらを「CGMコンテンツ」記載する)がインターネット5を介して接続可能となっている。TVポータルサービス6は有料・無料の音楽サイト、動画サイトを指す。モバイルサイト7は、携帯電話用のCGMコンテンツを指す。個人ブログ8は、個人が作成・更新するブログ、ホームページ等を指す。企業ホームページ9は、企業が運営する広告案内等のホームページを指す。
この他、インターネット上には外部総合サイトサーバ2、オーディエンス評価ページ3、評価委員会サイト4等が接続されている。外部総合サイトサーバ2は、Google(登録商標)、MSN(登録商標)、YAHOO(登録商標)等の他社が運営する総合サイトのシステムであり、コンテンツ評価サーバ1とインターネット5や高速専用回線等で接続可能となっている。
オーディエンス評価ページ3は外部総合サイトサーバ2やCGMコンテンツが提供するページの隅、余白等に存在するアンケート形式のページであり、ページを閲覧した一般のネット視聴者にその内容の優劣を判断させ、回答をコンテンツ評価サーバ1宛に送信するよう設定されている。
評価委員会サイト4はコンテンツ評価サーバ1が運営するサイトであり、評価対象コンテンツの内容の優劣を評価委員に判断させる。評価委員はコンテンツ評価にあたり信頼できる資格を有する者又は該当分野に精通する有志の者とし、インターネット5上等で公募し、評価者IDや特定のハンドルネーム等の簡易登録にて登録できるものとする。尚、非常に優秀な評価委員には謝礼を与えたり、逆に不適切な評価委員は登録を削除するようにしてもよい。意図的な評価捏造行為を阻止するため、評価者ID、IPアドレス、エージェントキー等を監視することが好ましい。
(コンテンツ評価サーバ)
コンテンツ評価サーバ1は、図2に示すように、入力装置11、出力装置12、通信制御装置13、主記憶装置14、中央制御処理装置(以下CPUと記載)15、ID管理記憶部16、未処理本文記憶部17、NGワード記憶部18、キーワード記憶部19、ブックマーク記憶部20、オーディエンス記憶部21、コミッティ記憶部22、評価記憶部23、本文記憶部24、加速度記憶部25等を備えている。
CPU15は、コンテンツ評価のゲートウェイであるタイムマネージングエンジン手段15aと、評価対象コンテンツに関する機械的に計測される値を評価する客観的評価を行う客観的評価装置であるNGワードエンジン手段15b、キーワードランキングエンジン手段15c、キーワードセグメントエンジン手段15d、リンクエンジン手段15e、コピぺエンジン手段15f、トラフィックエンジン手段15g、ページエンジン手段15h、ビュータイムエンジン手段15i、スパムエンジン手段15jと、評価対象コンテンツに対する視聴者からの評価である主観的評価を行う主観的評価装置オーディエンスエンジン手段15k、ブックマークエンジン手段15l、コミッティエンジン手段15mと、客観的評価及び主観的評価を元に総合的人格を判定するキャラクタエンジン手段15nと、客観的評価及び主観的評価を元に該当コンテンツの人気度・勢いを分析する加速度分析エンジン手段15oと、分析結果を元に未来の加速度を予測する加速度予測エンジン手段15p等を備えている。
ID管理記憶部16は、各CGMコンテンツ固有のコンテンツIDを記憶、管理する。コンテンツIDはそのコンテンツがコンテンツ評価サーバ1に初めて入力、評価処理された時間(タイムスタンプ)及びコンテンツのドメイン(URL)を基に作成される。
未処理本文記憶部17は、各CGMコンテンツの評価前のテキスト、音声、画像、音声等(以下これらを「本文と記載する」)を記憶する。
NGワード記憶部18は、自殺、ポルノ等の劣悪サイトで使用されがちなNGワードを記憶する。NGワードはリストとして、例えば、放送禁止用語リスト、タブー語リスト、有害薬物リスト、自殺関連用語リスト、AV女優リスト、風俗営業店リスト、猥褻用語リスト、2チャンネル用語リスト、ギャル語リスト等として保管されている。NGワードは外部総合サイトサーバ2が作成したNGワードリスト等を検索して作成される。
キーワード記憶部19は、現在最も検索されている、流行していると思われる旬なキーワードをランキング形式にて、例えば1位から100位まで記憶する。例えば、大地震の発生後であれば「地震」、話題の映画の公開前や直後であればその映画のタイトル等が旬なキーワードとなる。キーワードは外部総合サイトサーバ2が作成するキーワードランキングを独自に統合することにより作成される。
ブックマーク記憶部20は、評価対象コンテンツのURLが「お気に入り」等のブックマークにて他者、他社に登録されている数(ソーシャルブックマーク)を計測するためのプログラム、集計されたブックマーク数等を記憶する。一般的に、ブックマークとして登録されている数が多いほど、そのコンテンツは人気が高いと推測される。
オーディエンス記憶部21は、オーディエンス評価ページ3にて一般のコンテンツ視聴者にアンケートを実施するための画面、プログラム、回収されたアンケート結果等を記憶する。
コミッティ記憶部22は、評価委員会サイト4にて評価委員に評価依頼するための画面、プログラム、回収された評価結果等を記憶する。
評価記憶部23は、客観的評価及び主観的評価等の評価結果を記憶するものであり、NGワード評価記憶部23b、キーワードランキング評価記憶部23c、キーワードセグメント評価記憶部23d、リンク評価記憶部23e、コピぺ評価記憶部23f、トラフィック評価記憶部23g、ページ評価記憶部23h、ビュータイム評価記憶部23i、スパム評価記憶部23j、オーディエンス評価記憶部23k、ブックマーク評価記憶部23l、コミッティ評価記憶部23m、キャラクタ評価記憶部23n、加速度評価記憶部23o等を備えている。
各記憶部に格納される評価項目は概念的に図3に示すように客観的評価と主観的評価に区分される。8割の客観的評価(機械評価)に2割の主観的評価(視聴者等による評価)を加えることで、より合理的な評価を可能としている。更に客観的評価要素として信憑性、話題性、標準性、絶対数量に区分され、主観的評価として視聴者評価、評価委員会に区分される。具体的な項目としては図3および図4に示すように、先ず、「信憑性」の要素として「人物評価」「リンクイン」の項目を備える。信憑性とは、コンテンツを作成した人物、団体、組織の信頼度であり、その製作者の品格に由来する部分が大きい。「人格評価」とは、評価記憶部23に蓄積された評価から査定される人格(キャラクタ)の傾向である。人格評価データはキャラクタ評価記憶部23nに格納される。「リンクイン」とは、マスメディア、官庁、優良企業等の権威サイトからの直接リンクを指す。権威サイトからの直接リンクは社会的信用性を測定するバロメータである為、信憑性を計る項目としている。この他のサイトからの被リンク数の絶対数もリンクインデータとして使用する。リンクインデータは、リンク評価記憶部23eに格納される。
話題性の要素として「ランキングキーワード」「セグメントキーワード」「タイムスタンプ」を備える。「話題性」とは現在CGMコンテンツ視聴者の間でニュース性のある話題であるかを指す。話題性には、速報性、芸術性、専門性、趣味性、社会性、政治性、地域性などが含まれる。話題性を測定する上で極めて重要な要素は、使用されているキーワードと投稿時間であり、コンテンツの投稿日時等の証明は、速報性測定の客観的かつ相対的な評価要素と考える。「ランキングキーワード」とは、評価対象コンテンツのページ内における旬なキーワードを指し、キーワード記憶部19内の独自キーワードランキングとのキーワード比較対照により点数を算出し、この点数の高低によりニュース性が高いコンテンツであるかを判別する。ランキングキーワードデータはキーワードランキング評価記憶部23cに格納される。「セグメントキーワード」とは、評価対象コンテンツのジャンル(種類)セグメントを指し、評価対象コンテンツのテーマの方向性を判断する。セグメントキーワードは、キーワードセグメント評価記憶部23dに格納される。「タイムスタンプ」とは、評価対象コンテンツの初回登録処理にて設定される時刻を指す。評価対象コンテンツのドメイン(URL)とタイムスタンプの照合により、コンテンツページを時系列で管理する。尚、タイムスタンプにより時間のデータを登録、管理することをゲートウェイとして、評価対象コンテンツと各エンジン手段とのデータのやり取りを開始する。タイムスタンプデータは、ID管理記憶部16に格納される。
キーワード等のデータ集積は、RSS(リッチ・サイト・サマリ:WEBサイトの見出しや要約などのメタデータを構造化して記述するXMLベースのフォーマット)のデータを参照する方法と、クローラを巡回させる方法の2通り行われる。尚、クローラとは全文検索型サーチエンジンの検索データベースを作成するために、世界中のありとあらゆるWEBページを回収する汎用プログラムのことを指す。クローラは、自動的にデータベースに収録されていないWEBページや、更新されたWEBページを発見しては内容を回収し、結果をデータベースに反映させる。
標準性の要素として「言語解析:レッド」「言語解析:イエロー」「言語解析:不透明」「スパム」「リンクアウト」「著作権侵害」をそなえる。「標準性」とは、広い世代に渡り一般に受け入れられる性質を指す。文書、音声、動画等に使用される言語は、地域、世代、サブカルチャーによってばらつきあり、インターネット上の多くコンテンツは、無秩序に放置されている。標準性を測定することで標準的な、広く一般に受け入れられるコンテンツを抽出することが出来るようにする。「言語解析」は、各コンテンツのページ毎に診断されるNGワード出現率を基とした評価結果である。評価は、レッドレベル、イエローレベル、不透明レベルの三種類等に分けて判断する。レッドレベルは、放送禁止用語と公の場面で人目にふれることをタブーとされる用語であり、放送禁止用語リスト、タブー語リスト、有害薬物リスト、自殺関連用語リスト等に出現する用語である。イエローレベルは、主にアダルト系と低俗な情報を示す用語であり、AV女優リスト、風俗営業店リスト、猥褻用語リスト等に出現する用語である。不透明レベルは、実害はないが、標準的な日本語から著しくかけ離れていると判断される用語であり、2チャンネル用語リスト、ギャル語リスト等に出現する用語である。この他、その他のレベルとして、クライアント等の要望に応じて自由にNGワード用語を設定可能として良い。各言語解析データは、NGワード評価記憶部23bに格納される。「スパム」は、各コンテンツのページ単位で同じキーワードが羅列されていることを指し、このスパム率が高いページは無暗に同一ワードが多いページであり、優良コンテンツとしては好ましくないページであると判断する。スパムデータはスパム評価記憶部23jに格納される。「リンクアウト」は評価対象コンテンツから外部URLに出力接続されているリンク数を指す。過度な広告収入を目的としたページやファイル、或いは、ユーティリティサイトに見られるただ単にリンクを集合させた内容のページは、コンテンツ価値の評価を低くする。リンクアウト数の他、リンク先の客観的評価から現状評価することが望ましい。リンクアウトデータは、リンク評価記憶部23eに格納される。「著作権侵害」とは、評価対象コンテンツが著作権を侵害しているかを判断する項目である。CGMコンテンツは簡単にテキストの切り張り(コピーアンドペイスト)ができ、安易な他者コンテンツ複製や転用が多数行われている実情がある為、評価対象コンテンツのオリジナリティを精査し、その真価を測定する。著作権侵害データは、コピぺ評価記憶部23fに格納される。
絶対数量の要素として「サイトボリューム」「PV数」「UU数」「滞在時間」の項目を備える。「絶対数量」とは、評価対象コンテンツにて計測可能な絶対数量を指す。「サイトボリューム」は、評価対象コンテンツの総ページ数、更新頻度等を指す。コンテンツ自体の定量的な情報を得ることも、そのコンテンツの価値を計る構成要素と考えられる。具体的に、総ページ数はクローラ等によって計測し、更新頻度はRSSの出力データやタイムスタンプ項目との連携データにより判断する。サイトボリュームデータは、ページ評価記憶部23hに格納される。「PV数」は、評価対象コンテンツ全体及びページ単位のPV(ページビュー:ページ閲覧回数)の計測値である。これにより評価対象コンテンツ全体の価値及び各ページの旬な度合いを測ることが可能となる。計測には汎用の集計エンジン等を使用する。「UU数」は、評価対象コンテンツ全体及びページ単位のUU(ユニークユーザ:一定期間内にWebサイトに訪れた重複のないユーザの数)の計測値である。これにより評価対象コンテンツ全体の人気度や各ページの旬な度合いを測ることが可能となる。計測には汎用の集計エンジン等を使用する。尚、PV数÷UU数等の閲覧率を計測可能なデータ(以下「閲覧率」と記載)を使用しても構わない。PV数、UU数及び閲覧率等のデータは、トラフィック評価記憶部23gに格納される。「滞在時間」は、視聴者が評価対象コンテンツを視聴した時間を指す。動画サイト等が普及した結果、滞在時間の計測も有効な要素として重要視する必要性がある為である。滞在時間データは、ビュータイム評価記憶部23iに格納される。
主観的評価としては、視聴者評価の要素として「オーディエンス直接投票」「ブックマーク直接投票」の項目を備え、評価委員会の要素として「評価委員会直接投票」の項目を備える。主観的評価は、機械的に実行される客観的評価では測定できない、ネット視聴者による意見投票等の主観的評価を実際の評価に加味させる為のものである。「オーディエンス直接投票」とは、不特定多数の一般ネット視聴者等による主観的な意見を複数項目投票させたデータを指す。ネット視聴者は図1のオーディエンス評価ページ3を介して、対象ページに埋め込まれたタグ、ツールバー、ガジェットから投票できる。オーディエンス直接投票のデータは、オーディエンス評価記憶部23kに格納される。「ブックマーク直接投票」とは、評価対象コンテンツに対するソーシャルブックマーク(よく使うサイトのアドレスを登録しておく「ブックマーク」や「お気に入り」等をネットワーク上に保存し、他のユーザと共有するサービス)を集計した結果データである。ブックマーク直接投票データはブックマーク評価記憶部23lに格納される。「評価委員会直接投票」は、コンテンツ評価にあたり信頼できる資格を有する者又は該当分野に精通する有志の者で結成された評価委員による評価対象コンテンツの評価結果を指す。図1の評価委員会サイト4のホームページ等から投票する。評価委員会直接投票データは、コミッティ評価記憶部23mに格納される。
この他、図2の本文記憶部24は、初回の評価処理が行われた後の評価対象コンテンツの本文を格納するための記憶装置である。
加速度記憶部25は、分析済みの過去の加速度グラフを格納する。加速度グラフは、現在の加速度グラフの今後の傾向を予測するのに使用される。現在の加速度グラフの予測結果及び実際の進行結果は加速度記憶部25にフィードバックされる。
次に図2のCPU15の各手段について説明する。タイムマネージングエンジン手段15aは、評価対象コンテンツのURLに評価初回処理の時刻(タイムスタンプ)を加え、各評価対象コンテンツ固有のコンテンツIDを作成し、ID管理記憶部16に格納する。又、タイムマネージングエンジン手段15aは評価対象コンテンツのテキスト、音声、動画等の本文データをコンテンツIDと紐づけて未処理本文記憶部17に格納する。この他、コンテンツID作成後にその他のエンジン手段に各々指示を与えるトリガーの役割をする。
NGワードエンジン手段15bは、評価対象コンテンツの本文データに、NGワード記憶部に格納されるNGワードと一致する用語があるか抽出し、抽出されたNGワードの出現率を算出し、算出結果を算出日時と共に評価記憶部に格納する。具体的には各評価対象コンテンツのページ毎に、「NGワード記憶部18内のNGワードリストと一致するNGワードの総バイト数÷該当ページ内における2バイトの文字の総バイト数×100」の計算処理を行い、該当ページ内のNGワードの出現率を計算し、評価する。評価は、レッドレベル、イエローレベル、不透明レベルの三種類等に分けて判断する。レッドレベルは、放送禁止用語と公の場面で人目にふれることをタブーとされる用語であり、NGワード記憶部18内にて、放送禁止用語リスト、タブー語リスト、有害薬物リスト、自殺関連用語リスト等にまとめられている。これらのリストとページ内に存在するキーワードを照合し、リスト内用語が一回でも出現したページは、有害なページの可能性があると判断する。ただし、新聞社等の公共の利益に貢献するサイトはこの限りではないものとする。イエローレベルは、主にアダルト系と低俗な情報を示す用語であり、NGワード記憶部18内にて、AV女優リスト、風俗営業店リスト、猥褻用語リスト等にまとめられている。これらのリストと出現キーワードを照合し、出現率が一定以上、例えば5%以上のページは、アダルト色の強いページと判断する。不透明レベルは、実害はないが、標準的な日本語から著しくかけ離れていると判断される用語であり、NGワード記憶部18内にて、2チャンネル用語リスト、ギャル語リスト等にまとめられている。この他、その他のレベルとして、クライアント等の要望に応じて自由にNGワード用語を設定可能として良い。これらのリストと出現キーワードを照合し、出現率が一定以上、例えば5%以上のページは、乱れた日本語にて作成されたページである可能性が高いと判断する。評価結果はNGワード評価記憶部23bに格納される。
尚、NGワードエンジン手段15bは、評価対象コンテンツにタグを設置し、このタグからNGワード評価記憶部23bに蓄積された評価結果を参照できるようにする。また、NGワードエンジン手段15bは、未処理本文記憶部17に格納されている本文データからNGワードを抽出するが、本文データは音声データ、動画データ等を含む為、これらのキーワードはNGワードエンジン手段15bが備えるヴォイスエンジンを用いて言語解析し、テキストとして抽出されたものを使用するものとする。
キーワードランキングエンジン手段15cは、話題となっている旬なキーワードより成る独自キーワードランキングリストを一定時間毎に作成し、独自キーワードランキングリストと評価対象コンテンツに含まれるキーワードが一致するかを一定時間毎に判定し、判定結果を判定日時と共にキーワードランキングデータとして評価記憶部に格納する。具体的には、今話題の人物、現在の時事問題、新製品等より成る独自のキーワードランキングリストを作成及び更新し、更にこの独自のキーワードランキングリストを基準とした評価対象コンテンツの評価を行う。独自のキーワードランキングリストの作成は、goo(登録商標)ランキング、Infoseek(登録商標)キーワードランキング、BIGLOBE(登録商標)サーチ旬間ランキング、楽天(登録商標)ランキング市場、2ちゃんねる(登録商標)検索語ランキング等の外部総合サイトサーバ2が作成する各キーワードランキングを基にして、一定時間毎、例えば一時間毎に作成される。評価対象コンテンツの評価では、独自キーワードランキングリスト内のキーワードと、評価対象コンテンツの各ページに含まれるキーワードを比較し、一致するキーワードが存在しているか、又それは現在どれくらい旬なキーワードであるかを一定時間毎、例えば一時間毎に数値化する。該当キーワードその数値化された得点は、作成時間と共にキーワードランキング評価記憶部23cに累積される。初回ランキング作成時を起点として、一定時間毎に得点の変遷データが取得され、グラフ化されることとなる。
尚、キーワードランキングエンジン手段15cは、評価対象コンテンツの各ページに含まれるキーワードを未処理本文記憶部17に格納されている本文データから抽出する。本文データは音声データ、動画データ等を含む為、これらのキーワードはキーワードランキングエンジン手段15cが備えるヴォイスエンジンを用いて言語解析し、テキストとして抽出されたものを使用する。
キーワードセグメントエンジン手段15dは、評価対象コンテンツの各ページに含まれるキーワードを形態素エンジン等にて解析し、そのコンテンツが取り扱う主たるテーマの方向性を解析する。更に主たるキーワードとそのキーワードに付随して使用されるキーワード群の組み合わせをマッピングする。主たるキーワードはサイトの見出し等にHIタグで書かれている単語、タイトル、ページの上部に記載されている単語等を解析して求め、そのページに頻出する単語をキーワード群組み合わせとする。例えば主たるキーワードが「夏休み」であれば、キーワード群の組み合わせは「花火大会」「海水浴」「夏旅行」等となる。主たるキーワード及びキーワード群の組み合わせはキーワードセグメント評価記憶部23dに格納される。
リンクエンジン手段15eは、評価対象コンテンツへのリンクイン及び評価対象コンテンツからのリンクアウトを一定時間毎に評価し、評価結果を評価日時と共にリンクデータとして評価記憶部に格納する。具体的には、評価対象コンテンツのリンクイン、リンクアウトを調査し、その数を計測して評価する。リンクインは、マスメディア、官庁、優良企業等の権威サイト及びその他のサイトからの被リンク数を評価対象とし、これらのサイトからの被リンク絶対数を計測、診断し、得点化する。リンクアウトは、評価対象コンテンツから外部URLに出力接続されているリンク数を計測し、得点化する。得点化されたリンクインデータ及びリンクアウトデータは、リンク評価記憶部23eに格納される。
コピぺエンジン手段15fは、評価対象コンテンツと類似するコンテンツが存在すると判断された場合、タイムスタンプ等を照合し、時系列が古い方にそのオリジナル性を評価する。同一性評価結果のデータは著作権侵害データとしてコピぺ評価記憶部23fに格納される。尚、コピぺエンジン手段15fは、評価対象コンテンツでなくとも、予めランキング作成と同時に、独自キーワードランキング上位に含まれるキーワードを含むCGMコンテンツに対しても自動的に同一性評価を実施しておくものとする。具体的には独自のキーワードランキングの上位にランクするキーワードについて、RSSリーダ等を利用して同一キーワードを複数含むコンテンツを検索する。検索された複数のコンテンツのうち2つを比較対象とし、同一キーワードが含まれる数量(同一文字コードの数量)を算出してその割合を求め、割合の度合いによって同一性を評価する。同一性評価結果のデータは著作権侵害データとしてコピぺ評価記憶部23fに格納される。尚、同一性の最終定な判断は、コンテンツ全般に対して一定の見識を備えた者、例えばコンテンツ診断士等によって判断を下すことが望ましい。
トラフィックエンジン手段15gは、評価対象コンテンツのPV数及びUU数を含むトラフィックデータを一定時間毎に算出し、算出日時と共にトラフィックデータを評価記憶部に格納する。具体的には、一定時間毎、例えば一時間毎にPV数、UU数を計測し、PV数÷UU数(閲覧率)を算出し、その時間毎のPV数、UU数、閲覧率をトラフィックデータとしてトラフィック評価記憶部23gに格納する。トラフィックデータの時間変異は、キーワードランキングエンジン手段15cが算出する該当キーワードその数値化された得点の時間毎の変遷データと兼ね合わされ、その相関関係は後述する加速度グラフとして表示される。
ページエンジン手段15hは、評価対象コンテンツの本文データの絶対量及び更新頻度を一定時間毎に算出し、算出結果を算出日時と共に評価記憶部に格納する。具体的には、評価対象コンテンツのページの絶対数量及び更新頻度を計測し、評価する。具体的には、初回時にクローラ等を用いて評価対象コンテンツ全体の総ページ数を計測し、そのコンテンツドメイン、計測した基準日、計測された総ページ数をページ評価記憶部23hに格納する。更に更新頻度を評価する為、一定期間毎、例えば一週間毎にて、クローラやRSSリーダ等にて新規に追加されたページ数を読み込み、前回計測された総ページに追加ページ数を加算した数値を再評価日(更新日時)と共にページ評価記憶部23hに格納する。
ビュータイムエンジン手段15iは、コンテンツ視聴者のコンテンツ滞在時間(ビュータイム)を測定する。測定においては該当コンテンツの動画リンク数、全ページ数を考慮した利用密度としての測定結果を出す。測定結果は測定日時と共にビュータイムデータとしてビュータイム評価記憶部23iに格納される。
スパムエンジン手段15jは、評価対象コンテンツのページ毎の同一ワード出現率を計測し、評価する。具体的には「スパム率=同一ワードのバイト数÷ページ全体のバイト数*100」を計算し、スパム率が5%以上のようならスパムページである可能性があると判断する。スパム率及び評価結果は評価日時と共にスパム評価記憶部23jに格納する。
オーディエンスエンジン手段15kは、「このサイトの情報は参考になりましたか?」等の文章を一般のコンテンツ視聴者が閲覧する画面の一部に提示し、アンケートを実施し、結果を回収する。アンケート実施はブログツール、ツールバー、プラグイン、ガジェット等による投票にて行われる。回収された結果はオーディエンス記憶部21に格納される。又、オーディエンスエンジン手段15kは、定期的に、オーディエンス記憶部21に格納される回収結果を基に、視聴者の主観的評価を一定時間毎に査定する。評価結果は評価日時と共にオーディエンス評価記憶部23kに格納される。
ブックマークエンジン手段15lは、評価対象コンテンツに対するソーシャルブックマーク数等を回収する。回収結果はブックマーク記憶部20に格納される。又、ブックマークエンジン手段15lは、定期的にブックマーク記憶部20に格納される回収結果を基に一定時間毎にブックマーク評価を行う。評価結果は評価日時と共にブックマーク評価記憶部23lに格納される。
コミッティエンジン手段15mは、評価委員による評価対象コンテンツのアンケート、投票結果を回収する。アンケート等は評価委員会ホームページ、ツールバー、プラグイン、ガジェット等の投票にて実施される。回収された結果はコミッティ記憶部22に格納される。又、コミッティエンジン手段15mは、一定時間毎にコミッティ記憶部22に格納される回収結果を基に評価委員の主観的評価を査定する。評価結果は評価日時と共にコミッティ評価記憶部23mに格納される。
キャラクタエンジン手段15nは、評価記憶部23内の評価結果を基に、評価対象コンテンツの総合的キャラクタ(人格)を数値化し、総合評価を作成する。総合評価は図6のようにグラフ化して示される。例えば、キーワードランキング評価記憶部23cに格納されるキーワードランキングデータを基に、内容の新しさ、時代性を評価する「斬新度」を作成する。同様に、ページ評価記憶部23h内のページデータより、分量の多さ、更新の頻繁さを評価する「活発度」を作成する。NGワード評価記憶部23b、リンク評価記憶部23e、コピペ評価記憶部23f、スパム評価記憶部23j内の各データより、内容の正しさ、誠実さを評価する「誠実度」を作成する。オーディエンス評価記憶部23k、ブックマーク評価記憶部23l、コミッティ評価記憶部23m内の各データより、大衆による主観的な人気度の評価である「大衆評価度」を作成する。キーワードセグメント評価記憶部23d内のキーワードセグメントデータより、内容の博識さ、独創性を評価する「知性個性度」を作成する。トラフィック評価記憶部23g、ビュータイム評価記憶部23i内の各データより、客観的な人気度、知名度を評価する「知名度」を作成する。尚、このグラフ項目は一例であり、この他にも新たな評価項目を加え、それを基に新たな総合キャラクタ(度)を判断してもかまわない。作成された総合評価(キャラクタデータ)はキャラクタ評価記憶部23nに格納される。
加速度分析エンジン手段15oは、評価記憶部23に格納されるキーワードランキングデータ、リンクデータ、トラフィックデータ、オーディエンスデータ、ブックマークデータ及びコミッティデータの内の少なくとも1つ以上のデータと時間毎の相関関係を、加速度式や加速度グラフ等の加速度データとして作成し、加速度評価記憶部23oに格納する。具体的には、トラフィック評価記憶部23gに格納される時間毎の閲覧率変異データと、キーワードランキング評価記憶部23cに格納される該当キーワード及びその数値化された得点の時間毎の変遷データとを合わせて分析し、該当キーワードの「経過時間」、「キーワード得点(旬度)」、「閲覧率(客観的人気度)」の相関関係を加速度式や加速度グラフとして作成する。尚、加速度式や加速度グラフは、この他にも時間毎の計測が可能なパラメータ、例えばリンク評価記憶部23e、トラフィック評価記憶部23g、オーディエンス評価記憶部23k、ブックマーク評価記憶部23l、コミッティ評価記憶部23m等のデータに対しても作成される。
加速度予測エンジン手段15pは、加速度評価記憶部23oに格納される加速度式、加速度グラフデータを基に加速度予測を行い、予測済みの加速度グラフを加速度記憶部25に格納する。例えば、対象キーワード及び対象キーワードを含むコンテンツの今後の旬度、今後の客観的人気度等の予測を行う。更に加速度予測エンジン手段15pは、加速度記憶部25内の過去の分析済み加速度グラフデータをチャート化し、チャート分析にて新規の加速度グラフデータの今後の傾向を予測することもできる。予測は、時間毎の計測が可能なパラメータ、例えばリンク評価記憶部23e、オーディエンス評価記憶部23k、ブックマーク評価記憶部23l、コミッティ評価記憶部23m等のデータを利用して行う。
この他、入力装置11は、キーボード、マウス等から入力信号を受信するインタフェースである。出力装置12は、処理結果等を出力するための装置であり、具体的には液晶ディスプレイ、CRTディスプレイ、プリンタ等を指す。フロッピー(登録商標)ディスク、ハードディスク等の外部記憶装置を介して入力されても良い。通信制御装置13は、サーバ内装置間にてデータを送受信する為の制御信号を生成する。主記憶装置14は、主メモリとして、処理の手順を記述したプログラムや処理されるべきデータを一時的に記憶し、CPU15の要請に従ってプログラムの機械命令やデータを引き渡す。また、CPU15で処理されたデータは主記憶装置14に書き込まれる。主記憶装置14とCPU15はアドレスバス、データバス、制御信号等で結ばれている。
(コンテンツ評価サーバの動作)
以下、本実施の形態に係るコンテンツ評価サーバ1の動作には、図6に示すように、1.クローリング処理動作、2.ワード処理動作、3.主観情報取得処理動作、4.初回コンテンツ評価処理動作、5.定期巡回コンテンツ評価処理動作、6.加速度評価処理動作がある。以下、これらの動作について説明する。
(1.クローリング処理動作)
クローリング処理動作は、コンテンツ評価の前準備として各コンテンツにコンテンツIDを付与する為の処理であり、具体的に図7のフローに示す動作を行う。
(a)まずステップS11において、クローラ等により評価対象コンテンツをインターネット上より検索し、ステップS12において、検索されたコンテンツをコンテンツ評価サーバ1に入力する。
(b)ステップS13においてタイムマネージングエンジン手段15aがこのコンテンツを取得すると、評価対象コンテンツに取得日時のタイムスタンプを付与し、更にこの評価対象コンテンツのURLとタイムスタンプを組み合わせて、各コンテンツ固有のコンテンツIDを作成する。コンテンツIDはID管理記憶部16に格納され、評価対象コンテンツの本文はコンテンツIDと紐づけられて未処理本文記憶部17に格納される。
尚、上記のクローリング処理は、依頼された評価対象コンテンツのみならず、インターネット上に存在する主たるCGMコンテンツについても前もって処理しておくことが好ましい。
(2.ワード処理動作)
ワード処理は、コンテンツ評価の前準備として、NGワードリストと独自キーワードランキングリストを作成する処理である。先ず、NGワードリスト作成の動作について図8のフローを参照して説明する。
(a)ステップS21において、NGワード用クローラ等により外部総合サイトサーバ2が作成するNGワードリストをインターネット上より検索し、ステップS22において、検索されたリストをコンテンツ評価サーバ1に入力する。
(b)ステップS23においてNGワードエンジン手段15bが外部で作成されたNGワードリストを取得すると、これらのNGワードリストを基に、独自NGワードリストを作成する。NGワードエンジン手段15bは作成された独自NGワードリストを作成時刻と共にNGワード記憶部18に格納する。尚、このリスト作成処理は一定間隔毎に行われるものとする。
次に独自キーワードランキングリスト作成の動作について図9のフローを参照して説明する。
(a)ステップS31において、キーワード用クローラ等により外部総合サイトサーバ2が作成するキーワードランキングリストをインターネット上より検索し、ステップS32において、検索されたリストをコンテンツ評価サーバ1に入力する。
(b)ステップS33においては、キーワードランキングリスト内の各キーワードに得点をつける。クローリングした外部総合サイトサーバ2の数をn個とし、各サイトが100位までをランキングしているとすると、1位から100位までのキーワード数は、100n個存在することになる。その100n個のキーワードを、1位を100ポイント最高点、2位を99ポイント点…100位を1点として点数を与える。
(c)ステップS34においては、これらのキーワードをソートし、同一キーワードが発生している場合は、それぞれの点数を合算し、ひとつの結果にまとめる。この作業により、あるキーワードの最高点はポイント最高n点となる。これにより100(n−α)個のキーワード(αは重複のためにさし引いた個数)とこれらに各々対応する点数のリストから成る独自キーワードランキングリストが作成される。作成された独自キーワードランキングリストは作成時刻と共にキーワード記憶部19に格納される。尚、このリスト作成処理は一定間隔毎に行われるものとする。
(3.主観情報取得処理動作)
主観情報取得処理は、コンテンツ評価の前準備として、主観的評価となるブックマーク、一般のコンテンツ視聴者、評価委員による評価対象コンテンツに対する評価を取得可能なように設定し、回収する処理である。先ず、ブックマーク評価の動作について図10のフローを参照して説明する。
(a)ステップS41において、ブックマークエンジン手段15lはブックマーク用クローラ等によりインターネット上に存在するCGMコンテンツより評価対象コンテンツに対するブックマークを一定間隔毎に検索し、ステップS42において、検索されたブックマークをコンテンツ評価サーバ1に入力する。
(b)ステップS43においては、ブックマークエンジン手段15lが検索されたブックマークデータを回収し、回収日時と共にブックマーク記憶部20に格納する。
次に、一般のコンテンツ視聴者による評価の動作について図11のフローを参照して説明する。
(a)ステップS51において、オーディエンスエンジン手段15kはインターネット上に存在するCGMコンテンツに対し、評価対象コンテンツの評価に関するアンケートを実施するよう設定する。具体的には「このサイトの情報は参考になりましたか?」等の文章を一般のコンテンツ視聴者が閲覧する画面の一部に提示し、入力を促すようにする。アンケート実施はブログツール、ツールバー、プラグイン、ガジェット等による投票にて行われる。尚、アンケートでは、ドメイン名についても評価を依頼することが望ましい。
(b)ステップS52において、オーディエンスエンジン手段15kは、アンケート結果を回収する。回収結果は回収日時と共にオーディエンス記憶部21に格納される。
最後に、評価委員会による評価の動作について図12のフローを参照して説明する。
(a)ステップS61において、コミッティエンジン手段15mはインターネット上に存在する評価委員会ホームページにて、評価対象コンテンツの評価を依頼するよう設定する。具体的には「このサイトについて評価してください」等の文章を評価委員会ホームページ画面に提示し、入力を促す。評価委員はコンテンツ評価にあたり信頼できる資格を有する者又は該当分野に精通する有志の者で構成されるが、ハンドルネーム等の最低限の登録は行うようにすることが好ましい。評価依頼はこの他、ツールバー、プラグイン、ガジェット等による投票にて行ってもよい。尚、ドメイン名についても評価を依頼することが望ましい。
(b)ステップS62において、コミッティエンジン手段15mは、依頼した評価を回収する。回収結果は回収日時と共にコミッティ記憶部22に格納される。
(4.初回コンテンツ評価処理動作)
1.クローリング処理、2.ワード処理、3.主観情報取得処理の準備が完了すると、初回コンテンツ評価処理に移行する。初回コンテンツ評価処理は、評価対象コンテンツの本文の各評価の処理である。以下、初回コンテンツ評価処理について図13を参照して説明する。
(a)先ずステップS71において、評価対象コンテンツのコンテンツIDをID管理記憶部16から取得し、コンテンツIDに紐づけられる本文を未処理本文記憶部17から取得する。
(b)ステップS72において、NGワードエンジン手段15bは、取得した本文に動画、音声等が含まれる場合はこれらをテキスト化する。その後、本文中にNGワードが含まれているかを判断し、含む場合はその割合を算出する。具体的にNGワードエンジン手段15bは、各評価対象コンテンツのページ毎に、「NGワード記憶部18内のNGワードリストと一致するNGワードの総バイト数÷該当ページ内における2バイトの文字の総バイト数×100」の計算処理を行い、該当ページ内のNGワードの出現率を算出する。算出結果は、レッドレベル、イエローレベル、不透明レベルの三種類等に分けて評価される。レッドレベルは、放送禁止用語と公の場面で人目にふれることをタブーとされる用語であり、NGワード記憶部18内にて、放送禁止用語リスト、タブー語リスト、有害薬物リスト、自殺関連用語リスト等にまとめられている。NGワードエンジン手段15bは、これらのリストとページ内に存在するキーワードを照合し、リスト内用語が一回でも出現したページは、有害なページの可能性があると判断する。イエローレベルは、主にアダルト系と低俗な情報を示す用語であり、NGワード記憶部18内にて、AV女優リスト、風俗営業店リスト、猥褻用語リスト等にまとめられている。この他、その他のレベルとして、クライアント等の要望に応じて自由にNGワード用語を設定可能として良い。NGワードエンジン手段15bは、これらのリストと出現キーワードを照合し、出現率が一定以上、例えば5%以上のページは、アダルト色の強いページと判断する。不透明レベルは、実害はないが、標準的な日本語から著しくかけ離れていると判断される用語であり、NGワード記憶部18内にて、2チャンネル用語リスト、ギャル語リスト等にまとめられている。NGワードエンジン手段15bは、これらのリストと出現キーワードを照合し、出現率が一定以上、例えば5%以上のページは、乱れた日本語にて作成されたページである可能性が高いと判断する。評価結果はNGワード評価記憶部23bに格納される。
(c)ステップS73において、キーワードランキングエンジン手段15cは、取得した本文に動画、音声等が含まれる場合はこれらをテキスト化する。その後、本文中にキーワードが含まれているかを判断し、含む場合はその得点を算出する。具体的にキーワードランキングエンジン手段15cは、キーワード記憶部19に格納される独自キーワードランキングリスト内のキーワードと、評価対象コンテンツの各ページに含まれるキーワードを比較し、一致するキーワードが存在しているか、又存在する場合その得点を算出する。尚、ページ内に旬キーワードが複数存在する場合、100点を上限として各旬キーワードの合算を行うようにする。例えばあるページ内に旬キーワードA(a点)が2個と旬キーワードB(b点)が1個存在する場合、(2a+b)÷100÷旬キーワードの種類数(この場合2)等のように算出するようにする。該当キーワードとその得点は、作成時間と共にキーワードランキング評価記憶部23cに累積される。初回ランキング作成時刻は評価グラフの起点となる。
(d)ステップS74において、キーワードセグメントエンジン手段15dは、評価対象コンテンツ本文に含まれるキーワードを形態素エンジン等にて解析し、そのコンテンツが取り扱う主たるテーマの方向性を解析する。更に主たるキーワードとそのキーワードに付随して使用されるキーワード群の組み合わせをマッピングする。主たるキーワードはサイトの見出し等にHIタグで書かれている単語、タイトル、ページの上部に記載されている単語等を解析して求め、そのページに頻出する単語をキーワード群の組み合わせとする。主たるキーワード及びキーワード群の組み合わせはキーワードセグメント評価記憶部23dに格納される。
(e)ステップS75において、コピペエンジン手段15fは、評価対象コンテンツ本文に含まれるキーワードが独自キーワードランキングリストに含まれるキーワードであった場合、RSSリーダ等を利用して同一キーワードを複数含むコンテンツを検索する。同一キーワードを複数含むコンテンツが検索されると、同一キーワードが含まれる数量(同一文字コードの数量)を算出してその割合を求め、割合の度合いによって同一性を評価する。尚、同一性が認められる場合、コンテンツIDに含まれるタイムスタンプを基に、時間が古いほうにそのオリジナリティを認める。同一性評価結果のデータは著作権侵害データとしてコピぺ評価記憶部23fに格納される。尚、同一性の最終定な判断は、コンテンツ全般に対して一定の見識を備えた者、例えばコンテンツ診断士等によって判断を下しても構わない。
(f)ステップS76において、スパムエンジン手段15jは、評価対象コンテンツ本文のページ毎の同一ワード出現率を計測し、評価する。具体的には「スパム率=同一ワードのバイト数÷ページ全体のバイト数*100」を計算し、スパム率が一定率、例えば5%以上のようならスパムページである可能性があると判断する。判断結果はスパム評価記憶部23jに格納される。
(g)ステップS77において、リンクエンジン手段15eは、評価対象コンテンツ本文のリンクイン、リンクアウトを調査し、その数を計測して評価する。リンクインは、権威サイト及びその他のサイトからの被リンク数を評価対象とし、これらのサイトからの被リンク絶対数を計測、診断し、得点化する。リンクアウトは、評価対象コンテンツから外部URLに出力接続されているリンク数を計測し、得点化する。得点化されたリンクインデータ及びリンクアウトデータは、リンク評価記憶部23eに格納される。
(h)ステップS78において、キャラクタエンジン手段15nは、NGワード評価記憶部23b、キーワードランキング評価記憶部23c、キーワードセグメント評価記憶部23d、コピペ評価記憶部23f、スパム評価記憶部23j、リンク評価記憶部23eに格納される初回の評価結果を基に、評価対象コンテンツの総合的キャラクタ(人格)を数値化し、総合評価を作成する。総合評価は図6のようにグラフ化して示される。具体的に数値化は、図4に示す最低点・最高点・基準点に当てはめて行われる。NGワード評価記憶部23bの評価結果は、レッドが−20〜0点の範囲、イエローが−10〜5点の範囲、不透明が−3〜5点の範囲で得点化される。キーワードランキング評価記憶部23cの評価結果は0〜10点の範囲で得点される。キーワードセグメント評価記憶部23dの評価結果は0〜10点の範囲で得点される。コピペ評価記憶部23fの評価結果は0〜0点の範囲で得点される。スパム評価記憶部23jの評価結果は−10〜5点の範囲で得点される。リンク評価記憶部23eの評価結果は−10〜5点の範囲で得点される。尚、これら最低点・最高点・基準点の点範囲は一例であり、プログラマ設定やクライアントからの要望により自由に変更できるものとする。
最後にキャラクタエンジン手段15nは、数値化された各評価結果をキャラクタ評価記憶部23nに格納する。又、初回評価処理後の本文を本文記憶部24に格納する。
(5.定期巡回コンテンツ評価処理動作)
コンテンツに記載の内容は随時新規追加、更新、削除等されるのが一般的であり、これらを定期的に観察することが正しいコンテンツ評価としては望ましい。このため本発明の実施の形態においては定期巡回コンテンツ評価を行う。以下に、定期的、例えば1時間毎、1日毎等に繰り返し実施される、初回コンテンツ評価済みの評価対象コンテンツの巡回評価について図14のフローを参照して説明する。
(a)先ずステップS81において、予め設定される巡回時刻となると、評価対象コンテンツのコンテンツIDをID管理記憶部16から取得し、コンテンツIDに紐づけられる本文を本文記憶部24から取得する。
(b)ステップS82において、NGワードエンジン手段15bは、本文中にNGワードが含まれているかを判断し、含む場合はその割合を算出する。算出結果は、レッドレベル、イエローレベル、不透明レベルの三種類等に分けて評価される。評価の内容はステップS72と同様である。評価結果は巡回時刻と共にNGワード評価記憶部23bに格納される。
(c)ステップS83において、キーワードランキングエンジン手段15cは、本文中にキーワードが含まれているかを判断し、含む場合はその得点を算出する。評価の内容はステップS73と同様である。該当キーワードとその得点は、巡回時刻と共にキーワードランキング評価記憶部23cに格納される。
(d)ステップS84において、キーワードセグメントエンジン手段15dは、本文に含まれるキーワードを形態素エンジン等にて解析しコンテンツが取り扱う主たるテーマの方向性を解析し、主たるキーワードとそのキーワードに付随して使用されるキーワード群の組み合わせをマッピングする。主たるキーワード及びキーワード群の組み合わせは巡回時刻と共にキーワードセグメント評価記憶部23dに格納される。
(e)ステップS85において、リンクエンジン手段15eは、本文のリンクイン、リンクアウトを調査し、その数を得点化、評価する。得点化されたリンクインデータ及びリンクアウトデータは巡回時刻と共にリンク評価記憶部23eに格納される。
(f)ステップS86において、トラフィックエンジン手段15gは、定期巡回時刻毎にPV数、UU数を計測し、PV数÷UU数(閲覧率)を算出し、そのPV数、UU数、閲覧率をトラフィックデータとして巡回時刻と共にトラフィック評価記憶部23gに格納する。
(g)ステップS87において、ビュータイムエンジン手段15iは、定期巡回時刻毎にコンテンツ視聴者のコンテンツ滞在時間(ビュータイム)を測定する。測定においては該当コンテンツの動画リンク数、全ページ数を考慮した利用密度としての測定結果を出す。測定結果は定期巡回時刻と共にビュータイムデータとしてビュータイム評価記憶部23iに格納される。
(h)ステップS88において、ブックマークエンジン手段15lは、ブックマーク記憶部20に格納される回収されたソーシャルブックマーク数等を集計処理し、ブックマーク評価を行う。ブックマーク評価の結果は定期巡回時刻と共にブックマーク評価記憶部23lに格納される。
(i)ステップS89において、オーディエンスエンジン手段15kは、オーディエンス記憶部21に格納されるオーディエンス評価の回収結果を集計処理し、一般のコンテンツ視聴者による評価対象コンテンツの評価を行う。オーディエンス評価の結果は定期巡回時刻と共にオーディエンス評価記憶部23kに格納される。
(j)ステップS90において、コミッティエンジン手段15mは、コミッティ記憶部22に格納される回収結果を集計処理し、評価委員会による評価対象コンテンツの評価を行う。評価委員会による評価の結果は定期巡回時刻と共にコミッティ評価記憶部23mに格納される。
(k)ステップS91において、キャラクタエンジン手段15nは、NGワード評価記憶部23b、キーワードランキング評価記憶部23c、キーワードセグメント評価記憶部23d、リンク評価記憶部23e、トラフィック評価記憶部23g、ビュータイム評価記憶部23i、ブックマーク評価記憶部23l、オーディエンス評価記憶部23k、コミッティ評価記憶部23mに格納される巡回時の評価結果を基に、評価対象コンテンツの総合的キャラクタ(人格)を数値化し、総合評価を作成する。トラフィック評価記憶部23gの評価は図4に示すように0〜5点の範囲で行う。ビュータイム評価記憶部23iの評価は図4に示すように0〜5点の範囲で行う。ブックマーク評価記憶部23lの評価は図4に示すように−10〜10点の範囲で行う。オーディエンス評価記憶部23kの評価は図4に示すように−10〜10点の範囲で行う。コミッティ記憶部22の評価は図4に示すように−10〜10点の範囲で行う。その他の評価はステップS78と同様の範囲で行う。総合評価は図6のようにグラフ化して示される。最後にキャラクタエンジン手段15nは、数値化された各評価結果を巡回時刻と共にキャラクタ評価記憶部23nに格納する。格納された各評価結果を基にキャラクタ評価を行うが、評価は蓄積されるため、該当人物の人格評価データがまだ蓄積できていない段階では、生善説を採用しプラス評価を行うことが望ましい。よってキャラクタ評価記憶部23nの評価は図4に示すように基準点を10点加算した上で、−20〜20点の範囲で行う。尚、これらの点数範囲は一例であり変更可能なものとする。
これらの評価結果は評価対象コンテンツ又は任意に評価したCGMコンテンツの格付けに使用され、これにより優良コンテンツとしての認定、有害コンテンツの発見、有害コンテンツへのモバイル接続の除去等を行う。
(6.加速度評価処理動作)
評価対象コンテンツは、初回評価登録後に定期的に巡回評価される。初回評価の時刻を起点とし、巡回評価毎に各評価記憶部には更新データが蓄積され、これらの更新データは巡回時毎に加速度グラフとして作成される。以下に、巡回時に行う更新データの加速度評価について図15のフローを参照して説明する。
(a)ステップS101において、加速度分析エンジン手段15oは加速度評価対象のコンテンツのコンテンツIDをID管理記憶部16、その本文を本文記憶部24から取得する。
(b)ステップS102において、加速度分析エンジン手段15oは、取得したコンテンツID含まれる初回登録時のタイムスタンプを取得し、このタイムスタンプの時刻と一致する又は近時する独自キーワードランキングリストをキーワード記憶部19より取得する。更に、加速度評価対象のコンテンツの本文よりキーワードを抽出し、抽出されたキーワードと一致する用語が取得した独自キーワードランキングリスト内に存在するか検索する。抽出されたキーワードと一致する用語がリスト内にある場合、そのリスト内のキーワードの得点が起点(タイムスタンプ時)の得点とされる。リストの得点をX点、参照した外部総合サイトサーバ2のキーワードランキングリスト数がn個だとすると、得点はX/n点となる。つまり最高点は100n/nで100最高ポイント点となる。次にタイムスタンプの起点から例えば1時間毎に、同様にステップS102の処理を繰り返し、x軸を時間経過、y軸をキーワード得点とした二次元グラフが作成される。このグラフはキーワード毎に作成してもよいし、加速度評価対象のコンテンツに複数のキーワードが含まれる場合、その合計点数をグラフ化してもよい。又はキーワードセグメントエンジン手段15dが抽出するコンテンツの傾向を示す主たるキーワードのみを使用してもよい。尚、グラフは時間毎、日毎、週毎等に作成しても構わない。作成されたグラフは加速度評価記憶部23oに格納される。
(c)ステップS103においては、加速度分析エンジン手段15oが、トラフィック評価記憶部23gに格納される加速度評価対象コンテンツIDのタイムスタンプを起点とした一時間毎のトラフィックデータ(閲覧率変化)を取得し、時間軸をx軸、閲覧率(客観的人気度)をy軸とした二次元グラフを作成する。更に、時間軸をx軸、キーワード得点(旬度)をy軸、閲覧率をz軸とした三次元グラフとして相関関係グラフを作成する。作成されたグラフは加速度評価記憶部23oに格納される。
(d)ステップS104においては、加速度分析エンジン手段15oが、リンク評価記憶部23eに格納される加速度評価対象コンテンツIDのタイムスタンプを起点とした一時間毎のリンクイン・リンクアウトデータを取得し、時間軸をx軸、リンクイン・リンクアウト数をy軸とした二次元グラフを作成する。時間毎のリンクイン・リンクアウト数の計測により、時間毎に注目された度合いがグラフ化される。作成されたグラフは加速度評価記憶部23oに格納される。
(e)ステップS105においては、加速度分析エンジン手段15oが、ブックマーク評価記憶部23lに格納される加速度評価対象コンテンツIDのタイムスタンプを起点とした一時間毎のタブックマーク直接投票データを取得し、時間軸をx軸、ブックマーク数をy軸とした二次元グラフを作成する。作成されたグラフは加速度評価記憶部23oに格納される。
(f)ステップS106においては、加速度分析エンジン手段15oが、オーディエンス評価記憶部23kに格納される加速度評価対象コンテンツIDのタイムスタンプを起点とした一時間毎のオーディエンス直接投票データを取得し、時間軸をx軸、投票数をy軸とした二次元グラフを作成する。作成されたグラフは加速度評価記憶部23oに格納される。
(g)ステップS107においては、加速度分析エンジン手段15oが、コミッティ評価記憶部23mに格納される加速度評価対象コンテンツIDのタイムスタンプを起点とした一時間毎の評価委員会直接投票データを取得し、時間軸をx軸、投票数をy軸とした二次元グラフを作成する。作成されたグラフは加速度評価記憶部23oに格納される。
(h)最後にステップS108において、加速度評価記憶部23oに格納される加速度データ(二次元グラフ、三次元グラフ)を基に、加速度予測エンジン手段15pが今後の加速度を予測する。具体的に、加速度予測エンジン手段15pは加速度予測のための式を加速度評価記憶部23oに格納される各評価グラフ毎に作成する。
時間とキーワードの加速度を予測する場合、時間をt(単位は1時間)、キーワード得点をpとし、時間毎に計測したときの時間と得点を(t1、p1)(t2、p2)(t3、p3)と表現する。これらを、
y=ax+bx+c…(式1)
式1に代入し、a、b、cの値を得る。このとき、一番新しい時間である(t3、p3)の1時間後は、(t3+1、p4)とすることができ、この方程式に入力することでp4(1時間後の得点)を求めることができる。尚(t3、p3)には必ず現在時刻又は一番新しい時間データが入力され、(t2、p2)は(1時間前データ)入力、(t1、p1)は(2時間前データ)入力となり、1時間毎にa、b、c、の値は変化する。
例えば、現在時刻αにて(t1、p1)(t2、p2)(t3、p3)=(1、100)(2、70)(3、50)だとすると、式1に代入し、a=5、b=−45、c=140となり、
y=5x−45x+140…(式1’)
となる。この式1’にt4=4を代入するとy=40となり、1時間先の得点は40であると予測することができる。更に1時間経過後、つまりα+1時間に(t1、p1)(t2、p2)(t3、p3)=(1、70)(2、50)(3、80)と計測されたとすると、式1に代入し、a=25、b=−95、c=140となり、
y=25x−95x+140…(式1”)
となる。この式1”にt4=4を代入するとy=160となり、α+2時間の得点は160であると予測することができる。
加速度予測エンジン手段15pは、上記の予測処理を、加速度評価記憶部23oに格納される、時間が計測できるすべてのパラメータ、即ちトラフィックデータ、リンクイン・リンクアウトデータ、ブックマーク直接投票データ、オーディエンス直接投票データ、評価委員直接投票データに対して同様に行う。
尚、3種類のデータを使用する場合には、三次元グラフを使用する。
y=ax+bx+cx+d…(式2)
式2の三次元方程式に(t1、p1)(t2、p2)(t3、p3)(t4、p4)を代入し、式1の際と同様にa、b、c、dの値を求め、求めた式にt5=5を代入することで、1時間後の予測値が算出できる。
各パラメータの相関関係データを蓄積していくことにより、より精度の高い予想が可能となる。
最後に、加速度予測エンジン手段15pは、加速度記憶部25に予測分析済みの加速度グラフを格納する。尚、予測値のみでなく実際の評価結果も加速度記憶部25にフィードバックされることが望ましい。
この他、加速度予測エンジン手段15pは、加速度記憶部25内の過去の分析済み加速度グラフデータをチャート化し、チャート分析にて新規の加速度グラフデータの今後の傾向を予測することもできる。
このように本発明の実施の形態に係るコンテンツ評価サーバによると複数種類の客観的評価項目と主観的評価項目を組み合わせ、合理的に対象コンテンツの評価を行い、評価結果により格付けすることができる。評価対象コンテンツ内のテキストのみばかりでなく、音声、動画をも評価対象とすることが出来る。これにより他社の音声、動画に関する著作権侵害を抑制することも可能となる。評価結果はプラス・マイナスの得点にて算出することが出来、マイナス得点である有害コンテンツの発見、削除を容易にする。これにより有害コンテンツ等へのモバイル接続制限を効果的に実施することができる。企業やコンテンツ制作者の評価依頼により、評価実施を行うことができる。各評価の内容、評価要素をサーバ側で任意に調整することができる。コンテンツの評価を適正に行うことにより、優良コンテンツの付加価値が向上する。又、効果的なSEO(サーチエンジン最適化)、SEM(検索エンジンマーケティング)対策ともなる。更に、評価結果を分析することで、今後のコンテンツの人気度を予測することもできる。
本発明の実施の形態に係るコンテンツ評価システムの構成図である。 本発明の実施の形態に係るコンテンツ評価サーバの内部構成図である。 評価に使用するデータ項目の関係を示す組織図である。 評価に使用するデータ項目のリスト図である。 評価結果の円グラフ図である。 コンテンツ評価サーバの全体動作を示す図である。 コンテンツ評価サーバのクローリング処理を示すフロー図である。 コンテンツ評価サーバのNGワードリスト作成処理を示すフロー図である。 コンテンツ評価サーバの独自キーワード作成処理を示すフロー図である。 コンテンツ評価サーバのブックマーク集計処理を示すフロー図である。 コンテンツ評価サーバのオーディエンス評価処理を示すフロー図である。 コンテンツ評価サーバの評価委員会評価処理を示すフロー図である。 コンテンツ評価サーバの初回評価処理を示すフロー図である。 コンテンツ評価サーバの定期巡回評価処理を示すフロー図である。 コンテンツ評価サーバの加速度評価及び加速度予測処理を示すフロー図である。
符号の説明
1…コンテンツ評価サーバ
2…外部総合サイトサーバ
3…オーディエンス評価ページ
4…評価委員会サイト
5…インターネット
6…TVポータルサービス
7…モバイルサイト
8…個人ブログ
9…企業ホームページ
11…入力装置
12…出力装置
13…通信制御装置
14…主記憶装置
15…CPU
15a…タイムマネージングエンジン手段
15b…NGワードエンジン手段
15c…キーワードランキングエンジン手段
15d…キーワードセグメントエンジン手段
15e…リンクエンジン手段
15f…コピペエンジン手段
15g…トラフィックエンジン手段
15h…ページエンジン手段
15i…ビュータイムエンジン手段
15j…スパムエンジン手段
15k…オーディエンスエンジン手段
15l…ブックマークエンジン手段
15m…コミッティエンジン手段
15n…キャラクタエンジン手段
15o…加速度分析エンジン手段
15p…加速度予測エンジン手段
16…ID管理記憶部
17…未処理本文記憶部
18…NGワード記憶部
19…キーワード記憶部
20…ブックマーク記憶部
21…オーディエンス記憶部
22…コミッティ記憶部
23…評価記憶部
23b…NGワード評価記憶部
23c…キーワードランキング評価記憶部
23d…キーワードセグメント評価記憶部
23e…リンク評価記憶部
23f…コピペ評価記憶部
23g…トラフィック評価記憶部
23h…ページ評価記憶部
23i…ビュータイム評価記憶部
23j…スパム評価記憶部
23k…オーディエンス評価記憶部
23l…ブックマーク評価記憶部
23m…コミッティ評価記憶部
23n…キャラクタ評価記憶部
23o…加速度評価記憶部
24…本文記憶部
25…加速度記憶部
100…コンテンツ評価システム

Claims (18)

  1. インターネット上のコンテンツの評価を行う為のコンテンツ評価サーバであって、
    評価対象コンテンツのURL及び初回評価のタイムスタンプを含む各評価対象コンテンツ固有のコンテンツIDを格納するID管理記憶部と、
    前記評価対象コンテンツのテキスト、音声、画像及び動画の少なくとも1つ以上を含む本文データを格納する未処理本文記憶部と、
    前記コンテンツIDを作成して前記ID管理記憶部に格納し、前記コンテンツIDと紐づけられた前記本文データを前記未処理本文記憶部に格納するタイムマネージングエンジン手段と、
    前記評価対象コンテンツに関する機械的に計測される値を評価する客観的評価を行う客観的評価装置と、
    前記評価対象コンテンツに対する視聴者からの評価である主観的評価を行う主観的評価装置と、
    前記客観的評価及び前記主観的評価の評価結果を格納する評価記憶部と、
    前記評価記憶部に格納される前記評価結果を基に前記評価対象コンテンツの総合的なキャラクタを判断するキャラクタエンジン手段
    とを備えることを特徴とするコンテンツ評価サーバ。
  2. 前記客観的評価装置として、
    劣悪なコンテンツに含まれるNGワードを格納するNGワード記憶部、
    前記評価対象コンテンツの前記本文データに、前記NGワード記憶部に格納されるNGワードと一致する用語があるか抽出し、抽出された前記NGワードの出現率を算出し、算出結果を算出日時と共に前記評価記憶部に格納するNGワードエンジン手段、
    話題となっている旬なキーワードより成る独自キーワードランキングリストを一定時間毎に作成し、前記独自キーワードランキングリストと前記評価対象コンテンツに含まれるキーワードが一致するかを一定時間毎に判定し、判定結果を判定日時と共にキーワードランキングデータとして前記評価記憶部に格納するキーワードランキングエンジン手段、
    前記評価対象コンテンツへのリンクイン及び前記評価対象コンテンツからのリンクアウトを一定時間毎に評価し、評価結果を評価日時と共にリンクデータとして前記評価記憶部に格納するリンクエンジン手段、
    前記評価対象コンテンツと類似するコンテンツが存在するか判断し、判断結果を前記評価記憶部に格納するコピぺエンジン手段、
    前記評価対象コンテンツのPV数及びUU数を含むトラフィックデータを一定時間毎に算出し、算出日時と共に前記トラフィックデータを前記評価記憶部に格納するトラフィックエンジン手段、
    前記評価対象コンテンツの前記本文データの絶対量及び更新頻度を一定時間毎に算出し、算出結果を算出日時と共に前記評価記憶部に格納するページエンジン手段、
    前記評価対象コンテンツの視聴者のコンテンツ滞在時間を測定し、測定結果を測定日時と共に前記評価記憶部に格納するビュータイムエンジン手段、
    前記評価対象コンテンツの前記本文データ内の同一ワード出現率を算出しスパム率として評価し、評価結果を評価日時と共にスパム評価記憶部23jに格納するスパムエンジン手段
    の少なくとも一つ以上を備えることを特徴とする請求項1に記載のコンテンツ評価サーバ。
  3. 前記NGワードエンジン手段は、前記NGワードの出現率を基に、放送禁止用語を含むレッドレベル、低俗な用語を含むイエローレベル、標準的な言葉からかけ離れている不透明レベルを含むレベル別に分類する
    ことを特徴とする請求項2に記載のコンテンツ評価サーバ。
  4. 前記客観的評価装置は、
    前記評価対象コンテンツの前記本文データより、そのコンテンツが取り扱う主たるテーマの方向性を解析し、前記主たるキーワード及び前記主たるキーワードに付属するキーワード群の組み合わせを抽出し、前記評価記憶部に格納するキーワードセグメントエンジン手段を更に備えることを特徴とする請求項1又は2に記載のコンテンツ評価サーバ。
  5. 前記主観的評価装置として、
    前記評価対象コンテンツの視聴者に対し、前記評価対象コンテンツに対するアンケートを実施して結果を回収し、回収結果を基に前記評価対象コンテンツに対する前記視聴者の主観的評価を一定時間毎に査定し、査定結果を査定日時と共にオーディエンスデータとして前記評価記憶部に格納するオーディエンスエンジン手段、
    前記評価対象コンテンツに対するソーシャルブックマーク数を回収し、回収結果を基に一定時間毎に評価を行い、評価結果を評価日時と共にブックマークデータとして前記評価記憶部に格納するブックマークエンジン手段、
    前記評価対象コンテンツを評価する評価委員に対し、前記評価対象コンテンツに対するアンケートを実施して結果を回収し、回収結果を基に前記評価対象コンテンツに対する前記評価委員の主観的評価を一定時間毎に査定し、査定結果を査定日時と共にコミッティデータとして前記評価記憶部に格納するコミッティエンジン手段
    の少なくとも一つ以上を備えることを特徴とする請求項1に記載のコンテンツ評価サーバ。
  6. 前記評価記憶部に格納される前記キーワードランキングデータ、前記リンクデータ、前記トラフィックデータ、前記オーディエンスデータ、前記ブックマークデータ及び前記コミッティデータの内の少なくとも1つ以上のデータと時間毎の相関関係を、加速度データとして作成し、前記評価記憶部に格納する加速度分析エンジン手段と、
    前記評価記憶部に格納される前記加速度データを基に加速度予測を行う加速度予測エンジン手段
    とを更に備えることを特徴とする請求項1、2、4又は5に記載のコンテンツ評価サーバ。
  7. インターネット上のコンテンツの評価を行う為のコンテンツ評価方法であって、
    タイムマネージングエンジン手段が、評価対象コンテンツのURL及び初回評価のタイムスタンプを含む各評価対象コンテンツ固有のコンテンツIDを作成してID管理記憶部に格納し、前記評価対象コンテンツのテキスト、音声、画像及び動画の少なくとも1つ以上を含む本文データを前記コンテンツIDと紐づけて未処理本文記憶部に格納するステップと、
    前記評価対象コンテンツに関する機械的に計測される値を客観的評価するステップと、
    前記評価対象コンテンツに対する視聴者からの評価である主観的評価を行うステップと、
    前記客観的評価及び前記主観的評価の評価結果を評価記憶部に格納するステップと、
    前記評価記憶部に格納される前記評価結果を基に前記評価対象コンテンツの総合的なキャラクタをキャラクタエンジン手段が判断するステップ
    とを備えることを特徴とするコンテンツ評価方法。
  8. 前記客観的評価するステップとして、
    前記評価対象コンテンツの前記本文データと、劣悪なコンテンツに含まれるNGワードを記憶するNGワード記憶部内の前記NGワードをNGワードエンジン手段が比較し、一致する用語がある場合抽出し、抽出された前記NGワードの出現率を算出し、算出結果を算出日時と共に前記評価記憶部に格納するステップ、
    話題となっている旬なキーワードより成る独自キーワードランキングリストをキーワードランキングエンジン手段が一定時間毎に作成し、前記独自キーワードランキングリストと前記評価対象コンテンツに含まれるキーワードが一致するかを一定時間毎に判定し、判定結果を判定日時と共にキーワードランキングデータとして前記評価記憶部に格納するステップ、
    前記評価対象コンテンツへのリンクイン及び前記評価対象コンテンツからのリンクアウトをリンクエンジン手段が一定時間毎に評価し、評価結果を評価日時と共にリンクデータとして前記評価記憶部に格納するステップ、
    前記評価対象コンテンツと類似するコンテンツが存在するかコピぺエンジン手段が判断し、判断結果を前記評価記憶部に格納するステップ、
    前記評価対象コンテンツのPV数及びUU数を含むトラフィックデータをトラフィックエンジン手段が一定時間毎に算出し、算出日時と共に前記トラフィックデータを前記評価記憶部に格納するステップ、
    前記評価対象コンテンツの前記本文データの絶対量及び更新頻度をページエンジン手段が一定時間毎に算出し、算出結果を算出日時と共に前記評価記憶部に格納するステップ、
    前記評価対象コンテンツの視聴者のコンテンツ滞在時間をビュータイムエンジン手段が測定し、測定結果を測定日時と共に前記評価記憶部に格納するステップ、
    前記評価対象コンテンツの前記本文データ内の同一ワード出現率をスパムエンジン手段がスパム率として評価し、評価結果を評価日時と共にスパム評価記憶部23jに格納するステップ
    の少なくとも一つ以上を備えることを特徴とする請求項7に記載のコンテンツ評価方法。
  9. 前記NGワードの出現率を算出し、算出結果を算出日時と共に前記評価記憶部に格納するステップは、前記NGワードの出現率を基に、放送禁止用語を含むレッドレベル、低俗な用語を含むイエローレベル、標準的な言葉からかけ離れている不透明レベルを含むレベル別に分類するステップ
    を含むことを特徴とする請求項8に記載のコンテンツ評価方法。
  10. 前記客観的評価装置は、
    前記評価対象コンテンツの前記本文データより、そのコンテンツが取り扱う主たるテーマの方向性を解析し、前記主たるキーワード及び前記主たるキーワードに付属するキーワード群の組み合わせを抽出し、前記評価記憶部に格納するキーワードセグメントエンジン手段を更に備えることを特徴とする請求項7又は8に記載のコンテンツ評価方法。
  11. 前記主観的評価を行うステップは、
    前記評価対象コンテンツの視聴者に対し、オーディエンスエンジン手段が前記評価対象コンテンツに対するアンケートを実施して結果を回収し、回収結果を基に前記評価対象コンテンツに対する前記視聴者の主観的評価を一定時間毎に査定し、査定結果を査定日時と共にオーディエンスデータとして前記評価記憶部に格納するステップ、
    前記評価対象コンテンツに対するソーシャルブックマーク数をブックマークエンジン手段が回収し、回収結果を基に一定時間毎に評価を行い、評価結果を評価日時と共にブックマークデータとして前記評価記憶部に格納するステップ、
    前記評価対象コンテンツを評価する評価委員に対し、コミッティエンジン手段が前記評価対象コンテンツに対するアンケートを実施して結果を回収し、回収結果を基に前記評価対象コンテンツに対する前記評価委員の主観的評価を一定時間毎に査定し、査定結果を査定日時と共にコミッティデータとして前記評価記憶部に格納するステップ
    の少なくとも一つ以上を備えることを特徴とする請求項7に記載のコンテンツ評価方法。
  12. 前記評価記憶部に格納される前記キーワードランキングデータ、前記リンクデータ、前記トラフィックデータ、前記オーディエンスデータ、前記ブックマークデータ及び前記コミッティデータの内の少なくとも1つ以上のデータと時間毎の相関関係を、加速度分析エンジン手段が加速度データとして作成し、前記評価記憶部に格納するステップと、
    前記評価記憶部に格納される前記加速度データを基に加速度予測エンジン手段が加速度予測を行うステップ
    とを更に備えることを特徴とする請求項7、8、10又は11に記載のコンテンツ評価方法。
  13. インターネット上のコンテンツの評価を行うコンピュータに実施させるコンテンツ評価プログラムであって、
    タイムマネージングエンジン手段が、評価対象コンテンツのURL及び初回評価のタイムスタンプを含む各評価対象コンテンツ固有のコンテンツIDを作成してID管理記憶部に格納し、前記評価対象コンテンツのテキスト、音声、画像及び動画の少なくとも1つ以上を含む本文データを前記コンテンツIDと紐づけて未処理本文記憶部に格納する命令と、
    前記評価対象コンテンツに関する機械的に計測される値を客観的評価する命令と、
    前記評価対象コンテンツに対する視聴者からの評価である主観的評価を行う命令と、
    前記客観的評価及び前記主観的評価の評価結果を評価記憶部に格納する命令と、
    前記評価記憶部に格納される前記評価結果を基に前記評価対象コンテンツの総合的なキャラクタをキャラクタエンジン手段が判断する命令
    とを備えることを特徴とするコンテンツ評価プログラム。
  14. 前記客観的評価する命令として、
    前記評価対象コンテンツの前記本文データと、劣悪なコンテンツに含まれるNGワードを記憶するNGワード記憶部内の前記NGワードをNGワードエンジン手段比較し、一致する用語がある場合抽出し、抽出された前記NGワードの出現率を算出し、算出結果を算出日時と共に前記評価記憶部に格納する命令、
    話題となっている旬なキーワードより成る独自キーワードランキングリストをキーワードランキングエンジン手段が一定時間毎に作成し、前記独自キーワードランキングリストと前記評価対象コンテンツに含まれるキーワードが一致するかを一定時間毎に判定し、判定結果を判定日時と共にキーワードランキングデータとして前記評価記憶部に格納する命令、
    前記評価対象コンテンツへのリンクイン及び前記評価対象コンテンツからのリンクアウトをリンクエンジン手段が一定時間毎に評価し、評価結果を評価日時と共にリンクデータとして前記評価記憶部に格納する命令、
    前記評価対象コンテンツと類似するコンテンツが存在するかコピぺエンジン手段が判断し、判断結果を前記評価記憶部に格納する命令、
    前記評価対象コンテンツのPV数及びUU数を含むトラフィックデータをトラフィックエンジン手段が一定時間毎に算出し、算出日時と共に前記トラフィックデータを前記評価記憶部に格納する命令、
    前記評価対象コンテンツの前記本文データの絶対量及び更新頻度をページエンジン手段が一定時間毎に算出し、算出結果を算出日時と共に前記評価記憶部に格納する命令、
    前記評価対象コンテンツの視聴者のコンテンツ滞在時間をビュータイムエンジン手段が測定し、測定結果を測定日時と共に前記評価記憶部に格納する命令、
    前記評価対象コンテンツの前記本文データ内の同一ワード出現率をスパムエンジン手段がスパム率として評価し、評価結果を評価日時と共にスパム評価記憶部23jに格納する命令
    の少なくとも一つ以上を備えることを特徴とする請求項13に記載のコンテンツ評価プログラム。
  15. 前記NGワードの出現率を算出し、算出結果を算出日時と共に前記評価記憶部に格納する命令は、前記NGワードの出現率を基に、放送禁止用語を含むレッドレベル、低俗な用語を含むイエローレベル、標準的な言葉からかけ離れている不透明レベルを含むレベル別に分類する命令
    を含むことを特徴とする請求項14に記載のコンテンツ評価プログラム。
  16. 前記客観的評価装置は、
    前記評価対象コンテンツの前記本文データより、そのコンテンツが取り扱う主たるテーマの方向性を解析し、前記主たるキーワード及び前記主たるキーワードに付属するキーワード群の組み合わせを抽出し、前記評価記憶部に格納するキーワードセグメントエンジン手段を更に備えることを特徴とする請求項13又は14に記載のコンテンツ評価プログラム。
  17. 前記主観的評価を行う命令は、
    前記評価対象コンテンツの視聴者に対し、オーディエンスエンジン手段が前記評価対象コンテンツに対するアンケートを実施して結果を回収し、回収結果を基に前記評価対象コンテンツに対する前記視聴者の主観的評価を一定時間毎に査定し、査定結果を査定日時と共にオーディエンスデータとして前記評価記憶部に格納する命令、
    前記評価対象コンテンツに対するソーシャルブックマーク数をブックマークエンジン手段が回収し、回収結果を基に一定時間毎に評価を行い、評価結果を評価日時と共にブックマークデータとして前記評価記憶部に格納する命令、
    前記評価対象コンテンツを評価する評価委員に対し、コミッティエンジン手段が前記評価対象コンテンツに対するアンケートを実施して結果を回収し、回収結果を基に前記評価対象コンテンツに対する前記評価委員の主観的評価を一定時間毎に査定し、査定結果を査定日時と共にコミッティデータとして前記評価記憶部に格納する命令
    の少なくとも一つ以上を備えることを特徴とする請求項13に記載のコンテンツ評価プログラム。
  18. 前記評価記憶部に格納される前記キーワードランキングデータ、前記リンクデータ、前記トラフィックデータ、前記オーディエンスデータ、前記ブックマークデータ及び前記コミッティデータの内の少なくとも1つ以上のデータと時間毎の相関関係を、加速度分析エンジン手段が加速度データとして作成し、前記評価記憶部に格納する命令と、
    前記評価記憶部に格納される前記加速度データを基に加速度予測エンジン手段が加速度予測を行う命令
    とを更に備えることを特徴とする請求項13、14、16又は17に記載のコンテンツ評価プログラム。
JP2008206242A 2008-08-08 2008-08-08 コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム Pending JP2010044462A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008206242A JP2010044462A (ja) 2008-08-08 2008-08-08 コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008206242A JP2010044462A (ja) 2008-08-08 2008-08-08 コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム

Publications (1)

Publication Number Publication Date
JP2010044462A true JP2010044462A (ja) 2010-02-25

Family

ID=42015818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008206242A Pending JP2010044462A (ja) 2008-08-08 2008-08-08 コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム

Country Status (1)

Country Link
JP (1) JP2010044462A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084180A (ja) * 2011-10-12 2013-05-09 Nomura Research Institute Ltd 文書管理装置
JP2013205875A (ja) * 2012-03-27 2013-10-07 Kddi Corp 批評者に批評すべきアイテムを検出するレコメンドアイテム検出プログラム、装置及び方法
JP2015049893A (ja) * 2013-08-29 2015-03-16 富士通株式会社 キュレーションされたコンテンツを評価する方法及びシステム
JP2015529923A (ja) * 2012-09-18 2015-10-08 テンセント テクノロジー (シェンジェン) カンパニー リミテッド モバイルブラウザ用のブックマークを移動させる方法及びシステム
CN106327099A (zh) * 2016-08-31 2017-01-11 华北电力大学(保定) 一种通信网络综合性能评定参数权重的确定及调整方法
CN106992904A (zh) * 2017-05-19 2017-07-28 湖南省起航嘉泰网络科技有限公司 基于动态综合权重的网络设备健康度评估方法
JP2018013893A (ja) * 2016-07-19 2018-01-25 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
JP2022003486A (ja) * 2020-06-23 2022-01-11 株式会社Ipsign 侵害情報抽出システム、方法及びプログラム
CN115688707A (zh) * 2022-12-08 2023-02-03 中国传媒大学 一种多语言混合的新闻价值排序方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013084180A (ja) * 2011-10-12 2013-05-09 Nomura Research Institute Ltd 文書管理装置
JP2013205875A (ja) * 2012-03-27 2013-10-07 Kddi Corp 批評者に批評すべきアイテムを検出するレコメンドアイテム検出プログラム、装置及び方法
JP2015529923A (ja) * 2012-09-18 2015-10-08 テンセント テクノロジー (シェンジェン) カンパニー リミテッド モバイルブラウザ用のブックマークを移動させる方法及びシステム
JP2015049893A (ja) * 2013-08-29 2015-03-16 富士通株式会社 キュレーションされたコンテンツを評価する方法及びシステム
JP2018013893A (ja) * 2016-07-19 2018-01-25 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
CN106327099A (zh) * 2016-08-31 2017-01-11 华北电力大学(保定) 一种通信网络综合性能评定参数权重的确定及调整方法
CN106327099B (zh) * 2016-08-31 2022-05-27 华北电力大学(保定) 一种通信网络综合性能评定参数权重的确定及调整方法
CN106992904A (zh) * 2017-05-19 2017-07-28 湖南省起航嘉泰网络科技有限公司 基于动态综合权重的网络设备健康度评估方法
JP2022003486A (ja) * 2020-06-23 2022-01-11 株式会社Ipsign 侵害情報抽出システム、方法及びプログラム
CN115688707A (zh) * 2022-12-08 2023-02-03 中国传媒大学 一种多语言混合的新闻价值排序方法

Similar Documents

Publication Publication Date Title
US11907237B2 (en) Gathering and contributing content across diverse sources
US10824682B2 (en) Enhanced online user-interaction tracking and document rendition
US8135669B2 (en) Information access with usage-driven metadata feedback
US10235681B2 (en) Text extraction module for contextual analysis engine
US10430806B2 (en) Input/output interface for contextual analysis engine
CA2747441C (en) Identifying comments to show in connection with a document
JP2010044462A (ja) コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム
Haas et al. Enhanced results for web search
JP6538277B2 (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
US20110087647A1 (en) System and method for providing web search results to a particular computer user based on the popularity of the search results with other computer users
US20080104034A1 (en) Method For Scoring Changes to a Webpage
US20170011112A1 (en) Entity page generation and entity related searching
US8572118B2 (en) Computer method and apparatus of information management and navigation
Santos et al. Information retrieval on the blogosphere
JP2011108053A (ja) ニュース記事評価システム
Fourney et al. Enhancing technical Q&A forums with CiteHistory
US9990425B1 (en) Presenting secondary music search result links
KR20080028031A (ko) 키워드 및 키워드에 관련된 각종 콘텐츠를 자동으로추출하고 디스플레이하는 시스템 및 방법
Anh Web Scraping: A Big Data Building Tool And Its Status In The Fintech Sector In Viet Nam
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
Krzesaj Information quality problems on websites
Steiner Enriching unstructured media content about events to enable semi-automated summaries, compilations, and improved search by leveraging social networks
Rajan et al. Features and Challenges of web mining systems in emerging technology
Coates Because you’re you: factors influencing item selection in a digital sheet music collection
Alli Result Page Generation for Web Searching: Emerging Research and

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101221