JP2012129982A - 推定装置、推定方法、並びにプログラム - Google Patents

推定装置、推定方法、並びにプログラム Download PDF

Info

Publication number
JP2012129982A
JP2012129982A JP2011215271A JP2011215271A JP2012129982A JP 2012129982 A JP2012129982 A JP 2012129982A JP 2011215271 A JP2011215271 A JP 2011215271A JP 2011215271 A JP2011215271 A JP 2011215271A JP 2012129982 A JP2012129982 A JP 2012129982A
Authority
JP
Japan
Prior art keywords
blog
program
tag
character string
broadcast station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2011215271A
Other languages
English (en)
Inventor
Kenji Yoshida
健二 吉田
Takeya Fujii
毅也 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2011215271A priority Critical patent/JP2012129982A/ja
Priority to CN2011800158325A priority patent/CN102822821A/zh
Priority to KR1020127025031A priority patent/KR101381138B1/ko
Priority to EP11843976.9A priority patent/EP2573688A4/en
Priority to PCT/JP2011/005735 priority patent/WO2012070182A1/ja
Publication of JP2012129982A publication Critical patent/JP2012129982A/ja
Priority to US13/612,161 priority patent/US20130013625A1/en
Abandoned legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • G06F16/447Temporal browsing, e.g. timeline
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/489Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

【課題】ソーシャルメディアが言及している番組を放送する放送局を推定する。
【解決手段】タグ取出部103は、文字列とその文字列が書き込まれた時刻情報とを含むブログをネットワークを介して収集してその文字列中に出現するタグを取り出し、ブログと取り出したタグとを対応づけてタグ出現データベース104に格納する。仮放送局推定部106は、ブログの文字列中に出現する特徴語をもとにブログで言及されている番組を放送する放送局を推定し、仮放送局としてブログと対応づけてブログデータベース102に格納する。放送局確定部107は、タグ出現データベース104中に格納された、所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、ブログデータベース102を参照してタグを文字列中に含むブログで言及されている番組の仮放送局を集計し、その番組を放送する放送局を確定する。
【選択図】図1

Description

本発明は、推定装置、推定方法、並びにプログラムに係り、特に、収集したブログの特徴語を使用して、ブログが言及している番組を放送する放送局やその番組を推定する技術に関する。
インターネットやブログが一般に普及したことにより、ごく普通のユーザが自身のブログサイトで放送中のテレビ番組などをリアルタイムに実況するということが流行している。特に140文字程度の短いコメントを投稿、閲覧できるようなマイクロブログは、携帯電話からも投稿できる手軽さから、こうした番組の実況という利用が急速に広まっている。なお、本明細書における「ブログ」とは、個人がwebサイトへ投稿したコメントや記事と定義する。
このような背景から、ユーザが現在視聴しているテレビ番組の番組情報をユーザへ一覧させることで、その番組に関連したブログ記事やコメントの作成支援を行う発明などもある(特許文献1参照)。
また、逆のアプローチとして、ブログ記事の内容からどの番組について実況しているかを推定する手法についても考えられつつある。このようなブログが言及している番組の推定に関して、字幕テキストを使った手法として、「字幕テキストの利用によるブログで引用されたテレビ番組の推定」が挙げられる(非特許文献1参照)。これは、EPG(Electric Program Guide:電子番組ガイド)や字幕テキストから特徴語を抽出し、ブログ内の単語と比較することで、テレビ局制約、ジャンル制約を決定し、さらに時制特徴語から時間制約を取り出し、スコアリングを行い、ブログが言及している番組を推定するものである。
特開2008−124861号公報
及川 孝徳、外4名、"字幕テキストの利用によるブログで引用されたテレビ番組の推定"[online][平成23年9月9日検索]、インターネット<URL:http://db-event.jpn.org/deim2010/proceedings/files/D6-4.pdf>
一方、現実のブロガー(ブログを書く人)は、テレビ番組のみを365日実況しているわけではなく、自分の普段の生活の一コマや、書籍の感想などを1つのブログサイトに混在して記述する。このようなブロガーの行動様式としては、こういった混在した個々の内容の付箋として、タグ名を付与することが確立している。例えば、日常、書籍、テレビなどのカテゴリに分けて#dairy、#books、#tvなどのタグを付ける。また、良く視聴する番組に対しては固有のタグを付与することも良く行われている。例えば、連続ドラマA→#rendoraAなどの省略語を基調としたものが多い。
しかしながら、前記の提案手法では、字幕テキストが付いていない番組に関しては最初から扱わない(評価でも全て例外にしている)が、現実として番組の半分には字幕テキストが付いておらず、実用的ではなかった。また、ラジオなど元々字幕テキストが存在しない放送に対しては適用が難しかった。
更に、現実の字幕テキストは、シナリオや放送倫理規定に沿った正しい日本語である。一方、ユーザがテレビを見ながらブログに入力する場合は、省略語、スラング、タグが多用されるカジュアルな日本語になりがちである。特にタレント名や番組名などは省略語にされやすいため、思い通りの推定精度が得られない。これを解決する既知の技術として、正しい日本語と、省略語、スラング、タグとの類義語辞書を作成することで、推定精度を高めることも考えられているが、日々未知の単語が現れる類義語辞書をメンテナンスしていくことは高コストである。
また、確かにブロガーの行動様式としてタグを付けることは良く行われているものの、そのタグは決して放送局が指定したものではなく、自然発生的に決まったものであって、出現頻度にもばらつきがあり、番組情報と結びつけることが難しかった。
そこで本発明は、EPGや字幕テキストから特徴語を抽出したり、類義語辞書などをメンテナンスしたりすることなく、ブログ等のソーシャルメディアが言及している番組を高精度に推定できるようにすることを目的とする。
上記目的を達成するため、本発明のある態様は推定装置である。この装置は、個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するタグ取出部と、前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する仮放送局推定部と、前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する放送局確定部とを含む。
本発明の別の態様は、推定方法である。この方法は、個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するステップと、前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納するステップと、前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定するステップとをプロセッサに実行させる。
本発明によれば、ブログ等のソーシャルメディアが言及している番組を放送する放送局を推定することができる。
本発明の実施の形態1における推定装置のブロック図である。 本発明の実施の形態1におけるフローチャートである。 本発明の実施の形態1のブログDBデータ構造の例(番組推定前)である。 本発明の実施の形態1のブログDBデータ構造の例(番組推定後)である。 本発明の実施の形態1におけるタグ出現DBデータ構造の例である。 本発明の実施の形態1におけるタグ番組DBデータ構造の例(番組推定前)である。 本発明の実施の形態1におけるタグ番組DBデータ構造の例(番組推定後)である。 本発明の実施の形態1における特徴語データの例である。 本発明の実施の形態2における推定装置のブロック図である。 本発明の実施の形態2におけるフローチャートである。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る推定装置のブロック図である。また、図2は本発明の実施の形態1におけるフローチャートである。
推定装置100のブログ収集部101は、インターネット等のネットワーク200を通じてブログ記事を収集し(S1)、図3に示したブログDB(DataBase;データベース)102に投稿固有ID、本文、投稿時刻を登録する(S2)。なお、この時点では、後述する仮放送局や確定放送局、番組情報(タイトル、放送局名、番組詳細など)は不明であるため、空のままである。なお、本明細書における「ブログ」とは、個人がwebサイトへ1回に投稿した(書き込んだ)コメントや記事を1つの単位とし、その投稿されたコメントや記事を構成する文章情報(文字列)と、そのコメントや記事を投稿した時刻情報とが含まれているものとする。
ここで、投稿固有IDは個々のブログ記事に特有のID(IDentification)である。本発明では特に投稿固有IDの書式は限定しない。また、ブログ記事を収集するブログサイトについても、特に限定するものではない。
次に、タグ取出部103はブログの本文から任意のタグを取り出す(S3)。本実施例では#rendoraAのように“#”から始まる英数字をタグとして取り出しているが、このタグの書式については、本発明で特に限定するものではなく、予め定められたルールに従って機械的に自動取出しできる、ブログ固有の書式(HTMLタグのうち特定の書式で囲まれたテキストなど)やユーザの行動様式に従った書式であれば、どのような書式でも構わない。
続けて、タグ取出部103は取り出したタグをブログの投稿固有IDおよび投稿時刻と対応づけてタグ出現DB104に登録する(S4)。タグ出現DB104は図5に示したデータ構造を持つ。なお、図5では、後述する仮の放送局名を推定する際に使用する特徴語データは除いた例が示されている。
更に、タグ取出部103は、取り出したタグがタグとそのタグから推定された番組情報の関連付けを示したタグ番組DB105にまだ登録されていない新しいタグであるかを判断し(S5)、新しいタグであるならばタグ番組DB105に登録する(S6)。タグ番組DB105は図6に示したデータ構造を持つ。なお、この時点では確定時刻(タグと番組情報の関連付けが決定した時刻)と番組情報、および後述する確定放送局は不明であるため、空である。
一方、仮放送局推定部106は、ブログ収集部101が収集したブログの本文から仮の放送局を推定し(S7)、推定された仮放送局をブログDB102に一時保存する(S8)。
本発明の実施の形態では、この仮放送局の推定に、図8の例に示したような放送局ごとに予め用意した特徴語データを用いる。この特徴語データは、ブログ本文中に出てくる用語であり、必ずしも上述したタグとは限らない。特徴語データには優先度スコアを予め定めておく。例えば、図3の投稿固有ID=06565406541では、ブログ本文の「Bテレビ」という文字列のみにマッチするので「放送局B」を仮放送局と推定する。この方法は、従来技術のように、EPGや字幕テキストを形態素解析して特徴語を取り出すような必要がなく、推定に掛かる計算コストを大幅に抑えることができる。
仮放送局を推定する精度を上げるために、図8のように特徴語データ毎に優先度のスコア付けを行い、ブログDB102の仮放送局に一時保持し、一つのブログ本文が複数の放送局の特徴語データにマッチする場合(例えば「放送局Aの衛星放送を見てみなよ」というブログ本文は、放送局Aと放送局Aの衛星放送との両者にマッチする)、放送局ごとに合計し、最も仮合計スコアが高い放送局を仮放送局と推定してもよい。この優先度スコアも、特徴語同様、予め定められた値であり、各放送局向けに一度設定した静的なデータである。マッチした仮合計スコアは、ブログDB102の所定のカラムへ一時保存する。
この段階での仮放送局はあくまでも仮の放送局であり、マッチングする仮放送局が複数あっても、また、一つもマッチせずに仮放送局が不明であっても構わない。例えば、図3の投稿固有ID=06565406567では、ブログ本文から放送局が推定できないため、対応する仮放送局の欄は「?(不明)」のままである。
次に、図5に示したように、放送局確定部107は、定期的にタグ出現DB104を予め定めた規定の時刻範囲Ra(例えば10分前〜現在時刻など)で区切り、その時刻範囲Raに任意のタグTが予め定められた閾値β回(例えば50回など)以上出現するかを判断し(S9)、タグTがβ回以上出現する場合に、後述する方法で放送局を確定する。ここで規定の時刻範囲Raとは、タグと放送局との対応関係を求める際に基準とする放送局推定基準時刻範囲である。また、閾値βは、タグと放送局とを対応づけるか否かを決定するために参照する、放送局決定基準値である。
なお、本実施例では説明の簡単化のために、前記規定の時刻範囲を10分間に固定した例を説明しているが、定期的に時刻を監視し、現在放送中の番組情報から、番組の開始時刻と終了時刻を取り出し、現在時刻が終了時刻に重なった時点で、時刻範囲Raを決定することで、時刻範囲を可変にしてもよい。
ここでは、現在時刻22:05において、図5で示した規定の時刻範囲Ra(21:55:00‐22:05:00)の区間に#prog1というタグTがβ回以上出現したとする。
放送局確定部107は、タグ出現DB104に記録した投稿固有IDを元にブログDB102から#prog1というタグが含まれている最も古い投稿時刻(20:50:22)から最新の投稿時刻(22:02:20)まで時刻範囲Rb内のブログリストLbを取得する(S10)。放送局確定部107は次に、このブログリストLbから仮放送局の出現回数を集計してランキングを作成し、最も出現回数の多い仮放送局を#prog1が示す確定放送局と特定する(S11)。
なお、本実施例においてブログDB102は、ブログ収集部101が収集した過去1週間分のブログを格納し、それよりも過去のブログは削除しているものとする。また、説明の簡単化のために、タグTが含まれている最も古い投稿時刻をそのまま時刻範囲Rbに採用したが、最も古い時刻は、最新の投稿時刻と同一日時であるといった制限を加えて、同一番組が異なる地方局で日時をずらして放送するといった編成に対処してもよい。
より多くの例を示す。例えば、時刻範囲Rb(20:50:22‐22:05:00)の区間に、全体で305件のタグTを含む投稿があり、仮放送局ごとの集計結果が
1位:放送局A=296件 (合計スコア 485.0)
2位:放送局E=6件 (合計スコア 8.5)
3位:放送局F=1件 (合計スコア 2.0)
不明=2件(不明率0.7%)
であった場合には、「放送局A」を確定放送局とする。この方法により、一つ一つのブログ記事から推定した仮放送局のばらつきや誤差を抑えることができ、推定精度を格段に高めることができる。
また、本実施例では説明の簡単化のために必ず放送局が確定するようになっているが、より精度を高めるために、仮放送局の分布を統計的に判定し、棄却条件に一致(ここで棄却条件は、例えば、1位と2位の合計優先度スコアに殆ど差がない場合、不明率が全体の投稿件数に対して著しく大きい(例えば不明率30%以上など)場合を指す)した場合には、タグTが特定の放送局や番組情報を示すものではないとして、番組情報の推定には用いないと判断してもよい。
前記の方法で確定放送局が特定できたならば、次に番組推定部108は番組情報DB109から前記時刻範囲Rbに該当する確定放送局の全ての番組候補を取得する(S12)。ここで、番組情報DB109は少なくとも放送局名、放送時間、タイトル、番組詳細などの情報を蓄積したデータベースであるが、これらの情報の取得部について本発明では特に限定しない。ネットワーク経由で取得した情報でも、放送波に含まれる電子番組データから取得したものでも、その他の方法で取得したものでも構わない。
先ほどの例では、前記時刻範囲Rb(20:50:22−22:05:00)に該当する放送局Aの番組候補として、20:45−21:00に放送の「番組5」と、21:00−22:00に放送の「番組6」、22:00−22:45に放送の「番組1」の3つの番組が得られる。
更に、前記ブログリストLbの投稿時刻を元にして、それぞれの番組放送時間中の投稿件数を集計すると、ユーザがリアルタイムに番組を実況しているという行動様式から、以下のように特定の番組についての投稿件数が非常に大きくなる。
「放送局名:放送局A
タイトル:番組5
放送時間:20:45−21:00
前記ブログリストLb中の投稿件数:1件」、
「放送局名:放送局A
タイトル:番組6
放送時間:21:00−22:00
前記ブログリストLb中の投稿件数:5件」、
「放送局名:放送局A
タイトル:番組1
放送時間:22:00−22:45
前記ブログリストLb中の投稿件数:299件」。
この結果から、番組推定部108は、前記ブログリストLb中の投稿件数が最も多い「番組1」がタグ#prog1が示す該当番組であるとして推定する(S13)。ここでも、複数の番組に関連するブログのばらつきや誤差を抑えることで、推定精度を高めている。
タグTが示す番組が推定できた時点で、番組推定部108は、タグ番組DB105に番組情報として番組情報DB109から取得した「番組1」に関する情報を登録し、確定時刻として現在時刻の22:05を登録することで、タグTと番組情報との関連付けを完了する(S14)。
最後に、番組情報書換部110が前記ブログリストLbのうち、番組情報が空であるものに関して、推定した番組情報を元にブログDB102の番組情報および確定放送局を書き換える(S15)。これにより、S7の段階では不明であった番組情報や誤って推定された確定放送局も正しい情報となる。
例えば、図3に示した投稿固有ID=06565406567は、ブログ本文からは仮放送局を推定できていなかったが、前記手法によって、図4に示したように放送局が確定されている。また、図4および図7は同様にして番組情報が確定した状態を示している。
図4の投稿固有ID=06565406542は#dairyというタグを含んでいるものの、そのタグが特定の番組と関連づけられる結果が得られなかったため、番組を引用しているブログではないと判別できる。
以上のように、実施の形態1によれば、EPGや字幕テキストから特徴語を抽出したり、類義語辞書などをメンテナンスしたりすることなく、ブログ等のソーシャルメディアが言及している番組を高精度に推定できるという効果を得ることができる。
(実施の形態2)
図9は、本発明の実施の形態2に係る推定装置のブロック図である。また、図10は本発明の実施の形態2におけるフローチャートである。実施の形態1の推定装置100に、番組情報設定部111を加えたブロック構成になっている。
図10のフローチャートにおいて、ステップS1からステップS4まで、および、ステップS6からステップS15までは実施例1と同様であるため、説明は省略する。
タグ取出部103は、タグとそのタグから推定された番組情報の関連付けを示したタグ番組DB105にまだ登録されていない新しいタグであるかを判断し(S5)、新しいタグであるならばタグ番組DB105に登録する(S6)。
既にタグ番組DB105に登録されているタグである場合、番組情報設定部111は、そのタグに関連付けられている番組情報があるかどうかを判断し(S16)、番組情報がある場合には、ブログの投稿時刻がタグ番組DB105にある確定時刻+閾値γ以内であるかどうかを判断し(S17)、範囲内であればタグが同一の番組情報を示していると推定し、ブログDB102の番組情報および放送局リストを書き換える(S18)。ここで閾値γは、タグと番組情報との対応関係を求める際に基準とする番組推定基準時刻範囲である。
例えば、予め定められた閾値γ=2時間である場合に、図3に示した投稿固有ID=06565406721では、ブログ本文と特徴語データとのマッチングからは仮放送局が得られないが、タグ#prog1を含んでおり、かつ、投稿時刻22:43:20がタグ#prog1の確定時刻22:05:00+閾値γ(2時間)以内であるため、番組情報設定部111により、「番組1」であると直ちに推定される。その結果、図4に示したように投稿固有ID=06565406721の番組情報および放送局が設定される。
確定時刻+閾値γによる制限は、同一の番組が異なる放送局で異なる時間に放送された場合に、古い関連付けの番組情報を強制しないためのものである。例えば、放送局Fと放送局Gで同一の番組が異なる時間帯で放送されることがある。しかしながら、放送局名が異なるため、番組情報は完全には一致しない。このとき、後に放送された番組に対して、新しい番組情報を関連付けるためにこのような制限が必要となる。このように、閾値γの値は各局で放送される番組情報を勘案して実験により定めればよい。
また、同様の考えから、タグ番組DB105を定期的に確認し、確定時刻が現在時刻−閾値γ以前のタグを削除することで、タグと番組情報の関連づけを新しいものに更新していくことも可能である。
以上のように、実施の形態2によれば、番組に関連するタグTは設定されているが、既知の特徴語テーブルからは仮の放送局が推定できないブログテキスト(即ち、従来は活用されずに捨てられていたブログテキスト)の番組を推定するという効果を得ることができる。
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
(変形例1)
上記の説明では、放送局確定部107が、タグ出現DB104に記録した投稿固有IDを元にブログDB102から特定のタグに関するブログリストLbを取得し、取得したブログリストLbから仮放送局の出現回数を集計してランキングを作成し、最も出現回数の多い仮放送局をそのタグが示す確定放送局と特定する場合に説明した。放送局確定部107によるタグと放送局との対応の付け方は、出現回数の最大値に基づく方法に限らない。放送局確定部107は、確定放送局を求める際に、単にブログリストLbに出現する仮放送局の出現回数を集計するのみならず、その集計結果をさらに解析することで確定放送局を求めてもよい。以下、放送局確定部107によるタグと放送局との対応付けの、別の例について説明する。
放送局確定部107は、まずブログリストLbから推定される各仮放送局の数の時系列的な変化を算出する。時系列的な変化は、例えば時刻を横軸とし、各時刻において投稿されたブログから推定される仮放送局の数を縦軸とするグラフによって表現される。続いて放送局確定部107は、算出した時系列的な変化の時間微分を算出し、微分値の極大値が最も大きくなるグラフを持つ仮放送局を、そのタグに対応する放送局とする。このように時系列的な変化の微分値を求めることは、ブログ中の瞬間的な盛り上がりを評価することに相当する。これにより、ある番組のスタート時点や番組中の人気コーナーの放映中など、番組の進行状況に応じた盛り上がりの変化をその放送局の決定に反映させることができる。
(変形例2)
上記の説明では、番組推定部108は、ブログリストLb中の投稿件数が最も多い「番組」を、タグが示す該当番組であるとして推定する場合について説明した。番組推定部108によるタグと番組との対応の付け方は、投稿件数の最大値に基づく方法に限らない。以下、番組推定部108によるタグと番組との対応付けの、別の例について説明する。
番組推定部108は、ブログリストLb中の投稿された番組の数を集計し、その数を番組の放送時間で規格化した規格化番組数をもとにタグと番組とを対応づけてもよい。より具体的には、番組推定部108は、集計した番組の数をその番組の放送時間で割ることにより、単位放送時間あたりの番組数を求める。一般に、放送時間の長い番組の方が、放送時間が短い番組と比較して、ブログに投稿される数が増えると考えられる。例えば、放送時間が10分の番組の後に放送時間が3時間の番組が放送されることを考えると、ブログに投稿される数の総和は、放送時間が3時間の番組の方が多くなると考えられる。したがって、番組推定部108が単位放送時間あたりの番組数をもとにタグと番組とを対応づけることにより、放送時間による投稿数の相違を低減し、番組推定精度を向上することができる。
100 推定装置、 101 ブログ収集部、 102 ブログDB、 103 タグ取出部、 104 タグ出現DB、 105 タグ番組DB、 106 仮放送局推定部、 107 放送局確定部、 108 番組推定部、 109 番組情報DB、 110 番組情報書換部、 111 番組情報設定部、 200 ネットワーク。

Claims (6)

  1. 個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するタグ取出部と、
    前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する仮放送局推定部と、
    前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する放送局確定部とを含むことを特徴とする推定装置。
  2. 各放送局が放送する番組の放送時間帯を格納した番組情報データベースを参照し、前記放送局確定部が確定した放送局が放送する番組の中で、前記番組の放送時間帯中に書き込まれた前記ブログの文字列中に出現する前記タグの数をもとに前記タグが示す番組を推定し、前記タグと推定した番組とを対応づけてタグ番組データベースに格納する番組推定部をさらに含むことを特徴とする請求項1に記載の推定装置。
  3. 前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログのうち前記番組推定部が番組を推定したタグを含むブログを、前記番組および前記放送局確定部が確定した放送局と対応づけて前記ブログデータベースに格納する番組情報書換部をさらに含むことを特徴とする請求項2に記載の推定装置。
  4. ネットワークを介して収集したブログの文字列中に、前記番組推定部が番組と対応づけたタグを含む場合、前記ブログが書き込まれた時刻がタグの所定の時刻範囲に収まっていることを条件として、前記タグに対応づけられた番組および前記番組を放送する放送局を前記ブログと対応づけて前記ブログデータベースに格納する番組情報設定部をさらに含むことを特徴とする請求項2から3のいずれかに記載の推定装置。
  5. 個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するステップと、
    前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納するステップと、
    前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定するステップとをプロセッサに実行させることを特徴とする推定方法。
  6. 個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納する機能と、
    前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する機能と、
    前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する機能とをコンピュータに実現させることを特徴とするプログラム。
JP2011215271A 2010-11-24 2011-09-29 推定装置、推定方法、並びにプログラム Abandoned JP2012129982A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2011215271A JP2012129982A (ja) 2010-11-24 2011-09-29 推定装置、推定方法、並びにプログラム
CN2011800158325A CN102822821A (zh) 2010-11-24 2011-10-13 推定装置、推定方法及程序
KR1020127025031A KR101381138B1 (ko) 2010-11-24 2011-10-13 추정 장치, 추정 방법, 그리고 프로그램을 기록한 기록매체
EP11843976.9A EP2573688A4 (en) 2010-11-24 2011-10-13 ESTIMATING APPARATUS, ESTIMATING METHOD, AND PROGRAM
PCT/JP2011/005735 WO2012070182A1 (ja) 2010-11-24 2011-10-13 推定装置、推定方法、並びにプログラム
US13/612,161 US20130013625A1 (en) 2010-11-24 2012-09-12 Estimating apparatus, estimating method, and program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010261775 2010-11-24
JP2010261775 2010-11-24
JP2011215271A JP2012129982A (ja) 2010-11-24 2011-09-29 推定装置、推定方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2012129982A true JP2012129982A (ja) 2012-07-05

Family

ID=46145556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011215271A Abandoned JP2012129982A (ja) 2010-11-24 2011-09-29 推定装置、推定方法、並びにプログラム

Country Status (6)

Country Link
US (1) US20130013625A1 (ja)
EP (1) EP2573688A4 (ja)
JP (1) JP2012129982A (ja)
KR (1) KR101381138B1 (ja)
CN (1) CN102822821A (ja)
WO (1) WO2012070182A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014072831A (ja) * 2012-10-01 2014-04-21 Sharp Corp 情報処理装置および携帯端末装置
JP2021019361A (ja) * 2019-07-16 2021-02-15 株式会社 ディー・エヌ・エー ライブ動画を配信するためのシステム、方法、及びプログラム
US12003801B2 (en) 2019-07-16 2024-06-04 DeNA Co., Ltd. System, method, and computer-readable medium including program for distributing live video

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5950737B2 (ja) * 2012-07-18 2016-07-13 日本放送協会 情報抽出装置及びプログラム
RU2595524C2 (ru) * 2014-09-29 2016-08-27 Общество С Ограниченной Ответственностью "Яндекс" Устройство и способ обработки содержимого веб-ресурса в браузере

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040268403A1 (en) * 2003-06-26 2004-12-30 Microsoft Corporation Context-sensitive television tags
JP4333516B2 (ja) * 2004-08-05 2009-09-16 ソニー株式会社 記録制御装置および方法、並びにプログラム
US8055715B2 (en) * 2005-02-01 2011-11-08 i365 MetaLINCS Thread identification and classification
JP2007274605A (ja) * 2006-03-31 2007-10-18 Fujitsu Ltd 電子装置、放送番組情報の収集方法、その収集プログラム及びその収集システム
JP2008099172A (ja) * 2006-10-16 2008-04-24 Sony Corp 記録装置および方法、並びにプログラム
JP2008124861A (ja) 2006-11-14 2008-05-29 Funai Electric Co Ltd テレビジョン放送視聴システム及びテレビジョン放送受信装置
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US20090037387A1 (en) * 2007-08-02 2009-02-05 Alticast Corp. Method for providing contents and system therefor
US7519658B1 (en) * 2008-05-02 2009-04-14 International Business Machines Corporation Automatic blogging during media viewing
US8346708B2 (en) * 2009-01-22 2013-01-01 Nec Laboratories America, Inc. Social network analysis with prior knowledge and non-negative tensor factorization
US9165085B2 (en) * 2009-11-06 2015-10-20 Kipcast Corporation System and method for publishing aggregated content on mobile devices

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014072831A (ja) * 2012-10-01 2014-04-21 Sharp Corp 情報処理装置および携帯端末装置
JP2021019361A (ja) * 2019-07-16 2021-02-15 株式会社 ディー・エヌ・エー ライブ動画を配信するためのシステム、方法、及びプログラム
US12003801B2 (en) 2019-07-16 2024-06-04 DeNA Co., Ltd. System, method, and computer-readable medium including program for distributing live video

Also Published As

Publication number Publication date
KR101381138B1 (ko) 2014-04-10
EP2573688A4 (en) 2014-03-19
KR20120133387A (ko) 2012-12-10
EP2573688A1 (en) 2013-03-27
US20130013625A1 (en) 2013-01-10
CN102822821A (zh) 2012-12-12
WO2012070182A1 (ja) 2012-05-31

Similar Documents

Publication Publication Date Title
CN106331778B (zh) 视频推荐方法和装置
US9978093B2 (en) Method and system for pushing mobile application
CN103412881B (zh) 提供搜索结果的方法及系统
CN102222103B (zh) 视频内容的匹配关系的处理方法及装置
US9008489B2 (en) Keyword-tagging of scenes of interest within video content
JP5144838B1 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
US20090094189A1 (en) Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content
US20150205580A1 (en) Method and System for Sorting Online Videos of a Search
WO2018113673A1 (zh) 针对综艺类query的搜索结果的推送方法及装置
CN105981067A (zh) 针对视频的各个部分提供评论和统计信息的装置及其方法
US20110119248A1 (en) Topic identification system, topic identification device, client terminal, program, topic identification method, and information processing method
WO2012070182A1 (ja) 推定装置、推定方法、並びにプログラム
CN105183925A (zh) 内容关联推荐方法及装置
CN110881131B (zh) 一种直播回看视频的分类方法及其相关装置
CN110896488A (zh) 一种直播间的推荐方法以及相关设备
CN105574030A (zh) 一种信息搜索方法及装置
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN107193870B (zh) 网页内容的提取方法和系统
WO2020063437A1 (zh) 关键词的推荐方法、装置、存储介质及电子设备
CN109525864B (zh) 一种收视率排名方法及装置
JP2017215803A (ja) 特徴語抽出装置
CN114385936A (zh) 媒体内容收藏列表的更新方法、装置、设备及存储介质
CN102929874A (zh) 检索数据的排序方法及装置
JP2018081390A (ja) 録画装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140228

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20141017