JP2016035607A - ダイジェストを生成するための装置、方法、及びプログラム - Google Patents

ダイジェストを生成するための装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016035607A
JP2016035607A JP2012284674A JP2012284674A JP2016035607A JP 2016035607 A JP2016035607 A JP 2016035607A JP 2012284674 A JP2012284674 A JP 2012284674A JP 2012284674 A JP2012284674 A JP 2012284674A JP 2016035607 A JP2016035607 A JP 2016035607A
Authority
JP
Japan
Prior art keywords
digest
section
unit
similarity
moving image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012284674A
Other languages
English (en)
Inventor
雄基 篠本
Yuki Shinomoto
雄基 篠本
智典 中村
Tomonori Nakamura
智典 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2012284674A priority Critical patent/JP2016035607A/ja
Priority to PCT/JP2013/006415 priority patent/WO2014103123A1/ja
Publication of JP2016035607A publication Critical patent/JP2016035607A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features

Abstract

【課題】動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成することのできる装置を提供する。【解決手段】ダイジェスト生成装置は、動画コンテンツからダイジェストを生成するための装置である。区間分類部は、1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数からその区間の特徴ベクトルを構成し、異なる区間の間での特徴ベクトルの類似度に基づいて、複数の区間を複数のグループに分類する。ダイジェスト抽出部は、複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価し、評価された値が所定の閾値以上であるグループをダイジェストとして動画コンテンツから抽出する。【選択図】図3

Description

本発明は、動画コンテンツを電子機器に自動的に解析させる技術に関し、特に動画コンテンツのダイジェストを電子機器に自動的に生成させる技術に関する。
ハードディスク・ビデオ・レコーダ及びパーソナル・コンピュータが各家庭に普及したことにより、放送番組の録画及びインターネットからの動画コンテンツのダウンロードを誰もが手軽に行えるようになっている。また、デジタル・ビデオ・カメラの普及により、オリジナルの動画コンテンツを誰もが容易に作成できるようにもなっている。それらの結果、多様な動画コンテンツが数多く蓄積されているという状況が、いずれの家庭にもごく普通に生じ得る。従って、動画コンテンツの整理が全てユーザの手に委ねられた場合、膨大な数の動画コンテンツをユーザが持て余すという事態が生じかねない。そのような事態の回避を目的として、家庭用電子機器には、ユーザによる動画コンテンツの整理を支援する機能が求められている。
ユーザによる情報の整理を支援する機能として電子機器が備えるものの1つに、情報の自動解析機能がある。その機能では情報の特徴ベクトルが利用される(例えば、特許文献1、2参照)。情報の「特徴ベクトル」とは、その情報の特徴量を成分とするベクトルをいう。情報の「特徴量」とは、その情報に特徴的な量であり、かつ、その情報から電子機器によって自動的に算定可能な量をいう。例えば、音声データの特徴ベクトルは、その音声データが表す音声に含まれる様々な音素、音節、若しくは単語それぞれの出現頻度、又はその音声のレベル、ピッチ、若しくは周波数分布を成分とする。一方、映像データの特徴ベクトルは、その映像データが表す色座標の色空間における分布(カラー・ヒストグラム)、又はその映像データの自己相関を成分とする。
マルチメディア・コンテンツの特徴ベクトルは、電子機器がそのコンテンツを自動的に分割する際に利用される。例えば特許文献1に開示された技術は、まず、音声データの一定区間ごとに特徴ベクトルを求める。次に、隣接する区間の間で特徴ベクトルの内積を求め、その内積の値が閾値を下回る場所でその音声データを分割する。こうして、その音声データは特徴の変化に応じて分割されるので、ユーザはその音声データの各部分に、その特徴を表すタグを付けやすい。一方、特許文献2に開示された技術は、まず、ビデオ・データのセグメントごとに特徴ベクトルを求める。次に、特徴ベクトルが類似する一連のセグメント群から1つのシーンを構成する。こうして、そのビデオ・データは、映像の特徴が似ている連続部分ごとに異なるシーンに分割される。従って、ユーザはそのビデオ・データから、所望の特徴を持つシーンを容易に検索できる。
特願2000−259167号公報 特許第4683253号公報
従来の電子機器の中には、ユーザによる動画コンテンツの選択を支援する機能として、各コンテンツのダイジェストを提示する機能を備えたものがある。動画コンテンツの「ダイジェスト」とは、そのコンテンツが表す映像の冒頭部分等、その映像全体の中から抜粋された映像部分、又はその映像部分を表すデータをいう。従来の電子機器は例えば、ユーザが選択肢の動画コンテンツを識別しやすい環境として、それらのダイジェストがサムネイル表示された画面を提示する。しかし、近年、全番組録画が可能なレコーダの登場、及びスマートフォンの爆発的な普及が、各家庭に蓄積される動画コンテンツの増加のペースを更に加速している。それに伴い、ダイジェストでさえも、ユーザがそれらを隈無くチェックするには多過ぎるようになりつつある。従って、ユーザに、膨大な数のダイジェストの中から、自分の嗜好に合ったものを手早く選択させるための工夫が更に必要である。
そのような工夫の1つとしては、電子機器に自動的に、動画コンテンツが表す映像の中から、ユーザの嗜好に合った映像をダイジェストとして抽出させることが考えられる。その場合、動画コンテンツの数は膨大であっても、ダイジェストの種類は、ユーザの嗜好に合ったものに絞られるので、ユーザがチェックすべきダイジェストの数は動画コンテンツの数よりも少なくてすむ。また、いずれのダイジェストが表す映像もユーザの嗜好に合っているので、ユーザはそれらの映像を比較的迅速にチェックできる。しかし、映像そのものの特徴でユーザの嗜好を表現するのは難しいので、ユーザの嗜好に合う/合わないの判断基準を映像の特徴ベクトルで設定するのは難しい。また、仮にその基準を映像の特徴ベクトルで設定できたとしても、映像の解析に必要な計算量は一般に大きいので、その基準に合うダイジェストを動画コンテンツから抽出する処理には時間がかかる。従って、動画コンテンツの数又はサイズが膨大であれば、ダイジェストの生成に必要な時間を実用的な範囲に収めることが難しい。
本発明の目的は上記の課題を解決することにあり、特に、動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成することのできる装置を提供することにある。
本発明の1つの観点によるダイジェスト生成装置は、動画コンテンツからダイジェストを生成するための装置であり、区間分類部とダイジェスト抽出部とを備えている。区間分類部は、1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数からその区間の特徴ベクトルを構成し、異なる区間の間での特徴ベクトルの類似度に基づいて、複数の区間を複数のグループに分類する。ダイジェスト抽出部は、複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価し、評価された値が所定の閾値以上であるグループをダイジェストとして動画コンテンツから抽出する。
本発明の上記の観点によるダイジェスト生成装置は動画コンテンツの区間をグループ分けする際、映像の特徴に代えて、音声又は字幕における単語の出現回数を利用する。それにより、この装置は各グループの特徴を自動的に、的確に、かつ迅速に分けることができる。更にこの装置は、ダイジェストとして抽出されるべきグループを、音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性に基づいて選択する。その結果、この装置は動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成することができる。
本発明の実施形態によるホーム・ビデオ・ネットワーク・システムを示す模式図である。 図1に示されているシステムにおけるホーム・ビデオ・サーバ、すなわちNASのハードウェア構成を示すブロック図である。 図1に示されているシステムにおけるホーム・ビデオ・サーバ、すなわちNASの機能ブロック図である。 MPEG−2 TS形式を採用した動画コンテンツのデータ構造を示す模式図である。 テキスト字幕ストリームのデータ構造を示す模式図である。 図3に示されている区間分類部の機能ブロック図である。 図6に示されている区間分類部による処理のフローチャートである。 図6に示されている区間分類部がオーディオ・ストリームから単語を抽出する処理を示す模式図である。 図7に示されているステップS706において、字幕を表すテキスト文字列を動画コンテンツの区間ごとに連結する処理のフローチャートである。 図6に示されている特徴ベクトル構成部がテキスト文字列から単語を抽出する処理を示す模式図である。 (a)は、図6に示されている特徴ベクトル構成部が構成した特徴ベクトルに関する情報の一覧表である。(b)は、その特徴ベクトルを幾何学的に表す模式図である。 図7に示されているステップS709においてシーンを構成する処理のフローチャートである。 (a)、(b)は、図12に示されている処理によるシーンの構成を示す模式図である。(c)は、図6に示されているシーン境界設定部が作成したシーン情報を示す表である。 図3に示されている関心情報収集部の機能ブロック図である。 図14に示されている関心情報収集部による処理のフローチャートである。 図14に示されている基準単語表管理部によって管理される基準単語表を示す表である。 図3に示されているダイジェスト抽出部の機能ブロック図である。 図17に示されているダイジェスト抽出部による処理のフローチャートである。 (a)、(b)はそれぞれ、図3に示されているクライアントの1つが視聴対象の動画コンテンツの選択画面に表示するダイジェストのレイアウトの一例を示す模式図である。
以下、本発明の実施形態について、図面を参照しながら説明する。
[ホーム・ビデオ・ネットワーク・システムの構成]
図1は、本発明の実施形態によるホーム・ビデオ・ネットワーク・システム100を示す模式図である。図1を参照するに、このシステム100は、ルータ110、ネットワーク・ストレージ(NAS:Network Attached Storage)120、デジタル・スチル・カメラ121、デジタル・ビデオ・カメラ122、録画装置130、表示装置140、141、パーソナル・コンピュータ(PC)150、及びモバイル機器160を含む。
ルータ110は、システム100内の他の電子機器120、130、…、160と有線LAN(IEEE802.3)又は無線LAN(IEEE802.11)を通して通信する機能、及び、インターネットWWWにWANを通して接続する機能を備えている。ルータ110はそれらの機能を利用して、他の電子機器120、…、160の相互間、及び、それらの電子機器とインターネットWWWとの間でのデータ交換を中継する。
NAS120は、ハードディスク・ドライブ(HDD)又は半導体メモリ・ドライブ(SSD)等の大容量記憶装置を利用して大量の映像・音声(AV)データを保管する機能、有線LAN又は無線LAN(以下、LANと略す。)を通してルータ110と通信する機能、及び、外部インタフェースを通して別の電子機器から直接、データを取り込む機能を備えている。NAS120はそれらの機能を利用して、システム100内の中心的役割、すなわちホーム・ビデオ・サーバとしての役割を果たす。具体的には、NAS120はルータ110又は外部インタフェースを利用して、システム100内の他の電子機器121、122、130、…、160から様々な動画コンテンツを受け付けて記憶装置に格納する。一方、NAS120はそれらの電子機器からの要求に応じて、記憶装置に保存されている動画コンテンツの一覧として、それらのダイジェストを生成して返信する。その後、それらの電子機器から特定の動画コンテンツのダウンロードを要求された場合、NAS120はその動画コンテンツを記憶装置から検索して要求元の電子機器へ返信する。
デジタル・スチル・カメラ121とデジタル・ビデオ・カメラ122とは、ユーザの操作に従って静止画(すなわち写真)又は動画(すなわちホームビデオ)を撮影する機能、及び、NAS120の外部インタフェースへAVデータを転送する機能を備えている。各デジタル・カメラ121、122はそれらの機能を利用して、写真の映像データとホームビデオのAVデータとをNAS120へ転送する。
録画装置130はハードディスク・レコーダ又は光ディスク・レコーダである。録画装置130は、ユーザから録画予約を受け付ける機能、地上デジタル放送波、衛星デジタル放送波、又はケーブル・テレビ放送波(以下、放送波と略す。)を受信してその放送波から録画対象の番組のAVデータを抽出する機能、ハードディスク又は光ディスク等の記録媒体へAVデータを記録する機能、その記録媒体からAVデータを再生する機能、及び、LANを通してルータ110と通信する機能を備えている。録画装置130はそれらの機能を利用して、ユーザに指定された放送番組を予約録画する一方、私的に録画された放送番組又は市販の映画等の動画コンテンツを記録媒体から再生してNAS120へ転送する。
表示装置140、141は、液晶ディスプレイ、プラズマ・ディスプレイ、又は有機ELディスプレイ等のフラット・パネル・ディスプレイである。表示装置140、141は、放送波を受信して、その放送波から所望の番組の映像を画面に再現し、かつ、その音声を再生する機能、LANを通してルータ110と通信する機能、及び、ブラウザを用いてWebページ又は動画コンテンツを画面に表示する機能を備えている。PC150も同様な機能を備えている。表示装置140、141とPC150とはそれらの機能を利用して、所望の放送番組をリアルタイムでユーザに視聴させ、所望の動画コンテンツをNAS120若しくはインターネットWWWからダウンロードしてユーザに視聴させ、又は、所望の動画コンテンツを録画装置130に記録媒体から再生させてユーザに視聴させる。PC150はその他に、インターネットWWWからダウンロードした動画コンテンツをNAS120へアップロードする。
モバイル機器160は、スマートフォン等の携帯電話、携帯情報端末、又はタブレット型PCである。モバイル機器160は、携帯電話回線を通してインターネットWWWにアクセスする機能、LANを通してルータ110と通信する機能、ブラウザを用いてWebページ又は動画コンテンツを画面に表示する機能、ワンセグ放送波を受信して、その放送波から所望の番組の映像を画面に再現し、かつ、その音声を再生する機能、及び、デジタル・カメラ121、122と同様な写真・ホームビデオの撮影機能を備えている。モバイル機器160はそれらの機能を利用して、所望の動画コンテンツをNAS120若しくはインターネットWWWからダウンロードしてユーザに視聴させ、所望の放送番組をリアルタイムでユーザに視聴させ、所望の動画コンテンツを録画装置130に記録媒体から再生させてユーザに視聴させ、又は、インターネットWWWからダウンロードした動画コンテンツ若しくは写真・ホームビデオをNAS120へアップロードする。
[ホーム・ビデオ・サーバの特徴の概要]
NAS120にはシステム100内の他の電子機器121、122、130、…、160から、多種多様な動画コンテンツが数多く集められて蓄積される。ユーザは、NAS120に保存されている動画コンテンツを表示装置140等に表示させて視聴する場合、NAS120に蓄積された多数の動画コンテンツの中から視聴対象を選択しなければならない。NAS120はその選択を支援する機能として、各動画コンテンツのダイジェストを生成する機能を備えている。以下、NAS120の構成のうち、この機能を実現する部分を「ダイジェスト生成装置」と呼ぶ。本発明の実施形態によるダイジェスト生成装置は、以下に述べるようにして、特にユーザの嗜好に合ったダイジェストを各動画コンテンツから自動的に生成する。
ダイジェスト生成装置はまず、NAS120を始め、システム100内の各電子機器からルータ110を通してユーザに関する関心情報を取得する。「関心情報」とは、特定のユーザが各電子機器を操作して視聴した情報をいう。ユーザが複数であれば、関心情報はユーザ別に収集される。例えばユーザが録画装置130又はPC150を操作して放送番組を予約録画した場合、その放送番組の番組情報が関心情報として録画装置130等から取得される。ユーザがPC150又はモバイル機器160を操作して情報をインターネットから検索した場合、その情報、又はその検索に用いられたキーワードが関心情報としてPC150等から取得される。ユーザが表示装置140、141、PC150、又はモバイル機器160のブラウザを操作してWebページを閲覧した場合、そのWebページが関心情報として表示装置140等から取得される。ユーザが表示装置140、141、PC150、又はモバイル機器160を操作して、放送局から配信され、又はNAS120からダウンロードされる動画コンテンツを視聴した場合、その動画コンテンツに含まれるタイトル、番組情報、音声データ、又は字幕データが関心情報としてNAS120から取得される。
ダイジェスト生成装置は次に、取得された関心情報が表す音声又は文字列を解析し、その中に含まれる単語の集合を基準の単語の集合として設定する。ここで、「単語」とは、名詞、動詞等、単独で意味がわかる自立語を意味し、単独では意味がわからない付属語、すなわち助詞と助動詞とを除く。基準の単語の集合は、「ユーザが関心を示した情報に含まれていた単語の集合である」という意味で、そのユーザの嗜好を表すキーワードの集合とみなすことができる。
ダイジェスト生成装置は続いて、NAS120に保存されている各動画コンテンツの区間をグループ分けすることにより、複数のシーンを構成する。ここで、動画コンテンツの「区間」とは、その動画コンテンツが表す映像全体の表示期間をその開始時点から一定の時間間隔で複数の期間に分けた場合、それらの期間のうちの1つに表示されるべき映像部分を表すその動画コンテンツの部分をいう。また、「シーン」とは、動画コンテンツの中で連続する区間のグループ、又はそのグループが表す一連の映像、音声、及び字幕等をいう。ダイジェスト生成装置はまず、動画コンテンツの各区間が表す音声又は字幕を解析し、その音声又は字幕における単語別の出現回数からその区間の特徴ベクトルを構成する。ダイジェスト生成装置は次に、異なる区間の間で特徴ベクトルの類似度を算定し、その類似度に基づいて、それらの区間を同じシーンに分類すべきか否かを判断する。こうして、その動画コンテンツから複数のシーンが構成される。具体的には、各シーンの表示期間と、そのシーンが表す音声又は字幕における単語別の出現回数との組み合わせが、その動画コンテンツに関するシーン情報として記録される。
動画コンテンツでは、音声データ及び字幕データはいずれも映像データよりもサイズが大幅に小さい。従って、動画コンテンツの各区間の特徴ベクトルを、音声又は字幕における単語別の出現回数から構成して比較する処理は、映像の特徴量から構成して比較する処理よりも計算量が大幅に少ない。従って、このダイジェスト生成装置は、NAS120に多数の動画コンテンツが蓄積されていても、各動画コンテンツからシーンを構成する処理に必要な時間を実用的な範囲に収めることができる。また、映像と共に流れる音声及び字幕はその映像の特徴を言葉で表現している場合が多いので、音声又は字幕における単語別の出現回数で構成された特徴ベクトルが映像の特徴を的確に反映している可能性は高い。それらの結果、このダイジェスト生成装置は各動画コンテンツから、互いに特徴の異なる複数のシーンを自動的に、的確に、かつ迅速に構成することができる。
ダイジェスト生成装置はシーン情報を利用して、動画コンテンツからダイジェストを次のように生成する。まず、シーン情報を参照して、各シーンが表す音声又は字幕に出現する単語の集合を形成する。次に、その単語の集合と基準の単語の集合との間の類似性を評価する。その評価には例えば、両集合の共通部分に属する単語の数が利用される。続いて、評価された値が所定の閾値以上であるシーンをダイジェストとして抽出する。この閾値は、「評価値がそれ以上であれば、シーンがユーザの嗜好に合うとみなせる」という条件を満たすように決定されている。実際、評価値が高いシーンほど、音声又は字幕に出現する単語の多くが基準の単語の集合にも属している。従って、ダイジェストは、ユーザの嗜好に合う可能性が高いシーンのみを含む。こうして、ダイジェスト生成装置は動画コンテンツのダイジェストを自動的に、迅速に、かつ「ユーザの嗜好に合う」という基準に対して的確に抽出することができる。
NAS120は表示装置140等からの要求に応じ、保存されている動画コンテンツの一覧としてそれらのダイジェストを生成して要求元の電子機器へ提供する。その電子機器は例えば、それらのダイジェストを画面にサムネイル表示して、ユーザに視聴対象の動画コンテンツを選択させる。ここで、NAS120に膨大な数の動画コンテンツが保存されていても、ダイジェストの種類は、ユーザの嗜好に合ったものに絞られるので、ユーザがチェックすべきダイジェストの数は一般には、動画コンテンツの数よりもずっと少ない。また、いずれのダイジェストも、ユーザの嗜好に合ったシーンから構成されているので、ユーザはそれらを比較的迅速にチェックできる。それらの結果、ユーザは視聴対象の動画コンテンツを手早く選択できる。
[ホーム・ビデオ・サーバのハードウェア構成]
図2は、システム100におけるホーム・ビデオ・サーバ、すなわちNAS120のハードウェア構成を示すブロック図である。図2を参照するに、NAS120は、ダイジェスト生成装置200、記憶部210、外部インタフェース220、及びコネクタ221、222を含む。ダイジェスト生成装置200は、CPU201、メモリ部202、ハードウェア・デコーダ203、ネットワーク・インタフェース204、記憶部インタフェース205、及びバス206を含む。ダイジェスト生成装置200と外部インタフェース220とは、LSI等、単一の集積回路に実装されている。
記憶部210は、NAS120に内蔵又は外付けされた大容量記憶装置であり、具体的にはHDD又はSSDである。CPU201は、ファームウェアに列記された命令群に従い、NAS120内の他のハードウェア要素を制御する。それにより、CPU201はそれらの要素と協働してNAS120の様々な機能、特にダイジェスト生成装置200の機能を実現する。メモリ部202はROMとRAMとを含む。ROMは、CPU201に実行されるべきファームウェア群を、NAS120の停止期間中も安定に保持する。RAMはNAS120の動作期間中、パラメータの一時的な保管場所又はフレーム・バッファ等の作業領域をCPU201とハードウェア・デコーダ203とに提供する。ハードウェア・デコーダ203は、AVデータの復号処理に特化した集積回路であり、特にその復号処理のアクセラレータ機能を備えている。ネットワーク・インタフェース204は、IEEE802.3又はIEEE802.11に準拠したインタフェースであり、ルータ110とバス206との間のデータ通信を有線又は無線で実現する。記憶部インタフェース205は、ATA又はSCSIに準拠したインタフェースであり、バス206と記憶部210との間のデータ通信を実現する。バス206は、NAS120内のハードウェア要素間を接続する配線及びチップセットの組み合わせであり、それらの要素間でのデータ通信に共通の伝送経路として利用される。外部インタフェース220は、DV、HDMI、USB、IEEE1394、又はBluetooth(登録商標)等に準拠のインタフェースであり、コネクタ221、222を通して外部の電子機器からバス206へAVデータを中継する。コネクタ221、222は、外部インタフェース220と同じ規格に準拠の接続端子である。コネクタ221、222にはデジタル・カメラ121、122が接続可能である。
[ホーム・ビデオ・サーバの機能]
図3は、システム100におけるホーム・ビデオ・サーバ、すなわちNAS120の機能ブロック図である。図3を参照するに、NAS120の機能部は、動画データベース301、関心情報データベース302、動画管理部303、及びダイジェスト生成装置200の機能部を含む。ダイジェスト生成装置200の機能部は、区間分類部311、ダイジェスト抽出部312、ダイジェスト提示部313、ユーザ識別部314、及び関心情報収集部315を含む。これらの機能部は、CPU201がファームウェアの命令群に従って、図2に示されているハードウェア要素を制御することにより実現される。
動画データベース301と関心情報データベース302とは、図2に示されている記憶部210によって実現される。動画データベース301には、外部の動画源VSRからLAN又は外部インタフェース220を通して動画コンテンツが登録される。図1に示されているシステム100における動画源VSRは、デジタル・カメラ121、122、録画装置130、表示装置140、141、PC150、及びモバイル機器160を含む。動画データベース301にはまた、それらの動画コンテンツに関するシーン情報が区間分類部311によって登録される。関心情報データベース302には、外部の関心情報源ITSからLANを通してユーザに関する関心情報が登録される。システム100における関心情報源ITSは、録画装置130、表示装置140、141、PC150、及びモバイル機器160を含む。関心情報データベース302にはまた、各ユーザに関する基準単語表が関心情報収集部315によって登録される。各ユーザに関する「基準単語表」とは、そのユーザに関する基準の単語の集合に属する単語の一覧表である。
動画管理部303はネットワーク・インタフェース204を利用して、外部の動画源VSRからNAS120宛に送られた動画コンテンツのアップロード要求を検出する。動画管理部303はまた、外部インタフェース220を利用して、コネクタ221、222へのデジタル・カメラ121、122の接続を検出する。それらの検出に応じて、動画管理部303は動画源VSRとの間の接続を確立し、動画源VSRから動画コンテンツを取得して動画データベース301に登録する。
一方、動画管理部303はネットワーク・インタフェース204を利用して、外部のクライアントCLTからNAS120宛に送られた動画コンテンツのダウンロード要求を検出する。システム100におけるクライアントCLTは、録画装置130、表示装置140、141、PC150、及びモバイル機器160を含む。動画管理部303はダウンロード要求の検出に応じてクライアントCLTとの間の接続を確立し、クライアントCLTに要求された動画コンテンツを動画データベース301から検索してクライアントCLTへ供給する。
関心情報収集部315はネットワーク・インタフェース204を利用して、LANに接続されている関心情報源ITSを検出する。それにより、関心情報収集部315は、LANへ新たな関心情報源ITSが接続される度に、その関心情報源ITSに対して、各ユーザに関する関心情報を要求する。関心情報収集部315はまた、LANに既に接続されている関心情報源ITSに対しては定期的に、各ユーザに関する関心情報を要求する。関心情報収集部315はその他に、動画管理部303がクライアントCLTに動画コンテンツを動画データベース301からダウンロードさせる度に、動画管理部303に対して、そのクライアントCLTのユーザに関する関心情報を要求する。それらの要求に応じ、関心情報源ITS及び動画管理部303からは関心情報の最新の履歴が返信される。例えば、録画装置130とPC150とからは録画予約の履歴が返信され、表示装置140、141、PC150、及びモバイル機器160からは、インターネットでの検索履歴、Webページの閲覧履歴、及び放送番組の視聴履歴が返信され、動画管理部303からは動画コンテンツの視聴履歴が返信される。関心情報収集部315はそれら関心情報の履歴を取得して、各関心情報が表す音声又は文字列を解析する。それにより、それらの音声又は文字列の中から単語が抽出される。関心情報収集部315は、抽出された単語群をユーザ別に分類し、関心情報データベース302に登録されている基準単語表のうち、対応するユーザに関するものに追記する。対応するユーザに関する基準単語表が未登録である場合、関心情報収集部315は、そのユーザに関する基準単語表を新たに作成して関心情報データベース302に登録する。こうして、各ユーザに関する基準単語表が更新又は設定される。
区間分類部311は、動画データベース301に登録されている各動画コンテンツから複数のシーンを次のように構成する。区間分類部311はまず、記憶部インタフェース205を利用して動画データベース301から動画コンテンツを1つずつ読み出し、ハードウェア・デコーダ203により各動画コンテンツから音声データ又は字幕データを復号する。区間分類部311は次に、音声データをテキスト・データに変換し、又は字幕データからテキスト・データを抽出し、それらのテキスト・データを解析する。それにより、そのテキスト・データが表す文字列から単語が抽出され、動画コンテンツの各区間における単語別の出現回数が求められる。区間分類部311は続いて、それらの出現回数からその区間の特徴ベクトルを構成する。この特徴ベクトルは、その区間における単語別の出現回数を成分とするベクトルであり、動画コンテンツに出現する単語の総数と等しい次元の空間(以下、特徴空間という。)に属するものとみなすことができる。区間分類部311は更に、異なる区間の間で特徴ベクトルの類似度を算定し、その類似度に基づいて、それらの区間を同じシーンに分類すべきか否かを判断する。具体的には、異なる区間の特徴ベクトル間でのコサイン距離が類似度として計算され、その類似度が許容下限以上であれば、それら異なる区間が同じシーンに分類される。こうして、区間分類部311は基本的には、1つの動画コンテンツの中で隣接する区間の対の全てについて、それらの対を同じシーンに分類すべきか否かを判断する。その結果、その動画コンテンツから複数のシーンが構成される。ここで、2つの特徴ベクトル間のコサイン距離が最大値1に近いほど、それら2つの特徴ベクトルは向きが近い。従って、各シーンでは基本的に、隣接する区間の対のそれぞれで特徴ベクトルがほぼ同じ向きに揃っている。すなわち、シーンの違いが、それらの間での音声又は字幕の特徴の違いを的確に反映している。
その後、区間分類部311は、各動画コンテンツ内の各シーンの表示期間と、そのシーンが表す音声又は字幕における単語別の出現回数との組み合わせから、その動画コンテンツに関するシーン情報を作成する。すなわち、シーン情報は、各シーンの表示期間の開始時刻と終了時刻、及び、そのシーンにおける特徴ベクトルの合成を表す。区間分類部311は記憶部インタフェース205を利用して、各動画コンテンツに関するシーン情報を動画データベース301に登録する。
ユーザ識別部314はネットワーク・インタフェース204を利用して、外部のクライアントCLTからNAS120宛に送られた動画コンテンツの一覧のダウンロード要求を検出する。ユーザ識別部314はその検出に応じてそのクライアントCLTの認証を行い、その認証に成功した場合、そのクライアントCLTにユーザの識別情報を要求する。その後、そのクライアントCLTからユーザの識別情報が届いた場合、ユーザ識別部314はユーザの認証を行う。更にその認証に成功した場合、ユーザ識別部314はそのクライアントCLTとユーザとの識別情報をダイジェスト抽出部312へ渡す。
ダイジェスト抽出部312はユーザ識別部314からクライアントCLTとユーザとの識別情報を受信し、それに応じて記憶部インタフェース205を用い、まず、そのユーザに関する基準単語表を関心情報データベース302から検索する。ダイジェスト抽出部312は次に、動画データベース301に登録されている動画コンテンツの中から、受信された識別情報が示すクライアントCLTによって表示可能なものを選択し、それらに関するシーン情報を動画データベース301から検索する。例えば、クライアントCLTの識別情報が表示装置140を示す場合にはフルHD(解像度1920×1080)の動画コンテンツが選択され、スマートフォン160を示す場合にはqHD(解像度960×540)又はHD(解像度1280×720)の動画コンテンツが選択される。また、クライアントCLTの識別情報が3D映像対応の表示装置を示す場合には3D映像の動画コンテンツが選択され、3D映像非対応の表示装置を示す場合には2D映像の動画コンテンツが選択される。各クライアントCLTによって表示可能な動画コンテンツの種類の一覧は、ダイジェスト抽出部312又は動画データベース301に予め保存されている。その他に、動画データベース301に、動画コンテンツと共に、それを表示可能なクライアントCLTの一覧が登録されていてもよい。ダイジェスト抽出部312はそれらの一覧を動画コンテンツの選択に利用する。
ダイジェスト抽出部312は続いて、各動画コンテンツに関するシーン情報から、各シーンが表す音声又は字幕に出現する単語を抽出し、基準単語表に登録されている単語と照合する。それにより、ダイジェスト抽出部312は、各シーンが表す音声又は字幕に出現する単語の集合と基準の単語の集合との共通部分に属する単語の数を求め、そのシーンに関する両集合間の類似性の評価値をその単語の数に設定する。ダイジェスト抽出部312は更に、各シーンに関する評価値を上記の閾値と比較し、評価値がその閾値以上であるシーンを特定する。ダイジェスト抽出部312はその後、ハードウェア・デコーダ203を用いて動画データベース301から各動画コンテンツを読み出し、特定されたシーンをその動画コンテンツから抽出して復号する。ダイジェスト抽出部312は、1つの動画コンテンツから複数のシーンを抽出した場合、それらのシーンを1つのダイジェストに連結する。こうして、ダイジェスト抽出部312は、動画データベース301に登録されている各動画コンテンツから1つのダイジェストを生成してダイジェスト提示部313へ渡す。
ダイジェスト抽出部312はまた、各ダイジェストの最高評価値と最頻出単語とをクライアントCLTの識別情報と共にダイジェスト提示部313へ通知する。ここで、各ダイジェストの「最高評価値」とは、そのダイジェストを構成するシーンの間で最も高い類似性の評価値をいい、「最頻出単語」とは、類似性の評価値が最高評価値に等しいシーンが表す音声又は字幕に出現する単語の集合と基準の単語の集合との共通部分に属する単語の中で、その音声又は字幕に最も多く出現するものをいう。
ダイジェスト提示部313はダイジェスト抽出部312から、ダイジェスト、最高評価値、及び最頻出単語を受信し、それらのデータから動画コンテンツの一覧情報を作成する。具体的には、ダイジェスト提示部313はそれらのダイジェストを符号化し、それらの符号化データに、最高評価値、最頻出単語、及び動画コンテンツの識別情報を所定の形式で組み込み、それにより得られたデータをその一覧情報として定める。ここで、その所定の形式は、ユーザ識別部314によって検出されたダウンロード要求の送信元、すなわち、ダイジェスト抽出部312から受信した識別情報の示すクライアントCLTがその一覧情報から、符号化データと、それに組み込まれるパラメータとの間の対応関係を把握できるように選択される。例えばユーザ識別部314がそのクライアントCLTに、そのダウンロード要求そのもの、又はその要求を送信する際のプロトコルを通じて、その所定の形式とダイジェストの符号化形式とを指定させ、指定された形式を示すデータをそのクライアントCLTの識別情報に組み込む。ダイジェスト提示部313は一覧情報の作成に、そのデータが示す形式を採用する。ダイジェスト提示部313は更にネットワーク・インタフェース204を利用して、そのクライアントCLTへ一覧情報を送信する。
[区間分類部の詳細]
区間分類部311は上記のとおり、動画コンテンツが音声データ又は字幕データを含むことを利用して、その動画コンテンツからシーンを構成する。従って、区間分類部311の詳細を説明する前に、その処理対象である動画コンテンツのデータ構造を決めておく方が、区間分類部311の詳細を理解しやすいであろう。
−動画コンテンツのデータ構造−
動画コンテンツには、映像と音声とを表すストリーム・データが多重化されており、更に多くの場合、字幕を表すストリーム・データも多重化されている。図1に示されているシステム100は動画コンテンツの主な多重化形式に対応している。特に代表的な多重化形式としては、MPEG−2 トランスポート・ストリーム(TS)形式が挙げられる。例えば、現行のデジタル放送にはこの多重化形式が採用されている。以下に述べる区間分類部311の詳細についての説明では便宜上、動画コンテンツがこの多重化形式である場合を想定する。尚、その説明を、MPEG−2 プログラム・ストリーム形式等、他の多重化形式の動画コンテンツに当てはまるように変更することは、当業者であれば容易であろう。
図4は、MPEG−2 TS形式を採用した動画コンテンツのデータ構造を示す模式図である。MPEG−2 TS形式では通常、エレメンタリ・ストリームと呼ばれるストリーム・データが複数、多重化されて1つのストリーム・ファイルを構成する。図4を参照するに、この動画コンテンツ400には、ビデオ・ストリーム401、オーディオ・ストリーム402、プレゼンテーション・グラフィックス(PG)ストリーム403、及びテキスト字幕ストリーム804が多重化されている。ビデオ・ストリーム401は、映像を表すエレメンタリ・ストリームであり、MPEG−2、H.264/MPEG−4 AVC、又はSMPTE VC−1等の方式で圧縮されている。オーディオ・ストリーム402は、音声を表すエレメンタリ・ストリームであり、AC−3、ドルビー・デジタル・プラス(Dolby Digital Plus:「ドルビー・デジタル」は登録商標)、MLP(Meridian Lossless Packing:登録商標)、DTS(Digital Theater System:登録商標)、DTS−HD、又はリニアPCM(Pulse Code Modulation)等の方式で圧縮されている。PGストリーム403は、グラフィックス映像を表すエレメンタリ・ストリームである。そのグラフィックス映像は、グラフィックスによる字幕等、ビデオ・ストリーム401が表す映像に重ねて表示されるべきものである。テキスト字幕ストリーム404は、字幕をテキスト文字列で表すエレメンタリ・ストリームである。「テキスト文字列」は、字幕の各文字を特定の符号(キャラクタ・コード)で表したデータ列である。
ビデオ・ストリーム401はオーディオ・ストリーム402とPGストリーム403との組み合わせで1つのストリーム・ファイルを構成する。一方、テキスト字幕ストリーム404は単独で1つのストリーム・ファイルを構成する。一般に1つのストリーム・ファイルには、ビデオ・ストリーム以外のエレメンタリ・ストリームが種類ごとに最大32本まで多重化可能である。例えばオーディオ・ストリームとして、二カ国以上の言語を表すものが含まれていてもよく、主音声を表すものの他に、副音声を表すものが含まれていてもよい。
各エレメンタリ・ストリーム401、…、404には固有のパケット識別子(PID)が割り当てられている。例えば、ビデオ・ストリーム401、オーディオ・ストリーム402、PGストリーム403、及びテキスト字幕ストリーム404にはそれぞれ、PIDとして16進数値0x1011、0x1100−0x111Fのいずれか、0x1200−0x121Fのいずれか、及び0x1800が割り当てられている。
図4には更に、動画コンテンツ400内における各エレメンタリ・ストリーム401、402、403、404の配置が模式的に示されている。例えばビデオ・ストリーム401はまず、ピクチャ401Aごとに1つのPES(Packetized Elementary Stream)パケット411に格納される。各PESパケットのヘッダにはPTS(Presentation Time−Stamp)が格納される。PTSは、デコーダに対して、そのパケットに格納されたピクチャを復号後にフレーム・バッファへ書き込むべきタイミングを示すパラメータである。次に、各PESパケット411が一般に複数の部分に分割され、各部分が異なるTSパケット421に格納される。TSパケット421は188バイト長のパケットであり、先頭の4バイトにヘッダを含み、残りの184バイトにPESパケットの一部を含む。TSパケット421のヘッダには、そのパケットに格納されたビデオ・ストリーム401のPIDが格納される。同様に、オーディオ・ストリーム402、PGストリーム403、及びテキスト字幕ストリーム404がそれぞれ、適当なデータ単位でPESパケット412、413、414に格納され、各PESパケットが複数のTSパケット422、423、424に格納される。最後に、各エレメンタリ・ストリーム401、…、404から得られた複数のTSパケット421、…、424が一連のパケット列400に時分割で多重化される。
図4を更に参照するに、TSパケット列400は、エレメンタリ・ストリームを格納したTSパケット421、…、424以外にも、PAT(Program Association Table)431、PMT(Program Map Table)432、及びPCR(Program Clock Reference)433を格納したTSパケットを含む。PMT432は、一連のTSパケット列400が複数の動画コンテンツを含む場合に各動画コンテンツに1つずつ割り当てられ、その動画コンテンツを構成するエレメンタリ・ストリームのPIDとその属性情報との一覧、及びPCR433のPIDを示す。エレメンタリ・ストリームの属性情報には、例えば、そのエレメンタリ・ストリームの圧縮に利用されたコーデックの識別情報、及びフレーム・レートとアスペクト比とが含まれる。PAT431は、一連のTSパケット列400に含まれるPMT432それぞれのPIDを示す。PAT431自身のPIDは0である。PCR433は、デコーダに対してSTC(System Time Clock)の値を示すパラメータであり、単一のTSパケットに格納される。「STC」とは、デコーダが、PTSの示すタイミングの計測に利用するクロックをいう。PCR433は動画コンテンツのTSパケット列400の中に所定の時間間隔、例えば100m秒間隔で挿入される。デコーダはPCR433を検出する度にSTCの値を、そのPCR433が示す値に揃える。
図5は、テキスト字幕ストリームのデータ構造を示す模式図である。図5を参照するに、テキスト字幕ストリーム500はテキスト・データ・エントリ510の一次元配列を含む。各テキスト・データ・エントリ510はスタイル情報511とテキスト情報512との対から構成されている。テキスト情報512は、1枚のピクチャに重ねて表示されるべき字幕を表すテキスト文字列を示す。スタイル情報511は、そのテキスト文字列を文字列の映像データに変換する際に必要な情報を示す。具体的には、図5に示されているとおり、スタイル情報511は、PTS501、表示位置502、フォントID503、表示スタイル504、及びフォント・サイズ505を含む。PTS501は、デコーダに対し、テキスト文字列から変換した文字列の映像データをフレーム・バッファへ書き込むべきタイミングを示す。表示位置502は、その映像データが表す文字列が表示されるべき画面上の位置を示す。フォントID503は、そのテキスト文字列が文字列の映像データに変換される際に利用されるべきフォント・セットの識別情報を示す。表示スタイル504は、その映像データが表す文字列が画面に表示される際の字体を示す。フォント・サイズ505は、その文字列が画面に表示される際の大きさを示す。
−区間分類部の機能−
図6は、区間分類部311の機能ブロック図である。図6を参照するに、区間分類部311は、PIDフィルタ610、音声デコーダ620、テキスト字幕デコーダ630、音声認識部640、特徴ベクトル構成部650、及びシーン境界設定部660を含む。PIDフィルタ610と2種類のデコーダ620、630とはハードウェア・デコーダ203に実装され、他の機能部640、650、660はCPU201によってソフトウェア的に実現される。
PIDフィルタ610は動画データベース301から動画コンテンツのTSパケット列を読み出し、各TSパケットからPIDを検出する。それにより、まず、PID=0のTSパケットが集められ、それらからPAT431が復元される。PIDフィルタ610はそのPAT431からPMT432のPIDを読み出し、そのPIDをヘッダに含むTSパケットをTSパケット列から抽出して、それらからPMT432を復元する。PIDフィルタ610は続いて、そのPMT432からオーディオ・ストリームのPIDとテキスト字幕ストリームのPIDとを読み出し、各PIDをヘッダに含むTSパケットをTSパケット列から抽出して、そのPIDに対応するエレメンタリ・ストリームの復号に適したデコーダ620、630へ転送する。すなわち、PIDが0x1100−0x111FのいずれかであるTSパケットは音声デコーダ620へ転送され、PIDが0x1800であるTSパケットはテキスト字幕デコーダ630へ転送される。
音声デコーダ620は、図6に示されているように、トランスポート・ストリーム・バッファ(TB:Transport Stream Buffer)621、多重化バッファ(MB:Multiplexing Buffer)622、エレメンタリ・ストリーム・バッファ(EB:Elementary Stream Buffer)623、及び圧縮音声デコーダ(DEC)624を含む。TB621、MB622、及びEB623はいずれもバッファ・メモリであり、それぞれが、音声デコーダ620に内蔵されたメモリ素子の一領域を利用する。TB621は、PIDフィルタ610から受信されたTSパケットをそのまま蓄積する。MB622は、TB621に蓄積されたTSパケットからヘッダを除去し、残りのデータからPESパケットを復元して蓄積する。EB623は、MB622に蓄積されたPESパケットから圧縮音声データとそのPTSとを抽出して蓄積する。DEC624は、圧縮音声データの復号処理に特化したハードウェア・デコーダである。DEC624は、TSパケットからオーディオ・ストリームの圧縮符号化方式とその属性とを特定し、それらに合った方法で、MB622に蓄積された圧縮音声データを復号する。DEC624は更に、復号された非圧縮の音声データを、そのPTSと共に音声認識部640へ転送する。
音声認識部640は、音声デコーダ620から転送された非圧縮の音声データを解析して、それが示す音声に含まれる単語(ここでは自立語と付属語との両方である。)を認識する。具体的には音声認識部640は、非圧縮の音声データの示す音声の周波数スペクトルを調べ、その時間変化のパターンの中から「所定の音素列を示すパターンである」と統計学的に認められる部分を探す。この音素列は、特定の単語を表す音声を構成する。従って、その音素列を示すパターンが検出されれば、その音声データの示す音声がその特定の単語を含むとみなすことができる。音声認識部640は更に、認識された単語を表すテキスト・データをPTSと共に特徴ベクトル構成部650へ渡す。
テキスト字幕デコーダ630は、PIDフィルタ610から受信された各TSパケットからヘッダを除去し、残りのデータからテキスト・データ・エントリ510を復元する。テキスト字幕デコーダ630は更に、そのエントリ510内のスタイル情報511からPTSを読み出し、テキスト情報512からは、字幕を表すテキスト文字列を読み出して、そのPTSとテキスト文字列との対を特徴ベクトル構成部650へ渡す。
特徴ベクトル構成部650はまず、音声認識部640とテキスト字幕デコーダ630とのそれぞれから受信したPTSを利用して、それらと共に受信したテキスト・データのそれぞれが属する動画コンテンツの区間を特定する。特徴ベクトル構成部650は次に、動画コンテンツの各区間に属するテキスト・データが表す(自然言語の)文字列に対して形態素解析を行い、その文字列から自立語、特に名詞を「単語」として抽出する。それと同時に、特徴ベクトル構成部650は動画コンテンツの各区間における単語別の出現回数を求める。特徴ベクトル構成部650は続いて、それらの出現回数からその区間の特徴ベクトルを構成する。ここで、動画コンテンツのいずれの区間も少なくとも音声データは含む。従って、動画コンテンツのいずれの区間に対しても特徴ベクトルが構成される。特徴ベクトル構成部650は、動画コンテンツの全ての区間に対して特徴ベクトルを構成した後、各区間の特徴ベクトルを、その区間の境界のPTSと共にシーン境界設定部660へ渡す。
シーン境界設定部660は、異なる区間の間での特徴ベクトルの類似度として、それらの区間の特徴ベクトル間のコサイン距離を計算する能力を持つ。具体的には、j番目(文字jは1以上の整数である。)の区間の特徴ベクトルFV[j]=(w1[j], w2[j], …, wNwd[j])と(j+k)番目(文字kは1以上の整数である。)の区間の特徴ベクトルFV[j+k]=(w1[j+k], w2[j+k], …, wNwd[j+k])との間のコサイン距離が、両区間間での特徴ベクトルの類似度SML(j,j+k)として次式(1)で計算される:
Figure 2016035607
ここで、特徴空間の次元Nwdは、動画コンテンツに出現する単語の総数に等しい。また、各特徴ベクトルFV[j]、FV[j+k]のi番目(文字iは1以上定数Nwd以下の整数である。)の成分wi[j]、wi[j+k]は、動画コンテンツに出現するi番目の単語がj番目、(j+k)番目の各区間に出現する回数である。式(1)から明らかなとおり、類似度SML(j,j+k)は−1以上+1以下であり、最大値1に近いほど、2つの特徴ベクトルFV[j]、FV[j+k]は向きが近い。すなわち、j番目と(j+k)番目との区間では、音声又は字幕に出現する単語の分布パターンが似ている。その意味で、「類似度SML(j,j+k)が高いほど、両区間は特徴が似ている」と言える。
シーン境界設定部660は、異なる区間間での特徴ベクトルの類似度に基づいて、それらの区間を同じシーンに分類すべきか否かを判断する。具体的には、シーン境界設定部660は先頭の区間から順番に、その区間と次の区間との間で特徴ベクトルの類似度を算定して許容下限と比較する。その類似度が許容下限以上であれば、「それら2つの区間は特徴が十分に似ている」とみなせる。従って、その類似度が許容下限以上である場合には、シーン境界設定部660はそれら2つの区間を同じシーンに分類し、次の区間について以上の処理を繰り返す。
一方、j番目と(j+1)番目との区間間での特徴ベクトルの類似度が許容下限未満である場合、シーン境界設定部660は(j+2)番目の区間から順番に、(j+k)番目(k=2、3、4、…)とj番目との区間の間で特徴ベクトルの類似度を更に算定して許容下限と比較する。
整数kが2以上の定数GPを超える前に、更に算定された類似度が許容下限以上に達すれば、j番目の区間と音声又は字幕の特徴があまり似ていない区間は、(j+1)番目の区間から数えて、定数GPよりも少ない数k−1しか連続していないことがわかる。ここで、定数GPは、次の条件を満たすように予め設定されている:「直前の区間とは音声又は字幕の特徴が異なる区間が、定数GPよりも少ない数しか連続していなければ、その連続区間における特徴の変化は一時的なものに過ぎず、その連続区間の後、それ以前の区間と特徴が似た区間が再び連続することが十分に期待できる。」従って、シーン境界設定部660はj番目から(j+k)番目までの区間を同じシーンに分類し、(j+k)番目の区間から順番に、その区間と次の区間との間での特徴ベクトルの類似度と許容下限との比較を再開する。
整数kが2から定数GPまでのいずれの値であっても、更に算定された類似度が許容下限に満たなければ、j番目の区間と音声又は字幕の特徴があまり似ていない区間は、(j+1)番目の区間から数えて、少なくとも定数GPに等しい数、連続していることがわかる。その場合、「j番目以前の区間と(j+1)番目以降の区間とでは、音声又は字幕の特徴は本質的に異なる」という可能性が高い。従って、シーン境界設定部660はj番目と(j+1)番目との区間の間にシーンの境界を設定する。その後、シーン境界設定部660は(j+1)番目の区間から順番に、その区間と次の区間との間での特徴ベクトルの類似度と許容下限との比較を再開する。
以上の処理を、シーン境界設定部660は動画コンテンツの全ての区間について行う。その結果、その動画コンテンツから複数のシーンが構成される。各シーンでは特徴ベクトルがほぼ同じ向きに揃っており、その向きとは特徴ベクトルの向きが大きく異なる部分が含まれていたとしても、その部分は、定数GPよりも少ない数の区間全体の長さしか連続していない。一方、異なるシーンの間では特徴ベクトルの向きが大きく異なる。このように、シーンの違いが、それらの間での音声又は字幕の特徴の違いを的確に反映している。
各動画コンテンツから複数のシーンを構成した後、シーン境界設定部660は、各シーンの表示期間と、そのシーンが表す音声又は字幕における単語別の出現回数とから、その動画コンテンツに関するシーン情報を作成する。具体的には、シーン境界設定部660は、特徴ベクトル構成部650から受信した各区間の境界のPTSに基づいて、各シーンの表示期間の開始時刻と終了時刻とのそれぞれを表すPTSを求め、かつ、そのシーンに含まれる区間全体で特徴ベクトルの合成を求め、得られた値をシーン情報に組み込む。その後、シーン境界設定部660は各動画コンテンツに関するシーン情報を動画データベース301に登録する。
−区間分類部の動作−
図7は、区間分類部311による処理のフローチャートである。この処理は、動画管理部303が動画データベース301に新たな動画コンテンツを登録した時点に開始される。
ステップS701では、区間分類部311が新たな動画コンテンツを処理対象に選択し、そのTSパケット列を動画データベース301からPIDフィルタ610へ転送する。PIDフィルタ610はそのTSパケット列から、まずPATを検出し、それが示すPIDを利用して、次にPMTを検出する。区間分類部311は、PMTの示すPIDの一覧にテキスト字幕ストリームのPID=0x1800が有るか否かを判断する。もし有れば処理はステップS702へ進み、無ければ処理はステップS704へ進む。
ステップS702では、PIDフィルタ610が処理対象のTSパケット列からテキスト字幕ストリームのTSパケットを抽出して、それらのTSパケットをテキスト字幕デコーダ630へ送る。テキスト字幕デコーダ630はそれらのTSパケットからテキスト・データ・エントリ510を復元し、その中からPTSとテキスト文字列とを読み出して特徴ベクトル構成部650へ渡す。その後、処理はステップS703へ進む。
ステップS703では、区間分類部311は、テキスト字幕デコーダ630によって読み出された一連のPTSの中から不連続な部分を探すことにより、処理対象の動画コンテンツの中から、字幕を含まない区間を探す。その区間が検出されれば処理はステップS704へ進み、検出されなければ処理はステップS706へ進む。
ステップS704では、処理対象の動画コンテンツの少なくとも一部の区間が字幕を含まない。従って、区間分類部311はPIDフィルタ610に、処理対象のTSパケット列の中からオーディオ・ストリームのTSパケットを抽出させる。それらのTSパケットはPIDフィルタ610から音声デコーダ620へ送られる。音声デコーダ620はまず、それらのTSパケットから圧縮音声データとそのPTSとを復元する。音声デコーダ620は次に、復元されたPTSを利用して、圧縮音声データのうち、少なくとも、字幕を含まない区間に属するものを復号する。復号された非圧縮の音声データはそのPTSと共に音声認識部640へ転送される。その後、処理はステップS705へ進む。
ステップS705では、音声認識部640が、非圧縮の音声データが表す音声に含まれる単語を認識する。音声認識部640は更に、認識された単語を表すテキスト・データをPTSと共に特徴ベクトル構成部650へ渡す。こうして、処理対象の動画コンテンツのうち、字幕を含まない区間については音声データがテキスト化される。その後、処理はステップS706へ進む。
ステップS706では、特徴ベクトル構成部650がPTSを利用してテキスト・データを動画コンテンツの区間別に分ける。その後、処理はステップS707へ進む。ここで、テキスト・データを区間別に分ける処理は、具体的には次のように実行される。
音声については、特徴ベクトル構成部650はまず、ステップS703で特定された「字幕を含まない区間」の表示期間において、ステップS705で各単語として認識された音素列が出現する時間的な位置をSTCの値で表す。特徴ベクトル構成部650は次に、そのSTCの値と、各区間の表示期間間の境界を表すPTSとを比較することにより、その単語を表すテキスト・データの所属先の区間を特定する。
字幕については、特徴ベクトル構成部650はまず、各テキスト文字列が表す字幕の表示期間を、そのテキスト文字列と同じテキスト・データ・エントリ510に含まれていたPTSから割り出す。特徴ベクトル構成部650は次に、先頭のテキスト文字列から順番に、連続するテキスト文字列のそれぞれが表す字幕の表示期間の長さを加算する。得られた和が1区間当たりの表示時間に達した場合、特徴ベクトル構成部650はそれら連続するテキスト文字列を1つに連結し、残りのテキスト文字列から分ける。以上の操作を残りのテキスト文字列の先頭から順に繰り返すことにより、特徴ベクトル構成部650は全てのテキスト文字列を区間別に分ける。
ステップS707では、特徴ベクトル構成部650は形態素解析を用いて、処理対象の動画コンテンツの各区間に属するテキスト・データが表す文字列から単語を抽出する。それと同時に、特徴ベクトル構成部650は各区間における単語別の出現回数を求める。その後、処理はステップS708へ進む。
ステップS708では、特徴ベクトル構成部650は処理対象の動画コンテンツの各区間の特徴ベクトルを、その区間における単語別の出現回数から構成する。いずれの区間も少なくとも音声データは含むので、全ての区間について特徴ベクトルが構成される。特徴ベクトル構成部650は各区間の特徴ベクトルを、その区間の境界のPTSと共にシーン境界設定部660へ渡す。その後、処理はステップS709へ進む。
ステップS709では、シーン境界設定部660がまず、式(1)を用いて、隣接する2つの区間間での特徴ベクトルの類似度SML(j,j+1)を計算する。シーン境界設定部660は次に、その類似度SML(j,j+1)を許容下限と比較し、その類似度SML(j,j+1)が許容下限以上である場合には、それら2つの区間を同じシーンに分類する。一方、その類似度SML(j,j+1)が許容下限未満である場合には、シーン境界設定部660は(j+2)番目の区間から順番に、その区間とj番目の区間との間での特徴ベクトルの類似度を更に算定して許容下限と比較することを繰り返す。j番目の区間との特徴ベクトルの類似度SML(j,・)が許容下限未満である区間が、(j+1)番目の区間から数えて、定数GPよりも少ない数しか連続していない場合、シーン境界設定部660はそれらの連続区間をj番目の区間と同じシーンに分類する。(j+1)番目から(j+GP)番目までのいずれの区間もj番目の区間との特徴ベクトルの類似度SML(j,・)が許容下限未満である場合、シーン境界設定部660はj番目と(j+1)番目との区間の間にシーンの境界を設定する。こうして、区間分類部311は処理対象の動画コンテンツから複数のシーンを構成して、処理を終える。
−音声に含まれる各単語の属する区間の特定−
図8は、区間分類部311がオーディオ・ストリームから単語を抽出する処理を示す模式図である。図8を参照するに、ビデオ・ストリームから再生されるフレーム列FRSの全体の表示期間は一定の時間間隔で動画コンテンツの各区間の表示期間SC1、SC2、…を含む。一方、オーディオ・ストリームの表す音声SNDはフレーム列FRSの再生に同期して再生され、一般には、隣接する区間の表示期間SC1、SC2の間の境界を跨いで連続して変化する。区間分類部311は、その音声SNDに含まれる各単語の音素列の時間的な位置をSTCの値WT1、WT2、…で表し、その値と、各区間の表示期間間の境界を表すPTSとを比較することにより、その単語の所属先の区間を特定する。図8の例では、単語「7時」、「ニュース」の音素列の先頭の位置を表すSTCの値WT1、WT2が、第1区間の表示期間SC1の開始時刻を表す第1PTSP0から、終了時刻を表す第2PTSP1までの範囲に属しているので、それらの単語が第1区間に分類される。単語「衆院」の音素列は第1区間の表示期間SC1と第2区間の表示期間SC2との間の境界を跨いでいるが、その先頭の位置を表すSTCの値WT5が第2PTSP1よりも小さいので、その単語「衆院」は第1区間に分類される。単語「本会議」の音素列の先頭の位置を表すSTCの値WT6は第2PTSP1よりも大きいので、その単語「本会議」は第2区間に分類される。
−字幕を表すテキスト文字列の連結−
図9は、図7に示されているステップS706において、字幕を表すテキスト文字列を動画コンテンツの区間ごとに連結する処理のフローチャートである。この処理は、特徴ベクトル構成部650がテキスト字幕デコーダ630からテキスト文字列を渡されることによって開始される。
ステップS901では、特徴ベクトル構成部650は整数値変数jの値を1に初期化する。その後、処理はステップS902へ進む。
ステップS902では、特徴ベクトル構成部650は、テキスト字幕デコーダ630から受信したテキスト文字列のうち、j番目のものに対する表示期間を、そのテキスト文字列と共に受信したPTSから割り出す。ここで、「テキスト文字列に対する表示期間」とは、そのテキスト文字列の表す字幕が画面に表示される期間をいい、具体的には、その期間の開始時刻と終了時刻とを表すPTSの対で定義される。j番目のテキスト文字列に対する表示期間を表すPTSの対は、変数DSPに代入される。その後、処理はステップS903へ進む。
ステップS903では、特徴ベクトル構成部650は、テキスト字幕デコーダ630から受信したテキスト文字列の中に(j+1)番目のものが有るか否かを確認する。もし有れば処理はステップS904へ進み、無ければ処理はステップS909へ進む。
ステップS904では、特徴ベクトル構成部650は表示期間DSPの長さを基準値と比較する。ここで、「表示期間DSPの長さ」とはその表示期間の開始時刻から終了時刻までの時間長をいい、具体的には、変数DSPが表す2つのPTSの間の差で定義される。また、基準値としては動画コンテンツの1区間当たりの表示時間、例えば30秒、1分、5分、又は10分が採用される。表示期間DSPの長さが基準値よりも小さい場合には処理はステップS905へ進み、基準値以上である場合には処理はステップS907へ進む。
ステップS905では、表示期間DSPの長さがまだ、動画コンテンツの1区間当たりの表示時間には達していないので、特徴ベクトル構成部650は、次のテキスト文字列に対する表示期間だけ表示期間DSPを延長することを試みる。その準備として、特徴ベクトル構成部650は整数値変数jの値を1だけ増やす。その後、処理はステップS906へ進む。
ステップS906では、特徴ベクトル構成部650はj番目のテキスト文字列に対する表示期間を、テキスト字幕デコーダ630から受信したPTSから割り出して、その表示期間だけ表示期間DSPを延長する。その後、処理はステップS903から繰り返される。
ステップS907では、表示期間DSPの長さが既に、動画コンテンツの1区間当たりの表示時間以上に達している。従って、特徴ベクトル構成部650はまず、その表示期間DSPに画面に表示される字幕を表すテキスト文字列を一連のテキスト・データとして連結する。特徴ベクトル構成部650は次に、その表示期間DSPに画面に表示される映像を表す部分を含む動画コンテンツの1区間を特定し、連結後のテキスト・データをその区間に分類する。その後、処理はステップS908へ進む。
ステップS908では、特徴ベクトル構成部650は整数値変数jの値を1だけ増やす。その後、処理はステップS902から繰り返される。
ステップS909では、テキスト字幕デコーダ630から特徴ベクトル構成部650へ受信したテキスト文字列のうち、最後のものに対する表示期間が表示期間DSPに含まれる。従って、特徴ベクトル構成部650はまず、その表示期間DSPに画面に表示される字幕を表すテキスト文字列を一連のテキスト・データとして連結する。特徴ベクトル構成部650は次に、その表示期間DSPに画面に表示される映像を表す部分を含む動画コンテンツの1区間を特定し、連結後のテキスト・データをその区間に分類する。こうして、全てのテキスト文字列が区間別に分けられる。その後、処理はステップS707へ進む。
図10は、特徴ベクトル構成部650がテキスト文字列から単語を抽出する処理を示す模式図である。図10の上部には、テキスト字幕ストリームの表す情報として、動画コンテンツの識別情報1001、各テキスト文字列に対する表示期間の開始時刻と終了時刻とを表すPTSの対、及びそのテキスト文字列が表す字幕が表示されている。特徴ベクトル構成部650はまず、各テキスト文字列が表す字幕の表示期間の長さを、その表示期間の開始時刻と終了時刻とを表すPTS間の差から求める。特徴ベクトル構成部650は次に、先頭のテキスト文字列から順番に、連続するテキスト文字列のそれぞれが表す字幕の表示期間の長さを変数DSPに加算する。図10の例では、開始時刻“00:48:48,119”から終了時刻“00:48:51,890”までの期間に表示されるべき字幕SB1の表示期間の長さが変数DSPに加算されると、その変数DSPの値が1区間当たりの表示時間=60秒を超える。従って、特徴ベクトル構成部650はその字幕SB1と、それ以前に表示される字幕とのそれぞれを表すテキスト文字列を1つに連結して1つの区間SC42に分類する。特徴ベクトル構成部650は更に、開始時刻“00:48:51,890”から表示されるべき字幕SB2を表すテキスト文字列を次の区間SC43に分類し、変数DSPの値をその字幕SB2の表示期間の長さにリセットする。その結果、終了時刻“00:48:51,890”に表示が終了されるべき字幕SB1以前の字幕に出現する単語「天気図」、「明日」、…、「間隔」、「北海道」は前の区間SC42に分類され、開始時刻“00:48:51,890”から表示が開始されるべき字幕SB2以降の字幕に出現する単語「明日」、「明け方」、…は次の区間SC43に分類される。
−動画コンテンツの各区間の特徴ベクトル−
図11の(a)は、特徴ベクトル構成部650が構成した特徴ベクトルに関する情報の一覧表である。図11の(a)を参照するに、その情報は、動画コンテンツの識別情報1101に、各区間の開始時刻と終了時刻とを表すPTSの対、及びその区間の特徴ベクトルを対応付けている。各区間の特徴ベクトルは、その区間が表す音声又は字幕における単語別の出現回数を成分とする。例えば、第1区間の特徴ベクトルは、単語「ニュース」、「温泉」、「天気」の各出現回数が“1”、“3”、“2”であることを示し、第2区間の特徴ベクトルは、単語「年金」、「厚生労働省」、「消費税」の各出現回数が“4”、“3”、“2”であることを示す。
図11の(b)は、特徴ベクトル構成部650が構成した特徴ベクトルを幾何学的に表す模式図である。図11の(b)を参照するに、この特徴ベクトルは幾何学的には、多次元の特徴空間の中で一方向に延びている。この特徴空間は、動画コンテンツに出現する単語の総数と次元が等しく、各次元の座標軸が1つの単語を表し、その軸における座標がその単語の出現回数を表す。図11の(b)には、(a)に示された第2区間の特徴ベクトルが示されている。各区間が表す音声又は字幕の特徴は、「その区間の特徴ベクトルが特徴空間のどの向きに、どれだけの長さで延びているか」で表現される。特定の区間の特徴ベクトルと向き及び長さが近い特徴ベクトルを持つ区間ほど、それが表す音声又は字幕の特徴が、その特定の区間が表すものに似ているとみなすことができる。このように、特徴ベクトルを用いれば、各区間が表す音声又は字幕の特徴を幾何学的に表現することができる。
−特徴ベクトルの類似度に基づくシーンの構成−
図12は、図7に示されているステップS709においてシーンを構成する処理のフローチャートである。この処理は、シーン境界設定部660が特徴ベクトル構成部650から各区間の特徴ベクトルを渡されることによって開始される。
ステップS1201では、シーン境界設定部660は整数値変数jの値を1に初期化する。その後、処理はステップS1202へ進む。
ステップS1202では、シーン境界設定部660は整数値変数kの値を1に初期化する。その後、処理はステップS1203へ進む。
ステップS1203では、シーン境界設定部660は、処理対象の動画コンテンツに(j+k)番目の区間が有るか否かを確認する。もし有れば処理はステップS1204へ進み、無ければ処理はステップS1211へ進む。
ステップS1204では、処理対象の動画コンテンツには、(j+k)番目の区間が有る。シーン境界設定部660は式(1)を用いて、j番目の区間の特徴ベクトルFV[j]と(j+k)番目の区間の特徴ベクトルFV[j+k]との間のコサイン距離、すなわち両区間間での特徴ベクトルの類似度SML(j,j+k)を算定する。その後、処理はステップS1205へ進む。
ステップS1205では、シーン境界設定部660はj番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)を許容下限と比較する。その類似度SML(j,j+k)が許容下限以上であれば処理はステップS1206へ進み、未満であれば処理はステップS1208へ進む。
ステップS1206では、j番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)が許容下限以上である。従って、シーン境界設定部660はj番目から(j+k)番目までの区間を同じシーンに分類する。その後、処理はステップS1207へ進む。
ステップS1207では、シーン境界設定部660は整数値変数jの値を変数kの値だけ増やす。その後、処理はステップS1202から繰り返される。それにより、ステップS1206で同じシーンに分類された区間の中で最後のものとその次の区間(もし有れば)との間で特徴ベクトルの類似度が算定され、許容下限と比較される。
ステップS1208では、j番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)が許容下限未満である。その場合、シーン境界設定部660は変数kの値を定数GPと比較する。変数kの値が定数GPよりも小さい場合、処理はステップS1209へ進み、定数GP異常である場合、処理はステップS1210へ進む。
ステップS1209では、j番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)が許容下限未満であり、かつ変数kの値が定数GPよりも小さい。従って、シーン境界設定部660は変数kの値を1だけ増やし、その後、処理をステップS1203から繰り返す。
ステップS1210では、j番目と(j+k)番目との区間間での特徴ベクトルの類似度SML(j,j+k)が許容下限未満であり、かつ変数kの値が定数GP以上である。その場合、j番目の区間と音声又は字幕の特徴があまり似ていない区間は、(j+1)番目の区間から数えて、少なくとも定数GPに等しい数、連続していることがわかる。従って、シーン境界設定部660はj番目と(j+1)番目との区間間にシーンの境界を設定する。その後、処理はステップS1211へ進む。
ステップS1211では、シーン境界設定部660は整数値変数jの値を1だけ増やす。その後、処理はステップS1202から繰り返される。それにより、音声又は字幕の特徴が直前の区間のものから大きく変化した区間から改めて、その区間とその次の区間(もし有れば)との間での特徴ベクトルの類似度と許容下限との間の比較が再開される。
ステップS1212では、処理対象の動画コンテンツに(j+k)番目の区間が無い。すなわち、(j+k−1)番目の区間がその動画コンテンツの最後の区間である。従って、シーン境界設定部660はj番目から(j+k−1)番目までの区間を同じシーン、すなわちその動画コンテンツの最後のシーンに分類する。その後、処理はステップS1212へ進む。
ステップS1213では、シーン境界設定部660がまず、特徴ベクトル構成部650から受信した各区間の境界のPTSに基づいて、各シーンの表示期間の開始時刻と終了時刻とのそれぞれを表すPTSを求める。シーン境界設定部660は次に、各シーンに含まれる区間全体で特徴ベクトルの合成を求める。こうして得られた、各シーンの表示期間を表すPTSの対と、そのシーンが表す音声又は字幕における単語別の出現回数とから、シーン境界設定部660は処理対象の動画コンテンツに関するシーン情報を作成して動画データベース301に登録する。その後、処理は終了する。
図13の(a)、(b)は、図12に示されている処理によるシーンの構成を示す模式図である。図13の(a)、(b)を参照するに、シーン境界設定部660は先頭の区間SC1から順番に、その区間SCj(j=1、2、3)と次の区間SC(j+1)との間で特徴ベクトルの類似度SML(j,j+1)、すなわち特徴ベクトルFV[j]、FV[j+1]間のコサイン距離を算定して許容下限Thと比較する。先頭の区間SC1と2番目の区間SC2との間の類似度SML(1,2)、及び2番目の区間SC2と3番目の区間SC3との間の類似度SML(2,3)がいずれも許容下限Th以上であるので、シーン境界設定部660は先頭の区間SC1から3番目の区間SC3までを第1シーンSN1に分類する。一方、3番目の区間SC3と4番目の区間SC4との間の類似度SML(3,4)は許容下限Th未満であるので、シーン境界設定部660は更に5番目の区間SC5から順番に、3番目の区間SC3との間の類似度SML(3,3+k)(k=2、3、…)を算定する。
図13の(a)では、3番目の区間SC3と5番目の区間SC5との間の類似度SML(3,5)は許容下限Th未満であるが、3番目の区間SC3と6番目の区間SC6との間の類似度SML(3,6)は許容下限Th以上である。ここで、定数GPが“4”である場合を想定すると、整数kが、定数GPよりも小さい“3”に達したときに、更に算定された類似度SML(3,6)が許容下限Th以上に達する。すなわち、3番目の区間SC3の特徴ベクトルFV3と向きが大きく異なる特徴ベクトルを持つ区間は、4番目の区間SC4から数えて、定数GPよりも少ない数k−1=2しか連続していない。従って、シーン境界設定部660は3番目の区間SC3から5番目の区間SC5までを同じシーンSN1に分類し、6番目の区間SC6から順番に、その区間と次の区間との間での特徴ベクトルの類似度と許容下限との比較を再開する。6番目の区間SC6と7番目の区間SC7との間の類似度SML(6,7)は許容下限Th以上であるので、シーン境界設定部660は6番目の区間SC6と7番目の区間SC7とを第2シーンSN2に分類する。
図13の(b)では、5番目の区間SC5から7番目の区間SC7までのいずれも、3番目の区間SC3との間の類似度SML(3,3+k)(k=2、3、4)が許容下限Th未満である。すなわち、3番目の区間SC3の特徴ベクトルFV3と向きが大きく異なる特徴ベクトルを持つ区間が、4番目の区間SC4から数えて、少なくとも定数GP=4に等しい数、連続している。従って、シーン境界設定部660は3番目の区間SC3と4番目の区間SC4との間にシーンの境界BNDを設定する。その後、シーン境界設定部660は4番目の区間SC4から順番に、その区間と次の区間との間での特徴ベクトルの類似度と許容下限との比較を再開する。4番目の区間SC4から7番目の区間SC7までは、隣接する区間間の類似度SML(j,j+1)(j=4、5、6、7)がいずれも許容下限Th以上であるので、シーン境界設定部660はそれらの区間SC4、…、SC7を第2シーンSN1に分類する。
図13の(c)は、シーン境界設定部660が作成したシーン情報を示す表である。図13の(c)を参照するに、シーン情報は、動画コンテンツの識別情報1301に、各シーンの表示期間の開始時刻と終了時刻とを表すPTSの対、及び、そのシーンに含まれる区間全体での特徴ベクトルの合成を対応付けている。この合成ベクトルは、そのシーンを構成する区間全体が表す音声又は字幕における単語別の出現回数を示す。すなわち、同じシーンに属する異なる区間に共通の単語が出現する場合、それらの区間でのその単語の出現回数の総和をその合成ベクトルは成分として含む。
[関心情報収集部の詳細]
−関心情報収集部の機能−
図14は、関心情報収集部315の機能ブロック図である。図14を参照するに、関心情報収集部315は、情報源監視部1401、関心情報取得部1402、文字情報解析部1403、AVデータ解析部1404、単語抽出部1405、及び基準単語表管理部1406を含む。AVデータ解析部1404は、デマルチプレクサ1441、音声デコーダ1442、字幕デコーダ1443、及び音声認識部1444を含む。デマルチプレクサ1441と2種類のデコーダ1442、1443とはハードウェア・デコーダ203に実装され、他の機能部1401、1402、1403、1444、1405、1406はCPU201によってソフトウェア的に実現される。
情報源監視部1401はネットワーク・インタフェース204を利用して、LANに接続されている関心情報源ITSを検出する。それにより、情報源監視部1401は、LANへ新たな関心情報源ITSが接続される度に、その関心情報源ITSに対して、各ユーザに関する関心情報を要求する。情報源監視部1401はまた、LANに既に接続されている関心情報源ITSに対しては定期的に、各ユーザに関する関心情報を要求する。情報源監視部1401はその他に、動画管理部303がクライアントCLTに動画コンテンツを動画データベース301からダウンロードさせる度に、動画管理部303に対して、そのクライアントCLTのユーザに関する関心情報を要求する。
関心情報取得部1402はネットワーク・インタフェース204を利用して、情報源監視部1401の要求に応じて関心情報源ITS及び動画管理部303から返信される関心情報の最新の履歴を取得する。取得される履歴には例えば、録画装置130等からの録画予約の履歴;表示装置140等からのインターネットでの検索履歴、Webページの閲覧履歴、及び放送番組の視聴履歴;並びに、動画管理部303からの動画コンテンツの視聴履歴がある。録画予約の履歴は、録画予約がされた放送番組の番組情報を含み、インターネットでの検索履歴は、検索された情報、又はその検索に用いられたキーワードを含み、Webページの閲覧履歴は、閲覧されたWebページを含み、放送番組の視聴履歴は、視聴された放送番組のタイトル、番組情報、音声データ、又は字幕データを含む。動画コンテンツの視聴履歴は、動画データベース301に登録されたその動画コンテンツのシーン情報を含む。関心情報取得部1402は更に、取得された関心情報を、文字情報、AVデータ、及びシーン情報に分別し、文字情報は文字情報解析部1403へ渡し、AVデータはAVデータ解析部1404へ渡し、シーン情報は基準単語表管理部1406へ渡す。一方、関心情報取得部1402は各関心情報から、その情報を視聴したユーザの識別情報と日時とを特定し、関心情報、ユーザ、及び視聴日時の間の対応関係を基準単語表管理部1406へ通知する。
文字情報解析部1403は、関心情報取得部1402から受信した文字情報を解析し、その情報からテキスト・データを抽出する。文字情報は例えば、放送番組のタイトルと番組情報、インターネットで検索された文書、その検索に用いられたキーワード、Webページを含む。文字情報解析部1403は更に、抽出されたテキスト・データを単語抽出部1405へ渡す。
AVデータ解析部1404は、関心情報取得部1402から受信したAVデータの中から音声データ又は字幕データを抽出する。例えばAVデータがMPEG−2 TS形式である場合、デマルチプレクサ1441、音声デコーダ1442、及び字幕デコーダ1443はそれぞれ、図6に示されているPIDフィルタ610、音声デコーダ620、及びテキスト字幕デコーダ630と同等である。デマルチプレクサ1441は、AVデータのヘッダ等に記載された情報に基づいて、そのAVデータから音声データ又は字幕データを抽出する。デマルチプレクサ1441は更に、音声データを音声デコーダ1442へ転送し、字幕データを字幕デコーダ1443へ転送する。音声デコーダ1442は、音声データのヘッダ等から圧縮符号化方式とその属性とを特定し、それらに合った方法で音声データを復号する。音声デコーダ1442は更に、復号された非圧縮の音声データを音声認識部1444へ転送する。字幕デコーダ1443は字幕データから、字幕の文字列を表すテキスト・データを復号して単語抽出部1405へ渡す。音声認識部1444は、図6に示されている音声認識部640と同様に、非圧縮の音声データを解析して、それが示す音声に含まれる単語を認識する。音声認識部1444は更に、認識された単語を表すテキスト・データを単語抽出部1405へ渡す。
単語抽出部1405は、文字情報解析部1403、音声認識部1444、及び字幕デコーダ1443のそれぞれから受信したテキスト・データが表す(自然言語の)文字列に対して形態素解析を行い、その文字列から自立語、特に名詞を「単語」として抽出する。それと同時に、単語抽出部1405は各テキスト・データにおける単語別の出現回数を求め、基準単語表管理部1406へ渡す。
基準単語表管理部1406は、単語抽出部1405から受信した単語別の出現回数と、関心情報取得部1402から通知された、関心情報、ユーザ、及び視聴日時の間の対応関係とに基づいて、関心情報から抽出された単語群をユーザ別に分類し、かつ各単語の出現日時を特定する。基準単語表管理部1406は続いて、それらの単語群と出現日時とを、関心情報データベース302に登録されている基準単語表のうち、対応するユーザに関するものに追記する。対応するユーザに関する基準単語表が未登録である場合、基準単語表管理部1406は、そのユーザに関する基準単語表を新たに作成して関心情報データベース302に登録する。
−関心情報収集部の動作−
図15は、関心情報収集部315による処理のフローチャートである。この処理は、NAS120がLANに接続された時点に開始される。
ステップS1501−S1504では、情報源監視部1401が電子機器によるLANへの接続を監視して、LANに接続されている関心情報源ITSを検出する。情報源監視部1401は更に、検出された関心情報源ITSに対して各ユーザに関する関心情報を要求する。その要求に応じて関心情報源ITSから返信される関心情報の最新の履歴を関心情報取得部1402が取得する。関心情報取得部1402は更に、取得された関心情報を文字情報とAVデータとに分別し、文字情報は文字情報解析部1403へ渡し、AVデータはAVデータ解析部1404へ渡す。関心情報取得部1402はまた、各関心情報から、その情報を視聴したユーザの識別情報と日時とを特定し、それらの間の対応関係を基準単語表管理部1406へ通知する。
ステップS1501では、LANに接続されている録画装置130又はPC150を情報源監視部1401が検出し、それらに対して各ユーザに関する関心情報を要求する。その要求に応じて録画装置130又はPC150から録画予約の最新の履歴が返信された場合、関心情報取得部1402がその履歴から、録画予約がされた放送番組の番組情報を読み取って文字情報解析部1403へ渡す。その後、処理はステップS1502へ進む。
ステップS1502では、LANに接続されている表示装置140、141、PC150、又はモバイル機器160を情報源監視部1401が検出し、それらに対して各ユーザに関する関心情報を要求する。それに応じて表示装置140等からインターネットでの最新の検索履歴が返信された場合、関心情報取得部1402はその履歴から、検索された情報、又はその検索に用いられたキーワードを読み取る。関心情報取得部1402は更に、検索された情報がAVデータを含む場合はそのAVデータをAVデータ解析部1403へ渡し、その他の場合は、検索された情報を文字情報解析部1403へ渡す。その後、処理はステップS1503へ進む。
ステップS1503では、LANに接続されている表示装置140、141、PC150、又はモバイル機器160を情報源監視部1401が検出し、それらに対して各ユーザに関する関心情報を要求する。それに応じて表示装置140等からWebページの最新の閲覧履歴が返信された場合、関心情報取得部1402はその履歴から、閲覧されたWebページを読み取る。関心情報取得部1402は更に、そのWebページがAVデータを含む場合はそのAVデータをAVデータ解析部1403へ渡し、その他の場合はそのWebページを文字情報解析部1403へ渡す。その後、処理はステップS1504へ進む。
ステップS1504では、LANに接続されている表示装置140、141、PC150、又はモバイル機器160を情報源監視部1401が検出し、それらに対して各ユーザに関する関心情報を要求する。それに応じて表示装置140等から放送番組の最近の視聴履歴が返信された場合、関心情報取得部1402はその履歴から、視聴された放送番組のタイトル、番組情報、音声データ、又は字幕データを読み取る。関心情報取得部1402は更に、その音声データ又は字幕データをAVデータ解析部1403へ渡し、その他の情報を文字情報解析部1403へ渡す。その後、処理はステップS1505へ進む。
ステップS1505では、動画データベース301からの動画コンテンツのダウンロードを情報源監視部1401が検出し、動画管理部303に対してダウンロード先のクライアントCLTのユーザに関する関心情報を要求する。それに応じて動画管理部303から動画コンテンツの最新の視聴履歴が返信された場合、関心情報取得部1402はその履歴からシーン情報を読み取って単語表管理部1406へ渡す。その後、処理はステップS1506へ進む。
ステップS1506では、基準単語表管理部1406が、単語別の出現回数と、関心情報、ユーザ、及び視聴日時の間の対応関係とに基づいて、関心情報から抽出された単語群と各単語の出現日時とを、関心情報データベース302に登録されている各ユーザに関する基準単語表に追記し、又は新たな基準単語表に記入する。その後、処理は終了する。
図16は、基準単語表管理部1406によって管理される基準単語表を示す表である。図16を参照するに、基準単語表は各ユーザの識別情報1401、1402に、そのユーザに関する関心情報から抽出された各単語、現在までに収集された関心情報におけるその単語の出現回数、及びその出現日時の一覧を対応付けている。
[ダイジェスト抽出部の詳細]
−ダイジェスト抽出部の機能−
図17は、ダイジェスト抽出部312の機能ブロック図である。図17を参照するに、ダイジェスト抽出部312は、類似性評価部1710、復号部1720、及びシーン連結部1730を含む。復号部1720は、MPEG−2 TS形式に対応したデコーダであり、PIDフィルタ1721、STCカウンタ1722、映像デコーダ1723、PGデコーダ1724、テキスト字幕デコーダ1725、音声デコーダ1726、映像プレーン・メモリ1727、PGプレーン・メモリ1728、音声ミキサ1729、及びプレーン加算部172Aを含む。類似性評価部1710とシーン連結部1730とはCPU201によってソフトウェア的に実現され、復号部1720はハードウェア・デコーダ203に実装される。
類似性評価部1710はユーザ識別部314からクライアントCLTとユーザとの識別情報を受信し、そのユーザの識別情報を利用してそのユーザに関する基準単語表を関心情報データベース302から検索する。一方、類似性評価部1710はそのクライアントCLTの識別情報を利用して、動画データベース301に登録された動画コンテンツの中から処理対象を選択し、その処理対象に関するシーン情報を動画データベース301から検索する。ここで、その処理対象は、そのクライアントCLTによって表示可能な動画コンテンツである。類似性評価部1710は続いて、検索されたシーン情報から、各シーンが表す音声又は字幕に出現する単語を抽出し、基準単語表に登録された基準の単語と照合する。それにより、類似性評価部1710は、各シーンが表す音声又は字幕に出現する単語の集合と基準の単語の集合との共通部分に属する単語の数を決定し、そのシーンに関する類似性の評価値をその単語の数に設定する。類似性評価部1710は更に、各シーンに関する評価値を上記の閾値と比較して、評価値がその閾値以上であるシーンを特定する。処理対象の動画コンテンツに含まれる全てのシーンに関する評価値を閾値と比較し終えた後、類似性評価部1710は、特定されたシーンそれぞれの表示期間を表すPTSの対をシーン情報から読み出して、その動画コンテンツの識別情報と共に復号部1720へ渡す。類似性評価部1710はまた、特定されたシーンに関する評価値の中から最高評価値を選択し、その最高評価値と評価値が等しいシーンにおける最頻出単語をシーン情報に基づいて決定し、その最高評価値と最頻出単語とをクライアントCLTの識別情報と共にダイジェスト提示部313へ通知する。
PIDフィルタ1721は、類似性評価部1710から受信した動画コンテンツの識別情報を用いて動画データベース301からその動画コンテンツのTSパケット列を検索し、図6に示されているもの610と同様に、それらのTSパケットをPID別に分別する。すなわち、PIDフィルタ1721はまず、PID=0のTSパケットからPAT431を復元し、次に、そのPAT431の示すPIDを利用してPMT432を復元する。PIDフィルタ1721は続いて、そのPMT432から各エレメンタリ・ストリームのPIDを読み出し、そのPIDを含むTSパケットを、そのエレメンタリ・ストリームの復号に適したデコーダ1723、1724、1725、1726へ転送する。具体的には、PIDが、0x1011、0x1100−0x111Fのいずれか、0x1200−0x121Fのいずれか、0x1400−0x141Fのいずれか、0x1800であるTSパケットはそれぞれ、映像デコーダ1723、音声デコーダ1726、PGデコーダ1724、及びテキスト字幕デコーダ1725へ転送される。PIDフィルタ1721はまた、PMT432の示すPCR433のPIDを利用してPCR433を検出し、その検出時にSTCカウンタ1722の値を、そのPCR433が示す値に揃える。
STCカウンタ1722は、27MHzクロックのパルスを数えるカウンタであり、そのカウント値が各デコーダ1723、…、1726によってSTCとして利用される。具体的には、各デコーダは、TSパケットからPESパケットを復元してそのヘッダからPTSを読み取り、そのPTSに従って、そのPESパケットの含むデータを復号すべきタイミングを決める。
映像デコーダ1723は、TB1701、MB1702、EB1703、圧縮映像デコーダ(DEC)1704、及び復号ピクチャ・バッファ(DPB:Decoded Picture Buffer)1705を含む。TB1701、MB1702、EB1703、及びDPB1705はいずれもバッファ・メモリであり、それぞれが、映像デコーダ1723に内蔵されたメモリ素子の一領域を利用する。TB1701はPIDフィルタ1721からのTSパケットをそのまま蓄積する。MB1702は、TB1701に蓄積されたTSパケットからヘッダを除去し、残りのデータからPESパケットを復元して蓄積する。EB1703は、MB1702に蓄積されたPESパケットから圧縮ピクチャとそのPTSとを抽出して格納する。DEC1704は、圧縮ピクチャの復号処理に特化したハードウェア・デコーダであり、特にその復号処理のアクセラレータ機能を備えている。DEC1704は、EB1703に蓄積された圧縮ピクチャのヘッダから圧縮符号化方式とその属性とを特定し、それらに合った方法でその圧縮ピクチャを復号する。DEC1704は更に、復号された非圧縮のピクチャをDPB1705へ転送する。DPB1705はその非圧縮のピクチャを一時的に保持し、DEC1704からの指示に応じて、保持しているピクチャを参照ピクチャとしてDEC1704へ提供する。DPB1705は更に、EB1703に蓄積されたPTSのうち、類似性評価部1710から受信したPTSの対の間にあるものを検索し、検索された各PTSが示すタイミングで、そのPTSに対応するピクチャを映像プレーン・メモリ1727へ書き込む。
PGデコーダ1724はまず、PIDフィルタ1721からTSパケットを受信して、それらからPESパケットを復元する。PGデコーダ1724は次に、そのPESパケットからグラフィックス・オブジェクトを復号すると共に、そのPESパケットからPTSを読み取る。PGデコーダ1724は更に、そのPTSが、類似性評価部1710から受信したPTSの対の間にある場合、そのPTSが示すタイミングでグラフィックス・オブジェクトをPGプレーン・メモリ1728へ書き込む。
テキスト字幕デコーダ1725は、テキスト・デコーダ(DEC)1708とビットマップ・バッファ1709とを含む。DEC1708は、テキスト文字列の復号処理とレンダリング処理とに特化したハードウェア・デコーダであり、特にそれらの処理のアクセラレータ機能を備えている。DEC1708はまず、PIDフィルタ1721から受信されたTSパケット群からテキスト・データ・エントリを復号し、そのスタイル情報の示すフォント・セットとPTSとを特定する。DEC1708は次に、そのフォント・セットを利用して、同じテキスト・データ・エントリ内のテキスト情報の示すテキスト文字列をビットマップ・データへ変換し、そのデータをビットマップ・バッファ1709へ書き込む。ビットマップ・バッファ1709は、テキスト字幕デコーダ1725に内蔵されたメモリ素子の一領域である。ビットマップ・バッファ1726は、DEC1708によって特定されたPTSが、類似性評価部1710から受信したPTSの対の間にある場合、そのPTSが示すタイミングでビットマップ・データをPGプレーン・メモリ1728へ転送する。
音声デコーダ1726は、図6に示されている音声デコーダ620と同様に、PIDフィルタ1721から受信されたTSパケット群を非圧縮の音声データに復号する。音声デコーダ1726は更に、その音声データの出力タイミングを示すPTSが、類似性評価部1710から受信したPTSの対の間にある場合、そのPTSが示すタイミングでその音声データを音声ミキサ1729へ渡す。
音声ミキサ1729は、音声デコーダ1726から受信される非圧縮の音声データに、主音声を表すものの他に、副音声を表すものが含まれている場合、それらの音声データを用いてミキシングを行う。音声ミキサ1729は更に、そのミキシングで得られた合成音のデータをシーン連結部1730へ渡す。
映像プレーン・メモリ1727とPGプレーン・メモリ1728とはいずれも、復号部1720に内蔵されたメモリ素子の一領域であり、少なくとも1フレームの画素データ、すなわちプレーン・データを格納可能である。「プレーン・データ」とは、画素データの2次元配列であり、その要素数が1フレームの解像度(例えば、HDでは1920×1080)に等しいものをいう。その配列の各要素、すなわち画素データは、色座標値とα値(不透明度)との組み合わせから成る。色座標値はRGB値又はYCrCb値で表される。映像プレーン・メモリ1727では、映像デコーダ1723が非圧縮のピクチャを書き込むことにより、映像プレーンが生成される。PGプレーン・メモリ1728では、PGデコーダ1724がグラフィックス・オブジェクトを書き込むことによってPGプレーンが生成され、テキスト字幕デコーダ1725がビットマップ・データを書き込むことによって字幕プレーンが生成される。PGプレーンと字幕プレーンとはいずれもグラフィックス・プレーンであり、グラフィックス映像を表す。
プレーン加算部172Aは、映像プレーン・メモリ1727とPGプレーン・メモリ1728とのそれぞれから、同じPTSが示すタイミングで書き込まれたプレーン・データを読み出し、それらを互いに重畳して1枚のビデオ・フレームに合成する。プレーン加算部172Aは更にそのフレームをシーン連結部1730へ渡す。
シーン連結部1730は、プレーン加算部172Aから受信したフレームを蓄積して一連のフレーム列を構成する。シーン連結部1730は更に、音声ミキサ1729から受信した音声データをそのフレーム列に多重化してダイジェストを構成する。こうして、復号部1720によって動画データベース301から読み出された動画コンテンツのうち、類似性評価部1710から復号部1720へ受信したPTSの対が示す表示期間の映像を表す部分、すなわち、類似性評価部1710によって特定されたシーンの1つからダイジェストが構成される。シーン連結部1730はその後、同じ動画コンテンツから別のシーンを抽出した場合、そのシーンをダイジェストに連結する。類似性評価部1710から復号部1720へ受信したPTSの対が示す動画コンテンツの部分の全て、すなわち、類似性評価部1710によって特定されたシーンの全てからダイジェストを構成し終えた後、シーン連結部1730はそのダイジェストをダイジェスト提示部313へ渡す。
−ダイジェスト抽出部とダイジェスト提示部との動作−
図18は、ダイジェスト抽出部312による処理のフローチャートである。この処理は、クライアントCLTから届いたユーザの識別情報をユーザ識別部314がダイジェスト抽出部312へ渡すことによって開始される。
ステップS1801では、類似性評価部1710が、ユーザ識別部314から受信したユーザの識別情報を利用してそのユーザに関する基準単語表を関心情報データベース302から検索する。その後、処理はステップS1802へ進む。
ステップS1802では、類似性評価部1710が、ユーザ識別部314から受信したクライアントCLTの識別情報を利用して、動画データベース301に登録されている動画コンテンツの中から、そのクライアントCLTによって表示可能なものを1つ、処理対象として選択する。類似性評価部1710は更に、その処理対象に関するシーン情報を動画データベース301から検索する。その後、処理はステップS1803へ進む。
ステップS1803では、類似性評価部1710が整数値変数jの値を1に初期化する。その後、処理はステップS1804へ進む。
ステップS1804では、ステップS1802で検索されたシーン情報から、j番目のシーンが表す音声又は字幕に出現する単語を類似性評価部1710が抽出する。類似性評価部1710は続いて、抽出された単語から成る集合を、ステップS1801で検索された基準単語表に登録された基準の単語の集合と照合する。それにより、類似性評価部1710は、両集合の共通部分に属する単語の数を求めて、両集合間の類似性の評価値をその単語の数に設定する。類似性評価部1710はまた、両集合の共通部分に属する単語の中から最頻出単語をシーン情報に基づいて決定する。その後、処理はステップS1805へ進む。
ステップS1805では、類似性評価部1710がj番目のシーンに関する類似性の評価値を上記の閾値と比較する。その評価値がその閾値以上である場合、処理はステップS1806へ進み、その閾値未満である場合、処理はステップS1807へ進む。
ステップS1806では、j番目のシーンに関する類似性の評価値が上記の閾値以上である。その場合、その閾値の定義から「j番目のシーンはユーザの嗜好に合う」とみなされる。類似性評価部1710は、j番目のシーンの表示期間を示すPTSの対を、ステップS1802で検索されたシーン情報から読み出して、j番目のシーンに関する類似性の評価値と、ステップS1804で決定された最頻出単語と共に記憶する。その後、処理はステップS1807へ進む。
ステップS1807では、類似性評価部1720は、ステップS1802で検索されたシーン情報に記載されたシーンの中に未処理のものが残っているか否かをチェックする。未処理のシーンが残っていれば、処理はステップS1808へ進み、残っていなければ、処理はステップS1809へ進む。
ステップS1808では、ステップS1802で検索されたシーン情報に記載されたシーンの中に未処理のものが残っている。従って、類似性評価部1710は未処理のシーンの1つを処理対象に設定することを目的として、整数値変数jの値を1だけ増やす。その後、処理はステップS1804から繰り返される。
ステップS1809では、ステップS1802で検索されたシーン情報に記載されたシーンの全てに対する処理が終わっている。従って、類似性評価部1710は、ステップS1806で記憶されたPTSの対を全て、ステップS1802で特定された動画コンテンツの識別情報と共に復号部1720へ渡す。類似性評価部1710は更に、ステップS1806で記憶された評価値の中から最高評価値を選択し、その最高評価値と共に記憶された最頻出単語を特定する。類似性評価部1710はその最高評価値と最頻出単語とを、ユーザ識別部314から受信したクライアントCLTの識別情報と共にダイジェスト提示部313へ通知する。
一方、復号部1720は、類似性評価部1710から受信した識別情報が示す動画コンテンツを動画データベース301から検索する。復号部1720は更に、検索された動画コンテンツの中から、類似性評価部1710から受信したPTSの対が示す表示期間の映像を表す部分、すなわち類似性評価部1710によって特定されたシーンを全て復号し、1つのダイジェストに連結する。こうして構成されたダイジェストを復号部1720はダイジェスト提示部313へ渡す。その後、処理はステップS1810へ進む。
ステップS1810では、動画データベース301に登録されている動画コンテンツの中に、クライアントCTLによって表示可能であるが、ダイジェストはまだ生成されていないものが残っているか否かを類似性評価部1710がチェックする。残っていれば、処理はステップS1802から繰り返され、残っていなければ、処理はステップS1811へ進む。
ステップS1811では、ダイジェスト提示部313が、ダイジェスト抽出部312から受信した各動画コンテンツのダイジェスト、及びそのダイジェストの最高評価値と最頻出単語にその動画コンテンツの識別情報を組み合わせて動画コンテンツの一覧情報を作成する。ダイジェスト提示部313は更にその一覧情報を、ダイジェスト抽出部312から受信した識別情報が示すクライアントCLTへ送信する。その後、処理は終了する。
[ダイジェストの表示方法]
ユーザがクライアントCLTの1つに対し、NAS120に保存されている動画コンテンツの一覧の表示を指示した場合、そのクライアントCLTはNAS120へ、その一覧のダウンロード要求を送信する。NAS120はその要求に応じて動画コンテンツの一覧情報を上記のように作成し、そのクライアントCLTへ返信する。そのクライアントCLTはその一覧情報を利用して、それに含まれるダイジェストを、以下のように画面に表示する。
図19の(a)は、図3に示されているクライアントの1つが視聴対象の動画コンテンツの選択画面に表示するダイジェストのレイアウトの一例を示す模式図である。図19の(a)を参照するに、クライアントCLTの画面SCNにはダイジェストDG1、DG2がそれぞれサムネイル表示されている。ダイジェストの表示領域はそれぞれサイズが等しく、マトリクス状に配置されている。そのマトリクスでは、表示領域の順序が最高評価値の大きさの順序を表す。例えば、画面の左上に表示されるダイジェストDG1は最高評価値が最も大きく、それよりも右又は下に遠く離れて表示されるダイジェストほど最高評価値が小さい。従って、画面の左上に表示領域が近いダイジェストほど、ユーザの嗜好に合う可能性が高い。更に各表示領域の下には、動画コンテンツのタイトルTTLに加えて最頻出単語MFWが表示されている。最頻出単語MFWは、そのダイジェストがどういう点でユーザの嗜好に合うのかをそのユーザが理解するためのヒントになり得る。このようにクライアントCLTはユーザに、視聴対象の動画コンテンツを選択する際に、ダイジェストDG1、DG2そのものだけでなく、それらの表示領域の位置と最頻出単語MFWとを判断材料として利用させることができる。
図19の(b)は、図3に示されているクライアントの1つが視聴対象の動画コンテンツの選択画面に表示するダイジェストのレイアウトの別例を示す模式図である。図19の(b)を参照するに、クライアントCLTの画面SCNにはダイジェストDG3、DG4がそれぞれ、サムネイル表示されている。但し、図19の(a)とは異なり、ダイジェストによって表示領域のサイズが異なる。これは、表示領域のサイズが最高評価値の大きさを表すことに起因する。例えば、表示領域のサイズが最も大きいダイジェストDG3は最高評価値が最も大きく、表示領域のサイズが小さいダイジェストほど最高評価値が小さい。従って、ユーザの目に付きやすいダイジェストほど、そのユーザの嗜好に合う可能性が高い。こうして、クライアントCLTはユーザに視聴対象の動画コンテンツを手早く選択させることができる。
《変形例》
(A)本発明の実施形態によるホーム・ビデオ・システムは、図1に示されている電子機器の他にも、光ディスクの再生専用機、プリンタ、スキャナ、コピー機、固定電話機等、多様な電子機器及び情報家電を含んでもよい。また、LANのトポロジーは、図1に示されているスター型の他に、ハブ又はLANスイッチを利用してバス型又は樹木型等、多様な型式であってもよい。更に、電子機器間での動画コンテンツの転送は、ネットワーク経由以外に、メモリカード等の可搬性記録媒体に記録された状態で行われてもよい。
(B)図3に示されているNAS120では、関心情報収集部315がLAN上の関心情報源ITSを検出し、それらに対して各ユーザに関する関心情報を要求する。その他に、関心情報源ITS又はルータ110が、ユーザによる情報の視聴に関するログを記録し、そのログを更新する度に、又は定期的に、そのログを関心情報収集部315へ送信してもよい。
(C)関心情報収集部315が収集する上記の関心情報は一例に過ぎない。ユーザが送受信したEメールとその添付ファイル、ユーザが作成/編集した文書/音声/映像ファイル、それらのファイルを管理するディレクトリに関する情報等、ユーザが視聴可能な情報、及びその情報に関連する情報は、関心情報収集部315が自動的に取得可能であり、かつ音声又は文字列を含んでいれば、関心情報として利用可能である。
(D)関心情報収集部315は、収集された関心情報の中から、所定の基準を満たすものを選択して基準単語表の作成に利用してもよい。例えば、視聴された時点が現時点から1週間若しくは1ヶ月等、所定の期間以内である情報、又は、視聴され、若しくは検索された回数が所定の閾値以上である情報が、実際の関心情報として採用される。
(E)図2に示されているダイジェスト生成装置200と外部インタフェース220とは、複数のLSI等の集積回路から構成されてもよい。更に、それらの集積回路がマルチチップ・モジュールであってもよい。その場合、マルチチップ・モジュールには複数のチップが1つのパッケージに封止されているので、それらの集積回路は単一のLSIに見える。その他に、ダイジェスト生成装置200が、製造後にプログラムが可能なFPGA(Field Programmable Gate Array)、又は、内部の回路セル間の接続及び設定を再構成可能なリコンフィギュラブル・プロセッサによって構成されてもよい。
(F)本発明の実施形態によるダイジェスト生成装置200は、NAS120以外にも、例えば録画装置130、表示装置140、PC150等、図2に示されているCPU201、メモリ部202等と同等なハードウェア構成を含む電子機器であれば搭載可能である。また、そのような電子機器であれば、図3に示されているダイジェスト生成装置200のいずれの機能部311、…、315も単独で実装可能である。従って、ダイジェスト生成装置200の機能部がLAN上の複数の電子機器に分散されてもよい。特にスマートフォン160のように、CPUパワーが比較的低く、又は記憶容量が比較的小さい電子機器であっても、ダイジェスト生成装置200の一部の機能を分担可能である。更にダイジェスト生成装置200が、インターネット等、WAN上のクラウド・サーバに搭載されてもよい。
(G)図2に示されているダイジェスト生成装置200は動画コンテンツの復号にハードウェア・デコーダ203を利用する。その他に、CPU201がアプリケーション・プログラムに従ってソフトウェア・デコーダを構築して、動画コンテンツの復号に利用してもよい。
(H)区間分類部311は動画コンテンツの各区間を、それの表す映像の表示時間が一定であるように定める。区間分類部311はその他に、音声又は字幕が連続する期間の映像を表す動画コンテンツの部分を1つの区間と定めてもよい。区間分類部311はまた、音声又は字幕に、「次は」及び「以上で」等、話題の変化を示す語句が出現する時点で動画コンテンツの区間を分けてもよい。
(I)区間分類部311は単語別の出現回数から特徴ベクトルを構成する。区間分類部311はその他に、TF−IDF(Term Frequency−Inverse Document Frequency)等に従って単語別の出現回数から単語別の出現頻度を算定し、それを成分とする特徴ベクトルを構成してもよい。区間分類部311はまた、出現回数又は出現頻度が所定の閾値を超え、又は下回る単語を特徴ベクトルの成分から除外してもよい。それにより、特徴空間の各次元に対応する単語を、動画コンテンツの特徴付けに適したものに制限することができる。
(J)区間分類部311は特徴ベクトルの類似度の算定に、式(1)の表すコサイン距離を利用する。区間分類部311はその他に、単語別の出現回数を成分とする特徴ベクトルを正規化によってノルム=1の特徴ベクトルに変換し、正規化後の特徴ベクトル間の内積を類似度として算定してもよい。
(K)区間分類部311は、動画コンテンツが表す音声又は字幕に出現する単語と特徴空間の次元とを1対1に対応させる。区間分類部311はその他に、それらの単語(例えば「首相」、「与党」、「法案」、「晴れ」、「雨」、「台風」)を所定数のカテゴリー(例えば「政治」、「天気」)に分類してカテゴリー別に単語の出現回数を加算し、得られたカテゴリー別の出現回数又は出現頻度を特徴ベクトルの成分としてもよい。その場合、特徴空間の次元がカテゴリーの総数に抑えられるので、区間分類部311の負荷が軽減される。
(L)図3に示されているダイジェスト抽出部312、ユーザ識別部314、及びクライアントCLTの間でのデータ交換におけるプロトコルは上記のものには限られず、他の様々な形態が利用可能である。例えば、クライアントCLT又はユーザの認証が省略されてもよく、また、動画コンテンツの一覧情報を暗号化して伝送するプロセスが追加されてもよい。
(M)ダイジェスト抽出部312は、1つのシーンが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を、両集合の共通部分に属する単語の数で評価する。その場合、ダイジェスト抽出部312は基準の単語に対し、関心情報におけるその単語の出現回数に応じた重み付けをしてもよい。それにより、重みの高い基準の単語に一致する単語が音声又は字幕に多く出現するシーンほど、類似性が高く評価される。
(N)ダイジェスト抽出部312は形態素解析により、テキスト・データの表す文字列から名詞を「単語」として抽出する。その他に、動詞、形容詞、形容動詞、又は副詞が「単語」として抽出されてもよい。
(O)図1に示されているシステム100内の表示機器140等は、ダイジェスト生成装置200が生成するダイジェストを動画コンテンツの選択画面に利用する。その他に、表示装置140等がユーザに、動画コンテンツ本体に代えて、そのダイジェストを視聴させてもよい。例えば報道番組であれば、本来の放送時間よりも短い時間で、ユーザの嗜好に合うニュースのみをユーザに視聴させることができる。
《補足》
本発明は、上記の実施形態に基づき、下記のように特徴付けられてもよい。
区間分類部は、1つの動画コンテンツ内で隣接する2つの区間の間で特徴ベクトルの類似度を算定して許容下限と比較し、その類似度が許容下限以上であれば、それら2つの区間を同じグループに分類する。その場合、各シーンでは、隣接する区間の対のそれぞれで特徴ベクトルがほぼ同じ向きに揃う。すなわちシーンの違いが、それらの間での音声又は字幕の特徴の違いを的確に反映する。
区間分類部は、1つの動画コンテンツ内のj番目(文字jは1以上の整数を表す。)と(j+1)番目との区間の間での特徴ベクトルの類似度が許容下限未満である場合、(j+2)番目の区間から順番に、(j+k)番目(文字kは2以上定数GP以下の整数を表す。)とj番目との区間の間での特徴ベクトルの類似度を更に算定して許容下限と比較する。整数kが閾値GPを超える前に、更に算定された類似度が許容下限以上に達すれば、区間分類部はj番目から(j+k)番目までの区間を同じグループに分類する。一方、整数kが2から定数GPまでのいずれの値であっても、更に算定された類似度が許容下限に満たなければ、区間分類部はj番目と(j+1)番目との区間を異なるグループに分類する。その結果、各シーンでは特徴ベクトルがほぼ同じ向きに揃い、その向きとは特徴ベクトルの向きが大きく異なる部分が含まれていたとしても、その部分は、定数GPよりも少ない数の区間全体の長さしか連続していない。一方、異なるシーンの間では特徴ベクトルの向きが大きく異なる。このように、シーンの違いが、それらの間での音声又は字幕の特徴の違いを更に的確に反映する。
ダイジェスト抽出部は、複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を、両集合の共通部分に属する単語の数で評価する。その数が多いほど、音声又は字幕の特徴が、基準の単語の集合で表現される特徴に合う可能性が高い。従って、ダイジェスト生成装置は動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に抽出することができる。
本発明によるダイジェスト生成装置は関心情報収集部を更に備えていてもよい。その関心情報収集部は、ユーザが外部装置を操作して視聴したコンテンツ、又はそのコンテンツに関する情報をそのユーザに関する関心情報としてその外部装置から取得し、その関心情報が表す音声又は文字列に含まれる単語の集合を基準の単語の集合として設定する。例えば、外部装置が、ユーザの操作に従って情報をネットワークで検索する装置である場合、その装置によって検索された情報、又は検索に用いられたキーワードが関心情報として利用可能である。外部装置が、ユーザにブラウザを操作させることによってWebページをネットワークからダウンロードする装置である場合、その装置によってダウンロードされたWebページが関心情報として利用可能である。外部装置が、ユーザの操作に従って放送番組を予約録画する装置である場合、その装置に録画予約がされた放送番組の番組情報が関心情報として利用可能である。外部装置が、ユーザの操作に従って動画コンテンツを画面に表示する装置である場合、その動画コンテンツのタイトル、番組情報、音声データ、又は字幕データが関心情報として利用可能である。それらの関心情報は、ユーザが視聴したコンテンツ又はそれに関する情報であるので、それが表す音声又は文字列に含まれる単語の集合はユーザの嗜好を適切に表現しているものとみなすことができる。従って、本発明によるダイジェスト生成装置はダイジェストを、ユーザの嗜好に合うものにすることができる。
本発明によるダイジェスト生成方法は、電子機器を用いて動画コンテンツからダイジェストを生成する方法であり、
1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成するステップ、
異なる区間の間での特徴ベクトルの類似度に基づいて前記複数の区間を複数のグループに分類するステップ、
前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価するステップ、及び、
評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するステップ、
を備えている。この方法は、動画コンテンツの区間をグループ分けする際、映像の特徴に代えて、音声又は字幕における単語別の出現回数を利用する。それにより、この方法は電子機器に各グループの特徴を自動的に、的確に、かつ迅速に分けさせることができる。更にこの方法は、ダイジェストとして抽出されるべきグループを、音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性に基づいて選択する。その結果、この方法は電子機器に動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成させることができる。
本発明によるダイジェスト生成プログラムは、電子機器に動画コンテンツからダイジェストを生成させるためのプログラムであり、
1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成するステップ、
異なる区間の間での特徴ベクトルの類似度に基づいて前記複数の区間を複数のグループに分類するステップ、
前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価するステップ、及び、
評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するステップ、
を前記電子機器に実行させる。このプログラムは電子機器に動画コンテンツの区間をグループ分けさせる際、映像の特徴に代えて、音声又は字幕における単語別の出現回数を利用させる。それにより、このプログラムは電子機器に各グループの特徴を自動的に、的確に、かつ迅速に分けさせることができる。更にこのプログラムは電子機器に、ダイジェストとして抽出されるべきグループを、音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性に基づいて選択させる。その結果、このプログラムは電子機器に動画コンテンツのダイジェストを自動的に、迅速に、かつ基準に対して的確に生成させることができる。
本発明は、動画コンテンツのダイジェストを電子機器に自動的に生成させる技術に関し、上記のとおり、電子機器に、動画コンテンツの表す音声又は字幕に出現する単語を認識させて、その出現回数をその動画コンテンツの区間のグループ分けに利用させる。このように、本発明は明らかに産業上利用可能である。
120 NAS
200 ダイジェスト生成装置
301 動画データベース
302 関心情報データベース
303 動画管理部
311 区間分類部
312 ダイジェスト抽出部
313 ダイジェスト提示部
314 ユーザ識別部
315 関心情報収集部
VSR 動画源
CLT クライアント
ITS 関心情報源

Claims (11)

  1. 動画コンテンツからダイジェストを生成するための装置であり、
    1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成し、異なる区間の間での特徴ベクトルの類似度に基づいて、前記複数の区間を複数のグループに分類する区間分類部、及び、
    前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価し、評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するダイジェスト抽出部、
    を備えたダイジェスト生成装置。
  2. 前記区間分類部は、前記1つの動画コンテンツ内で隣接する2つの区間の間で特徴ベクトルの類似度を算定して許容下限と比較し、当該類似度が前記許容下限以上であれば、前記2つの区間を同じグループに分類することを特徴とする、請求項1に記載のダイジェスト生成装置。
  3. 前記区間分類部は、
    前記1つの動画コンテンツ内のj番目(文字jは1以上の整数を表す。)と(j+1)番目との区間の間での特徴ベクトルの類似度が前記許容下限未満である場合、(j+2)番目の区間から順番に、(j+k)番目(文字kは2以上定数GP以下の整数を表す。)とj番目との区間の間での特徴ベクトルの類似度を更に算定して前記許容下限と比較し、
    整数kが閾値GPを超える前に、更に算定された類似度が前記許容下限以上に達すれば、j番目から(j+k)番目までの区間を同じグループに分類し、
    整数kが2から定数GPまでのいずれの値であっても、更に算定された類似度が前記許容下限に満たなければ、j番目と(j+1)番目との区間を異なるグループに分類する
    ことを特徴とする、請求項2に記載のダイジェスト生成装置。
  4. 前記ダイジェスト抽出部は、前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と前記基準の単語の集合との間の類似性を、両集合の共通部分に属する単語の数で評価することを特徴とする、請求項1に記載のダイジェスト生成装置。
  5. ユーザが外部装置を操作して視聴したコンテンツ、又は前記コンテンツに関する情報を前記ユーザに関する関心情報として前記外部装置から取得し、前記関心情報が表す音声又は文字列に含まれる単語の集合を前記基準の単語の集合として設定する関心情報収集部、
    を更に備えた、請求項1に記載のダイジェスト生成装置。
  6. 前記外部装置は、前記ユーザの操作に従って情報をネットワークで検索する装置であり、前記関心情報は、当該装置によって検索された情報、又は検索に用いられたキーワードであることを特徴とする、請求項5に記載のダイジェスト生成装置。
  7. 前記外部装置は、前記ユーザにブラウザを操作させることによってWebページをネットワークからダウンロードする装置であり、前記関心情報は、当該装置によってダウンロードされたWebページであることを特徴とする、請求項5に記載のダイジェスト生成装置。
  8. 前記外部装置は、前記ユーザの操作に従って放送番組を予約録画する装置であり、前記関心情報は、当該装置に録画予約がされた放送番組の番組情報であることを特徴とする、請求項5に記載のダイジェスト生成装置。
  9. 前記外部装置は、前記ユーザの操作に従って動画コンテンツを画面に表示する装置であり、前記関心情報は当該動画コンテンツのタイトル、番組情報、音声データ、又は字幕データであることを特徴とする、請求項5に記載のダイジェスト生成装置。
  10. 電子機器を用いて動画コンテンツからダイジェストを生成する方法であり、
    1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成するステップ、
    異なる区間の間での特徴ベクトルの類似度に基づいて前記複数の区間を複数のグループに分類するステップ、
    前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価するステップ、及び、
    評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するステップ、
    を備えたダイジェスト生成方法。
  11. 電子機器に動画コンテンツからダイジェストを生成させるためのプログラムであり、
    1つの動画コンテンツに含まれる複数の区間のそれぞれが表す音声又は字幕における単語別の出現回数から当該区間の特徴ベクトルを構成するステップ、
    異なる区間の間での特徴ベクトルの類似度に基づいて前記複数の区間を複数のグループに分類するステップ、
    前記複数のグループのそれぞれが表す音声又は字幕に出現する単語の集合と基準の単語の集合との間の類似性を評価するステップ、及び、
    評価された値が所定の閾値以上であるグループをダイジェストとして前記1つの動画コンテンツから抽出するステップ、
    を前記電子機器に実行させるためのダイジェスト生成プログラム。
JP2012284674A 2012-12-27 2012-12-27 ダイジェストを生成するための装置、方法、及びプログラム Pending JP2016035607A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012284674A JP2016035607A (ja) 2012-12-27 2012-12-27 ダイジェストを生成するための装置、方法、及びプログラム
PCT/JP2013/006415 WO2014103123A1 (ja) 2012-12-27 2013-10-30 ダイジェストを生成するための装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012284674A JP2016035607A (ja) 2012-12-27 2012-12-27 ダイジェストを生成するための装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2016035607A true JP2016035607A (ja) 2016-03-17

Family

ID=51020261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012284674A Pending JP2016035607A (ja) 2012-12-27 2012-12-27 ダイジェストを生成するための装置、方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2016035607A (ja)
WO (1) WO2014103123A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018121181A (ja) * 2017-01-24 2018-08-02 京セラドキュメントソリューションズ株式会社 編集装置及び編集プログラム
JP2019216355A (ja) * 2018-06-13 2019-12-19 Zホールディングス株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
WO2021221209A1 (ko) * 2020-04-29 2021-11-04 엠랩 주식회사 동영상 내부의 정보를 검색하는 방법 및 장치
JP2021193559A (ja) * 2020-06-05 2021-12-23 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ビデオ処理方法、装置、電子機器及び記憶媒体
WO2024034401A1 (ja) * 2022-08-10 2024-02-15 株式会社ユニゾンシステムズ 映像編集装置、映像編集プログラム、及び映像編集方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166604A (zh) * 2014-08-15 2014-11-26 小米科技有限责任公司 视频备份方法和装置
KR20170140808A (ko) * 2015-03-10 2017-12-21 에이심메트리카 랩스 인코퍼레이티드 단어 사이의 불확실성에 따른 단어 공백의 비대칭 포맷팅을 위한 시스템 및 방법
CN105740427B (zh) * 2016-01-29 2019-06-14 上海典爆信息科技有限公司 基于引擎的语言信息管理系统和方法
CN109992667B (zh) * 2019-03-26 2021-06-08 新华三大数据技术有限公司 一种文本分类方法以及装置
CN112445921A (zh) * 2019-08-28 2021-03-05 华为技术有限公司 摘要生成方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4881061B2 (ja) * 2006-05-15 2012-02-22 日本放送協会 コンテンツ受信装置およびコンテンツ受信プログラム
JP5238339B2 (ja) * 2008-04-24 2013-07-17 日本放送協会 デジタル放送用の受信装置及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018121181A (ja) * 2017-01-24 2018-08-02 京セラドキュメントソリューションズ株式会社 編集装置及び編集プログラム
JP2019216355A (ja) * 2018-06-13 2019-12-19 Zホールディングス株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7158902B2 (ja) 2018-06-13 2022-10-24 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
WO2021221209A1 (ko) * 2020-04-29 2021-11-04 엠랩 주식회사 동영상 내부의 정보를 검색하는 방법 및 장치
JP2021193559A (ja) * 2020-06-05 2021-12-23 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ビデオ処理方法、装置、電子機器及び記憶媒体
JP7263660B2 (ja) 2020-06-05 2023-04-25 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド ビデオ処理方法、装置、電子機器及び記憶媒体
US11800042B2 (en) 2020-06-05 2023-10-24 Baidu Online Network Technology (Beijing) Co., Ltd. Video processing method, electronic device and storage medium thereof
WO2024034401A1 (ja) * 2022-08-10 2024-02-15 株式会社ユニゾンシステムズ 映像編集装置、映像編集プログラム、及び映像編集方法

Also Published As

Publication number Publication date
WO2014103123A1 (ja) 2014-07-03

Similar Documents

Publication Publication Date Title
WO2014103123A1 (ja) ダイジェストを生成するための装置、方法、及びプログラム
US9372926B2 (en) Intelligent video summaries in information access
CA2924065C (en) Content based video content segmentation
EP2557782B1 (en) Server system for real-time moving image collection, recognition, classification, processing, and delivery
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
US7131059B2 (en) Scalably presenting a collection of media objects
CN107222795B (zh) 一种多特征融合的视频摘要生成方法
US10306287B2 (en) System and method for organizing multimedia content
JP6385447B2 (ja) 動画提供方法および動画提供システム
KR102199446B1 (ko) 영상 컨텐츠 검색을 지원하는 영상 서비스 장치 및 영상 컨텐츠 검색 지원 방법
Takahashi et al. Video summarization for large sports video archives
JP2011044140A (ja) 画像セットからの動画コンテンツの生成
JP2012114909A (ja) メディアデータを符号化および復号する方法およびシステム
KR101811468B1 (ko) 톱-k 처리를 이용한 의미 보강
KR20050099488A (ko) 비디오 및 메타데이터의 통합을 위한 비디오 멀티미디어응용 파일 형식의 인코딩/디코딩 방법 및 시스템
WO2006064877A1 (ja) コンテンツ推薦装置
KR101640317B1 (ko) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
KR101536930B1 (ko) 동영상을 요약하는 방법 및 동영상 요약기, 그리고 이를 이용한 동영상 만화 정보 서비스 방법
CN114845149A (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质
WO2014103374A1 (ja) 情報管理装置、サーバ及び制御方法
KR20090096158A (ko) 동영상 스틸컷 기반의 크로스미디어 검색 시스템 및 방법
KR20170045920A (ko) 자막 정보를 이용한 영상 콘텐츠의 대표 이미지 추출 장치 및 방법
WO2018042959A1 (ja) 動画データ解析装置及び動画データ解析方法
JP2010086615A (ja) 多重化装置およびプログラムおよび多重化方法
Gibbon et al. Large-Scale Analysis for Interactive Media Consumption