JP2013525916A

JP2013525916A - コンテンツ検出、検索、および、情報集約によるオンラインビデオの充実

Info

Publication number: JP2013525916A
Application number: JP2013507976A
Authority: JP
Inventors: メイタオ; ファシーアン−シェン; リーシペン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2010-04-26
Filing date: 2011-04-04
Publication date: 2013-06-20
Anticipated expiration: 2031-04-04
Also published as: WO2011139448A3; US20160358025A1; US20110264700A1; WO2011139448A2; CA2794680A1; CN102884538B; JP5781601B2; US9443147B2; CN102884538A; EP2564372A4; EP2564372A2

Abstract

多くのインターネットユーザは、オンラインビデオを通してコンテンツを視聴する。例えば、ユーザは、映画、テレビ番組、音楽ビデオ、および／または、ホームメイドビデオを視聴する場合がある。オンラインビデオを視聴しているユーザに追加情報を提供することは、有利であると思われる。残念なことに、現在の技術の多くでは、外部ソースからオンラインビデオに関する追加情報を提供できないと思われる。従って、オンラインビデオに関連する追加情報セットを決定するための１つまたは複数のシステムおよび／または技術を本明細書で開示する。詳細には、視覚的特徴、テキスト特徴、音声的特徴、および／または他の特徴を、オンラインビデオ（例えば、オンラインビデオのオリジナルコンテンツおよび／または埋め込み広告）から抽出してよい。抽出した特徴を用いることによって、抽出した特徴をデータベースのコンテンツとマッチさせて、追加情報（例えば、画像、広告）を決定してよい。追加情報は、オンラインビデオを視聴しているユーザに提示してよい。

Description

本発明は、オンラインビデオに関する追加情報セットを決定する方法、及び、システムに関する。

インターネットを閲覧するとき、ユーザは、オンラインビデオを通して様々なコンテンツと対話する。例えば、ユーザは、映画の全編、広告、携帯電話で撮ったホームビデオ、テレビ番組、および他のコンテンツを視聴する場合がある。ユーザは、ホストウェブサイトを通してオンラインビデオを視聴するだけではなく、オンラインビデオをアップロードして他のユーザと共有する場合もある。オンラインビデオは、ユーザのインターネット体験において不可欠な役割を果たすので、広告や関連するサービス（例えば、ニュース、天気、近くの交通情報など）の追加情報を、オンラインビデオに組み込んで、ユーザのインターネット体験を充実させてもよい。残念なことに、現在の技術においては、オンラインビデオのオリジナルコンテンツ、または、埋め込みコンテンツに無関係な追加情報が提供される場合がある。無関係な追加情報はユーザの興味をひかないので、ユーザはその情報を無視することが多い。

この概要は、概念の中から選ばれたものを簡略化した形で紹介するために提供され、発明を実施するための形態において以下でさらに説明する。この概要は、特許を請求する主題の主な要素や不可欠な特徴を特定するためのものではない。また、特許を請求する主題の範囲を限定するためのものでもない。

特に、本明細書では、オンラインビデオに関する追加情報セットを決定するための、１つまたは複数のシステムおよび／または技術を開示する。追加情報セットは、画像、テキスト、音声、ビデオなどの任意のデジタルコンテンツまたはそれらの組み合わせを含んでよいことは理解されよう。一例においては、追加情報セットは、ビデオ広告であってよい。別の例においては、追加情報セットは、ウェブページにリンクするＵＲＬを伴う画像のセットであってよい。

一実施形態において、オンラインビデオを受信してよい。オンラインビデオは、オリジナルコンテンツおよび／またはオーバーレイ広告などの埋め込みコンテンツを含んでよいことは理解されよう。オンラインビデオから特徴セットを抽出してよい。特徴セットは、テキスト特徴（例えば、埋め込みテキスト）、視覚的特徴（例えば、テクスチャ、ＳＩＦＴ記述子など）、音声的特徴、および／またはオンラインビデオの他の記述データを含んでよい。追加情報セットは、特徴セットに基づいて決められてよい。例えば、特徴セットを用いてデータベース（例えば、広告データベース）に対してマルチモーダル関連マッチングアルゴリズムを実行し、追加情報セットを決定してよい。一例においては、追加情報セットを、オンラインビデオを視聴しているユーザに提示してよい。別の例においては、追加情報セットを、後に利用するために保存してよい。

別の実施形態において、解析コンポーネントは、オンラインビデオを解析して、そのオンラインビデオのフレームシーケンスを含む１つまたは複数のセグメントに分けるように構成してよい。解析コンポーネントは、セグメントごとに、セグメントのフレームシーケンスを代表する１つまたは複数のキーフレームを抽出してよい。セグメント全体は不必要な量の情報を含んでいる場合があるので、セグメントを代表する１つまたは複数のキーフレームを抽出する。特徴抽出コンポーネントは、各セグメントの１つまたは複数のキーフレームから特徴セットを抽出するように構成してよい。特徴セットは、オンラインビデオに関するテキスト、視覚、音声および／または他の特徴を含んでよい。情報抽出コンポーネントは、特徴セットを用いてデータベースに対してマルチモーダル関連マッチングアルゴリズムを実行して、追加情報セットを決定するように構成してよい。提示コンポーネントは、追加情報セットを提示するように構成してよい。一例においては、追加情報セットは、オンラインビデオを提供しているブラウザ内に提示してよい。別の例においては、追加情報セットは、オンラインビデオにオーバーレイして提示してよい。別の例においては、追加情報セットは、オンラインビデオを提供しているメディアプレーヤのスキン内に提示してよい。様々な異なる提示モードは、特許を請求する主題の範囲に含まれるものとする。

前述および関連する目的を達成するために、下記の記載および添付の図面によって、一部の例示的態様および実装例を述べる。これらは、１つまたは複数の態様を採用する様々な方法の一部を示したものに過ぎない。この開示内容の他の態様、利点、および新規の特徴は、次の発明を実施するための形態を添付の図面と共に検討すると明らかになる。

オンラインビデオに関する追加情報セットを決定する例示の方法を示すフローチャートである。オンラインビデオに関する追加情報セットを決定するための例示のシステムを示すコンポーネントブロック図である。オンラインビデオに関する追加情報セットを決定するための例示のシステムを示すコンポーネントブロック図である。ウェブ閲覧環境内に提供されるオンラインビデオの視覚的特徴を検出する例を示す図である。オンラインビデオの視覚的特徴および／またはテキスト特徴を検出する例を示す図である。オンラインビデオから抽出した特徴セットに基づいて追加情報セットを決定する情報抽出コンポーネントの例を示す図である。オンラインビデオを視聴しているユーザに追加情報を提示する例を示す図である。オンラインビデオを視聴しているユーザに追加情報を提示する例を示す図である。オンラインビデオを視聴しているユーザに追加情報を提示する例を示す図である。本明細書に記載された規定の１つまたは複数を具現するように構成されたプロセッサ実行可能命令を含むことができる例示のコンピュータ可読媒体を示す図である。本明細書に記載の規定の１つまたは複数を実装してよい例示のコンピュータ環境を示す図である。

特許を請求する主題について図面を参照して記載している。図中、類似の参照番号は類似の要素を指す。下記に、特許を請求する主題を十分に理解してもらうために、説明目的で具体的な詳細を多く記載する。しかしながら、特許を請求する主題は、この具体的な詳細なしで実践してもよいことは明らかである。他の例においては、構造および装置は、特許を請求する主題の記載を容易にするために、ブロック図の形で表している。

今日、インターネットコンテンツのかなりの部分が、オンラインビデオの形式である。例えば、テレビ番組を、ユーザが視聴するオンラインビデオとして流すことができる。オンラインビデオと共に追加の関連情報を提供することは、有利であると思われる。例えば、ユーザが、車のプロモーションビデオを含むオンラインビデオを見ている場合、オンラインビデオのコンテンツが車に関すると判断すると有用であると思われる。検出した車という特徴を用いて、車に関する追加情報（例えば、車のウェブサイトへのＵＲＬ）をユーザに提供して、ユーザ体験を充実させてよい。

残念なことに、現在の技術では、オンラインビデオの特徴、および／または、オンラインビデオ内の埋め込みコンテンツの特徴を検出できない場合がある。さらに、現在の技術では、検出された埋め込みコンテンツの特徴を用いて、埋め込みコンテンツに関連する追加情報を求めて外部ソースを検索しないと思われる。すなわち、現在の技術では、オンラインビデオ、および／またはオンラインビデオ内の埋め込みコンテンツのコンテンツ製作者以外のソースが生成した追加情報を求めて、広告データベースなどの外部データベースを検索しないと思われる。

従って、オンラインビデオに関連する追加情報セットを決定するための１つまたは複数のシステムおよび／または技術を、本明細書において提供する。詳細には、オンラインビデオの特徴を、オリジナルコンテンツ、および／またはオンラインビデオの埋め込みコンテンツ（例えば、広告）から抽出してよい。特徴を広告データベースなどのデータベースに対する検索基準として用いて、オンラインビデオに関連する追加情報を決定してよい。ユーザは閲覧時間を使ってそのオンラインビデオを見ることを選択したのだから、ユーザはそのオンラインビデオのコンテンツに興味があると、理解してよい。このように、オンラインビデオおよび／またはユーザの興味に関連のある追加情報をユーザに提供することによって、ユーザ体験を充実させてよい。

オンラインビデオに関連する追加情報セットを決定する一実施形態を、例示の方法１００として、図１に示す。方法１００は、ステップ１０２から始まる。ステップ１０４において、オンラインビデオを受信してよい。オンラインビデオは、オリジナルコンテンツおよび／または、オーバーレイ広告などの追加の埋め込みコンテンツを含んでよい。オンラインビデオの受信は、オンラインビデオのコンテンツへのアクセスを得ること（例えば、ユーザがウェブブラウザまたはメディアプレーヤを用いてオンラインビデオを視聴しながら、オンラインビデオのリアルタイムデータストリームにアクセスすること、オンラインビデオのコピーを保存したものにアクセスすること、オンラインビデオを提供するソースにオンラインビデオをリクエストすること、オンラインビデオを表示するブラウザを通してオンラインビデオにアクセスすること）として、相互動作してよいことは、理解されよう。

ステップ１０６において、特徴セットをオンラインビデオから抽出してよい。特徴セットはテキスト特徴、視覚的特徴、および／または音声的特徴の少なくとも１つを含んでよい。一例においては、ＯＣＲテキスト認識技術などの１つまたは複数のテキスト特徴抽出技術を用いて、テキスト特徴（例えば、重ね合わせテキスト）を抽出してよい。別の例においては、スケール不変特徴変換などの１つまたは複数の視覚的特徴抽出技術によって、視覚的特徴（例えば、色ヒストグラム、テクスチャ、ＳＩＦＴ記述子）を抽出してよい。一例においては、複数の特徴を、特徴セット（例えば、特徴セットとして二つのテキスト特徴、特徴セットとして１つのテキスト特徴と二つの音声的特徴、１００の視覚的・テキスト特徴と３０のテキスト特徴、など）として抽出してよいことは、理解されよう。

ステップ１０８において、追加情報セットを特徴セットに基づいて決定してよい。一例においては、特徴セットを用いて、マルチモーダル関連マッチングアルゴリズムをデータベースに対して実行してよい。詳細には、マルチモーダル関連マッチングアルゴリズムは、特徴セット内の特徴と、データベース内の、広告、画像、ビデオなどの追加情報の特徴とをマッチさせてよい。例えば、特徴セットは、車の視覚的特徴と、「タイヤ」という単語のテキスト特徴を含んでよい。マルチモーダル関連マッチングアルゴリズムは、車の視覚的特徴および／またはタイヤというテキスト特徴と、車および／またはタイヤに関する画像、ビデオ、ウェブページＵＲＬ、および／または他のコンテンツとのマッチングを試みてよい。オンラインビデオに関連する追加情報セットは、マッチングされた内容に基づいて決定してよい。追加情報セットは、ディスプレイに提示してよい。例えば、追加情報セットは、オンラインビデオにオーバーレイされて、または、オンラインビデオ内に組み込まれて、提示されてよい。ステップ１１０において、方法１００は終了する。

オンラインビデオに関連する追加情報セットを決定する一実施形態を、図２に例示の方法２００で示す。方法２００は、ステップ２０２から始まる。ステップ２０４において、オンラインビデオを受信してよい。ステップ２０６において、オンラインビデオを解析して、フレームシーケンスを含む１つまたは複数のセグメントに分けてよい。オンラインビデオをセグメント化して解析し、特徴を特定し、抽出できる管理可能なセグメントにしてよい。セグメント化に役立つように、二つの連続したフレーム間の大きな視覚的相違に基づいて、境界を決定してよい。さらに、セグメントは、例えば、プロモーションコンテンツ（例えば、埋め込みプロモーションコンテンツ）またはプログラムコンテンツ（例えば、オンラインビデオのオリジナルコンテンツ）として設計してよい。

オンラインビデオから利用する情報の量をさらに減少させるために、ステップ２０８において、１つまたは複数のキーフレームをセグメント毎に抽出してよい。キーフレームは、セグメントのフレームシーケンスを代表するセグメント内のフレームであってよい。例えば、真ん中のフレーム、または、所定の閾値を超えるビデオ品質を有するフレームを、キーフレームとして選択してよい。キーフレームの選択によって、オンラインビデオから利用される不必要なデータおよび／または冗長データの量を減少させる。

ステップ２１０において、特徴セットを各セグメントの１つまたは複数のキーフレームから抽出してよい。一例においては、特徴セットは、１つまたは複数のテキスト特徴および／または１つまたは複数の視覚的特徴を含んでよい。ステップ２１２において、１つまたは複数のテキスト特徴を用いて、データベースに対してテキストベースの検索アルゴリズムを行って、候補追加情報の第１のリストを決定してよい。例えば、テキスト特徴をキーワードとして用いて、マッチするキーワードを含むコンテンツを探してデータベースを検索してよい。ステップ２１４において、１つまたは複数の視覚的特徴を用いて、データベースに対して視覚ベースの検索アルゴリズムを行い、候補追加情報の第２のリストを決定してよい。例えば、視覚的特徴を、マッチする視覚的特徴を含むデータベース内のコンテンツとマッチさせてよい。

ステップ２１６において、第１のリストおよび第２のリストの線形結合を行い、候補追加情報セットを生成してよい。例えば、候補追加情報セットは、オンラインビデオの特徴にマッチする画像、ＵＲＬ、ビデオ、広告、および／または他のコンテンツを含んでよい。追加情報セットとして、候補追加情報セットまたはその一部を用いてよいことは理解されよう。一例においては、追加情報セットとして、候補追加情報セットを用いてよい。別の例においては、候補追加情報セットから所定の数の候補を選択して、追加情報セットを生成してよい。候補追加情報セットは、追加情報として用いてよい大量のコンテンツを含む場合があるので、所定の数の候補コンテンツを選択してよい。すなわち、候補追加情報セットは、オンラインビデオより長いタイムフレームにわたる広告ビデオの組み合わせを含む場合がある。一例においては、オンラインビデオと関連性が高い１つまたは複数の候補を選択してよい。追加情報セットを集めてビデオにしてよく、そのビデオを、オンラインビデオを視聴しているユーザに提示してよい。ステップ２１８において、方法は終了する。

図３は、オンラインビデオ３０２に関連する追加情報セット３１４を決定するように構成されたシステム３００の例を示す。システム３００は、解析コンポーネント３０４、特徴抽出コンポーネント３０８、情報抽出コンポーネント３１２、および／または、提示コンポーネント３１６を含んでよい。システム３００は、データベース３２０を利用してよい。データベース３２０は、テキスト、ＵＲＬ、画像、ビデオ、音声、および／または他のデジタル形式等の形式のデジタルコンテンツ（追加情報の潜在的候補）（例えば、広告ビデオ、プロモーション画像またはテキスト、ウェブページにリンクするＵＲＬ、クーポンデータ、顧客の意見、非プロモーションコンテンツなど）を含んでよい。

解析コンポーネント３０４は、オンラインビデオ３０２を解析して、オンラインビデオ３０２のフレームシーケンスを含む１つまたは複数のセグメントに分けるように構成してよい。解析コンポーネント３０４は、１つまたは複数のセグメントからキーフレーム３０６を抽出するように構成してよい。詳細には、解析コンポーネント３０４は、セグメントのフレームシーケンスを代表する１つまたは複数のキーフレームを抽出してよい。

特徴抽出コンポーネント３０８は、キーフレーム３０６から特徴セット３１０を抽出するように構成してよい。特徴セット３１０は、テキスト特徴、視覚的特徴、および／または音声的特徴の少なくとも１つを含んでよい。一例においては、特徴抽出コンポーネント３０８は、テキスト認識コンポーネント、視覚認識コンポーネント、および／または音声認識コンポーネントを含んでよい。テキスト認識コンポーネントは、ＯＣＲテキスト認識技術および／または他のテキスト認識技術を用いて、１つまたは複数のテキスト特徴を抽出するように構成してよい。視覚認識コンポーネントは、スケール不変特徴変換および／または他の視覚認識技術を用いて、１つまたは複数の視覚的特徴を抽出するように構成してよい。音声認識コンポーネントは、１つまたは複数の音声認識技術を用いて、１つまたは複数の音声的特徴を抽出するように構成してよい。様々な異なる視覚、テキスト、および音声認識技術は、特許を請求する主題の範囲に含まれるものとする。

情報抽出コンポーネント３１２は、特徴セット３１０を用いてデータベース３２０に対してマルチモーダル関連マッチングアルゴリズムを実行し、追加情報セット３１４を決定するよう構成してよい。一例においては、マルチモーダル関連マッチングアルゴリズムは、テキスト特徴を用いてデータベース３２０に対してテキストベースの検索アルゴリズムを行って、第１のリストの候補追加情報を決定してよい。マルチモーダル関連マッチングアルゴリズムは、視覚的特徴を用いてデータベース３２０に対して、視覚ベースの検索アルゴリズムを行い、第２のリストの候補追加情報を決定してよい。マルチモーダル関連マッチングアルゴリズムは、第１のリストおよび第２のリストの線形結合を行って、追加情報セット３１４を生成してよい。情報抽出コンポーネント３１２は、追加情報セット３１４を集めてビデオにするように構成してよい。

一例においては、提示コンポーネント３１６は、追加情報セット３１４を提示するように構成してよい。別の例においては、提示コンポーネント３１６は、ウェブ閲覧環境３１８でオンラインビデオ３０２を視聴しているユーザにビデオを提示するように構成してよい。

図４は、ウェブ閲覧環境が提供するオンラインビデオ４０４の視覚的特徴を検出する例４００を示す。オンラインビデオ４０４は、ウェブブラウザ、ウェブブラウザのメディアプレーヤプラグイン、ウェブブラウザと別個のメディアプレーヤ、および／または他のオンラインビデオ再生装置によって表示されるウェブページ内に提供されてよいことは理解されよう。視覚的特徴は、オンラインビデオ４０４内で検出されてよい、および／または特徴セットの一部として抽出されてよい。例えば、雲４１２、太陽４１０、木４０２、車４０６、タイヤ４０８、および／または他の視覚的特徴は、検出および／または抽出されてよい。抽出された視覚的特徴に関する追加情報は、決定されてよい、および／または、オンラインビデオ４０４を視聴しているユーザに提示されてよい。一例においては、太陽４１０、雲４１２および／または木４０２に基づいて、休暇に関する追加情報を提示してよい。別の例においては、車４０６および／または木４０８に基づいて、車の評価に関する追加情報を提示してよい。このように、ユーザが興味を持つと思われる追加の関連情報をユーザに提示することができるので、ユーザ体験を充実させると思われる。

図５は、オンラインビデオ５０４の視覚的特徴および／またはテキスト特徴を検出する例５００を示す。視覚的特徴は、オンラインビデオ５０４内で検出してよく、および／または、特徴セットとして抽出してもよい。例えば、車５０８、タイヤ５１０および／または道５０２を、検出および／または抽出してよい。テキスト特徴は、オンラインビデオ５０４内で検出してよく、および／または、特徴セットの一部として抽出してよい。例えば、埋め込みテキスト５０６「自動車メーカーのウェブサイトを訪問して、新車に試乗・・・」またはその一部を、検出および／または抽出してよい。文字、単語、語句、文および／または他の単語の論理グループをテキスト特徴として検出してよいことは理解されよう。すなわち、埋め込みテキスト５０６を解析して、１つまたは複数の特徴（例えば、試乗、自動車メーカーなど）に分けてよい。視覚的特徴および／またはテキスト特徴を用いて、オンラインビデオ５０４を視聴しているユーザに追加情報を提示してよい。例えば、自動車メーカーが提供するウェブサイトへのＵＲＬの追加情報を、車５０８の視覚的特徴および／または自動車メーカーというテキスト特徴に基づいて提示してよい。

図６は、オンラインビデオから抽出した特徴セット６０４に基づいて追加情報セット６０８を決定する情報抽出コンポーネント６０２の例６００を示す。一例においては、情報抽出コンポーネント６０２は、視覚的特徴（車、木、太陽、雲、道など）、テキスト特徴（車、乗る、自動車メーカー、ウェブサイトなど）、音声的特徴（車のエンジン音、話し言葉など）、および／または他の特徴をオンラインビデオから抽出したと思われる。情報抽出コンポーネント６０２は、特徴セット６０４を用いて、データベース６０６から追加情報セット６０８を決定してよい。データベース６０６は、追加情報として決定され得る無数のコンテンツ（例えば、画像、ＵＲＬ、広告、ビデオ、音声）を含んでよいことは理解されよう。

データベース６０６内のコンテンツの中には、特徴セット６０４内の特徴の１つまたは複数とマッチするコンテンツ（例えば、追加情報セット６０８）もあれば、特徴セット６０４内の特徴とはマッチしないコンテンツ（例えば、関連性のないコンテンツ６１０）もあってよいことは理解されよう。このように、オンラインビデオに関連する追加情報（例えば、特徴セット６０４内の特徴とマッチするデータベース６０６内のコンテンツ）は、データベース６０６内で決定してよい。例えば、追加情報セット６０８は、車の画像、自動車メーカーのウェブサイトのＵＲＬ、休暇の広告、カーレースのビデオ、および／または特徴セット６０４にマッチする他のコンテンツを含んでよい。関連のないコンテンツ６１０は、特徴セット６０４には関連しないので、追加情報セット６０８から取り除いてよい。例えば、溝の取り付け方に関するテキスト記述は、車、木、雲、道などの視覚的特徴、および／または車、乗る、自動車メーカー、ウェブサイトなどのテキスト特徴には、マッチしないと思われる。

図７は、オンラインビデオ７０２を視聴しているユーザに追加情報７０４を提示する例７００を示す。一例においては、車に関連する特徴セットがオンラインビデオ７０２から抽出されたと思われる。車に関連する特徴セットを用いて、カーレースビデオの追加情報７０４を決定したと思われる。一例においては、追加情報７０４を、例えば、ウェブ閲覧環境内のビデオとしてユーザに提示してもよい。別の例においては、追加情報７０４は、ウェブ閲覧環境とは別個のメディアプレーヤ内のビデオとして提示してよい。様々な異なる提示モードは、特許を請求する主題の範囲内に含まれるものとする。

図８は、オンラインビデオを視聴しているユーザに追加情報８０２を提示する例８００を示す。一例においては、車に関連する特徴セットが、オンラインビデオから抽出されたと思われる。車に関連する特徴セットを用いて、カーレースビデオの追加情報８０２を決定したと思われる。一例においては、カーレースビデオの追加情報８０２をオンラインビデオにオーバーレイして提示してよい。

図９は、オンラインビデオ９０２を視聴しているユーザに追加情報９０４を提示する例９００を示す。一例においては、休暇に関連する特徴セットが、オンラインビデオ９０２から抽出されたと思われる。休暇に関連する特徴セットを用いて、休暇の広告の追加情報９０４（例えば、休暇に関する広告を提供するウェブサイトとＵＲＬを合わせた休暇の画像）を決定したと思われる。一例においては、休暇の広告の追加情報９０４は、オンラインビデオ９０２を視聴しているユーザに提示されてよい。このように、豊富な追加情報によってユーザ体験を充実させる。追加情報は、例えば、オンラインビデオ９０２のホストの外部のソースから集めてよい。

さらに別の実施形態は、本明細書に提示の技術の１つまたは複数を実施するように構成されたプロセッサ実行可能命令を含むコンピュータ可読媒体に関する。このようにして考案された例示のコンピュータ可読媒体を、図１０に示す。図１０において、実施形態１０００は、コンピュータ可読媒体１０１６（例えば、ＣＤ−Ｒ、ＤＶＤ−Ｒ、またはハードディスクドライブのプラッタ）を含み、その上にコンピュータ可読データ１０１４が符号化されている。このコンピュータ可読データ１０１４は、本明細書に記載の原理の１つまたは複数に従って動作するように構成されたコンピュータ命令セット１０１２を含む。このような実施形態１０００においては、プロセッサ実行可能コンピュータ命令１０１２は、例えば、図１の例示の方法１００および図２の例示の方法２００などの方法１０１０を実行するよう構成されてよい。別のこのような実施形態においては、プロセッサ実行可能命令１０１２を、例えば、図３の例示のシステム３００などのシステムを実装するように構成してよい。本明細書に提示の技術に従って動作するように構成された多くのこのようなコンピュータ可読媒体は、当業者が想到し得るものである。

発明の主題を、構造的特徴および／または方法論的行為に特有の言葉で記載したが、添付の請求項に規定する主題は、上記の具体的特徴または行為に必ずしも限定されないことは理解されたい。上記の具体的特徴または行為は、請求項を実施するための例示の形で開示したものである。

本願において、「コンポーネント」「モジュール」「システム」「インタフェース」などの用語は、一般的に、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、または、実行中のソフトウェアなどのコンピュータ関連の実体を指すものとする。例えば、コンポーネントは、プロセッサ上で実行するプロセス、プロセッサ、オブジェクト、実行ファイル、実行スレッド、プログラム、および／またはコンピュータであってよいが、これらに限られない。例を挙げると、制御装置上で実行するアプリケーションと制御装置は両方とも、コンポーネントであり得る。１つまたは複数のコンポーネントが、プロセスおよび／または実行スレッド内に常駐してよく、コンポーネントは、１つのコンピュータ上に存在してもよく、および／または、複数のコンピュータ間で分散されてもよい。

さらに、特許を請求する主題は、標準的なプログラミングおよび／またはエンジニアリング技術を用いて、コンピュータが開示の主題を実施するのを制御するソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせを生産するための方法、装置、または製品として実装される。本明細書で使用される「製品」という用語は、コンピュータ読み取り可能な任意の装置、搬送装置、または媒体からアクセス可能なコンピュータプログラムを包含するものとする。特許を請求する主題の範囲または精神を逸脱することなく、この構成に多くの変更を行ってよいことは、当業者には理解されよう。

図１１および下記は、本明細書に記載の規定の１つまたは複数の実施形態を行うのに適切なコンピュータ環境を簡単に、一般的に記載したものである。図１１の動作環境は、適切な動作環境のほんの一例であり、動作環境の使用および機能の範囲に関していかなる制限をも示唆するものではない。例示のコンピュータ装置は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、モバイル装置（携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、メディアプレーヤなど）、マルチプロセッサシステム、消費者家電、ミニコンピュータ、メインフレームコンピュータ、上記システムまたは装置の任意の物を含む分散コンピュータ環境などを含むが、これらに限定されない。

必須ではないが、実施形態は、１つまたは複数のコンピュータ装置が「コンピュータ可読命令」を実行しているという一般的な状況で記載されている。コンピュータ可読命令は、コンピュータ可読媒体を介して配信されてよい（下記に記載）。コンピュータ可読命令は、特定のタスクを実行し、特定の抽象データ型を実施する、機能、オブジェクト、ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅｓ）、データ構造などのプログラムモジュールとして実装されてよい。典型的には、コンピュータ可読命令の機能は、様々な環境において、要求通りに、組み合わせ、分散させてよい。

図１１は、本明細書に記載された１つまたは複数の実施形態を実施するように構成されたコンピュータ装置１１１２を備えるシステム１１１０の例を示す。一構成において、コンピュータ装置１１１２は、少なくとも１つの処理部１１１６とメモリ１１１８を含む。コンピュータ装置の具体的な構成および種類に応じて、メモリ１１１８は、揮発性（例えばＲＡＭなど）、不揮発性（例えば、ＲＯＭ、フラッシュメモリなど）、またはその二つの組み合わせであってよい。この構成については、図１１に点線１１１４で示す。

他の実施形態において、装置１１１２は、追加の特徴および／または機能を含んでよい。例えば、装置１１１２は、（例えば、取り外し可能、および／または取り外し不可能な）追加の記憶装置も含んでよい。追加の記憶装置は、磁気記憶装置、光学式記憶装置などを含むがそれらに限定されない。このような追加の記憶装置は、記憶装置１１２０として図１１に示されている。一実施形態においては、本明細書に記載の１つまたは複数の実施形態を実施するためのコンピュータ可読命令は、記憶装置１１２０に記憶されてよい。記憶装置１１２０は、オペレーティングシステム、アプリケーションプログラムなどを実施するための他のコンピュータ可読命令も記憶してよい。コンピュータ可読命令は、例えば、処理部１１１６が実行するために、メモリ１１１８にロードされてよい。

本明細書で用いられる「コンピュータ可読媒体」という用語は、コンピュータ記憶媒体を含む。コンピュータ記憶媒体は、コンピュータ可読命令または他のデータなどの情報を記憶するための任意の方法または技術で実装される、揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。メモリ１１１８および記憶装置１１２０は、コンピュータ記憶媒体の例である。コンピュータ記憶媒体は、所望の情報を記憶するのに使用することができ、かつ、装置１１１２がアクセス可能な、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光学式記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または他の任意の媒体を含むが、これらに限定されない。任意のこのようなコンピュータ記憶媒体は、装置１１１２の一部であってよい。

装置１１１２は、装置１１１２が他の装置と通信できるようにする通信接続１１２６（単数または複数）も含んでよい。通信接続１１２６（単数または複数）は、コンピュータ装置１１１２を他のコンピュータ装置に接続するための、モデム、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）、統合ネットワークインタフェース、無線周波数送信機／受信機、赤外線ポート、ＵＳＢ接続、または他のインタフェースを含むが、これらに限定されない。通信接続１１２６（単数または複数）は、有線接続または無線接続を含んでよい。通信接続１１２６（単数または複数）は、通信媒体を送信および／または受信してよい。

「コンピュータ可読媒体」という用語は、通信媒体を含んでよい。通信媒体は、典型的には、コンピュータ可読命令または他のデータを、搬送波や他の搬送機構などの「変調データ信号」の形にし、任意の情報伝達媒体を含む。「変調データ信号」という用語は、信号に情報を符号化するように信号の特性の１つまたは複数を設定または変更した信号を含んでよい。

装置１１１２は、キーボード、マウス、ペン、音声入力装置、タッチ入力装置、赤外線カメラ、ビデオ入力装置、および／または任意の他の入力装置などの入力装置１１２４（単数または複数）を含んでよい。１つまたは複数の装置、スピーカ、プリンタ、および／または任意の他の出力装置などの出力装置１１２２（単数または複数）も、装置１１１２に含まれてよい。入力装置１１２４（単数または複数）および出力装置１１２２（単数または複数）は、有線接続、無線接続、またはそれらの任意の組み合わせを介して装置１１１２に接続されてよい。一実施形態においては、別のコンピュータ装置の入力装置または出力装置を、コンピュータ装置１１１２の入力装置１１２４（単数または複数）または出力装置１１２２（単数または複数）として用いてよい。

コンピュータ装置１１１２のコンポーネントは、バスなどの様々な相互接続によって接続されてよい。このような相互接続は、ＰＣＩエクスプレス、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ファイアウェア（ＩＥＥＥ１３９４）、光バス構造などの周辺コンポーネント相互接続（ＰＣＩ）を含んでよい。別の実施形態においては、コンピュータ装置１１１２のコンポーネントは、ネットワークによって相互接続されてよい。例えば、メモリ１１１８は、ネットワークによって相互に接続された異なる物理的場所に配置された複数の物理的メモリユニットから構成されてよい。

コンピュータ可読命令の記憶に利用される記憶装置はネットワーク上に分散されていてよいことは、当業者には理解されよう。例えば、ネットワーク１１２８を介してアクセス可能なコンピュータ装置１１３０は、本明細書に記載の１つまたは複数の実施形態を実施するためのコンピュータ可読命令を記憶してよい。コンピュータ装置１１１２は、コンピュータ装置１１３０にアクセスし、コンピュータ可読命令の一部または全てを実行するためにダウンロードしてよい。あるいは、コンピュータ装置１１１２は、コンピュータ可読命令の一部を必要に応じてダウンロードし、一部の命令をコンピュータ装置１１１２で実行し、一部の命令をコンピュータ装置１１３０で実行してよい。

実施形態の様々な操作を本明細書に記載している。一実施形態においては、記載の操作の１つまたは複数が、１つまたは複数のコンピュータ可読媒体に記憶されたコンピュータ可読命令を構成してよく、その命令をコンピュータ装置が実行すると、コンピュータ装置は、記載の操作を実行する。操作の一部または全てを記載している順序は、これらの操作が必ずこの順序で行われることを示唆しているとして解釈されるべきではない。別の順序でも、この記載の利点を有することは、当業者には理解されよう。さらに、必ずしもすべての操作が、本明細書に記載の各実施形態に存在するわけではないことも理解されよう。

さらに、「例示の」という用語は、本明細書では、例、実例または例証を意味する。「例示の」として本明細書に記載の態様または設計が、他の態様または設計よりも有利であると必ずしも解釈するべきではない。正しくは、「例示の」という言葉は、概念を具体的に表すために用いられるものとされる。本願において用いられている、用語「または」は、排他的な意味ではなく包含的な意味で用いられるものとする。すなわち、別段の記載がない限り、または、文脈から明らかでない限り、「ＸはＡまたはＢを採用する」は、自然な包含的な置き換えのいずれかも意味する。すなわち、ＸはＡを採用する、ＸはＢを採用する、または、ＸがＡとＢの両方を採用する場合、上記実例のいずれにおいても「ＸはＡまたはＢを採用する」を満たすことになる。また、この明細書および請求項で使用されている冠詞「ａ」および「ａｎ」は、別段の記載がない限り、または、文脈から単数を指すことが明らかでない限り、一般的に「１つまたは複数の」を意味すると解釈される。

また、この開示は、１つまたは複数の実装形態について示し、記載しているが、この明細書および添付の図面を読み、理解すると、同等の変更および修正に当業者は想到するであろう。この開示は、そのような変更および修正の全てを含み、添付の請求項の範囲によってのみ限定される。具体的に、上記コンポーネント（例えば、要素、リソース等）によって実行される様々な機能に関しては、そのようなコンポーネントを記載するのに使用する用語は、別段の記載がない限り、本明細書に記載の例示の開示された実装形態の機能を実行する開示の構造とは構造的に同等でなくても、（例えば、機能的に同等な）記載のコンポーネントの特定の機能を実行する任意のコンポーネントに該当するものとする。また、開示内容の特定の特徴は、複数の実装形態のほんの一つに関して開示されているが、このような特徴は、必要に応じて、また、任意の所与のまたは特定の適用に対して所望され有利なように、他の実装形態の１つまたは複数の他の特徴と組み合わせてよい。さらに、「含む」「有した」「有する」「と共に」の用語、またはそれらの活用形は、発明を実施するための形態または請求項のいずれかで用いられている範囲において、「包含する」という用語と同じように包含的な意味で用いるものとする。

Claims

オンラインビデオに関する追加情報セットを決定する方法であって、
オンラインビデオを受信するステップと、
テキスト特徴、視覚的特徴、および、音声的特徴のうちの少なくとも１つを含む特徴セットを、前記オンラインビデオから抽出するステップと、
前記特徴セットに基づいて、追加情報を決定するステップと、
を含む方法。
前記追加情報セットをディスプレイに提示するステップを含む、請求項１に記載の方法。
前記提示するステップは、
前記追加情報セットをビデオとして提示するステップと、
前記追加情報セットを動画として提示するステップと、
前記追加情報セットを画像として提示するステップと、
前記追加情報セットをテキストとして提示するステップとのうち、少なくとも１つを含む、請求項２に記載の方法。
前記抽出するステップは、ＯＣＲテキスト認識技術を用いてテキスト特徴を抽出するステップを含む、請求項１に記載の方法。
前記抽出するステップは、スケール不変特徴変換を用いて、視覚的特徴を抽出するステップを含む、請求項１に記載の方法。
前記視覚的特徴は、
色ヒストグラム、
テクスチャ、および、
ＳＩＦＴ記述子のうちの少なくとも１つを含む、請求項１に記載の方法。
前記決定するステップは、前記特徴セットを用いて、データベースに対してマルチモーダル関連マッチングアルゴリズムを実行して、前記追加情報セットを決定するステップを含む、請求項１に記載の方法。
オンラインビデオに関連する追加情報セットを決定するシステムであって、
オンラインビデオを解析してフレームシーケンスを含む１つまたは複数のセグメントに分け、
セグメントごとに、セグメントのフレームシーケンスを代表する１つまたは複数のキーフレームを抽出するように構成された解析コンポーネントと、
テキスト特徴、視覚的特徴、音声的特徴の少なくとも１つを含む特徴セットを各セグメントの前記１つまたは複数のキーフレームから抽出するように構成された特徴抽出コンポーネントと、
前記特徴セットを用いてデータベースに対してマルチモーダル関連マッチングアルゴリズムを実行して、追加情報セットを決定するように構成された情報抽出コンポーネントと、
を含むシステム。
前記情報抽出コンポーネントは、前記追加情報セットを集めてビデオにするように構成された、請求項８に記載のシステム。
前記オンラインビデオを視聴しているユーザに前記ビデオを提示するように構成した提示コンポーネントを含む、請求項９に記載のシステム。
前記追加情報セットを提示するように構成した提示コンポーネントを含む、請求項８に記載のシステム。
前記特徴抽出コンポーネントは、
ＯＣＲテキスト認識技術を用いて１つまたは複数のテキスト特徴を抽出するように構成されたテキスト認識コンポーネントと、
スケール不変特徴変換を用いて１つまたは複数の視覚的特徴を抽出するように構成された視覚認識コンポーネントと、
１つまたは複数の音声的特徴を抽出するように構成された音声認識コンポーネントと、を含む、請求項８に記載のシステム。
前記マルチモーダル関連マッチングアルゴリズムは、
前記１つまたは複数のテキスト特徴を用いて、前記データベースに対してテキストベースの検索アルゴリズムを実行して候補追加情報の第１のリストを決定し、
前記１つまたは複数の視覚的特徴を用いて前記データベースに対して、視覚的特徴マッチングアルゴリズムを実行して、候補追加情報の第２のリストを決定し、
前記第１のリストおよび前記第２のリストを線形結合して、前記追加情報セットを生成するように構成された、請求項８に記載のシステム。