JP5920587B2

JP5920587B2 - リアルタイム動画像収集・認識・分類・処理・配信サーバシステム

Info

Publication number: JP5920587B2
Application number: JP2012509719A
Authority: JP
Inventors: 久夛良木　健; 健久夛良木; 隆薄; 靖彦横手
Original assignee: CYBER AI ENTERTAINMENT Inc
Current assignee: CYBER AI ENTERTAINMENT Inc
Priority date: 2010-04-09
Filing date: 2011-04-11
Publication date: 2016-05-18
Anticipated expiration: 2031-04-11
Also published as: WO2011126134A1; US8863183B2; EP2557782B1; US20130036438A1; EP2557782A1; US20140380397A1; US9204198B2; JPWO2011126134A1; EP2557782A4

Description

本発明は、広く画像配信システムに関し、特に、端末（クライアント端末又はクライアント装置をいう。以下、同じ。）からリアルタイムにアップロードされる動画像等を収集し、認識、分類等の処理を行ってリアルタイムに多数の端末に配信するサーバ、及びサーバシステムに関する。

特に２０００年以降、ネットワーク技術の進歩とその普及により、ユーザ間のコミュニケーション手段は、電子メール、Ｗｅｂサイト、電子掲示板から、個人が容易に情報発信可能なブログ（Blog）や、多くのユーザと様々な意見交換が行えるＳＮＳ（Social Networking Service）、さらには、多くの付加機能を備えリアルタイム性を追求するインスタントメッセンジャー（Instant Messenger）や、不特定多数のユーザが投稿した動画像を多数の利用者で共有しコメント等を交換可能な動画共有サービス（video hosting service）へと進展してきた。

コンピュータネットワーク技術の進歩については、通信速度の向上にとどまらず、ネットワーク上でのコンテンツの表示技術の向上にも多大な努力が払われてきた。例えば、Ｗｅｂサイト上に掲載するコンテンツは、当初ＨＴＭＬ（HyperText Markup Language）によって記述されていたが、より拡張された機能を備えたＸＭＬ（Extensible Markup Language）へと進化し、２０００年代半ばからはＡｊａｘ（Asynchronous Java（登録商標）Script + XML）と呼ばれる、画面遷移を伴わずに動的にＷｅｂアプリケーションを実行可能な技術が世に認知されるようになった。この間、ハードウェアは、パーソナルコンピュータ、ワークステーション、そしてスーパーコンピュータの全てにおいて、処理能力を飛躍的に向上させてきた。

一方で、コンピュータエンタテインメントの世界においても、コンテンツの表示形態については各社独自の仕様が適用されてきたものの、ハードウェアは、初期のスタンドアロンのビデオゲーム機から高性能の処理エンジンを有するネットワーク対応型家庭用ゲーム機へと進化している。

そして、ネットワーク上のコミュニケーション手段においては、技術の進歩に伴い、それぞれの動作環境において、よりリアルタイム性を求める方向に進化しつつある。

一方で、コンピュータエンタテイメントの世界においては、初期のビデオゲーム機の頃からリアルタイム性、及び高速応答性を追及しており、近年の家庭用ゲーム機では３Ｄグラフィックスのリアルタイム描画も可能にするなど、ハードウェア性能の向上とともにリアルタイムコンピューティングを質的に向上させてきた。

リアルタイム性を実現するためのアプリケーションの一例は、インスタントメッセンジャーである。インスタントメッセンジャーは、デバイスの物理的な制約に起因する遅延時間（latency）を除き、あるユーザが発信したパケットメッセージは瞬時に相手ユーザに届くことが前提となっている。そして、インスタントメッセンジャーにおいて送受されるパケットメッセージは比較的短いテキストデータであるため、リアルタイム性はおおむね達成されてきた。

また、インスタントメッセンジャーのアイデアを発展させたものに、電子会議システムがある。例えば、インターネットやＬＡＮ上での遠隔会議では、ＶｏＩＰが利用されている。近年の電子会議システムでは、テキストや音声のみならず動画を複数の参加者間でリアルタイムに送受信した情報を共有できるようになっている。

例えば、特許文献１に開示された発明は、複数の端末装置を介して行われる多人数による遠隔地対話でもスムーズな対話進行を可能にする構造を備えたテレビ会議システム等を提供するものであって、複数の端末装置それぞれの利用者を、特定議題の進行を中心的に行う対話者モードと該対話者以外の観察者モードに区分した状態で管理する管理テーブルと、対話者モードに区分された各利用者の端末装置に対して双方向対話に必要な情報をリアルタイムで配信する一方、対話者モードに区分された利用者間での対話に関連する情報のうち選択されたメディアによる情報を配信情報として別途編集し、該編集された情報を観察者モードに区分された各利用者の端末装置へ配信する通信制御手段とを備えたテレビ会議システムである。
この発明で解決しようとしていることは、限られた通信帯域において受発信者数を限定することにより、スムーズな会話進行を実現することである。

なお、こうした２者間のリアルタイム双方向通信状況を他の多数のユーザが閲覧する形態は、オンラインゲームにおいても観戦者モード（spectator mode）として広く実施されている。

すわなち、コンピュータエンタテインメントにおいてリアルタイム性を実現するためのアプリケーションの一例として、次の発明がある（特許文献２）。

特許文献２に開示された発明は、多彩な遊び方を提供することにより、遊技者同士のコミュニケーションを図る通信ゲームシステムを提供することを目的としており、この通信ゲームシステムは、ゲームクライアントシステムと当該ゲームクライアントシステムと通信するゲームサーバシステムとを備えている。そして、ゲームサーバシステムは、複数のゲームクライアントシステムを対戦グループとして関係付けるグループ情報が格納されるデータベースを備え、同一対戦グループに属するゲームクライアントシステムの中から対戦の組み合わせを決定し、当該組み合わせによって決定されるゲームクライアントシステム間のデータの送受信を管理して対戦を実行させ、当該対戦の結果に対応して次の組み合わせを決定するように構成されている。また各ゲームクライアントシステムは、独自のキャラクタ選択機能及び観戦時のチャット機能を有することを特徴とする。

特に、複数のゲームクライアントシステムのうち、対戦相手が決まったゲームクライアントシステム間でゲームサーバシステムを介してゲームに関するデータをリアルタイムに送受信可能であり、複数のゲームクライアントシステムの各々は、ゲームを観戦するときに当該観戦状態にある他のゲームクライアントシステムとの間でゲームサーバシステムを介してチャット可能であることを特徴とする。
このような、複数プレーヤーによるゲーム共有体験は、強力な演算資源とメモリとを有するゲームクライアントシステムの性能に負うところが多く、集中ゲームサーバシステム（Centric Game Server System）とシンクライアント（Thin Clients）のみで、多数のプレーヤーによる表現力の高いゲームのリアルタイムサービスを実現することは、未だ困難な状況である。

また、ネットワーク上のコミュニケーション手段が発達すると、肖像権侵害や著作権侵害、有害情報や違法コンテンツのアップロードが問題となり、個人情報の保護技術や有害コンテンツの除去技術も発達してきた（特許文献３）。

特許文献３に開示された発明は、著作権侵害やそれ以外の基準を含めた動画検閲を効率的に行うことができるサムネイル一覧を生成表示することを実現することで、従来の動画検閲技術の持つ問題点の解決を図る新たな動画検閲技術の提供を目的とし、検閲対象の動画データをシーンに分割するとともに、その入力した動画データに含まれる各種イベントを検出し、検出したイベントの契機で、分割したシーン毎に１枚以上のサムネイル画像を抽出し、その抽出したサムネイル画像について、検出したイベントの検出結果に基づいて重要度を算出して、その算出した重要度の順に、抽出したサムネイル画像を並び替えて一覧表示することを特徴とする。そうして、検閲対象の動画データから抽出したサムネイル画像を重要度の高いものから並べて一覧表示することで、公開可否の判断の手間を軽減するとともに、その判断そのものの高速化を図ることを実現する。
この発明では、上記判断そのものは人手による非リアルタイム処理であり、多数の動画像がリアルタイムにアップロードされ、再配信されるシステムにおいては有効ではない。

さらに、近年のインターネットの普及とともにネットワーク上の情報量が増大したことによって、情報検索技術が進歩してきた。例えば、強力な検索エンジンを備えたポータルサイトがいくつも運営されている。また、閲覧者の検索キーワードやアクセス履歴等を解析して、閲覧者の嗜好にあったＷｅｂページや広告を配信する技術も開発され、閲覧者が使用するキーワードに基づいたマーケティングも行われるようになっている。

例えば、ユーザにとって有用な情報を精度良く且つ容易に提供することができる情報提供装置がある（特許文献４）。この情報提供装置は、ユーザによる各コンテンツに対するアクセスの頻度を表すアクセス頻度情報を、当該ユーザを識別するユーザ識別情報に対応付けて格納するアクセス履歴格納手段と、各ユーザ間におけるコンテンツへのアクセス傾向の類似性を表すユーザ間類似度を、前記アクセス履歴格納手段に格納された前記アクセス頻度情報に基づいて算出するユーザ間類似度計算手段と、ユーザと各ユーザとの間の前記ユーザ間類似度により重み付けした当該各ユーザの前記アクセス頻度情報から、当該ユーザにとってのコンテンツの有用度を表す情報であるコンテンツスコアを算出するコンテンツスコア計算手段と、前記コンテンツスコア計算手段によって算出された各コンテンツの前記コンテンツスコアを前記ユーザ識別情報に対応付けて記憶するインデックス格納手段と、通信端末装置から送信された、ユーザ識別情報を含むクエリの入力を受け付けるクエリ入力手段と、前記クエリ入力手段により受け付けられた前記クエリに適合するコンテンツのコンテンツ識別情報を取得し、当該クエリに含まれるユーザ識別情報に対応付けられて前記インデックス格納手段に記憶された前記コンテンツスコアを参照して、取得した前記コンテンツ識別情報から提供情報を生成する提供情報生成手段と、前記提供情報生成手段により生成された前記提供情報を前記通信端末装置に出力する提供情報出力手段とを備えることを特徴とする情報提供装置である。
この発明では、言語・文字ベース以外の情報、例えば画像情報等を用いたユーザの着目度等を活用したそれぞれのユーザの嗜好や行動履歴を抽出する手段は提供されていない。

また、コンピュータによる画像認識に関する研究として、一般物体認識技術について様々な手法が研究され（非特許文献１〜４）、特に、２００４年には"Bag-of-Features"あるいは"Bag-of-Keypoints"と呼ばれる手法が提案されている（非特許文献５）。

特開２００４−７５６１号公報特開２００１−１２０８４１号公報特開２００９−１９４４９１号公報特開２００９−２６５７５４号公報

Pinar Duygulu, Kobus Barnard, Nando de Freitas, David Forsyth, "Object Recognition as Machine Translation: Learning a lexicon for a fixed image vocabulary," European Conference on Computer Vision (ECCV), pp.97-112, 2002. R. Fergus, P. Perona, and A. Zisserman, "Object Class Recognition by Unsupervised Scale-invariant Learning," IEEE Conf. on Computer Vision and Pattern Recognition, pp.264-271, 2003. David G.Lowe, "Object Recognition from Local Scale-Invariant Features," Proc. IEEE International Conference on Computer Vision, pp.1150-1157, 1999. J. Sivic and A. Zisserman, "Video google: A text retrieval approach to object matching in videos," Proc. ICCV2003, Vol. 2, pp.1470-1477, 2003. G. Csurka, C. Bray, C. Dance, and L. Fan, "Visual categorization with bags of keypoints," Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp.1-22, 2004.

しかしながら、従来の電子会議システムやオンライン対戦ゲームにおけるコミュニケーションシステムでは、リアルタイム性がある程度は実現されているものの、予め定められたシーン（電子会議室、ゲームのフィールド）を前提としたコミュニケーション手段を提供するものであり、膨大な数の独立したリアルタイム動画像をもとに、不特定多数の参加者が双方向にリアルタイムのコミュニケーションやゲームを行うことには限界があった。

一方で、従来のインスタントメッセンジャーにおいてもリアルタイム性はある程度実現されているものの、その情報源はテキストや音声が主体となっており、ネットワーク上のテレビ電話システムにおいても不特定多数の参加者間で動画像を用いたリアルタイムコミュニケーションを実現するまでには至っていない。

また、従来の動画共有システムにおいては、いまだアップロードされる膨大な数の動画像をリアルタイムに管理することは困難であった。

さらに、著作物の利用管理に関する従来技術は、パッケージコンテンツ等においてデジタル画像や動画像に除去不可能な透かし情報を予め埋め込む方法等がとられているが、一般ユーザから投稿される動画像に対しては有効ではなく、画像内の著作物等の特定物体に対するリアルタイム自動検出・解析・権利処理を行うまでには至っていない。

また、従来のシステムにおける参照履歴やアクセス履歴の集計は、Ｗｅｂページの所在（ＵＲＬ等）を単位としたページ全体に対するアクセスを集計するものであり、動画像中のどの部分に対して閲覧者が興味を持ったかなど、細部にいたる着目情報を収集することはできなかった。さらに、検索キーワードや検索クエリに基づくマーケット分析においても、キーワードの使用頻度のカウントやキーワード同士の関連度を演算するといった、ユーザ自身が選び出したキーワードを中心とした情報処理であった。

そこで本発明は、多数のユーザがネットワーク上でリアルタイムに動画像を送受信するシステムであって、膨大な数の受信動画像の一覧を自動的に分類した上でユーザに対し選択視聴可能にし、ユーザが関心を持つ動画像及び画像中の特定物体を、著作権管理システムを含む画像認識システムとの連携動作において視聴及び検索する過程において、多数のユーザ間で当該動画像群に基づいたリアルタイムコミュニケーションを喚起し、ユーザ固有のマーケティング情報等を獲得し、効果的な広告やサービス提供等を提示可能にするサーバシステムを提供することを目的とする。

本発明に係る動画像収集・配信サーバシステムは、ネットワークを介してリアルタイムに順次アップロードされる動画像をデータベースに蓄積すると同時に、複数の動画像を一表示画面内に同時表示するための動画サムネイルをリアルタイムに生成したのち、順次アップロードされる各動画像から適応的に生成されるチャンネル群に割り振り、ネットワークを介して表示及び操作手段を有する端末にリアルタイムに配信する動画像収集・配信サーバであって、順次生成される動画サムネイルは、割り振られたチャンネル内に撮影時刻の最新順にリアルタイムに格納し、複数の端末に配信することを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、前記端末ごとのチャンネル内最大表示数、あるいはチャンネル内最大更新可能表示数を超えた場合に、撮影時刻が最も古い動画サムネイルを端末での表示位置を維持したまま、撮影時刻が最新の動画サムネイルを置換し、置換され非表示となった動画サムネイルに対応した原動画像群を時間軸情報を保持したままアーカイブし、端末から表示時間軸情報を遡る画像再生要求がきた場合に、前記原画像群の時間軸を基準とした撮影時刻順に配信することを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、前記端末ごとのチャンネル内最大更新可能表示数は、チャンネル内最大表示数よりも少なく、その差分の表示領域には、特定の条件を満たした１以上の動画サムネイルが再生されるように配信することを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、前記更新可能な動画サムネイルが有限の時間長である場合、端末において繰り返し再生されるように配信することを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、送出される動画サムネイル群中の任意の動画サムネイルを端末で選択することにより、当該端末の解像度に応じた精細な動画像を送出することを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、前記動画像データに対して、画像中の物体検出を含む画像認識処理、送信される位置情報、送信者、メタデータや着目度などの属性情報を利用して複数のチャンネルに分類し、ネットワークを介してチャンネルごとに、あるいは複数のチャンネルをさらに再構成した新たなチャンネル群として、端末に配信することを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、前記生成されたチャンネル群のほか、特定の送信者、特定物体、特定ロケーションに関する動画像に関連して、端末から文字、記号、音声、静止画像、及び動画像によるレスポンスを受け付け、再配信することを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、前記動画像データに対し、画像中の物体検出を含む画像解析を行うことで特定の画像が検出された場合、及び／又は、当該画像に関する著作権管理情報が検出された場合、当該画像を含む動画像データ全体の配信の中止、特定の画像に対するフィルタ処理を行うことを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、端末の表示能力及び処理能力に応じてチャンネル内の動画サムネイルの同時表示数の構成を複数用意し、それらを画像の送出単位とし、前記端末は、前記画像の送出単位を２以上同時に受信し、チャンネル内をスムーズにスクロール可能とすることを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、端末の表示能力及び処理能力に応じて、端末側で動画サムネイルの最大表示数と表示レイアウトとを適応的に再構成可能なように、各動画サムネイルを独立した要素として送出可能であることを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、端末上で個々のユーザにより選択された動画及び動画中の対象物体、選択順序、並びに、個々のユーザによりアップロードされた動画及び動画中の着目物体などから抽出されるユーザの属性及び行動履歴を、情報収集処理システムに集積させることを特徴とする。

さらに、本発明に係る動画像収集・配信サーバシステムは、前記情報収集処理システムにより抽出されたユーザの属性及び行動履歴をもとに生成されたリコメンデーション、広告等のユーザの利便性・関心を高める情報群を個々のユーザに提示可能とすることを特徴とする。
また、本発明に係る動画像収集・配信サーバシステムは、動画サムネイルのスワップイン及びスワップアウト時の表示処理として、当該動画サムネイル全体の輝度を変化させる、または当該動画サムネイルの周縁部に特定の色を付与したり点滅等のアニメーションを行う、または当該動画サムネイル上に様々なパターンを配置したりアニメーションさせるというような装飾処理を加えることにより、スワップイン及びスワップアウト時の動画サムネイルに対し、視聴者のアテンションを喚起することを特徴とする。

本発明に係るサーバ及びサーバシステムにおいては、不特定多数のユーザに亘るコミュニケーションのリアルタイム性及び情報密度が高いため、従来のインスタントメッセンジャーや動画共有システムのような間接的で緩やかなコミュニケーションツールと異なり、不特定多数のユーザ間においてリアルタイムな共有体験が可能となる。

また、本発明に係るサーバ及びサーバシステムが有するリアルタイム性と画像・情報処理能力とにより、ネットワーク上の多数の端末に対するコンテンツの同時配信サービスにおいて、適応的かつ即応的な著作権管理処理を実行することが可能となる。さらに、特定のユーザやユーザ群の端末に対し、より効果的で動的なマーケティング情報や動画像を含む広告を、リアルタイムに配信することが可能となる。

また、本発明に係るサーバ及びサーバシステムが有するリアルタイム性と画像・情報処理能力とにより、ネットワーク上に存在する多数の監視カメラシステムにおいても、個々の動画像ストリームごとに、複数の特定物体や不審物等のリアルタイム自動検出・認識が可能となる。

本発明に係る動画像収集・配信サーバシステムの一実施形態におけるシステム構成を説明する説明図である。本発明に係るシステムの一実施形態における動画像収集・配信サーバの機能ブロックを説明する説明図である。本発明に係るシステムの一実施形態におけるリアルタイム画像認識システム及びマザーデータベースの機能ブロックを説明する説明図である。本発明に係るシステムの一実施形態における端末の機能ブロックを説明する説明図である。本発明に係るシステムの一実施形態におけるシステム構成及び処理フローを説明する説明図である。本発明に係るシステムの一実施形態におけるシステム構成及び処理フローを説明する説明図である。本発明に係るシステムの一実施形態におけるシステム構成等を説明する説明図である。本発明に係るシステムの一実施形態におけるフィルタリング処理等のフローを説明する説明図である。本発明に係るシステムの一実施形態におけるフィルタリング処理の具体例を説明する説明図である。本発明に係るシステムの一実施形態におけるチャンネル群生成の概念を説明する説明図である。本発明に係るシステムの一実施形態における端末側からみた送出画像のレイアウトの例を説明する説明図である。本発明に係るシステムの一実施形態における端末側からみた送出画像のレイアウトの他の例を説明する説明図である。本発明に係るシステムの一実施形態における端末側からみた動画サムネイルに対する効果処理例を説明する説明図である。本発明に係るシステムの一実施形態における動画サムネイルの時間管理概念を説明する説明図である。本発明に係るシステムの一実施形態におけるチャンネルの更新例を説明する説明図である。本発明に係るシステムの一実施形態におけるチャンネルの更新処理フローを説明する説明図である。本発明に係るシステムの一実施形態における動画像収集・配信サーバで生成されるチャンネル更新の具体例を説明する説明図である。本発明に係るシステムの一実施形態におけるチャンネル内の動画サムネイル群の更新例を説明する説明図である。本発明に係るシステムの一実施形態におけるチャンネル内の動画サムネイル群の更新処理フローを説明する説明図である。本発明に係るシステムの一実施形態における端末で行われるチャンネル内のスクロール処理の概念を説明する説明図である。本発明に係るシステムの一実施形態における画像認識フローを説明する説明図である。本発明に係るシステムの一実施形態における画像認識フローを説明する説明図である。本発明に係るシステムの一実施形態における処理概念を説明する説明図である。本発明に係るシステムの一実施形態における処理概念を説明する説明図である。本発明に係るシステムの一実施形態における特定物体認識処理を説明する説明図である。本発明に係るシステムの一実施形態における特定物体認識処理を説明する説明図である。本発明に係るシステムの一実施形態における特定物体認識処理を説明する説明図である。本発明に係るシステムの一実施形態における処理概念を説明する説明図である。本発明に係るシステムの一実施形においてユーザの利便性・関心を高める情報群を個々のユーザに提示する具体例を説明する説明図である。本発明に係るシステムの一実施形においてユーザの利便性・関心を高める情報群を個々のユーザに提示する他の具体例を説明する説明図である。

以下、本発明に係る動画像収集・配信サーバシステムを実施するための形態について詳述する。

図１に、本発明に係る動画像収集・配信サーバシステム構成例を示す。システム１００は、動画像収集・配信サーバ１０１ａと、動画像マネージャ１０１ｂと、動画像アーカイブ１０１ｃ及びメタデータ・位置データ等ＤＢ１０１ｄからなるデータベースと、リアルタイム画像認識システム１０２と、マザーデータベース（以下、「ＭＤＢ」ともいう）１０３と、ユーザが使用する端末装置１０５ａ〜１０５ｄとからなり、動画像収集・配信サーバ１０１ａと動画像マネージャ１０１ｂと、リアルタイム画像認識システム１０２と、マザーデータベース１０３とはネットワーク回線で接続され、動画像収集・配信サーバ１０１ａ及び端末１０５はネットワークないしインターネット１０４に接続されている。

ここで、動画像収集・配信サーバ１０１ａと、動画像マネージャ１０１ｂと、動画像アーカイブ１０１ｃと、メタデータ・位置データ等ＤＢ１０１ｄと、リアルタイム画像認識システム１０２と、ＭＤＢ１０３とは、動画像収集・配信サーバシステム１０１を構成する。すなわち、動画像マネージャ１０１ｂ、動画像アーカイブ１０１ｃ、メタデータ・位置データ等ＤＢ１０１ｄ、リアルタイム画像認識システム１０２、及びＭＤＢ１０３の各機能を動画像収集・配信サーバ１０１ａに持たせることとしても差し支えない。以下、理解の容易のために、本実施形態では機能を分担したサーバシステム群として説明を行う。

なお、本発明におけるマザーデータベースとは、人間が有する認知処理や知識処理をコンピュータに適用したものであって、膨大な知識をコンピュータシステム上のデータベースとして集積し、学習（ＡＩ）によりさらに進化させ、時間軸情報をも含ませることにより、４次元の時空間を参照や移動が可能なデータベースをいう。

また、全てのネットワーク回線及び接続は双方向である。図１において、端末１０５ａ〜１０５ｄは、後述するように動画像のアップロード及びストリーミング受信が可能なように構成されている。

また、サーバはコンピュータシステムで構成され、基本的な構成として、命令バス及びデータバスで接続された算術論理演算ユニットと制御ユニットと記憶装置と入出力装置とを備えた電子計算機である。入出力インタフェースを介して入出力装置から入力された情報（ビットデータ）に基づき算術論理演算ユニットにおいて算術演算や論理演算、比較演算、シフト演算等が実行される。実行されたデータは必要に応じて記憶装置に記憶され、入出力装置から出力される。これら一連の処理は、記憶装置に記憶されたソフトウェアプログラムによって制御される。
本発明におけるサーバや端末も、上記のとおりのコンピュータとしての基本機能を備えたハードウェアであり、オペレーティングシステムやデバイスドライバ、そしてアプリケーションソフトウェアといったプログラム群によって制御されている。但し、機能を限定した端末においては、上記コンピュータの持つ役割を、固定した機能としてハードウェアで置き換えることができる。

図２Ａに、本発明に係るシステムの一実施形態における動画像収集・配信サーバの機能ブロックを示す。動画像収集・配信サーバ１０１ａは、受信制御部１０１ａ−０１と、画像処理部１０１ａ−０２と、動画サムネイル生成部１０１ａ−０３と、チャンネル構成部１０１ａ−０４と、動画像送出部１０１ａ−０５とを含む。動画像収集・配信サーバ１０１ａの機能ブロックは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。

受信制御部１０１ａ−０１は、端末１０５からアップロードされる動画像が受け取り可能であるか否かを通知する。画像処理部１０１ａ−０２は、様々な動画像フォーマットで符号化された入力動画像を、以降の動画像処理・蓄積を効率化するために、共通のフォーマットに変換するトランスコード処理、及び正規化処理を行う。動画サムネイル生成部１０１ａ−０３は、画像処理部１０１ａ−０２で変換された動画像を圧縮動画サムネイルに変換すると同時に、フィルタリングのための処理等を行う。チャンネル構成部１０１ａ−０４は、チャンネルの管理を行うとともに、チャンネルのクラスタリング処理やチャンネルへの動画サムネイルのタイリング（貼り付け）処理を行う。動画像送出部１０１ａ−０５は、チャンネル構成部１０１ａ−０４で構成された複数のチャンネルを、ネットワークを介して複数の端末１０５に配信する処理を行う。

図２Ｂに、本発明に係るシステムの一実施形態におけるリアルタイム画像認識システム及びＭＤＢの機能ブロックを示す。リアルタイム画像認識システム１０２は、領域処理部１０２−０１と、一般物体認識部１０２−０２と、特定物体認識部１０２−０３と、ネットワーク通信制御部１０２−０４と、データ検索処理部１０２−０５と、ＭＤＢ検索部１０２−０６と、ＭＤＢ学習部１０２−０７と、ＭＤＢマネージメント部１０２−０８とからなる。リアルタイム画像認識システム１０２の機能ブロックは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。

領域処理部１０２−０１は、画像内の領域分割や部分画像の切出しなどを行う。一般物体認識部１０２−０２は、画像中に含まれる物体を一般的な名称（カテゴリ）で認識する。また、特定物体認識部１０２−０３は、ＭＤＢに登録された情報と照合し、物体を同定する。ネットワーク通信制御部１０２−０４は、画像の入力出力処理や、端末との情報通信制御などを行う。データ検索処理部１０２−０５は、リンク先から情報を収集したり、集合知の問合せや、収集、ならびに検索などを行う。ＭＤＢ検索部１０２−０６は、物体の名称等のタグデータ等を検索する。ＭＤＢ学習部１０２−０７は、新規設計データの追加や詳細情報の追加、時間情報の登録、付帯情報の登録、更新、追加などを行う。ＭＤＢマネージメント部１０２−０８は、設計データから特徴点や特徴量の抽出、付帯情報からカテゴリ情報を抽出しカテゴリデータへの登録や、カテゴリデータ内のカテゴリ分類の拡張、分割、更新、統合、修正、新規カテゴリの登録などを行う。

また、ＭＤＢ１０３は、設計データ１０３−０１と、付帯情報データ１０３−０２と、特徴量データ１０３−０３と、カテゴリデータ１０３−０４と、不特定物体データ１０３−０５とからなる。ＭＤＢ１０３は必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。

設計データ１０３−０１は、物体を構成ないし製造するためのデータベースから生成された、物体の構造や形状、寸法、部品の接続情報、配置図、可動部、可動範囲、重量、剛性など、物体を構成ないし製造するのに必要な基本情報を保持している。
付帯情報データ１０３−０２は、物体の名称、製造者、部品番号、日時、素材、組成、加工情報など物体に関するあらゆる情報を保持している。
特徴量データ１０３−０３は、設計情報に基づいて生成される個々の物体の特徴点や特徴量情報を保持している。
カテゴリデータ１０３−０４は、一般物体認識部において物体のカテゴリ分類を行う際に使用する情報を保持している。
不特定物体データ１０３−０５は、現時点において特定ができない物体についての情報を保持している。

図３に、本発明に係るシステムの一実施形態における端末を示す。端末１０５ａ〜１０５ｄは、広くユーザが使用するクライアント端末装置であり、コンピュータ、携帯情報端末（ＰＤＡ）、携帯電話機等が含まれる。つまり、図１において、端末１０５ａ〜１０５ｄは、多様な種類の電子情報機器が多数インターネットなどのネットワークに接続されている様子をあらわしている。以下、単に端末１０５と記載した場合にはネットワークに接続された端末１０５ａ〜１０５ｄのいずれか１台をさす。当然のことながら、端末１０５ａ〜１０５ｄはすべて同一機種である必要はない。同等の機能（あるいは実施可能な最低限の機能）を備えた端末装置であればよい。これに限定されるものではないが、ここでは端末１０５の代表的な機能ブロックについて説明する。

端末１０５は、操作部１０５−０１と、表示部１０５−０２と、音声入出力部１０５−０３と、画像送受信部１０５−０４と、カメラ部１０５−０５と、ネットワーク通信部１０５−０６と、ＣＰＵ１０５−０７と、記憶部１０５−０８と、電源部１０５−０９と、位置データ検出部１０５−１０と、各種センサ群１０５−１１とからなる。

操作部１０５−０１は、例えば、タッチパッド（ディスプレイに内蔵されるものを含む）、キー入力部、ポインティングデバイス、ジョグダイアルなどの入力デバイスで構成される。表示部１０５−０２は、各機器に応じた解像度及びビデオメモリを備えたディスプレイ部である。音声入出力部１０５−０３は、音声認識用のマイク、スピーカなどの入出力デバイスで構成される。画像送受信部１０５−０４は、端末１０５で撮影した動画像データをサーバに送信し、あるいはサーバから配信されてくる動画像データを受信するために必要なコーデック部、メモリユニット等が含まれる。なお、動画像データには、静止画像も含まれる。カメラ部１０５−０５は、選択的な構成要素であるが、ＣＣＤ等のデバイスを含む画像撮影手段である。ネットワーク通信部１０５−０６は、インターネットなどのネットワークに接続するためのインタフェースであって、有線／無線を問わない。

ＣＰＵ１０５−０７は、中央処理装置であり、記憶部１０５−０８は、ハードディスク、メモリ等の記憶装置であり、電源部１０５−０９は、バッテリー等である。
また、位置データ検出部１０５−１０は、ＧＰＳ等の位置情報検出デバイスであり、各種センサ群１０５−１１には、加速度センサ、傾きセンサ、磁気センサなどが含まれる。

図４Ａに、利用者がアップロードした動画像を他の利用者が端末において表示するまでの処理フローを示す。

図４Ａにおいて、端末４０１から動画像がアップロードされる。受信制御部１０１ａ−０１は、端末４０１からアップロードされる動画像が受け取り可能であるか否かを通知する。なお、受信制御部１０１ａ−０１においては、サーバに対する不正なアクセス（ＤＯＳ攻撃、ウィルスを含むファイル等）を回避ないし拒否する手段を備える。

次に、画像処理部１０１ａ−０２中のトランスコード処理部４０３において、様々な動画像フォーマットで符号化された入力動画像は、後段の処理において共通の内部フォーマットに変換される。この他、画像処理部１０１ａ−０２では、変換された動画像は、動画像マネージャ１０１ｂによって動画像アーカイブ１０１ｃにアーカイブされる。さらに、メタデータや位置データ等の抽出処理が行われ、メタデータ・位置データ等ＤＢ１０１ｄにアーカイブされる。

次に、トランスコード処理部４０３において共通のフォーマットに変換された動画像は、画像処理部１０１ａ−０２中の前処理部４０４に送られ、動画像の正規化処理が行われる。

前処理部４０４で処理された動画像は、動画サムネイル生成部１０１ａ−０３において圧縮動画サムネイルに変換される。この圧縮動画サムネイルに対しては、チャンネル編成部中の画像処理部４０７において、リアルタイム画像認識システム１０２、及び連携しているメタデータ情報収集処理システム４１２からの情報に基づいた適切なフィルタリング処理等が施される（詳細は後述）。

上述の画像処理部４０７における処理と並列して、チャンネル編成部１０１ａ−０４中のチャンネルマネージャ４０６では、リアルタイム画像認識システム１０２、およびメタデータ情報収集処理システム４１２による関連情報を用いて、入力された動画サムネイル群に対する適切なチャンネルに割り当てられる。あるいは、適切な既存のチャンネルがない場合は、新たなチャンネルが生成される。

次に、チャンネル編成部１０１ａ−０４中の送出画像構成部４０９では、チャンネル内の動画サムネイルのレイアウト（数及び位置）が決定される。動画像送出部１０１ａ−０５では、送出画像構成部４０９において編成されたチャンネル群を複数の端末に送出する。

ここで、送出画像構成部４０９において構成されるチャンネル内の動画サムネイルの構造は、チャンネルそのものを端末側における表示フレーム単位とする場合と、端末側の表示領域がチャンネル全体を表示するには小さい場合にはチャンネルを複数の表示フレーム群に分割し、端末側でそれら表示フレーム群を切り替え又はスクロールして表示させる場合とがある。

端末に対する送出の方法として、表示フレーム内に構成される複数の動画サムネイルを、まとめて１本のストリーム動画像として再構成し、圧縮して送出する方法（ｍ１）と、各動画サムネイルを独立にマイクロコンテンツ化して送出し、端末側で表示フレームを再構成する方法（ｍ２）のいずれをも採用することができる。

前者の方法（ｍ１）によれば、各チャンネル動画像を端末に送出する場合において、複数の動画サムネイルをまとめて１枚のフレームとして再圧縮するので、端末側の処理負担が軽減されるという利点があるが、端末側における画像表示の自由度は制限される。

後者の方法（ｍ２）によれば、チャンネルを構成する各動画サムネイルはマイクロコンテンツ化されて個別に端末に送出されるので、Ｗｅｂブラウザ等を用いて端末側における各動画サムネイルの並び替え、拡大・縮小、ハイライト等、表示の自由度が高まるという利点が加わるが、細分化されて送られてくるマイクロコンテンツを、同時刻の動画サムネイル群の集合体として端末側で再構成する必要がある。

端末４１１における操作部からは、表示動画像に対する種々の操作を行うことができる。たとえば、複数の動画像に対応する精細な動画像を表示させるときには、そのコマンドは動画像送出部１０１ａ−０５経由でチャンネル編成部１０１ａ−０４に送られ、送出画像構成部４０９においてタイル数１の縮小されていない精細な動画像が動画像アーカイブ１０１ｃから取得され、動画像送出部１０１ａ−０５から送出される。

次に、図４Ｂに、図４Ａのチャンネル編成部１０１ａ−０４周辺で行われる処理をさらに詳細に説明する。

リアルタイム画像認識システム１０２は、前処理部４０４において処理された動画像を、動画像サムネイル生成部１０１ａ−０３において動画像サムネイル化すると同時に、後述する一般物体認識によるカテゴリ検出、特定物体認識による特定物体検出等を行う。そして、特定物体の場合には、著作権等管理ＤＢ４１５にアクセスして適切な著作権管理情報を取得し、画像処理部４０７に対する次のような制御を行う。

すなわち、具体的には、画像処理部４０７中の処理選択部４０７−０１に対する制御を行い、前処理部４０４において処理された動画像に対し、取得された著作権管理情報を付与された特定物体ごとに、上記取得された著作権管理情報に基づいて、その動画像配信の停止、問題となる個別物体に対するフィルタリング処理（ぼかし等）、他のマスキング画像との置換処理等が、著作権管理情報を付与された全ての特定物体に対し回帰的に実行される。各処理が施された後は、合成部４０７−０２において元画像に対する必要な全ての画像処理が施され、最終的に合成処理され、クラスタリング部４０８を経由して送出画像構成部４０９に送られる。

図４Ｃに、本発明に係るシステムの一実施形態におけるシステム構成及び処理フローをさらに詳細に説明する。

図４Ｃは、図４Ａにおけるシステムブロックの並列処理構成例を説明する図である。図４Ｃにおいて、画像処理部１０１ａ−０２は、並列数ｍのトランスコード処理部４０３と並列数ｎの前処理部４０４とからなっており、動画像サムネイル生成部１０１ａ−０３は、並列数ｏのスケーリング部４０５からなっている。

同様に、チャンネル編成部１０１ａ−０４は、並列数ｐのフィルタ部４０７を含み、クラスタリング部４０８においては、動的に１〜ｑまでのチャンネルが生成される。なお、並列数ｐのフィルタ部４０７も並列処理される。

フィルタ部４０７の並列数ｐは、クラスタリング部４０８において動的に１〜ｑまでのチャンネルが編成される処理速度に対応した十分な数が用意される。

さらに、送出画像構成部４０９で構成されたチャンネル画像は、画像送出部１０１ａ−０５に設けられた並列数ｒの送出処理部によって並列的に多数の端末に送出される。

ここで、図４Ｃのリアルタイム画像認識システム１０２内においても特定物体ごとの認識アルゴリズムに基づいて並列処理構成された処理系において並列処理がなされている（図４Ｃにおいて不図示）。そして、リアルタイム画像認識システム１０２において実装される処理モジュールの並列数は、フィルタ部における並列処理よりも高速に処理されるような数として構成される。

こうして、図４Ｃにおいて多数の端末によって入力された入力動画像１〜ｋは、サーバシステム内において並列処理構成された各モジュールによる並列処理により、澱みなく多数の端末に対する動画像表示１〜ｓとして配信される。

図５Ａは、本発明に係るシステムの一実施形態における動画像収集・配信サーバで行われるフィルタリング処理等のフローである。

Ｓ５０１において、フィルタリング処理等は画像処理として開始される。次に、Ｓ５０２において端末１０５からアップロードされる動画像から生成された共通の内部フォーマットの動画像（既述）を入力として、リアルタイム画像認識システム１０２を介して一般物体認識（Ｓ５０３）、及び特定物体認識（Ｓ５０４）が行われる。その後、Ｓ５０５に進み、著作権等管理ＤＢ４１５に物体認識結果を照合する。

上記の著作権管理情報と合わせて、動画像に関連したセンサーシップ管理情報をもとに、アップロードされた動画像中の対象物体に対し、画像処理を行う必要があるかどうかが判断される（Ｓ５０６）。

Ｓ５０６において、著作権に抵触する動画像やセンサーシップの観点から画像処理を行う必要があると判断されればＳ５０７に進み、その動画像全体の配信の中止、問題となる個別物体に対するフィルタリング処理（ぼかし等）、他のマスキング画像への置換処理等が施される。なお、当該画像処理を用いて、特定の画像を抜き出すことも可能になる。これにより、ユーザによる動画像中の特定物体の検出、及び著作権者等による対象著作物等のリアルタイムモニタリングが可能となる。

上記の一連の処理を、検出された全ての特定物体及び一般物体に対して行い（Ｓ５０７，Ｓ５０８、Ｓ５０９）、画像処理を終了する（Ｓ５１１）。

一方、本発明における著作権等管理処理は、上述した画像認識処理によるものと、動画像とは別に取得したメタデータ、あるいは動画中に埋め込まれたメタデータ等に基づいた著作権管理処理（Ｓ５１０）によるものとを含み、その動画像全体の配信の中止、問題となる個別物体に対するフィルタリング処理（ぼかし等）、他のマスキング画像への置換処理等が施される（Ｓ５０７）。

図５Ｂに、図５Ａにおいて説明したフィルタリング処理の具体例を示す。図５Ｂにおいて、シーン５５０はアップロードされた動画像であり、遠方に凱旋門５０１が認識されている。道路上には、走行する多数の自動車が検出され、複数の人物も検出されている。

動画像５５０は、図５Ａにおける一般物体認識Ｓ５０３の処理により２つのカテゴリ、すわなち、人の顔（５５３）、自動車（５５４〜５５８）が検出されていると同時に、特定物体認識Ｓ５０４の処理により凱旋門５０１が検出されている。一般物体認識された複数の自動車は、その後の特定物体認識により、自動車の各車種の特定、さらには、ナンバープレート（５６４〜５６８）の検出・認識も可能になっている。

上記の事例において、一般物体認識された人の顔（５５３）、及び特定物体されたナンバープレート（５６４〜５６８）に対しぼかし処理を行うことができる。

なお、本発明に係るサーバ及びサーバシステムが有するリアルタイム性と画像・情報処理能力とにより、ネットワーク上に存在する多数の監視カメラシステムに応用することもできる。この場合、個々の動画像ストリームごとに、複数の特定物体や不審物等のリアルタイム自動検出・認識が可能となる。

図６に、動画像収集・配信サーバ１０１ａにおいて処理されるチャンネル群生成の概念図を示す。

図６において、端末１０５ａ〜１０５ｄより動画像収集・配信サーバ１０１ａに動画像がアップロードされる。例えば、端末１０５ａからは、自動車を撮影した動画像Ｃ１、ネコを撮影した動画像Ｃ２、及びイヌを撮影した動画像Ｃ３が順次アップロードされている。また、端末１０５ｂからは、人物を撮影した動画像Ｃ４及びサッカーの試合を撮影した動画像Ｃ５が順次アップロードされている。また、端末１０５ｃからは、特定の観光地で撮影した動画像Ｃ６、イヌを撮影した動画像Ｃ７、及び人物を撮影した動画像Ｃ８が順次アップロードされている。また、端末１０５ｄからは、自動車を撮影した動画像Ｃ９及びネコを撮影した動画像Ｃ１０が順次アップロードされている。図６において、アップロードされる動画像Ｃ１〜Ｃ１０には、それぞれの撮影時刻が付与される。

図６において、動画像収集・配信サーバ１０１ａにアップロードされた動画像は、１つのイヌチャンネル（ＣＨ１）、２つのネコチャンネル（ＣＨ２）、１つの自動車チャンネル（ＣＨ３）、３つの人物チャンネル（ＣＨ４）、及び１つのイベントチャンネル（ＣＨ５）に割り振られ、多数の端末（端末１０５ａ〜１０５ｄを含む）に配信される。

次に、チャンネルの動的な生成・分割・統合処理等の一例を以下に示す。

［新規チャンネル生成］
（１）一例として、多くのユーザが同一テーマでアップロードし始めた動画像群、あるいは多くのユーザにより視聴されている最新動画像群を新規チャンネルとして生成する。
（２）一方で、新規のアップロードやユーザによる視聴が減少したチャンネルは、送出サービスを終了するなどのダイナミックで適応的な運用を可能にする。

［チャンネル分割］
既存のチャンネルに登録されている動画像の数が、チャンネル内動画格納最大数を超えた場合、さらにチャンネルを時系列・場所・属性等のパラメータを用いてサブカテゴリに分割し、複数のチャンネル群として拡張することができる。

チャンネル分割数が、動画像収集・配信サーバの配信可能最大数を超えた場合、着目度順や更新頻度、及び撮影時刻等に基づいて評価し、上位のチャンネル群から優先的に送出することで動画像収集・配信サーバの負荷を一定範囲内に保つことができる。

［一覧チャンネルの生成］
さらに、図６に示すように、各チャンネルを代表する動画サムネイルを抽出し、それらの集合体である一覧チャンネルを生成することもできる。この一覧チャンネルにより、動的に生成される多数のチャンネルの俯瞰性を高めることができる。

次に、図７Ａに、本発明に係るシステムの一実施形態における端末側からみた送出画像のレイアウト例を示す。

図７Ａには、チャンネルとして構成されたサムネイル群が示されており、横５つ、縦５つの計２５の動画サムネイルが配列されている。この動画サムネイルの数やレイアウトについては、端末の表示画面サイズ、アスペクトレシオなどにより柔軟に最適化される。そして、Ａ１、Ｂ１、Ｃ１、Ｄ１、Ｅ１からなる予約領域１と、Ｅ２、Ｅ３、Ｅ４、Ｅ５からなる予約領域２とは、動画サムネイルの更新が行われないように制御されている。すわなち、図７Ａに示すチャンネルにおいて、更新可能な動画サムネイルは、Ａ２、Ｂ２、Ｃ２、Ｄ２、Ａ３、Ｂ３、Ｃ３、Ｄ３、Ａ４、Ｂ４、Ｃ４、Ｄ４、Ａ５、Ｂ５、Ｃ５、Ｄ５であり、チャンネル内最大更新可能表示数は１６である。図７Ａにおいては、更新可能な動画サムネイル領域内において、例えば後述規則に基づいて動画チャンネルのスワップイン、スワップアウトが実施される。予約領域は、上記１及び２に限られず、任意に表示画面内に１以上設定することができる。

ここで、予約領域１及び２には、一例として、更新可能な動画サムネイル領域に表示されている動画像に関連した広告などの動画サムネイルを固定的に配置する。また、人気の高い動画サムネイルや、動画像のアップロードが集中しているチャンネルの代表的な動画サムネイル等を特権的に表示することもできる。

なお、全ての表示領域においてアップロードされる動画像は、ライブ映像のみならず、ストックコンテンツでもよい。

図７Ｂに、本発明に係るシステムの一実施形態における端末側からみた送出画像のレイアウトの他の例を示す。

図７Ｂには、チャンネルとして構成された、横６つ、縦６つの計３６の動画サムネイルが配列されており、さらにこれらの動画サムネイルは、Ａ１〜Ａ９からなるグループＡと、Ｂ１〜Ｂ９からなるグループＢと、Ｃ１〜Ｃ９からなるグループＣと、Ｄ１〜Ｄ９からなるグループＤとの４グループに区分けされている。こうしたグループ分けは、例えば、同じチャンネルに集う仲間同士でグループ対抗形式のコミュニケーションを行う際に使用することができる。この場合、スワップイン及びスワップアウトは、一実施形態としてグループごとに実施される。

なお、動画サムネイルのスワップイン及びスワップアウト時の表示処理として、新たな動画サムネイルのスワップイン時において、当該動画サムネイル全体の輝度を上げる、または当該動画サムネイルの周縁部に特定の色を付与し点滅等のアニメーションを行う、または当該動画サムネイル上に様々なパターンを配置したりアニメーションさせるというような装飾処理を施すことにより、当該動画サムネイルに対し視聴者に対するアテンションを喚起できる。同様にして、動画サムネイルのスワップアウト時の処理として、当該動画サムネイル全体の輝度を段階的に下げる、または当該サムネイルの周縁部に特定の色を付与し点滅等のアニメーションを行う、あるいは当該サムネイル上に、画像が入れ替わることを表現するようなアニメーションを挿入することにより、表示終了間近の動画サムネイルに対し視聴者に対するアテンションを喚起できる。

具体的には、図７Ｃに示すように、枠をつける（Ａ）、動画像又は枠をブリンクさせる（Ｂ）、動画サムネイル全体の輝度を段階的に下げる（Ｃ１〜Ｃ４）、あるルールに合致する複数の動画サムネイルを消す（Ｄ１）、該当動画サムネイルの周辺に花びらを出したり、該当動画サムネイルを霧散効果により消す（Ｄ２）、キャラクタをアニメーション表示する（Ｄ３）、といった効果処理を行うことができる。

さらに、図示はしていないが、ユーザは、チャンネル内の任意の動画サムネイルについてブックマークを付与することができる。例えば、ブックマークが付された動画サムネイルはサーバシステム１０１内に保存することができる。こうしたブックマークされた動画サムネイル群は、自分専用のお気に入りサムネイル群として、呼び出すことができる。

次に、図８に、本発明に係るシステムの一実施形態における動画サムネイルの時間管理概念図を示す。

図８に示された時間軸上には、ユーザが端末１０５を使用してある物体やイベントを撮影すべく、モニタリングし、撮影を開始し、撮影した映像をアップロードする時刻が例示されている。例えば、ユーザは端末１０５を携行し、撮影したい物体やイベント等に出会うと、モニタリングを開始し撮影を開始する。ここで、時間軸上での撮影動作とアップロード動作との関係は、両者が同時に行われる場合（図８における「On the fly」）や、撮影が終了してからある程度の時間が経過してからアップロードを行われる場合（図８における「Batch Upload」）があるので、それぞれの場合について説明する。

［On the fly］
ユーザは、時刻ｔ(ｎ)において撮影を開始すると同時に、撮影動画像をリアルタイムに動画像収集・配信サーバ１０１ａにアップロードする。なお、ここでは、アップロード時間は、ｔ(ｎ)から始まりｔ(ｎ＋１)までの時間であり、時刻ｔ(ｎ＋１)で撮影及びアップロードは終了する。

［Batch Upload］
ユーザは、時刻ｔ(ｎ)において撮影を開始するが、撮影を終了する時刻ｔ(ｎ＋１)まで、撮影動画像をアップロードしない。そして、撮影終了後に、例えばある程度時間をおいて時刻ｔ(ｎ＋２)で動画像をアップロードし、動画像が終了する時刻ｔ(ｎ＋３)にアップロードを終了する。なお、動画像のアップロードを開始する時刻ｔ（ｎ＋２）は、時刻ｔ（ｎ）と時刻ｔ（ｎ＋１）の間にあってもよい。

以上の実施のバリエーションのいずれにおいても、動画像収集・配信サーバ１０１ａは、ｔ(ｎ)を動画像の「撮影開始時刻」とし、共通の絶対的な基準時間として利用する。この場合、動画像の「アップロード時刻」は、サーバ１０１ａが端末１０５からのアップロードを受け付けたときに、補助的な付加データとしてサーバ１０１ａにより記録される。
なお、撮影時刻には、端末１０５が有している較正されたＲＴＣ（Real Time Clock）を用いることができる。その他、アップロードされる動画像とともに、必要に応じて、撮影場所を表すＧＰＳ情報や、撮影者（ユーザ）に関する属性情報を送信することとしてもよい。この場合、ＲＴＣには、ＧＰＳから得られる時刻情報を用いることができる。

次に、図９Ａに、本発明に係るシステムの動画サムネイルの時間管理概念に基づいた、チャンネルの更新例を示す。

図９Ａでは、縦軸に、動画像がサーバ１０１ａにオンザフライにより順次アップロードされている様子を示している。順次アップロードされる動画像ストリームは、図９Ａにおいて１番から２２番まで例示的に示されている。両端が矢印の実線で示された区間は、撮影とともにリアルタイムにアップロードされた動画像であり、両端が矢印の破線で示された区間はサーバ１０１ａないし端末１０５で実施されるループ再生を示す。図９Ａの横軸は、各動画像の撮影時刻を示す時間軸（ｔ）である。

図９Ａにおいては、時刻ｔ１に最初の動画サムネイル１及び２が投入される。動画サムネイル１及び２は、同じ「撮影開始時刻」に撮影されたものとしてサーバ１０１ａにアップロードされるが、サーバ１０１ａでは管理のために、それぞれに同一撮影時刻であっても当該時刻内順位が付けられる。チャンネルウィンドウＣＨ（ｔ１）は、チャンネル内最大表示数（ここでは、例示的に１０とする）を超えない限りにおいては、チャンネル内の動画サムネイル更新が行われることなく、ＣＨ（ｔ１）に順次投入されて（１番から１０番まで）、チャンネルウィンドウＣＨ（ｔ１）という時間軸領域を形成する。一実施形態として、チャンネル内で新たな動画サムネイルの投入がない場合において、各動画サムネイルの再生時間が終了した場合は、再び最初に戻りループ再生を行い、以降同様の処理を継続するものとする。

次に、１１番目の動画サムネイルが時刻ｔ２にスワップインし、上記同一撮影時刻内で劣位にある動画サムネイル１がスワップアウトし、新たなチャンネルウィンドウＣＨ（ｔ２）に更新される。引き続いて１２番目の動画サムネイルがチャンネルウィンドウ内にスワップインし、ＣＨ（ｔ２）の中で最も撮影開始時刻が古い動画サムネイル２番がスワップアウトされ、３番から１２番の動画サムネイルからなるチャンネルウィンドウＣＨ（ｔ３）に更新される。以降、同様の処理となる（チャンネルウィンドウＣＨ（ｔ４）・・・）。

オンザフライで動画像がアップロードされてくる場合には、以上のようにしてチャンネルの更新が行われる。

図９Ｂは、On the fly により、順次スワップインする動画サムネイルの処理及びチャンネル更新処理フローである。なお、図９Ｂでは、チャンネル内に投入された動画サムネイル数が既にチャンネル内の最大表示数に達しており、スワッピングが必ず起こることを前提としている。また、ここでのフローは、動画サムネイルの表示ルーチンのみを説明しているが、これとは別に、端末１０５からアップロードされる動画像はアーカイブ１０１ｃに蓄積される。

Ｓ９０１において新たな動画サムネイルが特定のチャンネルに割り振られ、このチャンネル内にスワップイン可能かどうかの検査が開始されると、Ｓ９０２に進み、新たなに割り振られた動画サムネイル撮影時刻は、該当チャンネル内の最も古い撮影時刻よりも新しいか否かが判断される。

もし、新たに割り振られた動画サムネイルの撮影時刻が該当チャンネル内の最も古い撮影時刻よりも新しいと判断されると（Ｓ９０２においてＹｅｓ）、Ｓ９０３に進み、該当チャンネル内の最も撮影時刻の古いサムネイルをスワップアウトし、同じ位置に新たに割り振られた動画サムネイルをスワップインさせる。

一方で、Ｓ９０２において新たに割り振られた動画サムネイルの撮影時刻が該当チャンネル内の最も古い撮影時刻よりも古いと判断されると（Ｎｏ）、該当チャンネルにこの動画サムネイルを表示されない（Ｓ９０４）。なお、この非表示扱いとなった動画サムネイルは動画像アーカイブ１０１ｃに蓄積され、端末１０５におけるジョグダイアル等による操作により、時間軸を遡った過去のチャンネルとして視聴することができる。

そして、次のスワップインがあるまでは、該当チャンネル内で各サムネイルをループ再生させ（Ｓ９０５）、検査処理は終了する（Ｓ９０６）。

次に、図１０に、本発明に係るシステムの一実施形態における動画像収集・配信サーバで生成されるチャンネル更新の具体例を示す。

図１０には、チャンネルとして構成されたサムネイル群が示されており、横５つ（行番号１〜５とする）、縦５つ（列番号１〜５とする）の計２５の動画サムネイルが配列されている。この場合、チャンネル内最大表示数は２５である。ここで、各動画サムネイルには、ルールに基づいた優先順位が付けられている。図１０においては、数字が少ないほど優先順位が上位であることを示す。各動画サムネイルを（行番号、列番号）で表すものとすると、動画サムネイルＡ１の優先順位は１２であり、動画サムネイルＢ１の優先順位は１５であり、動画サムネイルＣ１の優先順位は１１である。そして、動画サムネイルＥ５の優先順位は８である。念のため、優先順位が上位の動画サムネイルから順に列挙すると、Ｂ２、Ｄ４、Ｂ５、Ｃ３、Ｃ５、Ｄ２、Ａ３、Ｅ５、Ｄ３、Ｂ４、Ｃ１、Ａ１、Ｅ２、Ｄ１、Ｂ１、Ａ２、Ｅ４、Ａ５、Ｃ４、Ｃ２、Ｅ１、Ｅ３、Ｂ３、Ａ４、Ｄ５である。

ここで、図１０に示すチャンネルに割り振られるべき新たな動画サムネイル（Ｎｅｗ）が入ってくると、優先順位の最も低いＤ５がスワップアウトされ、この位置に動画サムネイルＮｅｗがスワップインする。

優先順位は、端末１０５において動画像を撮影した撮影時刻を用いることができる。例えば、撮影時刻の新しいものから優先順位をつけると、図１０における動画サムネイルＤ５は、撮影時刻が最も古い動画サムネイルということになり、動画サムネイルＮｅｗがスワップインするときには、Ｄ５の表示位置を維持したままＤ５と置き換えられる。

また、この優先順位には、動画像の撮影時刻のほか、参照回数（着目度）を用いることができる。着目度を用いる場合、図１０における動画サムネイルＤ５は着目度が最も低い（参照回数が最も少ない）動画サムネイルということになり、動画サムネイルＮｅｗがスワップインするときには、Ｄ５の表示位置を維持したままＤ５と置き換えられる。
あるいは、この優先順位は、動画像の撮影時刻と、アップロード後の参照回数（着目度）との組み合わせで決定することとしてもよいし、チャンネルごとにチャンネルの特徴を活かした優先順位付けを行ってもよい。

次に、図１１Ａに、本発明に係るシステムにおける時間軸操作に基づいたチャンネル内の動画サムネイル群の更新例を示す。

図１１Ａにおいて、ジョグダイアル等のデバイスを使って現在時刻ｔ(±０)から過去の時刻ｔ（０−ｍ）まで時間を戻すものとする。過去の時刻ｔ（０−ｍ）まで時間を巻き戻した時点で、撮影時刻が時刻ｔ（０−ｍ）である１３番目の動画サムネイルから順次時間軸を遡ってチャンネル内最大表示数（ここでは、例示的に１０とする）分の動画サムネイルに対応する原動画像を動画像アーカイブ１０１ｃから瞬時に読み出し、各動画サムネイルの時刻ｔ（０−ｍ）の状態チャンネルウィンドウＣＨ（ｔ５）を再現する。この場合、時刻ｔ（０−ｍ）で停止させたままであれば、チャンネルウィンドウＣＨ（ｔ５）の時刻ｔ（０−ｍ）における全てのチャンネル内の動画サムネイル４〜１３に対応したポーズ画像が端末１０５等のディスプレイに表示される。

次に、時刻ｔ（０−ｍ）から通常再生を行った場合には、チャンネルウィンドウＣＨ（ｔ５）内の各動画サムネイル４〜１３が同時再生されるとともに、次の新たな動画サムネイルのスワップインまで、チャンネルウィンドウＣＨ（ｔ５）内の各動画サムネイルは、繰り返し再生される。

次に、時刻ｔ（０−ｍ）から逆方向再生を行った場合には、動画サムネイル１３のスワップアウトと、時刻ｔ（０−ｍ）における動画サムネイル３のスワップインとが起こり、チャンネルウィンドウＣＨ（ｔ４）に更新され、以降、時間軸を遡った再生が行われる。

上記一連の時間軸操作については、高速順方向再生（Fast Forward）、高速逆方向再生（ReWind）、コマ送り等の時間軸操作においても同様のチャンネルウィンドウ操作が実施される。

なお、上記の処理のフローを図１１Ｂに示す。

図１１Ｃに、表示画面の大きさが制限されている端末に対し、多数の動画サムネイルを含むチャンネルを分割して送信する処理例を示す。

図１１Ｃにおいて、動画収集・配信サーバ１０１ａは、単一のチャンネル１１０１を、表示画面の大きさが制限されている端末の画面サイズに合わせて、複数の送出単位Ａ〜Ｉに分割し、それぞれの送出単位を送出する。端末側では、上記送出単位を含む隣接する１以上の送出単位を同時に受信し、端末側の操作で上記複数の送出単位をまたがるスムーズなスクロールを行うことができる。

処理の一例として、端末側で送出単位Ｂ（１１０３ｂ）の領域を、例えば左方向へスクロールさせた場合、現在の送出単位Ｂの左側にある送出単位Ａ（１１０３ａ）のストリームＡ（１１０６）を同時に受信し、スクロール操作に応じた表示画面（例えば、１１０５の部分）を生成し、端末１１０４に表示させることによりスムーズなスクロールが実現できる。

同様に、端末側で送出単位Ｂ（１１０３ｂ）の領域を、例えば右下方向へスクロールさせた場合、現在の送出単位Ｂの右及び下側にある送出単位Ｅ、Ｄ、Ｆと合わせて合計４本のストリームを同時に受信し、スクロール操作に応じた表示画面（例えば、１１０５ｂの部分）を生成し、端末１１０４に表示させることにより、全方向のスムーズなスクロールが実現できる。

図１２に、本発明に係るシステムにおけるリアルタイム画像認識システム１０２及びＭＤＢ１０３で行われる全体的な画像認識処理フローを示す。

［一般物体認識］
画像認識処理の開始（Ｓ１２０１）は、まず、端末１０５における元画像の入力からはじまる（Ｓ１２０２）。元画像は、２次元画像であるか３次元画像であるかを問わず、静止画であるか動画であるかを問わない。また、元画像の入力に際しては、その元画像におけるどの物体の着目領域の指示がポインティングデバイス等のデバイス（不図示）を通じてなされる場合と、着目点の指示がなく元画像全体が処理対象として入力される場合とがある。次に、Ｓ１２０４において一般物体認識処理が行われる。一般物体認識処理には、例えば、ＢＯＦ（Bag-Of-Features）の手法を採用することができる。この一般物体認識処理では、検出された物体のカテゴリ（物体の一般名称）の認識まで行われる。ただし、着目点の指示がされた場合は、カテゴリの認識ができた場合とできなかった場合とで処理が分岐し、その判断はＳ１２０５で行われる。カテゴリ認識ができなかった場合には、Ｓ１２０６へ進み、既存のカテゴリの取り扱いについて判断がなされる（Ｓ１２０７）が、着目点に指示の有無に関わらず物体のカテゴリ認識が出来た場合には、特定物体認識処理へ進むべくＳ１２０９へ進む。

［特定物体認識］
Ｓ１２０５の判断において特定物体認識処理へ進む場合は、まず、Ｓ１２０９において個別物体画像の切り出し処理が行われる。そして、切り出された個別物体画像について、特定物体認識処理が行われる（Ｓ１２１０）。特定物体認識処理では、ＭＤＢ１０３に登録された設計データ１０３−０１から抽出された特徴量データ１０３−０３に基づく一致度を算出する評価関数によって物体の同定が試みられる。

［学習処理（１）］
一方で、Ｓ１２０５の判断において一般物体認識ができなかった場合には、Ｓ１２０６へ進み、着目物体の持つ特徴量と、ＭＤＢ１０３が把握している既存のカテゴリに属する物体の特徴量との情報距離に基づいて、その着目物体を含む新たなカテゴリを登録するか（Ｓ１２０７）、その着目物体に近接する既存カテゴリの拡張を検討するか（Ｓ１２０８）の判断が行われる。新たなカテゴリを登録する（Ｓ１２０７）場合にはＳ１２０４に復帰し、既存のカテゴリを拡張する（Ｓ１２０８）場合にはＳ１２０９へ進む。

［特定物体認識後学習処理（２）］
Ｓ１２１１においては、特定物体の同定ができたかどうかが判断される。特定物体の同定ができた場合には、Ｓ１２１３に進み、Ｓ１２０９において切り出された個別物体画像にＭＤＢ１０３に登録されている物体の詳細データよりもさらに精細な情報が含まれるかが判断される。もし、Ｓ１２１３においてＹｅｓと判断された場合には、Ｓ１２１４に進み、ＭＤＢ１０３におけるその物体の詳細データはＭＤＢ学習部１０２−０７により更新され、より精細な情報を有するようになる。一方で、Ｓ１２１３においてＮｏと判断された場合には、Ｓ１２１５に進み、次の判断がなされる。

Ｓ１２１５は、Ｓ１２０５において一般物体認識ができなかったと判断された場合であって、Ｓ１２０６の判断でＳ１２０８、Ｓ１２０９、Ｓ１２１０へ進み、特定物体の認識ができた（Ｓ１２１１でＹｅｓ）場合に判断される。Ｓ１２１５において、特定された物体が既存のカテゴリであった場合には、ＭＤＢ１０３に登録されているその既存カテゴリの定義を拡張、あるいは拡張によりカテゴリ内の物体の情報距離が分散する場合には分割（図１９（Ａ））、あるいは近接カテゴリとの情報距離が前記カテゴリ内の物体間の情報距離と同程度以下になった場合には統合（図１９（Ｂ））、あるいは特定された物体の登録により既存の物体の情報の齟齬を発見した場合には修正を施し（図１９（Ｃ））、カテゴリデータ１０３−０４をアップデートする（Ｓ１２１６）。一方で、Ｓ１２１５において、特定された物体が既存のカテゴリでなかった場合には、Ｓ１２０７へジャンプし、新規カテゴリとして登録する。

Ｓ１２１１において、特定物体の認識ができなかった場合は、ＭＤＢ１０３においてその物体はいったん「未確認物体」として登録され、将来の処理に備えて認識処理を終了する（Ｓ１２１７）。Ｓ１２１６において既存カテゴリを拡張してアップデートされた場合も認識処理を終了する（Ｓ１２１７）。

図１３は、図１２における特定物体認識処理及び学習処理の一部について、他の実施形態を示すフロー図である。以下、詳細に説明する。

まず、Ｓ１３０１より特定物体認識処理が開始される。ここで入力されるデータは、単一物体の画像のほか、同レイヤの設計データを使用することができる。さらに、画像にリンクされた設計データや、設計データそれ自体（製品全体のみならず、部品であってもよい）を使用することもできる。
次に、Ｓ１３０２においてＭＤＢで生成された特徴量データ１０３−０３を元に、元画像内の特徴点及び特徴量が抽出され、ＭＤＢより生成される特徴量データと比較される。ここで、ＭＤＢより特徴量データを生成・比較する方法には、以下の２種類がある。

１つ目は、物体を構成する最小単位（設計データなどで表されている）ごとの３次元情報を元に、あらゆる角度から２次元平面に写像し、その写像画像から物体の特定に用いる特徴量などを生成する。比較する際には、その特徴量を元に入力画像から特徴量を抽出し、出現部位や頻度などを比較する方法である（Ｓ１３０４）。なお、ここでの特徴量は、一例として輪郭抽出法やＳＵＲＦ法やなどに基づいて生成される。

２つ目は、物体を構成する最小単位（設計データなど）の集合からなる３次元形状情報を投影角度や拡大率などを変えながら２次元平面に写像するプロセスを評価関数として、物体の特徴点および特徴量との差異を一致度として判定する方法（チューン方式）である（Ｓ１３０５）。

なお、従来は、サンプルとなる画像そのものをとにかくたくさん集めて特徴量あるいは評価関数による同定処理（Ｓ１３０２）を行なっていたことに鑑みれば、Ｓ１３０４やＳ１３０５で説明したＭＤＢより生成する方法（Ｓ１３０３）は、同定の確度を上げるという点で従来技術より有利な効果を奏する。

次に、Ｓ１３０６において、物体の同定ができたかが判断される。もし、同定されたと判断された場合には、Ｓ１３１０に進み、同定に使用したデータがＭＤＢのデータよりも詳細であるか、最新であるかが判断され、これらの判断に基づいて、物体固有の情報（設計データなど）や時間情報（物体の型式、バージョン情報）がＭＤＢに更新登録され、特定物体認識処理を抜ける。つまり、情報の登録及びＭＤＢ更新が、データベース学習処理となる。

一方で、Ｓ１３０６において、物体の同定ができなかったと判断されると、画像情報以外の情報（画像中の文字やロゴ）を抽出して物体同定処理を行う。例えば、画像中の物体に非常に有名なメーカのロゴが映し出されてさえいれば、物体の大半がフレームから外れていたとしても同定が容易に行える場合がある。そうして、Ｓ１３０９に進み、再び物体の同定ができたかどうかが判断される。物体の同定ができていれば（Ｓ１３０９においてＹｅｓ）、Ｓ１３１０に進み、同定に使用したデータがＭＤＢのデータよりも詳細であるか、最新であるかが判断され、これらの判断に基づいて、物体固有の情報（設計データなど）や時間情報（物体の型式、バージョン情報）がＭＤＢに更新登録され、特定物体認識処理を抜ける。

一方で、物体の同定ができなかったならば（Ｓ１３０９においてＮｏ）、不特定物体としてＭＤＢに登録され、将来の更新や新カテゴリの生成に備え（Ｓ１３１１）、特定物体認識処理を終了する（Ｓ１３１２）。

なお、Ｓ１３０７で示した、画像情報以外の情報による同定処理とともに、あるいはこれに替えて、集合知を利用して物体の同定に役立てることもできる（Ｓ１３０８）。このＳ１３０８の処理は、例えば、ネット上の百科事典を検索したり、Ｑ＆Ａ掲示板に自動投稿することで実施される。ネット上の百科事典をシステムが自ら検索するには、一般物体認識で得られたカテゴリとともにＭＤＢより生成された特徴量を用いて検索クエリを作成し検索を実行する。そして返送されてきた内容から新たな特徴量を抽出して物体の同定が可能か再度試みる。また、Ｑ＆Ａ掲示板に自動投稿する場合は、一般物体認識で得られたカテゴリとともに元画像を掲示板にアップロードする。このとき、あらかじめ用意された定型文を自動編集して、「この○○について、型式を教えてください」とか、「この△△△について、設計情報を公開されているＷｅｂサイトを教えてください」といったクエリを投稿する。そうして、他のユーザ（人間を含む）から「それは、ｘｘ−ｘｘｘｘです」とか、「その△△△の設計データは、http://www.aaabbb.com/cad/data.dxfから入手可能です」といったアドバイスが寄せられる。システムは、これらのアドバイスを分析及び評価し、指定されたＵＲＬへアクセスし物体の設計データ等のダウンロードを試みる。新たに得られた設計データに基づいて物体の同定に成功すれば、得られた新たなデータがＭＤＢに追加され、データベースが更新される。

図１４及び図１５は、図１２のＳ１２０６、Ｓ１２０７、及びＳ１２０８の処理例を詳細に説明する処理概念図である。図１４（Ａ）において、ＭＤＢ１０３にはすでに登録済みの既存カテゴリＡ及びカテゴリＢが存在し、Ｓ１２０５において一般物体認識できなかったと判断されたオブジェクトＯｂｊ１をどのカテゴリに分類すべきかが判断されようとしているものとする。ここでは、Ｏｂｊ１の特徴量と、カテゴリＡ及びカテゴリＢの特徴量との情報距離が算出される（Ｌ１、Ｌ２）。そして、Ｌ１及びＬ２は十分に離れていると判断されるので、Ｏｂｊ１は新しいカテゴリに属すべきものとして、新カテゴリＣが生成され登録される（図１４（Ｂ））。

一方で、図１５（Ａ）においては、ＭＤＢ１０３にはすでに登録済みの既存カテゴリＡ及びカテゴリＢと、Ｓ１２０５において一般物体認識できなかったと判断されたオブジェクトＯｂｊ２とが存在し、それぞれの特徴量からみてＯｂｊ２はカテゴリＡに近接している関係にある。この場合、カテゴリＡとＯｂｊ２との情報距離は十分に近い（一方で、カテゴリＢとＯｂｊ２との情報距離は十分に遠い）。この場合には、Ｏｂｊ２について新たなカテゴリＣを生成しようとすると、他のオブジェクトについてカテゴリＡとカテゴリＣとの両方に含まれる場合などが発生し、カテゴリ分類上好ましくないことがある。したがって、図１５（Ａ）のような関係にあるときは、カテゴリＡの定義を最低限拡張して、Ｏｂｊ２を含むようにアップデートされる（図１５（Ｂ））。
なお、情報距離の算出アルゴリズムには、符号理論上の種々のアルゴリズム（ハミング、フィッシャー等）や他の情報理論に基づく距離計算アルゴリズムを採用することができる。

なお、ＭＤＢ１０３に物体の詳細データとして登録される設計データのフォーマットには種々のフォーマットを使用することができる。例えば、.DXF形式，.DWG形式，.3DS形式がある。そして、これら設計データから特徴量を算出し、同様の次元で元画像から算出した特徴量と照合して認識を行う方法についてはすでに述べたとおりである。

次に、図１６及び図１７に基づき、本発明にかかる画像認識システムにおいて元画像における長いすの特徴量と、ＭＤＢに登録されている長いすのＣＡＤデータの特徴量との比較によって特定物体認識を行う処理例を説明する。なお、図１６は、物体認識（照合）の結果、一致した場合であり、図１７は、物体認識（照合）の結果、不一致となる場合である。

［一致の場合］
図１６（Ａ）において、１６００は長いすの元画像である。ここでは、５つの特徴点が抽出されている。１６０１は図中向かって左の背もたれ角の特徴点である。１６０２は図中手前の左肘掛の角の特徴点である。１６０３は左手前脚部の特徴点、１６０４は右手前脚部の特徴点である。１６０６は向かって右の背もたれの角の特徴点である。１６０５は特徴点として抽出されなかった部位であるが、説明のため番号を付ける（丸印は付していない）。
図１６（Ｂ）において、１６５０は長いすの比較ＣＡＤデータからの描画像である。ここでは、６つの特徴点が抽出されている。１６５１は向かって左の背もたれの特徴点である。１６５２は手前の左肘掛の角の特徴点である。１６５３は左手前脚部の特徴点である。１６５４は右手前脚部の特徴点である。１６５５は手前の右肘掛の特徴点である。１６５６は向かって右の背もたれの角の特徴点である。
比較は、特徴点１６０１と１６５１、特徴点１６０２と１６５２、特徴点１６０３と１６５３、特徴点１６０４と１６５４、特徴点１６０５と１６５５、特徴点１６０６と１６５６とで後述の手法（図１８）を用いて行われる。特徴点１６０５は検出できてないが、ここでは、他の５点が一致しているので、１６００の長いすは１６５０の長いすと特定することが出来る。つまり、特徴点のうち、全ての特徴点あるいは一定の割合以上の特徴点が一致すれば物体が特定できたと判断することができる。
あるいは、物体の一部隠れていても場合（関数検出できない場合）であっても、その他の特徴点でよく一致していれば同定できたとすることができる。

［不一致の場合］
図１７（Ｃ）は、図１６の（Ａ）に示した長いす１６００と同じである。
図１７（Ｄ）において、１７５０は別の長いすの比較ＣＡＤデータからの描画像である。ここでは、６つの特徴点が抽出されている。１７５１は向かって左の背もたれの特徴点である。１７５２は手前の左肘掛の角の特徴点である。１７５３は左手前脚部の特徴点である。１７５４は右手前脚部の特徴点である。１７５５は手前の右肘掛の特徴点である。１７５６は向かって右の背もたれの角の特徴点である。
比較は、特徴点１６０１と１７５１、特徴点１６０２と１７５２、特徴点１６０３と１７５３、特徴点１６０４と１７５４、特徴点１６０５と１７５５、特徴点１６０６と１７５６で行われる。後述の手法（図１８）により１６０２と１７５２が一致してないので、１６００と１７５０が別の物体と判断される。

［比較判断手法の例示］
図１８（Ｋ）において、横軸には位相（角度、距離、色などを包含する）、縦軸には元画像と比較ＣＡＤ画像の一致度を取る。比較ＣＡＤ画像を偏位させ特徴点を比較することで、元画像との一致度が０と１の間の値を取る。一致すれば０であり、不一致であれば１である。ＣＡＤ画像どうしてあれば、比較ＣＡＤ画像の比較ＣＡＤ画像の１つの位相で、元ＣＡＤ画像が完全に一致する。しかし、元画像にはノイズが含まれているので、完全な一致にはなり得ない。結果、比較ＣＡＤ画像の位相に従って１８０２の線となる。また、もし、完全に一致しない場合には、１８０３の直線になる。
図１８（Ｌ）において、図１６の一致の場合と図１７の不一致の場合をあらわす。図１８（Ｌ）Ａにおいて、特徴点１は１６０３、特徴点２は１６０１、特徴点３は１６０２、特徴点４は１６０６、特徴点５は１６０５、特徴点６は１６０４に対応する。図Ａではある同一位相値において抽出されてない特徴点１６０５以外は極小値となっている。ゆえに、元画像は比較ＣＡＤ画像と一致したと判断する。一方、図１８（Ｌ）Ｂにおいては、同様の比較を行った結果、１６０２に対応する特徴点３が他とは違う比較ＣＡＤ画像の位相値で一致度の極小値となっている。結果、元画像は比較ＣＡＤ画像とは不一致であると判断する。

図２０に、本発明に係るシステムの一実施形においてユーザの利便性・関心を高める情報群を個々のユーザに提示する具体例を示す。

図２０に示す実施例は、本発明に係るシステムにおけるリアルタイム画像認識システム１０２、ＭＤＢ１０３、及びメタデータ情報収集処理システム４１２の連携動作によって実現される。特にメタデータ情報収集処理システム４１２は、着目点・行動履歴ＤＢ、レコメンデーション・広告ＤＢ（いずれも不図示）をさらに備えており、個々のユーザによりリアルタイムにアップロードされる動画中の着目物体などから抽出されるユーザの属性及び行動履歴を集積し、抽出されたユーザの属性及び行動履歴をもとにリコメンデーションや広告等をユーザに提示する。

すわなち、メタデータ情報収集処理システム４１２は、動画像収集・配信サーバ１０１ａの指示により、端末１０５上で個々のユーザにより選択された動画及び動画中の対象物体、選択順序、並びに、個々のユーザによりアップロードされた動画及び動画中の着目物体などから抽出されるユーザの属性及び行動履歴を収集する。収集されたデータは、上述の着目点・行動履歴ＤＢ、レコメンデーション・広告ＤＢに蓄積され、ユーザの属性及び行動履歴をもとにリコメンデーションを生成し、広告等のユーザの利便性・関心を高める情報群を選択して個々のユーザに提示するために動画像収集・配信サーバ１０１ａに送信する。

なお、メタデータ情報収集処理システム４１２は、ユーザ端末よりアップロードされる動画像に付加されているメタデータの解析等を行う。例えば、テキストデータであれば形態素解析を含む言語処理により、意味のある名詞（固有名詞、一般名詞）が抽出され、音声データであれば、音声認識処理によりテキストに変換され、言語処理を経て同様に意味のある名詞が抽出される。抽出された名詞（群）はメタデータとして対応する動画と共にメタデータＤＢ１０１ｄに格納される。

図２０（Ａ）において、ユーザは、端末１０５上で視聴しているチャンネル内の興味ある動画サムネイルを選択し、動画像収集・配信サーバ１０１ａから対応する原画像が端末に配信されている。なお、その選択情報は、そのユーザの着目点情報としてリアルタイムに情報収集処理システム４１２に逐次送られ、着目点情報及びユーザの行動履歴として蓄積されている。

なお、ここでいう着目点とは、特定物体をポインティングするために、ユーザが画面上で特定する物体を示す１以上の画面位置情報であり、それらがサーバシステム１０１に送られることにより、リアルタイムに特定物体検出が行われる。

ユーザは図２０（Ａ）において、動画中のバッグに興味を持ち、これを選択する。図２０（Ａ）においては、バッグの周囲に選択枠２０１１が例示的に表示されている。なお、このバッグも上述した特定物体認識処理によって、リアルタイムに認識されている。

図２０（Ｂ）において、ユーザが選択したバッグを特定物体認識した結果として商品情報が画像とともに表示される。このバッグは、ブランドＡの型番ｘｘ−ｘｘであったので、その旨が例示的にタグ２０２１として表示されている。次に、図２０（Ｃ）において、ユーザの更なる要求により、又は自動的に、このブランドＡのバッグにフィットする服、靴、アクセサリの候補（２０３１〜２０３３）や、アウトレット情報やオークション情報等の入手先情報（２０３４、２０３５）、当該商品に対するユーザの評価等の選択した特定物体に関連する情報（２０３６）が同時に表示される。ユーザは、様々な動画サムネイル中の様々な特定物体を選択し、付加される上記情報群も併せて参照することができるようになる。その過程で、サーバシステム１０１は、特定ユーザの嗜好や行動パターンをデータベースに蓄積し、当該特定ユーザに対し、更に利便性の高い密度の濃いサービスや情報を送ることができると同時に、サービスや商品提供者に対し、一段と効果的なマーケティング情報を提供することができる。

さらに、情報収集処理システム４１２において行われる他の処理例としては、次のものが挙げられる。
（Ａ）個々のユーザの着目点やカテゴリ情報、画像情報に付加されていた位置情報（ＧＰＳ）などのメタデータ及び、それらの時間的統計処理により算出される行動履歴に基づいた類似度計算などにより、関連する画像のリコメンデーションや広告を生成し、リコメンデーション情報として情報収集・配信サーバ１０１ａに送信し、情報収集・配信サーバ１０１ａから対応する端末へ原画像と共に配信する。
（Ｂ）さらに、多くのユーザが着目している特定物体情報や、興味の傾向・変化などをリアルタイムに解析し、鮮度の高いマーケティングデータを生成することができる。

図２１に、個々のユーザによりリアルタイムにアップロードされる動画中の着目物体などから抽出されるユーザの属性及び行動履歴をメタデータ情報収集処理システム４１２に集積し、抽出されたユーザの属性及び行動履歴をもとに生成されたリコメンデーション、広告等のユーザの利便性・関心を高める情報群を個々のユーザに提示可能とする、他の実施形態を示す。

図２１（Ａ）において、ユーザ２１０１は、リアルタイムに動画像を撮影し動画像配信・収集サーバへアップロードするための入力装置（例えば、カメラ等）２１０２及びサーバシステム１０１で処理された画像を受信し表示するための表示装置（例えば、ヘッドマウントディスプレイ等）２１０３を装着している。なお入力装置２１０２は、ＧＰＳなどの位置情報検出デバイスを備えることができ、その場合には検出された位置情報（例えば、現在位置となる緯度、経度、高度情報等であって、動的な位置情報を含む）が動画像と共にサーバシステム１０１にリアルタイムでアップロードされ、サーバシステム１０１からリアルタイムに動画像が配信されている。なお、図２１（Ａ）においては、これら一連の通信はワイヤレスで行われる。

このとき、サーバシステム１０１内の動画像配信・収集サーバ１０１ａは、入力装置２１０２よりアップロードされてくる画像に対し、サーバシステム１０１内のリアルタイム画像認識システム１０２及びＭＤＢ１０３によりリアルタイムに一般物体認識処理と特定物体認識処理とを実行し、検出された物体のカテゴリ情報及び特定物体認識された物体の情報を、原動画像に対応付けてメタデータＤＢ１０１ｄに記録する。

そして、図２１（Ａ）において、ユーザ２１０１は、サーバシステム１０１において認識された特定物体群をポインティング操作により選択し、選択された特定物体に関わる様々な情報をサーバシステム１０１から受信し、リアルタイムに送信している画像、すなわちユーザ２１０１が現在見ているリアルな画像に表示装置２１０３を経由して重ね合わせてモニタリングすることにより、リアルタイムに様々な物体に対する情報を得ることができるシステムが提供できる。

図２１（Ｂ）において、視界中にある様々な物体に対し、サーバシステム１０１から、認識された特定物体群に対する情報が、リアルタイムに肉眼視野に重ねて半透明で表示されている様子を示す。これらの特定物体群に対する情報は、ユーザ２１０１の移動、視線変更に伴い、リアルタイムかつダイナミックにトラッキングする。

これにより、実空間における物体のリアルタイム認識及び情報表示が可能になる。すわなち、リアルタイム系のビジョンＡＩを実現可能となる。

１００動画像収集・配信サーバシステム
１０１ａ動画像収集・配信サーバ
１０１ａ−０１受信制御部
１０１ａ−０２画像処理部
１０１ａ−０３動画サムネイル生成部
１０１ａ−０４チャンネル構成部
１０１ａ−０５動画像送出部
１０１ｂ動画像マネージャ
１０１ｃ動画像アーカイブ
１０１ｄメタデータ・位置データ等ＤＢ
１０２リアルタイム画像認識システム
１０３マザーデータベース（ＭＤＢ）
１０４ネットワーク
１０５ａ〜１０５ｄ端末
４１２メタデータ情報収集処理システム
４１５著作権等管理ＤＢ

Claims

複数の端末と、
前記複数の端末がアップロードした複数の動画を受ける一又は二以上のサーバと、
を備え、
一又は二以上のサーバが、
前記複数の動画における第１の物体及び／又はシーンを認識する画像認識手段と、
前記認識された第１の物体及び／又はシーンに基づいて、前記複数の動画を複数の動画チャンネルに割り振る割り振り手段と、
前記複数の動画に関連する動画サムネイルを前記複数の端末の少なくとも一つに送信する送信手段と、
を有し、
前記複数の端末の少なくとも一つが、所定の期間の間、前記複数の動画に関連する複数の動画サムネイルの一部を表示し、前記所定の期間経過後、表示された当該動画サムネイルの一又は二以上が動画の撮影時刻を順序に前記複数の動画に関連する動画サムネイル中の当該表示された動画サムネイル以外の動画サムネイルに置換されて、前記複数の端末の少なくとも一つが置換された前記動画サムネイルを表示する、システム。
前記置換は、動画がアップロードされた順序に基づいて実行される、請求項１に記載のシステム。
前記置換は、動画の撮影時刻に基づいて実行される、請求項１又は２に記載のシステム。
前記送信手段は、前記動画サムネイルを一覧表示形式で送信し、前記置換は、当該一覧表示形式における前記動画サムネイルの位置を維持して行われる、請求項１ないし３のいずれか一つに記載のシステム。
前記動画サムネイルは、特定の条件を満たした１以上の動画サムネイルを少なくとも一つ含み、前記送信手段は、当該特定の条件を満たした１以上の動画サムネイルを前記一覧表示形式の所定の表示領域に表示するよう配信する、請求項４に記載のシステム。
前記一又は二以上のサーバは、前記複数の動画において、前記第１の物体及び／又はシーンとは異なる第２の物体及び／又はシーンをさらに認識し、前記割り振り手段は、前記複数の動画チャンネルそれぞれにおける動画の数、及び／又は、前記第２の物体及び／又はシーンに基づいて、動画チャンネルを再編成、分割、融合、又は、終了する、請求項１ないし５のいずれか一つに記載のシステム。
前記一又は二以上のサーバは、アップロードを行った前記複数の端末の内の少なくとも一つの端末の位置情報及び／又は当該端末のユーザの情報に基づいて、動画チャンネルを再編成、分割、融合、又は、終了する、請求項１ないし６のいずれか一つに記載のシステム。
前記一又は二以上のサーバは、前記複数の端末の一つを用いて入力された所定の時間に対応する動画がアップロードされた時刻、動画の撮影時刻、及び／又は、任意の時刻を起点とした時刻に関連する一又は二以上の動画サムネイルを送信する、請求項１ないし７のいずれか一つに記載のシステム。
前記一又は二以上のサーバは、前記一又は二以上のサーバが前記複数の端末の一つを用いて入力された情報であって、アップロードを行ったユーザ、物体、及び／又は、ロケーションに関する情報を受信したことに応じて、所定の動画を前記複数の端末の少なくとも一つ及び／又は当該端末以外の端末に送信する、請求項１ないし７のいずれか一つに記載のシステム。
前記一又は二以上のサーバは、前記画像認識手段が前記複数の動画において特定の画像を認識した場合、又は、前記複数の動画において所定の著作権管理情報を認識した場合、認識された動画及び／又は当該動画に関連する動画サムネイルの送信を中止する、又は、前記認識された動画における所定の物体部分にフィルタリング処理を行う又は当該物体部分をマスキング画像に置き換える、請求項１ない９のいずれか一つに記載のシステム。
前記複数の端末は、個々のユーザにより選択された動画及び動画中の対象物体、動画の選択順序、並びに、個々のユーザによりアップロードされた動画及び動画中の着目物体から抽出されるユーザの属性及び行動履歴を少なくとも含む端末に関する情報を、前記一又は二以上のサーバに送り、
前記一又は二以上のサーバは、前記端末に関する情報を蓄積し、当該前記端末に関する情報に基づいて、所定のユーザが関心を有する情報を特定する、請求項１ないし１０のいずれか一つに記載のシステム。
前記置換は、スワップイン及びスワップアウトによって実現され、当該スワップイン及びスワップアウトを実現する際、置換される動画サムネイルそれぞれの一部又は全部において、輝度を変化させ、色を変化させ、又は、点滅させる、又は、当該動画サムネイルそれぞれ上で所定のパターン又はアニメーションが表示される、請求項１１に記載のシステム。
複数の端末がアップロードした複数の動画を受ける一又は二以上のサーバであって、
前記複数の動画における第１の物体及び／又はシーンを認識する画像認識手段と、
前記認識された第１の物体及び／又はシーンに基づいて、前記複数の動画を複数の動画チャンネルに割り振る割り振り手段と、
前記複数の動画に関連する動画サムネイルを前記複数の端末の少なくとも一つに送信する送信手段と、
を有し、
前記複数の端末の少なくとも一つにおいて、所定の期間の間、前記複数の動画に関連する複数の動画サムネイルの一部が表示され、前記所定の期間経過後、表示された当該動画サムネイルの一又は二以上が動画の撮影時刻を順序に前記複数の動画に関連する動画サムネイル中の当該表示された動画サムネイル以外の動画サムネイルに置換されて、前記複数の端末の少なくとも一つにおいて、置換された前記動画サムネイルが表示されることを特徴とする、一又は二以上のサーバ。
複数の端末がアップロードした複数の動画を受ける一又は二以上のサーバが実行するコンピュータプログラムであって、
前記複数の動画における第１の物体及び／又はシーンを認識するステップと、
前記認識された第１の物体及び／又はシーンに基づいて、前記複数の動画を複数の動画チャンネルに割り振るステップと、
前記複数の動画に関連する動画サムネイルを前記複数の端末の少なくとも一つに送信するステップと、
を有し、
前記複数の端末の少なくとも一つにおいて、所定の期間の間、前記複数の動画に関連する複数の動画サムネイルの一部が表示され、前記所定の期間経過後、表示された当該動画サムネイルの一又は二以上が動画の撮影時刻を順序に前記複数の動画に関連する動画サムネイル中の当該表示された動画サムネイル以外の動画サムネイルに置換されて、前記複数の端末の少なくとも一つにおいて、置換された前記動画サムネイルが表示されることを特徴とする、コンピュータプログラム。
請求項１４に記載のコンピュータプログラムを記録した記録媒体。