JP2016536647A

JP2016536647A - テキスト色を生成するための色検出の方法及び装置

Info

Publication number: JP2016536647A
Application number: JP2016541950A
Authority: JP
Inventors: ディーボス，ネイル
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2013-09-16
Filing date: 2013-12-30
Publication date: 2016-11-24
Also published as: CN105556947A; CN105556948A; EP3047643B1; WO2015038337A1; US10496243B2; EP3047642A1; JP2016537918A; KR20160122115A; US20160231889A1; US20160227134A1; EP3047643A1; WO2015038180A1; EP3047642B1; KR20160056889A

Abstract

メディアデバイスでの提示のために画像又はビデオでのオーバーレイの色を自動的に選択する方法及び装置が開示される。システムは、画像において最も目立つ色を識別し、所定数の色の中からその色に最も近い一致色を見つけ、画像にオーバーレイされるタイトルのフォントを彩色するために最も近い一致色を使用する。

Description

ポータブル型電子デバイスは、ますます普遍的になりつつある。例えば、携帯電話機、音楽プレーヤー、カメラ、タブレット、等のような、それらのデバイスは、デバイスの組み合わせを含み、よって、複数のオブジェクトを持ち運ぶことを不必要にする。例えば、Ａｐｐｌｅ（登録商標）のｉＰｈｏｎｅ（登録商標）又はＳａｍｓｕｎｇ（登録商標）のＧａｌａｘｙ（登録商標）アンドロイド（登録商標）フォンのような、現在のタッチスクリーン型携帯電話機は、例えば、ビデオ及び静止画カメラ、グローバルポジショニングナビゲーションシステム、インターネットブラウザ、テキスト及び電話、ビデオ及び音楽プレーヤー、他を含む。それらのデバイスは、例えば、ＷｉＦｉ（登録商標）、有線、及びセルラー（例えば、３Ｇ）のような複数のネットワークにおいて、データを送信及び受信することをしばしば可能にされる。

ポータブル型電子デバイスにおける二次的要素の品質は、絶えず改善してきた。例えば、初期の“カメラ付き電話機”は、固定焦点レンズであって且つフラッシュなしの低解像度センサから成った。今日、多くの携帯電話機は、フル高精細ビデオ機能、編集及びフィルタリングツール、並びに高精細ディスプレイを備える。それらの改善された機能により、多くのユーザは、自身の主たる写真撮影デバイスとしてそれらのデバイスを使用している。従って、より一層改善された性能及びプロ仕様の組み込み型写真撮影ツールに対する要求が存在する。加えて、ユーザは、単に写真を印刷するだけでなく、より多くの方法で他者と自身のコンテンツを共有し且つ容易にそうしたいと望んでいる。ユーザは、例えば、ＹｏｕＴｕｂｅ（登録商標）のような、ビデオストレージサイト又はソーシャルメディアサイトへコンテンツをアップロードしてよい。しかし、ユーザは、共有する前にそれらの写真を編集したいと望むことがあり、この編集は、理想的には、モバイルデバイスで行われ得る。ユーザは、ビデオの長さを編集したり、色フィルタ、輝度又は他のビデオ効果を変更したりしたいと望むことがある。それらの機能は、モバイルデバイスで一般的に利用可能でないので、ユーザは、編集を実行するために最初にコンテンツをコンピュータにダウンロードしなければならない。これは、ユーザの能力水準をしばしば超え、あるいは、実際的であるために必要とされる時間及び労力がかかり過ぎるので、ユーザは、ビデオコンテンツを共有することをしばしば断念させられる。そのような共有方法には、電子メール、テキスト、又はソーシャルメディアサイト、例えば、Ｆａｃｅｂｏｏｋ（登録商標）、ｔｗｉｔｔｅｒ（登録商標）、ＹｏｕＴｕｂｅ（登録商標）、等が含まれ得る。

ユーザ入力が限られているデバイスにおいてビデオ及び画像を編集することに伴って存在する問題のいくつかを多少とも解決するよう、タスクのいくつかはデバイスによって自動化されてよい。それらのタスクは、ユーザの好みや、過去のユーザの行動に従って自動化され、あるいは、アプリケーションによって自動化されてよい。問題は、ユーザが画像にキャプションをオーバーレイしたいと望む場合に現れる。どの色も、全ての画像及びビデオに適切でない。タイトルが画像にオーバーレイされる場合に、それらはデフォルトの色を通常は有し、あるいは、ユーザが色を選択する。デフォルトの色は満足のいくものでないことがある。ユーザが選択した色は、最も満足のいくものでないことがあり、ユーザが夫々の画像において色を設定するのに時間を取る。ビデオにおいては、色が変化するので、ユーザは、キャプションがビデオ全体を通して見えることを確かにするよう、単一のビデオにおいて何回もキャプションの色を変えなければならない。実際に、ほとんどのシステムは、デフォルトの色テキスト設定を使用する。これは、画像からそれ自体をしばしば識別可能でない。多数のユーザインタラクションなしでビデオ又は画像にオーバーレイされるキャプションを適用する方法を有することが望ましい。

ビデオ又は画像の色に応答してビデオ又は画像にオーバーレイされるキャプションのための色を生成する方法及び装置が開示される。

本発明の態様に従って、装置は、テキスト列を受け取る入力部と、画像を記憶するメモリと、主色を決定するよう前記画像を解析し、前記主色を複数の色と比較して一致色を決定するプロセッサであって、前記一致色は、前記主色の色に最も近い色を有する前記複数の色の中の一色である、前記プロセッサと、前記画像及び前記テキスト列を表示し、該テキスト列が前記一致色において表示されるディスプレイとを有する。

本発明の他の態様に従って、方法は、主色を決定するよう画像を解析するステップと、一致色を決定するよう前記主色を複数の色と比較するステップであって、前記一致色は、前記主色の色に最も近い色を有する前記複数の色の中の一色である、ステップと、テキスト列を生成するステップと、前記画像及び前記テキスト列を表示するステップであって、前記テキスト列が前記一致色において表示されるステップとを有する。

本発明の更なる他の態様に従って、方法は、前記一致色と異なる第２の主色を有する画像の部分を決定するステップと、前記画像の前記部分にわたって前記テキスト列を表示するステップとを有する。

本開示のそれら及び他の態様、特徴及び利点は記載され、すなわち、添付の図面に関連して読まれるべき好適な実施形態の以下の詳細な説明から明らかになるであろう。図面において、同じ参照符号は、図を通して同様の要素を表す。
モバイル電子デバイスの例となる実施形態のブロック図を示す。本発明に従うアクティブ表示を備える例となるモバイルデバイスディスプレイを示す。本開示に従う画像安定化及びリフレーミングのための例となるプロセスを示す。本発明に従うキャプチャ初期化を備える例となるモバイルデバイスディスプレイを示す。本開示に従って画像又はビデオを開始する例となるプロセスを示す。本発明の態様に従う自動ビデオセグメンテーションの例となる実施形態を示す。本発明に従ってビデオをセグメント化する方法を示す。本発明の一態様に従うライトボックスアプリケーションを示す。ライトボックスアプリケーション内で実行され得る様々な例となる動作を示す。本発明の一態様に従う例となるキャプション色生成アプリケーションを示す。本発明の例となる態様に従う色選択チャートを示す。

ここで示される例示は、本発明の好適な実施形態を表し、そのような例示は、如何なる方法によっても本発明の適用範囲を制限するものとして解釈されるべきではない。

図１を参照すると、モバイル電子デバイスの例となる実施形態のブロック図が示されている。表されているモバイル電子デバイスは携帯電話機１００であるが、本発明は、例えば、音楽プレーヤー、カメラ、タブレット、グローバルポジショニングナビゲーションシステム、等のような、いくつのデバイスにおいても同様に実施されてよい。携帯電話機は、通常は、電話呼び出し及びテキストメッセージを送信及び受信する能力、セルラーネットワーク又はローカル無線ネットワークのいずれかを通じてインターネットと相互作用する能力、ピクチャ及び画像を撮影する能力、オーディオ及びビデオコンテンツを再生する能力、並びにアプリケーション（例えば、ワードプロセッシング、プログラム、又はビデオゲーム）を実行する能力を備える。多くの携帯電話機はＧＰＳを有し、更には、ユーザインターフェイスの部分としてタッチスクリーンパネルを有する。

携帯電話機は、他の主たるコンポーネントの夫々へ結合されているメインプロセッサ１５０を有する。メインプロセッサ（複数を含む。）は、例えば、ネットワークインターフェイス、カメラ１４０、タッチスクリーン１７０、及び他の入出力（Ｉ／Ｏ）インターフェイス１８０のような、様々なコンポーネントの間で情報を転送する。メインプロセッサ１５０は、また、直接に当該デバイスにおける、又はオーディオ／ビデオインターフェイスを通じて外部デバイスにおける再生のためにオーディオ及びビデオコンテンツを処理する。メインプロセッサ１５０は、例えば、カメラ１４０、タッチスクリーン１７０、及びＵＳＢインターフェイス１３０のような、様々なサブデバイスを制御するよう動作する。メインプロセッサ１５０は、コンピュータと同様にデータを扱うために使用される携帯電話機におけるサブルーチンを実行するよう更に動作する。例えば、メインプロセッサは、写真がカメラ１４０によって撮影された後に、画像ファイルを処理するために使用されてよい。そのような処理は、クロッピング、圧縮、色及び輝度の調整、等を含んでよい。

セルネットワークインターフェイス１１０は、メインプロセッサ１５０によって制御され、セルラー無線ネットワークにわたって情報を受信及び送信するために使用される。この情報は、例えば、時分割多重アクセス（ＴＤＭＡ；time division multiple access）、符号分割多重アクセス（ＣＤＭＡ；code division multiple access）又は直交周波数分割多重化（ＯＦＤＭ；orthogonal frequency-division multiplexing）のような、様々なフォーマットにおいて符号化されてよい。情報は、セルネットワークインターフェイス１１０を通じて当該デバイスから送信及び受信される。インターフェイスは、情報を送信のための適切なフォーマットに符号化及び復号するために使用される複数のアンテナ、符号化器、復調器、等を有してよい。セルネットワークインターフェイス１１０は、ボイス若しくはテキスト送信を容易にするために、又はインターネットから情報を送信及び受信するために使用されてよい。この情報は、ビデオ、オーディオ、及び／又は画像を含んでよい。

無線ネットワークインターフェイス１２０、又はＷｉＦｉネットワークインターフェイスは、ＷｉＦｉネットワークにわたって情報を送信及び受信するために使用される。この情報は、例えば、８０２．１１ｇ、８０２．１１ｂ、８０２．１１ａｃ、等のような、種々のＷｉＦｉ規格に従う様々なフォーマットにおいて符号化され得る。インターフェイスは、情報を送信のための適切なフォーマットに符号化及び復号し、情報を復調のために復号するために使用される複数のアンテナ、符号化器、復調器、等を有してよい。ＷｉＦｉネットワークインターフェイス１２０は、ボイス若しくはテキスト送信を容易にするために、又はインターネットから情報を送信及び受信するために使用されてよい。この情報は、ビデオ、オーディオ、及び／又は画像を含んでよい。

ユニバーサルシリアルバス（ＵＳＢ）インターフェイス１３０は、情報を、通常はコンピュータ又は他のＵＳＢ対応デバイスへ、有線リンクにわたって送信及び受信するために使用される。ＵＳＢインターフェイス１３０は、情報を送信及び受信し、インターネットへ接続し、ボイス及びテキスト呼び出しを送信及び受信するために使用され得る。加えて、この有線リンクは、モバイルデバイスのセルネットワークインターフェイス１１０又はＷｉＦｉネットワークインターフェイス１２０を用いてＵＳＢ対応デバイスを他のネットワークへ接続するために使用されてよい。ＵＳＢインターフェイス１３０は、構成情報をコンピュータへ送信及び受信するためにメインプロセッサ１５０によって使用され得る。

メモリ１６０、又はストレージデバイスは、メインプロセッサ１５０へ結合されてよい。メモリ１６０は、モバイルデバイスの動作に関連し且つメインプロセッサ１５０によって必要とされる具体的な情報を記憶するために使用されてよい。メモリ１６０は、ユーザによって記憶及び検索されるオーディオ、ビデオ、写真、又は他のデータを記憶するために使用されてよい。

入出力（Ｉ／Ｏ）インターフェイス１８０は、電話呼び出し、オーディオの記録及び再生、又は音声駆動制御とともに使用するためのボタン、スピーカ／マイクロホンを含む。モバイルデバイスは、タッチスクリーンコントローラを通じてメインプロセッサ１５０へ結合されているタッチスクリーン１７０を有してよい。タッチスクリーン１７０は、容量性及び抵抗性タッチセンサの１つ以上を用いるシングルタッチ又はマルチタッチスクリーンのいずれかであってよい。スマートフォンは、例えば、それだけに限られないが、オン／オフボタン、駆動ボタン、ボリューム制御、リンガー制御、及びマルチボタンキーパッド又はキーボードのような、更なるユーザコントロールを更に有してよい。

これより図２を参照すると、本発明に従うアクティブ表示２００を備えた例となるモバイルデバイスディスプレイが示されている。例となるモバイルデバイスアプリケーションは、ユーザがあらゆるフレーミングにおいて記録し且つ自身のデバイスを撮影中に自由に回転させることを可能にし、撮影中にデバイスのビューファインダでのオーバーレイにおいて最終の出力を視覚化し、最終的に最終の出力においてデバイスの位置付けを補正するよう動作する。

例となる実施形態に従って、ユーザが撮影を開始するときに、その現在の位置付けが考慮され、デバイスのセンサに基づく重力のベクトルが水平線を合わせるために使用される。例えば、デバイスのスクリーン及び関連する光センサが横長より縦長である縦向き２１０、又はデバイスのスクリーン及び関連する光センサが縦長より横長である横向き２５０のような、夫々のとり得る位置付けについて、最適な目標アスペクト比が選択される。はめ込み長方形２２５は、所与の（現在の）位置付けについての所望の最適アスペクト比を鑑みて、センサの最大境界に適合するセンサ全体内に記される。センサの境界は、補正のための“猶予（breathing room）”を提供するためにわずかに水増しされる。このはめ込み長方形２２５は、デバイス自体の回転と逆方向において本質的に回転することによって、回転２２０、２３０、２４０を補償するよう変形される。回転は、デバイスの内蔵ジャイロスコープからサンプリングされる。変形された内側長方形２２５は、センサ全体の最大使用可能境界から水増し分を引いたものの内側に最適に記される。デバイスの現在の最たる位置付けに応じて、変形された内側長方形２２５の大きさは、回転の量に対して、２つの最適なアスペクト比の間を補間するよう調整される。

例えば、縦向きのために選択された最適なアスペクト比が正方形（１：１）であり、横向きのために選択された最適なアスペクト比が幅広（１６：９）であった場合に、表記の長方形は、それが１つの位置付けから他の位置付けへ回転されるときに１：１から１６：９の間を最適に補間する。表記の長方形は、サンプリングされ、次いで、最適な出力寸法にあるよう変形される。例えば、最適な出力寸法が４：３であり、サンプリングされた長方形が１：１である場合には、サンプリングされた長方形は、アスペクトフィルド（aspect filled）（必要に応じてデータをクロッピングして、最適に１：１のエリアを完全に満たす。）又はアスペクトフィット（aspect fit）（‘レターボクシング’又は‘ピラーボクシング’により如何なる未使用エリアも黒く塗りつぶして、最適に１：１エリアの内側に完全に合う。）のいずれかである。終わりに、結果は固定アスペクトアセットであり、コンテンツフレーミングは、補正の間に、動的に提供されたアスペクト比に基づき調整する。故に、例えば、１：１から１６：９のコンテンツから成る１６：９のビデオは、最適に満たされた状態２６０（１６：９部分の間）とピラーボックスを取り付けた状態（１：１部分の間）との間を行ったり来たりする。

全ての動きの総計が最適な出力アスペクト比の選択に考慮され且つ重み付けされるところの更なる精緻化が実施される。例えば、ユーザが、縦長のコンテンツがわずかであって‘大部分が横長’であるビデオを記録する場合には、出力フォーマットは横長アスペクト比である（縦長セグメントにピラーボックスを挿入する。）。ユーザが、大部分が縦長であるビデオを記録する場合には、反対のことが起こる（ビデオは縦長であるよう、出力長方形の境界の外にある如何なる横長コンテンツもクロッピングして最適に出力を満たす。）。

これより図３を参照すると、本開示に従う画像安定化及びリフレーミングのための例となるプロセス３００が示されている。システムは、カメラのキャプチャモードが起動されることに応答して、初期化される（３１０）。この初期化は、ハードウェア又はソフトウェアボタンに従って、又はユーザの行動に応答して生成される他の制御信号に応答して、開始されてよい。デバイスのキャプチャモードが起動されると、モバイルデバイスセンサは、ユーザ選択に応答して選択される（３２０）。ユーザ選択は、タッチスクリーンデバイスでの設定を通じて、メニューシステムを通じて、又は如何にしてボタンが作動されるのかに応答して、なされてよい。例えば、一度押下されたボタンは、フォトセンサを選択してよく、一方、途切れることなく押下されたままであるボタンは、ビデオセンサを示してよい。加えて、所定の時間、例えば、３秒間、ボタンを押したままであることは、ビデオが選択されたことを示してよく、モバイルデバイスでのビデオ記録は、ボタンが２度目に作動されるまで続く。

適切なキャプチャセンサが選択されると、システムは、次いで、回転センサに測定を要求する（３３０）。回転センサは、ジャイロスコープ、加速度計、軸配向センサ、光センサ、等であってよく、モバイルデバイスの位置の水平及び／又は垂直の現れを決定するために使用される。測定センサは、周期的な測定を制御プロセッサへ送信して、モバイルデバイスの水平及び／又は垂直の向きを連続的に示してよい。よって、デバイスが回転されると、制御プロセッサは、表示を絶えず更新し、且つ、連続的な一貫した水平線を有するようにビデオ又は画像をセーブすることができる。

回転センサがモバイルデバイスの垂直及び／又は水平の向きのインジケーションを返した後、モバイルデバイスは、ビデオ又は画像のキャプチャの向きを示すようディスプレイ上ではめ込み長方形を表す（３４０）。モバイルデバイスが回転されると、システムプロセッサは、引き続き、はめ込み長方形を、回転センサから受け取った回転測定と同期させる（３５０）。ユーザは、任意に、例えば、１：１、６：９、１６：９のような、好適な最終のビデオ若しくは画像比、又はユーザに決定されたあらゆる比を示してよい。システムは、また、モバイルデバイスの位置付けに従う異なる比ごとのユーザ選択を記憶してよい。例えば、ユーザは、垂直の向きにおいて記録されるビデオについては１：１比を、一方、水平の向きにおいて記録されるビデオについては１６：９比を示してよい。この事例では、システムは、モバイルデバイスが回転されると、連続的に又は漸増的にビデオをリスケーリングしてよい（３６０）。よって、ビデオは、１：１の位置付けから始まってよいが、ユーザが撮影中に垂直から水平の向きへ回転することに応答して、１６：９の位置付けにおいて終わるよう漸次的にリスケーリングされ得る。任意に、ユーザは、開始又は終了の位置付けがビデオの最終の比を決定することを示してよい。

これより図４を参照すると、本発明に従うキャプチャ初期化４００を備える例となるモバイルデバイスディスプレイが示されている。例となるモバイルデバイスは、画像又はビデオを捕捉するタッチトーンディスプレイを表すよう示されている。本発明の態様に従って、例となるデバイスのキャプチャモードは、多数の動作に応答して起動されてよい。モバイルデバイスのハードウェアボタン４１０のいずれかは、キャプチャシーケンスを開始するよう押し下げられてよい。代替的に、ソフトウェアボタン４２０は、キャプチャシーケンスを開始するようタッチスクリーンを通じて作動されてよい。ソフトウェアボタン４２０は、タッチスクリーンに表示されている画像４３０にオーバーレイされてよい。画像４３０は、画像センサによって捕捉されている現在の画像を示すビューファインダの役目をする。上述された表記の長方形４４０も画像にオーバーされてよく、捕捉される画像又はビデオのアスペクト比を示す。

これより図５を参照すると、本開示に従って画像又はビデオキャプチャを開始する例となるプロセス５００が示されている。イメージングソフトウェアが開始されると、システムは、画像キャプチャを開始するためのインジケーションを待つ。画像キャプチャのインジケーションがメインプロセッサによって受け取られると（５１０）、デバイスは、画像センサから送信されたデータをセーブし始める（５２０）。加えて、システムはタイマを起動する。システムは、次いで、画像センサからのデータをビデオデータとして捕捉し続ける。キャプチャが停止（５３０）されたことを示す、キャプチャのインジケーションからの第２のインジケーションに応答して、システムは、画像センサからのデータをセーブすることを止め、タイマを停止させる（５３５）。

システムは、次いで、タイマの値を所定の時間閾値と比較する（５４０）。所定の時間閾値は、例えば、１秒といった、ソフトウェアプロバイダによって決定されたデフォルト値であってよく、あるいは、それは、ユーザによって決定された設定可能な設定であってよい。タイマの値が所定の閾値に満たない場合は（５４０）、システムは、静止画像が所望であったと決定し、ビデオキャプチャの第１のフレームを静止画像として静止画像フォーマット（例えば、ＪＰＥＧ、等）においてセーブする（５６０）。システムは、任意に、他のフレームを静止画像として選択してよい。タイマの値が所定の閾値よりも大きい場合は（５４０）、システムは、ビデオキャプチャが所望であったと決定する。システムは、次いで、キャプチャデータをビデオファイルとしてビデオファイルフォーマット（例えば、ＭＰＥＧ、等）においてセーブする（５５０）。システムは、次いで、初期化モードへ戻り、キャプチャモードが再び起動されるのを待ってよい。モバイルデバイスが静止画像キャプチャ及びビデオキャプチャのために異なるセンサを備えている場合は、システムは、任意に、静止画像センサからの静止画像をセーブし、ビデオ画像センサからのキャプチャデータをセーブし始めてよい。タイマの値が所定の時間閾値と比較されるとき、所望のデータがセーブされ、一方、不要なデータはセーブされない。例えば、タイマの値が閾時間値を越える場合は、ビデオデータがセーブされ、画像データは捨てられる。

これより、図６を参照すると、自動ビデオセグメンテーション６００の例となる実施形態が示されている。システムは、可能な限り秒単位における所定の時間インターバルに近いセグメントへとスライスされるビデオを計算及び出力することを目標としている自動ビデオセグメンテーションを対象とする。加えて、セグメントは、セグメント化されるビデオの属性に応じて、より長くても、又はより短くてもよい。不格好に、例えば、話し言葉の途中で、コンテンツを分けることは、好ましくない。タイムライン６１０が示されており、９つのセグメント（１〜９）に分けられたビデオを表す。セグメントの夫々は、約８秒の長さである。原のビデオは、少なくとも１分４秒の長さを有する。

この例となる実施形態では、夫々のビデオセグメントについて選択された時間インターバルは８秒である。この当初の時間インターバルは、より長くても、又はより短くてもよく、あるいは、任意に、ユーザによって設定可能であってよい。８秒のベースタイミングインターバルは、様々なタイプのネットワーク上でダウンロードするための適当なデータ伝送サイズを持った管理可能なデータセグメントに目下相当するものとして、選択された。約８秒のクリップは、モバイルプラットフォームにおいて試験的に配信されるビデオコンテンツのシングルクリップをエンドユーザが吟味すると期待する妥当な平均存続期間である。約８秒のクリップは、知覚的に覚えやすい期間であってよく、エンドユーザは、理論上は、それが表示する一層多くのコンテンツのより良い視覚的記憶を持ち続けることができる。加えて、８秒は、現代の洋楽の最も一般的なテンポである毎分１２０の拍子での８ビートのイーブン楽節長さである。これは、近似的に、最も一般的な楽節長さである４小節（１６ビート）の小楽節の存続期間（音楽のテーマ又はセクションの全体を含む存続時間）である。このテンポは、平均的な活動心拍数に知覚的にリンクされて、行為及び活動を示唆するとともに、覚醒を増進させる。更に、小さい既知のサイズクリップを有することは、ビデオ圧縮率及びバンド幅が、８メガビット＝１メガバイトであるとして、例えばメガビット毎分といった、８進数の数の周囲で概して算出されることを鑑みて、より容易なバンド幅計算を助ける。従って、ビデオの各セグメントは、毎秒１メガビットで符号化される場合に、約１メガバイトである。

これより図７を参照すると、本発明に従ってビデオをセグメント化する方法７００が示されている。知覚的に優れた編集境界においてビデオセグメントを８秒の理想的なセグメントへと手続き上分けるために、ビデオコンテンツを解析するための多数のアプローチがシステム内で適用されてよい。第１に、最初の決定は、ビデオコンテンツが他のアプリケーションから発せられたものであるのか、それとも、目下のモバイルデバイスにより記録されたものであるのかについて、ビデオコンテンツの性質に関して行われてよい（７２０）。コンテンツが他のソース又はアプリケーションから発せられたものである場合は、ビデオコンテンツは、最初に、シーンブレイク検出を用いて、明らかな編集境界について解析される（７２５）。如何なる統計的に有意な境界も、所望の８秒インターバル又はその最も近くでの境界における強調により、マークされてよい（７３０）。ビデオコンテンツが目下のモバイルデバイスにより記録されたものである場合には、センサデータは、記録の間にログを取られてよい（７３５）。これは、デバイスの加速度計からの全ての軸におけるデバイスの動きの差分及び／又はデバイスのジャイロスコープに基づく全ての軸におけるデバイスの回転を含んでよい。このログを取られたデータは、いずれかの所与のベクトルについて時間にわたる平均の大きさに対して統計的に有意である動きの開始の差分を見つけるよう解析されてよい。それらの差分は、所望の８秒インターバルに最も近い境界における強調により、ログを取られてよい（７４０）。

ビデオコンテンツは、編集選択を知らせることができる更なるキューについて更に知覚的に解析され得る。デバイスのハードウェア、ファームウェア、又はＯＳが、顔ＲＯＩ選択を含む、何らかの組み込み型関心領域（ＲＯＩ；region of interest）検出を提供する場合に、それは、シーン内のあらゆるＲＯＩにマークするために利用される（７４５）。それらのＲＯＩの開始出現又は消失（すなわち、それらがフレームにおいて現れ且つフレームから消える時に最も近い時点）は、所望の８秒インターバルに最も近い境界における強調により、ログを取られ得る。

全体の振幅に対するオーディオに基づいた開始検出は、零交差、ノイズフロア、又は移動平均電力レベルのいずれかに対する統計的に有意な振幅の変化（増大又は低減）を探す（７５０）。統計的に有意な変化は、所望の８秒インターバルに最も近い境界における強調によりログを取られる。スペクトルバンド範囲内の振幅に対するオーディオに基づいた開始検出は、オーディオ信号をＦＦＴアルゴリズムにより多数の重なり合ったＦＦＴビンへと変換することに依存する。変換されると、夫々のビンは、それ自身の移動平均に対する統計的に有意な振幅の変化について慎重に解析されてよい。次いで、全てのビンはまとめて平均化され、全てのバンドにわたる最も統計的に有意な結果が、所望の８秒インターバルに最も近い境界における強調により、開始としてログを取られる。この方法の中で、オーディオは、バンドを選択的に強調する／強調を抑制するようコムフィルタにより前処理され得る。例えば、通常の人間の発話の範囲内のバンドは、強調されてよく、一方、ノイズと同じ意味の高周波バンドは、強調を抑制されてよい。

コンテンツ内の平均の動きの視覚的解析は、適切なセグメンテーション点を確立するのを助けるようビデオコンテンツについて決定され得る（７５５）。実時間の性能特性に必要とされる有限なフレーム分解能及びサンプリングレートで、フレーム内の平均の動きの大きさは決定され、時間にわたる統計的に有意な変化を探して、所望の８秒インターバルに最も近い境界における強調により結果のログを取るために使用され得る。加えて、コンテンツの平均の色及び輝度は、所望の８秒インターバルに最も近い境界における強調により統計的に有意な変化のログを取るために、記録されたデータの簡単な低分解能解析を用いて決定され得る。

上記の解析のいずれか又は全てが完了すると、最終のログ出力は、夫々の結果を全体平均へと重み付けるよう解析されてよい（７６０）。解析データのこの後処理パスは、全ての個別的な解析プロセスの重み付け及び平均化をなされた結果に基づき、時間において最も有望な点を見つける。所望の８秒インターバル又はその最も近くでの最終の最も強固な平均点は、断片化編集決定のためのモデルを形成する出力として計算される。

後処理ステップ７６０は、ビデオ内の前述のマークされた点のいずれか又は全てを好ましいセグメンテーション点のインジケータと見なしてよい。種々の決定因子が重み付けされ得る。また、例えば８秒といった好ましいセグメンテーション長さからあまりにかけ離れている決定点は、好ましいセグメンテーション長さに最も近い点よりも低く重み付けされてよい。

これより図８を参照すると、本発明の一態様に従うライトボックスアプリケーション８００が示されている。ライトボックスアプリケーションは、ビデオ及びメディアの時間に基づいた編集を改善するためにリスト主導の選択プロセスを使用する方法及びシステムを対象とする。ライトボックスアプリケーションは、垂直の向き８１０及び水平の向き８２０の両方において示されている。ライトボックスアプリケーションは、セグメント化されたビデオがセーブされた後に起動されてよい。代替的に、ライトボックスアプリケーションは、ユーザコマンドに応答して起動されてよい。セグメントの夫々は、夫々について生成されたプレビューを用いて、起こる順序で最初にリストアップされる。プレビューは、ビデオセグメント又はビデオセグメントの部分から取られた単一の画像であってよい。更なるメディアコンテンツ又はデータがライトボックスアプリケーションに加えられ得る。例えば、他のソースから受け取られた写真又はビデオは、ユーザが、受け取られたコンテンツを共有若しくは編集したり、又はそれらの受け取られたコンテンツを新たに生成されたコンテンツと結合したりすることを可能にするよう、ライトボックスのリストに含まれてよい。このように、アプリケーションは、ビデオ及びメディアの時間に基づいた編集を、簡単なリスト主導の選択プロセスの中で可能にする。

ライトボックスアプリケーションは、編集上の決定を共有する中心点として使用されてよい。ライトボックスは、ユーザが、即座に且つ容易にコンテンツを見て、何を保持すべきか、何を捨てるべきか、及びいつどのように他者と共有すべきかを決定することを可能にする。ライトボックス機能は、カメラとともに、チャネルブラウジングとともに、又は他の場所からメディアをインポートする点として、働いてよい。ライトボックスビューは、最近のメディアのリスト又はメディアのグループ分けされた組を含んでよい。夫々のアイテム、画像又はビデオは、キャプション、存続期間、及びとり得るグループ数とともに、サムネイルとして表示される。キャプションは、自動的に又はユーザによって生成されてよい。存続期間は、メディアコンテンツの重み及びペースをユーザに提示するために、簡易化されてよい。ライトボックスのタイトルバーは、逆戻り、アイテムのインポート、又はメニューを開くことに対するナビゲーションとともに、アイテム数を伴ってライトボックスセットのカテゴリを含んでよい。

ライトボックスの横向き表示８２０は異なるレイアウトを提供し、一方の側には、メディアアイテムがリストアップされており、他方の側には、任意に、何らかの直ちに評価可能な形式で、共有方法がリストアップされている。これは、Ｆａｃｅｂｏｏｋ（登録商標）、ｔｗｉｔｔｅｒ（登録商標）、又は他のソーシャルメディアアプリケーションのリンク又はプレビューを含んでよい。

これより図９を参照すると、ライトボックスアプリケーション内で実行され得る様々な例となる動作９００が示されている。例えば、組み込み型カメラ機能によって捕捉され、デバイスの既存のメディアライブラリからインポートされ、場合により、他のアプリケーションにより記録若しくは生成され、又はウェブベースのソースからダウンロードされ、あるいは、関連するアプリケーション内で直接に公開されたコンテンツから精選されるメディアは、全てがプレビューモードにおいてライトボックス内に集められる（９０５）。ライトボックスは、例えば、メディアが収集された時間のグルーピングのように、イベントに基づきグループに分類して簡単な垂直リストにおいてメディアを提示する。夫々のアイテムは、メディアの所与の部分についてのサムネイル又は簡易化した存続期間を含むリスト行によって表される。いずれかのアイテムをタップすることによって、メディアは、直接にそのアイテムに関して表示する拡大パネルにおいてプレビューされ得る。

ライトボックスアプリケーションは、任意に、アイテムをプレビューする拡大アイテムビューを有してよい（９１０）。拡大アイテムビュー９１０は、メディアアイテムを処理すること、見出しをつけること、及びそれを共有することに対するオプションを顕在化させる。クローズボタンをタップすることでアイテムは閉じられ、あるいは、その下にある他のアイテムをタップすることでアイテムは閉じられ、他のアイテムが開かれる。

ライトボックスアプリケーション内を上又は下にスクロールすることは、ユーザがメディアアイテムをナビゲートすることを可能にする（９１５）。ヘッダは、リストの上にとどまってよく、あるいは、それは、コンテンツの上に浮かんでよい。リストの終わりまでスクロールすること（９２０）は、他のより古いリストへのナビゲーションを有効にしてよい。より古いリストの先頭は、ドラッグしながら引っ張ることで示されてよい。引っ張った後にドラッグすることで、より古いリストへ移る。アイテムを保持しながらドラッグすること（９２５）は、ユーザがアイテムを並べ替えること、又は１つのアイテムを他のアイテムの上にドラッグすることでそれらのアイテムを結合することを可能にする。アイテムを左へスワイプすること（９３０）は、そのアイテムをライトボックスから削除する。アイテムの削除は、ライトボックスアプリケーションだけでなく、デバイスからそれらを削除してもしなくてもよい。アイテムをドラッグして、他のアイテムの上にドロップすること（９３５）は、アイテムをグループにまとめるために、又はドラッグされたアイテムをグループと結びつけるために使用されてよい。アイテムを一緒にピンチすること（９４０）は、ピンチ範囲内にあった全てのアイテムをグループにまとめる。まとめられたアイテムのプレビューの際には、それらは順次に再生し、アイテム数を示す。アイテム数は、まとめられたアイテムをプレビューウィンドウの下に展開するようタップされ得る（９４５）。長方形のライトボックスアイテムは、次いで、展開されたアイテムが行として表示されることを可能にするよう押し下げられてよい。

アイテムは、ライトボックスアプリケーション内からそれらをドラッグすることによって操作され得る。アイテムは、例えば９３０のように、いずれかのアイテムを左にドラッグすることによって、ライトボックスアプリケーションから削除され得る。いずれかのアイテムを右にドラッグすることによって、そのアイテムは、速やかに公開するよう進められ得る（９５０）。これにより、ユーザが１つ又は多数の共有場所で所与のアイテムのメディアを共有することを可能にするスクリーンへ移る（９５５）。プレビューの際に共有ボタンをタップすることも、アイテムの共有を可能にしてよい。いずれかのアイテムを押しながら保持することによって、それはドラッグ可能になり、その時点で、アイテムは、リスト全体におけるその位置を再編成するよう上下にドラッグされ得る。リストにおける時間は、垂直方向に上から下へ表される。例えば、一番上のアイテムは、メディアが順次に実行される場合に時間において最初である。アイテムのいずれかの丸ごとのグループ（単一のイベントヘディングの下で保たれる。）は、集合的にプレビューされ得（時間順に全てのアイテムから成る単一のプレビューとして順次に再生される。）、単一のリストアイテムとして同じジェスチャ及び制御手段を用いて集合的に削除又は公開され得る。ビデオ又は時間に基づいたメディアを含むいずれかのアイテムをプレビューする場合に、再生は、関連するリストアイテム行を左から右へドラッグすることで制御され得る。現在の時点は、ユーザによって再生の間にオフセット時点へとドラッグされ得る短い線によってマークされる。ビデオ又は時間に基づいたメディアを含むいずれかのアイテムをプレビューする場合に、関連するリストアイテム行を水平方向に２本の指でピンチすることによって、原メディアを最終の再生出力としてトリミングするためにピンチ及びドラッグされ得る選択範囲が画定される。画像又は静止画を含むいずれかのアイテムをプレビューする場合に、関連するリストアイテム行を左から右へ又は右から左へドラッグすることによって、捕捉されたいずれかの更なる隣接フレームは、選択的に“スクラブ”され得る。例えば、単一の写真キャプチャの間にカメラが複数のフレームの出力を記録する場合に、このジェスチャは、ユーザがフレームを繰り返し表示して、最良のフレームを最終の静止フレームとして選択することを可能にすることができる。

最近公開された（１つ又は多数の公開先にアップロードされた）アイテムは、ライトボックスリストから自動的にクリアされる。時間切れであるか、又は長期の無活動期間（例えば、数日間）よりも長い間ライトボックスに存在するアイテムは、ライトボックスリストから自動的にクリアされる。ライトボックスメディアは、同じライトボックスビューを組み込む他のアプリケーションの全てがメディアの同じ現在のプールから共有するように、デバイスにおいて中央のユビキタスな記憶場所に成り立つ。これは、マルチメディアアセット編集におけるマルチアプリケーション協調を簡単にし且つ同期させる。

これより図１０を参照すると、本発明の一態様に従う例となるキャプション色生成アプリケーション１０００が示されている。１つの図は、ユーザがキャプションをオーバーレイしたいと望む原画像１０１０を示す。キャプションは、ユーザ入力を通じて生成されるか、あるいは、アプリケーションによって自動的に生成されてよい。アプリケーションは、画像のコンテンツを認識してよく、類似した画像をインターネット又はデータベースから検索し、その類似した画像に関連するメタデータ又はキャプションを調べて、キャプションのテキストを生成してよい。第２の図は、キャプション１０３０が画像にオーバーレイされている変更後の画像１０２０を示す。キャプションの色は、目に心地良いが、依然としてキャプションを見る者にとって判読可能にするように、画像に対して明暗を有するよう選択されている。

システム１０００は、画像において最も突出した色を決定するアルゴリズムを使用する。主色（predominant color）は、画像において最も頻繁に使用されている色である。支配色（dominant color）は、画像において最も影響を有し、従って、画像の定義色として見る者に現れる色である。例えば、画像は大部分が黒であるが、大きな赤い形状が表示されている場合には、見る者は、実際には主色が黒である場合に、その画像を主に赤と定義し得る。このように、支配色及び主色は同じでないことがある。この例となる実施形態では、赤が画像における主色である。システムは、多種多様な方法において色の突出を決定してよい。システムは、画像において色の平均をとり、この平均に応答してキャプションの色を選択し、これを主色として選択する。画像は、最も共通して使用されている色を探し、これを主色として選択してよい。アプリケーションは、次いで、キャプションの色として主色を使用し、又は不連続な複数の所定の色の中から一色を選択してよい。

これより図１１を参照すると、本発明の例となる態様に従う色選択チャートが示されている。システムは、主色１１１０を不連続な複数の所定の色１１２０と照合するよう動作する。システム設計者は、メモリの問題、美学、等に起因して特定の色を使用したいと望むことがある。例えば、システムは、黒若しくは白、又は何らかのパステルカラーを使用したくないことがある。代替的に、システムは、主色を後退色（recessive color）と照合するよう動作してよい。後退色は、支配色とは違って、背景へと遠ざかる。そのような後退色、例えば、ラベンダー、ピンク又はグレーは、周囲の色の性質を呈する。対照的な後退色は、それらがキャプションを読むことができるようにする場合に支配色よりも好ましいが、それらがオーバーレイされる画像又はビデオから注意をそらさない。照合が行われると、キャプション又はテキストが一致色においてオーバーレイされる。

システムは、次いで、キャプションを表示する位置を選択してよい。キャプションは、例えば、左下といった、デフォルトの位置において表示されてよく、あるいは、キャプションは、画像の色位置の解析の後に配置されてよい。デフォルトの位置の場合において、システムは、画像又はビデオ内でデフォルトの位置に近接する主色を決定してよい。このようにして、キャプションは、画像とキャプションテキストとの間の所望レベルのコントラストを依然として有する。画像及びキャプションを表示することは、表示スクリーンにおいて表示すること、又は表示デバイスへ結合するのに適した信号を生成することを意味してよいことが理解されるべきである。

代替的に、システムは、例えばビデオのような画像の連続のために同じ色のキャプションを使用したいと望むことがある。この場合に、システムは、主色について夫々の画像を解析し、次いで、最も共通する主色を選んで、この最も共通する主色を、全ての画像にオーバーレイされるキャプションのテキスト色として使用してよい。システムは、全てのフレーム又は複数のフレームにわたって最も小さい色変化を有する画像の連続内の位置を決定してよい。この位置は、キャプションを配置するための位置として選択されてよい。画像の全ての連続内のこの位置の主色は、次いで、上述された方法に従ってテキスト色を選択するよう解析される。テキスト色は、全ての画像又はビデオフレームにおいてその位置でキャプションを表示するために使用される。

図示及び上述された要素は、様々な形のハードウェア、ソフトウェア又はそれらの組み合わせにおいて実施されてよいことが理解されるべきである。望ましくは、それらの要素は、プロセッサ、メモリ及び入出力インターフェイスを含み得る１つ以上の適切にプログラミングされた汎用デバイスにおいてハードウェアとソフトウェアとを組み合わせて実施される。本明細書は、本開示の原理を説明する。よって、明らかなように、当業者であれば、ここで明示的に記載又は図示されていなくても、本開示の原理を具現し且つその適用範囲内に含まれる様々な配置を想到可能である。ここで挙げられている全ての例及び条件付き言語は、当該技術を促進させることに本発明者によって寄与される概念及び本開示の原理を読者が理解するのを助けるための情報提供を目的とし、そのような具体的に挙げられている例及び条件に制限されないものとして解釈されるべきである。更に、本開示の原理、態様、及び実施形態、並びにその具体例をここで挙げている全ての記述は、それらの構造上及び機能上の等価物を包含するよう意図される。加えて、そのような等価物は、現在知られている等価物及び将来開発される等価物（すなわち、構造に関わらず、同じ機能を実行する開発されたあらゆる要素）の両方を含むことが意図される。よって、例えば、当業者には当然に、これにより提示されているブロック図は、本開示の原理を具現する実例となる回路構成の概念図を表す。同様に、明らかなように、如何なるフローチャート、フロー図、状態遷移図、擬似コード、等も、コンピュータ可読媒体において実質的に表現され、故にコンピュータ又はプロセッサによって（そのようなコンピュータ又はプロセッサが明示的に示されていようとなかろうと）実行され得る様々なプロセスを表す。

本願は、２０１３年９月１６日付けで出願された米国特許仮出願第６１／８７８２４５号に基づく優先権を主張するものである。

Claims

主色を決定するよう画像を解析するステップと、
一致色を決定するよう前記主色を複数の色と比較するステップであって、前記一致色は、前記主色の色に最も近い色を有する前記複数の色の中の一色である、ステップと、
テキスト列を生成するステップと、
前記画像及び前記テキスト列を表示するステップであって、前記テキスト列が前記一致色において表示されるステップと
を有する方法。
前記テキスト列は、ユーザ入力に応答して生成される、
請求項１に記載の方法。
前記テキスト列は、前記画像の比較に応答して生成される、
請求項１に記載の方法。
前記一致色は前記主色である、
請求項１に記載の方法。
前記一致色は後退色である、
請求項１に記載の方法。
前記一致色は支配色である、
請求項１に記載の方法。
前記テキスト列は、前記画像の一部分にわたって表示される、
請求項１に記載の方法。
前記テキスト列は、前記画像の一部分にわたって表示され、前記画像の前記一部分は、前記一致色とは異なる色を有する、
請求項１に記載の方法。
前記画像の前記一部分は、前記一致色と対照である色を有する、
請求項８に記載の方法。
前記一致色とは異なる第２の主色を有する前記画像の部分を決定するステップと、
前記画像の前記部分にわたって前記テキスト列を表示するステップと
を更に有する請求項１に記載の方法。
前記主色を決定するよう前記画像を解析するステップは、
前記テキスト列を表示する位置を決定するステップと、
前記主色を決定するよう前記位置に近接する前記画像の部分を解析するステップと
を有する、請求項１に記載の方法。
複数の主色を決定し、該複数の主色に応答して前記一致色を決定するよう複数の画像を解析するステップ
を更に有する請求項１に記載の方法。
テキスト列を受け取る入力部と、
画像を記憶するメモリと、
主色を決定するよう前記画像を解析し、前記主色を複数の色と比較して一致色を決定するプロセッサであって、前記一致色は、前記主色の色に最も近い色を有する前記複数の色の中の一色である、前記プロセッサと、
前記画像及び前記テキスト列を表示し、該テキスト列が前記一致色において表示されるディスプレイと
を有する装置。
前記テキスト列は、ユーザ入力に応答して生成される、
請求項１３に記載の装置。
前記テキスト列は、前記画像の比較に応答して生成される、
請求項１３に記載の装置。
前記一致色は前記主色である、
請求項１３に記載の装置。
前記一致色は後退色である、
請求項１３に記載の装置。
前記一致色は支配色である、
請求項１３に記載の装置。
前記テキスト列は、前記画像の一部分にわたって表示される、
請求項１３に記載の装置。
前記テキスト列は、前記画像の一部分にわたって表示され、前記画像の前記一部分は、前記一致色とは異なる色を有する、
請求項１３に記載の装置。
前記画像の前記一部分は、前記一致色と対照である色を有する、
請求項２０に記載の装置。
前記プロセッサは、前記一致色とは異なる第２の主色を有する前記画像の部分を決定するよう更に構成され、
前記ディスプレイは、前記画像の前記部分にわたって前記テキスト列を表示するよう更に構成される、
請求項１３に記載の装置。
前記主色を決定するよう前記画像を解析する前記プロセッサは、
前記テキスト列を表示する前記画像内の位置を決定し、
前記主色を決定するよう前記画像内の前記位置に近接する前記画像の部分を解析する
よう構成される、請求項１３に記載の装置。
前記プロセッサは、複数の主色を決定し、該複数の主色に応答して前記一致色を決定するよう複数の画像を解析するよう更に構成される、
請求項１３に記載の装置。