JP7292349B2 - 画像を処理するための方法およびシステム - Google Patents

画像を処理するための方法およびシステム Download PDF

Info

Publication number
JP7292349B2
JP7292349B2 JP2021174541A JP2021174541A JP7292349B2 JP 7292349 B2 JP7292349 B2 JP 7292349B2 JP 2021174541 A JP2021174541 A JP 2021174541A JP 2021174541 A JP2021174541 A JP 2021174541A JP 7292349 B2 JP7292349 B2 JP 7292349B2
Authority
JP
Japan
Prior art keywords
frames
distinct
image
frame
data describing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021174541A
Other languages
English (en)
Other versions
JP2022009502A (ja
Inventor
デイヴィッド・カラム
リ・ジャン
アリエル・ギルダー
ユウゾウ・ワタナベ
エリック・ペナー
ファルーク・アハマド
ハートウィグ・アダム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2020555017A external-priority patent/JP6969019B2/ja
Application filed by Google LLC filed Critical Google LLC
Priority to JP2021174541A priority Critical patent/JP7292349B2/ja
Publication of JP2022009502A publication Critical patent/JP2022009502A/ja
Application granted granted Critical
Publication of JP7292349B2 publication Critical patent/JP7292349B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本開示は、一般にはデジタル画像に関する。より詳細には、本開示は、1つまたは複数の機械学習(ML)モデルを使用して画像を処理することに関する。
コンピューティングデバイス(たとえば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、および/またはウェアラブルコンピューティングデバイスなど)は、現代社会において広く普及している。コンピューティングデバイスは、コンピューティングデバイスのユーザ間の通信をサポートし、コンピューティングデバイスの環境、現在のイベント、および/または世界全体などについての情報をコンピューティングデバイスのユーザに提供し得る。そのようなデバイスの一般的な用途は、デジタル画像(たとえば、ピクチャおよび/またはビデオなど)を生成、操作、および/または通信などを行うことである。
米国特許出願第14/984,628号
本開示の実施形態の態様および利点は、以下の説明において部分的に説明され、または説明から知ることができ、または実施形態の実施を通じて知ることができる。
本開示の1つの例示的態様はコンピュータ実装方法を対象とする。方法は、1つまたは複数のコンピューティングデバイスによって、1つまたは複数の機械学習(ML)モデルを使用して画像を処理し、1つまたは複数の異なる別個の用途に適していると判定された画像を識別するためのアプリケーションプログラミングインターフェース(API)を提供することを含み得る。方法はまた、コンピューティングデバイスによって、MLモデルを使用して処理するための複数の異なる別個のフレームを含む画像を記述するデータを、要求側アプリケーションからAPIを介して受け取ることをも含み得る。方法は、コンピューティングデバイスによって、MLモデルと画像を記述するデータとに少なくとも部分的に基づいて、複数の異なる別個のフレームの各フレームについて、フレームについての1つまたは複数のスコアを決定することをさらに含み得る。スコアの各スコアは、異なる別個の用途のうちの用途に対するフレームの適合性の決定された尺度を示し得る。方法は、コンピューティングデバイスによって、複数の異なる別個のフレームのうちの1つまたは複数のフレームの各フレームについて、フレームについてのスコアのうちの少なくとも1つを示すデータを、要求側アプリケーションに、APIを介して通信することをさらに含み得る。
本開示の別の例示的態様はシステムを対象とする。システムは、1つまたは複数のプロセッサと、プロセッサによって実行されるとき、システムに動作を実施させる命令を記憶するメモリとを含み得る。動作は、複数の異なる別個のフレームを含む画像を記述するデータを受け取ることを含み得る。動作はまた、1つまたは複数のMLモデルと画像を記述するデータとに少なくとも部分的に基づいて、複数の異なる別個のフレームの各フレームについて、フレームについての1つまたは複数のスコアを決定することをも含み得る。スコアの各スコアは、MLモデルがそれに対する画像の適合性を決定するように構成される様々な異なる別個の用途のうちの1つまたは複数に対するフレームの適合性の決定された尺度を示し得る。
本開示の別の例示的態様は、1つまたは複数の非一時的コンピュータ可読媒体を対象とする。非一時的コンピュータ可読媒体は、1つまたは複数のコンピューティングデバイスによって実行されるとき、コンピューティングデバイスに動作を実施させる命令を含み得る。動作は、1つまたは複数のMLモデルを利用して、複数の異なる別個のフレームを含む画像を記述するデータに少なくとも部分的に基づいて、複数の異なる別個のフレームの各フレームについて、フレームについての1つまたは複数のスコアを決定することを含み得る。スコアの各スコアは、MLモデルがそれに対する画像の適合性を決定するように構成される様々な異なる別個の用途のうちの1つまたは複数に対するフレームの適合性の決定された尺度を示し得る。
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
以下の説明および添付の特許請求の範囲を参照すると、本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点をより良く理解されよう。本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本開示の例示的実施形態を示し、説明と共に、関連する原理を明らかにする働きをする。
当業者を対象とする実施形態の詳細な議論が本明細書において記述され、本明細書は添付の図を参照する。
本開示の例示的実施形態による例示的コンピューティング環境を示す図である。 本開示の例示的実施形態による例示的イベントシーケンスを示す図である。 本開示の例示的実施形態による例示的イベントシーケンスを示す図である。 本開示の例示的実施形態による例示的グラフィカルユーザインターフェース(GUI)を示す図である。 本開示の例示的実施形態による例示的グラフィカルユーザインターフェース(GUI)を示す図である。 本開示の例示的実施形態による例示的グラフィカルユーザインターフェース(GUI)を示す図である。 本開示の例示的実施形態による例示的グラフィカルユーザインターフェース(GUI)を示す図である。 本開示の例示的実施形態による例示的コンピューティングプラットフォームを示す図である。 本開示の例示的実施形態による例示的方法を示す図である。
本開示の例示的態様は、1つまたは複数の機械学習(ML)モデルを使用して画像を処理することを対象とする。具体的には、1つまたは複数のコンピューティングデバイスが、複数の異なる別個のフレームを含む画像を記述するデータ(たとえば、個々の静止イメージ、ならびに/あるいは1つまたは複数のビデオの構成要素フレームなど)を受け取り得る。1つまたは複数のMLモデルと画像を記述するデータとに少なくとも部分的に基づいて、コンピューティングデバイスは、複数の異なる別個のフレームの各フレームについて、フレームについての1つまたは複数のスコアを決定し得る。スコアの各スコアは、MLモデルがそれに対する画像の適合性を決定するように構成される様々な異なる別個の用途のうちの1つまたは複数に対するフレームの適合性の決定された尺度を示し得る。
そのような用途には、たとえば、特定のアプリケーション(たとえば、eメールアプリケーション、メッセージングアプリケーション、および/またはソーシャルメディアアプリケーションなど)を伴う用途、特定のオーディエンス(たとえば、公衆全体、メッセージンググループ、特定の受信側のリスト、友人、家族、および/または職場の同僚など)を伴う用途、順次的なプレゼンテーション(たとえば、スライドショーおよび/またはモンタージュなど)についてのフレームのシリーズへの包含、ならびに/あるいは関連フレームのアルバム、セット、および/またはシリーズなどについての標本、サムネイル、および/またはカバーなどとしての用途などが含まれ得る。
いくつかの実施形態では、コンピューティングデバイスは、MLモデルを使用して画像を処理し、たとえば様々な異なる別個の用途のうちの1つまたは複数に適していると判定された画像を識別するためのアプリケーションプログラミングインターフェース(API)を提供し得る。そのような実施形態のうちのいくつかでは、コンピューティングデバイスは、APIを介して(たとえば、要求側アプリケーションなどから)画像を記述するデータを受け取り得る。いくつかの実施形態では、コンピューティングデバイスは、複数の異なる別個のフレームのうちの1つまたは複数のフレームの各フレームについて、フレームについてのスコアのうちの少なくとも1つを示すデータを(たとえば、APIを介して、要求側アプリケーションなどに)通信し得る。そのようなデータに少なくとも部分的に基づいて、そのような実施形態のうちのいくつかでは、コンピューティングデバイスは、(たとえば、プレゼンテーション、ブラウジング、および/または操作などのための)キュレーションを含むインターフェースを記述するデータを生成し得る。
いくつかの実施形態では、コンピューティングデバイスは、複数の異なる別個のフレーム内に含まれるフレームのセット内の1つまたは複数のフレームについて、セット内のフレームがセット内の互いのフレームよりも様々な異なる別個の用途のうちの1つまたは複数の特定の用途に適していると判定されることを示す1つまたは複数のスコアを決定し得る。そのような実施形態のうちのいくつかでは、コンピューティングデバイスは、特定の用途を示すデータを(たとえば、そのような用途に適している1つまたは複数のフレームを識別するための要求などに関連して)(たとえば、APIを介して、かつ/または要求側アプリケーションから、など)受け取り得る。
いくつかの実施形態では、フレームのセットは、同時に生成された類似のフレームのシリーズ(たとえば、バーストおよび/またはストリームなど)を含み得る。シリーズ内の各フレームは、シリーズ内の互いのフレームと共有される1つまたは複数の被写体(たとえば、焦点の人々、動物、および/または物体など)と、シリーズ内の互いのフレームと共有される1つまたは複数の被写体の(たとえば、設定および/または周囲の環境などに関連する)コンテキスト背景とを含み得る。追加または代替として、フレームのセットは、フレームの複数の異なる別個のシリーズからのフレームを含む、異なる別個のフレームのセットを含み得る。そのようなセット内の各フレームは、そのようなセット内の互いのフレームとは異なる別個の1つまたは複数の被写体、および/またはそのようなセット内の互いのフレームとは異なる別個の、そのようなセット内のフレームの1つまたは複数の被写体のコンテキスト背景を含み得る。
いくつかの実施形態では、コンピューティングデバイスは、複数の異なる別個のフレームの1つまたは複数の特定の被写体、複数の異なる別個のフレームの被写体によって示される1つまたは複数の特定の表現(たとえば、微笑み、見開いた目、および/または笑いなど)、ならびに/あるいは複数の異なる別個のフレームによって示される1つまたは複数の特定のイベント(たとえば、スポーツイベントにおいて得点することなど)などを示すデータを(たとえば、APIを介して、要求側アプリケーションから、かつ/あるいは1つまたは複数のフレームを識別するための要求に関連して、など)受け取り得る。そのような実施形態のうちのいくつかでは、複数の異なる別個のフレームのそれぞれについてのスコアを決定することは、複数の異なる別個のフレームの中から、特定の被写体、表現、および/またはイベントなどをそれぞれ含むフレームのセットを識別することを含み得る。
いくつかの実施形態では、コンピューティングデバイスは、(たとえば、スライドショーおよび/またはモンタージュなどへの包含のために1つまたは複数のフレームを識別するための要求に関連して)1つまたは複数のフレームのそれぞれについて(たとえば、そのようなフレームについてのスコアなどに少なくとも部分的に基づいて)、順次的なプレゼンテーションについてのフレームのシリーズ内のフレームの位置を決定し得る。そのような実施形態のうちのいくつかでは、コンピューティングデバイスは、そのようなフレームの各フレームについて、順次的なプレゼンテーションについてのフレームのシリーズ内のフレームの位置を示すデータを(たとえば、APIを介して、かつ/または要求側アプリケーションに、など)通信し得る。
いくつかの実施形態では、画像を記述するデータが、画像内に含まれるピクセル(たとえば、画像の視覚的内容など)の1つまたは複数の配置に少なくとも部分的に基づいて生成され得るが、(たとえば、プライバシーの問題などを軽減するために)そのような配置の再構築を可能にするには十分ではないことがある。
いくつかの実施形態では、コンピューティングデバイスは、他の画像およびそのような画像に関するユーザ入力を記述するデータ(たとえば、トレーニングデータなど)に少なくとも部分的に基づいて、MLモデルを生成し得る。いくつかの実施形態では、そのような他の画像およびユーザ入力を記述するデータは、複数の異なる別個のフレームを含む画像を記述するデータがそこから受け取られる特定のユーザデバイスから受け取られ得る。追加または代替として、他の画像およびユーザ入力を記述するデータは、複数の異なる別個のフレームを含む画像を記述するデータがそこから受け取られる特定のユーザデバイスとは異なる別個の1つまたは複数のユーザデバイスから受け取られ得る。
いくつかの実施形態では、MLモデルは、ニューラルネットワーク(たとえば、ディープニューラルネットワークなど)、非線形モデル、線形モデル、および/または多層モデルなどを含む他のタイプのMLモデルなどの様々なMLモデルであり、あるいは含む、などであり得る。ニューラルネットワークは、フィードフォワードニューラルネットワーク、再帰型ニューラルネットワーク(たとえば、長短期記憶再帰型ニューラルネットワークなど)、畳込みニューラルネットワーク、および/または他の形態のニューラルネットワークなどを含み得る。いくつかの実施形態では、MLモデルは、教師あり技法、半教師あり技法、および/または教師なし技法などであり得る。
本明細書において説明される技術は、いくつかの技術的効果および利点をもたらし得る。たとえば、本明細書において説明される技術は、1つまたは複数の特定の用途に適している画像(たとえば、1つまたは複数のフレーム、フレームのセット、および/またはフレームのシリーズなど)の効率的な識別、組織、および/または生成などを可能にし得、普通なら必要とされるユーザの労力およびデバイス対話を不要にし、または削減し、それによって、コンピューティングリソース(たとえば、エネルギー、処理サイクル、および/またはネットワーク帯域幅など)を節約する。
次に図を参照しながら、本開示の例示的実施形態がさらに詳細に論じられる。
図1は、本開示の例示的実施形態による例示的コンピューティング環境を示す。
図1を参照すると、環境100は、1つまたは複数のコンピューティングデバイス(たとえば、1つまたは複数のデスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルデバイス、スマートフォン、ウェアラブルデバイス、および/またはサーバなど)を含み得る。たとえば、環境100は、コンピューティングデバイス10、20、30、40、および50と、コンピューティングシステム112とを含み得、コンピューティングシステム112は、1つまたは複数のコンピューティングデバイスを含み得る。環境100はまた、1つまたは複数のネットワーク110(たとえば、1つまたは複数の有線ネットワークおよび/またはワイヤレスネットワークなど)をも含み得る。ネットワーク110は、コンピューティングデバイス10、20、30、40、および/または50を互いに、かつ/またはコンピューティングシステム112とインターフェースし得る。
コンピューティングデバイス10は、1つまたは複数のプロセッサ102、1つまたは複数の通信インターフェース104、およびメモリ106(たとえば、実行可能命令および/またはデータなどを記憶するための1つまたは複数のハードウェア構成要素)を含み得る。通信インターフェース104は、コンピューティングデバイス10がコンピューティングデバイス20、30、40、および/または50と、かつ/またはコンピューティングシステム112と通信することを可能にし得る。メモリ106は命令108を含み(たとえば、記憶するなど)得る。プロセッサ102によって実行されるとき、命令108は、コンピューティングデバイス10に、本明細書において記載される1つまたは複数の動作および/または機能などを実施させ得る。コンピューティングデバイス20、30、40、および/または50がコンピューティングデバイス10に関して上記で説明された構成要素のうちの1つまたは複数を含み得ることを理解されよう。
コンピューティングシステム112は、1つまたは複数のプロセッサ114、1つまたは複数の通信インターフェース116、およびメモリ118(たとえば、実行可能命令および/またはデータなどを記憶するための1つまたは複数のハードウェア構成要素)を含み得る。通信インターフェース116は、コンピューティングシステム112がコンピューティングデバイス10、20、30、40、および/または50と通信することを可能にし得る。メモリ118は命令120を含み(たとえば、記憶するなど)得る。プロセッサ114によって実行されるとき、命令120は、コンピューティングシステム112に、本明細書において説明される1つまたは複数の動作および/または機能などを実施させ得る。
別段に明示されていない限り、本明細書において説明される動作および/または機能は、コンピューティングデバイス10、20、30、40、および/または50、ならびに/あるいはコンピューティングシステム112によって(たとえば、コンピューティングデバイス10、20、30、40、または50によって、コンピューティングシステム112によって、かつ/またはコンピューティングデバイス10、20、30、40、および/または50ならびに/あるいはコンピューティングシステム112のうちの1つまたは複数の組合せなどによって)実施され得る。
図2Aおよび図2Bは、本開示の例示的実施形態による例示的イベントシーケンスを示す。
図2Aを参照すると、(202)において、コンピューティングデバイス40が、画像を記述するデータ、画像の1つまたは複数の特徴、ならびに/あるいは画像が良く適している1つまたは複数の用途などを生成し得、(たとえば、(ネットワーク110から下方に延びる線上のパターンで埋められたボックスによって示されるように)ネットワーク110を介して、など)コンピューティングシステム112にそのようなデータを通信し得、コンピューティングシステム112はデータを受け取り得る。同様に、(204)において、コンピューティングデバイス50が、画像を記述するデータ、画像の1つまたは複数の特徴、ならびに/あるいは画像が良く適している1つまたは複数の用途などを生成し得、コンピューティングシステム112にそのようなデータを通信し得、コンピューティングシステム112はデータを受け取り得る。
(206)において、画像に関するユーザ入力がコンピューティングデバイス10を介して提供され得(たとえば、画像が、良く適している1つまたは複数の特定の目的などで利用され得)、(208)において、コンピューティングデバイス10は、(たとえば、ユーザ入力などに少なくとも部分的に基づいて)画像を記述するデータ、画像の1つまたは複数の特徴、ユーザ入力、ならびに/あるいは画像が良く適している1つまたは複数の用途などを生成し得、コンピューティングシステム112にそのようなデータを通信し得、コンピューティングシステム112はデータを受け取り得る。同様に、(210)において、画像に関するユーザ入力がコンピューティングデバイス20を介して提供され得、(212)において、コンピューティングデバイス20は、(たとえば、ユーザ入力などに少なくとも部分的に基づいて)画像を記述するデータ、画像の1つまたは複数の特徴、ユーザ入力、ならびに/あるいは画像が良く適している1つまたは複数の用途などを生成し得、コンピューティングシステム112にそのようなデータを通信し得、コンピューティングシステム112はデータを受け取り得、(214)において、画像に関するユーザ入力がコンピューティングデバイス30を介して提供され得、(216)において、コンピューティングデバイス30は、(たとえば、ユーザ入力などに少なくとも部分的に基づいて)画像を記述するデータ、画像の1つまたは複数の特徴、ユーザ入力、ならびに/あるいは画像が良く適している1つまたは複数の用途などを生成し得、コンピューティングシステム112にそのようなデータを通信し得、コンピューティングシステム112はデータを受け取り得る。
たとえば、コンピューティングデバイス10はユーザデバイス(たとえば、特定のユーザおよび/またはユーザアカウントなどに少なくとも一時的に関連付けられた1つまたは複数の関連するコンピューティングデバイス)であり得る。同様に、コンピューティングデバイス20は、コンピューティングデバイス10とは異なる別個のユーザデバイス(たとえば、異なる別個のユーザおよび/またはユーザアカウントなどに少なくとも一時的に関連付けられた1つまたは複数の関連するコンピューティングデバイス)であり得、コンピューティングデバイス30は、コンピューティングデバイス10および20とは異なる別個のユーザデバイス(たとえば、さらに異なる別個のユーザおよび/またはユーザアカウントなどに少なくとも一時的に関連付けられた1つまたは複数の関連するコンピューティングデバイス)であり得る。
コンピューティングデバイス10、20、および/または30は、1つまたは複数の異なる別個のアプリケーションを実行し得る。たとえば、図3Aを参照すると、コンピューティングデバイス10、20、および/または30は、グラフィカルユーザインターフェース(GUI)要素302などに関連付けられたアプリケーション(たとえば、写真管理アプリケーションなど)を実行し得る。
図3Bを参照すると、いくつかの実施形態では(たとえば、プライバシーの問題などを軽減するために)、コンピューティングデバイス10、20、および/または30の1人または複数のユーザは、一定のデータなどの収集に関する情報、本明細書において説明される方法、システム、機能、および/または動作などが一定のデータなど(たとえば、画像を記述するデータ、画像の1つまたは複数の特徴、ユーザ入力、および/または画像が良く適している1つまたは複数の用途など)の収集を可能にし得る場合および/またはときに関してユーザが1つまたは複数の選択を行うことを可能にするための(たとえば、要素306および/または308などを介する)1つまたは複数の制御などの提供を(たとえば、要素304などを介して)受け得る。追加または代替として、一定のデータ(たとえば、画像を記述するデータ、画像の1つまたは複数の特徴、ユーザ入力、および/または画像が良く適している1つまたは複数の用途など)が、記憶および/または利用などが行われる前に、1つまたは複数の方式で扱われ得る(たとえば、非常に個人を特定可能な情報が除去され得、かつ/または画像の下にある視覚的内容が除去、抽象化され得る、など)。たとえば、ユーザに関連するユーザの識別、画像、および/またはデータなどが、ユーザについて個人を特定可能な情報が決定できないように、画像の下にある視覚的内容が識別および/または再構築などができないように扱われ得る。したがって、ユーザは、ユーザについてどんなデータが収集されるか、その情報がどのように使用されるか、かつ/またはユーザにどんな情報が提供されるかなどに関する制御を有し得る。
本開示の1つまたは複数の態様によれば、コンピューティングシステム112ならびに/あるいはコンピューティングデバイス10、20、および/または30は、1つまたは複数の機械学習(ML)モデルを使用して画像を処理し、たとえばMLモデルがそれに対する画像の適合性を決定するように構成される様々な異なる別個の用途のうちの1つまたは複数に適していると判定された画像を識別するなどのためのアプリケーションプログラミングインターフェース(API)を提供し得る。いくつかの実施形態では、画像、画像の1つまたは複数の特徴、ユーザ入力、ならびに/あるいは画像が良く適している1つまたは複数の用途などを記述する(たとえば、(208)、(212)、および/または(216)などにおいて通信された)データが、APIなどを介して通信され得る。様々な異なる別個の用途には、たとえば、特定のアプリケーション(たとえば、eメールアプリケーション、メッセージングアプリケーション、および/またはソーシャルメディアアプリケーションなど)を伴う用途、特定のオーディエンス(たとえば、公衆全体、メッセージンググループ、特定の受信側のリスト、友人、家族、および/または職場の同僚など)を伴う用途、順次的なプレゼンテーション(たとえば、スライドショーおよび/またはモンタージュなど)についてのフレームのシリーズへの包含、ならびに/あるいは関連フレームのアルバム、セット、および/またはシリーズなどについての標本、サムネイル、および/またはカバーなどとしての用途などが含まれ得る。
図2Bを参照すると、(218)において、コンピューティングシステム112は、(たとえば、(202)、(204)、(208)、(212)、および/または(216)などにおいて通信されたデータに少なくとも部分的に基づいて)データを生成し得、コンピューティングデバイス10にそのようなデータを通信し得、コンピューティングデバイス10はデータを受け取り得る。
(220)において、様々な異なる別個の用途に対する画像の適合性を決定するように構成されたMLモデルが生成され得る。たとえば、(220A)において、コンピューティングデバイス10は、(たとえば、(208)および/または(218)などにおいて通信されたデータに少なくとも部分的に基づいて)そのようなMLモデルのうちの1つまたは複数を生成し得る。追加または代替として、(220B)において、コンピューティングシステム112は、(たとえば、(202)、(204)、(208)、(212)、および/または(216)などにおいて通信されたデータに少なくとも部分的に基づいて)MLモデルのうちの1つまたは複数を生成し得る。
図4は、本開示の例示的実施形態による例示的コンピューティングプラットフォームを示す。
図4を参照すると、コンピューティングデバイス10および/またはコンピューティングシステム112が、1つまたは複数の異なる別個のアプリケーション402、404、および/または406を実行し得る。たとえば、アプリケーション402は、要素302などに関連付けられたアプリケーション(たとえば、写真管理アプリケーションなど)であり得る。コンピューティングデバイス10および/またはコンピューティングシステム112はまた、MLプラットフォーム408をも実行し得、MLプラットフォーム408は、機械学習(ML)モデルを使用して画像を処理するためのAPIを提供し得る。そのようなAPIは、(たとえば、1つまたは複数の呼出しおよび/または戻りなどを介して)MLプラットフォーム408と、アプリケーション402、404、および/または406とをインターフェースし、かつ/またはそれらの間の通信などを可能にし得る。コンピューティングデバイス20および/または30がコンピューティングデバイス10および/またはコンピューティングシステム112に関して説明されたのと同様の(たとえば、MLプラットフォーム408などに関連する)機能を提供し得ることを理解されよう。
MLプラットフォーム408はモデルリポジトリ414とインターフェースし得、モデルリポジトリ414は、たとえば、実例データベース410内に含まれる1つまたは複数の例(たとえば、トレーニングデータなど)に少なくとも部分的に基づいて、1つまたは複数のMLエンジン412によって生成された1つまたは複数のMLモデル416、418、および/または420(たとえば、様々な異なる別個の用途に対する画像の適合性などを決定するように構成されたMLモデル)を含み得る。そのような例には、たとえば、(208)、(212)、および/または(216)などにおいて(たとえば、アプリケーション402、404、および/または406から、かつ/またはAPIを介して、など)通信されたデータ、(202)、(204)、および/または(218)などにおいて通信されたデータに少なくとも部分的に基づいて、たとえば、MLプラットフォーム408によって管理および/または生成などが行われた1つまたは複数の例が含まれる。
いくつかの実施形態では、MLモデル416、418、および/または420は、ニューラルネットワーク(たとえば、ディープニューラルネットワークなど)、非線形モデル、線形モデル、および/または多層モデルなどを含む他のタイプのMLモデルなどの様々なMLモデルであり、あるいは含む、などであり得る。ニューラルネットワークは、フィードフォワードニューラルネットワーク、再帰型ニューラルネットワーク(たとえば、長短期記憶再帰型ニューラルネットワークなど)、畳込みニューラルネットワーク、および/または他の形態のニューラルネットワークなどを含み得る。いくつかの実施形態では、MLモデル416、418、および/または420は、教師あり技法、半教師あり技法、および/または教師なし技法などを使用してトレーニングされ得る。
図2Bに戻ると、(222)において、画像に関するユーザ入力がコンピューティングデバイス10を介して提供され得、(224)において、コンピューティングデバイス10は、(たとえば、ユーザ入力などに少なくとも部分的に基づいて)画像を記述するデータ、画像の1つまたは複数の特徴、ならびに/あるいはユーザ入力などを生成し得、(たとえば、MLプラットフォーム408によって提供されるAPIなどを介して)コンピューティングシステム112にそのようなデータを通信し得、コンピューティングシステム112はデータを受け取り得る。画像は、複数の異なる別個のフレーム(たとえば、個々の静止イメージ、ならびに/あるいは1つまたは複数のビデオの構成要素フレームなど)を含み得る。
たとえば、図3Cを参照すると、図示されるGUIの部分310がアプリケーション402(たとえば、写真管理アプリケーションなど)に関連付けられ得、1つまたは複数の部分312、314、および/または316、ならびに要素318を含み得る。画像がアプリケーション402を介して選択され得、選択された画像は複数の異なる別個のフレームを含み得る。たとえば、画像は、部分312内で識別される1つまたは複数の選択されたアルバム内に含まれる画像からの1つまたは複数のフレーム、部分314内で識別される、選択された画像からの1つまたは複数のフレーム、ならびに/あるいは部分316内で識別される1つまたは複数の選択されたビデオ内に含まれる画像からの1つまたは複数のフレームなどを含み得る。要素318が起動されたことに応答して(たとえば、MLモデル416、418、および/または420がそれについて画像の適合性などを決定するために構成される様々な異なる別個の用途のうちの1つまたは複数に適していると判定された選択された画像内の1つまたは複数のフレームを識別するための、アプリケーション402を介する要求に関連して)、コンピューティングデバイス10は、選択された画像、ならびに/あるいは選択された画像の1つまたは複数の特徴などを記述するデータを生成し得、(たとえば、MLプラットフォーム408によって提供されるAPIなどを介して)コンピューティングシステム112にそのようなデータを通信し得、コンピューティングシステム112はデータを受け取り得る。
いくつかの実施形態では、本明細書において説明されるデータ(たとえば、(202)、(204)、(208)、(212)、(216)、(218)、および/または(224)などにおいて通信されたデータ)の1つまたは複数の部分が、画像内に含まれるピクセル(たとえば、画像の視覚的内容など)の1つまたは複数の配置に少なくとも部分的に基づいて生成され得るが、(たとえば、プライバシーの問題などを軽減するために)そのような配置の再構築を可能にするには十分ではないことがある。
図2Bに戻ると、(226)において、MLモデル416、418、および/または420と、選択された画像を記述するデータとに少なくとも部分的に基づいて、1つまたは複数のスコアが、選択された画像の複数の異なる別個のフレームの各フレームについて決定され得る。スコアのそれぞれは、MLモデル416、418、および/または420がそれに対する画像の適合性を決定するように構成される様々な異なる別個の用途のうちの1つまたは複数に対するフレームの適合性の決定された尺度を示し得る。たとえば、(226A)において、コンピューティングデバイス10は、MLモデル416、418、および/または420を利用して、選択された画像の複数の異なる別個のフレームのうちの1つまたは複数についての1つまたは複数のそのようなスコアを決定し得る。追加または代替として、(226B)において、コンピューティングシステム112は、MLモデル416、418、および/または420を利用して、選択された画像の複数の異なる別個のフレームのうちの1つまたは複数についての1つまたは複数のそのようなスコアを決定し得る。
いくつかの実施形態では、MLモデル416、418、および/または420のうちのどれを利用してそのようなスコアを決定するかが(たとえば、MLモデル416、418、および/または420がそれに対する画像の適合性を決定するように構成される様々な異なる別個の用途のうちの1つまたは複数に適していると判定された、選択された画像内の1つまたは複数のフレームを識別するための要求に関連して、アプリケーション402から、MLプラットフォーム408によって提供されるAPIを介して受け取られるデータによって)指定され得る。
いくつかの実施形態では、コンピューティングデバイス10および/またはコンピューティングシステム112は、複数の異なる別個のフレーム内に含まれるフレームのセット内の1つまたは複数のフレームについて、セット内のフレームがセット内の互いのフレームよりも様々な異なる別個の用途のうちの1つまたは複数の特定の用途に適していると判定されることを示す1つまたは複数のスコアを決定し得る。そのような実施形態のうちのいくつかでは、コンピューティングデバイス10および/またはコンピューティングシステム112は、(たとえば、MLモデル416、418、および/または420がそれについて画像の適合性などを決定するために構成される様々な異なる別個の用途のうちの1つまたは複数に適していると判定された選択された画像内の1つまたは複数のフレームを識別するための要求に関連して)特定の用途を示すデータを(たとえば、MLプラットフォーム408によって提供されるAPIを介して、かつ/またはアプリケーション402から、など)受け取り得る。
いくつかの実施形態では、フレームのセットは、同時に生成された類似のフレームのシリーズ(たとえば、バーストおよび/またはストリームなど)を含み得る。シリーズ内の各フレームは、シリーズ内の互いのフレームと共有される1つまたは複数の被写体(たとえば、焦点の人々、動物、および/または物体など)と、シリーズ内の互いのフレームと共有される1つまたは複数の被写体の(たとえば、設定および/または周囲の環境などに関連する)コンテキスト背景とを含み得る。そのような実施形態のうちのいくつかでは、フレームについてのスコアが、リアルタイムおよび/またはほぼリアルタイムなどで決定され得、たとえば、同時に生成されたフレームのバッファからの(たとえば、1つまたは複数の特定の用途などに適していると判定された)1つまたは複数のフレームの選択が可能となり、たとえば、それによって1つまたは複数の特定のフレーム(たとえば、すべての被写体の目が同時に開いているショットなど)を取り込む際にユーザを援助する。追加または代替として、フレームのセットは、フレームの複数の異なる別個のシリーズからのフレームを含む、異なる別個のフレームのセットを含み得る。そのようなセット内の各フレームは、そのようなセット内の互いのフレームとは異なる別個の1つまたは複数の被写体、および/またはそのようなセット内の互いのフレームとは異なる別個の、そのようなセット内のフレームの1つまたは複数の被写体のコンテキスト背景を含み得る。
いくつかの実施形態では、コンピューティングデバイス10および/またはコンピューティングシステム112は、(たとえば、MLプラットフォーム408によって提供されるAPIを介して、アプリケーション402から、MLモデル416、418、および/または420がそれについて画像の適合性を決定するために構成される様々な異なる別個の用途のうちの1つまたは複数に適していると判定された選択された画像内の1つまたは複数のフレームを識別するための要求に関連して、など)複数の異なる別個のフレームの1つまたは複数の特定の被写体、複数の異なる別個のフレームの被写体によって示される1つまたは複数の特定の表現(たとえば、微笑み、見開いた目、および/または笑いなど)、ならびに/あるいは複数の異なる別個のフレームによって示される1つまたは複数の特定のイベント(たとえば、スポーツイベントにおいて得点することなど)などを示すデータを受け取り得る。そのような実施形態のうちのいくつかでは、複数の異なる別個のフレームの各フレームについてのスコアを決定することは、複数の異なる別個のフレームの中から、特定の被写体、表現、および/またはイベントなどをそれぞれ含むフレームのセットを識別することを含み得る。
いくつかの実施形態では、複数の異なる別個のフレームの各フレームについてのスコアを決定することは、フレームについて決定された1つまたは複数の品質メトリック(たとえば、イメージ品質、フォーカス、ぼけ、および/または露出などに関して)に少なくとも部分的に基づいてスコアを決定することを含み得る。追加または代替として、スコアを決定することは、1つまたは複数の特定の被写体および/または被写体のグループなどの出現および/または発生などを識別および/または計数することなどを含み得る。
いくつかの実施形態では、コンピューティングデバイス10および/またはコンピューティングシステム112は、(たとえば、スライドショーおよび/またはモンタージュなどへの包含のために1つまたは複数のフレームを識別するための要求に関連して)1つまたは複数のフレームの各フレームについて(たとえば、そのようなフレームについてのスコアなどに少なくとも部分的に基づいて)、順次的なプレゼンテーションについてのフレームのシリーズ内のフレームの位置を決定し得る。
いくつかの実施形態では、コンピューティングデバイス10および/またはコンピューティングシステム112は、シーン解析技術を利用して、1つまたは複数のフレームの各フレームについて、フレームについてのスコアのうちの1つまたは複数を決定し得る。たとえば、そのようなスコアのうちの1つまたは複数を決定するために、コンピューティングデバイス10および/またはコンピューティングシステム112は、参照によりその開示全体が本明細書に組み込まれる、2015年12月30日に出願された「SYSTEMS AND METHODS FOR SELECTIVE RETENTION AND EDITING OF IMAGES CAPTURED BY MOBILE IMAGE CAPTURE DEVICE」という名称の米国特許出願第14/984,628号に記載されている技術の1つまたは複数の態様を利用し得る。
(228)において、コンピューティングシステム112は、複数の異なる別個のフレームのうちの1つまたは複数の各フレームについて、フレームについてのスコアのうちの少なくとも1つ、ならびに/あるいは順次的なプレゼンテーションについてのフレームの1つまたは複数のシリーズ内のフレームの1つまたは複数の位置などを示すデータを生成し得、(たとえば、MLプラットフォーム408によって提供されるAPIを介して、かつ/またはアプリケーション402に、など)コンピューティングデバイス10にそのようなデータを通信し得、コンピューティングシステム10はデータを受け取り得る。
そのようなデータに少なくとも部分的に基づいて、(230)において、コンピューティングデバイス10は、出力、たとえばそのようなフレームの少なくとも一部の(たとえば、プレゼンテーション、ブラウジング、および/または操作などのための)キュレーションを含むインターフェースを記述するデータを生成し得る。たとえば、図3Dを参照すると、図示されるGUIの部分320が、特定のアプリケーション(たとえば、「Appp_1」など)に適していると判定された複数の異なる別個のフレームのうちの1つまたは複数を識別し得、部分322が、異なる別個のアプリケーション(たとえば、「Appp_N」など)に適していると判定された複数の異なる別個のフレームのうちの1つまたは複数を識別し得、部分324が、特定のオーディエンス(たとえば、「友人」など)に適していると判定された複数の異なる別個のフレームのうちの1つまたは複数を識別し得、部分326が、異なる別個のオーディエンス(たとえば、「公衆」など)に適していると判定された複数の異なる別個のフレームのうちの1つまたは複数を識別し得、部分328は、それについて適していると判定される1つまたは複数の特定の位置での複数の異なる別個のフレームのうちの1つまたは複数を含む順次的なプレゼンテーション(たとえば、「スライドショー」など)のためのフレームの1つまたは複数のシリーズを識別し得、かつ/または部分330は、それについて適していると判定される1つまたは複数の特定の位置での複数の異なる別個のフレームのうちの1つまたは複数を含む順次的なプレゼンテーション(たとえば、「モンタージュ」)のためのフレームの1つまたは複数の異なる別個のシリーズを識別し得る、などである。
図5は、本開示の例示的実施形態による例示的方法を示す。
図5を参照すると、(502)において、1つまたは複数のコンピューティングデバイスが、1つまたは複数のMLモデルを使用して画像を処理し、MLモデルがそれに対する画像の適合性を決定するように構成される1つまたは複数の異なる別個の用途に適していると判定された画像を識別するためのAPIを提供し得る。たとえば、コンピューティングデバイス10および/またはコンピューティングシステム112は、MLモデル416、418、および/または420を使用して画像を処理するためのAPI(たとえば、MLプラットフォーム408などによって提供されるAPI)を提供し得る。
(504)において、コンピューティングデバイスは、APIを介して、MLモデルを使用して処理するための複数の異なる別個のフレームを含む画像を記述するデータを受け取り得る。たとえば、コンピューティングデバイス10および/またはコンピューティングシステム112は、アプリケーション402を介して選択された画像を記述するデータを(たとえば、MLプラットフォーム408によって提供されるAPIなどを介して)受け取り得る。
(506)において、コンピューティングデバイスは、複数の異なる別個のフレームの各フレームについて、フレームについての1つまたは複数のスコアを決定し得、スコアの各スコアは、MLモデルがそれに対する画像の適合性を決定するように構成される異なる別個の用途のうちの1つまたは複数に対するフレームの適合性の決定された尺度を示す。たとえば、コンピューティングデバイス10および/またはコンピューティングシステム112は、MLモデル416、418、および/または420を利用して、アプリケーション402を介して選択された画像の複数の異なる別個のフレームの各フレームについて、フレームについての1つまたは複数のスコアを決定し得る。
(508)において、コンピューティングデバイスは、APIを介して、複数の異なる別個のフレームのうちの1つまたは複数のフレームの各フレームについて、フレームについてのスコアのうちの少なくとも1つを示すデータを通信し得る。たとえば、コンピューティングデバイス10および/またはコンピューティングシステム112は、(たとえば、MLプラットフォーム408によって提供されるAPIなどを介して)アプリケーション402を介して選択された画像の複数の異なる別個のフレームのうちの1つまたは複数のフレームの各フレームについて、フレームについてのスコアのうちの少なくとも1つを示すデータを通信し得る。
本明細書において論じられる技術は、サーバ、データベース、ソフトウェアアプリケーション、および/または他のコンピュータベースのシステム、ならびにそのようなシステムに対して行われる動作、およびそのようなシステムとの間で送られる情報を指す。コンピュータベースのシステムの固有の柔軟性は、構成要素間のタスクおよび/または機能の多種多様な可能な構成、組合せ、および/または分割を可能にする。たとえば、本明細書において論じられるプロセスは、単一のデバイスもしくは構成要素、および/または組み合わせて働く複数のデバイスもしくは構成要素を使用して実行され得る。データベースおよび/またはアプリケーションは、単一のシステム上で実装され、かつ/または複数のシステムにわたって分散され得る。分散された構成要素は順次および/または並列に動作し得る。
要素間の様々な接続が上記の説明において論じられた。これらの接続は一般的なものであり、別段に指定されない限り、直接的および/または間接的、有線および/またはワイヤレスであり得る。この点で、本明細書は限定的ではないものとする。
図示および/または説明されたステップは例示的なものに過ぎず、省略され、組み合わされ、かつ/または図示および/または説明された順序以外の順序で実施され得、図示されるステップの番号付けは、参照しやすいためのものに過ぎず、何らかの特定の順序が必要であり、または好ましいことを示唆しない。
本明細書において説明される機能および/またはステップは、コンピュータ使用可能データおよび/またはコンピュータ実行可能命令で実施され、本明細書において説明される1つまたは複数の機能を実施するために1つまたは複数のコンピュータおよび/または他のデバイスによって実行され得る。一般に、そのようなデータおよび/または命令は、コンピュータおよび/または他のデータ処理デバイス内の1つまたは複数のプロセッサによって実行されるときに、特定のタスクを実施し、かつ/または特定のデータタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。コンピュータ実行可能命令は、ハードディスク、光ディスク、取外し可能記憶媒体、固体メモリ、読取り専用メモリ(ROM)、および/またはランダムアクセスメモリ(RAM)などのコンピュータ可読媒体上に記憶され得る。理解されるように、そのような命令の機能は、必要に応じて組み合わされ、かつ/または分散され得る。さらに、機能は、集積回路、特定用途向け集積回路(ASIC)、および/またはフィールドプログラマブルゲートアレイ(FPGA)などのファームウェアおよび/またはハードウェア同等物で全体的または部分的に実施され得る。本開示の1つまたは複数の態様をより効果的に実行するために特定のデータ構造が使用され得、そのようなデータ構造は、本明細書において説明されるコンピュータ実行可能命令および/またはコンピュータ使用可能データの範囲内であることが企図される。
必須ではないが、本明細書において説明される様々な態様が方法、システム、装置、ならびに/あるいはコンピュータ実行可能命令を記憶する1つまたは複数のコンピュータ可読媒体として実施され得ることを当業者は理解されよう。したがって、態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、完全にファームウェアの実施形態、ならびに/あるいはソフトウェア、ハードウェア、および/またはファームウェア態様を任意の組合せで組み合わせる実施形態の形態を取り得る。
本明細書において説明されるように、様々な方法および/または動作は、1つまたは複数のコンピューティングデバイスおよび/またはネットワークを介して動作し得る。機能は、任意の方式で分散され得、または単一のコンピューティングデバイス(たとえば、サーバ、クライアントコンピュータ、および/またはユーザデバイスなど)内に配置され得る。
本開示の態様が、その例示的実施形態に関して説明された。添付の特許請求の範囲の範囲および精神の中の多数の他の実施形態、修正形態、および/または変形形態が、本開示の検討から当業者には思い浮かび得る。たとえば、列挙された順序以外の図示および/または説明されたステップが実施され得ること、ならびに/あるいは1つまたは複数の図示されるステップは任意選択であり得、かつ/または組み合わされることを当業者は理解し得る。以下の特許請求の範囲内のあらゆる特徴は、可能な任意の方式で組み合わされ、かつ/または再配置され得る。
その様々な特定の例示的実施形態に関して主題が詳細に説明されたが、各例が開示の制限としてではなく、説明として与えられる。上記の理解を得たとき、当業者はそのような実施形態の変更形態、変形形態、および/または同等物を容易に生成し得る。したがって、本開示は、当業者には容易に明らかであるように、この主題に対するそのような修正、変形、および/または追加を含めることを除外しない。たとえば、一実施形態の部分として図示および/または説明された特徴が、別の実施形態で使用され、別の実施形態がもたらされ得る。したがって、本開示はそのような変更、変形形態、および/または同等物を包含するものとする。
10 コンピューティングデバイス
20 コンピューティングデバイス
30 コンピューティングデバイス
40 コンピューティングデバイス
50 コンピューティングデバイス
100 環境
102 プロセッサ
104 通信インターフェース
106 メモリ
108 命令
110 ネットワーク
112 コンピューティングシステム
114 プロセッサ
116 通信インターフェース
118 メモリ
120 命令
302 グラフィカルユーザインターフェース(GUI)要素
304 GUI要素
306 GUI要素
308 GUI要素
310 GUIの部分
312 GUIの部分
314 GUIの部分
316 GUIの部分
320 GUIの部分
322 GUIの部分
324 GUIの部分
326 GUIの部分
328 GUIの部分
330 GUIの部分
318 グラフィカルユーザインターフェース(GUI)要素
402 アプリケーション
408 MLプラットフォーム
410 実例データベース
412 MLエンジン
416 MLモデル
418 MLモデル
420 MLモデル

Claims (19)

1つまたは複数のコンピューティングデバイスによって、画像を処理し、1つまたは複数の異なる別個の用途に適していると判定された画像を識別するように構成された1つまたは複数の機械学習(ML)モデルを提供するステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記1つまたは複数のMLモデルを使用して処理するための複数の異なる別個のフレームを含む画像を記述するデータを受け取るステップであって、前記複数の異なる別個のフレームが同時に生成された類似のフレームのシリーズを含む、ステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記1つまたは複数のMLモデルと前記画像を記述する前記データとに少なくとも部分的に基づいて、前記複数の異なる別個のフレームの各フレームについて、前記フレームについての1つまたは複数のスコアを決定するステップであって、前記1つまたは複数のスコアの各スコアが、前記1つまたは複数の異なる別個の用途のうちの1つの用途に対する前記フレームの適合性の決定された尺度を示す、ステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記複数の異なる別個のフレームのうちの1つまたは複数のフレームの各フレームについて、前記フレームについての前記1つまたは複数のスコアのうちの少なくとも1つを示すデータを通信するステップであって、前記1つまたは複数のコンピューティングデバイスによって、前記複数の異なる別個のフレームのうちの1つまたは複数のフレームの各フレームについて、前記フレームについての前記1つまたは複数のスコアのうちの少なくとも1つを示すデータを通信するステップが、写真管理アプリケーション内のグラフィカルユーザインターフェースを提供するステップを含み、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズから複数の画像フレームを同時に示し、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズから前記用途に適していると決定されたフレームを識別し、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズ内の前記フレームの位置を示す、ステップ
を含む、コンピュータ実装方法。
記1つまたは複数のコンピューティングデバイスによって、前記複数の異なる別個のフレームのうちの1つまたは複数のフレームの各フレームについて、前記フレームについての前記1つまたは複数のスコアのうちの少なくとも1つを示すデータを通信するステップが、前記同時に生成された類似のフレームのシリーズのバッファから前記用途に適していると判定されたフレームを選択するステップを含む、請求項1に記載のコンピュータ実装方法。
記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームのシリーズの前記バッファから前記用途に適していると判定されたフレームを識別する、請求項2に記載のコンピュータ実装方法。
前記1つまたは複数の異なる別個の用途が特定のアプリケーションを伴う用途を含み、
前記決定するステップが、前記複数の異なる別個のフレーム内に含まれるフレームのセット内の1つまたは複数のフレームについて、前記セット内の前記1つまたは複数のフレームが前記セット内の互いのフレームよりも前記特定のアプリケーションを伴う用途に適していると判定されることを示す1つまたは複数のスコアを決定するステップを含む、請求項1に記載のコンピュータ実装方法。
前記1つまたは複数の異なる別個の用途が特定のオーディエンスを伴う用途を含み、
前記決定するステップが、前記複数の異なる別個のフレーム内に含まれるフレームのセット内の1つまたは複数のフレームについて、前記セット内の前記1つまたは複数のフレームが前記セット内の互いのフレームよりも前記特定のオーディエンスを伴う用途に適していると判定されることを示す1つまたは複数のスコアを決定するステップを含む、請求項1に記載のコンピュータ実装方法。
前記1つまたは複数のコンピューティングデバイスによって、前記複数の異なる別個のフレームの1つまたは複数の特定の被写体を示すデータを受け取るステップを含み、
前記決定するステップが、
前記複数の異なる別個のフレームの中から、前記1つまたは複数の特定の被写体をそれぞれ含むフレームのセットを識別するステップと、
フレームの前記セット内の1つまたは複数のフレームについて、前記セット内の前記1つまたは複数のフレームが前記セット内の互いのフレームよりも前記1つまたは複数の異なる別個の用途のうちの特定の用途に適していると判定されることを示す1つまたは複数のスコアを決定するステップと
を含む、請求項1に記載のコンピュータ実装方法。
前記1つまたは複数のコンピューティングデバイスによって、前記複数の異なる別個のフレームの被写体によって示される1つまたは複数の特定の表現を示すデータを受け取るステップを含み、
前記決定するステップが、
前記複数の異なる別個のフレームの中から、前記1つまたは複数の特定の表現をそれぞれ含むフレームのセットを識別するステップと、
フレームの前記セット内の1つまたは複数のフレームについて、前記セット内の前記1つまたは複数のフレームが前記セット内の互いのフレームよりも前記1つまたは複数の異なる別個の用途のうちの特定の用途に適していると判定されることを示す1つまたは複数のスコアを決定するステップと
を含む、請求項1に記載のコンピュータ実装方法。
前記1つまたは複数のコンピューティングデバイスによって、前記複数の異なる別個のフレームによって示される1つまたは複数の特定のイベントを示すデータを受け取るステップを含み、
前記決定するステップが、
前記複数の異なる別個のフレームの中から、前記1つまたは複数の特定のイベントをそれぞれ示すフレームのセットを識別するステップと、
フレームの前記セット内の1つまたは複数のフレームについて、前記セット内の前記1つまたは複数のフレームが前記セット内の互いのフレームよりも前記1つまたは複数の異なる別個の用途のうちの特定の用途に適していると判定されることを示す1つまたは複数のスコアを決定するステップと
を含む、請求項1に記載のコンピュータ実装方法。
前記1つまたは複数のコンピューティングデバイスによって、前記1つまたは複数のスコアのうちの前記少なくとも1つを示す前記データに少なくとも部分的に基づいて、前記1つまたは複数のフレームのうちの少なくとも一部のキュレーションを含むインターフェースを記述するデータを生成するステップを含む、請求項1に記載のコンピュータ実装方法。
前記画像を記述する前記データを受け取るステップが、
前記画像内に含まれるピクセルの1つまたは複数の配置に少なくとも部分的に基づいて生成され、
前記画像内に含まれる前記ピクセルの前記1つまたは複数の配置の再構築を可能にするには十分ではない
データを受け取るステップを含む、請求項1に記載のコンピュータ実装方法。
前記1つまたは複数のコンピューティングデバイスによって、前記1つまたは複数のフレームの各フレームについて、前記フレームについての前記1つまたは複数のスコアのうちの前記少なくとも1つに少なくとも部分的に基づいて、順次的なプレゼンテーションについてのフレームのシリーズ内の前記フレームの位置を決定するステップと、
前記1つまたは複数のコンピューティングデバイスによって、1つまたは複数のフレームの各フレームについて、順次的なプレゼンテーションについてのフレームの前記シリーズ内の前記フレームの前記位置を示すデータを通信するステップと
を含む、請求項1に記載のコンピュータ実装方法。
前記画像を記述する前記データを受け取るステップが、特定のユーザデバイスから、前記画像を記述する前記データを受け取るステップを含み、
前記方法が、
前記1つまたは複数のコンピューティングデバイスによって、前記特定のユーザデバイスから、
他の画像を記述するデータと、
前記他の画像に対するユーザ入力を記述するデータと
を受け取るステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記他の画像を記述する前記データと前記他の画像に対する前記ユーザ入力を記述する前記データとに少なくとも部分的に基づいて、前記1つまたは複数のMLモデルを生成するステップと
を含む、請求項1に記載のコンピュータ実装方法。
前記画像を記述する前記データを受け取るステップが、特定のユーザデバイスから、前記画像を記述する前記データを受け取るステップを含み、
前記方法が、
前記1つまたは複数のコンピューティングデバイスによって、前記特定のユーザデバイスとは異なる別個の1つまたは複数のユーザデバイスから、
他の画像を記述するデータと、
前記他の画像に対するユーザ入力を記述するデータと
を受け取るステップと、
前記1つまたは複数のコンピューティングデバイスによって、前記他の画像を記述する前記データと前記他の画像に対する前記ユーザ入力を記述する前記データとに少なくとも部分的に基づいて、前記1つまたは複数のMLモデルを生成するステップと
を含む、請求項1に記載のコンピュータ実装方法。
システムであって、
1つまたは複数のプロセッサと、
命令を記憶するメモリであって、前記命令が、前記1つまたは複数のプロセッサによって実行されるとき、
複数の異なる別個のフレームを含む画像を記述するデータを受け取ることであって、前記複数の異なる別個のフレームが同時に生成された類似のフレームのシリーズを含む、ことと
1つまたは複数の機械学習(ML)モデルと前記画像を記述する前記データとに少なくとも部分的に基づいて、前記複数の異なる別個のフレームの各フレームについて、前記フレームについての1つまたは複数のスコアを決定することであって、前記1つまたは複数のスコアの各スコアが、前記1つまたは複数のMLモデルがそれに対する画像の適合性を決定するように構成される様々な異なる別個の用途のうちの1つまたは複数に対する前記フレームの適合性の決定された尺度を示す、決定すること、および
前記複数の異なる別個のフレームについて決定された前記スコアに少なくとも部分的に基づいて、前記1つまたは複数の様々な異なる別個の用途について適する前記フレームのうちの少なくとも1つを識別する、写真管理アプリケーション内のグラフィカルユーザインターフェースを提供することであって、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズから複数の画像フレームを同時に示し、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズから前記用途に適していると決定されたフレームを識別し、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズ内の前記フレームの位置を示す、こと
を含む動作を前記システムに実施させる、メモリと
を備えるシステム。
記シリーズ内の各フレームが、
前記シリーズ内の互いのフレームと共有される1つまたは複数の被写体と、
前記シリーズ内の互いのフレームと共有される前記1つまたは複数の被写体のコンテキスト背景と
を含み、
前記決定することが、前記シリーズ内の1つまたは複数のフレームについて、前記シリーズ内の前記1つまたは複数のフレームが前記シリーズ内の互いのフレームよりも前記様々な異なる別個の用途のうちの1つまたは複数のうちの特定の用途に適していると判定されることを示す1つまたは複数のスコアを決定することを含む、請求項14に記載のシステム。
前記複数の異なる別個のフレームが、フレームの複数の異なる別個のシリーズからのフレームを含む、異なる別個のフレームのセットを含み、前記セット内の各フレームが、
前記セット内の互いのフレームとは異なる別個の1つまたは複数の被写体、または
前記セット内の互いのフレームとは異なる別個の、前記セット内の前記フレームの1つまたは複数の被写体のコンテキスト背景
のうちの1つまたは複数を含み、
前記決定することが、前記セット内の1つまたは複数のフレームについて、前記セット内の前記1つまたは複数のフレームが前記セット内の互いのフレームよりも前記様々な異なる別個の用途のうちの前記1つまたは複数のうちの特定の用途に適していると判定されることを示す1つまたは複数のスコアを決定することを含む、請求項14に記載のシステム。
前記画像を記述する前記データを受け取ることが、特定のユーザデバイスから前記画像を記述する前記データを受け取ることを含み、
前記動作が、
前記特定のユーザデバイスから、
他の画像を記述するデータと、
前記他の画像に対するユーザ入力を記述するデータと
を受け取ること、および
前記他の画像を記述する前記データと前記他の画像に対する前記ユーザ入力を記述する前記データとに少なくとも部分的に基づいて、前記1つまたは複数のMLモデルを生成すること
を含む、請求項14に記載のシステム。
前記画像を記述する前記データを受け取ることが、特定のユーザデバイスから前記画像を記述する前記データを受け取ることを含み、
前記動作が、
前記特定のユーザデバイスとは異なる別個の1つまたは複数のユーザデバイスから、
他の画像を記述するデータと、
前記他の画像に対するユーザ入力を記述するデータと
を受け取ること、および
前記他の画像を記述する前記データと前記他の画像に対する前記ユーザ入力を記述する前記データとに少なくとも部分的に基づいて、前記1つまたは複数のMLモデルを生成すること
を含む、請求項14に記載のシステム。
命令を含む1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令が、1つまたは複数のコンピューティングデバイスによって実行されるとき、
複数の異なる別個のフレームを含む画像を取得することであって、前記複数の異なる別個のフレームが同時に生成された類似のフレームのシリーズを含む、ことと、
1つまたは複数の機械学習(ML)モデルを利用して、複数の異なる別個のフレームを含む画像を記述するデータに少なくとも部分的に基づいて、前記複数の異なる別個のフレームの各フレームについて、前記フレームについての1つまたは複数のスコアを決定することであって、前記1つまたは複数のスコアの各スコアが、前記1つまたは複数のMLモデルがそれに対する画像の適合性を決定するように構成される様々な異なる別個の用途のうちの1つまたは複数に対する前記フレームの適合性の決定された尺度を示す、ことと、
前記複数の異なる別個のフレームについて決定された前記スコアに少なくとも部分的に基づいて、前記フレームのうちの少なくとも1つを識別する、写真管理アプリケーション内のグラフィカルユーザインターフェースを提供することであって、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズから複数の画像フレームを同時に示し、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズから前記用途に適していると決定されたフレームを識別し、
前記グラフィカルユーザインターフェースが、前記同時に生成された類似のフレームの前記シリーズ中の前記フレームの位置を示す、こと
を含む動作を前記1つまたは複数のコンピューティングデバイスに実施させる、1つまたは複数の非一時的コンピュータ可読媒体。
JP2021174541A 2018-09-18 2021-10-26 画像を処理するための方法およびシステム Active JP7292349B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021174541A JP7292349B2 (ja) 2018-09-18 2021-10-26 画像を処理するための方法およびシステム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020555017A JP6969019B2 (ja) 2018-09-18 2018-09-18 画像を処理するための方法およびシステム
PCT/US2018/051523 WO2020060538A1 (en) 2018-09-18 2018-09-18 Methods and systems for processing imagery
JP2021174541A JP7292349B2 (ja) 2018-09-18 2021-10-26 画像を処理するための方法およびシステム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020555017A Division JP6969019B2 (ja) 2018-09-18 2018-09-18 画像を処理するための方法およびシステム

Publications (2)

Publication Number Publication Date
JP2022009502A JP2022009502A (ja) 2022-01-14
JP7292349B2 true JP7292349B2 (ja) 2023-06-16

Family

ID=87888390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021174541A Active JP7292349B2 (ja) 2018-09-18 2021-10-26 画像を処理するための方法およびシステム

Country Status (1)

Country Link
JP (1) JP7292349B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008167155A (ja) 2006-12-28 2008-07-17 Sony Corp 再生装置および再生方法、並びにプログラム
JP2016539433A (ja) 2013-09-18 2016-12-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. レコメンデーションエンジンインタフェース及び方法
JP2017098640A (ja) 2015-11-18 2017-06-01 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008167155A (ja) 2006-12-28 2008-07-17 Sony Corp 再生装置および再生方法、並びにプログラム
JP2016539433A (ja) 2013-09-18 2016-12-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. レコメンデーションエンジンインタフェース及び方法
JP2017098640A (ja) 2015-11-18 2017-06-01 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム

Also Published As

Publication number Publication date
JP2022009502A (ja) 2022-01-14

Similar Documents

Publication Publication Date Title
US10885380B2 (en) Automatic suggestion to share images
JP6858865B2 (ja) 画像を共有する自動提案
EP3815042B1 (en) Image display with selective depiction of motion
CN110263642B (zh) 用于替换图像的部分的图像缓存
JP7247327B2 (ja) ダイナミックデプス画像を撮影して編集するための手法
CN109891900A (zh) 基于说明性指令动态提供视频内容的系统和方法
JP2023529380A (ja) ユーザの好みを反映した機械学習ベースの画像圧縮設定
JP7292349B2 (ja) 画像を処理するための方法およびシステム
US9767848B2 (en) Systems and methods for combining drawings and videos prior to buffer storage
JP6969019B2 (ja) 画像を処理するための方法およびシステム
WO2014065786A1 (en) Augmented reality tag clipper
US20160111127A1 (en) Generating a Composite Video of an Event Having a Moving Point of Attraction
JP2024073439A (ja) 選択的な動きの描画を伴う画像表示
CN116210220A (zh) 经有效运动补偿的时空采样
JP2024514728A (ja) 機械学習を用いた選択的な画像ぼやけ
CN116710978A (zh) 通过机器学习选择代表性视频帧
Rising III Emergent technologies: 25 years

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230606

R150 Certificate of patent or registration of utility model

Ref document number: 7292349

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150