JP7257591B2 - パーソナライズされた自動ビデオクロッピング - Google Patents
パーソナライズされた自動ビデオクロッピング Download PDFInfo
- Publication number
- JP7257591B2 JP7257591B2 JP2022519751A JP2022519751A JP7257591B2 JP 7257591 B2 JP7257591 B2 JP 7257591B2 JP 2022519751 A JP2022519751 A JP 2022519751A JP 2022519751 A JP2022519751 A JP 2022519751A JP 7257591 B2 JP7257591 B2 JP 7257591B2
- Authority
- JP
- Japan
- Prior art keywords
- crop
- video
- score
- frame
- implementations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 81
- 238000010801 machine learning Methods 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 24
- 230000001815 facial effect Effects 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 241001465754 Metazoa Species 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000000981 bystander Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0117—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
- H04N7/0122—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal the input and the output signals having different aspect ratios
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0127—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
- H04N7/013—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter the incoming video signal comprising different parts having originally different frame rate, e.g. video and graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Graphics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Controls And Circuits For Display Device (AREA)
- User Interface Of Digital Computer (AREA)
- Television Signal Processing For Recording (AREA)
Description
本出願は、2019年12月13日に出願された、「Personalized Automatic Video Cropping(パーソナライズされた自動ビデオクロッピング)」と題された米国仮特許出願第62/948,179号の利益を主張し、その全体が本明細書において参照により援用される。
デバイスで動画(および画像)をレビューする場合、デバイスの表示アスペクト比および/または方向が、メディアのアスペクト比に一致しないことがよくある。その結果、メディアは、表示用にレターボックス化されることが多い(たとえば、側面に大きな黒枠があり、枠の間の動画サイズまたは静止画サイズが縮小されている)。場合によっては、ビューアソフトウェアアプリケーションは、レターボックス化を避けるために、オリジナルのメディアをクロップすることがある。
いくつかの実装は方法を備え得る。方法は、複数のフレームを含む入力動画を取得することと、入力動画の各フレームにおける1つ以上のクロップ候補領域について、フレームごとのクロップスコアを決定することとを備え得る。方法はさらに、訓練済み機械学習モデルを用いて、入力動画の各フレーム内の1つ以上のクロップ候補領域について、顔信号を生成することと、1つ以上のクロップ候補領域の顔信号に基づいて、各フレームごとのクロップスコアを調整することとを備え得る。いくつかの実装では、顔信号は、少なくとも1つの重要な顔がクロップ候補領域で検出されるかどうかを示してもよい。
本明細書に記載されるいくつかの実装は、動画を自動的にクロップする方法、システム、およびコンピュータ読取可能媒体に関する。説明される実装は、訓練済みの機械学習モデルを使用して、パーソナライズされたパラメータで動画を自動的にクロップすることができる。モデルのための訓練データは、ユーザの許可を得てアクセスされる、ユーザについてのパーソナライズされた情報を含んでもよい。パーソナライズされた情報は、ローカルストレージ(たとえば、デバイス)に格納された顔について顔識別情報を含み得る。
Claims (13)
- コンピュータにより実現される方法であって、
複数のフレームを含む入力動画を取得することと、
前記入力動画の各フレームにおける1つ以上のクロップ候補領域について、フレームごとのクロップスコアを決定することと、
訓練済み機械学習モデルを用いて、前記入力動画の各フレーム内の前記1つ以上のクロップ候補領域について、顔信号を生成することと、
前記1つ以上のクロップ候補領域の前記顔信号に基づいて、各フレームごとのクロップスコアを調整することと、
動きコストと、前記1つ以上のクロップ候補領域について調整された前記フレームごとのクロップスコアとに基づいて、前記入力動画についてクロップ領域位置を表す最小コスト経路を決定することと、
前記最小コスト経路に沿って、前記クロップ領域位置に対応するクロップキーフレーミングを生成することとを備え、前記クロップキーフレーミングは、開始フレームと、終了フレームと、クロップ領域位置とを含み、前記方法はさらに、
前記入力動画の入力アスペクト比と異なる出力アスペクト比または前記入力動画の長手方向とは異なる長手方向のうちの1つ以上を有する修正済み動画を出力することを備え、前記入力アスペクト比または前記長手方向は、前記入力動画の取込み中に使用されるパラメータである、コンピュータにより実現される方法。 - 各フレームごとのクロップスコアを調整することは、
顔が、前記フレームごとのクロップスコアに対応する前記クロップ候補領域に存在すると判断される場合、前記フレームごとのクロップスコアを第1の値だけ増加させること、または
少なくとも1つの重要な顔が、前記フレームごとのクロップスコアに対応する前記クロップ候補領域に存在すると判断される場合、前記フレームごとのクロップスコアを第2の値だけ増加させることのうちの1つを含み、前記第2の値は前記第1の値より大きい、請求項1に記載のコンピュータにより実現される方法。 - 前記クロップキーフレーミングの品質スコアを決定することと、
前記品質スコアに基づいて、前記入力動画の自動ビデオクロッピングを行うこととをさらに備える、請求項1または2に記載のコンピュータにより実現される方法。 - 前記クロップキーフレーミングの信頼度スコアを決定することと、
前記信頼度スコアに基づいて、前記入力動画の自動ビデオクロッピングを行うこととをさらに備える、請求項1または2に記載のコンピュータにより実現される方法。 - 前記フレームごとのクロップスコアを決定することは、クロップ候補領域ごとに、美的スコア、顔分析スコア、またはアクティブスピーカプレゼンスのうちの1つ以上を決定することを含む、請求項1~4のいずれかに記載のコンピュータにより実現される方法。
- 前記クロップキーフレーミングを生成することは、2つのキーフレームの間で補間することを含む、請求項1~5のいずれかに記載のコンピュータにより実現される方法。
- 前記補間することは、ベジエスプラインを適用すること含む、請求項6に記載のコンピュータにより実現される方法。
- 前記顔信号を生成することは、1つ以上のパーソナライズされたパラメータにアクセスすることを含む、請求項1~7のいずれかに記載のコンピュータにより実現される方法。
- 前記1つ以上のパーソナライズされたパラメータは、1つ以上の重要な顔についての顔識別情報を含む、請求項8に記載のコンピュータにより実現される方法。
- 前記修正済み動画を出力することは、前記修正済み動画をディスプレイに表示することを含む、請求項1~9のいずれかに記載のコンピュータにより実現される方法。
- 前記入力動画を取得する前に、デバイスにおいて動画再生コマンドを受信することと、
前記動画再生コマンドを受信することに応答して、デバイスの長手方向と前記デバイスについての表示アスペクト比とを検出することと、
前記デバイスについて、前記デバイスの長手方向と前記表示アスペクト比とに基づいて、クロップ領域を決定することとをさらに備える、請求項1~10のいずれかに記載のコンピュータにより実現される方法。 - 請求項1~11のいずれかに記載の方法を1つ以上のプロセッサに実行させるためのコンピュータプログラム。
- 請求項12に記載のコンピュータプログラムを格納したメモリと、
前記コンピュータプログラムを実行するための1つ以上のプロセッサとを備える、システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023060294A JP7483089B2 (ja) | 2019-12-13 | 2023-04-03 | パーソナライズされた自動ビデオクロッピング |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962948179P | 2019-12-13 | 2019-12-13 | |
US62/948,179 | 2019-12-13 | ||
PCT/US2020/063704 WO2021118954A1 (en) | 2019-12-13 | 2020-12-08 | Personalized automatic video cropping |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023060294A Division JP7483089B2 (ja) | 2019-12-13 | 2023-04-03 | パーソナライズされた自動ビデオクロッピング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023500028A JP2023500028A (ja) | 2023-01-04 |
JP7257591B2 true JP7257591B2 (ja) | 2023-04-13 |
Family
ID=74106165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022519751A Active JP7257591B2 (ja) | 2019-12-13 | 2020-12-08 | パーソナライズされた自動ビデオクロッピング |
Country Status (6)
Country | Link |
---|---|
US (2) | US11277583B2 (ja) |
EP (1) | EP3895065A1 (ja) |
JP (1) | JP7257591B2 (ja) |
KR (1) | KR102454421B1 (ja) |
CN (1) | CN114402355A (ja) |
WO (1) | WO2021118954A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11451480B2 (en) * | 2020-03-31 | 2022-09-20 | Micron Technology, Inc. | Lightweight artificial intelligence layer to control the transfer of big data |
JP7452641B2 (ja) * | 2020-05-28 | 2024-03-19 | 日本電気株式会社 | 情報処理装置、制御方法、及び、プログラム |
CN112188283B (zh) * | 2020-09-30 | 2022-11-15 | 北京字节跳动网络技术有限公司 | 裁剪视频的方法、装置、设备以及存储介质 |
US11381853B1 (en) * | 2021-01-28 | 2022-07-05 | Meta Platforms, Inc. | Systems and methods for generating and distributing content for consumption surfaces |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015170973A (ja) | 2014-03-06 | 2015-09-28 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
WO2019112642A1 (en) | 2017-12-05 | 2019-06-13 | Google Llc | Method for converting landscape video to portrait mobile layout using a selection interface |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7612832B2 (en) * | 2005-03-29 | 2009-11-03 | Microsoft Corporation | Method and system for video clip compression |
US8295683B2 (en) * | 2007-04-23 | 2012-10-23 | Hewlett-Packard Development Company, L.P. | Temporal occlusion costing applied to video editing |
US9818451B1 (en) * | 2015-12-21 | 2017-11-14 | Amazon Technologies, Inc. | Frame selection of video data |
US9620168B1 (en) * | 2015-12-21 | 2017-04-11 | Amazon Technologies, Inc. | Cataloging video and creating video summaries |
US11282165B2 (en) * | 2016-02-26 | 2022-03-22 | Netflix, Inc. | Dynamically cropping digital content for display in any aspect ratio |
US10394881B2 (en) * | 2017-03-31 | 2019-08-27 | Google Llc | Automatic suggestions to share images |
-
2020
- 2020-12-08 CN CN202080065525.7A patent/CN114402355A/zh active Pending
- 2020-12-08 EP EP20834057.0A patent/EP3895065A1/en active Pending
- 2020-12-08 KR KR1020227010068A patent/KR102454421B1/ko active IP Right Grant
- 2020-12-08 WO PCT/US2020/063704 patent/WO2021118954A1/en unknown
- 2020-12-08 US US17/114,852 patent/US11277583B2/en active Active
- 2020-12-08 JP JP2022519751A patent/JP7257591B2/ja active Active
-
2022
- 2022-02-07 US US17/665,748 patent/US11641445B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015170973A (ja) | 2014-03-06 | 2015-09-28 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
WO2019112642A1 (en) | 2017-12-05 | 2019-06-13 | Google Llc | Method for converting landscape video to portrait mobile layout using a selection interface |
Non-Patent Citations (1)
Title |
---|
Michael L. Gleicher, et al.,Re-Cinematography:Improving the Camera Dynamics of Casual Video,Proceedings of the 15th International Conference on Multimedia 2007,2007年09月29日 |
Also Published As
Publication number | Publication date |
---|---|
US11641445B2 (en) | 2023-05-02 |
US11277583B2 (en) | 2022-03-15 |
KR20220043247A (ko) | 2022-04-05 |
EP3895065A1 (en) | 2021-10-20 |
KR102454421B1 (ko) | 2022-10-14 |
CN114402355A (zh) | 2022-04-26 |
US20210185273A1 (en) | 2021-06-17 |
JP2023089048A (ja) | 2023-06-27 |
US20220159213A1 (en) | 2022-05-19 |
JP2023500028A (ja) | 2023-01-04 |
WO2021118954A1 (en) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11587319B2 (en) | Gating model for video analysis | |
JP7257591B2 (ja) | パーソナライズされた自動ビデオクロッピング | |
US10896478B2 (en) | Image grid with selectively prominent images | |
EP3815042B1 (en) | Image display with selective depiction of motion | |
US10950020B2 (en) | Real-time AR content management and intelligent data analysis system | |
US11949848B2 (en) | Techniques to capture and edit dynamic depth images | |
JP7483089B2 (ja) | パーソナライズされた自動ビデオクロッピング | |
JP2024514728A (ja) | 機械学習を用いた選択的な画像ぼやけ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220620 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220620 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7257591 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |