JP6735927B2 - ビデオコンテンツの要約処理 - Google Patents
ビデオコンテンツの要約処理 Download PDFInfo
- Publication number
- JP6735927B2 JP6735927B2 JP2019541309A JP2019541309A JP6735927B2 JP 6735927 B2 JP6735927 B2 JP 6735927B2 JP 2019541309 A JP2019541309 A JP 2019541309A JP 2019541309 A JP2019541309 A JP 2019541309A JP 6735927 B2 JP6735927 B2 JP 6735927B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- subset
- video content
- content element
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 176
- 230000000153 supplemental effect Effects 0.000 claims description 97
- 230000000295 complement effect Effects 0.000 claims description 62
- 238000000034 method Methods 0.000 claims description 58
- 238000004422 calculation algorithm Methods 0.000 claims description 51
- 230000008859 change Effects 0.000 claims description 31
- 238000001514 detection method Methods 0.000 claims description 10
- 238000010191 image analysis Methods 0.000 claims description 7
- 239000002131 composite material Substances 0.000 description 22
- 238000005070 sampling Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 16
- 239000013598 vector Substances 0.000 description 13
- 238000004590 computer program Methods 0.000 description 11
- 230000008921 facial expression Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006837 decompression Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本出願は、その全体が参照により本明細書に組み込まれる、2017年5月5日に出願した国際出願第PCT/CN2017/083223号の米国特許法119条に基づく利益を主張する。
105' ダウンサンプリングされたビデオコンテンツ要素
105'' 要約ビデオコンテンツ要素
110-1〜110-N、110-11、110-21〜110-M、110-11〜110-30 フレーム
120 スコア
125A〜125M スコア、複合スコア
130A〜130O 複数の複合スコアの総和、スコアの総和、複合スコアの合計、複合スコア合計
130B 合計
135 スライディングウィンドウ
200 データ処理システム、システム
205 ビデオコンテンツデータベース
210 ビデオアクセッサ
215 ダウンサンプラまたはインターバリックフレームセレクタ、ダウンサンプラ
220 フレーム評価器
225 画像比較器
230 サンプル画像データベース
235 動き検出器
240 オブジェクト検出器
245 色分布測定器
250 スコア合成器
255 フレームセレクタ
260 シーン境界切捨て器
265 フレーム連結器、ビデオ連結器
270 要約ビデオコンテンツデータベース、要約ビデオデータベース
400 システム、コンピュータシステム
405 通信インターフェース
410 出力デバイス
415 入力デバイス
420 プロセッサ
425 メモリ
430 ネットワーク、通信ネットワーク
Claims (37)
- ビデオコンテンツの要約を自動的に抽出するための方法であって、
データ処理システムによって、ビデオデータベースから、第1の複数のフレームを含む第1のビデオコンテンツ要素にアクセスするステップと、
前記データ処理システムによって、前記第1のビデオコンテンツ要素の前記第1の複数のフレームについてのインターバリックサブセットを選択するステップと、
前記データ処理システムによって、前記インターバリックサブセットからの所定の数のフレームを備える複数の補足サブセットの各々について、前記補足サブセットのためのスコアを計算するステップと、
前記データ処理システムによって、前記複数の補足サブセットから、最高のスコアを有する補足サブセットを識別するステップと、
前記データ処理システムによって、前記最高のスコアを有する前記補足サブセットの前記フレームを備える前記第1のビデオコンテンツ要素の部分を選択するステップと、
前記データ処理システムによって、
前記フレームの中の第1の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最初のショット境界フレームを検出するステップと、
前記フレームの中の第2の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最終のショット境界フレームを検出するステップであって、前記第2の色変化が前記第1の色変化に後続する、ステップと、
前記部分の最初のフレームから前記最初のショット境界フレームまでに対応する、前記第1のビデオコンテンツ要素の第1のサブ部分を切り捨てるステップと、
最終のショット境界フレームから前記部分の最終のフレームまでに対応する、前記第1のビデオコンテンツ要素の第2のサブ部分を切り捨てるステップと
を行うことによって、前記第1のビデオコンテンツ要素の前記選択された部分を備える第2のビデオコンテンツ要素を生成するステップと
を含む方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
前記補足サブセットと正のサンプリングされた画像セットとの間の第1の距離メトリックを計算するステップと、
前記補足サブセットと負のサンプリングされた画像セットとの間の第2の距離メトリックを計算するステップと、
前記第1の距離メトリックおよび前記第2の距離メトリックの組合せに基づいて、前記補足サブセットのための前記スコアを計算するステップと
をさらに含む、請求項1に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
画像認識アルゴリズムを使用して、前記補足サブセットからオブジェクトを検出するステップと、
前記画像認識アルゴリズムを使用して、前記補足サブセットから検出された前記オブジェクトの1つまたは複数の特性を識別するステップと、
前記オブジェクトから識別された前記1つまたは複数の特性に基づいて、前記補足サブセットのための前記スコアを計算するステップと
をさらに含む、請求項1または2に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
前記補足サブセットの各フレームの間で、前記2つの対応するフレームに動き検出アルゴリズムを適用することによって、動きメトリックを計算するステップと、
前記補足サブセットの各フレームの間で計算された前記動きメトリックのセットに基づいて、前記補足サブセットのための前記スコアを計算するステップと
をさらに含む、請求項1から3のいずれか一項に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
前記補足サブセットの前記フレームのための複数のピクセルの中の色分布を決定するステップと、
前記補足サブセットの前記フレームのための前記複数のピクセルの中の前記色分布に基づいて、前記補足サブセットのための前記スコアを計算するステップと
をさらに含む、請求項1から4のいずれか一項に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
複数の補足サブセットの各々について、前記補足サブセットの前記フレームに、対応する数の画像解析アルゴリズムを適用することによって、複数のスコアを計算するステップと、
前記複数のスコアの所定の加重平均に基づいて、前記スコアを計算するステップと
をさらに含む、請求項1から5のいずれか一項に記載の方法。 - 前記第1のビデオコンテンツ要素の前記部分を選択するステップが、
前記最高のスコアを有する前記補足サブセットの第2の最初のフレームに対応する、前記第1のビデオコンテンツ要素の第1の最初のフレームを識別するステップと、
前記最高のスコアを有する前記補足サブセットの第2の最終のフレームに対応する、前記第1のビデオコンテンツ要素の第1の最終のフレームを識別するステップと、
前記第1の最初のフレームから前記第1の最終のフレームまでの、前記第1のビデオコンテンツ要素のフレームのサブセットを選択するステップと
をさらに含む、請求項1から6のいずれか一項に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、1つのフレームを備える前記補足サブセットのための前記スコアを計算するステップをさらに含み、
前記第2のビデオコンテンツ要素を生成するステップが、前記複数のフレームからの1つのフレームを含む前記第2のビデオコンテンツ要素を生成するステップをさらに含む、請求項1から7のいずれか一項に記載の方法。 - 1つのフレームを備える前記補足サブセットのための前記スコアを計算するステップが、
前記インターバリックサブセットの複数のフレームの各々について、前記フレームのシャープネスの度合いを決定するステップと、
前記決定されたシャープネスの度合いに基づいて、前記複数のフレームのサブセットを選択するステップと、
前記選択されたフレームの各々のための前記スコアを計算するステップと
をさらに含む、請求項8に記載の方法。 - 前記データ処理システムによって、画像認識アルゴリズムを使用して、オブジェクトを含む前記第1の複数のフレームから、第2の連続フレームのサブセットを識別するステップと、
前記データ処理システムによって、前記第2の連続フレームのサブセットを前記第2のビデオコンテンツ要素に連結するステップと
をさらに含む、請求項1から9のいずれか一項に記載の方法。 - ビデオコンテンツの要約を自動的に抽出するためのシステムであって、
1つまたは複数のプロセッサとメモリとを有するデータ処理システムを備え、前記データ処理システムが、
ビデオデータベースから、第1の複数のフレームを含む第1のビデオコンテンツ要素にアクセスすることと、
前記第1のビデオコンテンツ要素の前記第1の複数のフレームについてのインターバリックサブセットを選択することと、
前記インターバリックサブセットからの所定の数のフレームを備える複数の補足サブセットの各々について、前記補足サブセットのためのスコアを計算することと、
前記複数の補足サブセットから、最高のスコアを有する補足サブセットを識別することと、
前記最高のスコアを有する前記補足サブセットの前記フレームを備える前記第1のビデオコンテンツ要素の部分を選択することと、
前記フレームの中の第1の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最初のショット境界フレームを検出することと、
前記フレームの中の第2の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最終のショット境界フレームを検出することであって、前記第2の色変化が前記第1の色変化に後続する、検出することと、
前記部分の最初のフレームから前記最初のショット境界フレームまでに対応する、前記第1のビデオコンテンツ要素の第1のサブ部分を切り捨てることと、
最終のショット境界フレームから前記部分の最終のフレームまでに対応する、前記第1のビデオコンテンツ要素の第2のサブ部分を切り捨てることと
を行うことによって、前記第1のビデオコンテンツ要素の前記選択された部分を備える第2のビデオコンテンツ要素を生成することと
を行うように構成される、システム。 - 前記データ処理システムが、
前記補足サブセットと正のサンプリングされた画像セットとの間の第1の距離メトリックを計算することと、
前記補足サブセットと負のサンプリングされた画像セットとの間の第2の距離メトリックを計算することと、
前記第1の距離メトリックおよび前記第2の距離メトリックの組合せに基づいて、前記補足サブセットのための前記スコアを計算することと
を行うようにさらに構成される、請求項11に記載のシステム。 - 前記データ処理システムが、
画像認識アルゴリズムを使用して、前記補足サブセットからオブジェクトを検出することと、
前記画像認識アルゴリズムを使用して、前記補足サブセットから検出された前記オブジェクトの1つまたは複数の特性を識別することと、
前記オブジェクトから識別された前記1つまたは複数の特性に基づいて、前記補足サブセットのための前記スコアを計算することと
を行うようにさらに構成される、請求項11または12に記載のシステム。 - 前記データ処理システムが、
前記補足サブセットの各フレームの間で、前記2つの対応するフレームに動き検出アルゴリズムを適用することによって、動きメトリックを計算することと、
前記補足サブセットの各フレームの間で計算された前記動きメトリックのセットに基づいて、前記補足サブセットのための前記スコアを計算することと
を行うようにさらに構成される、請求項11から13のいずれか一項に記載のシステム。 - 前記データ処理システムが、
前記補足サブセットの前記フレームのための複数のピクセルの中の色分布を決定することと、
前記補足サブセットの前記フレームのための前記複数のピクセルの中の前記色分布に基づいて、前記補足サブセットのための前記スコアを計算することと
を行うようにさらに構成される、請求項11から14のいずれか一項に記載のシステム。 - 前記データ処理システムが、
複数の補足サブセットの各々について、前記補足サブセットの前記フレームに、対応する数の画像解析アルゴリズムを適用することによって、複数のスコアを計算することと、
前記複数のスコアの所定の加重平均に基づいて、前記スコアを計算することと
を行うようにさらに構成される、請求項11から15のいずれか一項に記載のシステム。 - 前記データ処理システムが、
前記最高のスコアを有する前記補足サブセットの第2の最初のフレームに対応する、前記第1のビデオコンテンツ要素の第1の最初のフレームを識別することと、
前記最高のスコアを有する前記補足サブセットの第2の最終のフレームに対応する、前記第1のビデオコンテンツ要素の第1の最終のフレームを識別することと、
前記第1の最初のフレームから前記第1の最終のフレームまでの、前記第1のビデオコンテンツ要素のフレームのサブセットを選択することと
を行うようにさらに構成される、請求項11から16のいずれか一項に記載のシステム。 - 前記データ処理システムが、
画像認識アルゴリズムを使用して、オブジェクトを含む前記第1の複数のフレームから、第2の連続フレームのサブセットを識別することと、
前記第2の連続フレームのサブセットを前記第2のビデオコンテンツ要素に連結することと
を行うようにさらに構成される、請求項11から17のいずれか一項に記載のシステム。 - 1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1から10のいずれか一項に記載の方法を行わせる、ビデオコンテンツの要約を自動的に抽出するための命令を記憶する、コンピュータ可読記憶媒体。
- ビデオコンテンツの要約を自動的に抽出するための方法であって、
データ処理システムによって、ビデオデータベースから、第1の複数のフレームを含む第1のビデオコンテンツ要素にアクセスするステップと、
前記データ処理システムによって、前記第1のビデオコンテンツ要素の前記第1の複数のフレームについてのインターバリックサブセットを選択するステップと、
前記データ処理システムによって、前記インターバリックサブセットからの所定の数のフレームを備える複数の補足サブセットの各々について、前記補足サブセットのためのスコアを計算するステップと、
前記データ処理システムによって、前記複数の補足サブセットから、最高のスコアを有する補足サブセットを識別するステップと、
前記データ処理システムによって、前記最高のスコアを有する前記補足サブセットの前記フレームを備える前記第1のビデオコンテンツ要素の部分を選択するステップと、
前記データ処理システムによって、
前記フレームの中の第1の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最初のショット境界フレームを検出するステップと、
前記フレームの中の第2の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最終のショット境界フレームを検出するステップであって、前記第2の色変化が前記第1の色変化に後続する、ステップと、
前記部分の最初のフレームから前記最初のショット境界フレームまでに対応する、前記第1のビデオコンテンツ要素の第1のサブ部分を切り捨てるステップと、
最終のショット境界フレームから前記部分の最終のフレームまでに対応する、前記第1のビデオコンテンツ要素の第2のサブ部分を切り捨てるステップと
を行うことによって、前記第1のビデオコンテンツ要素の前記選択された部分を備える第2のビデオコンテンツ要素を生成するステップと
を含む方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
前記補足サブセットと正のサンプリングされた画像セットとの間の第1の距離メトリックを計算するステップと、
前記補足サブセットと負のサンプリングされた画像セットとの間の第2の距離メトリックを計算するステップと、
前記第1の距離メトリックおよび前記第2の距離メトリックの組合せに基づいて、前記補足サブセットのための前記スコアを計算するステップと
をさらに含む、請求項20に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
画像認識アルゴリズムを使用して、前記補足サブセットからオブジェクトを検出するステップと、
前記画像認識アルゴリズムを使用して、前記補足サブセットから検出された前記オブジェクトの1つまたは複数の特性を識別するステップと、
前記オブジェクトから識別された前記1つまたは複数の特性に基づいて、前記補足サブセットのための前記スコアを計算するステップと
をさらに含む、請求項20に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
前記補足サブセットの各フレームの間で、前記2つの対応するフレームに動き検出アルゴリズムを適用することによって、動きメトリックを計算するステップと、
前記補足サブセットの各フレームの間で計算された前記動きメトリックのセットに基づいて、前記補足サブセットのための前記スコアを計算するステップと
をさらに含む、請求項20に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
前記補足サブセットの前記フレームのための複数のピクセルの中の色分布を決定するステップと、
前記補足サブセットの前記フレームのための前記複数のピクセルの中の前記色分布に基づいて、前記補足サブセットのための前記スコアを計算するステップと
をさらに含む、請求項20に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、
複数の補足サブセットの各々について、前記補足サブセットの前記フレームに、対応する数の画像解析アルゴリズムを適用することによって、複数のスコアを計算するステップと、
前記複数のスコアの所定の加重平均に基づいて、前記スコアを計算するステップと
をさらに含む、請求項20に記載の方法。 - 前記第1のビデオコンテンツ要素の前記部分を選択するステップが、
前記最高のスコアを有する前記補足サブセットの第2の最初のフレームに対応する、前記第1のビデオコンテンツ要素の第1の最初のフレームを識別するステップと、
前記最高のスコアを有する前記補足サブセットの第2の最終のフレームに対応する、前記第1のビデオコンテンツ要素の第1の最終のフレームを識別するステップと、
前記第1の最初のフレームから前記第1の最終のフレームまでの、前記第1のビデオコンテンツ要素のフレームのサブセットを選択するステップと
をさらに含む、請求項20に記載の方法。 - 前記補足サブセットのための前記スコアを計算するステップが、1つのフレームを備える前記補足サブセットのための前記スコアを計算するステップをさらに含み、
前記第2のビデオコンテンツ要素を生成するステップが、前記複数のフレームからの1つのフレームを含む前記第2のビデオコンテンツ要素を生成するステップをさらに含む、請求項20に記載の方法。 - 前記データ処理システムによって、画像認識アルゴリズムを使用して、オブジェクトを含む前記第1の複数のフレームから、第2の連続フレームのサブセットを識別するステップと、
前記データ処理システムによって、前記第2の連続フレームのサブセットを前記第2のビデオコンテンツ要素に連結するステップと
をさらに含む、請求項20に記載の方法。 - ビデオコンテンツの要約を自動的に抽出するためのシステムであって、
1つまたは複数のプロセッサとメモリとを有するデータ処理システムを備え、前記データ処理システムが、
ビデオデータベースから、第1の複数のフレームを含む第1のビデオコンテンツ要素にアクセスすることと、
前記第1のビデオコンテンツ要素の前記第1の複数のフレームについてのインターバリックサブセットを選択することと、
前記インターバリックサブセットからの所定の数のフレームを備える複数の補足サブセットの各々について、前記補足サブセットのためのスコアを計算することと、
前記複数の補足サブセットから、最高のスコアを有する補足サブセットを識別することと、
前記最高のスコアを有する前記補足サブセットの前記フレームを備える前記第1のビデオコンテンツ要素の部分を選択することと、
前記フレームの中の第1の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最初のショット境界フレームを検出することと、
前記フレームの中の第2の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最終のショット境界フレームを検出することであって、前記第2の色変化が前記第1の色変化に後続する、検出することと、
前記部分の最初のフレームから前記最初のショット境界フレームまでに対応する、前記第1のビデオコンテンツ要素の第1のサブ部分を切り捨てることと、
最終のショット境界フレームから前記部分の最終のフレームまでに対応する、前記第1のビデオコンテンツ要素の第2のサブ部分を切り捨てることと
を行うことによって、前記第1のビデオコンテンツ要素の前記選択された部分を備える第2のビデオコンテンツ要素を生成することと
を行うように構成される、システム。 - 前記データ処理システムが、
前記補足サブセットと正のサンプリングされた画像セットとの間の第1の距離メトリックを計算することと、
前記補足サブセットと負のサンプリングされた画像セットとの間の第2の距離メトリックを計算することと、
前記第1の距離メトリックおよび前記第2の距離メトリックの組合せに基づいて、前記補足サブセットのための前記スコアを計算することと
を行うようにさらに構成される、請求項29に記載のシステム。 - 前記データ処理システムが、
画像認識アルゴリズムを使用して、前記補足サブセットからオブジェクトを検出することと、
前記画像認識アルゴリズムを使用して、前記補足サブセットから検出された前記オブジェクトの1つまたは複数の特性を識別することと、
前記オブジェクトから識別された前記1つまたは複数の特性に基づいて、前記補足サブセットのための前記スコアを計算することと
を行うようにさらに構成される、請求項29に記載のシステム。 - 前記データ処理システムが、
前記補足サブセットの各フレームの間で、前記2つの対応するフレームに動き検出アルゴリズムを適用することによって、動きメトリックを計算することと、
前記補足サブセットの各フレームの間で計算された前記動きメトリックのセットに基づいて、前記補足サブセットのための前記スコアを計算することと
を行うようにさらに構成される、請求項29に記載のシステム。 - 前記データ処理システムが、
前記補足サブセットの前記フレームのための複数のピクセルの中の色分布を決定することと、
前記補足サブセットの前記フレームのための前記複数のピクセルの中の前記色分布に基づいて、前記補足サブセットのための前記スコアを計算することと
を行うようにさらに構成される、請求項29に記載のシステム。 - 前記データ処理システムが、
複数の補足サブセットの各々について、前記補足サブセットの前記フレームに、対応する数の画像解析アルゴリズムを適用することによって、複数のスコアを計算することと、
前記複数のスコアの所定の加重平均に基づいて、前記スコアを計算することと
を行うようにさらに構成される、請求項29に記載のシステム。 - 前記データ処理システムが、
前記最高のスコアを有する前記補足サブセットの第2の最初のフレームに対応する、前記第1のビデオコンテンツ要素の第1の最初のフレームを識別することと、
前記最高のスコアを有する前記補足サブセットの第2の最終のフレームに対応する、前記第1のビデオコンテンツ要素の第1の最終のフレームを識別することと、
前記第1の最初のフレームから前記第1の最終のフレームまでの、前記第1のビデオコンテンツ要素のフレームのサブセットを選択することと
を行うようにさらに構成される、請求項29に記載のシステム。 - 前記データ処理システムが、
画像認識アルゴリズムを使用して、オブジェクトを含む前記第1の複数のフレームから、第2の連続フレームのサブセットを識別することと、
前記第2の連続フレームのサブセットを前記第2のビデオコンテンツ要素に連結することと
を行うようにさらに構成される、請求項29に記載のシステム。 - 1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに動作を行わせる、ビデオコンテンツの要約を自動的に抽出するための命令を記憶する、コンピュータ可読記憶媒体であって、前記動作が、
ビデオデータベースから、第1の複数のフレームを含む第1のビデオコンテンツ要素にアクセスすることと、
前記第1のビデオコンテンツ要素の前記第1の複数のフレームについてのインターバリックサブセットを選択することと、
前記インターバリックサブセットからの所定の数のフレームを備える複数の補足サブセットの各々について、前記補足サブセットのためのスコアを計算することと、
前記複数の補足サブセットから、最高のスコアを有する補足サブセットを識別することと、
前記最高のスコアを有する前記補足サブセットの前記フレームを備える前記第1のビデオコンテンツ要素の部分を選択することと、
前記フレームの中の第1の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最初のショット境界フレームを検出することと、
前記フレームの中の第2の色変化に基づいて、前記第1のビデオコンテンツ要素の前記部分に対応する前記フレームの中の最終のショット境界フレームを検出することであって、前記第2の色変化が前記第1の色変化に後続する、検出することと、
前記部分の最初のフレームから前記最初のショット境界フレームまでに対応する、前記第1のビデオコンテンツ要素の第1のサブ部分を切り捨てることと、
最終のショット境界フレームから前記部分の最終のフレームまでに対応する、前記第1のビデオコンテンツ要素の第2のサブ部分を切り捨てることと
を行うことによって、前記第1のビデオコンテンツ要素の前記選択された部分を備える第2のビデオコンテンツ要素を生成することと
を含む、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2017/083223 | 2017-05-05 | ||
CNPCT/CN2017/083223 | 2017-05-05 | ||
PCT/US2017/045306 WO2018203920A1 (en) | 2017-05-05 | 2017-08-03 | Summarizing video content |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020516107A JP2020516107A (ja) | 2020-05-28 |
JP6735927B2 true JP6735927B2 (ja) | 2020-08-05 |
Family
ID=59656193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019541309A Active JP6735927B2 (ja) | 2017-05-05 | 2017-08-03 | ビデオコンテンツの要約処理 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11042754B2 (ja) |
EP (1) | EP3513310A1 (ja) |
JP (1) | JP6735927B2 (ja) |
KR (1) | KR102262481B1 (ja) |
CN (1) | CN109844736B (ja) |
WO (1) | WO2018203920A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11057667B2 (en) | 2017-11-17 | 2021-07-06 | Gfycat, Inc. | Selection of a prerecorded media file for superimposing into a video |
US10945042B2 (en) * | 2018-11-19 | 2021-03-09 | Gfycat, Inc. | Generating an interactive digital video content item |
US10817998B1 (en) * | 2018-12-27 | 2020-10-27 | Go Pro, Inc. | Systems and methods for selecting images |
US11678011B1 (en) * | 2019-04-17 | 2023-06-13 | Kuna Systems Corporation | Mobile distributed security response |
US11227160B2 (en) * | 2019-11-15 | 2022-01-18 | International Business Machines Corporation | Detecting scene transitions in video footage |
US11689526B2 (en) | 2019-11-19 | 2023-06-27 | Paypal, Inc. | Ensemble method for face recognition deep learning models |
KR102198480B1 (ko) | 2020-02-28 | 2021-01-05 | 연세대학교 산학협력단 | 재귀 그래프 모델링을 통한 비디오 요약 생성 장치 및 방법 |
CN115699778A (zh) * | 2020-06-05 | 2023-02-03 | 高通股份有限公司 | 基于采样率的视频数据处理 |
US11568527B2 (en) * | 2020-09-24 | 2023-01-31 | Ati Technologies Ulc | Video quality assessment using aggregated quality values |
CN112559800B (zh) | 2020-12-17 | 2023-11-14 | 北京百度网讯科技有限公司 | 用于处理视频的方法、装置、电子设备、介质和产品 |
KR102397147B1 (ko) * | 2021-01-29 | 2022-05-12 | 숙명여자대학교산학협력단 | 인식률 향상을 위한 영상 처리 장치 및 그 방법 |
US11152031B1 (en) * | 2021-05-11 | 2021-10-19 | CLIPr Co. | System and method to compress a time frame of one or more videos |
US20230009267A1 (en) | 2021-07-06 | 2023-01-12 | Ebay Inc. | Visual facet search engine |
JP7350200B1 (ja) * | 2023-01-31 | 2023-09-25 | 株式会社ドワンゴ | 動画配信装置、動画配信方法、動画配信プログラム、及びシステム |
CN118053172B (zh) * | 2024-04-15 | 2024-09-13 | 长城信息股份有限公司 | 一种票据微缩文字检测方法、系统及介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5911008A (en) * | 1996-04-30 | 1999-06-08 | Nippon Telegraph And Telephone Corporation | Scheme for detecting shot boundaries in compressed video data using inter-frame/inter-field prediction coding and intra-frame/intra-field coding |
US20060003300A1 (en) * | 2004-06-30 | 2006-01-05 | Interactive Sports Training, Llc (Formerly Known As Major League Partners) | Method and apparatus for creating a personal sports lesson |
CN101431689B (zh) * | 2007-11-05 | 2012-01-04 | 华为技术有限公司 | 生成视频摘要的方法及装置 |
EP2104105A1 (en) * | 2008-03-20 | 2009-09-23 | British Telecommunications Public Limited Company | Digital audio and video clip encoding |
US8345990B2 (en) * | 2009-08-03 | 2013-01-01 | Indian Institute Of Technology Bombay | System for creating a capsule representation of an instructional video |
US8432965B2 (en) * | 2010-05-25 | 2013-04-30 | Intellectual Ventures Fund 83 Llc | Efficient method for assembling key video snippets to form a video summary |
AU2010241260B2 (en) * | 2010-10-29 | 2013-12-19 | Canon Kabushiki Kaisha | Foreground background separation in a scene with unstable textures |
AU2012243770B2 (en) * | 2011-04-14 | 2016-06-23 | Kabushiki Kaisha Yakult Honsha | Method for producing dry microbial cell powder |
CN102427507B (zh) * | 2011-09-30 | 2014-03-05 | 北京航空航天大学 | 一种基于事件模型的足球视频集锦自动合成方法 |
US20130093899A1 (en) * | 2011-10-18 | 2013-04-18 | Nokia Corporation | Method and apparatus for media content extraction |
US8995823B2 (en) * | 2012-07-17 | 2015-03-31 | HighlightCam, Inc. | Method and system for content relevance score determination |
US9076043B2 (en) * | 2012-08-03 | 2015-07-07 | Kodak Alaris Inc. | Video summarization using group sparsity analysis |
EP2701078A1 (en) * | 2012-08-24 | 2014-02-26 | Alcatel Lucent | Process for summarising automatically a video content for a user of at least one video service provider in a network |
IL223381B (en) * | 2012-12-02 | 2018-01-31 | Berale Of Teldan Group Ltd | Automatic summarising of media content |
US20140198177A1 (en) * | 2013-01-15 | 2014-07-17 | International Business Machines Corporation | Realtime photo retouching of live video |
ES2731327T3 (es) * | 2013-10-11 | 2019-11-15 | Mauna Kea Tech | Método para caracterizar imágenes adquiridas a través de un dispositivo médico de vídeo |
EP2890108A1 (en) * | 2013-12-27 | 2015-07-01 | Thomson Licensing | Method for sorting a group of images of a database and method for color correcting an image, corresponding devices, computer program and non-transitory computer-readable medium |
US20170060831A1 (en) * | 2015-08-26 | 2017-03-02 | International Business Machines Corporation | Deriving Logical Justification in an Extensible Logical Reasoning System |
JP6648925B2 (ja) * | 2015-12-17 | 2020-02-14 | キヤノン株式会社 | 画像処理方法、画像処理装置、画像処理システム、生産装置、プログラム及び記録媒体 |
US9818451B1 (en) * | 2015-12-21 | 2017-11-14 | Amazon Technologies, Inc. | Frame selection of video data |
US10032081B2 (en) * | 2016-02-09 | 2018-07-24 | Oath Inc. | Content-based video representation |
GB2549471A (en) * | 2016-04-15 | 2017-10-25 | Quantel Ltd | Methods of streaming media file data and media file servers |
ES2648368B1 (es) * | 2016-06-29 | 2018-11-14 | Accenture Global Solutions Limited | Recomendación de vídeo con base en el contenido |
US10347294B2 (en) | 2016-06-30 | 2019-07-09 | Google Llc | Generating moving thumbnails for videos |
US10430685B2 (en) * | 2016-11-16 | 2019-10-01 | Facebook, Inc. | Deep multi-scale video prediction |
US10068616B2 (en) * | 2017-01-11 | 2018-09-04 | Disney Enterprises, Inc. | Thumbnail generation for video |
US10467507B1 (en) * | 2017-04-19 | 2019-11-05 | Amazon Technologies, Inc. | Image quality scoring |
CN110347872B (zh) * | 2019-07-04 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 视频封面图像提取方法及装置、存储介质及电子设备 |
-
2017
- 2017-08-03 JP JP2019541309A patent/JP6735927B2/ja active Active
- 2017-08-03 KR KR1020197021054A patent/KR102262481B1/ko active IP Right Grant
- 2017-08-03 CN CN201780064898.0A patent/CN109844736B/zh active Active
- 2017-08-03 EP EP17754539.9A patent/EP3513310A1/en active Pending
- 2017-08-03 US US16/475,361 patent/US11042754B2/en active Active
- 2017-08-03 WO PCT/US2017/045306 patent/WO2018203920A1/en unknown
-
2021
- 2021-06-18 US US17/352,067 patent/US20210312186A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR102262481B1 (ko) | 2021-06-08 |
US20210117691A1 (en) | 2021-04-22 |
KR20190099027A (ko) | 2019-08-23 |
CN109844736B (zh) | 2023-08-22 |
EP3513310A1 (en) | 2019-07-24 |
JP2020516107A (ja) | 2020-05-28 |
US11042754B2 (en) | 2021-06-22 |
CN109844736A (zh) | 2019-06-04 |
WO2018203920A1 (en) | 2018-11-08 |
US20210312186A1 (en) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6735927B2 (ja) | ビデオコンテンツの要約処理 | |
JP6564464B2 (ja) | ビデオプログラムのセグメントの検出 | |
US10368123B2 (en) | Information pushing method, terminal and server | |
US9892324B1 (en) | Actor/person centric auto thumbnail | |
US9117112B2 (en) | Background detection as an optimization for gesture recognition | |
US11317123B2 (en) | Systems and methods for using pre-calculated block hashes for image block matching | |
US20140023341A1 (en) | Annotating General Objects in Video | |
US8594423B1 (en) | Automatic background identification in video images | |
CN110309795A (zh) | 视频检测方法、装置、电子设备及存储介质 | |
CN110692251B (zh) | 组合数字视频内容的方法及系统 | |
CN116916080A (zh) | 视频数据处理方法、装置、计算机设备及可读存储介质 | |
US11086843B2 (en) | Embedding codebooks for resource optimization | |
US9053526B2 (en) | Method and apparatus for encoding cloud display screen by using application programming interface information | |
CN113542725A (zh) | 视频审核方法、视频审核装置和电子设备 | |
CN108989905B (zh) | 媒体流控制方法、装置、计算设备及存储介质 | |
US20240056549A1 (en) | Method, computer device, and computer program for providing high-quality image of region of interest by using single stream | |
US11405442B2 (en) | Dynamic rotation of streaming protocols | |
US20160105731A1 (en) | Systems and methods for identifying and acquiring information regarding remotely displayed video content | |
CN106454398A (zh) | 一种视频处理的方法及终端 | |
WO2014031538A1 (en) | Background detection as an optimization for gesture recognition | |
US20230156226A1 (en) | Methods and systems for non-destructive stabilization-based encoder optimization | |
CN117041675A (zh) | 多端联动电视信号传输方法、系统、设备及可读存储介质 | |
CN115801878A (zh) | 云应用画面传输方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190927 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190927 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190927 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6735927 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |