JP7460997B2 - コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 - Google Patents
コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 Download PDFInfo
- Publication number
- JP7460997B2 JP7460997B2 JP2024501933A JP2024501933A JP7460997B2 JP 7460997 B2 JP7460997 B2 JP 7460997B2 JP 2024501933 A JP2024501933 A JP 2024501933A JP 2024501933 A JP2024501933 A JP 2024501933A JP 7460997 B2 JP7460997 B2 JP 7460997B2
- Authority
- JP
- Japan
- Prior art keywords
- image data
- feature amounts
- continuous image
- training
- saliency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000012549 training Methods 0.000 claims description 115
- 238000010801 machine learning Methods 0.000 claims description 83
- 230000008569 process Effects 0.000 description 23
- 238000013500 data storage Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000015654 memory Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Description
図1は、本開示に係るコンピュータビジョンシステムのハードウェア構成を示す図である。コンピュータビジョンシステム10は、例えば、携帯電話機(スマートフォンを含む)、携帯情報端末(タブレット型コンピュータを含む)、パーソナルコンピュータ、又はサーバコンピュータ等である。図1に示すように、コンピュータビジョンシステム10は、制御部11と、記憶部12と、通信部13と、操作部14と、表示部15と、を有する。
図2は、本開示に係るコンピュータビジョンシステムで実現される機能の一例を示す機能ブロック図である。コンピュータビジョンシステム10は、学習システム20と推定システム30とを有する。学習システム20の機能及び推定システム30の機能は、図1に示すハードウェアによりそれぞれ実現される。また、学習システム20の機能及び推定システム30の機能は、本実施形態に係る学習プログラム及び推定プログラムを上記ハードウェアで実行することにより実現される。これらのプログラムは、半導体メモリなどのコンピュータ可読記憶媒体に格納され、当該媒体から上記ハードウェアに供給されてよい。
以下、学習システム20で実現される機能について説明する。学習システム20では、データ記憶部21及び学習部22が実現される。データ記憶部21は、記憶部12を主として実現され、学習部22は、制御部11を主として実現される。以下、データ記憶部21と、学習部22と、について説明する。
データ記憶部21は、学習部22での処理に必要なデータを記憶する。具体的には、データ記憶部21は、機械学習モデルMを記憶する。より具体的には、データ記憶部21は、推定システム30で利用される機械学習モデルMのプログラム(アルゴリズム)やパラメータ等を記憶する。機械学習モデルMは、学習部22で学習された後に推定システム30に送信される。また、データ記憶部21は、訓練データセットTDを記憶する。訓練データセットTDは、複数の訓練用連続画像データTCDとラベルデータとの組を複数格納する。本実施形態では、複数の訓練用連続画像データTCDは、スポーツの試合映像Vの任意の一部分である推定部分Pを示すものである。ラベルデータは、複数の訓練用連続画像データTCDと対応づけられており、複数の訓練用連続画像データTCDに係るシーン種別を示す。
以下、図3を用いて機械学習モデルMの具体的な構成について説明する。図3は、機械学習モデルの詳細な構成の一例を示す図である。機械学習モデルMは、推定部分Pについて所定のシーン種別であるか否かの推定を行う。
学習部22は、複数の訓練用連続画像データTCDを用いて機械学習モデルMを学習する。具体的には、学習部22は、複数の訓練用連続画像データTCDとラベルデータとを取得し、複数の訓練用連続画像データTCDを機械学習モデルMに入力して複数の訓練用連続画像データTCDに係るシーン種別の推定の結果を取得し、当該推定の結果とラベルデータとに基づき、機械学習モデルMの学習を行う。より具体的には、学習部22は、前記ラベルデータに係るラベルの確率値が大きくなるように機械学習モデルの学習を行う。学習部22は、学習途中で当該値が十分大きくなった場合には、その時点で学習を終了する。学習部22は、当該値が十分大きくならなくても、所定回数の学習を繰り返した場合には、学習を終了してもよい。学習自体は、公知の手法を利用可能であり、例えば、AdamやRMSProp等が利用されてもよい。
ここで、図5を用いて、学習に用いられる訓練用連続画像データTCD(特に前半訓練用連続画像データTCD1及び後半訓練用連続画像データTCD2)の詳細な構成について説明する。図5は、訓練用連続画像データの詳細な構成の一例を示す図である。
続いて、図6を用いて、学習部において実行される処理の詳細を説明する。図6は、学習部において実行される処理の詳細の一例を示す図である。
ここで、図2に戻って、推定システム30で実現される機能について説明する。推定システム30では、データ記憶部31及び推定部32が実現される。データ記憶部31は、記憶部12を主として実現され、推定部32は、制御部11を主として実現される。以下、データ記憶部31と、推定部32と、について説明する。
データ記憶部31は、推定部32での処理に必要なデータを記憶する。具体的には、データ記憶部31は、映像データセットVDを記憶する。映像データセットVDは、試合映像Vのデータを格納する。試合映像Vは、スポーツの試合映像である。本実施形態では、前記の通り、試合映像Vに係るスポーツはサッカーであるが、この例に限られず、例えば、野球、ラグビー、バレーボール等の他の集団競技の球技でもよい。また、試合映像Vに係るスポーツは、テニス、卓球、ゴルフ等の個人競技(ペア含む)の球技、フルマラソン等の陸上競技、競泳、オープンウォータースイミング等の水上競技、ノルディックスキー等の雪上競技、或いはトライアスロン、自転車ロードレース等の耐久競技でもよい。データ記憶部31は、機械学習モデルMのプログラム(アルゴリズム)やパラメータ等を記憶する。データ記憶部31に記憶された機械学習モデルMのパラメータは、学習システム20での学習処理により調整済みのものである。
以下、図7を用いて、推定部32において実行される処理について説明する。図7は、推定部において実行される処理の一例を示す図である。推定部32は、機械学習モデルMを用いて、試合映像Vの推定部分Pに係るシーン種別の推定を実行する。
最後に、図8を用いて、推定部32において実行される処理の詳細を説明する。図8は、推定部において実行される処理の詳細の一例を示すフロー図である。図8に示す各ステップの処理は、推定プログラムを図1に示すハードウェアで実行することにより実現される。
Claims (12)
- スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得部と、
前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデルと、を有し、
前記機械学習モデルは、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得する第1の特徴量取得部と、
前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得する第2の特徴量取得部と、
前記複数の第2の特徴量に基づき、前記推定の結果を取得する推定結果取得部と、
を有する、コンピュータビジョンシステム。 - 前記複数の第1の顕著度は、前記複数の第1の特徴量間の類似度に基づいて算出される、
請求項1に記載のコンピュータビジョンシステム。 - 前記連続画像データ取得部は、前記一部分を示すフレーム画像データであって前記連続画像データの数と異なる数の前記フレーム画像データを取得し、前記機械学習モデルに入力される前記連続画像データの数と同数の前記連続画像データを当該フレーム画像データから取得する、
請求項1又は2に記載のコンピュータビジョンシステム。 - 前記複数の連続画像データは、前記複数の第1の連続画像データの後に連続する複数の第2の連続画像データを更に有し、
前記機械学習モデルは、
前記複数の第2の連続画像データのそれぞれに対応する複数の第3の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第3の特徴量を、前記複数の第2の連続画像データから取得する第3の特徴量取得部と、
前記複数の第3の特徴量にそれぞれ対応する複数の第2の顕著度であって、対応する前記第3の特徴量の顕著度をそれぞれ示す前記複数の第2の顕著度を算出し、対応する前記第2の顕著度により前記複数の第3の特徴量のそれぞれを重み付けすることによって、前記複数の第3の特徴量から複数の第4の特徴量を取得する第4の特徴量取得部と、
を更に有し、
前記推定結果取得部は、前記複数の第2の特徴量と前記複数の第4の特徴量とに基づき、前記推定の結果を取得する、
請求項1から3のいずれかに記載のコンピュータビジョンシステム。 - 前記第1の連続画像データの数は、前記第2の連続画像データの数と等しい、
請求項4に記載のコンピュータビジョンシステム。 - 前記機械学習モデルは、前記一部分について、第1のシーン種別と第2のシーン種別とを有する複数のシーン種別のいずれであるかの推定を行うものであり、
前記連続画像データ取得部は、
前記一部分を示す第1のフレーム画像データであって前記第1のシーン種別に対応する数の前記第1のフレーム画像データと、前記一部分を示す第2のフレーム画像データであって前記第2のシーン種別に対応する数の前記第2のフレーム画像データと、を前記試合映像から取得し、
前記機械学習モデルに入力される前記連続画像データの数と同数の前記第1のシーン種別に係る前記連続画像データを当該第1のフレーム画像データから取得し、
前記機械学習モデルに入力される前記連続画像データの数と同数の前記第2のシーン種別に係る前記連続画像データを当該第2のフレーム画像データから取得し、
前記機械学習モデルは、
当該第1のシーン種別に係る前記連続画像データに基づき、前記第1のシーン種別であるか否かに関する第1の判断データを取得し、
当該第2のシーン種別に係る前記連続画像データに基づき、前記第2のシーン種別であるか否かに関する第2の判断データを取得し、
前記第1の判断データと前記第2の判断データとに基づき、前記複数のシーン種別のいずれであるかの前記推定の結果を取得する、
請求項4又は5に記載のコンピュータビジョンシステム。 - 前記機械学習モデルは、
連続する複数の第1の訓練用連続画像データと当該複数の第1の訓練用連続画像データの後に連続する複数の第2の訓練用連続画像データとを有する複数の訓練用連続画像データと、前記複数の訓練用連続画像データと対応づけられたラベルデータであって前記複数の訓練用連続画像データに係る前記シーン種別を示す前記ラベルデータと、を取得すること、
前記複数の訓練用連続画像データを前記機械学習モデルに入力して、前記複数の訓練用連続画像データに係る前記シーン種別の推定の結果を取得すること、
当該推定の結果と前記ラベルデータとに基づき、前記機械学習モデルを学習させること、
により生成されたものである、
請求項4から6のいずれかに記載のコンピュータビジョンシステム。 - 前記複数の第1の訓練用連続画像データは、前記複数の訓練用連続画像データに係る前記シーン種別を特徴付ける一のイベントの前に対応し、
前記複数の第2の訓練用連続画像データは、当該イベントの後に対応する、
請求項7に記載のコンピュータビジョンシステム。 - スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得ステップと、
機械学習モデルを用い、前記一部分について所定のシーン種別であるか否かの推定を行う推定ステップであって、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得し、
前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得し、
前記複数の第2の特徴量に基づき、前記推定の結果を取得する、
前記推定ステップと、
を有する、コンピュータビジョン方法。 - スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データを有する前記複数の連続画像データを当該試合映像から取得する連続画像データ取得ステップと、
機械学習モデルを用い、前記一部分について所定のシーン種別であるか否かの推定を行う推定ステップであって、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得し、
前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得し、
前記複数の第2の特徴量に基づき、前記推定の結果を取得する、
前記推定ステップと、
をコンピュータに実行させるためのコンピュータビジョンプログラム。 - スポーツの試合映像の任意の一部分を示す複数の連続画像データであって、連続する複数の第1の連続画像データと、当該複数の第1の連続画像データの後に連続する複数の第2の連続画像データと、を有する前記複数の連続画像データに基づき前記一部分について所定のシーン種別であるか否かの推定を行う機械学習モデル、の学習を行うための学習方法であって、
連続する複数の第1の訓練用連続画像データと当該複数の第1の訓練用連続画像データの後に連続する複数の第2の訓練用連続画像データとを有する複数の訓練用連続画像データと、前記複数の訓練用連続画像データと対応づけられたラベルデータであって前記複数の訓練用連続画像データに係る前記シーン種別を示す前記ラベルデータと、を取得する訓練データセット取得ステップと、
前記複数の訓練用連続画像データを前記機械学習モデルに入力して、前記複数の訓練用連続画像データに係る前記シーン種別の推定の結果を取得する推定結果取得ステップと、
当該推定の結果と前記ラベルデータとに基づき、前記機械学習モデルの学習を行う学習ステップと、を有し、
前記機械学習モデルは、
前記複数の第1の連続画像データのそれぞれに対応する複数の第1の特徴量であって、対応する前記第1の連続画像データの特徴をそれぞれ示す前記複数の第1の特徴量を、前記複数の第1の連続画像データから取得する第1の特徴量取得部と、
前記複数の第1の特徴量にそれぞれ対応する複数の第1の顕著度であって、対応する前記第1の特徴量の顕著度をそれぞれ示す前記複数の第1の顕著度を算出し、対応する前記第1の顕著度により前記複数の第1の特徴量のそれぞれを重み付けすることによって、前記複数の第1の特徴量から複数の第2の特徴量を取得する第2の特徴量取得部と、
前記複数の第2の連続画像データのそれぞれに対応する複数の第3の特徴量であって、対応する前記第2の連続画像データの特徴をそれぞれ示す前記複数の第3の特徴量を、前記複数の第2の連続画像データから取得する第3の特徴量取得部と、
前記複数の第3の特徴量にそれぞれ対応する複数の第2の顕著度であって、対応する前記第3の特徴量の顕著度をそれぞれ示す前記複数の第2の顕著度を算出し、対応する前記第2の顕著度により前記複数の第3の特徴量のそれぞれを重み付けすることによって、前記複数の第3の特徴量から複数の第4の特徴量を取得する第4の特徴量取得部と、
前記複数の第2の特徴量と前記複数の第4の特徴量とに基づき、前記推定の結果を取得する推定結果取得部と、
を有する、学習方法。 - 前記複数の第1の訓練用連続画像データは、前記複数の訓練用連続画像データに係る前記シーン種別を特徴付ける一のイベントの前に対応し、
前記複数の第2の訓練用連続画像データは、当該イベントの後に対応する、
請求項11に記載の学習方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2022/014991 WO2023187899A1 (ja) | 2022-03-28 | 2022-03-28 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2023187899A1 JPWO2023187899A1 (ja) | 2023-10-05 |
JP7460997B2 true JP7460997B2 (ja) | 2024-04-03 |
Family
ID=88199644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024501933A Active JP7460997B2 (ja) | 2022-03-28 | 2022-03-28 | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240338930A1 (ja) |
JP (1) | JP7460997B2 (ja) |
WO (1) | WO2023187899A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008198038A (ja) | 2007-02-15 | 2008-08-28 | Nippon Hoso Kyokai <Nhk> | イベント判別装置及びイベント判別プログラム |
JP2009093250A (ja) | 2007-10-04 | 2009-04-30 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP2018190332A (ja) | 2017-05-11 | 2018-11-29 | キヤノン株式会社 | 画像認識装置および学習装置 |
-
2022
- 2022-03-28 US US18/580,609 patent/US20240338930A1/en active Pending
- 2022-03-28 WO PCT/JP2022/014991 patent/WO2023187899A1/ja active Application Filing
- 2022-03-28 JP JP2024501933A patent/JP7460997B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008198038A (ja) | 2007-02-15 | 2008-08-28 | Nippon Hoso Kyokai <Nhk> | イベント判別装置及びイベント判別プログラム |
JP2009093250A (ja) | 2007-10-04 | 2009-04-30 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP2018190332A (ja) | 2017-05-11 | 2018-11-29 | キヤノン株式会社 | 画像認識装置および学習装置 |
Also Published As
Publication number | Publication date |
---|---|
US20240338930A1 (en) | 2024-10-10 |
WO2023187899A1 (ja) | 2023-10-05 |
JPWO2023187899A1 (ja) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147711B (zh) | 视频场景识别方法、装置、存储介质和电子装置 | |
JP4640155B2 (ja) | 画像処理装置および方法、並びにプログラム | |
CN108898118B (zh) | 一种视频数据处理方法、装置和存储介质 | |
CN108804578B (zh) | 基于一致性片段生成的无监督视频摘要方法 | |
CN102334118B (zh) | 基于用户兴趣学习的个性化广告推送方法与系统 | |
CN112348117B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
Kucer et al. | Leveraging expert feature knowledge for predicting image aesthetics | |
CN111814620B (zh) | 人脸图像质量评价模型建立方法、优选方法、介质及装置 | |
US12001479B2 (en) | Video processing method, video searching method, terminal device, and computer-readable storage medium | |
CN109934300B (zh) | 模型压缩方法、装置、计算机设备及存储介质 | |
WO2020088491A1 (zh) | 一种运动行为模式分类方法、系统以及装置 | |
Xu et al. | Video saliency detection via graph clustering with motion energy and spatiotemporal objectness | |
CN113811898A (zh) | 用于运动中内容和风格预测的系统和方法 | |
CN111986180B (zh) | 基于多相关帧注意力机制的人脸伪造视频检测方法 | |
CN112102157B (zh) | 视频换脸方法、电子设备和计算机可读存储介质 | |
CN110866563B (zh) | 相似视频检测、推荐方法、电子设备和存储介质 | |
WO2019228316A1 (zh) | 动作识别方法和装置 | |
CN111914878A (zh) | 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质 | |
CN112131944B (zh) | 一种视频行为识别方法及系统 | |
Wang et al. | Distortion recognition for image quality assessment with convolutional neural network | |
JP7460997B2 (ja) | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 | |
Cheng et al. | Re-compose the image by evaluating the crop on more than just a score | |
JP7460995B2 (ja) | コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法 | |
CN116597507A (zh) | 一种人体动作规范性评估方法及系统 | |
EP4149115A1 (en) | Video stream processing method and apparatus, and computer device and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240112 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20240112 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240112 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20240116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7460997 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |