JP2022135930A - ビデオ分類方法、装置、機器、および記憶媒体 - Google Patents

ビデオ分類方法、装置、機器、および記憶媒体 Download PDF

Info

Publication number
JP2022135930A
JP2022135930A JP2022005486A JP2022005486A JP2022135930A JP 2022135930 A JP2022135930 A JP 2022135930A JP 2022005486 A JP2022005486 A JP 2022005486A JP 2022005486 A JP2022005486 A JP 2022005486A JP 2022135930 A JP2022135930 A JP 2022135930A
Authority
JP
Japan
Prior art keywords
video
text
information
keyword
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022005486A
Other languages
English (en)
Other versions
JP7334395B2 (ja
Inventor
ヤン、フ
Hu Yang
ヘ、フェン
Feng He
ワン、チ
Qi Wang
フェン、ジファン
Zhifan Feng
チャイ、チュングアン
Chunguang Chai
ジュ、ヨン
Yong Zhu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022135930A publication Critical patent/JP2022135930A/ja
Application granted granted Critical
Publication of JP7334395B2 publication Critical patent/JP7334395B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Liquid Crystal (AREA)
  • Devices For Indicating Variable Information By Combining Individual Elements (AREA)

Abstract

【課題】ビデオ分類の精度を向上させることができるビデオ分類方法、装置、機器及び記憶媒体を提供する。【解決手段】ビデオ分類方法は、テキストコンテンツと視覚情報を含むビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出するステップと、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定するステップと、認識すべきテキストを分類して、ビデオのカテゴリを取得するステップと、を含む。【選択図】図1

Description

本開示は、コンピュータ技術の分野に関し、具体的には、知識グラフ、コンピュータビジョン、ディープラーニングなどの人工知能技術の分野に関し、特に、ビデオ分類方法、装置、機器、および記憶媒体に関する。
人工知能(Artificial Intelligence、AI)は、人間のある思考プロセスと知能行為(たとえば、学習、推理、思考、計画など)をコンピュータでシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的に、たとえば、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術および機械学習/ディープラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。
情報技術の発展により、ビデオは、情報伝達を担う主要な方式の一つになっている。ビデオデータの急速な増加に伴い、分類に基づいてビデオに対して記憶、管理などを行うように、ビデオを分類することができる。
関連技術では、通常、ビデオの単一のモーダル情報を使用してビデオを分類する。
本開示は、ビデオ分類方法、装置、機器、および記憶媒体を提供する。
本開示の一態様によれば、ビデオ分類方法を提供し、ビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出するステップと、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定するステップと、認識すべきテキストを分類して、ビデオのカテゴリを取得するステップと、を含む。
本開示の別の態様によれば、ビデオ分類装置を提供し、ビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出するための抽出モジュールと、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定するための決定モジュールと、認識すべきテキストを分類して、ビデオのカテゴリを取得するための分類モジュールと、を含む。
本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶されており、命令が少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサが上記の任意の態様のいずれかに記載の方法を実行する。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに上記の任意の態様のいずれかに記載の方法を実行させる。
本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、コンピュータプログラムがプロセッサによって実行される時に上記の任意の態様のいずれかに記載の方法を実現する。
本開示の技術案によれば、ビデオ分類の精度を向上させることができる。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本開示の第1の実施例による概略図である。 本開示の第2の実施例による概略図である。 本開示の第3の実施例による概略図である。 本開示の第4の実施例による概略図である。 本開示の第5の実施例による概略図である。 本開示の第6の実施例による概略図である。 本開示の実施例のビデオ分類方法のいずれか一つを実現するための電子機器の概略図である。
以下、図面に基づいて、本出願の例示の実施例を表現する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。
図1は、本開示の第1の実施例による概略図である。本実施例は、ビデオ分類方法を提供し、当該方法は、以下のようなステップを含む。
101、ビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出する。
102、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定する。
103、認識すべきテキストを分類して、ビデオのカテゴリを取得する。
本実施例の実行主体は、サーバなどの片側デバイス本体であってもよい。
本開示の実施例では、モーダルは、テキスト、視覚、音声などのようなビデオ内の情報の形式を指す。マルチモーダル情報は、複数の形式の情報を指し、具体的には、本実施例では、マルチモーダル情報は、テキストコンテンツと視覚情報を含み、すなわち、モーダル情報は、一つのテキストコンテンツであり、もう一つのモーダル情報は、視覚情報である。テキストコンテンツは、テキストの具体的な内容を指し、例えば、一つのテキストが、農村の電子商取引に関するテキストである場合、対応するテキストコンテンツは、「農村の電子商取引
Figure 2022135930000002
」などの内容を含むことができる。テキストコンテンツと異なることは、テキストは、テキスト位置、テキストのフォントサイズなどの他の情報をさらに含むことができ、位置、フォントサイズなどのようなこれらのテキスト情報は、視覚情報の中の一つとすることができる。
さらに、テキストは、ビデオのタイトル、光学式文字認識(Optical Character Recognition、OCR)テキスト、および自動音声認識(Automatic Speech Recognition、ASR)テキストを含むことができる。その中、タイトルは、ビデオの概括的な文字説明を指し、例えば、あるビデオウェブサイトのビデオページでは、各ビデオに対応して、対応する文字説明を配置することができ、当該文字説明は、ビデオのタイトルとすることができる。タイトルに対応するテキストコンテンツは、ビデオページを解析することで、直接取得することができる。ビデオは、複数のビデオフレームで構成され、OCRテキストは、OCR方式を使用して、取得されたビデオフレームにおけるテキストを指す。タイトルに対応するテキストコンテンツを直接取得できるとは異なり、OCRテキストに対応するテキストコンテンツは、OCR方式を使用して取得する必要がある。ASRテキストは、ビデオに対応する音声を音声認識し、ASR方式を使用して取得されたテキストを指す。ASRテキストに対応するテキストコンテンツも同様に直接取得することができず、ASR方式を使用して取得する必要がある。
視覚情報は、第1の視覚情報と第2の視覚情報を含むことができ、第1の視覚情報は、微視的視覚情報とも呼ばれ、第2の視覚情報は、巨視的視覚情報とも呼ばれる。第1の視覚情報は、ビデオフレームにおけるテキストに対応する視覚情報を指し、ビデオフレームにおけるテキストは、例えば、上記のOCRテキストであり、第1の視覚情報は、例えば、OCRテキストの位置、OCRテキストのフォント、OCRテキストの出現時間の長さなどのうちの一つまたは複数を含む。第2の視覚情報は、ビデオ内のキーフレームを指し、キーフレームは、特定の情報を含むビデオフレームを指し、具体的には、特定の情報は、例えば、OCRテキスト、顔画像などのうちの一つまたは複数を含む。
マルチモーダル情報を取得した後、マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、各モーダル情報に対応する特徴を取得することができる。例えば、マルチモーダル情報がテキストと視覚情報を含むと、テキストに対応するテキスト特徴、および視覚特徴に対応する視覚特徴をそれぞれ抽出することができる。次に、テキスト特徴と視覚特徴を融合して、融合特徴を取得し、次に融合特徴に基づいてキーワードラベル付けを行って、ビデオ内のキーワードを決定する。
各モーダル情報に対応する特徴を融合することにより、融合特徴は複数のモーダルの情報を含み、分類精度を向上させることができる。
ビデオ内のキーワードを取得した後、対応する背景知識を取得することができ、背景知識は、キーワードを解釈、説明する内容を指す。具体的には、既存の知識ベースからキーワードに対応する背景知識を取得することができる。既存の知識ベースには、各キーワードと対応する背景知識を保存することができる。既存の知識ベースは、例えば百度百科(Baidu Baike)である。
背景知識を取得した後、キーワードと背景知識をスティッチングして、スティッチングテキストを取得し、次に、スティッチングテキストを分類して、ビデオのカテゴリを決定することができる。
本実施例では、マルチモーダル情報に基づいて処理することにより、マルチモーダル情報を有するビデオの特性を十分に利用して、ビデオ分類の精度を向上させることができる。キーワードに対応する背景知識を取得し、背景知識に基づいて処理することにより、キーワードの知識を補完することができ、認識すべきテキストがより高い解釈性を持つようになり、ビデオ分類の精度をさらに向上させる。
図2は、本開示の第2の実施例による概略図である。本実施例は、ビデオ分類方法を提供し、本実施例は、ビデオのマルチモーダル特徴がテキストと視覚特徴を含むことを例とし、当該方法は、以下のようなステップを含む。
201、ビデオに対応するテキストのテキストコンテンツを取得する。
テキストは、ビデオのタイトル、OCRテキスト、およびASRテキストを含む。
その中、タイトルに対応するテキストコンテンツは、直接抽出できるテキストコンテンツであり、したがって、ビデオウェブページに対してテキスト解析を行って、ビデオのタイトルに対応するテキストコンテンツを直接取得することができる。
OCRテキストは、OCRでビデオフレームを処理した後、取得されたビデオフレームにおけるテキストを指す。図3に示すように、あるビデオフレームにおけるテキストを対応するテキストボックスを使用して識別し、OCRでテキストボックス内の画像内容を認識した後、対応するテキストコンテンツを取得することができる。例えば、一つのOCRテキストに対応するテキストコンテンツが「XXXは全省の農村の電子商取引品質および効率向上のテレビ電話会議で強調する
Figure 2022135930000003
」である。
ASRテキストは、音声認識技術で、ビデオに対応する音声をテキストに変換することを指し、例えば、図3に示すビデオフレームに対応して、当該ビデオフレームは、再生する同時に、対応するニュースキャスターの音声もあることができ、当該音声を対応するテキストコンテンツに変換して、ASRテキストに対応するテキストコンテンツとすることができる。
202、ビデオの視覚情報を取得する。
視覚情報は、第1の視覚情報と第2の視覚情報を含み、第1の視覚情報は、ビデオの中のビデオフレームにおけるテキストに対応する視覚情報であり、第2の視覚情報は、ビデオ内のキーフレームである。具体的には、第1の視覚情報は、例えば、OCRテキストの位置、OCRテキストのフォント、OCRテキストの出現時間の長さなどのうちの一つまたは複数を含む。第2の視覚情報は、例えば、特定の情報を含むビデオフレームであり、特定の情報は、例えば、OCRテキスト、顔画像などのうちの一つまたは複数を含む。例えば、図3の「XXXは全省の農村の電子商取引品質および効率向上のテレビ電話会議で強調する
Figure 2022135930000004
」のOCRテキストの位置を第1の視覚情報とすることができ、図3に示すビデオフレームにはOCRテキストが含まれ、顔画像も含まれるので、当該ビデオフレームをキーフレーム、すなわち第2の視覚情報とすることができる。
203、テキストコンテンツと視覚情報に基づいて、ビデオ内のキーワードを抽出する。
具体的には、図4に示すように、テキストコンテンツと視覚情報に対して特徴抽出を行って、テキスト特徴と視覚特徴をそれぞれ取得することができる。
さらに、視覚情報は、第1の視覚情報と第2の視覚情報に分けられることができ、第1の視覚情報と第2の視覚情報に対して特徴抽出を行って、第1の視覚特徴と第2の視覚特徴をそれぞれ取得することができる。
具体的には、テキストコンテンツ、第1の視覚情報はいずれもテキスト形式に属するため、テキスト特徴の抽出方式を使用して、それを対応する特徴ベクトルに変換することができる。第2の視覚情報は、キーフレームであり、画像であるため、画像特徴の抽出方式を使用して、それを対応する特徴ベクトルに変換することができる。すなわち、テキストコンテンツに対して第1のテキスト符号化を行って、テキスト特徴を取得するステップと、第1の視覚情報に対して第2のテキスト符号化を行って、第1の視覚特徴を取得するステップと、第2の視覚情報に対して画像符号化を行って、第2の視覚特徴を取得するステップと、を含むことができる。
異なるモーダル情報を符号化処理することで、各モーダル情報により適切な符号化方式で処理して、各モーダル情報に対応する特徴の精度を向上させ、さらに、分類精度を向上させることができる。
図4に示すように、第1のテキスト符号化モデルを使用して、テキストコンテンツを符号化して、テキスト特徴を取得し、第2のテキスト符号化モデルを使用して、第1の視覚情報を符号化して、第1の視覚特徴を取得し、画像符号化モデルを使用して、第2の視覚情報を符号化して、第2の視覚特徴を取得することができる。その中、第1のテキスト符号化モデルおよび/または第2のテキスト符号化モデルは、例えば、Transformerネットワークにおけるエンコーダ(図4には、第1のTransformerネットワークと第2のTransformerネットワークをそれぞれ表示する)である。画像符号化モデルは、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)であり、具体的には、例えば、resnet-152である。
テキスト符号化の出力は、ベクトル形式であり、画像符号化について、抽出された特徴図(feature map)を平坦化して、それをベクトル形式に変換することができるため、テキスト特徴、第1の視覚特徴、第2の視覚特徴がすべてベクトル形式であるようにすることを理解されたい。
テキスト特徴、第1の視覚特徴、および第2の視覚特徴を取得した後、これらの3つの特徴を融合することができ、具体的には、これらの3つの特徴がいずれもベクトル形式であるため、これらの3つの特徴に対してベクトルスティッチングを行って、スティッチングベクトルを取得し、スティッチングベクトルを融合特徴とすることができる。
ベクトルスティッチングの方式を使用して融合することで、マルチモーダル情報融合を簡単に実現することができる。
融合ベクトルを取得した後、条件付き確率場(Conditional Random Field、CPF)を使用して、融合特徴に基づいてキーワードラベル付けを行って、ビデオ内のキーワードを取得することができる。図4に示すように、中国語を例にとると、中国語の各字に対応して、B、I、Oをラベル付けすることができる、その中、Bはキーワードの開始点を表示し、Iはキーワードの他の部分を表示し、Oはキーワードでないことを表示するため、キーワードラベル付けによってビデオ内のキーワードを取得することができる。例えば、上記の「XXXは全省の農村の電子商取引品質および効率向上のテレビ電話会議で強調する
Figure 2022135930000005
」に対応して、キーワードラベル付けを経て、
Figure 2022135930000006
は、それぞれB、I、I、Iにラベル付けられ、その他の字は、いずれもOにラベル付けられると、抽出されたキーワードは、「農村の電子商取引
Figure 2022135930000007
」である。
その中、特徴融合を行う時に、中国語を例にとると、各字に対応して融合することができ、例えば、テキストコンテンツは、「字1」、「字2」などを含み、「字1」に対応する第1の視覚情報は、視覚1(feat1)で表示し、第1の視覚情報は、「視覚1」、「視覚2」などを含むと、融合時、「字1」を例にとると、「字1」に対応するテキスト特徴+「視覚1」に対応する第1の視覚特徴+第2の視覚特徴を、「字1」に対応する融合特徴とし、「+」はスティッチングを表示する。また、融合時に、[CLS]に対応する特徴が含まれてもよく、含まれなくてもよい。図4の第1のTransformerネットワークを例にとると、入力ブロックは、[CLS]、「字1」、「字2」などを含み、出力ブロックは、H0、H1、H2などのテキスト特徴を含み、H0は[CLS]に対応する隠れ層出力ベクトルであり、H1は「字1」に対応する隠れ層出力ベクトルであり、H2は「字2」に対応する隠れ層出力ベクトルである。第2のTransformerネットワークの入力ブロックは出力ブロックと類似であり、入力のみが視覚情報であり、出力が視覚特徴である。字に基づくベクトルスティッチングであるため、融合特徴はテキストコンテンツの中の字を単位とし、キーワードラベル付けを行う時、単語ごとに上記のB、I、Oの識別を行って、キーワードを決定することができる。
CRFを使用して融合特徴をラベル付けすることによって、キーワードラベル付けの方式に基づいて、ビデオ内のキーワードを抽出することができる。
204、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定する。
例えば、百度百科からキーワードに対応する背景知識を取得する。例えば、図3に示すビデオフレームに対応して、抽出されたキーワードは「農村の電子商取引
Figure 2022135930000008
」であり、百度百科から、「農村の電子商取引
Figure 2022135930000009
」に対応する背景知識は、「農村電子商取引プラットフォームが密集した農村チェーンアウトレットを協力して、デジタル化、情報化の手段で、集約化管理、市場化運営、体系化された地域間および業界間の提携によって、コンパクトで整然とした業界連合を構築し、農村の商業コストを低減し、農村の商業分野を拡大して、農民がプラットフォームの最大の受益者になるようにし、業者が新たな利益成長を獲得するようにする」であることを検索することができる。
知識ベースから背景知識を取得することによって、知識ベースには多くの各態様のデータリソースがあるため、既存リソースを十分に利用することができる。
その後、当該キーワードと背景知識をスティッチングして、スティッチングテキストを取得し、スティッチングテキストを認識すべきテキストとすることができる。
抽出されたビデオ内のキーワードが複数である場合、各キーワードと背景知識に対応してスティッチングを行って、次に、すべてのキーワードをスティッチングすることができる。例えば、第1のキーワード+第1の背景知識+第2のキーワード+第2の背景知識+第3のキーワード+第3の背景知識などであり、その中の+は、スティッチングを表示することを理解することができる。
205、認識すべきテキストを分類して、ビデオのカテゴリを取得する。
その中、認識すべきテキストを分類モデルに入力し、ビデオのカテゴリとして出力することができる。分類モデルは、例えば、テキスト符号化ネットワークと分類ネットワークを含む。図5に示すように、テキスト符号化ネットワークは、Transformerネットワークのエンコーダであってもよく、図5には第3のTransformerネットワークで表示し、中国語を例にとると、認識すべきテキストを複数の単語に分割し、「単語1」、「単語2」などで表示し、取得された複数の単語と分類識別子「[CLS]」を入力とし、テキスト符号化ネットワークに入力し、H0、H1、H2などを含む隠れ層ベクトルを出力することができ、その中、H0は[CLS]に対応する隠れ層ベクトルであり、H0を分類ネットワークの入力とし、出力は分類結果であり、すなわちビデオのカテゴリである。分類ネットワークは、全接続層を含むなどの、様々な既存の分類ネットワークを使用することができる。
さらに、分類モデルは、ラジオとテレビデータを使用してトレーニングした後に取得することがで、すなわち、分類モデルがトレーニング時、使用されるトレーニングデータは、ラジオとテレビデータである。ラジオとテレビデータは、ラジオとテレビのビデオデータ、および対応するビデオラベルを含み、ビデオラベルは、ラジオとテレビのビデオ分類標準に従ってラベル付けすることができる。ラジオとテレビのビデオ分類標準は、ラジオおよびテレビ番組資料分類法である。ラジオおよびテレビ番組資料分類法は、中国テレビおよびラジオなどの番組の最も権威の分類体系である。当該分類体系は、樹形構造を使用し、13個の大分類に分けられ、一般的には、3から4級に細分化される。インターネットで放送されるテレビ、映画、バラエティ、アニメ、ニュースなどのテレビおよびラジオ番組は、いずれもこの権威の分類体系に従って分類することができる。正規のテレビ局がビデオ内容をカタログ化するにも、当該分類標準に従ってビデオ分類を行う必要がある。ビデオラベルを使用する時には、実際のニーズに応じて行うことができ、例えば、2級のカテゴリに細分化する必要がある場合、トレーニング時のビデオラベルは、2級ラベルを使用できることを理解することができる。
ラジオとテレビデータに基づいてトレーニングした後に取得された分類モデルは、標準に適合し、より権威性、標準性を持ち、さらに、分類モデルの汎用性を向上させることができる。
図6は、本開示の第6の実施例による概略図である。本実施例は、ビデオ分類装置を提供し、当該装置600は、抽出モジュール601、決定モジュール602、および分類モジュール603を含む。
抽出モジュール601は、ビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出するために用いられ、決定モジュール602は、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定するために用いられ、分類モジュール603は、認識すべきテキストを分類して、ビデオのカテゴリを取得するために用いられる。
いくつかの実施例では、抽出モジュール601は、具体的には、マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、各モーダル情報に対応する特徴を取得し、各モーダル情報に対応する特徴を融合して、融合特徴を取得し、融合特徴に基づいてキーワードラベル付けを行って、ビデオ内のキーワードを決定するために用いられる。
いくつかの実施例では、マルチモーダル情報は、テキストコンテンツと視覚情報を含み、視覚情報は、第1の視覚情報と第2の視覚情報を含み、第1の視覚情報は、ビデオの中のビデオフレームにおけるテキストに対応する視覚情報であり、第2の視覚情報は、ビデオ内のキーフレームであり、抽出モジュール601は、さらに、具体的には、テキストコンテンツに対して第1のテキスト符号化を行って、テキスト特徴を取得し、第1の視覚情報に対して第2のテキスト符号化を行って、第1の視覚特徴を取得し、第2の視覚情報に対して画像符号化を行って、第2の視覚特徴を取得するために用いられる。
いくつかの実施例では、抽出モジュール601は、さらに、具体的には、各モーダル情報に対応する特徴に対してベクトルスティッチングを行って、スティッチングベクトルを取得し、スティッチングベクトルを融合特徴とするために用いられる。
いくつかの実施例では、抽出モジュール601は、さらに、具体的には、条件付き確率場を使用して、融合特徴に基づいてキーワードラベル付けを行うために用いられる。
いくつかの実施例では、決定モジュール602は、具体的には、既存の知識ベースから、キーワードに対応する背景知識を取得するために用いられる。
いくつかの実施例では、分類モジュール603は、具体的には、分類モデルを使用して、認識すべきテキストを分類するために用いられ、分類モデルは、ラジオとテレビデータを使用してトレーニングした後に取得される。
本開示の実施例では、マルチモーダル情報に基づいて処理するによって、マルチモーダル情報を有するビデオの特性を十分に利用して、ビデオ分類の精度を向上させることができる。キーワードに対応する背景知識を取得し、背景知識に基づいて処理することにより、キーワードの知識を補完することができ、認識すべきテキストがより高い解釈性を持つようになり、ビデオ分類の精度をさらに向上させる。異なるモーダル情報を符号化処理することで、各モーダル情報により適切な符号化方式で処理して、各モーダル情報に対応する特徴の精度を向上させ、さらに、分類精度を向上させることができる。ベクトルスティッチングの方式を使用して融合することによって、マルチモーダル情報融合を簡単に実現することができる。CRFを使用して融合特徴をラベル付けすることによって、キーワードラベル付けの方式に基づいて、ビデオ内のキーワードを抽出することができる。知識ベースから背景知識を取得することによって、知識ベースには多くの各態様のデータリソースがあるため、既存リソースを十分に利用することができる。ラジオとテレビデータに基づいてトレーニングした後に取得された分類モデルは、標準に適合し、より権威性、標準性を持ち、さらに、分類モデルの汎用性を向上させることができる。
本開示の実施例では、異なる実施例の同じまたは類似の内容は、互いに参照できることを理解することができる。
本開示の実施例の「第1」、「第2」などは、区分にのみ用いられ、重要度の高低、時系列的な前後などを示すものではないことを理解されたい。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。
図7に示すように、本開示の実施例の例を実現するための電子機器700のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図7に示すように、電子機器700は計算ユニット701を含み、計算ユニット701は、読み取り専用メモリ(ROM)702に記憶されているコンピュータプログラムまたは記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM703には、電子機器700が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット701、ROM702、およびRAM703は、バス704を介してお互いに接続される。入出力(I/O)インターフェース705もバス704に接続される。
電子機器700内の複数のコンポーネントは、I/Oインターフェース705に接続されており、キーボード、マウスなどの入力ユニット706と、様々なタイプのディスプレイ、スピーカなどの出力ユニット707と、ディスク、光ディスクなどの記憶ユニット708と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709と、を含む。通信ユニット709は、電子機器700が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット701は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット701のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、ビデオ分類方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、ビデオ分類方法は、記憶ユニット708などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM702および/または通信ユニット709を介して電子機器700にロードおよび/またはインストールされる。コンピュータプログラムがRAM703にロードされて計算ユニット701によって実行される場合、上記のビデオ分類方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット701は、他の任意の適切な方式(例えば、ファームウェアによって)を介してビデオ分類方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサーバ(Virtual Private Server、またはVPSと呼ぶ)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (17)

  1. ビデオ分類方法であって、
    ビデオのマルチモーダル情報に基づいて、前記ビデオ内のキーワードを抽出するステップと、
    前記キーワードに対応する背景知識を取得し、前記キーワードと前記背景知識に基づいて、認識すべきテキストを決定するステップと、
    前記認識すべきテキストを分類して、前記ビデオのカテゴリを取得するステップと、を含む、
    ビデオ分類方法。
  2. 前記ビデオのマルチモーダル情報に基づいて、前記ビデオ内のキーワードを抽出するステップは、
    前記マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、前記各モーダル情報に対応する特徴を取得するステップと、
    前記各モーダル情報に対応する特徴を融合して、融合特徴を取得するステップと、
    前記融合特徴に基づいてキーワードラベル付けを行って、前記ビデオ内のキーワードを決定するステップと、を含む、
    請求項1に記載のビデオ分類方法。
  3. 前記マルチモーダル情報は、テキストコンテンツと視覚情報を含み、前記視覚情報は、第1の視覚情報と第2の視覚情報を含み、前記第1の視覚情報は、前記ビデオの中のビデオフレームにおけるテキストに対応する視覚情報であり、前記第2の視覚情報は、前記ビデオ内のキーフレームであり、
    前記マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、前記各モーダル情報に対応する特徴を取得するステップは、
    前記テキストコンテンツに対して第1のテキスト符号化を行って、テキスト特徴を取得するステップと、
    前記第1の視覚情報に対して第2のテキスト符号化を行って、第1の視覚特徴を取得するステップと、
    前記第2の視覚情報に対して画像符号化を行って、第2の視覚特徴を取得するステップと、を含む、
    請求項2に記載のビデオ分類方法。
  4. 前記各モーダル情報に対応する特徴を融合して、融合特徴を取得するステップは、
    前記各モーダル情報に対応する特徴に対してベクトルスティッチングを行って、スティッチングベクトルを取得し、前記スティッチングベクトルを融合特徴とするステップを含む、
    請求項2に記載のビデオ分類方法。
  5. 前記融合特徴に基づいてキーワードラベル付けを行うステップは、
    条件付き確率場を使用して、前記融合特徴に基づいてキーワードラベル付けを行うステップを含む、
    請求項2に記載のビデオ分類方法。
  6. 前記キーワードに対応する背景知識を取得するステップは、
    既存の知識ベースから、前記キーワードに対応する背景知識を取得するステップを含む、
    請求項1に記載のビデオ分類方法。
  7. 前記認識すべきテキストを分類するステップは、
    分類モデルを使用して、前記認識すべきテキストを分類するステップを含み、前記分類モデルは、ラジオとテレビのデータを使用してトレーニングした後に取得される、
    請求項1から6のいずれか一項に記載のビデオ分類方法。
  8. ビデオ分類装置であって、
    ビデオのマルチモーダル情報に基づいて、前記ビデオ内のキーワードを抽出するための抽出モジュールと、
    前記キーワードに対応する背景知識を取得し、前記キーワードと前記背景知識に基づいて、認識すべきテキストを決定するための決定モジュールと、
    前記認識すべきテキストを分類して、前記ビデオのカテゴリを取得するための分類モジュールと、を含む、
    ビデオ分類装置。
  9. 前記抽出モジュールは、具体的には、
    前記マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、前記各モーダル情報に対応する特徴を取得し、
    前記各モーダル情報に対応する特徴を融合して、融合特徴を取得し、
    前記融合特徴に基づいてキーワードラベル付けを行って、前記ビデオ内のキーワードを決定するために用いられる、
    請求項8に記載のビデオ分類装置。
  10. 前記マルチモーダル情報は、テキストコンテンツと視覚情報を含み、前記視覚情報は、第1の視覚情報と第2の視覚情報を含み、前記第1の視覚情報は、前記ビデオの中のビデオフレームにおけるテキストに対応する視覚情報であり、前記第2の視覚情報は、前記ビデオ内のキーフレームであり、
    前記抽出モジュールは、さらに、具体的には、
    前記テキストコンテンツに対して第1のテキスト符号化を行って、テキスト特徴を取得し、
    前記第1の視覚情報に対して第2のテキスト符号化を行って、第1の視覚特徴を取得し、
    前記第2の視覚情報に対して画像符号化を行って、第2の視覚特徴を取得するために用いられる、
    請求項9に記載のビデオ分類装置。
  11. 前記抽出モジュールは、さらに、具体的には、
    前記各モーダル情報に対応する特徴に対してベクトルスティッチングを行って、スティッチングベクトルを取得し、前記スティッチングベクトルを融合特徴とするために用いられる、
    請求項9に記載のビデオ分類装置。
  12. 前記抽出モジュールは、具体的に、
    条件付き確率場を使用して、前記融合特徴に基づいてキーワードラベル付けを行うために用いられる、
    請求項9に記載のビデオ分類装置。
  13. 前記決定モジュールは、具体的には、
    既存の知識ベースから、前記キーワードに対応する背景知識を取得するために用いられる、
    請求項8に記載のビデオ分類装置。
  14. 前記分類モジュールは、具体的には、
    分類モデルを使用して、前記認識すべきテキストを分類するために用いられ、前記分類モデルは、ラジオとテレビのデータを使用してトレーニングした後に取得される、
    請求項8から13のいずれか一項に記載のビデオ分類装置。
  15. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1から7のいずれか一項に記載のビデオ分類方法を実行する、
    電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~7のいずれか一項に記載のビデオ分類方法を実行させる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  17. プロセッサによって実行される時に請求項1~7のいずれかの一つに記載のビデオ分類方法を実現する、
    コンピュータプログラム。
JP2022005486A 2021-03-05 2022-01-18 ビデオ分類方法、装置、機器、および記憶媒体 Active JP7334395B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110244368.2A CN113159010B (zh) 2021-03-05 2021-03-05 视频分类方法、装置、设备和存储介质
CN202110244368.2 2021-03-05

Publications (2)

Publication Number Publication Date
JP2022135930A true JP2022135930A (ja) 2022-09-15
JP7334395B2 JP7334395B2 (ja) 2023-08-29

Family

ID=76884217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022005486A Active JP7334395B2 (ja) 2021-03-05 2022-01-18 ビデオ分類方法、装置、機器、および記憶媒体

Country Status (5)

Country Link
US (1) US20220284218A1 (ja)
EP (1) EP4053802A1 (ja)
JP (1) JP7334395B2 (ja)
KR (1) KR20220125672A (ja)
CN (1) CN113159010B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657230B (zh) * 2021-08-06 2024-04-23 北京百度网讯科技有限公司 训练新闻视频识别模型的方法、检测视频的方法及其装置
CN114398889A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 基于多模态模型的视频文本摘要方法、设备及存储介质
CN116363261A (zh) * 2023-03-31 2023-06-30 北京百度网讯科技有限公司 图像编辑模型的训练方法、图像编辑方法和装置
CN116486420B (zh) * 2023-04-12 2024-01-12 北京百度网讯科技有限公司 文档图像的实体抽取方法、装置及存储介质
CN117234369A (zh) * 2023-08-21 2023-12-15 华院计算技术(上海)股份有限公司 数字人交互方法及系统、计算机可读存储介质、数字人设备
CN117556067B (zh) * 2024-01-11 2024-03-29 腾讯科技(深圳)有限公司 数据检索方法、装置、计算机设备和存储介质
CN117609553B (zh) * 2024-01-23 2024-03-22 江南大学 基于局部特征增强和模态交互的视频检索方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007294020A (ja) * 2006-04-26 2007-11-08 Sony Corp 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
US20140201180A1 (en) * 2012-09-14 2014-07-17 Broadbandtv, Corp. Intelligent Supplemental Search Engine Optimization
US20180032845A1 (en) * 2016-07-26 2018-02-01 Viisights Solutions Ltd. Video content contextual classification
CN109472232A (zh) * 2018-10-31 2019-03-15 山东师范大学 基于多模态融合机制的视频语义表征方法、系统及介质
CN110516654A (zh) * 2019-09-03 2019-11-29 北京百度网讯科技有限公司 视频场景的实体识别方法、装置、电子设备和介质
CN111259215A (zh) * 2020-02-14 2020-06-09 北京百度网讯科技有限公司 基于多模态的主题分类方法、装置、设备、以及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
CN110012349B (zh) * 2019-06-04 2019-09-20 成都索贝数码科技股份有限公司 一种端到端的新闻节目结构化方法
CN110362684B (zh) * 2019-06-27 2022-10-25 腾讯科技(深圳)有限公司 一种文本分类方法、装置及计算机设备
CN110879974B (zh) * 2019-11-01 2020-10-13 北京微播易科技股份有限公司 一种视频分类方法和装置
CN112256917B (zh) * 2020-11-17 2024-03-26 腾讯科技(深圳)有限公司 用户兴趣识别方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007294020A (ja) * 2006-04-26 2007-11-08 Sony Corp 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
US20140201180A1 (en) * 2012-09-14 2014-07-17 Broadbandtv, Corp. Intelligent Supplemental Search Engine Optimization
US20180032845A1 (en) * 2016-07-26 2018-02-01 Viisights Solutions Ltd. Video content contextual classification
CN109472232A (zh) * 2018-10-31 2019-03-15 山东师范大学 基于多模态融合机制的视频语义表征方法、系统及介质
CN110516654A (zh) * 2019-09-03 2019-11-29 北京百度网讯科技有限公司 视频场景的实体识别方法、装置、电子设备和介质
CN111259215A (zh) * 2020-02-14 2020-06-09 北京百度网讯科技有限公司 基于多模态的主题分类方法、装置、设备、以及存储介质

Also Published As

Publication number Publication date
EP4053802A1 (en) 2022-09-07
US20220284218A1 (en) 2022-09-08
KR20220125672A (ko) 2022-09-14
CN113159010B (zh) 2022-07-22
JP7334395B2 (ja) 2023-08-29
CN113159010A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
JP7334395B2 (ja) ビデオ分類方法、装置、機器、および記憶媒体
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
CN110991427B (zh) 用于视频的情绪识别方法、装置和计算机设备
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN111177462B (zh) 视频分发时效的确定方法和装置
CN110851644A (zh) 图像检索方法及装置、计算机可读存储介质、电子设备
CN111191428A (zh) 评论信息处理方法、装置、计算机设备和介质
CN113806588B (zh) 搜索视频的方法和装置
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN111639228B (zh) 视频检索方法、装置、设备及存储介质
US11687711B2 (en) Method and apparatus for generating commentary
CN112148874A (zh) 可自动新增用户潜在意图的意图识别方法及系统
CN112906368A (zh) 行业文本增量方法、相关装置及计算机程序产品
CN112822506A (zh) 用于分析视频流的方法和装置
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
CN114880520B (zh) 视频标题生成方法、装置、电子设备和介质
CN114627296B (zh) 图像分割模型的训练方法、装置、电子设备及存储介质
CN113254578B (zh) 用于数据聚类的方法、装置、设备、介质和产品
CN116010545A (zh) 一种数据处理方法、装置及设备
JP2023554210A (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN115329132A (zh) 生成视频标签的方法、装置、设备以及存储介质
CN112559727B (zh) 用于输出信息的方法、装置、设备、存储介质和程序
CN114880498A (zh) 事件信息展示方法及装置、设备和介质
CN113435523A (zh) 预测内容点击率的方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230728

R150 Certificate of patent or registration of utility model

Ref document number: 7334395

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150