JP7476138B2 - ビデオ処理方法、装置、電子機器及び記憶媒体 - Google Patents

ビデオ処理方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7476138B2
JP7476138B2 JP2021079649A JP2021079649A JP7476138B2 JP 7476138 B2 JP7476138 B2 JP 7476138B2 JP 2021079649 A JP2021079649 A JP 2021079649A JP 2021079649 A JP2021079649 A JP 2021079649A JP 7476138 B2 JP7476138 B2 JP 7476138B2
Authority
JP
Japan
Prior art keywords
frames
texts
video
entities
serial number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021079649A
Other languages
English (en)
Other versions
JP2021166050A (ja
Inventor
フー ヤン,
シュー ワン,
シャオハン ジャン,
キー ワン,
ジーファン フェン,
シュングゥワン チャイ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021166050A publication Critical patent/JP2021166050A/ja
Application granted granted Critical
Publication of JP7476138B2 publication Critical patent/JP7476138B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Collating Specific Patterns (AREA)
  • Character Discrimination (AREA)
  • Studio Devices (AREA)

Description

本開示の実施例は、概して画像処理分野に関し、具体的には、ビデオ処理方法、装置、電子機器及びコンピュータ記憶媒体に関する。
ニュースビデオなどのビデオは通常、複数のサブニュースで構成され、ユーザは多くの場合、すべてのニュースではなく、1つ又は複数のニュースイベントに興味を持っている。従来のビデオ分割技術は、主に手動編集に依存し、ニュースアイテムに関連するテキストの説明を一致させた後にプッシュするため、効率が低い。また、シーン特徴、ミュート特徴、又は顔の前後の類似性特徴に依存して分割する従来の技術もあるが、これらの特徴は慎重に設計する必要があり、適応性や拡張性が悪い。
ビデオ処理方法、装置、電子機器及びコンピュータ記憶媒体を提供する。
本開示の第1の態様によれば、ビデオ処理方法を提供する。当該方法は、ターゲットビデオ内の第1のオブジェクトが含まれる複数のフレームに基づいて、第1のオブジェクトに関連する複数の第1の識別子を決定するステップと、第1のオブジェクトに関連する知識ベースに基づいて、複数の第1の識別子に関連付けられた複数の属性値を決定するステップと、複数のフレームからフレームのセットを決定するステップであって、フレームのセットの各フレームから決定された第1の識別子に関連付けられた属性値がいずれも所定の値であるステップと、前記複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割するステップと、を含む。
本開示の第2の態様によれば、ビデオ処理装置を提供する。当該装置は、ターゲットビデオ内の第1のオブジェクトが含まれる複数のフレームに基づいて、第1のオブジェクトに関連する複数の第1の識別子を決定するように構成される識別子決定モジュールと、第1のオブジェクトに関連する知識ベースに基づいて、複数の第1の識別子に関連付けられた複数の属性値を決定するように構成される属性値決定モジュールと、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第1の識別子に関連付けられた属性値がいずれも所定の値であるように構成されるフレーム決定モジュールと、複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割するように構成されるセグメント分割モジュールと、を備える。
本開示の第3の態様によれば、電子機器を提供する。当該電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令は、少なくとも1つのプロセッサが第1の態様に記載の方法を実行できるように、少なくとも1つのプロセッサによって実行される。
本開示の第4の態様によれば、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供し、当該プログラムがプロセッサによって実行される場合、本開示の第1の態様に係る方法を実現する。
本開示の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記実施例に第1の態様に記載の方法を実行させる。
本開示の技術によれば、強い適応性でビデオ分割を実現することができ、慎重に設計された特徴における適応性が低いという問題を効果的に解決する。
なお、本部分で説明される内容は、本開示の実施例の肝心又は重要な特徴を特定することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書を通して容易に理解される。
図面と組み合わせて以下の詳細な説明を参照し、本開示の各実施例の上記及び他の特徴、利点、及び態様は、より明らかになる。図面において、同じ又は類似する符号は、同じ又は類似する要素を示す。
本開示の実施例に係る情報処理環境100の概略図である。 本開示の実施例に係るビデオ処理方法200の概略図である。 本開示の実施例に係るターゲットビデオを複数のビデオセグメントに分割するための方法300の概略図である。 本開示の実施例に係るターゲットビデオを分割するための方法400の概略図である。 本開示の実施例に係るビデオ処理プロセス500の概略図である。 本開示の実施例に係るビデオフレーム600の概略図である。 本開示の実施例に係るビデオフレーム700の概略図である。 本開示の実施例に係るビデオ処理装置800の概略図である。 本開示の実施例のビデオ処理方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細を含んでおり、それらは単なる例示的なものとみなされるべきである。従って、当業者であれば、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例に様々な変更と修正を行うことができることを意識すべきである。同様に、明確及び簡潔にするために、以下の説明では、周知の特徴や構造の説明を省略する。
本明細書で使用される「含む」という用語及びその変形は、開放的に含むこと、すなわち「含むが、これに限定されない」を意味する。特に明記しない限り、「又は」という用語は「及び/又は」を意味する。「に基づいて」という用語は、「少なくとも部分的に基づいて」ことを意味する。「一例示的な実施例」及び「一実施例」という用語は、「少なくとも1つの例示的な実施例」を意味する。「別の実施例」という用語は、「少なくとも1つの追加の実施例」を意味する。「第1」、「第2」などの用語は、異なる又は同じオブジェクトを指すことができる。以下、他の明示的及び暗黙的な定義も含まれる場合がある。
上記のように、従来の手動編集でビデオ分割を行う場合、プロの経験豊富な編集者でも大量のビデオに直面して正確な分割を実現することができず、シーン特徴、ミュート特徴、顔の前後の類似性特徴に依存して分割する際に、これらの特徴は、慎重に設計する必要があり、例えば別のニュースメディアビデオに変更するときに直接使用できず、特別な展開が必要であり、転送性と拡張性が悪い。さらに、従来のビデオ分割とビデオ意味理解は一般に分離され、ビデオ分割した後、エンティティとイベントをもう一度抽出する必要があるため、ビデオの製作と検索の効率が低くなる。
上記問題及び他の潜在的な問題の1つ又は複数を少なくとも部分的に解決するために、本開示の例示的な実施例は、ビデオ処理解決案を提案する。当該解決案において、ターゲットビデオ内の第1のオブジェクトが含まれる複数のフレームに基づいて、第1のオブジェクトに関連する複数の第1の識別子を決定し、第1のオブジェクトに関連する知識ベースに基づいて、複数の第1の識別子に関連付けられた複数の属性値を決定し、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第1の識別子に関連付けられた属性値がいずれも所定の値であり、前記複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。
これにより、フレームに含まれるオブジェクトの識別子及び識別子に関連付けられた属性値を決定することにより、関連付けられた属性値が所定の値である識別子に対応するフレームのセットを決定することができる。複数のフレームにおけるこのフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。本解決案は、特徴を慎重に設計する必要がなく、適用性が強く、システムの移行に便利である。
以下、添付図面と組み合わせて、本解決案の具体例をと組み合わせてより詳細に説明する。
図1は本開示の実施例に係る情報処理環境100の例示的な概略図である。情報処理環境100は、ビデオ処理デバイス110と、ターゲットビデオ120と、知識ベース130と、複数のビデオセグメント140とを備え得る。
ビデオ処理デバイス110は、例えば、パーソナルコンピュータ、サーバコンピュータ、マルチプロセッサシステム、メインフレームコンピュータ、及び上記システム又はデバイスのいずれかを備える分散コンピューティング環境などを備えるが、これらに限定されない。いくつかの実施例では、ビデオ処理デバイス110は、画像処理ユニットGPU、フィールドプログラマブルゲートアレイFPGA、及び特定用途向け集積回路ASICなどの専用処理ユニット、及び中央処理ユニットCPUなどの汎用処理ユニットを備える1つ又は複数の処理ユニットを有することができる。
ターゲットビデオ120は、ニュースコンテンツを含むビデオを含むが、これらに限定されず、ニュースコンテンツは、例えば、ホストの紹介部分とニュースレポート部分とを有する。
知識ベース130は、例えば、オブジェクトに関連する識別子及び識別子に関連付けられた属性値を含む。オブジェクトは、例えば、人を含むが、これに限定されない。識別子は、人の名前などの名称を含むが、これに限定されない。属性値は、ホスト、政府関係者、スポーツ選手、スターなどの職業を含むが、これらに限定されない。例えば、知識ベース130は、「張三、ホスト」、「李四、ポーツ選手」、「王五、政府関係者」などのデータを含む。
ビデオ処理デバイス110は、関連情報を取得するように知識ベース130にアクセスすることができる。知識ベース130は、ビデオ処理デバイス110の内部又は外部に配置されることができる。例えば、ビデオ処理デバイス110は、識別子に基づいて知識ベース130から識別子に関連付けられた属性値を取得することができる。
ビデオ処理デバイス110はターゲットビデオ120内の第1のオブジェクトが含まれる複数のフレームに基づいて、第1のオブジェクトに関連する複数の第1の識別子を決定し、第1のオブジェクトに関連する知識ベース130に基づいて、複数の第1の識別子に関連付けられた複数の属性値を決定し、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第1の識別子に関連付けられた属性値がいずれも所定の値であり、前記複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメント140に分割する。
これにより、フレームに含まれるオブジェクトの識別子及び識別子に関連付けられた属性値を決定することにより、関連付けられた属性値が所定の値である識別子に対応するフレームのセットを決定することができる。複数のフレームにおけるこのフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。本解決案は、特徴を慎重に設計する必要がなく、適用性が強く、システムの移行に便利である。
図2は本開示の実施例に係るビデオ処理方法200の概略図である。例えば、方法200は、図1に示すビデオ処理デバイス110によって実行できる。なお、方法200は、図示されていない追加のブロックをさらに含んでもよく、及び/又は、図示されているブロックを省略してもよく、本開示の範囲は、これに限定されないことが理解されるべきである。
ブロック202において、ビデオ処理デバイス110は、ターゲットビデオ120内の第1のオブジェクトが含まれる複数のフレームに基づいて、第1のオブジェクトに関連する複数の第1の識別子を決定する。
ターゲットビデオ120に関しては、それはニュースコンテンツを含むビデオを含むが、これらに限定されず、ニュースコンテンツは、例えば、ホストの紹介部分とニュースレポート部分とを有する。第1のオブジェクトは、例えば、人を含むが、これに限定されない。第1の識別子は、例えば、名称を含むが、これに限定されない。例えば、図6に示すように、フレーム600がホスト610を含む場合、例えば、李三というホスト610の名称を決定することができる。例えば、ニューラルネットワークモデルを使用して識別子を決定することができる。
いくつかの実施例では、複数の第1の識別子における各識別子の信頼度はいずれも閾値信頼度を超える。例えば、信頼度が閾値信頼度を超える識別子を決定するように、知識ベース130を使用して識別子を検証し、信頼度が閾値信頼度を超えない識別子について、知識ベース130に基づいて当該識別子を校正することができる。これにより、より信頼性の高い識別子が得られ、後続の処理の精度を向上させることができる。
代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス110は、ターゲットビデオの所定の間隔のフレームに対して顔認識を行って、第1のオブジェクトが含まれる複数のフレームを取得することができる。所定の間隔は、例えば、5フレームごと、10フレームごとのような所定のフレーム間隔を含む。また、所定の間隔は、例えば、1秒ごと、0.5秒ごとのような所定の時間間隔をさらに含み得る。ビデオ処理デバイス110は、次に複数のフレームに基づいて、第1のオブジェクトに関連する複数の第1の識別子を決定することができる。これにより、顔認識により、第1のオブジェクトが含まれた複数のフレームをより精確にスクリーニングし、識別子を容易に決定する。
ブロック204において、ビデオ処理デバイス110は、第1のオブジェクトに関連する知識ベース130に基づいて、複数の第1の識別子に関連付けられた複数の属性値を決定する。
知識ベース130に関しては、それは例えば、第1のオブジェクトに関連する識別子及び識別子に関連付けられた属性値を含む。属性値は、例えばホスト、政治人物、スターなどの具体的な職業を含むが、これらに限定されない。識別子、例えば李三を知識ベースから検索することにより、識別子に関連付けられた属性値、例えばホストを取得することができる。
ブロック206において、ビデオ処理デバイス110は、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第1の識別子に関連付けられた属性値がいずれも所定の値である。所定の値は、特定の属性を指示することができ、例えば、ホスト、記者などの特定の職業を指示する。
ブロック208において、ビデオ処理デバイス110は、複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。例えば、複数フレームにおけるフレームのセットの位置の連続性に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。以下、図3と組み合わせて詳細に説明する。
これにより、フレームに含まれるオブジェクトの識別子及び識別子に関連付けられた属性値を決定することにより、関連付けられた属性値が所定の値である識別子に対応するフレームのセットを決定することができる。複数のフレームにおけるこのフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割する。本解決案は、特徴を慎重に設計する必要がなく、適用性が強く、システムの移行に便利である。
図3は本開示の実施例に係るターゲットビデオを複数のビデオセグメントに分割するための方法300の概略フローチャートである。例えば、方法300は図1に示すビデオ処理デバイス110によって実行できる。なお、方法300は、図示されていない追加のブロックをさらに含んでもよく、及び/又は、図示されているブロックを省略してもよく、本開示の範囲は、これに限定されないことが理解されるべきである。
ブロック302において、ビデオ処理デバイス110は、複数フレームにおけるフレームのセットの位置に基づいて、複数のフレームにおけるフレームのセットのシリアル番号を決定する。
例えば、複数のフレームは、ターゲットビデオにおける1、5、10、15、及び20番目のフレームであり、フレームのセットが1、5、15、及び20番目のフレームである場合、複数のフレームにおけるフレームのセットのシリアル番号は1、2、4及び5であってもよい。
ブロック304において、ビデオ処理デバイス110は、シリアル番号における連続シリアル番号を決定する。例えば、ビデオにおける1、5、10、15、及び20番目のフレームについて、1、5、15及び20番目のフレームのその中でのシリアル番号が1、2、4及び5である場合、ビデオ処理デバイス110は、シリアル番号の1、2、4及び5における1と2が連続シリアル番号であり、かつ4と5も連続シリアル番号であることを決定することができる。
ブロック306において、ビデオ処理デバイス110は、連続シリアル番号の開始シリアル番号に対応するフレームに基づいて、ターゲットビデオを分割する。前の開始シリアル番号に対応するフレームから次の開始シリアル番号に対応するフレームの前のフレームを1つのビデオセグメントに分割することができる。
例えば、連続シリアル番号1と2の場合、開始シリアル番号は1であり、開始シリアル番号に対応するフレームは1番目のフレームである。連続シリアル番号4と5の場合、開始シリアル番号は4であり、開始シリアル番号に対応するフレームは15番目のフレームである。この場合、ビデオ処理デバイス110は、1番目のフレームと15番目のフレームとに従ってターゲットビデオを分割することができ、例えば、1番目のフレームから14番目のフレームを1つのビデオセグメントに分割し、15番目のフレームから最後のフレームを別のビデオセグメントに分割する。なお、上記は単なる例であり、制限ではなく、複数のフレーム、フレームのセット、シリアル番号、連続シリアル番号、開始シリアル番号、及び開始シリアル番号に対応するフレームはいずれも他の適切な状況であり得ることを理解すべきである。
それにより、複数フレームにおけるフレームのシリアル番号の連続性により、ターゲットビデオを簡単且つ効果的に分割することができ、処理効率を向上させる。
図4は本開示の実施例に係るターゲットビデオを分割するための方法400を示すフローチャートである。例えば、方法400は、図1に示すビデオ処理デバイス110によって実行できる。方法400は、図示されていない追加のブロックをさらに含んでもよく、及び/又は、図示されているブロックを省略してもよく、本開示の範囲は、これに限定されないことが理解されるべきである。
ブロック402において、ビデオ処理デバイス110は、連続シリアル番号の終了シリアル番号を決定する。ここで、図3の実施例で使用される例も組み合わせ、連続シリアル番号1と2の場合、終了シリアル番号は2である。連続シリアル番号4と5の場合、終了シリアル番号は5である。
ブロック404において、ビデオ処理デバイス110は、終了シリアル番号に対応するフレーム及び開始シリアル番号に対応するフレームに基づいて、ターゲットビデオの1つのビデオセグメントにおける第1のビデオサブセグメントと第2のビデオサブセグメントとを決定する。開始シリアル番号に対応するフレームから終了シリアル番号に対応するフレームを第1のビデオサブセグメントに分割することができ、終了シリアル番号に対応するフレームの後のフレームからビデオセグメントの終了フレームを第2のビデオサブセグメントに分割することができる。
例えば、開始シリアル番号1の場合、開始シリアル番号に対応するフレームが1番目のフレームである。開始シリアル番号4の場合、開始シリアル番号に対応するフレームが15番目のフレームである。終了シリアル番号2の場合、終了シリアル番号に対応するフレームが5番目のフレームである。終了シリアル番号5の場合、終了シリアル番号に対応するフレームが20番目のフレームである。例えば、ターゲットビデオの1つのビデオセグメントが1番目のフレームから14番目のフレームである場合、当該ビデオセグメントにおける第1のビデオサブセグメントは1番目のフレームから5番目のフレームであり、第2のビデオサブセグメントは6番目のフレームから14番目のフレームである。
それにより、複数のフレームにおけるフレームのセットのシリアル番号の連続性に基づいて、1つのビデオセグメントを2つのビデオサブセグメントに分割し、簡単で効率的である。
代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス110は、さらに、複数のフレームから複数の第1のテキストを取得することができる。例えば、ビデオ処理デバイス110は、光学式文字認識(OCR)技術を利用して、複数のフレームから複数の第1のテキストを取得することができる。図6に示すように、フレームにテキストが表示されることができ、例えば、テキスト620は、現在のフレームに関連するコンテンツを表示でき、テキスト630は、例えばフラッシュニュースのような現在のフレームと無関係なコンテンツを表示できる。いくつかの実施例において、複数の第1のテキストの各第1のテキストの信頼度がいずれも閾値信頼度を超える。例えば、知識ベースに基づいて、複数の第1のテキストを校正して、信頼度が閾値信頼度を超える第1のテキストを決定でき、信頼度が閾値信頼度を超えない第1のテキストについて、知識ベースに基づいて、それを校正することができる。これにより、第1のテキストの信頼度を向上させ、後続の処理の精度を容易に向上させることができる。
複数の第1のテキストを取得した後、ビデオ処理デバイス110は、複数の第1のテキストから複数の第1のエンティティを取得することができる。例えば、ビデオ処理デバイス110は、エンティティ抽出モデルを使用して、複数の第1のテキストから複数の第1のエンティティを取得することができる。第1のエンティティは、例えば人の名前、場所の名前、組織の名前などを含むが、これらに限定されない。図7に示すように、当該フレームから取得された第1のテキスト730が「王五が李四に会う」などのコンテンツを含む場合、取得された第1のエンティティは「王五」と「李四」という2つの名前を含み得る。いくつかの実施例において、複数の第1のエンティティにおける各第1のエンティティの信頼度は、いずれも閾値信頼度を超える。例えば、知識ベース及び/又は複数の第1の識別子に基づいて複数の第1のエンティティを校正することにより、信頼度が閾値信頼度を超える第1のエンティティを決定することができ、信頼度が閾値信頼度を超えない第1のエンティティについて、知識ベース及び/又は複数の第1のエンティティに基づいて、それを校正することができる。これにより、第1のエンティティの信頼性を向上させ、後続の処理の精度を容易に向上させることができる。
複数の第1のエンティティを取得した後、ビデオ処理デバイス110は、複数の第1のテキストと複数の第1のエンティティとに基づいて、複数のビデオセグメントに関連付けられた複数のイベントを決定することができる。例えば、第1のテキストとフレームとの対応関係に基づいて、第1のテキストをビデオセグメントに対応させることができる。続いて、イベント抽出モデルによって、ビデオセグメントに対応する第1のテキストと第1のエンティティとに基づいて、ビデオセグメントに関連付けられたイベントを抽出することができる。また、ニュースイベントグラフなどのイベントに関連付けられたデータベースを使用して、イベントを検証することもできる。
それにより、ビデオ分割の過程でビデオ意味理解を実現し、イベントとビデオセグメントとの関連付けを実現することで、ビデオ分割からビデオ意味理解までの自動パイプラインフレームワークを実現し、ニュース分野でのビデオの製作と配信を効率的にサポートする。
代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス110は、まず複数のフレームから複数の初期テキストを取得することができる。続いて、ビデオ処理デバイス110は、複数の初期テキストから複数のフレームと無関係なコンテンツを除去することにより、複数の第1のテキストを取得することができる。これにより、テキストにおける無関係なコンテンツを除去し、処理効率と精度を向上させることができる。
代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス110は、初期テキストのコンテンツのフォントサイズに基づいて、複数のフレームと無関係なコンテンツを決定することができる。例えば、フォントサイズが閾値フォントサイズよりも小さいコンテンツを複数のフレームと無関係なコンテンツとして決定することができる。例えば、ニュース画面のフレームにおける小さいフォントのコンテンツは、通常、ローリングニュースを示し、現在のフレームのコンテンツと無関係である。他の実施例において、ビデオ処理デバイス110は、対応するフレームにおける初期テキストのコンテンツの位置に基づいて、複数のフレームと無関係なコンテンツを決定することができる。例えば、対応するフレーム内の最下位置に位置するコンテンツを、複数のフレームと無関係なコンテンツとして決定することができる。図6に示すように、対応するフレームの最下位置に位置するコンテンツ630は、一般的に、スクロール情報を示し、現在のフレームのコンテンツと関係がない。いくつかの実施例において、ビデオ処理デバイス110は、初期テキストのコンテンツのフォントサイズと対応するフレームにおけるコンテンツの位置とに基づいて、複数のフレームと無関係なコンテンツを決定することができる。例えば、上記の2つの方式を組み合わせて複数のフレームと無関係なコンテンツを決定することができ、ここでは説明を省略する。
それにより、コンテンツのフォントサイズとフレーム内の位置とに基づいて、複数のフレームと無関係なコンテンツを正確に決定することができる。
代替的に又は付加的に、いくつかの実施例において、ビデオ処理デバイス110は、ターゲットビデオの複数のフレームに対応するオーディオに基づいて、複数の第2のテキストを決定することができる。例えば、音声認識技術を利用して、ターゲットビデオの複数のフレームに対応するオーディオを複数の第2のテキストに変換する。続いて、ビデオ処理デバイス110は、複数の第2のテキストから複数の第2のエンティティを取得することができる。例えば、エンティティ抽出モデルによって、複数の第2のテキストから第2のエンティティを取得することができる。続いて、ビデオ処理デバイス110は、複数の第1のテキスト、複数の第1のエンティティ、複数の第2のテキスト及び複数の第2のエンティティに基づいて、複数のビデオセグメントに関連付けられた複数のイベントを決定することができる。イベント決定の具体的な過程は以上に記載された内容を参照することができ、ここでは説明を省略する。
それにより、フレームから取得されたテキストを基に、フレームに対応するオーディオから変換されたテキストを使用して、イベントを決定できるため、多次元データに基づいてイベントを決定することができ、精度を向上させる。
以下、図5と組み合わせて本開示の実施例に係るビデオ処理プロセス500を説明し、当該プロセスは、ビデオ分割及びイベント決定などを含む。図5に示すように、502において、ビデオ処理デバイス110は、ターゲットビデオを取得する。続いて、504において、ビデオ処理デバイス110は、ターゲットビデオから所定の間隔のフレームを取得する。続いて、506において、ビデオ処理デバイス110は、フレームに対してOCR処理を行って、テキストを取得する。506においてテキストを取得した後、510において知識ベース520に基づいてテキストを校正することができ、例えば、信頼度が閾値よりも高いテキストを取得する。508において、ビデオ処理デバイス110は、フレームに対して顔認識を行って、第1のオブジェクトに関連する識別子を取得する。508において第1のオブジェクトに関連する識別子を取得した後、512において知識ベースに基づいて、識別子に関連付けられた属性値、例えばホストを取得することができる。
続いて、514において、ビデオ分割を行って、ビデオセグメントを取得することができる。様々な方式でビデオを分割することができる。例えば、ホストが連続して出現するフレームを紹介部分として決定し、紹介部分の終わりからホストの次の出現までのフレームをレポート部分として決定することができる。516において、ビデオ処理デバイス110は、ビデオセグメントに従って、フレームから得られたテキストに対してエンティティ抽出を行う。518において、ビデオ処理デバイス110は、得られたテキストとエンティティとに基づいて、イベントグラフと組み合わせて、ビデオセグメントに関連付けられたイベントを決定する。例えば、図7を参照すると、ビデオセグメントに王五710が李四720に会う画面、及び王五710が李四730に会うことについてのテキストが含まれている場合、当該ビデオセグメントから、それに関連付けられたイベントは王五が李四に会うことを決定することができる。
それにより、ビデオ分割の過程でビデオ意味理解を実現し、イベントとビデオセグメントとの関連付けを実現することで、ビデオ分割からビデオ意味理解までの自動パイプラインフレームワークを実現し、例えばニュース分野でのビデオの製作と配信を効率的にサポートする。
図8は本開示の実施例に係るビデオ処理装置800の概略ブロック図である。図8に示すように、装置800は、ターゲットビデオ内の第1のオブジェクトが含まれる複数のフレームに基づいて、第1のオブジェクトに関連する複数の第1の識別子を決定するように構成される識別子決定モジュール801と、第1のオブジェクトに関連する知識ベースに基づいて、複数の第1の識別子に関連付けられた複数の属性値を決定するように構成される属性値決定モジュール802と、複数のフレームからフレームのセットを決定し、フレームのセットの各フレームから決定された第1の識別子に関連付けられた属性値がいずれも所定の値であるように構成されるフレーム決定モジュール803と、複数のフレームにおけるフレームのセットの位置に基づいて、ターゲットビデオを複数のビデオセグメントに分割するように構成されるセグメント分割モジュール804と、を備える。
代替的に又は付加的に、いくつかの実施例において、セグメント分割モジュール804は、複数フレームにおけるフレームのセットの位置に基づいて、複数フレームにおけるフレームのセットのシリアル番号を決定するように構成されるシリアル番号決定モジュールと、シリアル番号における連続シリアル番号を決定するように構成される連続シリアル番号決定モジュールと、連続シリアル番号の開始シリアル番号に対応するフレームに基づいて、ターゲットビデオを分割するように構成される分割モジュールと、を備える。
代替的に又は付加的に、いくつかの実施例において、分割モジュールは、連続シリアル番号の終了シリアル番号を決定するように構成される終了シリアル番号決定モジュールと、終了シリアル番号に対応するフレーム及び開始シリアル番号に対応するフレームに基づいて、ターゲットビデオの1つのビデオセグメントにおける第1のビデオサブセグメントと第2のビデオサブセグメントとを決定するように構成されるサブセグメント決定モジュールと、を備える。いくつかの実施例において、複数の第1の識別子における各識別子の信頼度がいずれも閾値信頼度を超える。
代替的に又は付加的に、いくつかの実施例において、識別子決定モジュール801は、ターゲットビデオの所定の間隔のフレームに対して顔認識を行って、複数のフレームを取得するように構成される顔認識モジュールと、複数のフレームに基づいて、複数の第1の識別子を決定するように構成される決定モジュールと、を備える。
代替的に又は付加的に、いくつかの実施例において、装置800は、複数フレームから複数の第1のテキストを取得するように構成される第1のテキスト取得モジュールと、複数の第1のテキストから複数の第1のエンティティを取得するように構成される第1のエンティティ取得モジュールと、複数の第1のテキストと複数の第1のエンティティとに基づいて、複数のビデオセグメントに関連付けられた複数のイベントを決定するように構成されるイベント決定モジュールと、をさらに備える。いくつかの実施例において、複数の第1のテキストにおける各第1のテキストの信頼度がいずれも閾値信頼度を超える。
代替的に又は付加的に、いくつかの実施例において、第1のテキスト取得モジュールは、複数のフレームから複数の初期テキストを取得するように構成される初期テキスト取得モジュールと、複数の初期テキストから複数のフレームと無関係なコンテンツを除去して、複数の第1のテキストを取得するように構成される無関係なコンテンツ除去モジュールと、を備える。
代替的に又は付加的に、いくつかの実施例において、無関係なコンテンツ除去モジュールは、初期テキストのコンテンツのフォントサイズと対応するフレームにおけるコンテンツの位置とのうちの少なくとも1つに基づいて、複数のフレームと無関係なコンテンツを決定するように構成される無関係なコンテンツ決定モジュールを備える。いくつかの実施例において、複数の第1のエンティティにおける各第1のエンティティの信頼度がいずれも閾値信頼度を超える。
代替的に又は付加的に、いくつかの実施例において、イベント決定モジュールは、ターゲットビデオの複数のフレームに対応するオーディオに基づいて、複数の第2のテキストを決定するように構成される第2のテキスト決定モジュールと、複数の第2のテキストから複数の第2のエンティティを取得するように構成される第2のエンティティ取得モジュールと、複数の第1のテキスト、複数の第1のエンティティ、複数の第2のテキスト及び第2のエンティティに基づいて、複数のビデオセグメントに関連付けられた複数のイベントを決定するように構成される決定モジュールと、を備える。
本開示の実施例によれば、本開示は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本開示によって提供されるビデオ処理方法を実行させる。
図9は本開示の実施例を実施するための例示的なデバイス900の概略ブロック図である。例えば、図1に示すようなビデオ処理デバイス110は、デバイス900によって実施できる。図に示すように、デバイス900は、読み出し専用メモリ(ROM)902に記憶されているコンピュータプログラム命令、又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラム命令に基づいて、様々な適切なアクション及び処理を実行可能な中央処理ユニット(CPU)901を備える。RAM903には、デバイス900の動作に必要な各種のプログラム及びデータがさらに記憶されてもよい。CPU901と、ROM902と、RAM903とは、バス904により相互に接続されている。入力/出力(I/O)インタフェース905もバス904に接続されている。
キーボード、マウス、マイクなどの入力ユニット906と、様々な種類のディスプレイ、スピーカーなどの出力ユニット907と、磁気ディスク、光ディスクなどの記憶ユニット908と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909とを含むデバイス900内の複数の部品は、I/Oインタフェース905に接続されている。通信ユニット909は、デバイス900がインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークなどを介して他のデバイスと情報/データを交換することを許可する。
上記の様々なプロセス及び処理、例えば方法200~500は、処理ユニット901によって実行できる。例えば、いくつかの実施例において、方法200~500は、記憶ユニット908などの機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信ユニット909を介してデバイス900にロード及び/又はインストールされることができる。コンピュータプログラムがRAM903にロードされ、CPU901によって実行される時、上記方法200~500の1つ又は複数の動作を実行することができる。
本開示は、方法、装置、システム、電子機器、コンピュータ読み取り可能な記憶媒体、及び/又はコンピュータプログラム製品に関する。コンピュータプログラム製品は、本開示の様々な態様を実行するためのコンピュータ読み取り可能なプログラム命令を含み得る。
コンピュータ読み取り可能な記憶媒体は、命令実行デバイスによって使用される命令を保持及び記憶可能な有形のデバイスであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又は上記の任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な例(網羅的ではないリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的コーディング機器、命令が記憶されているパンチカード又は溝内の突起構造、及び上記の任意の適切な組み合わせを含む。ここで使用されるコンピュータ読み取り可能な記憶媒体は、無線電波又は他の自由に伝播する電磁波、導波路又は他の伝送媒体を介して伝播する電磁波(例えば、光ファイバケーブルを介する光パルス)又はワイヤを介して伝送する電気信号などの過渡信号自体として解釈されない。
本明細書に記載のコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から様々なコンピューティング/処理デバイスにダウンロードされるか、又はインターネット、ローカルエリアネットワーク、広域ネットワーク、及び/又はワイヤレスネットワークなどのネットワークを介して外部コンピュータ又は外部記憶デバイスにダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピューター及び/又はエッジサーバーを含み得る。各コンピューティング/処理デバイスにおけるネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、当該コンピュータ読み取り可能なプログラム命令を転送して、各コンピューティング/処理デバイスのコンピュータ読み取り可能な記憶媒体に記憶する。
本開示の動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト型プログラミング言語、及び、「C」プログラミング言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、完全にユーザのコンピュータで、部分的にユーザのコンピュータで、スタンドアロンのソフトウェアパッケージとして、部分的にユーザのコンピュータで、部分的にリモートのコンピュータで、又は完全にリモートのコンピュータ又はサーバで実行されることができる。リモートのコンピュータを用いる場合、リモートのコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてもよく、又は、例えば、インターネットサービスプロバイダを用いてインターネットを介して外部のコンピュータに接続されてもよい。いくつかの実施例において、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブル論理アレイ(PLA)などの電子回路を、コンピュータ読み取り可能なプログラム命令の状態情報を用いて個別化し、コンピュータ読み取り可能なプログラム命令を実行して、本開示の各態様を実現することができる。
本開示の各態様は、本開示の実施例に係る方法、装置(システム)、及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明される。なお、フローチャート及び/又はブロック図の各ブロック、並びにフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ読み取り可能なプログラム命令によって実現できることが理解すべきである。
これらのコンピュータ読み取り可能なプログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置の処理ユニットに提供されることで、機械を製造し、これらの命令がコンピュータ又は他のプログラマブルデータ処理装置の処理ユニットによって実行される時に、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実現する装置を生成する。これらのコンピュータ読み取り可能なプログラム命令をコンピュータ読み取り可能な記憶媒体に記憶されてもよく、これらの命令は、コンピュータ、プログラマブルデータ処理装置、及び/又は他のデバイスを特定の方法で動作させ、それにより命令が記憶されているコンピュータ読み取り可能な媒体は、フローチャート及び/又はブロック図の1つ又は複数のブロックで指定された機能/動作の各態様を実現する命令を含む製品を含む。
コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにコンピュータ読み取り可能なプログラム命令をロードすることも可能であり、その結果、一連の操作ステップがコンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスで実行されて、コンピュータで実現されるプロセスを発生させ、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスで実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックで指定された機能/動作を実現する。
添付の図面のフローチャート及びブロック図は、本開示の複数の実施例に係るシステム、方法、及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能、及び動作を示す。この点に関して、フローチャート又はブロック図の各ブロックは、モジュール、プログラムセグメント、又は命令の一部を表すことができ、前記モジュール、プログラムセグメント、又は命令の一部は、指定された論理機能を実現するための1つ又は複数の実行可能な命令を含む。いくつかの代替の実現形態では、ブロックでマークされた機能は図面でマークされた順序とは異なる順序で発生する可能性がある。例えば、関連する機能に応じて、2つの連続なブロックを実際に並行して実行したり、逆の順序で実行したりすることができる。ブロック図及び/又はフローチャートの各ブロック、及びブロック図及び/又はフローチャートのブロックの組み合わせは、指定された機能又はアクションを実行する専用のハードウェアベースのシステムによって実現され、又は、専用のハードウェアとコンピュータ命令の組み合わせによって実現されることにも留意されたい。
本開示の実施形態は上記に説明されており、上記説明は例示的であり、網羅的ではなく、開示された実施形態に限定されない。図示の実施形態の範囲及び精神から逸脱することなく、当業者であれば、多くの修正と変更は明らかである。本明細書で使用される用語の選択は、実施形態の原理、実際の応用、又は市場における技術の改良を最もよく説明すること、又は他の当業者が本明細書に開示される実施例を理解できるようにすることを意図している。

Claims (23)

  1. コンピュータによって実行されるビデオ処理方法であって、
    ニューラルネットワークモデルを使用して、ターゲットビデオ内の第1のオブジェクトが含まれる複数のフレームに基づいて、前記第1のオブジェクトに関連する複数の第1の識別子を決定するステップと、
    前記第1のオブジェクトに関連する知識ベース前記複数の第1の識別子検索して、前記複数の第1の識別子に関連付けられた複数の属性値を決定するステップであって、前記知識ベースには、前記第1のオブジェクトに関連する識別子と識別子に関連付けられた属性値とが含まれるステップと、
    前記複数のフレームから、関連付けられた属性値が所定の値である前記第1の識別子に対応するフレームのセットを決定するステップと、
    前記複数のフレームにおける前記フレームのセットの位置に基づいて、前記ターゲットビデオを複数のビデオセグメントに分割するステップと、
    を含むビデオ処理方法。
  2. 前記ターゲットビデオを前記複数のビデオセグメントに分割するステップが、
    前記位置に基づいて、前記複数のフレームにおける前記フレームのセットのシリアル番号を決定するステップと、
    前記シリアル番号における連続シリアル番号を決定するステップと、
    前記連続シリアル番号の開始シリアル番号に対応するフレームに基づいて、前記ターゲットビデオを分割するステップと、
    を含む請求項1に記載の方法。
  3. 前記ターゲットビデオを分割するステップが、
    前記連続シリアル番号の終了シリアル番号を決定するステップと、
    前記終了シリアル番号に対応するフレームと前記開始シリアル番号に対応するフレームとに基づいて、前記ターゲットビデオの1つのビデオセグメントにおける第1のビデオサブセグメントと第2のビデオサブセグメントとを決定するステップと、
    を含む請求項2に記載の方法。
  4. 前記複数の第1の識別子における各識別子の信頼度がいずれも閾値信頼度を超える請求項1に記載の方法。
  5. 前記複数の第1の識別子を決定するステップが、
    前記ターゲットビデオの所定の間隔のフレームに対して顔認識を行って、前記複数のフレームを取得するステップと、
    ニューラルネットワークモデルを使用して、前記複数のフレームに基づいて前記複数の第1の識別子を決定するステップと、
    を含む請求項1に記載の方法。
  6. 前記複数のフレームから複数の第1のテキストを取得するステップと、
    前記複数の第1のテキストから複数の第1のエンティティを取得するステップであって、前記第1のエンティティが、人の名前、場所の名前、及び組織の名前を含むステップと、
    前記複数の第1のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第1のテキストを前記複数のビデオセグメントに対応させ、イベント抽出モデルによって、前記複数のビデオセグメントに対応する前記複数の第1のテキストと前記複数の第1のエンティティとに基づいて、前記複数のビデオセグメントに関連付けられた複数のイベントを抽出するステップと、
    を含む請求項1に記載の方法。
  7. 前記複数の第1のテキストにおける各第1のテキストの信頼度がいずれも閾値信頼度を超える請求項6に記載の方法。
  8. 前記複数のフレームから前記複数の第1のテキストを取得するステップが、
    前記複数のフレームに対してCR処理を行って、複数の初期テキストを取得するステップと、
    前記初期テキストのコンテンツのフォントサイズが閾値フォントサイズよりも小さいコンテンツ及び/又は前記複数のフレーム内の最下位置に位置するコンテンツを、前記複数のフレームと無関係なコンテンツとして決定し、前記複数の初期テキストから前記複数のフレームと無関係なコンテンツを除去して、前記複数の第1のテキストを取得するステップと、
    を含む請求項6に記載の方法。
  9. 前記複数の第1のエンティティにおける各第1のエンティティの信頼度がいずれも閾値信頼度を超える請求項6に記載の方法。
  10. 前記複数のイベントを決定するステップが、
    ターゲットビデオの前記複数のフレームに対応するオーディオに対して音声認識を行って、複数の第2のテキストを決定するステップと、
    前記複数の第2のテキストから複数の第2のエンティティを取得するステップであって、前記第2のエンティティは、人の名前、場所の名前、及び組織の名前を含むステップと、
    前記複数の第1のテキスト、前記複数の第1のエンティティ、前記複数の第2のテキスト及び前記複数の第2のエンティティに基づいて、前記複数のイベントを決定するステップと、
    を含み、
    前記複数の第1のテキスト、前記複数の第1のエンティティ、前記複数の第2のテキスト及び前記複数の第2のエンティティに基づいて、前記複数のイベントを決定するステップが、
    前記複数の第1のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第1のテキストを前記複数のビデオセグメントに対応させ、前記複数の第2のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第2のテキストを前記複数のビデオセグメントに対応させ、イベント抽出モデルによって、前記複数のビデオセグメントに対応する前記複数の第1のテキスト、前記複数の第1のエンティティ、前記複数の第2のテキスト及び前記複数の第2のエンティティに基づいて、前記複数のビデオセグメントに関連付けられた複数のイベントを抽出するステップを含む請求項6に記載の方法。
  11. ニューラルネットワークモデルを使用して、ターゲットビデオ内の第1のオブジェクトが含まれる複数のフレームに基づいて、前記第1のオブジェクトに関連する複数の第1の識別子を決定するように構成される識別子決定モジュールと、
    前記第1のオブジェクトに関連する知識ベース前記複数の第1の識別子検索して、前記複数の第1の識別子に関連付けられた複数の属性値を決定するように構成される属性値決定モジュールであって、前記知識ベースには、前記第1のオブジェクトに関連する識別子と識別子に関連付けられた属性値とが含まれる属性値決定モジュールと、
    前記複数のフレームから、関連付けられた属性値が所定の値である前記第1の識別子に対応するフレームのセットを決定するように構成されるフレーム決定モジュールと、
    前記複数のフレームにおける前記フレームのセットの位置に基づいて、前記ターゲットビデオを複数のビデオセグメントに分割するように構成されるセグメント分割モジュールと、
    を備えるビデオ処理装置。
  12. 前記セグメント分割モジュールが、
    前記位置に基づいて、前記複数のフレームにおける前記フレームのセットのシリアル番号を決定するように構成されるシリアル番号決定モジュールと、
    前記シリアル番号における連続シリアル番号を決定するように構成される連続シリアル番号決定モジュールと、
    前記連続シリアル番号の開始シリアル番号に対応するフレームに基づいて、前記ターゲットビデオを分割するように構成される分割モジュールと、
    を備える請求項11に記載の装置。
  13. 前記分割モジュールが、
    前記連続シリアル番号の終了シリアル番号を決定するように構成される終了シリアル番号決定モジュールと、
    前記終了シリアル番号に対応するフレームと前記開始シリアル番号に対応するフレームとに基づいて、前記ターゲットビデオの1つのビデオセグメントにおける第1のビデオサブセグメントと第2のビデオサブセグメントとを決定するように構成されるサブセグメント決定モジュールと、
    を備える請求項12に記載の装置。
  14. 前記複数の第1の識別子における各識別子の信頼度がいずれも閾値信頼度を超える請求項11に記載の装置。
  15. 前記識別子決定モジュールが、
    前記ターゲットビデオの所定の間隔のフレームに対して顔認識を行って、前記複数のフレームを取得するように構成される顔認識モジュールと、
    ニューラルネットワークモデルを使用して、前記複数のフレームに基づいて前記複数の第1の識別子を決定するように構成される決定モジュールと、
    を備える請求項11に記載の装置。
  16. 前記複数のフレームから複数の第1のテキストを取得するように構成される第1のテキスト取得モジュールと、
    前記複数の第1のテキストから複数の第1のエンティティを取得するように構成される第1のエンティティ取得モジュールであって、前記第1のエンティティが、人の名前、場所の名前、及び組織の名前を含む第1のエンティティ取得モジュールと、
    前記複数の第1のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第1のテキストを前記複数のビデオセグメントに対応させ、イベント抽出モデルによって、前記複数のビデオセグメントに対応する前記複数の第1のテキストと前記複数の第1のエンティティとに基づいて、前記複数のビデオセグメントに関連付けられた複数のイベントを抽出するように構成されるイベント決定モジュールと、
    を備える請求項11に記載の装置。
  17. 前記複数の第1のテキストにおける各第1のテキストの信頼度がいずれも閾値信頼度を超える請求項16に記載の装置。
  18. 前記第1のテキスト取得モジュールが、
    前記複数のフレームに対してCR処理を行って、複数の初期テキストを取得するように構成される初期テキスト取得モジュールと、
    前記初期テキストのコンテンツのフォントサイズが閾値フォントサイズよりも小さいコンテンツ及び/又は前記複数のフレーム内の最下位置に位置するコンテンツを、前記複数のフレームと無関係なコンテンツとして決定し、前記複数の初期テキストから前記複数のフレームと無関係なコンテンツを除去して、前記複数の第1のテキストを取得するように構成される無関係なコンテンツ除去モジュールと、
    を備える請求項16に記載の装置。
  19. 前記複数の第1のエンティティにおける各第1のエンティティの信頼度がいずれも閾値信頼度を超える請求項16に記載の装置。
  20. 前記イベント決定モジュールが、
    ターゲットビデオの前記の複数フレームに対応するオーディオに対して音声認識を行って、複数の第2のテキストを決定するように構成される第2のテキスト決定モジュールと、
    前記複数の第2のテキストから複数の第2のエンティティを取得するように構成される第2のエンティティ取得モジュールであって、前記第2のエンティティは、人の名前、場所の名前、及び組織の名前を含む第2のエンティティ取得モジュールと、
    前記複数の第1のテキスト、前記複数の第1のエンティティ、前記複数の第2のテキスト及び前記複数の第2のエンティティに基づいて、前記複数のイベントを決定するように構成される決定モジュールと、
    を含み、
    前記決定モジュールが、
    前記複数の第1のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第1のテキストを前記複数のビデオセグメントに対応させ、前記複数の第2のテキストと前記複数のフレームとの対応関係に基づいて、前記複数の第2のテキストを前記複数のビデオセグメントに対応させ、イベント抽出モデルによって、前記複数のビデオセグメントに対応する前記複数の第1のテキスト、前記複数の第1のエンティティ、前記複数の第2のテキスト及び前記複数の第2のエンティティに基づいて、前記複数のビデオセグメントに関連付けられた複数のイベントを抽出する請求項16に記載の装置。
  21. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが請求項1から10のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  22. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から10のいずれか一項に記載の方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  23. コンピュータに請求項1から10のいずれか一項に記載の方法を実行させるコンピュータプログラム。

JP2021079649A 2020-06-11 2021-05-10 ビデオ処理方法、装置、電子機器及び記憶媒体 Active JP7476138B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010532039.3A CN111708914A (zh) 2020-06-11 2020-06-11 用于视频处理的方法、装置、电子设备和存储介质
CN202010532039.3 2020-06-11

Publications (2)

Publication Number Publication Date
JP2021166050A JP2021166050A (ja) 2021-10-14
JP7476138B2 true JP7476138B2 (ja) 2024-04-30

Family

ID=72540100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021079649A Active JP7476138B2 (ja) 2020-06-11 2021-05-10 ビデオ処理方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US11490170B2 (ja)
EP (1) EP3923591A1 (ja)
JP (1) JP7476138B2 (ja)
KR (1) KR102553511B1 (ja)
CN (1) CN111708914A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114302231B (zh) * 2021-12-31 2023-08-18 中国传媒大学 视频处理方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149672A (ja) 2000-11-08 2002-05-24 Nec Corp Avコンテンツ自動要約システム及びavコンテンツ自動要約方式
JP2005210573A (ja) 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム
JP2020115285A (ja) 2019-01-17 2020-07-30 ヤフー株式会社 算出装置、算出方法、算出プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
CN1195274C (zh) * 2003-01-25 2005-03-30 华中科技大学 基于集群视频服务器的节目源分片分布式存储方法
KR100687732B1 (ko) * 2005-11-24 2007-02-27 한국전자통신연구원 내용 기반 멀티 모달 특징값을 이용한 유해 동영상 차단방법 및 그 장치
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及系统
US20160034712A1 (en) * 2012-10-02 2016-02-04 Banjo, Inc. System and method for event-related content discovery, curation, and presentation
BR112016006860B8 (pt) 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
US10216841B2 (en) * 2014-05-22 2019-02-26 Pixured, Inc. System for referring to and/or embedding posts, videos or digital media within other posts, videos or digital media and posts within any part of another posts, videos or digital media
US9430694B2 (en) * 2014-11-06 2016-08-30 TCL Research America Inc. Face recognition system and method
US10601686B2 (en) * 2017-10-17 2020-03-24 Rovi Guides, Inc. Systems and methods for improving quality of service while streaming code-agnostic content
CN108810569B (zh) * 2018-05-23 2021-01-22 北京奇艺世纪科技有限公司 一种视频新闻分割方法和装置
US11163840B2 (en) * 2018-05-24 2021-11-02 Open Text Sa Ulc Systems and methods for intelligent content filtering and persistence
CN109635154B (zh) * 2018-12-14 2022-11-29 成都索贝数码科技股份有限公司 一种基于文稿和新闻节目自动生成互联网图文稿件的方法
CN109933688A (zh) * 2019-02-13 2019-06-25 北京百度网讯科技有限公司 确定视频标注信息的方法、装置、设备和计算机存储介质
CN110121118B (zh) * 2019-06-17 2021-08-06 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149672A (ja) 2000-11-08 2002-05-24 Nec Corp Avコンテンツ自動要約システム及びavコンテンツ自動要約方式
JP2005210573A (ja) 2004-01-26 2005-08-04 Mitsubishi Electric Corp 映像表示システム
JP2020115285A (ja) 2019-01-17 2020-07-30 ヤフー株式会社 算出装置、算出方法、算出プログラム

Also Published As

Publication number Publication date
EP3923591A1 (en) 2021-12-15
KR102553511B1 (ko) 2023-07-10
US20210250666A1 (en) 2021-08-12
CN111708914A (zh) 2020-09-25
KR20210081308A (ko) 2021-07-01
JP2021166050A (ja) 2021-10-14
US11490170B2 (en) 2022-11-01

Similar Documents

Publication Publication Date Title
JP7164729B2 (ja) クロスモーダル情報検索方法及びその装置、並びに記憶媒体
CN108833973B (zh) 视频特征的提取方法、装置和计算机设备
CN108989882B (zh) 用于输出视频中的音乐片段的方法和装置
US10372716B2 (en) Automatic discovery and presentation of topic summaries related to a selection of text
CN111814770A (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN112988753B (zh) 一种数据搜索方法和装置
CN104994404A (zh) 一种为视频获取关键词的方法及装置
CN109858005B (zh) 基于语音识别的文档更新方法、装置、设备及存储介质
JP7476138B2 (ja) ビデオ処理方法、装置、電子機器及び記憶媒体
CN113038175B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN112542163B (zh) 智能语音交互方法、设备及存储介质
CN116935287A (zh) 视频理解方法和装置
CN111488450A (zh) 一种用于生成关键词库的方法、装置和电子设备
US20170262755A1 (en) Supporting generation of a response to an inquiry
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN111460214B (zh) 分类模型训练方法、音频分类方法、装置、介质及设备
KR20200063316A (ko) 각본 기반의 영상 검색 장치 및 방법
CN110825954A (zh) 关键词推荐方法、装置和电子设备
CN110727854B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111107259B (zh) 图像获取方法、装置及电子设备
CN108932326B (zh) 一种实例扩展方法、装置、设备和介质
US10146979B2 (en) Processing visual cues to improve device understanding of user input
CN115329129A (zh) 会议纪要文件生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230414

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231011

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20231020

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20231110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240417

R150 Certificate of patent or registration of utility model

Ref document number: 7476138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150