JP2019212290A - ビデオを処理する方法及び装置 - Google Patents

ビデオを処理する方法及び装置 Download PDF

Info

Publication number
JP2019212290A
JP2019212290A JP2019052669A JP2019052669A JP2019212290A JP 2019212290 A JP2019212290 A JP 2019212290A JP 2019052669 A JP2019052669 A JP 2019052669A JP 2019052669 A JP2019052669 A JP 2019052669A JP 2019212290 A JP2019212290 A JP 2019212290A
Authority
JP
Japan
Prior art keywords
target video
information
video segment
target
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019052669A
Other languages
English (en)
Other versions
JP6986527B2 (ja
Inventor
イエハン・チェン
Yehan Zheng
ユ・ルオ
Yu Luo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2019212290A publication Critical patent/JP2019212290A/ja
Application granted granted Critical
Publication of JP6986527B2 publication Critical patent/JP6986527B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】ビデオ要素情報に基づいてビデオにタグ情報を関連付ける方法、装置、サーバー及びコンピュータ可読記憶媒体を提供する。【解決手段】方法は、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するステップ201と、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップ202と、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップ203と、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶するステップ204と、を含む。この方法により、ビデオセグメントに、より正確にタグ情報を付けることができる。【選択図】図2

Description

本発明の実施形態は、コンピュータ技術の分野に関し、具体的には、ビデオを処理する方法及び装置に関する。
従来技術では、内容に基づくビデオ分類を実施するために、ビデオにタグを付ける処理(例えば、タグは、ビデオの内容の概要、ビデオの内容のキーワード、ある時間範囲におけるビデオの検索数のランキング等であっても良い)を行うことにより、ビデオ内容の分類をさらに細分化する必要がある。例として、ビデオ推奨技術を用いて、ビデオのタグにユーザーが注目度の情報を取り込むことによって、ユーザーにより正確にビデオを推奨する目的を達成することができる。
本発明の実施形態は、ビデオを処理するための方法及び装置、及び推奨情報を生成するための方法及び装置を提供する。
第1の態様において、本発明の実施形態は、ビデオを処理するための方法であって、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するステップと、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップと、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップと、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することとを含む方法を提供する。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームであり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するステップと、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定することを含む。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択することを含む。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの文字概要情報とを含み、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と文字概要情報との類似度を決定するステップと、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択することとを含む。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するステップと、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとすることを含む。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオの音入れ情報であり、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するステップは、音入れ情報に対して音声識別を行い、対応する音入れセグメントの属するカテゴリを表す少なくとも一つの音入れカテゴリ情報と、音入れカテゴリ情報と対応する、音入れ情報に含まれる音入れセグメントとを取得するステップと、少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定することとを含む。
幾つかの実施形態においては、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを、ターゲットビデオセグメントのキーワードとして取得することを含む。
第2の態様において、本発明の実施形態は、推奨情報を生成する方法であって、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定されたタグ情報とマッチングを行うステップであって、前記タグ情報は、前記第1の態様の中のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントが存在するものであるステップと、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成することとを含む方法を提供する。
第3の態様において、本発明の実施形態は、ビデオを処理する装置であって、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニットと、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニットと、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニットと、キーワードを予め設定されたタグ情報集合とマッチングして、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶するように配置される記憶ユニットとを含む装置を提供する。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームであり、抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対して画像識別を行い、当該画像フレームの画像識別結果を取得するように配置される第1の識別モジュールと、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第1の決定モジュールとを含む。
幾つかの実施形態においては、決定ユニットは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定するように更に配置される。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第1の抽出モジュールと、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の決定モジュールとを含む。
幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとするように更に配置される。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が文字概要情報との類似度を決定するように配置される第3の決定モジュールと、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第4の決定モジュールとを含む。
幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第2の抽出モジュールと、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとするように配置される第1の選択モジュールとを含む。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するように配置される第5の決定モジュールと、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第6の決定モジュールとを含む。
幾つかの実施形態においては、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。
幾つかの実施形態においては、ターゲットビデオ要素情報は、ターゲットビデオの音入れ情報であり、抽出ユニットは、音入れ情報に対して音声識別を行い、対応する音入れセグメントの属するカテゴリを表す少なくとも一つの音入れカテゴリ情報と、音入れカテゴリ情報に対応する、音入れ情報に含まれる音入れセグメントとを取得するように配置される第2の識別モジュールと、少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の選択モジュールとを含む。
幾つかの実施形態においては、決定ユニットは、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。
第4の態様において、本発明の実施形態は、推奨情報を生成する装置であって、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定された、前記第1の態様の中のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行うように配置される取得ユニットと、マッチング成功が決定することに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニットとを含む装置を提供する。
第5の態様において、本発明の実施形態は、一つ以上のプロセッサと、一つ以上のプログラムを記憶している記憶装置とを含むサーバーであって、一つ以上のプログラムが一つ以上のプロセッサより実行される場合に、一つ以上のプロセッサに第1の態様または第2の態様の中のいずれか一実施形態で述べられている方法がサーバーにより実施される。
第6の態様おいて、本発明の実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供する。当該コンピュータプログラムがプロセッサより実行される場合に、第1の態様または第2の態様の中のいずれか一実施形態で述べられている方法が実施される。
本発明の実施形態によるビデオ処理用の方法と装置は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワード決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントにより正確にタグ情報を付けることができ、ビデオセグメントにタグ情報を付けるに使用される手段が多様性に富むことになる。
以下の図面を参照しながら説明する非限定的な実施形態の詳細を読むと、本発明の他の特徴、目的及び利点がより明らかになる。
本発明の実施形態が適用される例示的なシステム構成図である。 本発明に係るビデオ処理用の方法の一実施形態のフローチャート図である。 本発明に係るビデオ処理用の方法の一つの適用シナリオの模式図である。 本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。 本発明によるビデオ処理用の方法の他の一実施形態のフローチャート図である。 本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。 本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。 本発明に係るビデオ処理用の方法の他の一実施形態のフローチャート図である。 本発明に係る、推奨情報生成用の方法の一実施形態のフローチャート図である。 本発明に係る、ビデオ処理用の装置の一実施形態の構造模式図である。 本発明に係る、推奨情報生成用の装置の一実施形態の構造模式図である。 本発明の実施形態のサーバーを実現するのに適するコンピュータシステムの構造模式図である。
以下、図面と実施形態を参照しながら、本発明を詳細に説明する。ここで記載される具体的な実施形態は、関連の発明を解釈するためのものに過ぎず、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。
なお、矛盾が生じない限り、本発明における実施形態及び実施形態における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施形態を併せて本発明を詳しく説明する。
図1は、本発明の実施形態のビデオを処理する方法または装置を適用可能となる例示的なシステム構造100を示す。
図1に示すように、システム構成100は、端末設備101、102、103、ネットワーク104とサーバー105を含んでも良い。ネットワーク104は、端末設備101、102、103とサーバー105との間の通信リンクの媒体を提供するのに用いられる。ネットワーク104は、例えば、有線、無線通信リンク又は光ファイバケーブルなどのような、各種の接続カテゴリを含むことができる。
ユーザーは、端末設備101、102、103を使用してネットワーク104を介してサーバー105と対話し、メッセージなどを送受信することができる。端末設備101、102、103には、例えば、ビデオ再生アプリケーション、ウェブブラウザアプリケーション等の各種通信クライアントアプリケーションがインストールされていても良い。
端末設備101、102、103はハードウェアであっても良いし、ソフトウェアであっても良い。端末設備101、102、103がハードウェアである場合は、ディスプレイスクリーンを有し、ビデオ再生をサポートする各種の電子設備であっても良く、スマートフォン、タブレット、ラップトップポータブルコンピュータ及びデスクトップコンピュータ等を含むが、これらに限定されない。端末設備101、102、103がソフトウェアである場合は、前記に列挙した電子設備にインストールされても良い。それは複数のソフトウェアまたはソフトウェアモジュールとして実現されても良いし(例えば分散式サービスを提供するために用いられるソフトウェアまたはソフトウェアモジュール)、単一のソフトウェアまたはソフトウェアモジュールとして実現されても良い。ここでは具体的な限定をしない。
サーバー105は、各種サービスを提供するサーバーであっても良く、例えば、端末設備101、102、103上で再生されるビデオをサポートするためのバックサイドビデオリソースサーバーであっても良い。バックサイドビデオリソースサーバーは、取得したビデオ(例えば、端末設備または他のサーバーから取得したビデオ)に対して処理を行うことができ、さらに処理結果(例えば、ビデオセグメントとビデオセグメントのタグ情報)記憶するか、またはビデオセグメントを端末設備に送ることができる。
なお、本発明の実施形態によるビデオ処理用の方法、または推奨情報の生成用の方法は、一般的にはサーバー105によって実行され、相応的には、ビデオ処理用の装置、または推奨情報の生成用の装置は、一般的にはサーバー105に設置される。
なお、サーバーはハードウェアであっても良く、ソフトウェアであっても良い。サーバーがハードウェアである場合は、複数のサーバーから構成される分散式サーバークラスタとして実現されても良いし、単一のサーバーとして実現されても良い。サーバーがソフトウェアである場合は、複数のソフトウェアまたはソフトウェアモジュールとして実現されても良いし(例えば分散式サービスを提供するために用いられる複数のソフトウェアまたはソフトウェアモジュール)、単一のソフトウェアまたはソフトウェアモジュールとして実現されても良い。ここでは具体的に限定しない。
図1の中の端末設備、ネットワークとサーバーの数はただ単に例示的なものであると理解されたい。実現の必要に従って、任意の数の端末設備、ネットワークとサーバーを有しても良い。
図2は、本発明によるビデオ処理用の方法の一実施形態のフローチャート200を示す。当該ビデオ処理用の方法は、ステップ201、ステップ202、ステップ203及びステップ204を含む。
ステップ201においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
本発明の実施形態において、ビデオを処理する方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合(例えば、あるビデオウェブサイトが提供するビデオ)の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
ステップ202においては、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出する。
本発明の実施形態において、ステップ201で得られたターゲットビデオ要素情報に基づき、前記実行主体は、ターゲットビデオからターゲットビデオセグメントを抽出することができる。具体的には、前記実行主体は、色々な方法でターゲットビデオからターゲットビデオセグメントを抽出することができる。例えば、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合は、前記実行主体は、各々の画像フレームに対して識別を行い、各々の画像フレームが含む物体映像のカテゴリを取得し、同じカテゴリの画像フレーム(例えば、武器画像を含む画像フレーム)に対応するビデオセグメントをターゲットビデオセグメントとして決定する。
ステップ203においては、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得する。
本発明の実施形態において、前記実行主体は、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得することができる。ここで、上記ビデオ要素情報とキーワードの決定方法との対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、少なくとも一つのビデオ要素情報と対応することができる。例示として、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合、前記実行主体は、自動的にまたは技術者の操作に従って対応するプログラムを実行し、当該プログラムは、ステップ202で得られた各々の画像フレームの識別結果を利用し、ターゲットビデオセグメントに含まれる画像フレームの識別結果をターゲットビデオセグメントのキーワードとして決定し、または、当該プログラムは、ターゲットビデオセグメントに含まれる画像フレームに対して再度識別を行い、さらにより多くの情報(例えば、各々の画像フレームの中に含まれる物品の数、人物の動作などの情報)を識別し、ターゲットビデオセグメントのキーワードとしても良い。
ステップ204においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
本発明の実施形態において、ステップ203で得られたキーワードに基づき、前記実行主体は、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することができる。ここで、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報(例えば、「戦争」)をターゲットビデオセグメントのタグ情報として決定しても良い。
実際には、上記タグ情報集合は予め設定された知識ベースであっても良く、当該知識ベースには複数の知識情報が記憶されており、各々の知識情報は、一連のキー情報と対応する。例えば、「戦争」とタグ付けされる知識情報に対して、当該知識情報は、例えば、「人数が二人以上」、「武器使用」、「流血」等のキー情報を含んでも良く、ターゲットビデオセグメントのキーワードが上記キー情報の中の少なくとも一つと一致する場合、ターゲットビデオセグメントのタグ情報を「戦争」に設置しても良い。また、例えば、ある知識情報は、歌の曲名としてタグ付けされると、当該知識情報は、歌の歌手、歌の作者、歌のスタイル(例えば、「婉曲」、「豪放」等)などのキー情報を含んでも良い。ターゲットビデオのキーワードが当該歌の曲名である場合、当該歌の曲名に対応する少なくとも一つのキー情報をターゲットビデオセグメントのタグ情報とさせても良い。
図3を再び参照する。図3は、本発明によるビデオ処理用の方法の一つの応用シナリオの模式図である。図3のシナリオにおいて、サーバー301は、まず、ローカルからターゲットビデオ302(例えば、ある映画)とターゲットビデオ302のターゲットビデオ要素情報303を取得する。ここで、ターゲットビデオ要素情報303は、ターゲットビデオに含まれる画像フレームである。そして、サーバー301は、各々の画像フレームに対して識別を行い、武器画像を含み、かつ少なくとも2つの人物画像を含む画像フレームと対応するビデオセグメントをターゲットビデオセグメント304として決定する。続いて、サーバー301は、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得する。ここで、上記キーワードの決定方法は、ターゲットビデオセグメントに含まれる画像フレームの識別結果(すなわち、「武器」、「多人数」)をターゲットビデオセグメントのキーワード305として決定することである。最後に、サーバー301は、キーワード305を予め設定されたタグ情報集合とマッチングし、当該タグ情報集合の中に、「戦争」とタグ付けられているタグ情報サブ集合は、上記キーワードを含むので、ターゲットビデオセグメント304のタグ情報を「戦争」(すなわち、図の中の307)と決定する。最後に、サーバー301は、ターゲットビデオセグメント304とタグ情報307をサーバー301の記憶装置に関連付けて記憶する。
本発明の上記実施形態による方法は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワードの決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントにより正確にタグ情報を付けることができ、ビデオセグメントにタグ情報を付けるに使用される手段が多様性に富むことになる。
図4は、ビデオ処理用の方法のもう一実施形態のフローチャート400を示す。当該ビデオ処理用の方法に用いられるフローチャート400は、ステップ401、ステップ402、ステップ403、ステップ404及びステップ405を含む。
ステップ401においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
本発明の実施形態において、ビデオを処理する方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームである。
ステップ402においては、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得する。
本発明の実施形態において、ターゲットビデオに含まれる画像フレームについて、前記実行主体は、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得することができる。ここで、画像識別結果は、画像フレームに含まれる物体や、シナリオ等の画像関連情報(例えば、物体の数量、シナリオのカテゴリ等の情報)であっても良い。なお、上記画像識別結果は、既存の画像識別方法(例えば、ニューラルネットワークに基づく方法、フラクタル特徴に基づく方法等)に基づいて得られるものであり、画像識別方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。
ステップ403においては、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。
本発明の実施形態において、ステップ402で得られた画像識別結果に基づき、前記実行主体は、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここで、画像識別結果の間に関連があるか否かを判定する方法は、技術者が予め設定された条件に基づいて判定する方法であっても良い。
例示として、画像識別結果は、画像フレームに含まれる物体のカテゴリと画像フレームに含まれる人物の数であっても良く、技術者が予め設定された条件は、画像フレームが武器画像と少なくとも2つの人物画像を含むことであると仮定する。すると、前記実行主体は、武器画像と少なくとも2つの人物画像を含むことを表す画像識別結果を関連の画像識別結果として決定する。そして、前記実行主体は、関連の画像識別結果と対応しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。
もう一つの例示として、画像識別結果は、画像フレームに含まれるターゲット物体の位置情報であっても良い。ターゲット物体がサッカーボールであり、前記実行主体は、画像フレームからサッカーボールを識別することができ、かつサッカーボールがグランドの中の位置を識別する(例えば、画像フレームの中のグランドのラインの画像に基づいてサッカーボールの位置を決定する)ことができ、技術者が予め設定された条件は、画像フレームと対応する画像識別結果が、画像フレームがサッカーボール画像を含み、かつサッカーボールがゴールゲートの中に位置することを表すことであると仮定する。すると、前記実行主体は、当該条件を満足する画像識別結果をターゲット画像識別結果として決定することができ、さらにターゲット画像識別結果と対応する画像フレームのターゲットビデオにおける時間範囲を決定し、続いて、当該時間範囲の前と後ろの予め設定された時間範囲内の画像フレームの画像識別結果を決定し、ターゲット画像識別結果と決定した画像識別結果を関連の画像識別結果として決定する。最後に、関連の画像識別結果と対応する画像フレームの存在するビデオセグメントをターゲットビデオセグメントとして決定する。
ターゲットビデオに含まれる画像フレームを識別することによってターゲットビデオセグメントを抽出することで、ターゲットビデオセグメントを抽出するプロセスをより早くより正確にすることができ、さらにターゲットビデオセグメントの目標志向性を向上させるのに有利である。
ステップ404においては、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定する。
本発明の実施形態において、前記実行主体は、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定することができる。例示として、画像識別結果とキーワードとの対応関係は、予め設定されたマッピングテーブルまたは予め設定されたデータ構造(例えば、リンクリスト)によって表すことができる。画像識別結果は、画像フレームに含まれる物品画像の名称であっても良く、画像識別結果と対応するキーワードは、物品画像の名称が所属するカテゴリを表すカテゴリキーワードであっても良い。例えば、ターゲットビデオセグメントの中で、一部の画像フレームは、銃画像を含み、一部の画像フレームは、大砲画像を含み、すると、前記マッピングテーブルに基づき、銃画像を含む画像フレームと大砲画像を含む画像フレームのキーワードは「武器」を含むと決定することができる。さらに、ターゲットビデオセグメントの各々の画像フレームは、すべて少なくとも2つの人物画像を含むなら、各々の画像フレームのキーワードは「多人数」を含むと決定することができる。最終的に決定したターゲットビデオセグメントのキーワードは、「武器」と「多人数」を含むことができる。
ステップ405においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
本発明の実施形態において、ステップ405は、図2の対応する実施形態のステップ204と基本的に同じであり、ここでは繰り返して説明しない。
図4から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート400は、ターゲットビデオに含まれる画像フレームに対して識別を行い、ターゲットビデオセグメントのキーワードを得るステップを強調し、よってターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させた。
図5は、ビデオ処理用の方法のもう一実施形態のフローチャート500を示す。当該ビデオ処理用の方法のフローチャート500は、ステップ501、ステップ502、ステップ503、ステップ504及びステップ505を含む。
ステップ501においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
本発明の実施形態において、ビデオを処理する方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合である。具体的には、文字情報の集合の中の各々の文字情報は、ターゲットビデオに含まれる少なくとも一つの画像フレームと対応することができる。例示として、文字情報は、字幕情報(字幕情報は、予め設定された字幕ファイルから取得した情報であっても良く、画像フレームに対して文字識別を行って得られる文字情報であっても良い)であっても良く、画像フレームに含まれる文字画像に対して識別を行って得られる文字情報等であっても良い。
ステップ502においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出する。
本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出することができる。例示として、文字情報は、ビデオフレームに含まれる字幕であると仮定すると、ターゲット語彙は、字幕から抽出した少なくとも一つの語彙が属する、予め設定されたカテゴリの語彙であっても良い。例えば、予め設定された種別は感情類であっても良く、ターゲット語彙は、「嫌い」、「好き」、「嬉しい」等の感情を表す語彙であっても良い。
なお、上記ターゲット語彙は、既存の文字識別方法(例えば、ニューラルネットワークに基づく文字抽出モデル、語彙のカテゴリと語彙のマッピングテーブルに基づく方法等)に基づいて得られるものであり、文字識別方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。
ステップ503においては、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。
本発明の実施形態において、ステップ502で得られたターゲット語彙に基づき、前記実行主体は、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここでは、ターゲット語彙の間に関連があるか否かを決定する方法は、技術者が予め設定された条件に基づいて判定する方法であっても良い。
例示として、技術者により予め設定された条件は、画像フレームに対応するターゲット語彙が戦争類の語彙に属するということであると仮定する。すると、前記実行主体は、当該条件を満足する語彙に対応する各々の画像フレームを、関連の画像フレームとして決定する。または、当該条件を満足する語彙に対応する各々の画像フレームと、ターゲットビデオにおける時間が前記各々の画像フレームの間に位置する画像フレームを、関連の画像フレームとして決定する。そして、関連の画像フレームが存在するビデオセグメントをターゲットビデオセグメントとして決定する。
文字情報に含まれるターゲット語彙を抽出することによってターゲットビデオセグメントを抽出することで、ターゲットビデオセグメントを抽出する柔軟性を更に向上させることができ、さらにターゲットビデオセグメントの目標志向性を向上させるのに有利である。
ステップ504においては、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を選択し、ターゲットビデオセグメントのキーワードとする。
本発明の実施形態において、前記実行主体は、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙をターゲットビデオセグメントのキーワードとして選択することができる。例示として、ターゲットビデオセグメントの中の各々の画像フレームに対応するターゲット語彙は戦争類に属する語彙であると仮定すると、前記実行主体は、各々のターゲット語彙から、各種の方法(例えば、ランダム選択の方法、同一のターゲット語彙の現れる回数の順序に従って選択する方法等)で予め設定された数のターゲット語彙をターゲットビデオセグメントのキーワードとして抽出しても良い。例えば、抽出したキーワードは、「攻撃」、「突撃」、「大砲を打て」等を含んでも良い。
ステップ505においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
本発明の実施形態において、ステップ505は、図2の対応する実施形態のステップ204と基本的に同じであり、ここでは繰り返して説明しない。
図5から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート500は、ターゲットビデオに含まれる画像フレームと対応する文字情報に対して識別を行い、ターゲットビデオセグメントのキーワードを得るステップを強調し、よってターゲットビデオセグメントのタグ情報を決定する効率と柔軟性を向上させることに寄与する。
図6は、ビデオ処理用の方法のもう一実施形態のフローチャート600を示す。当該ビデオ処理用の方法は、ステップ601、ステップ602、ステップ603、ステップ604、ステップ605及びステップ606を含む。
ステップ601においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
本発明の実施形態において、ビデオ処理用の方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。具体的には、文字情報の集合の中の各々の文字情報は、ターゲットビデオに含まれる少なくとも一つの画像フレームと対応することができる。例示として、文字情報は字幕情報(字幕情報は、予め設定された字幕ファイルから取得された情報であっても良く、画像フレームに対して文字識別を行って得られた文字情報であっても良い)であっても良く、画像フレームに含まれる文字画像に対して識別を行って得られた文字情報等であっても良い。
ステップ602においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定する。
本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定することができる。ここでは、文字情報の類似度を計算する方法は、ジャッカカード(Jaccard)類似度係数の計算に基づく方法、コサイン類似度に基づく方法等の中の少なくとも一つを含むが、これらに限定されない。前記類似度の計算方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。
ステップ603においては、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。
本発明の実施形態において、ステップ602で得られた類似度に基づき、前記実行主体は、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。前記予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームは、予め設定された類似度の閾値より大きい各々の類似度に対応する各々の画像フレームと、再生時刻が前記各々の画像フレームの間に位置する画像フレームとを含んでも良い。または、前記予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームは、予め設定された類似度の閾値より大きい各々の類似度に対応する各々の画像フレームと、再生時刻が前記各々の画像フレームの間に位置する画像フレームとを含み、さらに前記各々の画像フレームの前と後ろの予め設定された数の画像フレームを含んでも良い。例示として、ターゲットビデオにおいて、30秒、35秒、50秒の画像フレームに対応する類似度は類似度の閾値より大きいとすると、時間範囲が30秒〜50秒の間であるビデオセグメントはターゲットビデオセグメントとなる。または、予め設定された数は500であるとすると、ターゲット画像フレームは、時間範囲が30秒〜50秒の間である画像フレームと、時間範囲が30秒〜50秒の間である画像フレームの前と後ろの500枚の画像フレームとを含む。
ステップ604においては、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出する。
本発明の実施形態において、画像フレームに対応する文字情報が含むターゲット語彙を抽出する方法は、前記ステップ502と同じであり、ここでは繰り返して説明しない。
ステップ605においては、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択する。
本発明の実施形態において、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙をターゲットビデオセグメントのキーワードとして選択する方法は、前記ステップ504と同じであり、ここでは繰り返して説明しない。
ステップ606においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
本発明の実施形態において、ステップ606は、図2の対応する実施形態のステップ204と基本的に同じであり、ここでは繰り返して説明しない。
図6から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート600は、文字情報と文字概要情報との類似度の計算のステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させるのに寄与する。
図7は、ビデオ処理用の方法の他の一実施形態のフローチャート700を示す。当該ビデオ処理用の方法のフローチャート700は、ステップ701、ステップ702、ステップ703、ステップ704及びステップ705を含む。
ステップ701においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
本発明の実施形態において、ビデオを処理する方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。具体的には、弾幕情報は、画像フレームに対して弾幕文字の識別を行って得られる文字情報であっても良い。例えば、前記実行主体は、既存のOCR(Optical Character Recognition、光学文字認識)技術を利用して画像フレームの中の弾幕を識別し、弾幕情報を得ることができる。
ステップ702においては、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定する。
本発明の実施形態において、ターゲットビデオに含まれる画像フレームに対して、前記実行主体は、当該画像フレームに対応する弾幕情報の数を決定することができる。
ステップ703においては、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定する。
本発明の実施形態において、前記実行主体は、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定することができる。ここでは、前記数の閾値は、例えば、技術者が経験に基づいて設定した数であるように、各種方法で設定した数であっても良く、または前記実行主体によって計算されたターゲットビデオの弾幕情報の総数を、ターゲットビデオに含まれる画像フレームの数で除算した結果であっても良い。実際には、対応する弾幕情報の数が前記数の閾値より大きい画像フレームは、大多数のユーザーが比較的に関心を持つ画像フレームであると見なすことができる。よって、ターゲットビデオセグメントは、注目度が比較的に高いビデオセグメントであると見なすことができる。
ステップ704においては、ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、ターゲットビデオセグメントのキーワードとして取得する。
本発明の実施形態において、ターゲットビデオセグメントに含まれる画像フレームについて、前記実行主体は、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を取得し、ターゲットビデオセグメントのキーワードとすることができる。具体的には、前記実行主体は、各種の方法で弾幕カテゴリ情報を得ることができる。例示として、前記実行主体は、予め設定された弾幕分類モデルを利用して弾幕カテゴリ情報を得ることができる。当該弾幕分類モデルは、技術者が大量の文字情報と文字情報のカテゴリ情報に対する統計に基づいて予め設定された、多数の文字情報とカテゴリ情報の対応関係を記憶しているマッピングテーブルであっても良く、既存の人工ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)に基づいて監督付き学習によって得られた、文字に対して分類を行うモデルであっても良い。
ステップ705においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
本発明の実施形態において、前記実行主体は、まず、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得することができる。そして、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。例示として、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報(例えば、「戦争」)をターゲットビデオセグメントのタグ情報として決定しても良い。
他の一つの例示として、タグ情報集合は、第1のサブ集合と第2のサブ集合とを含んでも良い。ここで、第1のサブ集合は、プラス評価のタグ情報を含み、第2のサブ集合は、マイナス評価のタグ情報を含む。前記実行主体は、弾幕分類情報が第1のサブ集合または第2のサブ集合に属するか否かを判定することができる。弾幕情報が第1のサブ集合に属するなら、ターゲットビデオセグメントのタグ情報は、第1の情報(例えば、「プラス評価」)として設定され、弾幕情報が第2のサブ集合に属するなら、ターゲットビデオセグメントのタグ情報は、第2の情報(例えば、「マイナス評価」)として設定される。
図7から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート700は、弾幕情報の数の識別に基づいてターゲットビデオセグメントを抽出し、弾幕カテゴリ情報に基づいてターゲットビデオセグメントのタグ情報を決定するステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させ、ターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させることに寄与する。
更に図8を参照する。図8は、ビデオ処理用の方法のもう一実施形態のフローチャート800を示す。当該ビデオ処理用の方法のフローチャート800は、ステップ801、ステップ802、ステップ803、ステップ804及びステップ805を含む。
ステップ801においては、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得する。
本発明の実施形態において、ビデオ処理用の方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
本発明の実施形態において、ターゲットビデオ要素情報は、ターゲットビデオの音入れ情報である。
ステップ802においては、音入れ情報に対して音声識別を行い、少なくとも一つの音入れカテゴリ情報と、音入れカテゴリ情報と対応する、音入れ情報に含まれる音入れセグメントとを取得する。
本発明の実施形態において、前記実行主体は、音入れ情報に対して音声識別を行い、少なくとも一つの音入れカテゴリ情報と、音入れカテゴリ情報と対応する、音入れ情報に含まれる音入れセグメントとを取得することができる。ここでは、音入れカテゴリ情報は、対応する音入れセグメントの属するカテゴリを表す。前記実行主体は、既存の音声識別技術を利用し、音入れ情報から少なくとも一つの音入れセグメントを抽出することができる。例えば、前記実行主体は、音入れ情報から、カテゴリが音楽である音入れセグメントを抽出し、当該音入れセグメントのカテゴリ情報は「音楽」であっても良く、またはカテゴリが音声である音入れセグメントを抽出し、当該音入れセグメントのカテゴリ情報は「音声」であっても良い。
ステップ803においては、少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、目標音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定する。
本発明の実施形態において、前記実行主体は、まず、各種の方法で少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択する(例えば、ランダム的に選択する、または音入れセグメントの抽出順序に従って選択する)ことができる。続いて、ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定する。
例示として、ターゲット音入れカテゴリ情報が“音楽”であり、かつカテゴリ情報が“音楽”である音入れセグメントは、音入れセグメントAと音入れセグメントBとを含むと仮定すると、音入れセグメントAと音入れセグメントBは、それぞれターゲットビデオセグメントとして決定することができる。
ステップ804においては、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを、ターゲットビデオセグメントのキーワードとして取得する。
本発明の実施形態において、前記実行主体は、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとすることができる。ここで、上記音入れカテゴリ情報と音声識別方法との対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、音入れカテゴリ情報と対応することができ、前記実行主体は、自動的にまたは技術者の操作に従って対応するプログラムを実行することができる。上記キーワードは、音楽の名称であっても良く、音声に対する識別で得られる文字から抽出したターゲット語彙等であっても良い。上記音声識別の方法は、現在広く研究され応用されている既知の技術であり、ここでは繰り返して説明しない。
例示として、ターゲットビデオセグメントに対応する音入れセグメントは音楽であると仮定すると、当該音入れセグメントが属するカテゴリを表すキーワードは、当該音楽の名称であっても良い。もう一つの例示として、ターゲットビデオセグメントに対応する音入れセグメントは音声であると仮定すると、前記実行主体は、まず、当該音入れセグメントに対して音声識別を行って文字情報を取得し、そして文字情報からターゲット語彙を、当該音入れセグメントが属するカテゴリを表すキーワードとして抽出するようにしても良い。ここで、文字情報からターゲット語彙を抽出する方法は、前記ステップ502で説明の方法と同じであっても良く、ここでは繰り返して説明しない。
ステップ805においては、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
本発明の実施形態において、ステップ805は、図2の対応する実施形態のステップ204と基本的に同じであり、ここでは繰り返して説明しない。
図8から分かるように、図2の対応する実施形態と比べ、本発明の実施形態のビデオ処理用の方法のフローチャート800は、音入れセグメントに対して識別を行ってターゲットビデオセグメントを取得し、ターゲットビデオセグメントと対応する音入れセグメントに対して識別を行って、ターゲットビデオセグメントのキーワードを取得するステップを強調し、よってターゲットビデオセグメントの抽出の目標志向性を向上させ、ターゲットビデオセグメントのタグ情報を決定する効率と正確性を向上させることに寄与する。
図9は、本発明による推奨情報の生成用の方法の一実施形態のフローチャート900を示す。当該情報出力用の方法は、ステップ901とステップ902を含む。
ステップ901においては、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定されたタグ情報とマッチングする。
本発明の実施形態において、ビデオ処理用の方法の実行主体(例えば、図1に示すサーバー)は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットユーザーが注目する内容を表す注目情報を取得することができる。ここで、ターゲットユーザーは、予め設定されたあるユーザーリストまたはあるユーザー集合の中のユーザー(例えば、あるウェブサイトの登録ユーザー)であっても良く、または一部の条件(例えば、一部のビデオを閲覧したことがある)を満足するユーザーであっても良い。本発明の実施形態において、タグ情報は、前記図2〜図8のいずれか一実施形態で述べられている方法で得られたものであり、タグ情報は、対応するビデオセグメントを有する。前記注目情報は、ターゲットユーザーと関連する情報であっても良く、例えば、ターゲットユーザーの注目情報は、ターゲットユーザーのユーザー画像情報に含まれているものであっても良く、または、ターゲットユーザーの注目情報は、ターゲットユーザーの閲覧履歴に含まれるものであっても良い。
そして、実行主体は、注目情報を予め設定されたタグ情報とマッチングする。具体的には、前記予め設定されたタグ情報は、ターゲットユーザーの注目情報と完全一致または部分一致である場合、注目情報とタグ情報とのマッチングの成功を決定することができる。例えば、予め設定されたタグ情報は「戦争」、「虐殺」を含み、ターゲットユーザーの注目情報は「戦争」、「武器」を含むとすると、注目情報とタグ情報とのマッチングの成功が決定する。
ステップ902においては、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成する。
本発明の実施形態において、前記実行主体は、マッチング成功が決定したことに応答し、上記タグ情報が対応するビデオセグメントの推奨情報を生成することができる。例示として、推奨情報は、タグ情報と、タグ情報に対応するビデオセグメントのリンクとを含んでも良く、前記ビデオセグメントのビデオのリンク等を更に含んでも良い。
選択可能的に、前記実行主体は、生成された推奨情報を前記ターゲットユーザーが使っている端末設備に送っても良い。
本発明の前記実施形態による方法は、ターゲットユーザーの注目情報を予め設定されたタグ情報とマッチングすることによって、ビデオセグメントを推奨する推奨情報を生成する。前記図2〜図8のいずれか一実施形態で述べられている方法で得られたタグ情報を使用することによって、推奨情報の生成の目標志向性を向上させた。
更に図10を参照する。図10は、前記の各々の図面の示す方法の実施例として、本発明によるビデオ処理用の装置の一実施形態を示し、当該装置の実施形態は、図2に示す方法の実施形態と対応し、当該装置は、具体的に各種の電子設備に応用できる。
図10に示すように、本発明のビデオ処理用の装置1000は、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニット1001と、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニット1002と、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニット1003と、キーワードを予め設定されたタグ情報集合とマッチングして、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶するように配置される記憶ユニット1004とを含む。
本発明の実施形態において、前記取得ユニット1001は、有線接続の方法または無線接続の方法でリモートまたはローカルからターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得することができる。ここで、ターゲットビデオは、予め設定されたあるビデオ集合(例えば、あるビデオウェブサイトが提供するビデオ)の中のビデオであっても良い。ビデオ要素情報は、ターゲットビデオに対応する各種の情報(例えば、字幕、音入れ、画像フレーム、名称、再生時間等の情報)であっても良く、ターゲットビデオ要素情報は、上記各種の情報の中の少なくとも一つを含んでも良い。
本発明の実施形態において、前記取得ユニット1001で得られたターゲットビデオ要素情報に基づき、前記抽出ユニット1002は、ターゲットビデオからターゲットビデオセグメントを抽出することができる。具体的には、前記抽出ユニット1002は、色々な方法でターゲットビデオからターゲットビデオセグメントを抽出することができる。例えば、ターゲットビデオ要素情報がターゲットビデオに含まれる画像フレームである場合は、前記抽出ユニット1002は各々の画像フレームに対して識別を行い、各々の画像フレームが含む物体映像のカテゴリを取得し、同じカテゴリの画像フレーム(例えば、武器画像を含む画像フレーム)に対応するビデオセグメントをターゲットビデオセグメントとして決定する。
本発明の実施形態において、決定ユニット1003は、予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得することができる。ここで、上記ビデオ要素情報とキーワードの決定方法の対応関係は、予め設定されたプログラムリストによって表すことができ、当該プログラムリストの中のプログラムは、少なくとも一つのビデオ要素情報と対応することができる。
本発明の実施形態において、記憶ユニット1004は、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することができる。ここで、タグ情報集合は、少なくとも一つのサブ集合を含んでも良く、各々のサブ集合は、一連の関連するタグ情報の集合であっても良い。例えば、あるサブ集合は、「戦争」、「戦闘」、「武器」等のタグ情報を含み、ターゲットビデオセグメントのキーワードが当該サブ集合に含まれるタグ情報に含まれる場合、当該サブ集合の中の少なくとも一つのタグ情報(例えば、「戦争」)をターゲットビデオセグメントのタグ情報として決定しても良い。
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームである。抽出ユニットは、ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するように配置される第1の識別モジュール(図示せず)と、画像識別結果と関連しかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第1の決定モジュール(図示せず)とを含む。
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、予め設定された、画像識別結果とキーワードとの対応関係に基づき、ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、ターゲットビデオセグメントのキーワードとして決定するように更に配置される。
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第1の抽出モジュール(図示せず)と、対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の決定モジュール(図示せず)とを含む。
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択するように更に配置される。
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、ターゲットビデオの概要の文字情報とを含む。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が概要の文字情報との類似度を決定するように配置される第3の決定モジュール(図示せず)と、予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第4の決定モジュール(図示せず)とを含む。
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第2の抽出モジュール(図示せず)と、ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、ターゲットビデオセグメントのキーワードとして選択するように配置される第1の選択モジュール(図示せず)とを含む。
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合である。抽出ユニットは、ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するように配置される第5の決定モジュール(図示せず)と、対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第6の決定モジュール(図示せず)とを含む。
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、ターゲットビデオセグメントのキーワードとして取得するように更に配置される。
本発明の実施形態の一部の選択可能な実現方法において、ターゲットビデオ要素情報は、ターゲットビデオの音入れ情報である。抽出ユニットは、音入れ情報に対して音声識別を行い、少なくとも一つの、対応する音入れセグメントの属するカテゴリを表す音入れカテゴリ情報と、音入れカテゴリ情報と対応する、音入れ情報に含まれる音入れセグメントとを取得するように配置される第2の識別モジュール(図示せず)と、少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の選択モジュール(図示せず)とを含む。
本発明の実施形態の一部の選択可能な実現方法において、決定ユニットは、予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを取得し、ターゲットビデオセグメントのキーワードとするように更に配置される。
本発明の前記実施形態による装置は、ターゲットビデオのターゲットビデオ要素情報を利用し、ターゲットビデオからターゲットビデオセグメントを抽出し、そして、予め設定されたキーワード決定方法に基づき、ターゲットビデオセグメントのキーワードを取得し、最後に、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶することによって、ビデオセグメントに対してタグ情報を付ける正確性が向上することができ、ビデオセグメントに対してタグ情報を付ける手段が多様になる。
更に図11を参照する。図11は、前記の各々の図面の示す方法の実施例として、本発明によるビデオ処理用の装置の一実施形態を提供し、当該装置の実施形態は、図9に示す方法の実施形態と対応し、当該装置は、具体的に各種の電子設備に応用できる。
図11に示すように、本発明のビデオ処理用の装置1100は、ターゲットユーザーが注目する内容を表す注目情報を取得し、当該注目情報を、予め設定された、前記図2〜図8のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行うように配置される取得ユニット1101と、マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニット1102とを含む。
本発明の前記実施形態による装置は、ターゲットユーザーの注目情報を予め設定されたタグ情報とマッチングを行うことによって、ビデオセグメントを推奨する推奨情報を生成する。前記図2〜図8のいずれか一実施形態で述べられている方法で得られたタグ情報を使用することによって、推奨情報の生成の目標志向性が向上することができる。
続いて、図12を参照する。図12は、本発明の実施形態のサーバーを実現するのに適したコンピュータシステム1200の構造模式図を示す。図12に示すサーバーは、ただ単に一つの例示に過ぎず、本発明の実施形態の機能と使用範囲に如何なる制限も与えるべきではない。
図12に示すように、コンピュータシステム1200は、中央処理装置(CPU)1201を備え、リードオンリーメモリ(ROM)1202に記憶されているプログラムまたは記憶部1208からランダムアクセスメモリ(RAM)1203にロードされたプログラムに従って各種の適切な動作と処理を実行する。RAM1203に、システム1200の操作に必要な各種のプログラムとデータが更に記憶されている。CPU1201、ROM1202とRAM1203は、バス1204を通じて互いに接続する。入力/出力(I/O)インターフェース1205もバス1204に接続されている。
キーボード、マウス、マイクロホン等を含む入力部分1206、例えば、陰極線管(CRT)、液晶ディスプレイ(LCD)等及びスピーカー等を含む出力部分1207、ハードディスク等を含む記憶部1208、及び例えばLANカード、モデム等を含むネットワークインターフェースカードの通信部1209は、I/Oインターフェース1205に接続される。通信部1209は、例えば、インターネット等のネットワークを通じて通信処理を実行する。ドライバー1210も必要に応じてI/Oインターフェース1205に接続される。例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等のようなリムーバブル記憶媒体1211は、必要に応じてドライバー1210にインストールされることにより、そこから読み出されるコンピュータプログラムは、必要に応じて記憶部1208にインストールされる。
特に、本発明の実施形態により、前記の文章でフローチャート図を参照しながら記述したプロセスは、コンピュータソフトウェアプログラムとして実現できる。例えば、本発明の実施形態は、コンピュータプログラム製品を含み、それは、コンピュータ可読記憶媒体に記載されているコンピュータプログラムを含む。当該コンピュータプログラムは、フローチャート図の示す方法を実行するのに用いられるプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部1209を通じてネットワークからダウンロードされてインストールされても良く、及び/またはリムーバブル記憶媒体1211からインストールされても良い。当該プログラムは、中央処理装置(CPU)1201に実行されるとき、本発明の方法の中で限定される前記の機能を実行する。なお、本発明で説明するコンピュータ可読記憶媒体は、コンピュータ可読信号記憶媒体またはコンピュータ可読記憶媒体または両者の任意の組合せであっても良い。コンピュータ可読記憶媒体は、例えば電、磁、光、電磁、赤外線、或いは半導体のシステム、装置またはデバイス、またはこれらの任意の組合せであっても良いが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、一つ以上のリード線を有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルROM(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD−ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本発明において、コンピュータの可読記憶媒体は、命令実行システム、装置、デバイスまたはその組み合わせに使用されるプログラムを含むまたは記憶する如何なる有形記憶媒体であっても良い。本発明において、コンピュータ可読信号記憶媒体は、ベースバンドの中または搬送波の一部分として伝播するデータ信号を含み、その中でコンピュータの可読プログラムコードが記載されている。このような伝播するデータ信号は、多カテゴリの形式を採用することができ、電磁信号、光信号またはその任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号記憶媒体は、さらにコンピュータの可読記憶媒体以外の任意のコンピュータ可読記憶媒体であっても良く、当該コンピュータ可読記憶媒体は、命令実行システム、装置、デバイスまたはその組み合わせに使用されるプログラムを送信し、伝播し、または転送することができる。コンピュータ可読記憶媒体に含まれるプログラムコードは、あらゆる適切な媒体を使って転送することができ、無線、電線、光ファイバー、RF等またはその任意の適切な組み合わせを含むが、これらに限定されない。
一つ以上のプログラミング言語またはその組み合わせを使って、本発明の操作の実行に用いられるコンピュータプログラムコードを作成しても良い。前記プログラミング言語は、例えばJava(登録商標)、Smalltalk、C++等のようなオブジェクト指向のプログラミング言語を含み、さらに例えば「C」言語または類似のプログラミング言語のような手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーコンピュータ上で実行されても良く、部分的にユーザーコンピュータ上で実行されても良く、一つの独立したソフトウェアパッケージとして実行されても良く、一部分がユーザーコンピュータ上で実行され一部分がリモートコンピュータ上で実行されても良く、或いは完全にリモートコンピュータまたはサーバー上で実行されても良い。リモートコンピュータに関わる場面において、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のカテゴリのネットワークを通じてユーザーコンピュータに接続されても良いし、または外部コンピュータ(例えばインターネットサービスプロバイダーを利用してインターネットを通じて接続する)に接続されても良い。
付属図面の中のフローチャート図とブロック図は、本発明による各種実施形態のシステム、方法とコンピュータプログラム製品の実現可能なアーキテクチャ、機能と操作を示す。この点において、フローチャート図またはブロック図の中の各ブロックは、一つのモジュール、プログラムセグメント、或いはコードの一部分を代表することができ、当該モジュール、プログラムセグメント、或いはコードの一部分は、一つ以上の、規定のロジック機能の実施例に用いられる実行可能な命令を含む。幾つかの代替の実施例において、ブロックの中で提示した機能は、付属図面の中で提示した順序と異なる順序で発生する可能性があると注意されたい。例えば、二つの接続するように表示されているブロックは、実際において基本的に並列に実行されても良く、場合によっては反対の順序で実行されても良く、何れも関わる機能によって定まる。フローチャート図及び/またはブロック図の中の各ブロック、及びフローチャート図及び/またはブロック図の中のブロックの組合せは、規定の機能または操作を実行する専用なハードウェアに基づくシステムで実現しても良く、専用なハードウェアとコンピュータ命令の組み合わせで実現しても良い。
本発明の実施形態に関わって記述されているユニットは、ソフトウェアの方法によって実現しても良く、ハードウェアの方法によって実現しても良い。記述されているユニットは、プロセッサの中に設置されても良く、例えば、取得ユニット、抽出ユニット、決定ユニットと記憶ユニットを含むプロセッサというように記述しても良い。なお、これらユニットの名称は、場合によっては、当該ユニット自身への限定を構成せず、例えば、取得ユニットは、「ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得するユニット」と記述されても良い。
一方、本発明は、コンピュータ可読記憶媒体を更に提供し、当該コンピュータ可読記憶媒体は、前記実施形態の中で記述されたサーバーに含まれても良く、当該サーバーに取り付けられずに単独的に存在しても良い。前記コンピュータ可読記憶媒体は一つ以上のプログラムを記載しており、前記一つ以上のプログラムが当該サーバーに実行されると、当該サーバーは、ターゲットビデオとターゲットビデオのターゲットビデオ要素情報を取得し、ターゲットビデオ要素情報に基づき、ターゲットビデオからターゲットビデオセグメントを抽出し、予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、ターゲットビデオセグメントのカテゴリを表すキーワードを取得し、キーワードを予め設定されたタグ情報集合とマッチングし、ターゲットビデオセグメントのタグ情報を取得し、ターゲットビデオセグメントとタグ情報を関連付けて記憶する。
また、前記一つ以上のプログラムが当該サーバーに実行されると、当該サーバーは、ターゲットユーザーが注目する内容を表す注目情報を更に取得し、当該注目情報を、予め設定された、前記図2〜図8のいずれか一実施形態で述べられている方法で得られた、対応するビデオセグメントを有するタグ情報とマッチングを行い、マッチング成功が決定することに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成する。
前記記述は、本発明の望ましい実施形態及び使用する技術原理に対する説明に過ぎない。当業者は、本発明の関わる発明の範囲は、前記技術特徴の特定の組み合わせからなる技術案に限定されることがなく、本発明の精神から逸脱しない限り、前記技術特徴または同等の特徴の任意の組み合わせからなる技術案もカバーすべきであると理解すべきである。例えば、前記特徴と本発明で公開した(但し、これらに限定されない)類似の機能を有する技術特徴とを相互入れ替えして形成した技術案である。

Claims (26)

  1. ビデオを処理する方法であって、
    ターゲットビデオと前記ターゲットビデオのターゲットビデオ要素情報を取得するステップと、
    前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップと、
    予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップと、
    前記キーワードを予め設定されたタグ情報集合とマッチングし、前記ターゲットビデオセグメントのタグ情報を取得し、前記ターゲットビデオセグメントと前記タグ情報を関連付けて記憶するステップと、
    を含む方法。
  2. 前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームであり、
    前記の、前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
    前記ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するステップと、
    画像識別結果と関連しかつ前記ターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
    を含む、請求項1に記載の方法。
  3. 前記予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
    予め設定された、画像識別結果とキーワードとの対応関係に基づき、前記ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、前記ターゲットビデオセグメントのキーワードとして決定することを含む、請求項2に記載の方法。
  4. 前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、
    前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
    前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、
    対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
    を含む、請求項1に記載の方法。
  5. 前記予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
    前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択することを含む、請求項4に記載の方法。
  6. 前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、前記ターゲットビデオの文字概要情報とを含み、
    前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
    前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と前記文字概要情報との類似度を決定するステップと、
    予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
    を含む、請求項1に記載の方法。
  7. 前記予め設定された、ビデオ要素情報とビデオセグメントのキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
    前記ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するステップと、
    前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択するステップと、
    を含む、請求項6に記載の方法。
  8. 前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合であり、
    前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
    前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するステップと、
    対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
    を含む、請求項1に記載の方法。
  9. 前記予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
    前記ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、前記ターゲットビデオセグメントのキーワードとして取得することを含む、請求項8に記載の方法。
  10. 前記ターゲットビデオ要素情報は、前記ターゲットビデオの音入れ情報であり、
    前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するステップは、
    前記音入れ情報に対して音声識別を行い、少なくとも一つの、対応する音入れセグメントの属するカテゴリを表す音入れカテゴリ情報と、音入れカテゴリ情報に対応する、前記音入れ情報に含まれる音入れセグメントとを取得するステップと、
    前記少なくとも一つの音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、前記ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するステップと、
    を含む、請求項1に記載の方法。
  11. 前記予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するステップは、
    予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、前記ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、前記ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを、前記ターゲットビデオセグメントのキーワードとして取得することを含む、請求項10に記載の方法。
  12. 推奨情報を生成する方法であって、
    ターゲットユーザーが注目する内容を表す注目情報を取得し、前記注目情報を、予め設定されたタグ情報とマッチングするステップであって、前記タグ情報は、請求項1〜11のいずれか一つに記載の方法で得られた、対応するビデオセグメントが存在するものであるステップと、
    マッチングの成功が決定したことに応答し、前記ビデオセグメントの推奨に用いられる推奨情報を生成するステップと、
    を含む方法。
  13. ビデオを処理する装置であって、
    ターゲットビデオと前記ターゲットビデオのターゲットビデオ要素情報を取得するように配置される取得ユニットと、
    前記ターゲットビデオ要素情報に基づき、前記ターゲットビデオからターゲットビデオセグメントを抽出するように配置される抽出ユニットと、
    予め設定された、ビデオ要素情報とビデオセグメントキーワードの決定方法との対応関係に基づき、前記ターゲットビデオセグメントのカテゴリを表すキーワードを取得するように配置される決定ユニットと、
    前記キーワードを予め設定されたタグ情報集合とマッチングして、前記ターゲットビデオセグメントのタグ情報を取得し、前記ターゲットビデオセグメントと前記タグ情報を関連付けて記憶するように配置される記憶ユニットと、
    を含む装置。
  14. 前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームであり、
    前記抽出ユニットは、
    前記ターゲットビデオに含まれる画像フレームについて、当該画像フレームに対し画像識別を行い、当該画像フレームの画像識別結果を取得するように配置される第1の識別モジュールと、
    画像識別結果と関連しかつ前記ターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第1の決定モジュールと、
    を含む、請求項13に記載の装置。
  15. 前記決定ユニットは、
    予め設定された、画像識別結果とキーワードとの対応関係に基づき、前記ターゲットビデオセグメントに含まれる画像フレームの画像識別結果に対応するキーワードを、前記ターゲットビデオセグメントのキーワードとして決定するようにさらに配置される、請求項14に記載の装置。
  16. 前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合であり、
    前記抽出ユニットは、
    前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第1の抽出モジュールと、
    対応するターゲット語彙に関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の決定モジュールと、
    を含む、請求項13に記載の装置。
  17. 前記決定ユニットは、
    前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択するように更に配置される、請求項16に記載の装置。
  18. 前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する文字情報の集合と、前記ターゲットビデオの文字概要情報とを含み、
    前記抽出ユニットは、
    前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する文字情報と前記文字概要情報との類似度を決定するように配置される第3の決定モジュールと、
    予め設定された類似度の閾値より大きい類似度に対応する画像フレームと関連する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第4の決定モジュールと、
    を含む、請求項13に記載の装置。
  19. 前記決定ユニットは、
    前記ターゲットビデオセグメントに含まれる画像フレームに対して、当該画像フレームに対応する文字情報が含むターゲット語彙を抽出するように配置される第2の抽出モジュールと、
    前記ターゲットビデオセグメントに含まれる画像フレームに対応するターゲット語彙の中から、ターゲット語彙を、前記ターゲットビデオセグメントのキーワードとして選択するように配置される第1の選択モジュールと、
    を含む、請求項18に記載の装置。
  20. 前記ターゲットビデオ要素情報は、前記ターゲットビデオに含まれる画像フレームに対応する弾幕情報の集合であり、
    前記抽出ユニットは、
    前記ターゲットビデオに含まれる画像フレームに対して、当該画像フレームに対応する弾幕情報の数を決定するように配置される第5の決定モジュールと、
    対応する弾幕情報の数が予め設定された数の閾値より大きくかつターゲットビデオにおいて連続する画像フレームが存在するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第6の決定モジュールと、
    を含む、請求項13に記載の装置。
  21. 前記決定ユニットは、
    前記ターゲットビデオセグメントに含まれる画像フレームについて、当該画像フレームに対応する弾幕情報に対して識別を行い、当該画像フレームに対応する弾幕情報が属するカテゴリを表す弾幕カテゴリ情報を、前記ターゲットビデオセグメントのキーワードとして取得するように更に配置される、請求項20に記載の装置。
  22. 前記ターゲットビデオ要素情報は、前記ターゲットビデオの音入れ情報であり、
    前記抽出ユニットは、
    前記音入れ情報に対して音声識別を行い、対応する音入れセグメントの属するカテゴリを表す少なくとも一つの音入れカテゴリ情報と、前記音入れ情報に含まれ、音入れカテゴリ情報に対応する音入れセグメントとを取得するように配置される第2の識別モジュールと、
    少なくとも一つの前記音入れカテゴリ情報からターゲット音入れカテゴリ情報を選択し、前記ターゲット音入れカテゴリ情報に対応する音入れセグメントが対応するビデオセグメントを、ターゲットビデオセグメントとして決定するように配置される第2の選択モジュールと、
    を含む、請求項13に記載の装置。
  23. 前記決定ユニットは、
    予め設定された、音入れカテゴリ情報と音声識別方法との対応関係に基づき、前記ターゲットビデオセグメントの対応する音入れセグメントに対して識別を行い、前記ターゲットビデオセグメントの対応する音入れセグメントが属するカテゴリを表すキーワードを、前記ターゲットビデオセグメントのキーワードとして取得するように更に配置される、請求項22に記載の装置。
  24. 推奨情報を生成する装置であって、
    ターゲットユーザーが注目する内容を表す注目情報を取得し、前記注目情報を、予め設定されたタグ情報とマッチングを行うように配置される取得ユニットであって、前記タグ情報は、請求項1〜11のいずれか一つに記載の方法で得られた、対応するビデオセグメントが存在するものである取得ユニットと、
    マッチングの成功が決定したことに応答し、ビデオセグメントの推奨に用いられる推奨情報を生成するように配置される生成ユニットと、
    を含む装置。
  25. 一つ以上のプロセッサと、一つ以上のプログラムが記憶されている記憶装置と、を含むサーバーであって、
    前記一つ以上のプログラムが前記一つ以上のプロセッサによって実行される場合に、請求項1〜12のいずれか1項に記載の方法が前記一つ以上のプロセッサにより実施される、サーバー。
  26. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
    前記プログラムがプロセッサによって実行される場合に、請求項1〜12のいずれか1項に記載の方法が実施される、コンピュータ可読記憶媒体。
JP2019052669A 2018-06-08 2019-03-20 ビデオを処理する方法及び装置 Active JP6986527B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810585416.2 2018-06-08
CN201810585416.2A CN110582025B (zh) 2018-06-08 2018-06-08 用于处理视频的方法和装置

Publications (2)

Publication Number Publication Date
JP2019212290A true JP2019212290A (ja) 2019-12-12
JP6986527B2 JP6986527B2 (ja) 2021-12-22

Family

ID=65812227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019052669A Active JP6986527B2 (ja) 2018-06-08 2019-03-20 ビデオを処理する方法及び装置

Country Status (5)

Country Link
US (1) US10824874B2 (ja)
EP (1) EP3579140A1 (ja)
JP (1) JP6986527B2 (ja)
KR (2) KR20190139751A (ja)
CN (1) CN110582025B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022542206A (ja) * 2020-06-28 2022-09-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド インターネットミームの生成方法及び装置、電子装置並びに媒体

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149530B (zh) * 2018-06-15 2021-08-24 腾讯科技(深圳)有限公司 一种视频处理方法和装置
CN111126388B (zh) * 2019-12-20 2024-03-29 维沃移动通信有限公司 图像识别的方法及电子设备
CN111177470B (zh) * 2019-12-30 2024-04-30 深圳Tcl新技术有限公司 视频的处理方法、视频的搜索方法及终端设备
CN111416997B (zh) * 2020-03-31 2022-11-08 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和存储介质
CN111522970A (zh) * 2020-04-10 2020-08-11 广东小天才科技有限公司 习题推荐方法、装置、设备及存储介质
CN111626202B (zh) * 2020-05-27 2023-08-29 北京百度网讯科技有限公司 用于识别视频的方法及装置
CN111767796B (zh) * 2020-05-29 2023-12-15 北京奇艺世纪科技有限公司 一种视频关联方法、装置、服务器和可读存储介质
CN111711869B (zh) * 2020-06-24 2022-05-17 腾讯科技(深圳)有限公司 一种标签数据处理方法、装置以及计算机可读存储介质
CN114095738A (zh) * 2020-07-30 2022-02-25 京东方科技集团股份有限公司 视频及直播处理方法、直播系统、电子设备、终端、介质
CN111914102A (zh) * 2020-08-27 2020-11-10 上海掌门科技有限公司 编辑多媒体数据的方法、电子设备和计算机存储介质
CN111970532B (zh) * 2020-08-27 2022-07-15 网易(杭州)网络有限公司 视频播放方法、装置及设备
WO2022061806A1 (zh) * 2020-09-27 2022-03-31 深圳市大疆创新科技有限公司 影片生成方法、终端设备、拍摄设备及影片生成系统
CN112541094A (zh) * 2020-12-21 2021-03-23 深圳市前海手绘科技文化有限公司 一种动画视频平台视频素材记录方法与装置
CN112738556B (zh) * 2020-12-22 2023-03-31 上海幻电信息科技有限公司 视频处理方法及装置
CN113297416A (zh) * 2021-05-21 2021-08-24 北京大米科技有限公司 视频数据存储方法、装置、电子设备和可读存储介质
CN113347491A (zh) * 2021-05-24 2021-09-03 北京格灵深瞳信息技术股份有限公司 一种视频剪辑方法、装置、电子设备和计算机存储介质
CN113343827A (zh) * 2021-05-31 2021-09-03 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN113329261B (zh) * 2021-08-02 2021-12-07 北京达佳互联信息技术有限公司 视频处理方法及装置
CN114205653A (zh) * 2021-12-06 2022-03-18 广东飞翔云计算有限公司 一种基于大数据的预览视频推送方法、装置、设备及存储介质
CN114697702B (zh) * 2022-03-23 2024-01-30 咪咕文化科技有限公司 音视频标记方法、装置、设备及存储介质
CN115460459B (zh) * 2022-09-02 2024-02-27 百度时代网络技术(北京)有限公司 基于ai的视频生成方法、装置和电子设备
CN115205766A (zh) * 2022-09-16 2022-10-18 北京吉道尔科技有限公司 基于区块链的网络安全异常视频大数据检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007043679A (ja) * 2005-06-30 2007-02-15 Hitachi Ltd 送信装置,受信装置及び通信システム
JP2009260762A (ja) * 2008-04-18 2009-11-05 Panasonic Corp ダイジェスト作成装置
JP2011130064A (ja) * 2009-12-16 2011-06-30 Sony Corp 情報処理装置および方法、並びにプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2007043679A1 (ja) 2005-10-14 2009-04-23 シャープ株式会社 情報処理装置およびプログラム
US8351768B2 (en) * 2009-07-23 2013-01-08 Microsoft Corporation Media processing comparison system and techniques
US20120158686A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Image Tag Refinement
KR101236262B1 (ko) 2011-04-07 2013-02-26 (주) 프람트 모바일 콘텐츠 태그 생성 시스템 및 그 방법
CN104469508B (zh) * 2013-09-13 2018-07-20 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统
US10521671B2 (en) * 2014-02-28 2019-12-31 Second Spectrum, Inc. Methods and systems of spatiotemporal pattern recognition for video content development
US9643722B1 (en) * 2014-02-28 2017-05-09 Lucas J. Myslinski Drone device security system
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
TW201624320A (zh) 2014-12-30 2016-07-01 富智康(香港)有限公司 影像片段搜尋方法及系統
CN105100892B (zh) * 2015-07-28 2018-05-15 努比亚技术有限公司 视频播放装置及方法
US20170139933A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Electronic Device, And Computer-Readable Storage Medium For Quickly Searching Video Segments
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
CN107027060A (zh) * 2017-04-18 2017-08-08 腾讯科技(深圳)有限公司 视频片段的确定方法和装置
CN108024143A (zh) * 2017-11-03 2018-05-11 国政通科技股份有限公司 一种智能的视频数据处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007043679A (ja) * 2005-06-30 2007-02-15 Hitachi Ltd 送信装置,受信装置及び通信システム
JP2009260762A (ja) * 2008-04-18 2009-11-05 Panasonic Corp ダイジェスト作成装置
JP2011130064A (ja) * 2009-12-16 2011-06-30 Sony Corp 情報処理装置および方法、並びにプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022542206A (ja) * 2020-06-28 2022-09-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド インターネットミームの生成方法及び装置、電子装置並びに媒体
JP7297084B2 (ja) 2020-06-28 2023-06-23 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド インターネットミームの生成方法及び装置、電子装置並びに媒体

Also Published As

Publication number Publication date
JP6986527B2 (ja) 2021-12-22
EP3579140A1 (en) 2019-12-11
US10824874B2 (en) 2020-11-03
KR102394756B1 (ko) 2022-05-04
CN110582025B (zh) 2022-04-01
US20190377956A1 (en) 2019-12-12
CN110582025A (zh) 2019-12-17
KR20190139751A (ko) 2019-12-18
KR20210053825A (ko) 2021-05-12

Similar Documents

Publication Publication Date Title
JP2019212290A (ja) ビデオを処理する方法及び装置
CN107609152B (zh) 用于扩展查询式的方法和装置
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN112533051B (zh) 弹幕信息显示方法、装置、计算机设备和存储介质
CN108989882B (zh) 用于输出视频中的音乐片段的方法和装置
CN109543058B (zh) 用于检测图像的方法、电子设备和计算机可读介质
US20100250554A1 (en) Adding and processing tags with emotion data
CN110069698B (zh) 信息推送方法和装置
CN109582825B (zh) 用于生成信息的方法和装置
KR20190011829A (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
CN109036397B (zh) 用于呈现内容的方法和装置
CN109271556B (zh) 用于输出信息的方法和装置
JP2020024674A (ja) 情報をプッシュするための方法及び装置
CN113806588B (zh) 搜索视频的方法和装置
JP6337183B1 (ja) テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置
CN112818224B (zh) 信息推荐方法、装置、电子设备及可读存储介质
CN113779381B (zh) 资源推荐方法、装置、电子设备和存储介质
CN111400586A (zh) 群组展示方法、终端、服务器、系统及存储介质
CN116821475B (zh) 基于客户数据的视频推荐方法、装置及计算机设备
CN107977678A (zh) 用于输出信息的方法和装置
CN110737824B (zh) 内容查询方法和装置
WO2020042377A1 (zh) 用于输出信息的方法和装置
CN111723235B (zh) 音乐内容识别方法、装置及设备
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
JP2019008779A (ja) テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210616

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210616

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20210629

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210812

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211129

R150 Certificate of patent or registration of utility model

Ref document number: 6986527

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150