JP2021192503A - ビデオを解説するための方法及び装置 - Google Patents
ビデオを解説するための方法及び装置 Download PDFInfo
- Publication number
- JP2021192503A JP2021192503A JP2021051811A JP2021051811A JP2021192503A JP 2021192503 A JP2021192503 A JP 2021192503A JP 2021051811 A JP2021051811 A JP 2021051811A JP 2021051811 A JP2021051811 A JP 2021051811A JP 2021192503 A JP2021192503 A JP 2021192503A
- Authority
- JP
- Japan
- Prior art keywords
- information
- video frame
- text
- processed
- text description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 33
- 239000003550 marker Substances 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 230000009471 action Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/26603—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/144—Movement detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
なお、この部分に記載の内容は、本開示の実施例のキーポイント又は重要な特徴を特定することも意図していなく、本開示の範囲を限定するために用いられない。本開示の他の構成は、以下に記載の明細書によって容易に理解される。
説明すべきなのは、本開示の実施例が提供するビデオを解説するための方法は、一般的にサーバ105によって実行される。相応的に、ビデオを解説するための装置は、一般的にサーバ105に設けられる。
Claims (17)
- ビデオを解説するための方法であって、
処理対象ビデオフレームのコンテンツ情報を取得するステップと、
前記コンテンツ情報に基づいて、前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するステップと、
前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップと、
前記解説テキスト情報をオーディオ情報に変換するステップと、
を含む、方法。 - 上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、
前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるステップを含む、
請求項1に記載の方法。 - 上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、
前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するステップと、
前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップと
を含む、請求項1に記載の方法。 - 上述した前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップは、
前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するステップと、
前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するステップと、
前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するステップと、
を含む、請求項3に記載の方法。 - 上述した前記コンテンツ情報に基づいてテキスト記述情報を構築するステップは、
前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するステップと、
前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するステップと、
前記文成分に基づいて、ワードスロットを含む文型を選択するステップと、
前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるステップと、
を含む、請求項1に記載の方法。 - 上述した前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップは、
前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するステップと、
前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するステップと、
前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるステップと、
を含む、請求項1に記載の方法。 - 前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するステップを更に含む
請求項1に記載の方法。 - ビデオを解説するための装置であって、
処理対象ビデオフレームのコンテンツ情報を取得するように構成されたコンテンツ情報取得ユニットと、
前記コンテンツ情報に基づいて前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するように構成されたテキスト記述情報構築ユニットと、
前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるように構成された解説テキスト情報取得ユニットと、
前記解説テキスト情報をオーディオ情報に変換するように構成されたオーディオ変換ユニットと、
を備える、装置。 - 前記コンテンツ情報取得ユニットは、
前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるように構成された第1のコンテンツ情報取得サブユニットを備える、
請求項8に記載の装置。 - 前記コンテンツ情報取得ユニットは、
前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するように構成されたターゲット画像決定サブユニットと、
前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するように構成された第2のコンテンツ情報取得サブユニットと、
を備える、請求項8に記載の装置。 - 前記第2のコンテンツ情報取得サブユニットは、
前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するように構成された位置情報取得モジュールと、
前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するように構成された対応関係確立モジュールと、
前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するように構成されたコンテンツ情報取得モジュールと、
を備える、請求項10に記載の装置。 - 前記テキスト記述情報構築ユニットは、
前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するように構成された品詞照会サブユニットと、
前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するように構成された文成分決定サブユニットと、
前記文成分に基づいて、ワードスロットを含む文型を選択するように構成された文型選択サブユニットと、
前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるように構成されたテキスト記述情報取得サブユニットと、
を備える、請求項8に記載の装置。 - 前記解説テキスト情報取得ユニットは、
前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するように構成されたシーンタイプ情報照会サブユニットと、
前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するように構成されたシーン文型決定サブユニット、
前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるように構成された解説テキスト情報取得サブユニットと、
を備える、請求項8に記載の装置。 - 前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するように構成されたタイムマッチング関係確立ユニットを更に備える、
請求項8に記載の装置。 - 電子機器であって、
一つまたは複数のプロセッサと、
一つまたは複数のコンピュータプログラムが記憶されたメモリと、を備え、
前記1つまたは複数のコンピュータプログラムが前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに、請求項1〜7のいずれか1項に記載の方法を実行させる、電子機器。 - コンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜7のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記録媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜7のいずれか1項に記載の方法を実現させることを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010414326.4A CN111538862B (zh) | 2020-05-15 | 2020-05-15 | 用于解说视频的方法及装置 |
CN202010414326.4 | 2020-05-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021192503A true JP2021192503A (ja) | 2021-12-16 |
JP7280908B2 JP7280908B2 (ja) | 2023-05-24 |
Family
ID=71979384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021051811A Active JP7280908B2 (ja) | 2020-05-15 | 2021-03-25 | ビデオを解説するための方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11367284B2 (ja) |
EP (1) | EP3852383A3 (ja) |
JP (1) | JP7280908B2 (ja) |
KR (1) | KR102556567B1 (ja) |
CN (1) | CN111538862B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113766295A (zh) * | 2021-04-16 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种播放处理方法、装置、设备及存储介质 |
CN113225615B (zh) * | 2021-04-20 | 2023-08-08 | 深圳市九洲电器有限公司 | 电视节目播放方法、终端设备、服务器以及存储介质 |
CN115376033A (zh) * | 2021-05-20 | 2022-11-22 | 阿里巴巴新加坡控股有限公司 | 信息生成方法及装置 |
CN113517004B (zh) * | 2021-06-16 | 2023-02-28 | 深圳市中金岭南有色金属股份有限公司凡口铅锌矿 | 视频生成方法、装置、终端设备及介质 |
CN113613065B (zh) * | 2021-08-02 | 2022-09-09 | 北京百度网讯科技有限公司 | 视频编辑方法、装置、电子设备以及存储介质 |
CN114329068B (zh) * | 2021-08-11 | 2024-05-31 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置、电子设备、存储介质 |
CN114201622B (zh) * | 2021-12-13 | 2023-03-24 | 北京百度网讯科技有限公司 | 获取事件信息的方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009201014A (ja) * | 2008-02-25 | 2009-09-03 | Sogo Keibi Hosho Co Ltd | 要約文作成装置及び要約文作成方法 |
US20150312649A1 (en) * | 2014-04-29 | 2015-10-29 | At&T Intellectual Property I, Lp | Method and apparatus for augmenting media content |
JP2018117338A (ja) * | 2016-12-09 | 2018-07-26 | ザ・ボーイング・カンパニーThe Boeing Company | ライブ・ビデオ・フィードにおける自動的なオブジェクトおよびアクティビティの追跡 |
WO2018216729A1 (ja) * | 2017-05-24 | 2018-11-29 | 日本放送協会 | 音声ガイド生成装置、音声ガイド生成方法及び放送システム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3413065B2 (ja) * | 1997-07-03 | 2003-06-03 | 松下電器産業株式会社 | 番組情報処理装置 |
JP2000132550A (ja) * | 1998-10-26 | 2000-05-12 | Matsushita Electric Ind Co Ltd | 機械翻訳のための中国語生成装置 |
CN101777043A (zh) * | 2009-01-14 | 2010-07-14 | 北京思在信息技术有限责任公司 | 一种文字转换方法及装置 |
US8736700B2 (en) * | 2010-09-30 | 2014-05-27 | Apple Inc. | Techniques for synchronizing audio and video data in an image signal processing system |
CN102110399B (zh) * | 2011-02-28 | 2016-08-24 | 北京中星微电子有限公司 | 一种辅助解说的方法、装置及其系统 |
KR101627402B1 (ko) * | 2014-03-26 | 2016-06-03 | 포항공과대학교 산학협력단 | 자연어를 점진적으로 분석하는 장치와 이를 이용한 적응적인 응답 장치 및 방법 |
CA3005479A1 (en) * | 2015-11-20 | 2017-05-26 | Genetec Inc. | Media streaming |
US20170316256A1 (en) * | 2016-04-29 | 2017-11-02 | Google Inc. | Automatic animation triggering from video |
US10341744B2 (en) * | 2016-06-30 | 2019-07-02 | Nbcuniversal Media, Llc | System and method for controlling related video content based on domain specific language models |
US10321193B2 (en) * | 2016-09-02 | 2019-06-11 | Google Llc | Sharing a user-selected video in a group communication |
CN107239801B (zh) * | 2017-06-28 | 2020-07-28 | 安徽大学 | 视频属性表示学习方法及视频文字描述自动生成方法 |
CN107590252A (zh) * | 2017-09-19 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 用于信息交互的方法及装置 |
CN107967312A (zh) * | 2017-11-21 | 2018-04-27 | 广州阿里巴巴文学信息技术有限公司 | 解说自动生成方法、装置和终端设备 |
CN110491365A (zh) * | 2018-05-10 | 2019-11-22 | 微软技术许可有限责任公司 | 为纯文本文档生成音频 |
EP4418146A1 (en) * | 2018-08-07 | 2024-08-21 | Google Llc | Assembling and evaluating automated assistant responses for privacy concerns |
CN110826361A (zh) * | 2018-08-09 | 2020-02-21 | 北京优酷科技有限公司 | 体育比赛的解说方法及装置 |
CN110444056A (zh) * | 2019-08-15 | 2019-11-12 | 湖北纽云教育科技发展有限公司 | 一种英语对话系统的使用方法 |
-
2020
- 2020-05-15 CN CN202010414326.4A patent/CN111538862B/zh active Active
- 2020-12-09 US US17/117,018 patent/US11367284B2/en active Active
-
2021
- 2021-03-16 KR KR1020210034325A patent/KR102556567B1/ko active IP Right Grant
- 2021-03-25 JP JP2021051811A patent/JP7280908B2/ja active Active
- 2021-03-30 EP EP21165956.0A patent/EP3852383A3/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009201014A (ja) * | 2008-02-25 | 2009-09-03 | Sogo Keibi Hosho Co Ltd | 要約文作成装置及び要約文作成方法 |
US20150312649A1 (en) * | 2014-04-29 | 2015-10-29 | At&T Intellectual Property I, Lp | Method and apparatus for augmenting media content |
JP2018117338A (ja) * | 2016-12-09 | 2018-07-26 | ザ・ボーイング・カンパニーThe Boeing Company | ライブ・ビデオ・フィードにおける自動的なオブジェクトおよびアクティビティの追跡 |
WO2018216729A1 (ja) * | 2017-05-24 | 2018-11-29 | 日本放送協会 | 音声ガイド生成装置、音声ガイド生成方法及び放送システム |
Also Published As
Publication number | Publication date |
---|---|
EP3852383A2 (en) | 2021-07-21 |
US11367284B2 (en) | 2022-06-21 |
JP7280908B2 (ja) | 2023-05-24 |
EP3852383A3 (en) | 2021-10-20 |
CN111538862B (zh) | 2023-06-20 |
CN111538862A (zh) | 2020-08-14 |
US20210357653A1 (en) | 2021-11-18 |
KR102556567B1 (ko) | 2023-07-18 |
KR20210036882A (ko) | 2021-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021192503A (ja) | ビデオを解説するための方法及び装置 | |
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
JP7074964B2 (ja) | セッション推奨方法、装置及び電子機器 | |
KR102565659B1 (ko) | 정보 생성 방법 및 장치 | |
US20210397947A1 (en) | Method and apparatus for generating model for representing heterogeneous graph node | |
CN113094550B (zh) | 视频检索方法、装置、设备和介质 | |
JP7200277B2 (ja) | ワードスロットを識別するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
KR20210118360A (ko) | 라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체 | |
JP2022505015A (ja) | 知識グラフのベクトル表現生成方法、装置及び電子機器 | |
JP2021108098A (ja) | レビュー情報の処理方法、装置、コンピュータ機器及び媒体 | |
KR20210040329A (ko) | 비디오 태그의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
JP7194215B2 (ja) | キーポイントの特定方法及び装置、機器、記憶媒体 | |
JP2021111334A (ja) | 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器 | |
CN111241838B (zh) | 文本实体的语义关系处理方法、装置及设备 | |
JP2021197156A (ja) | 事前トレーニングのセマンティックモデルに基づくモデル改良方法及び装置 | |
US11972219B2 (en) | Intent recognition optimization processing method, apparatus, and storage medium | |
US20200394059A1 (en) | Real-time localization | |
US11531814B2 (en) | Method and device for generating modified statement | |
CN111988384B (zh) | 一种信息传输方法、装置、电子设备及存储介质 | |
CN111353070A (zh) | 视频标题的处理方法、装置、电子设备及可读存储介质 | |
US20210382918A1 (en) | Method and apparatus for labeling data | |
JP2022020063A (ja) | 対話処理方法、装置、電子機器及び記憶媒体 | |
CN111475614B (zh) | 知识推理对话方法、装置、电子设备和存储介质 | |
JP2021120899A (ja) | ユーザ識別方法、装置、記憶媒体及び電子機器 | |
CN111951788A (zh) | 一种语言模型的优化方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210909 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221006 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7280908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |