JP2021192503A - ビデオを解説するための方法及び装置 - Google Patents

ビデオを解説するための方法及び装置 Download PDF

Info

Publication number
JP2021192503A
JP2021192503A JP2021051811A JP2021051811A JP2021192503A JP 2021192503 A JP2021192503 A JP 2021192503A JP 2021051811 A JP2021051811 A JP 2021051811A JP 2021051811 A JP2021051811 A JP 2021051811A JP 2021192503 A JP2021192503 A JP 2021192503A
Authority
JP
Japan
Prior art keywords
information
video frame
text
processed
text description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021051811A
Other languages
English (en)
Other versions
JP7280908B2 (ja
Inventor
フォン、ポーハオ
Bohao Feng
チャン、シアオショアイ
Xiaoshuai Zhang
チェン、シンポー
Xingbo Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021192503A publication Critical patent/JP2021192503A/ja
Application granted granted Critical
Publication of JP7280908B2 publication Critical patent/JP7280908B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ビデオを解説するための方法及び装置を提供する。【解決手段】ビデオを解説するための方法200は、処理対象ビデオフレームのコンテンツ情報を取得するステップ201と、コンテンツ情報に基づいて、処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するステップ202と、テキスト記述情報を事前トレーニング済みの、テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、テキスト記述情報と対応する解説テキスト情報が得られるステップ203と、解説テキスト情報をオーディオ情報に変換するステップ204と、を含む。【選択図】図2

Description

本開示の実施例は、コンピューター技術分野に関し、具体的には、ビデオを解説するための方法及び装置に関する。
スマートデバイスの大規模な使用及びネットワーク技術の進歩に伴い、様々な種類のビデオ(例えば、フットボールビデオ、バスケットボールビデオ、テニスボールビデオなど)がネットワーク上で広く普及している。相応的に、視聴者がビデオコンテンツを理解できるように、ビデオコメンテーターがビデオコンテンツを解説する必要がある。
本開示の実施例はビデオを解説するための方法及び装置を提供する。
本開示の第1の態様によれば、ビデオを解説するための方法であって、処理対象ビデオフレームのコンテンツ情報を取得するステップと、前記コンテンツ情報に基づいて、前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するステップと、前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップと、前記解説テキスト情報をオーディオ情報に変換するステップとを含む、方法を提供する。
幾つかの実施例において、上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるステップを含む。
幾つかの実施例において、上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するステップと、前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップとを含む。
幾つかの実施例において、上述した前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップは、前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するステップと、前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するステップと、前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するステップとを含む。
幾つかの実施例において、上述した前記コンテンツ情報に基づいてテキスト記述情報を構築するステップは、前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するステップと、前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するステップと、前記文成分に基づいてワードスロットを含む文型を選択するステップと、前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるステップとを含む。
幾つかの実施例において、上述した前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップは、前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するステップと、前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するステップと、前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるステップを含む。
幾つかの実施例において、上述した方法は、前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するステップを更に含む。
本開示の第2の態様によれば、ビデオを解説するための装置であって、処理対象ビデオフレームのコンテンツ情報を取得するように構成されたコンテンツ情報取得ユニットと、前記コンテンツ情報に基づいて前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するように構成されたテキスト記述情報構築ユニットと、前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるように構成された解説テキスト情報取得ユニットと、前記解説テキスト情報をオーディオ情報に変換するように構成されたオーディオ変換ユニットと、を備える、装置を提供する。
幾つかの実施例において、前記コンテンツ情報取得ユニットは、前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるように構成された第1のコンテンツ情報取得サブユニットを備える。
幾つかの実施例において、前記コンテンツ情報取得ユニットは、前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するように構成されたターゲット画像決定サブユニットと、前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するように構成された第2のコンテンツ情報取得サブユニットとを含む。
幾つかの実施例において、前記第2のコンテンツ情報取得サブユニットは、前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するように構成された位置情報取得モジュールと、前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するように構成された対応関係確立モジュールと、前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するように構成されたコンテンツ情報取得モジュールとを備える。
幾つかの実施例において、前記テキスト記述情報構築ユニットは、前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するように構成された品詞照会サブユニットと、前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するように構成された文成分決定サブユニットと、前記文成分に基づいて、ワードスロットを含む文型を選択するように構成された文型選択サブユニットと、前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるように構成されたテキスト記述情報取得サブユニットと、を備える。
幾つかの実施例において、前記解説テキスト情報取得ユニットは、前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するように構成されたシーンタイプ情報照会サブユニットと、前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するように構成されたシーン文型決定サブユニットと、前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるように構成された解説テキスト情報取得サブユニットと、を備える。
幾つかの実施例において、上述した装置は、前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するように構成されたタイムマッチング関係確立ユニットを更に備える。
本開示の第3の態様によれば、電子機器であって、1つ又は複数のプロセッサと、一つまたは複数のコンピュータプログラムが記憶されたメモリと、を備え、前記1つまたは複数のコンピュータプログラムが前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに、上記第1の態様に記載の方法を実行させる、電子機器を提供する。
本開示の第4の態様によれば、コンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラムがプロセッサにより実行されると、上記第1の態様に記載の方法を実現させるコンピュータ読み取り可能な記録媒体を提供する。
本開示の第5の態様によれば、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、上記第1の態様に記載の方法を実現させるコンピュータプログラムを提供する。
本開示の実施例が提供するビデオを解説するための方法及び装置は、まず、処理対象ビデオフレームのコンテンツ情報を取得することによって、処理対象ビデオフレームの理解に有利である。その後、前記コンテンツ情報に基づいて、テキスト記述情報を構築することによって、情報によるビデオの記述を実現する。そして、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートし、前記テキスト記述情報と対応する解説テキスト情報が得られることによって、ビデオ解説に対する適切性(狙い性)を向上する。最後に、前記解説テキスト情報をオーディオ情報に変換する。本出願はビデオに対する音声解説を実現し、ビデオの解説効率を向上する。
なお、この部分に記載の内容は、本開示の実施例のキーポイント又は重要な特徴を特定することも意図していなく、本開示の範囲を限定するために用いられない。本開示の他の構成は、以下に記載の明細書によって容易に理解される。
添付の図面は、本出願発明をよりよく理解するために使用され、本出願を限定するものではない。
本出願に係る第1の実施例の模式図である。 本出願に係る第2の実施例の模式図である。 本出願に係る第3の実施例の模式図である。 本出願に係る第4の実施例の模式図である。 本出願の実施例に係るビデオを解説するための方法を実現するための電子機器のブロック図である。 本開示の実施例を実現するのに適した電子機器の概略構成図である。
以下、添付の図面と併せて本出願の例示的な実施例を説明する。なお、本出願実施例に含まれた様々な詳細は、ただ理解を容易にするための一例であることを理解されたい。従って、当業者は、ここで記載の実施例が本出願の範囲や要旨を逸脱しない限り、種々な置き換え、変更を行うことができることを認識すべきである。同様に、明確さと簡潔さのために、以下に既知の機能と構成に関する説明を省略する。
図1には、本開示の実施例に係るビデオを解説するための方法、または、ビデオを解説するための装置を適用できる例示的なシステムアーキテクチャ100を示す図である。
図1に示されたように、システムアーキテクチャ100は、端末機器101、102、103、ネットワーク104、サーバ105とを含むことができる。ネットワーク104は、端末機器101、102、103とサーバ105との間で通信リンクを提供するための媒体である。ネットワーク104には、有線又は無線通信回線、光ファイバケーブル等の各種の接続形態が含まれていてもよい。
端末機器101、102、103は、ネットワーク104を介してサーバ105とインタラクションをすることによって、メッセージなどを送受信する。端末機器101、102、103には、例えば、ビデオ放送アプリケーション、ビデオプラグインアプリケーション、ビデオ変換アプリケーション等、様々なビデオクライアントアプリケーションをインストールすることができる。
端末機器101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末機器101、102、103は、ハードウェアである場合、ディスプレイスクリーンを有するとともにビデオ放送を支持可能な様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ノート型携帯コンピュータ及びデスクトップコンピュータ等を含むがこれらに限定されない。端末機器101、102、103は、ソフトウェアである場合、上記に例示した電子機器にインストールすることができる。端末機器は、複数のソフトウェア又はソフトウェアモジュール(例えば分散サービスを提供するために用いられる)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよいが、ここで具体的に限定されない。
サーバ105は、様々なサービスを提供するサーバであってもよく、例えば、端末機器101、102、103にビデオサーバを提供するものであってもよい。サーバは、受信したビデオに解説オーディオを添加し、解説オーディオが添加されたビデオを端末機器に発送することができる。
説明すべきなのは、本開示の実施例が提供するビデオを解説するための方法は、一般的にサーバ105によって実行される。相応的に、ビデオを解説するための装置は、一般的にサーバ105に設けられる。
説明すべきなのは、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバはハードウェアである場合、複数のサーバで構成される分散型サーバクラスタとして実現されてもよく、また単一のサーバとして実現されてもよい。サーバは、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば分散サービスを提供するために用いられる)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよいが、ここで具体的に限定されない。
なお、図1に示した端末機器、ネットワークとサーバの数はただ一例であることを理解されたい。実際のニーズに応じて、任意の数の端末機器、ネットワークとサーバを備えることができる。
次に、図2を参照する。図2に、本開示に係るビデオを解説するための方法の一実施例のフロー200が示される。当該ビデオを解説するための方法は、以下のステップを含む。
ステップ201において、処理対象ビデオフレームのコンテンツ情報を取得する。
本実施例においてビデオを解説するための方法の実行主体(例えば図1に示すサーバ105)は、有線接続又は無線接続により処理対象ビデオフレームを取得する。なお、前記の無線接続は、3G/4G接続、WiFi接続、ブルートゥース(登録商標)接続、WiMAX接続、Zigbee接続、UWB(Ultra Wideband)接続、及びその他の既知又は将来に開発される無線接続方式を含むがこれらに限定されない。
実行主体は、ネットワークまたは他の機器から処理対象ビデオフレームを取得することができる。そのうち、処理対象ビデオフレームは、記録したビデオではないビデオフレームであってもよい、リアルタイムビデオのビデオフレームであってもよい。実行主体は、様々な方法により処理対象ビデオフレームにおけるコンテンツ情報を取得することができる。よって、処理対象ビデオフレームの理解に有利である。例えば、実行主体は、ビデオにおけるオーディオ情報を翻訳したり、ビデオにおけるオーディオをテキスト情報に変換したりすることができる。相応的に、オーディオ情報及びテキスト情報はコンテンツ情報としている。
ステップ202において、前記コンテンツ情報に基づいてテキスト記述情報を構築する。
コンテンツ情報が得られた後、実行主体は、自然言語処理などにより、コンテンツ情報をテキスト記述情報として構築することができる。即ち、前記テキスト記述情報は、前記処理対象ビデオフレームのコンテンツを記述するために用いられる。このように、情報によるビデオの記述が実現される。
ステップ203において、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートし、前記テキスト記述情報と対応する解説テキスト情報が得られる。
テキスト記述情報が得られた後、実行主体は、テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートし、前記テキスト記述情報と対応する解説テキスト情報が得られる。そのうち、前記テキスト記述情報を解説テキスト情報に変換するための前記テキスト変換モデルによっては、ビデオ解説に対する適切性を向上する。テキスト変換モデルは、情報変換を実現する既知のディープラーニングネットワークなどのインテリジェントネットワークであってもよい。
ステップ204において、前記解説テキスト情報をオーディオ情報に変換する。
実行主体は、テキスト変換オーディオなどの方法により、解説テキスト情報をオーディオ情報に変換することができる。なお、オーディオ情報は処理対象ビデオフレームの解説情報である。このように、ビデオに対する音声解説を実現し、ビデオの解説効率を向上する。
次に、図3を参照する。図3に、本開示に係るビデオを解説するための方法の一実施例のフロー300が示されている。上記したビデオを解説するための方法は、以下のステップを含む。
ステップ301において、処理対象ビデオフレームのコンテンツ情報を取得する。
ステップ301の内容はステップ201の内容と同じであるので、ここでは説明を省略する。
本実施例の幾つかの選択可能な実現形態において、上記した処理対象ビデオフレームのコンテンツ情報を取得するステップは、前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、コンテンツ情報が得られるステップを更に含んでも良い。
処理対象ビデオフレームが一つのビデオフレームである場合、実行主体は、当該処理対象ビデオフレームに対して画像識別を行い、処理すべき対象ビデオフレームのコンテンツ情報が得られる。処理対象ビデオフレームは一つだけであり、かつ画像識別により当該処理対象ビデオフレームにおける人物画像、ボール画像、動物画像などを識別できるため、当該処理対象ビデオフレームのコンテンツ情報が人物情報(例えば名前、性別など)、ビデオタイプ情報(フットボールビデオ、バスケットボールビデオ、テニスボールビデオなど)であることを決定することができる。異なる処理対象ビデオフレームについて、対応するコンテンツ情報は異なっても良い。即ち、前記コンテンツ情報は、ビデオタイプ情報、人物情報のいずれか一つを含んでもよい。このように、処理対象ビデオフレームの静的情報の取得を実現する。
本実施例の幾つかの選択可能な実現形態において、上記した処理対象ビデオフレームのコンテンツ情報を取得するステップは、以下のステップを含む。
第1のステップにおいて、前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定する。
処理対象ビデオフレームが複数のビデオフレームである場合、処理対象ビデオフレームから人物情報などの静的情報を取得するだけでなく、関連する動的情報も取得することができる。なお、実際に、実行主体が得られた複数の連続するビデオフレームは、通常にリアルタイムで取得される複数の連続するビデオフレーム、又は履歴ビデオにおいて連続するビデオフレームであることを留意されたい。このために、実行主体は、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定する。そのうち、ターゲット画像は、人物画像や動物画像などの可動物体の画像であってもよい。
第2のステップにおいて、前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得する。
ターゲット画像を決定した後、実行主体は、処理対象ビデオフレームにおける各ターゲット画像の画像情報を取得し、ターゲット画像の運動情報を決定することができる。このように、処理対象ビデオフレームの動的情報の取得を実現する。
本実施例の幾つかの選択可能な実現形態において、前記した前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップは、以下のステップを含む。
第1のステップにおいて、前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得する。
ターゲット画像の正確な運動情報を取得するために、実行主体は、ターゲット画像にマーカーポイントを設定することができる。マーカーポイントの数は、実際のニーズにより決定される。マーカーポイントがターゲット画像の特徴的な位置に設定される。例えば、ターゲット画像が人物画像である場合、人物画像の手や足等の、運動を反映しやすい特徴位置にマーカーポイントを設定することができる。マーカーポイントを設定した後、処理対象ビデオフレームにおけるマーカーポイントの位置情報を取得することができる。
第2のステップにおいて、前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立する。
各処理対象ビデオフレームにはいずれも対応するタイムスタンプがあり、実行主体は、処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立することができる。それにより、時間の経過に伴うマーカーポイントの変化情報を確定する。処理対象ビデオフレームに時間情報が無い場合、実行主体は、現地時間情報、または処理対象ビデオフレーム間の時系列等により処理対象ビデオフレームのために時間情報を設定することもできる。
第3のステップにおいて、前記時間情報と対応する時系列と前記対応関係に従ってコンテンツ情報を決定する。
対応関係を確立した後、実行主体は、時系列に従って、各マーカーポイントの経時変化情報を決定し、コンテンツ情報が得られる。この時、前記コンテンツ情報は、アクション情報を含んでも良い。ここで、処理対象ビデオフレームにおける各マーカーポイントの変化情報を個別に取得する場合、コンテンツ情報は各マーカーポイントと対応するアクション情報であってもよい。取得されたのはマーカーポイント間の相対変化情報である場合、コンテンツ情報はターゲット物体のアクション情報であってもよい。このように、ビデオに対する動的解説を実現する。
ステップ302において、前記コンテンツ情報に基づいてテキスト記述情報を構築する。
ステップ302の内容はステップ202の内容と同じであるので、ここでは説明を省略する。
本実施例の幾つかの選択可能な実現形態において、前記した前記コンテンツ情報に基づいてテキスト記述情報を構築するステップは、以下のステップを含む。
第1のステップにおいて、前記コンテンツ情報の品詞情報を照会する。
テキスト記述情報を構築するために、実行主体は、まずコンテンツ情報の品詞情報を照会することができる。前記品詞情報は、名詞、動詞の少なくとも一つを含む。例えば、コンテンツ情報は、「プレーヤーA」、「フットボール」、「ゴール内」であってもよい。対応する品詞情報は名詞、名詞、名詞である。
第2のステップにおいて、前記品詞情報と対応する文成分を決定する。
品詞情報を決定した後、実行主体は、品詞情報の文成分を更に決定する。そのうち、前記文成分は、主語、述語、目的語等の少なくとも一つを含む。例えば、コンテンツ情報は、「プレーヤーA」、「フットボール」、「ゴール内」であってもよい。対応する品詞情報は名詞、名詞、名詞である。「プレーヤーA」、「フットボール」、「ゴール内」はいずれも主語又は目的語としてもよい。フットボール運動の実際の状況によれば、実行主体は、「プレーヤーA」を主語として、「フットボール」を目的語として、「ゴール内」を補語とすることができる。
第3のステップにおいて、前記文成分に基づいて文型を選択する。
前記文成分を決定した後、実行主体は、文成分に基づいて、対応する文型を選択することができる。前記文型はワードスロットを含んでも良い。例えば、文型は、主語+述語+目的語+補語であってもよい。フットボール運動を考慮すると、述語は「蹴る」として事前に決定することができ、また補語である「ゴール内」があるため、述語は「蹴り込む」にすることができる。対応する文型は、主語+「蹴り込む」+目的語+補語にすることができる。相応的に、当該文型における「主語」、「目的語」、「補語」は、記入対象とするワードスロットであり得る。
第4のステップにおいて、前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られる。
文型を得た後、実行主体は、コンテンツ情報を対応するワードスロットに添加してテキスト記述情報が得られる。このように、処理対象ビデオフレームに対するテキスト記述を実現する。
ステップ303において、前記テキスト記述情報と対応するシーンタイプ情報を照会する。
テキスト記述情報は、前記処理対象ビデオフレームのコンテンツを記述するために用いられる。従って、実行主体は、テキスト記述情報により処理対象ビデオフレームと対応するシーンタイプ情報を照会することができ、テキスト記述情報と対応するシーンタイプ情報と見なすこともできる。そのうち、前記シーンタイプ情報は、前記処理対象ビデオフレームと対応するシーンを特徴付けるために用いられる。例えば、テキスト記述情報は、「プレーヤーAがプレーヤーBにフットボールを蹴る」であってもよい。実行主体がテキスト記述情報に「フットボール」が含まれるとともに「プレーヤーA」「蹴る」「プレーヤーB」であることを検出し、実行主体は、シーンタイプ情報が「フットボール運動」であると決定する。異なる処理対象ビデオフレームについて、対応するシーンタイプ情報は、「バスケットボール運動」、「テニスボール運動」などであってもよい。
ステップ304において、前記シーンタイプ情報に基づいてシーン文型を決定する。
バスケットボール運動では、常用の記述テキストには「プレーヤーAがプレーヤーBを支援し、プレーヤーBがダンクする」等があり、フットボール運動では、常用の記述テキストには、「プレーヤーAが左からプレーヤーBにクロスし、プレーヤーBがドリブルしてシュートする」等がある。そのうち、“プレーヤーAがプレーヤーBを支援し、プレーヤーBがダンクする”は、バスケットボール運動シーンで対応するシーン文型と見なすことができる。「プレーヤーAが左からプレーヤーBにクロスし、プレーヤーBがドリブルしてシュートする」はフットボール運動シーンで対応するシーン文型と見なすことができる。即ち、異なるシーンは、異なるシーン文型と対応する。前記シーン文型は、前記シーンを記述するために用いられる。相応的に、「支援」、「ダンク」は、バスケットボール運動シーンでの慣用記述詞と見なすことができる。「左からクロスする」「ドリブルしてシュート」「シュート」 は、フットボール運動シーンでの慣用記述詞と見なすことができるので、シーン文型は、前記シーンと対応する慣用記述詞を含んでも良い。このように、処理対象ビデオフレームを狙って記述するのに有利である。
ステップ305において、前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られる。
シーン文型を決定した後、実行主体は、テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られる。説明すべきなのは、実行主体は、テキスト記述情報を前記シーン文型に添加するときに、テキスト記述情報の一部を選択したり、テキスト記述情報における情報を変換した後に解説テキストが得られたりすることができる。例えば、テキスト記述情報は、「プレーヤーAがプレーヤーBにフットボールを蹴る」。対応するフットボール運動シーンのシーン文型は、「プレーヤーAが左からプレーヤーBにクロスする」であってもよい。そのうち、シーン文型における「プレーヤーA」と「プレーヤーB」はテキスト記述情報における「プレーヤーA」と「プレーヤーB」からシーン文型に直接に添加されると見なすことができる。シーン文型における「左からクロスする」とは、フットボール運動シーンに基づいてテキスト記述情報における「蹴る」に変換することに同意することで得られたものと見なすことができる。このように、情報によるシーンの変換を実現し、処理対象ビデオフレームを絞って記述することができる。
ステップ306において、前記解説テキスト情報をオーディオ情報に変換する。
ステップ306の内容はステップ204の内容と同じであるので、ここでは説明を省略する。
さらに図4を参照し、図4にビデオを解説するための方法の他の実施例のフロー400が示されている。上述したビデオを解説するための方法のフロー400は、以下のステップを含む。
ステップ401において、処理対象ビデオフレームのコンテンツ情報を取得する。
ステップ401の内容はステップ201の内容と同じであるので、ここでは説明を省略する。
ステップ402において、前記コンテンツ情報に基づいてテキスト記述情報を構築する。
ステップ402の内容はステップ202の内容と同じであるので、ここでは説明を省略する。
ステップ403において、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートし、前記テキスト記述情報と対応する解説テキスト情報が得られる。
ステップ403の内容はステップ203の内容と同じであるので、ここでは説明を省略する。
ステップ404において、前記解説テキスト情報をオーディオ情報に変換する。
ステップ404の内容はステップ204の内容と同じであるので、ここでは説明を省略する。
ステップ405において、前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立する。
オーディオ情報を得るプロセスにはある程度の時間がかかる。処理対象ビデオフレームをオーディオラグ画像なしでユーザに見せるために、実行主体は、処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立することによって、処理対象ビデオフレームを前記オーディオ情報とともに時間的に同期させることができる。このように、ビデオ解説の精度と有効性が向上する。
さらに図5を参照し、上図に示す方法による実現形態として、本開示がビデオを解説するための装置の一実施例を提供する。当該装置実施例は、図2に示す方法実施例に対応し、当該装置は様々な電子機器に適用できる。
図5に示されたように、本実施例に係るビデオを解説するための装置500は、コンテンツ情報取得ユニット501、テキスト記述情報構築ユニット502、解説テキスト情報取得ユニット503、オーディオ変換ユニット504を含むことができる。そのうち、前記コンテンツ情報取得ユニット501は、処理対象ビデオフレームのコンテンツ情報を取得するように構成されたものであり、前記テキスト記述情報構築ユニット502は、前記コンテンツ情報に基づいて前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するように構成されたものであり、前記解説テキスト情報取得ユニット503は、前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるように構成されたものであり、前記オーディオ変換ユニット504は、前記解説テキスト情報をオーディオ情報に変換するように構成されたものである。
本実施例の幾つかの選択可能な実現形態において、前記コンテンツ情報取得ユニット501は、前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、コンテンツ情報が得られるように構成された第1のコンテンツ情報取得サブユニット(図示せず)を含んでも良い。前記コンテンツ情報は、ビデオタイプ情報、人物情報の少なくとも一つを含む。
本実施例の幾つかの選択可能な実現形態において、前記コンテンツ情報取得ユニット501は、ターゲット画像決定サブユニット(図示せず)と第2のコンテンツ情報取得サブユニット(図示せず)を含んでも良い。そのうち、前記ターゲット画像決定サブユニットは、前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するように構成されたものであり、前記第2のコンテンツ情報取得サブユニットは、前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するように構成されたものである。
本実施例の幾つかの選択可能な実現形態において、前記第2のコンテンツ情報取得サブユニットは、位置情報取得モジュール(図示せず)、対応関係確立モジュール(図示せず)、コンテンツ情報取得モジュール(図示せず)を含んでも良い。そのうち、前記位置情報取得モジュールは、前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するように構成されたものであり、前記対応関係確立モジュールは、前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するように構成されたものであり、前記コンテンツ情報取得モジュールは、前記時間情報と対応する時系列と前記対応関係に従ってアクション情報を含むコンテンツ情報を決定するように構成されたものである。
本実施例の幾つかの選択可能な実現形態において、前記テキスト記述情報構築ユニット502は、品詞照会サブユニット(図示せず)、文成分決定サブユニット(図示せず)、文型選択サブユニット(図示せず)、テキスト記述情報取得サブユニット(図示せず)を含んでも良い。そのうち、前記品詞照会サブユニットは、前記コンテンツ情報の品詞情報を照会するように構成されたものであり、前記品詞情報は、名詞、動詞の少なくとも一つを含む。また、前記文成分決定サブユニットは、前記品詞情報と対応する文成分を決定するように構成されたものであり、前記文成分は、主語、述語、目的語の少なくとも一つを含む。また、前記文型選択サブユニットは、前記文成分に基づいてワードスロットを含む文型を選択するように構成されたものである。また、前記テキスト記述情報取得サブユニットは、前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるように構成されたものである。
本実施例の幾つかの選択可能な実現形態において、前記解説テキスト情報取得ユニット503は、シーンタイプ情報照会サブユニット(図示せず)、シーン文型決定サブユニット(図示せず)、解説テキスト情報取得サブユニット(図示せず)を含んでも良い。そのうち、前記シーンタイプ情報照会サブユニットは、前記テキスト記述情報と対応するシーンタイプ情報を照会するように構成されたものであり、前記シーンタイプ情報は、前記処理対象ビデオフレームと対応するシーンを特徴付けるために用いられる。また、前記シーン文型決定サブユニットは、前記シーンタイプ情報に基づいてシーン文型を決定するように構成されたものであり、前記シーン文型が前記シーンを記述するためのものであり、前記シーンと対応する慣用記述詞を含む。また、前記解説テキスト情報取得サブユニットは、前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるように構成されたものである。
本実施例の幾つかの選択可能な実現形態において、上記したビデオを解説するための装置500は、前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するように構成されたタイムマッチング関係確立ユニット(図示せず)を更に含む。
本出願の実施例によれば、本出願は電子機器と読み取り可能な記録媒体を更に提供する。
図6に示されたように、本出願の実施例に係るビデオを解説するための方法による電子機器のブロック図である。電子機器は、ラップトップコンピューター、デスクトップコンピューター、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピューター、その他の適切なコンピューターなど、様々な形態のデジタルコンピューターを示すことを目的としている。本明細書に示す部品、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書に記載及び/又は要求とされる本出願の実現を制限することを意図するものではない。
図6に示されたように、当該電子機器は、1つ又は複数のプロセッサ601、メモリ602、及び各部品を接続するための、高速インタフェースと低速インタフェースを含むインタフェースを含む。各部品は、異なるバスにより相互に接続しており、共通のメインボードに設置してもよく、必要に応じて他の方法により設置してもよい。プロセッサは、電子機器内に実行された命令を処理することができ、前記命令は、メモリに記憶された命令或いはメモリにある外部入力/出力装置(例えば、インタフェースに結合された表示機器)にGUIのグラフィック情報を表示させるための命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリと複数のメモリとともに使用することができる。同様、複数の電子機器と接続して、各機器に幾つかの必要とする操作(例えば、サーバアレイ、ブレードサーバのグループ、或いはマルチプロセッサシステム)を提供することができる。図6はプロセッサ601を例として示されている。
メモリ602は、本出願が提供する非一時的コンピュータ読み取り可能な記録媒体である。そのうち、前記メモリに記憶された少なくとも一つのプロセッサによって実行され得る命令によって、前記の少なくとも一つのプロセッサに本出願が提供するビデオを解説するための方法を実行させる。本出願に係る非一時的コンピュータ読み取り可能な記録媒体にコンピュータ命令が記憶され、当該コンピュータ命令はコンピュータに本出願が提供するビデオを解説するための方法を実行させる。
メモリ602は、非一時的コンピュータ読み取り可能な記録媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するために用いられ、例えば、本出願の実施例に係るビデオを解説するための方法と対応するプログラム命令/モジュール(例えば、図5に示すコンテンツ情報取得ユニット501、テキスト記述情報構築ユニット502、解説テキスト情報取得ユニット503、オーディオ変換ユニット504)であってもよい。プロセッサ601は、メモリ602に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することによって、サーバにおける様々な機能アプリケーション及びデータ処理を実行する。よって、前記した方法実施例に係るビデオを解説するための方法を実現する。
メモリ602は、記憶プログラム領域と記憶データ領域を含んでも良く、前記記憶プログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とするアプリケーションプログラムを記憶することができ、前記記憶データ領域は、ビデオを解説するための電子機器の使用によるデータ等を記憶することができる。また、メモリ602は、高速ランダムアクセスメモリを含んでも良く、非一時的メモリを含んでも良く、例えば少なくとも一つ磁気ディスク記憶装置、フラッシュ記憶装置、又は他の非一時的ソリッドステート記憶装置であってもよい。幾つかの実施例において、メモリ602はプロセッサ601に対して遠隔設定されたメモリを選択しても良く、これらの遠隔メモリは、ネットワークを介してビデオを解説するための電子機器に接続することができる。前記ネットワークの一例としてインターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。
ビデオを解説するための方法による電子機器は、入力装置603、出力装置604をさらに含んでも良い。プロセッサ601、メモリ602、入力装置603、出力装置604は、バスまたは他の方法で接続することができる。図6では、バス接続を例として示されている。
入力装置603は、入力された数値、文字情報を受信することができ、ビデオを解説するための電子機器のユーザ設定及び機能制御と関連するキー信号入力を生成することもでき、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置であってもよい。出力装置604は、表示機器、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)等を含むことができる。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、プラズマディスプレイを含むがこれらに限定されていない。幾つかの実施形態において、表示機器はタッチスクリーンであってもよい。
ここで記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実行されることを含み、当該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラム可能なプロセッサは、専用または通用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータと命令を受信し、データと命令を当該記憶システム、当該少なくとも一つの入力装置、当該少なくとも一つの出力装置に転送してもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)には、プログラム可能なプロセッサの機械語命令が含まれ、高レベルのプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブラ/機械語によりこれらのコンピュータプログラムを実行する。本明細書で使用された、「機械読み取り可能な記録媒体」と「コンピュータ読み取り可能な記録媒体」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサのいずれかのコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))に提供するためのものを指し、機器命令を機械読み取り可能な信号として受信するための機器読み取り可能媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサに提供するためのいずれかの信号である。
ユーザとのインタラクションを提供するために、コンピュータにここで記載のシステムと技術を実行することができる。当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)或いはLCD(液晶ディスプレイ)モニター)と、ユーザが当該キーボードと当該ポインティングデバイスにより入力をコンピュータに提供するキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)を備える。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってよく、任意の形式(音響入力、音声入力、または触覚入力を含む)ユーザからの入力を受け取ることができる。
ここで記載のシステムと技術をバックエンド部品を含むコンピューターシステム(例えば、データサーバ)、或いは中間部品を含むコンピューターシステム(例えば、アプリケーションサーバ)、或いはフロントエンド部品を含むコンピューターシステム(例えば、グラフィカルユーザーインターフェース或いはネットワークブラウザを有するユーザコンピュータは、ユーザが当該グラフィカルユーザーインターフェース或いは当該ネットワークブラウザによりここで記載のシステムと技術の実施形態とインタラクションする)、或いはこのバックエンド部品、中間部品、或いはフロントエンド部品の任意の組み合わせのコンピューターシステムで実行してもよい。任意の形式或いは媒体によるデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を相互に接続することができる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)とインターネットを含む。
コンピュータシステムには、クライアントとサーバを含んでも良い。クライアントとサーバは、通常に互いに遠く離れており、通常に通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータで実行された、お互いにクライアントとサーバーの関係を持つコンピュータープログラムによって生成される。本出願の実施例の技術案によれば、まず、処理対象ビデオフレームのコンテンツ情報を取得することによって、処理対象ビデオフレームの理解に有利である。その後、前記コンテンツ情報に基づいてテキスト記述情報を構築することによって、情報によるビデオの記述が実現される。そして、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られることによって、ビデオ解説に対する適切性を向上する。最後に前記解説テキスト情報をオーディオ情報に変更する。本出願はビデオに対する音声解説を実現し、ビデオの解説効率を向上する。
なお、上記に示す様々な形式のフロー、並べ替え、追加又は削除のステップを利用することができることを理解されたい。例えば、本出願に記載の各ステップは、本出願に開示された技術的解決策の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行することができ、これは本明細書に限定されない。
上記した具体的な実施形態は、本出願の範囲を制限するものではない。当業者であれば、設計要件および他の要因に応じて様々な修正、組み合わせ、サブコンビネーションおよび置き換えを行うことができることを理解されたい。本出願の主旨と原則の範囲内で行われた変更、同等の置き換え、改良は、いずれも本出願の範囲内に含まれるものとする。

Claims (17)

  1. ビデオを解説するための方法であって、
    処理対象ビデオフレームのコンテンツ情報を取得するステップと、
    前記コンテンツ情報に基づいて、前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するステップと、
    前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップと、
    前記解説テキスト情報をオーディオ情報に変換するステップと、
    を含む、方法。
  2. 上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、
    前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるステップを含む、
    請求項1に記載の方法。
  3. 上述した処理対象ビデオフレームのコンテンツ情報を取得するステップは、
    前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するステップと、
    前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップと
    を含む、請求項1に記載の方法。
  4. 上述した前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するステップは、
    前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するステップと、
    前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するステップと、
    前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するステップと、
    を含む、請求項3に記載の方法。
  5. 上述した前記コンテンツ情報に基づいてテキスト記述情報を構築するステップは、
    前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するステップと、
    前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するステップと、
    前記文成分に基づいて、ワードスロットを含む文型を選択するステップと、
    前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるステップと、
    を含む、請求項1に記載の方法。
  6. 上述した前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるステップは、
    前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するステップと、
    前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するステップと、
    前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるステップと、
    を含む、請求項1に記載の方法。
  7. 前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するステップを更に含む
    請求項1に記載の方法。
  8. ビデオを解説するための装置であって、
    処理対象ビデオフレームのコンテンツ情報を取得するように構成されたコンテンツ情報取得ユニットと、
    前記コンテンツ情報に基づいて前記処理対象ビデオフレームのコンテンツを記述するためのテキスト記述情報を構築するように構成されたテキスト記述情報構築ユニットと、
    前記テキスト記述情報を事前トレーニング済みの、前記テキスト記述情報を解説テキスト情報に変換するためのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られるように構成された解説テキスト情報取得ユニットと、
    前記解説テキスト情報をオーディオ情報に変換するように構成されたオーディオ変換ユニットと、
    を備える、装置。
  9. 前記コンテンツ情報取得ユニットは、
    前記処理対象ビデオフレームが一つのビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ビデオタイプ情報、人物情報の少なくとも一つを含むコンテンツ情報が得られるように構成された第1のコンテンツ情報取得サブユニットを備える、
    請求項8に記載の装置。
  10. 前記コンテンツ情報取得ユニットは、
    前記処理対象ビデオフレームが複数のビデオフレームである場合に応答し、前記処理対象ビデオフレームに対して画像識別を行い、ターゲット画像を決定するように構成されたターゲット画像決定サブユニットと、
    前記処理対象ビデオフレームにおける前記ターゲット画像内の各ターゲット画像の運動情報を取得するように構成された第2のコンテンツ情報取得サブユニットと、
    を備える、請求項8に記載の装置。
  11. 前記第2のコンテンツ情報取得サブユニットは、
    前記ターゲット画像のためにマーカーポイントを設定するとともに前記処理対象ビデオフレームの各処理対象ビデオフレームにおける前記マーカーポイントの位置情報を取得するように構成された位置情報取得モジュールと、
    前記処理対象ビデオフレームの時間情報と前記位置情報との間の対応関係を確立するように構成された対応関係確立モジュールと、
    前記時間情報と対応する時系列と前記対応関係に従って、アクション情報を含むコンテンツ情報を決定するように構成されたコンテンツ情報取得モジュールと、
    を備える、請求項10に記載の装置。
  12. 前記テキスト記述情報構築ユニットは、
    前記コンテンツ情報の、名詞、動詞の少なくとも一つを含む品詞情報を照会するように構成された品詞照会サブユニットと、
    前記品詞情報と対応する、主語、述語、目的語の少なくとも一つを含む文成分を決定するように構成された文成分決定サブユニットと、
    前記文成分に基づいて、ワードスロットを含む文型を選択するように構成された文型選択サブユニットと、
    前記コンテンツ情報を前記文型のワードスロットに添加してテキスト記述情報が得られるように構成されたテキスト記述情報取得サブユニットと、
    を備える、請求項8に記載の装置。
  13. 前記解説テキスト情報取得ユニットは、
    前記テキスト記述情報と対応する、前記処理対象ビデオフレームと対応するシーンを特徴付けるためのシーンタイプ情報を照会するように構成されたシーンタイプ情報照会サブユニットと、
    前記シーンタイプ情報に基づいて、前記シーンと対応する慣用記述詞を含む、前記シーンを記述するためのシーン文型を決定するように構成されたシーン文型決定サブユニット、
    前記テキスト記述情報を前記シーン文型に添加して解説テキスト情報が得られるように構成された解説テキスト情報取得サブユニットと、
    を備える、請求項8に記載の装置。
  14. 前記処理対象ビデオフレームと前記オーディオ情報とのタイムマッチング関係を確立するように構成されたタイムマッチング関係確立ユニットを更に備える、
    請求項8に記載の装置。
  15. 電子機器であって、
    一つまたは複数のプロセッサと、
    一つまたは複数のコンピュータプログラムが記憶されたメモリと、を備え、
    前記1つまたは複数のコンピュータプログラムが前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに、請求項1〜7のいずれか1項に記載の方法を実行させる、電子機器。
  16. コンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜7のいずれか1項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記録媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜7のいずれか1項に記載の方法を実現させることを特徴とするコンピュータプログラム。
JP2021051811A 2020-05-15 2021-03-25 ビデオを解説するための方法及び装置 Active JP7280908B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010414326.4A CN111538862B (zh) 2020-05-15 2020-05-15 用于解说视频的方法及装置
CN202010414326.4 2020-05-15

Publications (2)

Publication Number Publication Date
JP2021192503A true JP2021192503A (ja) 2021-12-16
JP7280908B2 JP7280908B2 (ja) 2023-05-24

Family

ID=71979384

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021051811A Active JP7280908B2 (ja) 2020-05-15 2021-03-25 ビデオを解説するための方法及び装置

Country Status (5)

Country Link
US (1) US11367284B2 (ja)
EP (1) EP3852383A3 (ja)
JP (1) JP7280908B2 (ja)
KR (1) KR102556567B1 (ja)
CN (1) CN111538862B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766295A (zh) * 2021-04-16 2021-12-07 腾讯科技(深圳)有限公司 一种播放处理方法、装置、设备及存储介质
CN113225615B (zh) * 2021-04-20 2023-08-08 深圳市九洲电器有限公司 电视节目播放方法、终端设备、服务器以及存储介质
CN115376033A (zh) * 2021-05-20 2022-11-22 阿里巴巴新加坡控股有限公司 信息生成方法及装置
CN113517004B (zh) * 2021-06-16 2023-02-28 深圳市中金岭南有色金属股份有限公司凡口铅锌矿 视频生成方法、装置、终端设备及介质
CN113613065B (zh) * 2021-08-02 2022-09-09 北京百度网讯科技有限公司 视频编辑方法、装置、电子设备以及存储介质
CN114329068B (zh) * 2021-08-11 2024-05-31 腾讯科技(深圳)有限公司 一种数据处理方法及装置、电子设备、存储介质
CN114201622B (zh) * 2021-12-13 2023-03-24 北京百度网讯科技有限公司 获取事件信息的方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009201014A (ja) * 2008-02-25 2009-09-03 Sogo Keibi Hosho Co Ltd 要約文作成装置及び要約文作成方法
US20150312649A1 (en) * 2014-04-29 2015-10-29 At&T Intellectual Property I, Lp Method and apparatus for augmenting media content
JP2018117338A (ja) * 2016-12-09 2018-07-26 ザ・ボーイング・カンパニーThe Boeing Company ライブ・ビデオ・フィードにおける自動的なオブジェクトおよびアクティビティの追跡
WO2018216729A1 (ja) * 2017-05-24 2018-11-29 日本放送協会 音声ガイド生成装置、音声ガイド生成方法及び放送システム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3413065B2 (ja) * 1997-07-03 2003-06-03 松下電器産業株式会社 番組情報処理装置
JP2000132550A (ja) * 1998-10-26 2000-05-12 Matsushita Electric Ind Co Ltd 機械翻訳のための中国語生成装置
CN101777043A (zh) * 2009-01-14 2010-07-14 北京思在信息技术有限责任公司 一种文字转换方法及装置
US8736700B2 (en) * 2010-09-30 2014-05-27 Apple Inc. Techniques for synchronizing audio and video data in an image signal processing system
CN102110399B (zh) * 2011-02-28 2016-08-24 北京中星微电子有限公司 一种辅助解说的方法、装置及其系统
KR101627402B1 (ko) * 2014-03-26 2016-06-03 포항공과대학교 산학협력단 자연어를 점진적으로 분석하는 장치와 이를 이용한 적응적인 응답 장치 및 방법
CA3005479A1 (en) * 2015-11-20 2017-05-26 Genetec Inc. Media streaming
US20170316256A1 (en) * 2016-04-29 2017-11-02 Google Inc. Automatic animation triggering from video
US10341744B2 (en) * 2016-06-30 2019-07-02 Nbcuniversal Media, Llc System and method for controlling related video content based on domain specific language models
US10321193B2 (en) * 2016-09-02 2019-06-11 Google Llc Sharing a user-selected video in a group communication
CN107239801B (zh) * 2017-06-28 2020-07-28 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107590252A (zh) * 2017-09-19 2018-01-16 百度在线网络技术(北京)有限公司 用于信息交互的方法及装置
CN107967312A (zh) * 2017-11-21 2018-04-27 广州阿里巴巴文学信息技术有限公司 解说自动生成方法、装置和终端设备
CN110491365A (zh) * 2018-05-10 2019-11-22 微软技术许可有限责任公司 为纯文本文档生成音频
EP4418146A1 (en) * 2018-08-07 2024-08-21 Google Llc Assembling and evaluating automated assistant responses for privacy concerns
CN110826361A (zh) * 2018-08-09 2020-02-21 北京优酷科技有限公司 体育比赛的解说方法及装置
CN110444056A (zh) * 2019-08-15 2019-11-12 湖北纽云教育科技发展有限公司 一种英语对话系统的使用方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009201014A (ja) * 2008-02-25 2009-09-03 Sogo Keibi Hosho Co Ltd 要約文作成装置及び要約文作成方法
US20150312649A1 (en) * 2014-04-29 2015-10-29 At&T Intellectual Property I, Lp Method and apparatus for augmenting media content
JP2018117338A (ja) * 2016-12-09 2018-07-26 ザ・ボーイング・カンパニーThe Boeing Company ライブ・ビデオ・フィードにおける自動的なオブジェクトおよびアクティビティの追跡
WO2018216729A1 (ja) * 2017-05-24 2018-11-29 日本放送協会 音声ガイド生成装置、音声ガイド生成方法及び放送システム

Also Published As

Publication number Publication date
EP3852383A2 (en) 2021-07-21
US11367284B2 (en) 2022-06-21
JP7280908B2 (ja) 2023-05-24
EP3852383A3 (en) 2021-10-20
CN111538862B (zh) 2023-06-20
CN111538862A (zh) 2020-08-14
US20210357653A1 (en) 2021-11-18
KR102556567B1 (ko) 2023-07-18
KR20210036882A (ko) 2021-04-05

Similar Documents

Publication Publication Date Title
JP2021192503A (ja) ビデオを解説するための方法及び装置
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
JP7074964B2 (ja) セッション推奨方法、装置及び電子機器
KR102565659B1 (ko) 정보 생성 방법 및 장치
US20210397947A1 (en) Method and apparatus for generating model for representing heterogeneous graph node
CN113094550B (zh) 视频检索方法、装置、设备和介质
JP7200277B2 (ja) ワードスロットを識別するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR20210118360A (ko) 라벨링 모델을 구축하는 방법, 장치, 전자 기기, 프로그램 및 판독 가능 저장 매체
JP2022505015A (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
JP2021108098A (ja) レビュー情報の処理方法、装置、コンピュータ機器及び媒体
KR20210040329A (ko) 비디오 태그의 생성 방법, 장치, 전자 기기 및 저장 매체
JP7194215B2 (ja) キーポイントの特定方法及び装置、機器、記憶媒体
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
JP2021197156A (ja) 事前トレーニングのセマンティックモデルに基づくモデル改良方法及び装置
US11972219B2 (en) Intent recognition optimization processing method, apparatus, and storage medium
US20200394059A1 (en) Real-time localization
US11531814B2 (en) Method and device for generating modified statement
CN111988384B (zh) 一种信息传输方法、装置、电子设备及存储介质
CN111353070A (zh) 视频标题的处理方法、装置、电子设备及可读存储介质
US20210382918A1 (en) Method and apparatus for labeling data
JP2022020063A (ja) 対話処理方法、装置、電子機器及び記憶媒体
CN111475614B (zh) 知识推理对话方法、装置、电子设备和存储介质
JP2021120899A (ja) ユーザ識別方法、装置、記憶媒体及び電子機器
CN111951788A (zh) 一种语言模型的优化方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221006

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230512

R150 Certificate of patent or registration of utility model

Ref document number: 7280908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150