JP2022510479A - ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体 - Google Patents

ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体 Download PDF

Info

Publication number
JP2022510479A
JP2022510479A JP2021532494A JP2021532494A JP2022510479A JP 2022510479 A JP2022510479 A JP 2022510479A JP 2021532494 A JP2021532494 A JP 2021532494A JP 2021532494 A JP2021532494 A JP 2021532494A JP 2022510479 A JP2022510479 A JP 2022510479A
Authority
JP
Japan
Prior art keywords
data
dot marking
video
dot
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021532494A
Other languages
English (en)
Inventor
振華 王
Original Assignee
ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン) filed Critical ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン)
Publication of JP2022510479A publication Critical patent/JP2022510479A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

ビデオカット方法であって、ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するステップと、カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を含む。

Description

「関連出願の相互参照」
本願は、2018年12月14日に中国知識財産局に出願された、中国特許出願第201811536818X号の「ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体」を名称とする中国特許出願の優先権を主張し、本願の全体が参照によりここに組み込まれる。
本願は、ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体に関するものである。
マルチメディア技術の発展に伴い、ビデオチャット、ビデオ会議、ビデオモニター、ビデオドラマなどのように、情報やリソースをビデオの形で伝達する映画、テレビ、ニュース、ソーシャル、教育、ゲームなどが広く利用され、ビデオは、すでに人々の仕事、学習、生活において重要な部分となっている。
ビデオアプリケーションにおいて、ビデオカット処理が必要なシーンは、例えば、テレビニュースのカット、録画ビデオにおける敏感点除去処理などである。本発明者は、現在、ビデオカット処理について、ドットマーキングを手動で行い、ビデオカットの時間軸位置を決定する必要があり、ビデオカット処理の効率が低いことを意識している。
本願に開示される様々な実施例によれば、ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体を提供する。
ビデオカット方法は、
ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するステップと、
カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を含む。
ビデオカット装置は、
ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するための認識データ抽出モジュールと、
映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するためのドットマーキング認識処理モジュールと、
ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するためのドットマーキング結果取得モジュールと、
ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するためのカット識別子追加モジュールと、
カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するためのビデオカットモジュールと、を含む。
コンピュータ機器は、メモリと1つ又は複数のプロセッサとを含み、前記メモリは、コンピュータ読み取り可能な命令を記憶し、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、
ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するステップと、
カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を前記1つ又は複数のプロセッサに実行させる。
コンピュータ読み取り可能な命令を記憶した1つ又は複数の不揮発性コンピュータ読み取り可能な記憶媒体であって、コンピュータ読み取り可能な命令は、1つ又は複数のプロセッサによって実行されると、
ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するステップと、
カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を1つ又は複数のプロセッサに実行させる。
本願の1つ又は複数の実施例の詳細は、以下の図面及び説明において提示される。本願の他の特徴及び利点は、明細書、図面、及び特許請求の範囲から明らかとなる。
本願の実施例における技術的解決手段をより明確に説明するために、実施例に必要な図面を以下に簡単に紹介するが、明らかに、以下に説明する図面は本願の実施例の一部に過ぎず、当業者にとって、創造的な労働を払うことなく、これらの図面に基づいて他の図面を取得することができる。
1つ又は複数の実施例に係るビデオカット方法が適用されるシーンを示す図である。 1つ又は複数の実施例に係るビデオカット方法の概略フローチャートである。 1つ又は複数の実施例に係るドットマーキングカット命令に応答する概略フローチャートである。 別の実施例に係るビデオカット方法の概略フローチャートである。 1つ又は複数の実施例に係るビデオカット装置の構造のブロック図である。 1つ又は複数の実施例に係るコンピュータ機器の内部構造図である。
本願の技術的解決手段及び利点をより明瞭にするために、以下にて図面及び実施例を組み合わせて本願をさらに詳細に説明する。なお、本明細書に記載された具体的な実施例は、本願を説明するためのものに過ぎず、本願を限定するためのものではないことを理解されたい。
本願にて提供されるビデオカット方法は、図1に示すような応用環境に適用することができる。録画機器102は、ネットワークを介してサーバ104と通信する。録画機器102は、ビデオ録画を行い、録画されたビデオストリームデータをサーバ104に送信し、サーバ104は、ビデオストリームデータから得られた認識対象のビデオデータから映像データとオーディオデータを抽出し、映像データとオーディオデータをそれぞれ対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルに入力し、さらに得られたドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得し、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加し、最後に当該カットドット識別子に応じてビデオストリームデータをカットして、ビデオセグメントデータを取得する。
録画機器102は、各種のビデオ録画カメラであるが、これらに限定されず、パーソナルコンピュータ、ノート型パソコン、スマートフォン、タブレット型パソコン、携帯可能なウェアラブルデバイスなどの、ビデオ録画機能を有する端末であってもよく、サーバ104は、独立したサーバで実現されてもよいし、複数のサーバからなるサーバクラスタで実現されてもよい。
その一実施例において、図2に示すように、ビデオカット方法を提供し、当該方法が図1のサーバ104に適用されることを例にして説明し、以下のステップS201と、ステップS203と、ステップS205と、ステップS207と、ステップS209と、を含む。
ステップS201において、ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出する。
本実施例では、ビデオストリームデータから認識対象のビデオデータを抽出する。ここで、ビデオストリームデータは、カット処理が必要なビデオデータであり、録画機器で録画して得ることができる。例えば、金融産業の面対面チェックの場合、ビデオストリームデータは、デュアルレコーディングプロセスにおいてカメラによってリアルタイムでキャプチャされたビデオデータであってもよい。認識対象のビデオデータは、実際の要件に応じて設定された、所定の認識長のビデオデータであり、認識対象のビデオデータに対してドットマーキング認識を行うことにより、対応するカットドット識別子を追加することができる。認識長の認識対象のビデオデータをプリセットしてドットマーキング認識を行うことにより、録画したビデオデータをリアルタイムでカットすることを実現し、ビデオカットの時効性を確保し、ビデオカット効率を向上させることができる。
一般に、ビデオデータは映像とオーディオの2つの部分から構成され、映像とオーディオの2つの部分がいずれもドットマーキング認識を行うことができる。具体的には、認識対象のビデオデータに対してドットマーキング認識を行う際、認識対象のビデオデータから映像データとオーディオデータを抽出し、認識対象のビデオデータにおける映像データとオーディオデータのそれぞれに対する認識処理を同時に行うことを実現することで、ビデオ映像中にドットマーキング行動が発生したか否か、又はビデオオーディオにドットマーキング音声が発生したか否かを認識することができ、映像行動とオーディオ音声によるドットマーキング認識を実現し、ドットマーキング認識の正確性を向上させる。
ステップS203において、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得する。
認識対象のビデオデータから映像データとオーディオデータを抽出した後、映像データとオーディオデータをそれぞれ対応するドットマーキング行動認識モデルとドットマーキング音声認識モデルに入力してドットマーキング認識を行う。ここで、ドットマーキング行動認識モデルは、人工ニューラルネットワークアルゴリズムに基づき、業務システムの業務員の対応する業務場面での履歴ドットマーキング行動データを訓練することにより得られ、例えば拍手運動、手を挙げる運動、タップ運動などのドットマーキング行動運動であってもよく、ドットマーキング音声認識モデルは、例えば、「第1、第2、第3」などのキーワードの音声ドットマーキングのような、業務員の履歴ドットマーキング音声データを訓練することにより得られる。
本実施例では、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識を行い、ドットマーキング行動認識結果を取得する一方、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識を行い、ドットマーキング音声認識結果を取得する。映像データとオーディオデータをそれぞれドットマーキング認識することで、ドットマーキング操作の多様性を広げ、業務フローの円滑性を回避しつつ、ビデオカットに対する正確性を確保することができる。
ステップS205において、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいて、ドットマーキング認識結果を取得する。
ドットマーキング行動認識結果とドットマーキング音声認識結果を取得した後、両者を統合してドットマーキング認識結果を取得する。具体的には、実際の業務要件に応じて設定される所定のドットマーキングトリガ規則を照会する。例えば、ドットマーキング行動認識結果とドットマーキング音声認識結果のいずれか一方を取るように設定されてもよく、すなわち、ドットマーキング行動認識結果とドットマーキング音声認識結果のうちのいずれかのタイプがドットマーキング操作である限り、すなわちカットドット識別子を追加する必要がある場合、ドットマーキングをトリガし、得られたドットマーキング認識結果がドットマーキング操作であり、ドットマーキング行動認識結果とドットマーキング音声認識結果の両方を取るように設定されてもよく、すなわちドットマーキング行動認識結果とドットマーキング音声認識結果のタイプが同時にドットマーキング操作である場合のみ、ドットマーキングをトリガし、得られたドットマーキング認識結果のタイプがドットマーキング操作である。
ステップS207において、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加する。
ドットマーキング認識結果を取得した後、当該ドットマーキング認識結果のタイプを判断し、ドットマーキング認識結果のタイプがドットマーキング操作である場合、当該認識対象のビデオデータ中の映像データ及び/又はオーディオデータがドットマーキングをトリガしたことを示し、当該認識対象のビデオデータがビデオカット位置であり、これに対してドットマーキング処理を行い、具体的には当該認識対象のビデオデータにカットドット識別子を追加することができる。そのうち、カットドット識別子は、ビデオカットのカットドットを認識するために用いられ、ビデオストリームデータをカットする際、直接、当該カットドット識別子を検索してカット処理を行うことができる。
具体的な実現において、カットドット識別子は、カットラベルとしてもよく、認識対象のビデオデータにカットドット識別子を追加する場合、所定のラベルに従って規則を追加し、当該認識対象のビデオデータからキーフレームを決定し、例えば、認識対象のビデオデータの先頭フレームをキーフレームとして、当該キーフレームにカットラベルを追加し、カットラベルは、カットドット番号、カット時間値などを含むことができるが、これらに限定されない。
ステップS209において、カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得する。
ビデオストリームデータをカット処理する際には、ビデオストリームデータ中のカットドット識別子を検索し、当該カットドット識別子に応じてカット処理を行うことで、ビデオストリームデータを分割し、各ビデオセグメントデータを取得する。
上記のビデオカット方法では、ビデオストリームデータから得られた認識対象のビデオデータから映像データとオーディオデータを抽出し、映像データとオーディオデータをそれぞれ対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルに入力し、さらに得られたドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得し、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加し、最後に当該カットドット識別子に応じてビデオストリームデータをカットして、ビデオセグメントデータを取得する。ビデオカット処理では、認識対象のビデオデータ中の映像データ及びオーディオデータに基づいてドットマーキング認識を行い、カットドット識別子を追加することができ、手動でドットマーキング操作を行う必要がなく、ビデオカットの処理効率を向上させる。
いくつかの実施例において、ビデオストリームデータから認識対象のビデオデータを抽出することは、ビデオストリームデータを取得することと、ビデオストリーム認識長を決定することと、ビデオストリーム認識長に従って、ビデオストリームデータから認識対象のビデオデータを抽出することと、を含む。
録画機器102が直接録画したビデオストリームデータについて、直接、ドットマーキング認識処理を行うことができず、一定の認識長の認識対象のビデオデータに分割し、認識対象のビデオデータによりドットマーキング認識を行う必要がある。本実施例では、ビデオストリームデータから認識対象のビデオデータを抽出する際、ビデオストリームデータを先に取得し、具体的には、録画機器102からリアルタイムで録画されたビデオストリームデータを直接受信してもよいし、予め設定されたメモリから録画済みのビデオストリームデータを読み出してもよい。一方、ビデオストリーム認識長を決定し、当該ビデオストリーム認識長は、実際の要件、例えばドットマーキング行動認識モデルとドットマーキング音声認識モデルの入力要件に基づいて設定されてもよいし、サーバ104の処理リソースに基づいて設定されてもよい。ビデオストリーム認識長が決定されると、当該ビデオストリーム認識長に従って、ビデオストリームデータから認識対象のビデオデータを抽出する。具体的な応用に際しては、ビデオストリームデータから、ビデオストリーム認識長を満たす認識対象のビデオデータを順次抽出し、さらに抽出した認識対象のビデオデータに対して後続のドットマーキング認識処理を行うようにしてもよい。
その一実施例において、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得することは、認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定することと、身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会することと、映像データから映像特徴データを抽出し、オーディオデータからオーディオ特徴データを抽出することと、映像特徴データをドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオ特徴データをドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得することと、を含む。
本実施例では、ドットマーキング行動認識モデルとドットマーキング音声認識モデルは、いずれも業務システムにおける各業務員の履歴ドットマーキングデータに基づいて訓練されたものである。一般に、業務の面対面チェックデュアルレコーディングでは、業務システムによってドットマーキング操作の要求が異なり、また、業務員によってドットマーキング操作の習慣が異なる。
具体的には、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得する際に、認識対象のビデオデータに対応する所属の業務員の身分識別情報を先ず決定する。応用に際しては、各業務サービスウィンドウに対して、いずれも録画機器102が設けられ、認識対象のビデオデータの由来、すなわち、録画機器102により対応する所属の業務員を決定し、さらに当該業務員に対応する身分識別情報を照会することができる。身分識別情報は、限定されるものではないが、業務員番号、業務員の名前など、業務員を一意に認識可能な認識情報であってもよい。身分識別情報を決定した後、当該身分識別情報に対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会し、ドットマーキング行動認識モデルとドットマーキング音声認識モデルはそれぞれ対応する業務員の履歴ドットマーキング行動データと履歴ドットマーキング音声データに基づいて訓練されて得られ、ドットマーキング認識の標的性が高く、認識精度が高い。
ドットマーキング行動認識モデルとドットマーキング音声認識モデルが得られた後、映像データから映像特徴データを抽出し、映像特徴データをドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を得る。一方、オーディオデータからオーディオ特徴データを抽出し、オーディオ特徴データをドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を得る。映像データとオーディオデータに対してドットマーキング認識を行う際、特徴抽出を行い、不要な冗長情報をフィルタリングして映像特徴データとオーディオ特徴データを得て、後続のドットマーキング認識処理を行い、ドットマーキング行動認識結果とドットマーキング音声認識結果を得る。
その一実施例において、身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会する前に、業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得することと、履歴行動映像データと履歴ドットマーキング音声データを業務員によってそれぞれ分類し、各業務員に対応する履歴行動映像データと各業務員に対応する履歴ドットマーキング音声データを取得することと、各業務員に対応する履歴行動映像データを訓練してドットマーキング行動認識モデルを取得することと、各業務員に対応する履歴ドットマーキング音声データを訓練してドットマーキング音声認識モデルを取得することと、をさらに含む。
ドットマーキング行動認識モデルとドットマーキング音声認識モデルを訓練する際、先ず業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得する。ここで、履歴行動映像データは、業務システムにおける各業務員が業務面対面チェックを行う過程で、デュアルレコーディングで撮影したドットマーキング映像データであってもよく、例えば拍手、手を挙げること、両手を交差させること、頭を打つことなどのドットマーキング行動を含み得、履歴ドットマーキング音声データは、キーワードフレーズ、「X番目の質問」、「分かりました、ありがとうございます」などの履歴行動映像データに類似している。具体的な応用では、各業務員は個人的な習慣が異なり、対応する履歴行動映像データと履歴ドットマーキング音声データでドットマーキング操作の表現も異なるため、業務員ごとに履歴行動映像データと履歴ドットマーキング音声データを分類し、対応するドットマーキング行動認識モデルとドットマーキング音声認識モデルを各業務員に構築する。
具体的には、各業務員に対応する履歴行動映像データを訓練して、ドットマーキング行動認識モデルを得て、各業務員に対応する履歴ドットマーキング音声データを訓練し、ドットマーキング音声認識モデルを得る。具体的に実現する場合、履歴行動映像データを訓練サンプルセットとテストサンプルセットに分け、監視あり学習方法により当該訓練サンプルセットを訓練し、テスト対象ドットマーキング行動モデルを得て、さらにテストサンプルセットによりテスト対象ドットマーキング行動モデルに対して認識精度テストを行い、認識精度テストを通過した後、ドットマーキング行動認識モデルを得ることができる。ドットマーキング音声認識モデルの訓練手順は、ドットマーキング行動認識モデルと同様である。
その一実施例において、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいて、ドットマーキング認識結果を得ることは、行動トリガ規則と音声トリガ規則とを含む所定のドットマーキングトリガ規則を照会することと、ドットマーキング行動認識結果と行動トリガ規則を比較して、行動トリガ結果を得ることと、ドットマーキング音声認識結果と音声トリガ規則を比較して、音声トリガ結果を得ることと、行動トリガ結果と音声トリガ結果に基づいて、ドットマーキング認識結果を得ることと、を含む。
ドットマーキング行動認識結果とドットマーキング音声認識結果を得た後、実際の業務要件のドットマーキングトリガ規則と組み合わせて、ドットマーキング認識結果を得る。具体的には、所定のドットマーキングトリガ規則を照会し、当該ドットマーキングトリガ規則は、実際の業務要件に従って設定され、具体的には、業務タイプ及び業務員の習慣に従って設定され、例えば、映像データで業務員の拍手行動が認識された場合、又はオーディオデータで「X番目の質問」のキーフレーズが認識された場合に、ドットマーキングをトリガすると考えられる。ドットマーキングトリガ規則は、行動トリガ規則と音声トリガ規則とを含み、映像データのドットマーキング認識とオーディオデータのドットマーキング認識にそれぞれ対応する。
ドットマーキング行動認識結果を行動トリガ規則と比較して、行動トリガ結果を得る一方、ドットマーキング音声認識結果を音声トリガ規則と比較して、音声トリガ結果を得る。最後に、行動トリガ結果と音声トリガ結果を統合して、ドットマーキング認識結果を得て、例えば行動トリガ結果と音声トリガ結果のいずれか一方を演算することができ、すなわち行動トリガ結果と音声トリガ結果のいずれか一方のタイプがドットマーキング操作である場合、すなわち得られたドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータに対してカットドット識別子追加処理を行う。
その一実施例において、図3に示すように、ドットマーキングカット命令に応答するステップをさらに含み、具体的には、ステップS301と、ステップS303と、ステップS305と、ステップS307と、を含む。
ステップS301において、ドットマーキングカット命令を受信すると、ドットマーキングカット命令のカット時刻値を決定する。
本実施例において、ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータに対してドットマーキング認識を行うことに加えて、外部から送信されたドットマーキングカット命令に応答して、手動でドットマーキングすることを実現することができる。具体的には、ドットマーキングカット命令を受信した場合、当該ドットマーキングカット命令のカット時刻値を決定する。ここで、ドットマーキングカット命令は、例えば、業務員が関連するドットマーキングボタンをクリックするように、外部から送信されてもよく、カット時刻値は、ドットマーキングカット命令の送信時間であり、ビデオストリームデータにおいてドットマーキング操作が必要な時間軸位置を反映している。
ステップS303において、認識対象のビデオデータにおいて、カット時刻値に対応するカットビデオフレームを決定する。
ドットマーキングカット命令のカット時刻値を決定した後、認識対象のビデオデータから、当該カット時刻値に対応するカットビデオフレームを決定する。一般に、外部からドットマーキングカット命令を送信すると、認識対象のビデオデータにおいて、当該時刻に対応するビデオフレームがドットマーキング操作を行う必要があることを示し、当該ドットマーキングカット命令のカット時刻値に基づいて認識対象のビデオデータの時間軸から対応するカットビデオフレームを決定することができる。
ステップS305において、カットビデオフレームにカットドット識別子を追加する。
カットビデオフレームを決定した後、当該カットビデオフレームにカットドット識別子を追加し、カットドット識別子は、ビデオカットのカットドットを認識するために用いられ、ビデオストリームデータをカットする際に、当該カットドット識別子を直接検索してカット処理を行うことができる。
ステップS307において、カットドット識別子に応じてビデオストリームデータをカット処理することに戻り、ビデオセグメントデータを取得する。
カットドット識別子を追加した後、カットドット識別子に応じてビデオストリームデータをカット処理するステップに戻り、ビデオストリームデータにおけるカットドット識別子を検索して、さらに当該カットドット識別子に応じてカット処理を行うことで、ビデオストリームデータを分割して各ビデオセグメントデータを取得する。
本実施例において、認識対象のビデオデータの映像データ及びオーディオデータをドットマーキング認識することに加えて、外部から送信されるドットマーキングカット命令をリアルタイムで受信し、当該ドットマーキングカット命令に基づいてビデオカット処理を行い、外部からのビデオカットの制御を実現し、ビデオカットの操作の多様性を効果的に拡張し、ビデオカット処理の効率を向上させることができる。
いくつかの実施例において、ビデオセグメントデータを取得した後、ビデオセグメントデータからオーディオセグメントデータを抽出することと、所定の音声認識モデルを照会することと、オーディオセグメントデータを音声認識モデルに入力して、ビデオセグメントデータの訳文データを取得することと、訳文データに基づいてビデオセグメントデータに対応する業務タイプを決定し、ビデオセグメントデータを業務タイプに対応する記憶位置に記憶することと、をさらに含む。
本実施例において、ビデオストリームデータをカット処理したビデオセグメントデータを取得した後、各ビデオセグメントデータの業務タイプに応じて、対応する記憶位置に記憶することができる。具体的には、ビデオセグメントデータからオーディオセグメントデータを抽出し、オーディオセグメントデータは、ビデオセグメントデータにおける会話データを含み、当該オーディオセグメントデータに基づいて、当該ビデオセグメントデータに対応する業務タイプを決定することができる。所定の音声認識モデルを照会し、音声認識モデルは、入力された音声データを音声認識して、対応する訳文データを取得することができる。
本実施例において、オーディオセグメントデータを当該音声認識モデルに入力して、ビデオセグメントデータの訳文データを得て、訳文データはテキスト形式のデータであってもよく、当該訳文データに基づいて、ビデオセグメントデータに対応する業務タイプを決定することができる。具体的な実現において、訳文データから業務キーワードを抽出し、得られた業務キーワードに基づいて対応する業務タイプをマッチングしてもよい。ビデオセグメントデータに対応する業務タイプを決定した後、当該ビデオセグメントデータを業務タイプに対応する記憶位置に記憶する。例えば、当該業務タイプに対応する所定の記憶位置を照会し、ビデオセグメントデータを当該記憶位置に記憶することで、ビデオセグメントデータの自動分類記憶を実現することができる。
その一実施例において、図4に示すように、ビデオカット方法を提供し、ステップS401と、S402と、S403と、S404と、S405と、S406と、S407と、S408と、S409と、S410と、S411と、S412と、S413と、S414と、S415と、を含む。
ステップS401において、ビデオストリームデータを取得する。
ステップS402において、ビデオストリーム認識長を決定する。
ステップS403において、ビデオストリーム認識長に従って、ビデオストリームデータから認識対象のビデオデータを抽出する。
ステップS404において、認識対象のビデオデータから映像データ及びオーディオデータを抽出する。
本実施例では、サーバ104は、録画機器102から送信されたビデオストリームデータを受信し、実際の要件に応じて設定されたビデオストリーム認識長を決定し、当該ビデオストリーム認識長に従って、ビデオストリームデータからビデオストリーム認識長を満たす認識対象のビデオデータを順次抽出し、さらに抽出された認識対象のビデオデータに対して後続のドットマーキング認識処理を行う。
ステップS405において、認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定する。
ステップS406において、身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会する。
ステップS407において、映像データから映像特徴データを抽出し、オーディオデータからオーディオ特徴データを抽出する。
ステップS408において、映像特徴データをドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、オーディオ特徴データをドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得る。
映像データとオーディオデータを取得した後、認識対象のビデオデータの由来により、すなわち、録画機器102により対応する所属の業務員を決定し、さらに当該業務員に対応する、業務員番号及び/又は業務員の名前である身分識別情報を照会する。当該身分識別情報に対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会し、ドットマーキング行動認識モデルとドットマーキング音声認識モデルはそれぞれ対応する業務員の履歴ドットマーキング行動データと履歴ドットマーキング音声データに基づいて訓練されて得られ、ドットマーキング認識の標的性が高く、認識精度が高い。映像データから映像特徴データを抽出し、映像特徴データをドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を得る。一方、オーディオデータからオーディオ特徴データを抽出し、オーディオ特徴データをドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を得る。
ステップS409において、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいて、ドットマーキング認識結果を得る。
ドットマーキング行動認識結果とドットマーキング音声認識結果を得た後、実際の業務要件のドットマーキングトリガ規則と組み合わせて、ドットマーキング認識結果を得る。具体的には、行動トリガ規則と音声トリガ規則とを含む所定のドットマーキングトリガ規則を照会することと、ドットマーキング行動認識結果と行動トリガ規則を比較して、行動トリガ結果を得ることと、ドットマーキング音声認識結果と音声トリガ規則を比較して、音声トリガ結果を得ることと、行動トリガ結果と音声トリガ結果に基づいて、ドットマーキング認識結果を得ることと、を含む。
ステップS410において、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加する。
ステップS411において、カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得する。
ドットマーキング認識結果を取得した後、そのタイプを判断し、ドットマーキング認識結果のタイプがドットマーキング操作である場合、当該認識対象のビデオデータがカットドットであることを示し、これにドットマーキング処理を行い、具体的には、当該認識対象のビデオデータにカットドット識別子を追加することができる。ビデオストリームデータにおけるカットドット識別子を照会し、当該カットドット識別子に応じてカット処理を行うことで、ビデオストリームデータを分割し、各ビデオセグメントデータを取得する。
ステップS412において、ビデオセグメントデータからオーディオセグメントデータを抽出する。
ステップS413において、所定の音声認識モデルを照会する。
ステップS414において、オーディオセグメントデータを音声認識モデルに入力してビデオセグメントデータの訳文データを取得する。
ステップS415において、訳文データに基づいてビデオセグメントデータに対応する業務タイプを決定し、ビデオセグメントデータを業務タイプに対応する記憶位置に記憶する。
本実施例において、ビデオストリームデータをカット処理したビデオセグメントデータを取得した後、各ビデオセグメントデータの業務タイプに応じて、対応する記憶位置に記憶することで、ビデオセグメントデータの自動分類記憶を実現する。
なお、図2~図4のフローチャートにおける各ステップは、矢印で示す順序で順次表示されるが、必ずしも矢印で示す順序で順次実行される必要はない。これらのステップの実行は、本明細書に明示的に記載されていない限り、厳密な順序の制限がなく、他の順序で実行されてもよい。さらに、図2~図4の少なくとも一部のステップは、複数のサブステップ又は複数の段階を含み得、これらのサブステップ又は段階は、必ずしも同じ時刻で実行を完了する必要はなく、異なる時刻で実行することができ、これらのサブステップ又は段階の実行順序も、必ずしも順次行う必要はなく、他のステップ又は他のステップのサブステップ又は段階の少なくとも一部と順番に又は交互に実行することができる。
その一実施例において、図5に示すように、ビデオカット装置を提供し、認識データ抽出モジュール501と、ドットマーキング認識処理モジュール503と、ドットマーキング結果取得モジュール505と、カット識別子追加モジュール507と、ビデオカットモジュール509とを含む。
認識データ抽出モジュール501は、ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するために用いられる。
ドットマーキング認識処理モジュール503は、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するために用いられる。
ドットマーキング結果取得モジュール505は、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するために用いられる。
カット識別子追加モジュール507は、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するために用いられる。
ビデオカットモジュール509は、カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するために用いられる。
その一実施例において、認識データ抽出モジュール501は、ビデオストリーム取得ユニットと、認識長決定ユニットと、認識データ抽出ユニットと、を含み、ここで、ビデオストリーム取得ユニットは、ビデオストリームデータを取得するために用いられ、認識長決定ユニットは、ビデオストリーム認識長を決定するために用いられ、認識データ抽出ユニットは、ビデオストリーム認識長に従って、ビデオストリームデータから認識対象のビデオデータを抽出するために用いられる。
その一実施例において、ドットマーキング認識処理モジュール503は、身分識別決定ユニットと、認識モデル照会ユニットと、特徴データ抽出ユニットと、ドットマーキング認識ユニットと、を含み、ここで、身分識別決定ユニットは、認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するために用いられ、認識モデル照会ユニットは、身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するために用いられ、特徴データ抽出ユニットは、映像データから映像特徴データを抽出し、オーディオデータからオーディオ特徴データを抽出するために用いられ、ドットマーキング認識ユニットは、映像特徴データをドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、オーディオ特徴データをドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るために用いられる。
その一実施例において、履歴データ取得モジュールと、履歴データ分類モジュールと、行動認識モデル訓練モジュールと、音声認識モデル訓練モジュールと、をさらに含み、ここで、履歴データ取得モジュールは、業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得するために用いられ、履歴データ分類モジュールは、履歴行動映像データと履歴ドットマーキング音声データをそれぞれ業務員によって分類し、各業務員に対応する履歴行動映像データと各業務員に対応する履歴ドットマーキング音声データを取得するために用いられ、行動認識モデル訓練モジュールは、各業務員に対応する履歴行動映像データを訓練し、ドットマーキング行動認識モデルを取得するために用いられ、音声認識モデル訓練モジュールは、各業務員に対応する履歴ドットマーキング音声データを訓練し、ドットマーキング音声認識モデルを取得するために用いられる。
その一実施例において、ドットマーキング結果取得モジュール505は、トリガ規則照会ユニットと、行動比較ユニットと、音声比較ユニットと、ドットマーキング結果取得ユニットと、を含み、ここで、トリガ規則照会ユニットは、行動トリガ規則と音声トリガ規則とを含む所定のドットマーキングトリガ規則を照会するために用いられ、行動比較ユニットは、ドットマーキング行動認識結果と行動トリガ規則を比較し、行動トリガ結果を取得するために用いられ、音声比較ユニットは、ドットマーキング音声認識結果と音声トリガ規則を比較し、音声トリガ結果を取得するために用いられ、ドットマーキング結果取得ユニットは、行動トリガ結果と音声トリガ結果に基づいて、ドットマーキング認識結果を取得するために用いられる。
その一実施例において、カット命令受信モジュールと、カットフレーム決定モジュールと、識別子追加モジュールと、カット処理モジュールと、をさらに含み、ここで、カット命令受信モジュールは、ドットマーキングカット命令を受信すると、ドットマーキングカット命令のカット時刻値を決定するために用いられ、カットフレーム決定モジュールは、認識対象のビデオデータにおいて、カット時刻値に対応するカットビデオフレームを決定するために用いられ、識別子追加モジュールは、カットビデオフレームにカットドット識別子を追加するために用いられ、カット処理モジュールは、カットドット識別子に応じてビデオストリームデータをカット処理することに戻り、ビデオセグメントデータを取得するために用いられる。
その一実施例において、オーディオセグメント抽出モジュールと、音声認識モデル照会モジュールと、訳文データ取得モジュールと、ビデオセグメント記憶モジュールと、をさらに含み、ここで、オーディオセグメント抽出モジュールは、ビデオセグメントデータからオーディオセグメントデータを抽出するために用いられ、音声認識モデル照会モジュールは、所定の音声認識モデルを照会するために用いられ、訳文データ取得モジュールは、オーディオセグメントデータを音声認識モデルに入力し、ビデオセグメントデータの訳文データを取得するために用いられ、ビデオセグメント記憶モジュールは、訳文データに基づいてビデオセグメントデータに対応する業務タイプを決定し、ビデオセグメントデータを業務タイプに対応する記憶位置に記憶するために用いられる。
ビデオカット装置の具体的な限定については、ビデオカット方法についての上記の限定を参照すればよく、ここでその説明を省略する。上記のビデオカット装置における各モジュールは、その全部又は一部をソフトウェア、ハードウェア及びそれらの組み合わせによって実現することができる。上記の各モジュールは、ハードウェアの形態でコンピュータ機器のプロセッサに内蔵されてもよいし、独立してもよいし、ソフトウェアの形態でコンピュータ機器のメモリに記憶されて、プロセッサが上記の各モジュールに対応する操作を実行するようにしてもよい。
その一実施例において、サーバであり得るコンピュータ機器を提供し、その内部構造図は、図6に示される。当該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ、及びネットワークインタフェースを含む。ここで、当該コンピュータ機器のプロセッサは、計算及び制御機能を提供するために用いられる。当該コンピュータ機器のメモリは、不揮発性記憶媒体、内部メモリを含む。当該不揮発性記憶媒体は、オペレーティングシステム及びコンピュータ読み取り可能な命令を記憶している。当該内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ読み取り可能な命令の実行のための環境を提供する。当該コンピュータ機器のネットワークインタフェースは、外部の端末とネットワークを介して接続通信を行うためのものである。当該コンピュータ読み取り可能な命令は、プロセッサによって実行されると、ビデオカット方法を実現する。
当業者であれば、図6に示される構造は、本願の技術案に関連する部分的な構造のブロック図に過ぎず、本願の技術案が適用されるコンピュータ機器を限定するものではなく、具体的なコンピュータ機器は、図に示されるよりも多いか又は少ない構成要素を含んでもよく、又はいくつかの構成要素を組み合わせるか、異なる構成要素配置を有してもよいことを理解できる。
コンピュータ機器は、メモリと、1つ又は複数のプロセッサとを含み、メモリは、コンピュータ読み取り可能な命令を記憶し、コンピュータ読み取り可能な命令は、プロセッサによって実行されると、本願の実施例のいずれかにおいて提供されるビデオカット方法のステップを実現する。
コンピュータ読み取り可能な命令が記憶された1つ又は複数の不揮発性記憶媒体であって、コンピュータ読み取り可能な命令は、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、本願の実施例のいずれかにおいて提供されるビデオカット方法のステップを実現する。
当業者であれば、上記の実施例を実現する方法の全部又は一部の流れが、コンピュータ読み取り可能な命令により、関連するハードウェアに命令することにより実現され、前記コンピュータ読み取り可能な命令は、不揮発性コンピュータ読み取り可能な記憶媒体に記憶され、当該コンピュータ読み取り可能な命令が実行されると、上記の各方法の実施例の流れを含み得ることを理解することができる。ここで、本願で提供される各実施例で使用されるメモリ、ストレージ、データベース、又は他の媒体への任意の参照は、いずれも不揮発性及び/又は揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含み得る。限定ではなく例示として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、エンハンストSDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)など、様々な形態で利用可能である。
上記の実施例の各技術的特徴は、任意に組み合わせることが可能であり、説明を簡潔にするために、上記の実施例の各技術的特徴の全ての可能な組み合わせを説明していないが、これらの技術的特徴の組み合わせに矛盾が生じない限り、本明細書に記載の範囲とみなされるべきである。
上記の実施例は、本願のいくつかの実施形態のみを示したものであり、その説明は、より具体的かつ詳細であるが、これにより、特許請求の範囲を制限するものと理解すべきではない。なお、当業者であれば、本願の要旨を逸脱しない前提で、多くの変更や改善を行うことができ、これらはいずれも本願の保護範囲である。したがって、本願特許の保護範囲は、添付の特許請求の範囲に準じるものとする。

Claims (20)

  1. ビデオカット方法であって、
    ビデオストリームデータから認識対象のビデオデータを抽出し、前記認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
    前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
    前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
    前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加するステップと、
    前記カットドット識別子に応じて前記ビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を含む、
    ビデオカット方法。
  2. ビデオストリームデータから認識対象のビデオデータを抽出する前記ステップは、
    ビデオストリームデータを取得するステップと、
    ビデオストリーム認識長を決定するステップと、
    前記ビデオストリーム認識長に従って、前記ビデオストリームデータから認識対象のビデオデータを抽出するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得する前記ステップは、
    前記認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するステップと、
    前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するステップと、
    前記映像データから映像特徴データを抽出し、前記オーディオデータからオーディオ特徴データを抽出するステップと、
    前記映像特徴データを前記ドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、前記オーディオ特徴データを前記ドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るステップと、
    ことを特徴とする請求項1に記載の方法。
  4. 前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会する前記ステップの前に、前記方法は、さらに、
    業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得するステップと、
    前記履歴行動映像データと前記履歴ドットマーキング音声データを業務員によってそれぞれ分類し、各業務員に対応する履歴行動映像データと各業務員に対応する履歴ドットマーキング音声データを取得するステップと、
    前記各業務員に対応する履歴行動映像データを訓練して前記ドットマーキング行動認識モデルを取得するステップと、
    前記各業務員に対応する履歴ドットマーキング音声データを訓練して前記ドットマーキング音声認識モデルを取得するステップと、を含む、
    ことを特徴とする請求項3に記載の方法。
  5. 前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得する前記ステップは、
    行動トリガ規則と音声トリガ規則とを含む所定のドットマーキングトリガ規則を照会するステップと、
    前記ドットマーキング行動認識結果と前記行動トリガ規則を比較して、行動トリガ結果を得るステップと、
    前記ドットマーキング音声認識結果と前記音声トリガ規則を比較して、音声トリガ結果を得るステップと、
    前記行動トリガ結果と前記音声トリガ結果に基づいて、ドットマーキング認識結果を得るステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  6. 前記行動トリガ結果と前記音声トリガ結果に基づいて、ドットマーキング認識結果を得る前記ステップは、
    前記行動トリガ結果と前記音声トリガ結果のいずれか一方を演算して、ドットマーキング認識結果を得るステップ、を含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加する前記ステップは、
    前記ドットマーキング認識結果のタイプを決定するステップと、
    前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、所定のラベル追加規則を照会するステップと、
    前記ラベル追加規則に基づいて、前記認識対象のビデオデータからキーフレームを決定し、前記キーフレームにカットラベルを追加し、前記カットドット識別子は、前記カットラベルを含むステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  8. ドットマーキングカット命令を受信すると、前記ドットマーキングカット命令のカット時刻値を決定するステップと、
    前記認識対象のビデオデータにおいて、前記カット時刻値に対応するカットビデオフレームを決定するステップと、
    前記カットビデオフレームにカットドット識別子を追加するステップと、
    前記カットドット識別子に応じて前記ビデオストリームデータをカット処理する前記ステップに戻り、ビデオセグメントデータを取得するステップと、をさらに含む、
    ことを特徴とする請求項1乃至7のいずれか1項に記載の方法。
  9. ビデオセグメントデータを取得する前記ステップの後、前記方法は、
    前記ビデオセグメントデータからオーディオセグメントデータを抽出するステップと、
    所定の音声認識モデルを照会するステップと、
    前記オーディオセグメントデータを前記音声認識モデルに入力して、前記ビデオセグメントデータの訳文データを取得するステップと、
    前記訳文データに基づいて前記ビデオセグメントデータに対応する業務タイプを決定し、前記ビデオセグメントデータを前記業務タイプに対応する記憶位置に記憶するステップと、をさらに含む、
    ことを特徴とする請求項8に記載の方法。
  10. 前記訳文データに基づいて前記ビデオセグメントデータに対応する業務タイプを決定し、前記ビデオセグメントデータを前記業務タイプに対応する記憶位置に記憶する前記ステップは、
    前記訳文データから業務キーワードを抽出するステップと、
    前記業務キーワードに基づいて前記ビデオセグメントデータに対応する業務タイプを決定するステップと、
    前記業務タイプに対応する所定の記憶位置を照会するステップと、
    前記ビデオセグメントデータを前記記憶位置に記憶するステップと、を含む、
    ことを特徴とする請求項9に記載の方法。
  11. ビデオカット装置であって、
    ビデオストリームデータから認識対象のビデオデータを抽出し、前記認識対象のビデオデータから映像データとオーディオデータを抽出するための認識データ抽出モジュールと、
    前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するためのドットマーキング認識処理モジュールと、
    前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するためのドットマーキング結果取得モジュールと、
    前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加するためのカット識別子追加モジュールと、
    前記カットドット識別子に応じて前記ビデオストリームデータをカット処理し、ビデオセグメントデータを取得するためのビデオカットモジュールと、を含む、
    ビデオカット装置。
  12. 前記認識データ抽出モジュールは、
    ビデオストリームデータを取得するためのビデオストリーム取得ユニットと、
    ビデオストリーム認識長を決定するための認識長決定ユニットと、
    前記ビデオストリーム認識長に従って、前記ビデオストリームデータから認識対象のビデオデータを抽出するための認識データ抽出ユニットと、を含む、
    ことを特徴とする請求項11に記載の装置。
  13. 前記ドットマーキング認識処理モジュールは、
    前記認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するための身分識別決定ユニットと、
    前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するための認識モデル照会ユニットと、
    前記映像データから映像特徴データを抽出し、前記オーディオデータからオーディオ特徴データを抽出するための特徴データ抽出ユニットと、
    前記映像特徴データを前記ドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、前記オーディオ特徴データを前記ドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るためのドットマーキング認識ユニットと、を含む、
    ことを特徴とする請求項11に記載の装置。
  14. 前記装置は、
    業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得するための履歴データ取得モジュールと、
    前記履歴行動映像データと前記履歴ドットマーキング音声データをそれぞれ業務員によって分類し、各業務員に対応する履歴行動映像データと各業務員に対応する履歴ドットマーキング音声データを取得するための履歴データ分類モジュールと、
    前記各業務員に対応する履歴行動映像データを訓練し、前記ドットマーキング行動認識モデルを取得するための行動認識モデル訓練モジュールと、
    前記各業務員に対応する履歴ドットマーキング音声データを訓練し、前記ドットマーキング音声認識モデルを取得するための音声認識モデル訓練モジュールと、をさらに含む、
    ことを特徴とする請求項13に記載の装置。
  15. コンピュータ機器であって、メモリと1つ又は複数のプロセッサとを含み、前記メモリは、コンピュータ読み取り可能な命令を記憶し、前記コンピュータ読み取り可能な命令は、前記1つ又は複数のプロセッサによって実行されると、
    ビデオストリームデータから認識対象のビデオデータを抽出し、前記認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
    前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
    前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
    前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加するステップと、
    前記カットドット識別子に応じて前記ビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を前記1つ又は複数のプロセッサに実行させる、
    コンピュータ機器。
  16. 前記プロセッサは、前記コンピュータ読み取り可能な命令を実行する際に、さらに、
    ビデオストリームデータを取得するステップと、
    ビデオストリーム認識長を決定するステップと、
    前記ビデオストリーム認識長に従って、前記ビデオストリームデータから認識対象のビデオデータを抽出するステップと、を実行する、
    ことを特徴とする請求項15に記載のコンピュータ機器。
  17. 前記プロセッサは、前記コンピュータ読み取り可能な命令を実行する際に、さらに、
    前記認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するステップと、
    前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するステップと、
    前記映像データから映像特徴データを抽出し、前記オーディオデータからオーディオ特徴データを抽出するステップと、
    前記映像特徴データを前記ドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、前記オーディオ特徴データを前記ドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るステップと、を実行する、
    ことを特徴とする請求項15に記載のコンピュータ機器。
  18. コンピュータ読み取り可能な命令を記憶した1つ又は複数の不揮発性コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な命令は、1つ又は複数のプロセッサによって実行されると、
    ビデオストリームデータから認識対象のビデオデータを抽出し、前記認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
    前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
    前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
    前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加するステップと、
    前記カットドット識別子に応じて前記ビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を前記1つ又は複数のプロセッサに実行させる、
    コンピュータ読み取り可能な命令を記憶した1つ又は複数の不揮発性コンピュータ読み取り可能な記憶媒体。
  19. 前記コンピュータ読み取り可能な命令は、前記プロセッサに実行させると、さらに、
    ビデオストリームデータを取得するステップと、
    ビデオストリーム認識長を決定するステップと、
    前記ビデオストリーム認識長に従って、前記ビデオストリームデータから認識対象のビデオデータを抽出するステップと、を実行する、
    ことを特徴とする請求項18に記載の記憶媒体。
  20. 前記コンピュータ読み取り可能な命令は、前記プロセッサに実行させると、さらに、
    前記認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するステップと、
    前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するステップと、
    前記映像データから映像特徴データを抽出し、前記オーディオデータからオーディオ特徴データを抽出するステップと、
    前記映像特徴データを前記ドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、前記オーディオ特徴データを前記ドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るステップと、を実行する、
    ことを特徴とする請求項18に記載の記憶媒体。
JP2021532494A 2018-12-14 2019-12-02 ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体 Pending JP2022510479A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811536818.X 2018-12-14
CN201811536818.XA CN109743624B (zh) 2018-12-14 2018-12-14 视频切割方法、装置、计算机设备和存储介质
PCT/CN2019/122472 WO2020119508A1 (zh) 2018-12-14 2019-12-02 视频切割方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022510479A true JP2022510479A (ja) 2022-01-26

Family

ID=66360325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021532494A Pending JP2022510479A (ja) 2018-12-14 2019-12-02 ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体

Country Status (6)

Country Link
EP (1) EP3890333A4 (ja)
JP (1) JP2022510479A (ja)
KR (1) KR20210088680A (ja)
CN (1) CN109743624B (ja)
SG (1) SG11202103326QA (ja)
WO (1) WO2020119508A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109151615B (zh) * 2018-11-02 2022-01-25 湖南双菱电子科技有限公司 视频处理方法、计算机设备和计算机存储介质
CN109743624B (zh) * 2018-12-14 2021-08-17 深圳壹账通智能科技有限公司 视频切割方法、装置、计算机设备和存储介质
CN110446061B (zh) * 2019-07-04 2023-04-07 深圳壹账通智能科技有限公司 视频数据获取方法、装置、计算机设备及存储介质
CN112380922B (zh) * 2020-10-23 2024-03-22 岭东核电有限公司 复盘视频帧确定方法、装置、计算机设备和存储介质
CN112487238B (zh) * 2020-10-27 2024-05-17 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质
CN113096687B (zh) * 2021-03-30 2024-04-26 中国建设银行股份有限公司 音视频处理方法、装置、计算机设备及存储介质
CN113207033B (zh) * 2021-04-29 2022-09-20 读书郎教育科技有限公司 一种智慧课堂录制视频无效片段处理的系统及方法
CN113810766B (zh) * 2021-11-17 2022-02-08 深圳市速点网络科技有限公司 一种视频剪辑组合处理方法及系统
CN114374885B (zh) * 2021-12-31 2024-07-09 北京百度网讯科技有限公司 视频关键片段确定方法、装置、电子设备及可读存储介质
CN114022828A (zh) * 2022-01-05 2022-02-08 北京金茂教育科技有限公司 视频流处理方法及装置
CN114465737B (zh) * 2022-04-13 2022-06-24 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN115866290A (zh) * 2022-05-31 2023-03-28 北京中关村科金技术有限公司 视频打点方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004187043A (ja) * 2002-12-04 2004-07-02 Fuji Xerox Co Ltd 映像処理装置
JP2009272816A (ja) * 2008-05-02 2009-11-19 Visionere Corp サーバ、情報処理システム及び情報処理方法
JP2010504044A (ja) * 2006-09-12 2010-02-04 グーグル・インコーポレーテッド ターゲットとされたビデオ広告における視聴信号の使用
US20150082349A1 (en) * 2013-09-13 2015-03-19 Arris Enterprises, Inc. Content Based Video Content Segmentation

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999620B1 (en) * 2001-12-10 2006-02-14 Hewlett-Packard Development Company, L.P. Segmenting video input using high-level feedback
US20060059120A1 (en) * 2004-08-27 2006-03-16 Ziyou Xiong Identifying video highlights using audio-visual objects
CN101616264B (zh) * 2008-06-27 2011-03-30 中国科学院自动化研究所 新闻视频编目方法及系统
JP5845801B2 (ja) * 2011-10-18 2016-01-20 ソニー株式会社 画像処理装置、画像処理方法、及び、プログラム
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
CN104519401B (zh) * 2013-09-30 2018-04-17 贺锦伟 视频分割点获得方法及设备
CN104780388B (zh) * 2015-03-31 2018-03-09 北京奇艺世纪科技有限公司 一种视频数据的切分方法和装置
CN105931635B (zh) * 2016-03-31 2019-09-17 北京奇艺世纪科技有限公司 一种音频分割方法及装置
US9830516B1 (en) * 2016-07-07 2017-11-28 Videoken, Inc. Joint temporal segmentation and classification of user activities in egocentric videos
CN106658169B (zh) * 2016-12-18 2019-06-07 北京工业大学 一种基于深度学习多层次分割新闻视频的通用方法
CN106782507B (zh) * 2016-12-19 2018-03-06 平安科技(深圳)有限公司 语音分割的方法及装置
CN107358945A (zh) * 2017-07-26 2017-11-17 谢兵 一种基于机器学习的多人对话音频识别方法及系统
CN107623860A (zh) * 2017-08-09 2018-01-23 北京奇艺世纪科技有限公司 多媒体数据分割方法和装置
CN108132995A (zh) * 2017-12-20 2018-06-08 北京百度网讯科技有限公司 用于处理音频信息的方法和装置
CN108235141B (zh) * 2018-03-01 2020-11-20 北京网博视界科技股份有限公司 直播视频转碎片化点播的方法、装置、服务器和存储介质
CN109743624B (zh) * 2018-12-14 2021-08-17 深圳壹账通智能科技有限公司 视频切割方法、装置、计算机设备和存储介质
CN109831677B (zh) * 2018-12-14 2022-04-01 平安科技(深圳)有限公司 视频脱敏方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004187043A (ja) * 2002-12-04 2004-07-02 Fuji Xerox Co Ltd 映像処理装置
JP2010504044A (ja) * 2006-09-12 2010-02-04 グーグル・インコーポレーテッド ターゲットとされたビデオ広告における視聴信号の使用
JP2009272816A (ja) * 2008-05-02 2009-11-19 Visionere Corp サーバ、情報処理システム及び情報処理方法
US20150082349A1 (en) * 2013-09-13 2015-03-19 Arris Enterprises, Inc. Content Based Video Content Segmentation

Also Published As

Publication number Publication date
CN109743624A (zh) 2019-05-10
KR20210088680A (ko) 2021-07-14
CN109743624B (zh) 2021-08-17
EP3890333A1 (en) 2021-10-06
SG11202103326QA (en) 2021-05-28
EP3890333A4 (en) 2022-05-25
WO2020119508A1 (zh) 2020-06-18

Similar Documents

Publication Publication Date Title
JP2022510479A (ja) ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体
US11615308B2 (en) Generating responses to queries about videos utilizing a multi-modal neural network with attention
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
US10108709B1 (en) Systems and methods for queryable graph representations of videos
US10943600B2 (en) Systems and methods for interrelating text transcript information with video and/or audio information
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
US20210089571A1 (en) Machine learning image search
US20200371741A1 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
CN109831677B (zh) 视频脱敏方法、装置、计算机设备和存储介质
CN104361311B (zh) 多模态在线增量式来访识别系统及其识别方法
WO2022116436A1 (zh) 长短句文本语义匹配方法、装置、计算机设备及存储介质
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
US11657316B2 (en) Self-feeding deep learning method and system
WO2021134524A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
DE102017125474A1 (de) Kontextuelles eindeutigmachen von anfragen
KR101618084B1 (ko) 회의록 관리 방법 및 그 장치
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN114493902A (zh) 多模态信息异常监控方法、装置、计算机设备及存储介质
JP5844375B2 (ja) 物体検索システムおよび物体検索方法
Fernandes et al. IoT based smart security for the blind
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN114556328B (zh) 数据处理方法、装置、电子设备和存储介质
CN117641109A (zh) 多媒体数据采集方法及装置、存储介质、计算机设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230228