JP2022510479A

JP2022510479A - ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体

Info

Publication number: JP2022510479A
Application number: JP2021532494A
Authority: JP
Inventors: 振華王
Original assignee: ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・（シェンチェン）
Priority date: 2018-12-14
Filing date: 2019-12-02
Publication date: 2022-01-26
Also published as: CN109743624A; KR20210088680A; CN109743624B; EP3890333A1; SG11202103326QA; EP3890333A4; WO2020119508A1

Abstract

ビデオカット方法であって、ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するステップと、カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を含む。

Description

「関連出願の相互参照」
本願は、２０１８年１２月１４日に中国知識財産局に出願された、中国特許出願第２０１８１１５３６８１８Ｘ号の「ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体」を名称とする中国特許出願の優先権を主張し、本願の全体が参照によりここに組み込まれる。

本願は、ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体に関するものである。

マルチメディア技術の発展に伴い、ビデオチャット、ビデオ会議、ビデオモニター、ビデオドラマなどのように、情報やリソースをビデオの形で伝達する映画、テレビ、ニュース、ソーシャル、教育、ゲームなどが広く利用され、ビデオは、すでに人々の仕事、学習、生活において重要な部分となっている。

ビデオアプリケーションにおいて、ビデオカット処理が必要なシーンは、例えば、テレビニュースのカット、録画ビデオにおける敏感点除去処理などである。本発明者は、現在、ビデオカット処理について、ドットマーキングを手動で行い、ビデオカットの時間軸位置を決定する必要があり、ビデオカット処理の効率が低いことを意識している。

本願に開示される様々な実施例によれば、ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体を提供する。

ビデオカット方法は、
ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するステップと、
カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を含む。

ビデオカット装置は、
ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するための認識データ抽出モジュールと、
映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するためのドットマーキング認識処理モジュールと、
ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するためのドットマーキング結果取得モジュールと、
ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するためのカット識別子追加モジュールと、
カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するためのビデオカットモジュールと、を含む。

コンピュータ機器は、メモリと１つ又は複数のプロセッサとを含み、前記メモリは、コンピュータ読み取り可能な命令を記憶し、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、
ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するステップと、
カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を前記１つ又は複数のプロセッサに実行させる。

コンピュータ読み取り可能な命令を記憶した１つ又は複数の不揮発性コンピュータ読み取り可能な記憶媒体であって、コンピュータ読み取り可能な命令は、１つ又は複数のプロセッサによって実行されると、
ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するステップと、
カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を１つ又は複数のプロセッサに実行させる。

本願の１つ又は複数の実施例の詳細は、以下の図面及び説明において提示される。本願の他の特徴及び利点は、明細書、図面、及び特許請求の範囲から明らかとなる。

本願の実施例における技術的解決手段をより明確に説明するために、実施例に必要な図面を以下に簡単に紹介するが、明らかに、以下に説明する図面は本願の実施例の一部に過ぎず、当業者にとって、創造的な労働を払うことなく、これらの図面に基づいて他の図面を取得することができる。
１つ又は複数の実施例に係るビデオカット方法が適用されるシーンを示す図である。１つ又は複数の実施例に係るビデオカット方法の概略フローチャートである。１つ又は複数の実施例に係るドットマーキングカット命令に応答する概略フローチャートである。別の実施例に係るビデオカット方法の概略フローチャートである。１つ又は複数の実施例に係るビデオカット装置の構造のブロック図である。１つ又は複数の実施例に係るコンピュータ機器の内部構造図である。

本願の技術的解決手段及び利点をより明瞭にするために、以下にて図面及び実施例を組み合わせて本願をさらに詳細に説明する。なお、本明細書に記載された具体的な実施例は、本願を説明するためのものに過ぎず、本願を限定するためのものではないことを理解されたい。

本願にて提供されるビデオカット方法は、図１に示すような応用環境に適用することができる。録画機器１０２は、ネットワークを介してサーバ１０４と通信する。録画機器１０２は、ビデオ録画を行い、録画されたビデオストリームデータをサーバ１０４に送信し、サーバ１０４は、ビデオストリームデータから得られた認識対象のビデオデータから映像データとオーディオデータを抽出し、映像データとオーディオデータをそれぞれ対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルに入力し、さらに得られたドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得し、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加し、最後に当該カットドット識別子に応じてビデオストリームデータをカットして、ビデオセグメントデータを取得する。

録画機器１０２は、各種のビデオ録画カメラであるが、これらに限定されず、パーソナルコンピュータ、ノート型パソコン、スマートフォン、タブレット型パソコン、携帯可能なウェアラブルデバイスなどの、ビデオ録画機能を有する端末であってもよく、サーバ１０４は、独立したサーバで実現されてもよいし、複数のサーバからなるサーバクラスタで実現されてもよい。

その一実施例において、図２に示すように、ビデオカット方法を提供し、当該方法が図１のサーバ１０４に適用されることを例にして説明し、以下のステップＳ２０１と、ステップＳ２０３と、ステップＳ２０５と、ステップＳ２０７と、ステップＳ２０９と、を含む。

ステップＳ２０１において、ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出する。

本実施例では、ビデオストリームデータから認識対象のビデオデータを抽出する。ここで、ビデオストリームデータは、カット処理が必要なビデオデータであり、録画機器で録画して得ることができる。例えば、金融産業の面対面チェックの場合、ビデオストリームデータは、デュアルレコーディングプロセスにおいてカメラによってリアルタイムでキャプチャされたビデオデータであってもよい。認識対象のビデオデータは、実際の要件に応じて設定された、所定の認識長のビデオデータであり、認識対象のビデオデータに対してドットマーキング認識を行うことにより、対応するカットドット識別子を追加することができる。認識長の認識対象のビデオデータをプリセットしてドットマーキング認識を行うことにより、録画したビデオデータをリアルタイムでカットすることを実現し、ビデオカットの時効性を確保し、ビデオカット効率を向上させることができる。

一般に、ビデオデータは映像とオーディオの２つの部分から構成され、映像とオーディオの２つの部分がいずれもドットマーキング認識を行うことができる。具体的には、認識対象のビデオデータに対してドットマーキング認識を行う際、認識対象のビデオデータから映像データとオーディオデータを抽出し、認識対象のビデオデータにおける映像データとオーディオデータのそれぞれに対する認識処理を同時に行うことを実現することで、ビデオ映像中にドットマーキング行動が発生したか否か、又はビデオオーディオにドットマーキング音声が発生したか否かを認識することができ、映像行動とオーディオ音声によるドットマーキング認識を実現し、ドットマーキング認識の正確性を向上させる。

ステップＳ２０３において、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得する。

認識対象のビデオデータから映像データとオーディオデータを抽出した後、映像データとオーディオデータをそれぞれ対応するドットマーキング行動認識モデルとドットマーキング音声認識モデルに入力してドットマーキング認識を行う。ここで、ドットマーキング行動認識モデルは、人工ニューラルネットワークアルゴリズムに基づき、業務システムの業務員の対応する業務場面での履歴ドットマーキング行動データを訓練することにより得られ、例えば拍手運動、手を挙げる運動、タップ運動などのドットマーキング行動運動であってもよく、ドットマーキング音声認識モデルは、例えば、「第１、第２、第３」などのキーワードの音声ドットマーキングのような、業務員の履歴ドットマーキング音声データを訓練することにより得られる。

本実施例では、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識を行い、ドットマーキング行動認識結果を取得する一方、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識を行い、ドットマーキング音声認識結果を取得する。映像データとオーディオデータをそれぞれドットマーキング認識することで、ドットマーキング操作の多様性を広げ、業務フローの円滑性を回避しつつ、ビデオカットに対する正確性を確保することができる。

ステップＳ２０５において、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいて、ドットマーキング認識結果を取得する。

ドットマーキング行動認識結果とドットマーキング音声認識結果を取得した後、両者を統合してドットマーキング認識結果を取得する。具体的には、実際の業務要件に応じて設定される所定のドットマーキングトリガ規則を照会する。例えば、ドットマーキング行動認識結果とドットマーキング音声認識結果のいずれか一方を取るように設定されてもよく、すなわち、ドットマーキング行動認識結果とドットマーキング音声認識結果のうちのいずれかのタイプがドットマーキング操作である限り、すなわちカットドット識別子を追加する必要がある場合、ドットマーキングをトリガし、得られたドットマーキング認識結果がドットマーキング操作であり、ドットマーキング行動認識結果とドットマーキング音声認識結果の両方を取るように設定されてもよく、すなわちドットマーキング行動認識結果とドットマーキング音声認識結果のタイプが同時にドットマーキング操作である場合のみ、ドットマーキングをトリガし、得られたドットマーキング認識結果のタイプがドットマーキング操作である。

ステップＳ２０７において、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加する。

ドットマーキング認識結果を取得した後、当該ドットマーキング認識結果のタイプを判断し、ドットマーキング認識結果のタイプがドットマーキング操作である場合、当該認識対象のビデオデータ中の映像データ及び／又はオーディオデータがドットマーキングをトリガしたことを示し、当該認識対象のビデオデータがビデオカット位置であり、これに対してドットマーキング処理を行い、具体的には当該認識対象のビデオデータにカットドット識別子を追加することができる。そのうち、カットドット識別子は、ビデオカットのカットドットを認識するために用いられ、ビデオストリームデータをカットする際、直接、当該カットドット識別子を検索してカット処理を行うことができる。

具体的な実現において、カットドット識別子は、カットラベルとしてもよく、認識対象のビデオデータにカットドット識別子を追加する場合、所定のラベルに従って規則を追加し、当該認識対象のビデオデータからキーフレームを決定し、例えば、認識対象のビデオデータの先頭フレームをキーフレームとして、当該キーフレームにカットラベルを追加し、カットラベルは、カットドット番号、カット時間値などを含むことができるが、これらに限定されない。

ステップＳ２０９において、カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得する。

ビデオストリームデータをカット処理する際には、ビデオストリームデータ中のカットドット識別子を検索し、当該カットドット識別子に応じてカット処理を行うことで、ビデオストリームデータを分割し、各ビデオセグメントデータを取得する。

上記のビデオカット方法では、ビデオストリームデータから得られた認識対象のビデオデータから映像データとオーディオデータを抽出し、映像データとオーディオデータをそれぞれ対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルに入力し、さらに得られたドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得し、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加し、最後に当該カットドット識別子に応じてビデオストリームデータをカットして、ビデオセグメントデータを取得する。ビデオカット処理では、認識対象のビデオデータ中の映像データ及びオーディオデータに基づいてドットマーキング認識を行い、カットドット識別子を追加することができ、手動でドットマーキング操作を行う必要がなく、ビデオカットの処理効率を向上させる。

いくつかの実施例において、ビデオストリームデータから認識対象のビデオデータを抽出することは、ビデオストリームデータを取得することと、ビデオストリーム認識長を決定することと、ビデオストリーム認識長に従って、ビデオストリームデータから認識対象のビデオデータを抽出することと、を含む。

録画機器１０２が直接録画したビデオストリームデータについて、直接、ドットマーキング認識処理を行うことができず、一定の認識長の認識対象のビデオデータに分割し、認識対象のビデオデータによりドットマーキング認識を行う必要がある。本実施例では、ビデオストリームデータから認識対象のビデオデータを抽出する際、ビデオストリームデータを先に取得し、具体的には、録画機器１０２からリアルタイムで録画されたビデオストリームデータを直接受信してもよいし、予め設定されたメモリから録画済みのビデオストリームデータを読み出してもよい。一方、ビデオストリーム認識長を決定し、当該ビデオストリーム認識長は、実際の要件、例えばドットマーキング行動認識モデルとドットマーキング音声認識モデルの入力要件に基づいて設定されてもよいし、サーバ１０４の処理リソースに基づいて設定されてもよい。ビデオストリーム認識長が決定されると、当該ビデオストリーム認識長に従って、ビデオストリームデータから認識対象のビデオデータを抽出する。具体的な応用に際しては、ビデオストリームデータから、ビデオストリーム認識長を満たす認識対象のビデオデータを順次抽出し、さらに抽出した認識対象のビデオデータに対して後続のドットマーキング認識処理を行うようにしてもよい。

その一実施例において、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得することは、認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定することと、身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会することと、映像データから映像特徴データを抽出し、オーディオデータからオーディオ特徴データを抽出することと、映像特徴データをドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオ特徴データをドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得することと、を含む。

本実施例では、ドットマーキング行動認識モデルとドットマーキング音声認識モデルは、いずれも業務システムにおける各業務員の履歴ドットマーキングデータに基づいて訓練されたものである。一般に、業務の面対面チェックデュアルレコーディングでは、業務システムによってドットマーキング操作の要求が異なり、また、業務員によってドットマーキング操作の習慣が異なる。

具体的には、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得する際に、認識対象のビデオデータに対応する所属の業務員の身分識別情報を先ず決定する。応用に際しては、各業務サービスウィンドウに対して、いずれも録画機器１０２が設けられ、認識対象のビデオデータの由来、すなわち、録画機器１０２により対応する所属の業務員を決定し、さらに当該業務員に対応する身分識別情報を照会することができる。身分識別情報は、限定されるものではないが、業務員番号、業務員の名前など、業務員を一意に認識可能な認識情報であってもよい。身分識別情報を決定した後、当該身分識別情報に対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会し、ドットマーキング行動認識モデルとドットマーキング音声認識モデルはそれぞれ対応する業務員の履歴ドットマーキング行動データと履歴ドットマーキング音声データに基づいて訓練されて得られ、ドットマーキング認識の標的性が高く、認識精度が高い。

ドットマーキング行動認識モデルとドットマーキング音声認識モデルが得られた後、映像データから映像特徴データを抽出し、映像特徴データをドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を得る。一方、オーディオデータからオーディオ特徴データを抽出し、オーディオ特徴データをドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を得る。映像データとオーディオデータに対してドットマーキング認識を行う際、特徴抽出を行い、不要な冗長情報をフィルタリングして映像特徴データとオーディオ特徴データを得て、後続のドットマーキング認識処理を行い、ドットマーキング行動認識結果とドットマーキング音声認識結果を得る。

その一実施例において、身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会する前に、業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得することと、履歴行動映像データと履歴ドットマーキング音声データを業務員によってそれぞれ分類し、各業務員に対応する履歴行動映像データと各業務員に対応する履歴ドットマーキング音声データを取得することと、各業務員に対応する履歴行動映像データを訓練してドットマーキング行動認識モデルを取得することと、各業務員に対応する履歴ドットマーキング音声データを訓練してドットマーキング音声認識モデルを取得することと、をさらに含む。

ドットマーキング行動認識モデルとドットマーキング音声認識モデルを訓練する際、先ず業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得する。ここで、履歴行動映像データは、業務システムにおける各業務員が業務面対面チェックを行う過程で、デュアルレコーディングで撮影したドットマーキング映像データであってもよく、例えば拍手、手を挙げること、両手を交差させること、頭を打つことなどのドットマーキング行動を含み得、履歴ドットマーキング音声データは、キーワードフレーズ、「Ｘ番目の質問」、「分かりました、ありがとうございます」などの履歴行動映像データに類似している。具体的な応用では、各業務員は個人的な習慣が異なり、対応する履歴行動映像データと履歴ドットマーキング音声データでドットマーキング操作の表現も異なるため、業務員ごとに履歴行動映像データと履歴ドットマーキング音声データを分類し、対応するドットマーキング行動認識モデルとドットマーキング音声認識モデルを各業務員に構築する。

具体的には、各業務員に対応する履歴行動映像データを訓練して、ドットマーキング行動認識モデルを得て、各業務員に対応する履歴ドットマーキング音声データを訓練し、ドットマーキング音声認識モデルを得る。具体的に実現する場合、履歴行動映像データを訓練サンプルセットとテストサンプルセットに分け、監視あり学習方法により当該訓練サンプルセットを訓練し、テスト対象ドットマーキング行動モデルを得て、さらにテストサンプルセットによりテスト対象ドットマーキング行動モデルに対して認識精度テストを行い、認識精度テストを通過した後、ドットマーキング行動認識モデルを得ることができる。ドットマーキング音声認識モデルの訓練手順は、ドットマーキング行動認識モデルと同様である。

その一実施例において、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいて、ドットマーキング認識結果を得ることは、行動トリガ規則と音声トリガ規則とを含む所定のドットマーキングトリガ規則を照会することと、ドットマーキング行動認識結果と行動トリガ規則を比較して、行動トリガ結果を得ることと、ドットマーキング音声認識結果と音声トリガ規則を比較して、音声トリガ結果を得ることと、行動トリガ結果と音声トリガ結果に基づいて、ドットマーキング認識結果を得ることと、を含む。

ドットマーキング行動認識結果とドットマーキング音声認識結果を得た後、実際の業務要件のドットマーキングトリガ規則と組み合わせて、ドットマーキング認識結果を得る。具体的には、所定のドットマーキングトリガ規則を照会し、当該ドットマーキングトリガ規則は、実際の業務要件に従って設定され、具体的には、業務タイプ及び業務員の習慣に従って設定され、例えば、映像データで業務員の拍手行動が認識された場合、又はオーディオデータで「Ｘ番目の質問」のキーフレーズが認識された場合に、ドットマーキングをトリガすると考えられる。ドットマーキングトリガ規則は、行動トリガ規則と音声トリガ規則とを含み、映像データのドットマーキング認識とオーディオデータのドットマーキング認識にそれぞれ対応する。

ドットマーキング行動認識結果を行動トリガ規則と比較して、行動トリガ結果を得る一方、ドットマーキング音声認識結果を音声トリガ規則と比較して、音声トリガ結果を得る。最後に、行動トリガ結果と音声トリガ結果を統合して、ドットマーキング認識結果を得て、例えば行動トリガ結果と音声トリガ結果のいずれか一方を演算することができ、すなわち行動トリガ結果と音声トリガ結果のいずれか一方のタイプがドットマーキング操作である場合、すなわち得られたドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータに対してカットドット識別子追加処理を行う。

その一実施例において、図３に示すように、ドットマーキングカット命令に応答するステップをさらに含み、具体的には、ステップＳ３０１と、ステップＳ３０３と、ステップＳ３０５と、ステップＳ３０７と、を含む。

ステップＳ３０１において、ドットマーキングカット命令を受信すると、ドットマーキングカット命令のカット時刻値を決定する。

本実施例において、ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータに対してドットマーキング認識を行うことに加えて、外部から送信されたドットマーキングカット命令に応答して、手動でドットマーキングすることを実現することができる。具体的には、ドットマーキングカット命令を受信した場合、当該ドットマーキングカット命令のカット時刻値を決定する。ここで、ドットマーキングカット命令は、例えば、業務員が関連するドットマーキングボタンをクリックするように、外部から送信されてもよく、カット時刻値は、ドットマーキングカット命令の送信時間であり、ビデオストリームデータにおいてドットマーキング操作が必要な時間軸位置を反映している。

ステップＳ３０３において、認識対象のビデオデータにおいて、カット時刻値に対応するカットビデオフレームを決定する。

ドットマーキングカット命令のカット時刻値を決定した後、認識対象のビデオデータから、当該カット時刻値に対応するカットビデオフレームを決定する。一般に、外部からドットマーキングカット命令を送信すると、認識対象のビデオデータにおいて、当該時刻に対応するビデオフレームがドットマーキング操作を行う必要があることを示し、当該ドットマーキングカット命令のカット時刻値に基づいて認識対象のビデオデータの時間軸から対応するカットビデオフレームを決定することができる。

ステップＳ３０５において、カットビデオフレームにカットドット識別子を追加する。

カットビデオフレームを決定した後、当該カットビデオフレームにカットドット識別子を追加し、カットドット識別子は、ビデオカットのカットドットを認識するために用いられ、ビデオストリームデータをカットする際に、当該カットドット識別子を直接検索してカット処理を行うことができる。

ステップＳ３０７において、カットドット識別子に応じてビデオストリームデータをカット処理することに戻り、ビデオセグメントデータを取得する。

カットドット識別子を追加した後、カットドット識別子に応じてビデオストリームデータをカット処理するステップに戻り、ビデオストリームデータにおけるカットドット識別子を検索して、さらに当該カットドット識別子に応じてカット処理を行うことで、ビデオストリームデータを分割して各ビデオセグメントデータを取得する。

本実施例において、認識対象のビデオデータの映像データ及びオーディオデータをドットマーキング認識することに加えて、外部から送信されるドットマーキングカット命令をリアルタイムで受信し、当該ドットマーキングカット命令に基づいてビデオカット処理を行い、外部からのビデオカットの制御を実現し、ビデオカットの操作の多様性を効果的に拡張し、ビデオカット処理の効率を向上させることができる。

いくつかの実施例において、ビデオセグメントデータを取得した後、ビデオセグメントデータからオーディオセグメントデータを抽出することと、所定の音声認識モデルを照会することと、オーディオセグメントデータを音声認識モデルに入力して、ビデオセグメントデータの訳文データを取得することと、訳文データに基づいてビデオセグメントデータに対応する業務タイプを決定し、ビデオセグメントデータを業務タイプに対応する記憶位置に記憶することと、をさらに含む。

本実施例において、ビデオストリームデータをカット処理したビデオセグメントデータを取得した後、各ビデオセグメントデータの業務タイプに応じて、対応する記憶位置に記憶することができる。具体的には、ビデオセグメントデータからオーディオセグメントデータを抽出し、オーディオセグメントデータは、ビデオセグメントデータにおける会話データを含み、当該オーディオセグメントデータに基づいて、当該ビデオセグメントデータに対応する業務タイプを決定することができる。所定の音声認識モデルを照会し、音声認識モデルは、入力された音声データを音声認識して、対応する訳文データを取得することができる。

本実施例において、オーディオセグメントデータを当該音声認識モデルに入力して、ビデオセグメントデータの訳文データを得て、訳文データはテキスト形式のデータであってもよく、当該訳文データに基づいて、ビデオセグメントデータに対応する業務タイプを決定することができる。具体的な実現において、訳文データから業務キーワードを抽出し、得られた業務キーワードに基づいて対応する業務タイプをマッチングしてもよい。ビデオセグメントデータに対応する業務タイプを決定した後、当該ビデオセグメントデータを業務タイプに対応する記憶位置に記憶する。例えば、当該業務タイプに対応する所定の記憶位置を照会し、ビデオセグメントデータを当該記憶位置に記憶することで、ビデオセグメントデータの自動分類記憶を実現することができる。

その一実施例において、図４に示すように、ビデオカット方法を提供し、ステップＳ４０１と、Ｓ４０２と、Ｓ４０３と、Ｓ４０４と、Ｓ４０５と、Ｓ４０６と、Ｓ４０７と、Ｓ４０８と、Ｓ４０９と、Ｓ４１０と、Ｓ４１１と、Ｓ４１２と、Ｓ４１３と、Ｓ４１４と、Ｓ４１５と、を含む。

ステップＳ４０１において、ビデオストリームデータを取得する。

ステップＳ４０２において、ビデオストリーム認識長を決定する。

ステップＳ４０３において、ビデオストリーム認識長に従って、ビデオストリームデータから認識対象のビデオデータを抽出する。

ステップＳ４０４において、認識対象のビデオデータから映像データ及びオーディオデータを抽出する。

本実施例では、サーバ１０４は、録画機器１０２から送信されたビデオストリームデータを受信し、実際の要件に応じて設定されたビデオストリーム認識長を決定し、当該ビデオストリーム認識長に従って、ビデオストリームデータからビデオストリーム認識長を満たす認識対象のビデオデータを順次抽出し、さらに抽出された認識対象のビデオデータに対して後続のドットマーキング認識処理を行う。

ステップＳ４０５において、認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定する。

ステップＳ４０６において、身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会する。

ステップＳ４０７において、映像データから映像特徴データを抽出し、オーディオデータからオーディオ特徴データを抽出する。

ステップＳ４０８において、映像特徴データをドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、オーディオ特徴データをドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得る。

映像データとオーディオデータを取得した後、認識対象のビデオデータの由来により、すなわち、録画機器１０２により対応する所属の業務員を決定し、さらに当該業務員に対応する、業務員番号及び／又は業務員の名前である身分識別情報を照会する。当該身分識別情報に対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会し、ドットマーキング行動認識モデルとドットマーキング音声認識モデルはそれぞれ対応する業務員の履歴ドットマーキング行動データと履歴ドットマーキング音声データに基づいて訓練されて得られ、ドットマーキング認識の標的性が高く、認識精度が高い。映像データから映像特徴データを抽出し、映像特徴データをドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を得る。一方、オーディオデータからオーディオ特徴データを抽出し、オーディオ特徴データをドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を得る。

ステップＳ４０９において、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいて、ドットマーキング認識結果を得る。

ドットマーキング行動認識結果とドットマーキング音声認識結果を得た後、実際の業務要件のドットマーキングトリガ規則と組み合わせて、ドットマーキング認識結果を得る。具体的には、行動トリガ規則と音声トリガ規則とを含む所定のドットマーキングトリガ規則を照会することと、ドットマーキング行動認識結果と行動トリガ規則を比較して、行動トリガ結果を得ることと、ドットマーキング音声認識結果と音声トリガ規則を比較して、音声トリガ結果を得ることと、行動トリガ結果と音声トリガ結果に基づいて、ドットマーキング認識結果を得ることと、を含む。

ステップＳ４１０において、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加する。

ステップＳ４１１において、カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得する。

ドットマーキング認識結果を取得した後、そのタイプを判断し、ドットマーキング認識結果のタイプがドットマーキング操作である場合、当該認識対象のビデオデータがカットドットであることを示し、これにドットマーキング処理を行い、具体的には、当該認識対象のビデオデータにカットドット識別子を追加することができる。ビデオストリームデータにおけるカットドット識別子を照会し、当該カットドット識別子に応じてカット処理を行うことで、ビデオストリームデータを分割し、各ビデオセグメントデータを取得する。

ステップＳ４１２において、ビデオセグメントデータからオーディオセグメントデータを抽出する。

ステップＳ４１３において、所定の音声認識モデルを照会する。

ステップＳ４１４において、オーディオセグメントデータを音声認識モデルに入力してビデオセグメントデータの訳文データを取得する。

ステップＳ４１５において、訳文データに基づいてビデオセグメントデータに対応する業務タイプを決定し、ビデオセグメントデータを業務タイプに対応する記憶位置に記憶する。

本実施例において、ビデオストリームデータをカット処理したビデオセグメントデータを取得した後、各ビデオセグメントデータの業務タイプに応じて、対応する記憶位置に記憶することで、ビデオセグメントデータの自動分類記憶を実現する。

なお、図２～図４のフローチャートにおける各ステップは、矢印で示す順序で順次表示されるが、必ずしも矢印で示す順序で順次実行される必要はない。これらのステップの実行は、本明細書に明示的に記載されていない限り、厳密な順序の制限がなく、他の順序で実行されてもよい。さらに、図２～図４の少なくとも一部のステップは、複数のサブステップ又は複数の段階を含み得、これらのサブステップ又は段階は、必ずしも同じ時刻で実行を完了する必要はなく、異なる時刻で実行することができ、これらのサブステップ又は段階の実行順序も、必ずしも順次行う必要はなく、他のステップ又は他のステップのサブステップ又は段階の少なくとも一部と順番に又は交互に実行することができる。

その一実施例において、図５に示すように、ビデオカット装置を提供し、認識データ抽出モジュール５０１と、ドットマーキング認識処理モジュール５０３と、ドットマーキング結果取得モジュール５０５と、カット識別子追加モジュール５０７と、ビデオカットモジュール５０９とを含む。

認識データ抽出モジュール５０１は、ビデオストリームデータから認識対象のビデオデータを抽出し、認識対象のビデオデータから映像データとオーディオデータを抽出するために用いられる。

ドットマーキング認識処理モジュール５０３は、映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するために用いられる。

ドットマーキング結果取得モジュール５０５は、ドットマーキング行動認識結果、ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するために用いられる。

カット識別子追加モジュール５０７は、ドットマーキング認識結果のタイプがドットマーキング操作である場合、認識対象のビデオデータにカットドット識別子を追加するために用いられる。

ビデオカットモジュール５０９は、カットドット識別子に応じてビデオストリームデータをカット処理し、ビデオセグメントデータを取得するために用いられる。

その一実施例において、認識データ抽出モジュール５０１は、ビデオストリーム取得ユニットと、認識長決定ユニットと、認識データ抽出ユニットと、を含み、ここで、ビデオストリーム取得ユニットは、ビデオストリームデータを取得するために用いられ、認識長決定ユニットは、ビデオストリーム認識長を決定するために用いられ、認識データ抽出ユニットは、ビデオストリーム認識長に従って、ビデオストリームデータから認識対象のビデオデータを抽出するために用いられる。

その一実施例において、ドットマーキング認識処理モジュール５０３は、身分識別決定ユニットと、認識モデル照会ユニットと、特徴データ抽出ユニットと、ドットマーキング認識ユニットと、を含み、ここで、身分識別決定ユニットは、認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するために用いられ、認識モデル照会ユニットは、身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するために用いられ、特徴データ抽出ユニットは、映像データから映像特徴データを抽出し、オーディオデータからオーディオ特徴データを抽出するために用いられ、ドットマーキング認識ユニットは、映像特徴データをドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、オーディオ特徴データをドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るために用いられる。

その一実施例において、履歴データ取得モジュールと、履歴データ分類モジュールと、行動認識モデル訓練モジュールと、音声認識モデル訓練モジュールと、をさらに含み、ここで、履歴データ取得モジュールは、業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得するために用いられ、履歴データ分類モジュールは、履歴行動映像データと履歴ドットマーキング音声データをそれぞれ業務員によって分類し、各業務員に対応する履歴行動映像データと各業務員に対応する履歴ドットマーキング音声データを取得するために用いられ、行動認識モデル訓練モジュールは、各業務員に対応する履歴行動映像データを訓練し、ドットマーキング行動認識モデルを取得するために用いられ、音声認識モデル訓練モジュールは、各業務員に対応する履歴ドットマーキング音声データを訓練し、ドットマーキング音声認識モデルを取得するために用いられる。

その一実施例において、ドットマーキング結果取得モジュール５０５は、トリガ規則照会ユニットと、行動比較ユニットと、音声比較ユニットと、ドットマーキング結果取得ユニットと、を含み、ここで、トリガ規則照会ユニットは、行動トリガ規則と音声トリガ規則とを含む所定のドットマーキングトリガ規則を照会するために用いられ、行動比較ユニットは、ドットマーキング行動認識結果と行動トリガ規則を比較し、行動トリガ結果を取得するために用いられ、音声比較ユニットは、ドットマーキング音声認識結果と音声トリガ規則を比較し、音声トリガ結果を取得するために用いられ、ドットマーキング結果取得ユニットは、行動トリガ結果と音声トリガ結果に基づいて、ドットマーキング認識結果を取得するために用いられる。

その一実施例において、カット命令受信モジュールと、カットフレーム決定モジュールと、識別子追加モジュールと、カット処理モジュールと、をさらに含み、ここで、カット命令受信モジュールは、ドットマーキングカット命令を受信すると、ドットマーキングカット命令のカット時刻値を決定するために用いられ、カットフレーム決定モジュールは、認識対象のビデオデータにおいて、カット時刻値に対応するカットビデオフレームを決定するために用いられ、識別子追加モジュールは、カットビデオフレームにカットドット識別子を追加するために用いられ、カット処理モジュールは、カットドット識別子に応じてビデオストリームデータをカット処理することに戻り、ビデオセグメントデータを取得するために用いられる。

その一実施例において、オーディオセグメント抽出モジュールと、音声認識モデル照会モジュールと、訳文データ取得モジュールと、ビデオセグメント記憶モジュールと、をさらに含み、ここで、オーディオセグメント抽出モジュールは、ビデオセグメントデータからオーディオセグメントデータを抽出するために用いられ、音声認識モデル照会モジュールは、所定の音声認識モデルを照会するために用いられ、訳文データ取得モジュールは、オーディオセグメントデータを音声認識モデルに入力し、ビデオセグメントデータの訳文データを取得するために用いられ、ビデオセグメント記憶モジュールは、訳文データに基づいてビデオセグメントデータに対応する業務タイプを決定し、ビデオセグメントデータを業務タイプに対応する記憶位置に記憶するために用いられる。

ビデオカット装置の具体的な限定については、ビデオカット方法についての上記の限定を参照すればよく、ここでその説明を省略する。上記のビデオカット装置における各モジュールは、その全部又は一部をソフトウェア、ハードウェア及びそれらの組み合わせによって実現することができる。上記の各モジュールは、ハードウェアの形態でコンピュータ機器のプロセッサに内蔵されてもよいし、独立してもよいし、ソフトウェアの形態でコンピュータ機器のメモリに記憶されて、プロセッサが上記の各モジュールに対応する操作を実行するようにしてもよい。

その一実施例において、サーバであり得るコンピュータ機器を提供し、その内部構造図は、図６に示される。当該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ、及びネットワークインタフェースを含む。ここで、当該コンピュータ機器のプロセッサは、計算及び制御機能を提供するために用いられる。当該コンピュータ機器のメモリは、不揮発性記憶媒体、内部メモリを含む。当該不揮発性記憶媒体は、オペレーティングシステム及びコンピュータ読み取り可能な命令を記憶している。当該内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ読み取り可能な命令の実行のための環境を提供する。当該コンピュータ機器のネットワークインタフェースは、外部の端末とネットワークを介して接続通信を行うためのものである。当該コンピュータ読み取り可能な命令は、プロセッサによって実行されると、ビデオカット方法を実現する。

当業者であれば、図６に示される構造は、本願の技術案に関連する部分的な構造のブロック図に過ぎず、本願の技術案が適用されるコンピュータ機器を限定するものではなく、具体的なコンピュータ機器は、図に示されるよりも多いか又は少ない構成要素を含んでもよく、又はいくつかの構成要素を組み合わせるか、異なる構成要素配置を有してもよいことを理解できる。

コンピュータ機器は、メモリと、１つ又は複数のプロセッサとを含み、メモリは、コンピュータ読み取り可能な命令を記憶し、コンピュータ読み取り可能な命令は、プロセッサによって実行されると、本願の実施例のいずれかにおいて提供されるビデオカット方法のステップを実現する。

コンピュータ読み取り可能な命令が記憶された１つ又は複数の不揮発性記憶媒体であって、コンピュータ読み取り可能な命令は、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、本願の実施例のいずれかにおいて提供されるビデオカット方法のステップを実現する。

当業者であれば、上記の実施例を実現する方法の全部又は一部の流れが、コンピュータ読み取り可能な命令により、関連するハードウェアに命令することにより実現され、前記コンピュータ読み取り可能な命令は、不揮発性コンピュータ読み取り可能な記憶媒体に記憶され、当該コンピュータ読み取り可能な命令が実行されると、上記の各方法の実施例の流れを含み得ることを理解することができる。ここで、本願で提供される各実施例で使用されるメモリ、ストレージ、データベース、又は他の媒体への任意の参照は、いずれも不揮発性及び／又は揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部キャッシュメモリを含み得る。限定ではなく例示として、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、エンハンストＳＤＲＡＭ（ＥＳＤＲＡＭ）、同期リンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、メモリバス（Ｒａｍｂｕｓ）ダイレクトＲＡＭ（ＲＤＲＡＭ）、ダイレクトメモリバスダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びメモリバスダイナミックＲＡＭ（ＲＤＲＡＭ）など、様々な形態で利用可能である。

上記の実施例の各技術的特徴は、任意に組み合わせることが可能であり、説明を簡潔にするために、上記の実施例の各技術的特徴の全ての可能な組み合わせを説明していないが、これらの技術的特徴の組み合わせに矛盾が生じない限り、本明細書に記載の範囲とみなされるべきである。

上記の実施例は、本願のいくつかの実施形態のみを示したものであり、その説明は、より具体的かつ詳細であるが、これにより、特許請求の範囲を制限するものと理解すべきではない。なお、当業者であれば、本願の要旨を逸脱しない前提で、多くの変更や改善を行うことができ、これらはいずれも本願の保護範囲である。したがって、本願特許の保護範囲は、添付の特許請求の範囲に準じるものとする。

Claims

ビデオカット方法であって、
ビデオストリームデータから認識対象のビデオデータを抽出し、前記認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加するステップと、
前記カットドット識別子に応じて前記ビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を含む、
ビデオカット方法。
ビデオストリームデータから認識対象のビデオデータを抽出する前記ステップは、
ビデオストリームデータを取得するステップと、
ビデオストリーム認識長を決定するステップと、
前記ビデオストリーム認識長に従って、前記ビデオストリームデータから認識対象のビデオデータを抽出するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得する前記ステップは、
前記認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するステップと、
前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するステップと、
前記映像データから映像特徴データを抽出し、前記オーディオデータからオーディオ特徴データを抽出するステップと、
前記映像特徴データを前記ドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、前記オーディオ特徴データを前記ドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るステップと、
ことを特徴とする請求項１に記載の方法。
前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会する前記ステップの前に、前記方法は、さらに、
業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得するステップと、
前記履歴行動映像データと前記履歴ドットマーキング音声データを業務員によってそれぞれ分類し、各業務員に対応する履歴行動映像データと各業務員に対応する履歴ドットマーキング音声データを取得するステップと、
前記各業務員に対応する履歴行動映像データを訓練して前記ドットマーキング行動認識モデルを取得するステップと、
前記各業務員に対応する履歴ドットマーキング音声データを訓練して前記ドットマーキング音声認識モデルを取得するステップと、を含む、
ことを特徴とする請求項３に記載の方法。
前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得する前記ステップは、
行動トリガ規則と音声トリガ規則とを含む所定のドットマーキングトリガ規則を照会するステップと、
前記ドットマーキング行動認識結果と前記行動トリガ規則を比較して、行動トリガ結果を得るステップと、
前記ドットマーキング音声認識結果と前記音声トリガ規則を比較して、音声トリガ結果を得るステップと、
前記行動トリガ結果と前記音声トリガ結果に基づいて、ドットマーキング認識結果を得るステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記行動トリガ結果と前記音声トリガ結果に基づいて、ドットマーキング認識結果を得る前記ステップは、
前記行動トリガ結果と前記音声トリガ結果のいずれか一方を演算して、ドットマーキング認識結果を得るステップ、を含む、
ことを特徴とする請求項５に記載の方法。
前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加する前記ステップは、
前記ドットマーキング認識結果のタイプを決定するステップと、
前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、所定のラベル追加規則を照会するステップと、
前記ラベル追加規則に基づいて、前記認識対象のビデオデータからキーフレームを決定し、前記キーフレームにカットラベルを追加し、前記カットドット識別子は、前記カットラベルを含むステップと、を含む、
ことを特徴とする請求項１に記載の方法。
ドットマーキングカット命令を受信すると、前記ドットマーキングカット命令のカット時刻値を決定するステップと、
前記認識対象のビデオデータにおいて、前記カット時刻値に対応するカットビデオフレームを決定するステップと、
前記カットビデオフレームにカットドット識別子を追加するステップと、
前記カットドット識別子に応じて前記ビデオストリームデータをカット処理する前記ステップに戻り、ビデオセグメントデータを取得するステップと、をさらに含む、
ことを特徴とする請求項１乃至７のいずれか１項に記載の方法。
ビデオセグメントデータを取得する前記ステップの後、前記方法は、
前記ビデオセグメントデータからオーディオセグメントデータを抽出するステップと、
所定の音声認識モデルを照会するステップと、
前記オーディオセグメントデータを前記音声認識モデルに入力して、前記ビデオセグメントデータの訳文データを取得するステップと、
前記訳文データに基づいて前記ビデオセグメントデータに対応する業務タイプを決定し、前記ビデオセグメントデータを前記業務タイプに対応する記憶位置に記憶するステップと、をさらに含む、
ことを特徴とする請求項８に記載の方法。
前記訳文データに基づいて前記ビデオセグメントデータに対応する業務タイプを決定し、前記ビデオセグメントデータを前記業務タイプに対応する記憶位置に記憶する前記ステップは、
前記訳文データから業務キーワードを抽出するステップと、
前記業務キーワードに基づいて前記ビデオセグメントデータに対応する業務タイプを決定するステップと、
前記業務タイプに対応する所定の記憶位置を照会するステップと、
前記ビデオセグメントデータを前記記憶位置に記憶するステップと、を含む、
ことを特徴とする請求項９に記載の方法。
ビデオカット装置であって、
ビデオストリームデータから認識対象のビデオデータを抽出し、前記認識対象のビデオデータから映像データとオーディオデータを抽出するための認識データ抽出モジュールと、
前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するためのドットマーキング認識処理モジュールと、
前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するためのドットマーキング結果取得モジュールと、
前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加するためのカット識別子追加モジュールと、
前記カットドット識別子に応じて前記ビデオストリームデータをカット処理し、ビデオセグメントデータを取得するためのビデオカットモジュールと、を含む、
ビデオカット装置。
前記認識データ抽出モジュールは、
ビデオストリームデータを取得するためのビデオストリーム取得ユニットと、
ビデオストリーム認識長を決定するための認識長決定ユニットと、
前記ビデオストリーム認識長に従って、前記ビデオストリームデータから認識対象のビデオデータを抽出するための認識データ抽出ユニットと、を含む、
ことを特徴とする請求項１１に記載の装置。
前記ドットマーキング認識処理モジュールは、
前記認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するための身分識別決定ユニットと、
前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するための認識モデル照会ユニットと、
前記映像データから映像特徴データを抽出し、前記オーディオデータからオーディオ特徴データを抽出するための特徴データ抽出ユニットと、
前記映像特徴データを前記ドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、前記オーディオ特徴データを前記ドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るためのドットマーキング認識ユニットと、を含む、
ことを特徴とする請求項１１に記載の装置。
前記装置は、
業務システムから履歴行動映像データと履歴ドットマーキング音声データを取得するための履歴データ取得モジュールと、
前記履歴行動映像データと前記履歴ドットマーキング音声データをそれぞれ業務員によって分類し、各業務員に対応する履歴行動映像データと各業務員に対応する履歴ドットマーキング音声データを取得するための履歴データ分類モジュールと、
前記各業務員に対応する履歴行動映像データを訓練し、前記ドットマーキング行動認識モデルを取得するための行動認識モデル訓練モジュールと、
前記各業務員に対応する履歴ドットマーキング音声データを訓練し、前記ドットマーキング音声認識モデルを取得するための音声認識モデル訓練モジュールと、をさらに含む、
ことを特徴とする請求項１３に記載の装置。
コンピュータ機器であって、メモリと１つ又は複数のプロセッサとを含み、前記メモリは、コンピュータ読み取り可能な命令を記憶し、前記コンピュータ読み取り可能な命令は、前記１つ又は複数のプロセッサによって実行されると、
ビデオストリームデータから認識対象のビデオデータを抽出し、前記認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加するステップと、
前記カットドット識別子に応じて前記ビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を前記１つ又は複数のプロセッサに実行させる、
コンピュータ機器。
前記プロセッサは、前記コンピュータ読み取り可能な命令を実行する際に、さらに、
ビデオストリームデータを取得するステップと、
ビデオストリーム認識長を決定するステップと、
前記ビデオストリーム認識長に従って、前記ビデオストリームデータから認識対象のビデオデータを抽出するステップと、を実行する、
ことを特徴とする請求項１５に記載のコンピュータ機器。
前記プロセッサは、前記コンピュータ読み取り可能な命令を実行する際に、さらに、
前記認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するステップと、
前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するステップと、
前記映像データから映像特徴データを抽出し、前記オーディオデータからオーディオ特徴データを抽出するステップと、
前記映像特徴データを前記ドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、前記オーディオ特徴データを前記ドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るステップと、を実行する、
ことを特徴とする請求項１５に記載のコンピュータ機器。
コンピュータ読み取り可能な命令を記憶した１つ又は複数の不揮発性コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な命令は、１つ又は複数のプロセッサによって実行されると、
ビデオストリームデータから認識対象のビデオデータを抽出し、前記認識対象のビデオデータから映像データとオーディオデータを抽出するステップと、
前記映像データを所定のドットマーキング行動認識モデルに入力してドットマーキング行動認識結果を取得し、前記オーディオデータを所定のドットマーキング音声認識モデルに入力してドットマーキング音声認識結果を取得するステップと、
前記ドットマーキング行動認識結果、前記ドットマーキング音声認識結果、及び所定のドットマーキングトリガ規則に基づいてドットマーキング認識結果を取得するステップと、
前記ドットマーキング認識結果のタイプがドットマーキング操作である場合、前記認識対象のビデオデータにカットドット識別子を追加するステップと、
前記カットドット識別子に応じて前記ビデオストリームデータをカット処理し、ビデオセグメントデータを取得するステップと、を前記１つ又は複数のプロセッサに実行させる、
コンピュータ読み取り可能な命令を記憶した１つ又は複数の不揮発性コンピュータ読み取り可能な記憶媒体。
前記コンピュータ読み取り可能な命令は、前記プロセッサに実行させると、さらに、
ビデオストリームデータを取得するステップと、
ビデオストリーム認識長を決定するステップと、
前記ビデオストリーム認識長に従って、前記ビデオストリームデータから認識対象のビデオデータを抽出するステップと、を実行する、
ことを特徴とする請求項１８に記載の記憶媒体。
前記コンピュータ読み取り可能な命令は、前記プロセッサに実行させると、さらに、
前記認識対象のビデオデータに対応する所属の業務員の身分識別情報を決定するステップと、
前記身分識別情報のそれぞれに対応する所定のドットマーキング行動認識モデルとドットマーキング音声認識モデルを照会するステップと、
前記映像データから映像特徴データを抽出し、前記オーディオデータからオーディオ特徴データを抽出するステップと、
前記映像特徴データを前記ドットマーキング行動認識モデルに入力し、ドットマーキング行動認識結果を得て、前記オーディオ特徴データを前記ドットマーキング音声認識モデルに入力し、ドットマーキング音声認識結果を得るステップと、を実行する、
ことを特徴とする請求項１８に記載の記憶媒体。