JP2022135930A

JP2022135930A - ビデオ分類方法、装置、機器、および記憶媒体

Info

Publication number: JP2022135930A
Application number: JP2022005486A
Authority: JP
Inventors: ヤン、フ; Hu Yang; ヘ、フェン; Feng He; ワン、チ; Qi Wang; フェン、ジファン; Zhifan Feng; チャイ、チュングアン; Chunguang Chai; ジュ、ヨン; Yong Zhu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-05
Filing date: 2022-01-18
Publication date: 2022-09-15
Anticipated expiration: 2042-01-18
Also published as: EP4053802A1; US20220284218A1; KR20220125672A; CN113159010B; JP7334395B2; CN113159010A

Abstract

【課題】ビデオ分類の精度を向上させることができるビデオ分類方法、装置、機器及び記憶媒体を提供する。【解決手段】ビデオ分類方法は、テキストコンテンツと視覚情報を含むビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出するステップと、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定するステップと、認識すべきテキストを分類して、ビデオのカテゴリを取得するステップと、を含む。【選択図】図１

Description

本開示は、コンピュータ技術の分野に関し、具体的には、知識グラフ、コンピュータビジョン、ディープラーニングなどの人工知能技術の分野に関し、特に、ビデオ分類方法、装置、機器、および記憶媒体に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、人間のある思考プロセスと知能行為（たとえば、学習、推理、思考、計画など）をコンピュータでシミュレートすることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的に、たとえば、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術および機械学習／ディープラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。

情報技術の発展により、ビデオは、情報伝達を担う主要な方式の一つになっている。ビデオデータの急速な増加に伴い、分類に基づいてビデオに対して記憶、管理などを行うように、ビデオを分類することができる。

関連技術では、通常、ビデオの単一のモーダル情報を使用してビデオを分類する。

本開示は、ビデオ分類方法、装置、機器、および記憶媒体を提供する。

本開示の一態様によれば、ビデオ分類方法を提供し、ビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出するステップと、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定するステップと、認識すべきテキストを分類して、ビデオのカテゴリを取得するステップと、を含む。

本開示の別の態様によれば、ビデオ分類装置を提供し、ビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出するための抽出モジュールと、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定するための決定モジュールと、認識すべきテキストを分類して、ビデオのカテゴリを取得するための分類モジュールと、を含む。

本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶されており、命令が少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサが上記の任意の態様のいずれかに記載の方法を実行する。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに上記の任意の態様のいずれかに記載の方法を実行させる。

本開示の別の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、コンピュータプログラムがプロセッサによって実行される時に上記の任意の態様のいずれかに記載の方法を実現する。

本開示の技術案によれば、ビデオ分類の精度を向上させることができる。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。

図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本開示の第１の実施例による概略図である。本開示の第２の実施例による概略図である。本開示の第３の実施例による概略図である。本開示の第４の実施例による概略図である。本開示の第５の実施例による概略図である。本開示の第６の実施例による概略図である。本開示の実施例のビデオ分類方法のいずれか一つを実現するための電子機器の概略図である。

以下、図面に基づいて、本出願の例示の実施例を表現する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。

図１は、本開示の第１の実施例による概略図である。本実施例は、ビデオ分類方法を提供し、当該方法は、以下のようなステップを含む。
１０１、ビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出する。

１０２、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定する。

１０３、認識すべきテキストを分類して、ビデオのカテゴリを取得する。

本実施例の実行主体は、サーバなどの片側デバイス本体であってもよい。

本開示の実施例では、モーダルは、テキスト、視覚、音声などのようなビデオ内の情報の形式を指す。マルチモーダル情報は、複数の形式の情報を指し、具体的には、本実施例では、マルチモーダル情報は、テキストコンテンツと視覚情報を含み、すなわち、モーダル情報は、一つのテキストコンテンツであり、もう一つのモーダル情報は、視覚情報である。テキストコンテンツは、テキストの具体的な内容を指し、例えば、一つのテキストが、農村の電子商取引に関するテキストである場合、対応するテキストコンテンツは、「農村の電子商取引

」などの内容を含むことができる。テキストコンテンツと異なることは、テキストは、テキスト位置、テキストのフォントサイズなどの他の情報をさらに含むことができ、位置、フォントサイズなどのようなこれらのテキスト情報は、視覚情報の中の一つとすることができる。

さらに、テキストは、ビデオのタイトル、光学式文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）テキスト、および自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）テキストを含むことができる。その中、タイトルは、ビデオの概括的な文字説明を指し、例えば、あるビデオウェブサイトのビデオページでは、各ビデオに対応して、対応する文字説明を配置することができ、当該文字説明は、ビデオのタイトルとすることができる。タイトルに対応するテキストコンテンツは、ビデオページを解析することで、直接取得することができる。ビデオは、複数のビデオフレームで構成され、ＯＣＲテキストは、ＯＣＲ方式を使用して、取得されたビデオフレームにおけるテキストを指す。タイトルに対応するテキストコンテンツを直接取得できるとは異なり、ＯＣＲテキストに対応するテキストコンテンツは、ＯＣＲ方式を使用して取得する必要がある。ＡＳＲテキストは、ビデオに対応する音声を音声認識し、ＡＳＲ方式を使用して取得されたテキストを指す。ＡＳＲテキストに対応するテキストコンテンツも同様に直接取得することができず、ＡＳＲ方式を使用して取得する必要がある。

視覚情報は、第１の視覚情報と第２の視覚情報を含むことができ、第１の視覚情報は、微視的視覚情報とも呼ばれ、第２の視覚情報は、巨視的視覚情報とも呼ばれる。第１の視覚情報は、ビデオフレームにおけるテキストに対応する視覚情報を指し、ビデオフレームにおけるテキストは、例えば、上記のＯＣＲテキストであり、第１の視覚情報は、例えば、ＯＣＲテキストの位置、ＯＣＲテキストのフォント、ＯＣＲテキストの出現時間の長さなどのうちの一つまたは複数を含む。第２の視覚情報は、ビデオ内のキーフレームを指し、キーフレームは、特定の情報を含むビデオフレームを指し、具体的には、特定の情報は、例えば、ＯＣＲテキスト、顔画像などのうちの一つまたは複数を含む。

マルチモーダル情報を取得した後、マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、各モーダル情報に対応する特徴を取得することができる。例えば、マルチモーダル情報がテキストと視覚情報を含むと、テキストに対応するテキスト特徴、および視覚特徴に対応する視覚特徴をそれぞれ抽出することができる。次に、テキスト特徴と視覚特徴を融合して、融合特徴を取得し、次に融合特徴に基づいてキーワードラベル付けを行って、ビデオ内のキーワードを決定する。

各モーダル情報に対応する特徴を融合することにより、融合特徴は複数のモーダルの情報を含み、分類精度を向上させることができる。

ビデオ内のキーワードを取得した後、対応する背景知識を取得することができ、背景知識は、キーワードを解釈、説明する内容を指す。具体的には、既存の知識ベースからキーワードに対応する背景知識を取得することができる。既存の知識ベースには、各キーワードと対応する背景知識を保存することができる。既存の知識ベースは、例えば百度百科（ＢａｉｄｕＢａｉｋｅ）である。

背景知識を取得した後、キーワードと背景知識をスティッチングして、スティッチングテキストを取得し、次に、スティッチングテキストを分類して、ビデオのカテゴリを決定することができる。

本実施例では、マルチモーダル情報に基づいて処理することにより、マルチモーダル情報を有するビデオの特性を十分に利用して、ビデオ分類の精度を向上させることができる。キーワードに対応する背景知識を取得し、背景知識に基づいて処理することにより、キーワードの知識を補完することができ、認識すべきテキストがより高い解釈性を持つようになり、ビデオ分類の精度をさらに向上させる。

図２は、本開示の第２の実施例による概略図である。本実施例は、ビデオ分類方法を提供し、本実施例は、ビデオのマルチモーダル特徴がテキストと視覚特徴を含むことを例とし、当該方法は、以下のようなステップを含む。
２０１、ビデオに対応するテキストのテキストコンテンツを取得する。

テキストは、ビデオのタイトル、ＯＣＲテキスト、およびＡＳＲテキストを含む。

その中、タイトルに対応するテキストコンテンツは、直接抽出できるテキストコンテンツであり、したがって、ビデオウェブページに対してテキスト解析を行って、ビデオのタイトルに対応するテキストコンテンツを直接取得することができる。

ＯＣＲテキストは、ＯＣＲでビデオフレームを処理した後、取得されたビデオフレームにおけるテキストを指す。図３に示すように、あるビデオフレームにおけるテキストを対応するテキストボックスを使用して識別し、ＯＣＲでテキストボックス内の画像内容を認識した後、対応するテキストコンテンツを取得することができる。例えば、一つのＯＣＲテキストに対応するテキストコンテンツが「ＸＸＸは全省の農村の電子商取引品質および効率向上のテレビ電話会議で強調する

」である。

ＡＳＲテキストは、音声認識技術で、ビデオに対応する音声をテキストに変換することを指し、例えば、図３に示すビデオフレームに対応して、当該ビデオフレームは、再生する同時に、対応するニュースキャスターの音声もあることができ、当該音声を対応するテキストコンテンツに変換して、ＡＳＲテキストに対応するテキストコンテンツとすることができる。

２０２、ビデオの視覚情報を取得する。

視覚情報は、第１の視覚情報と第２の視覚情報を含み、第１の視覚情報は、ビデオの中のビデオフレームにおけるテキストに対応する視覚情報であり、第２の視覚情報は、ビデオ内のキーフレームである。具体的には、第１の視覚情報は、例えば、ＯＣＲテキストの位置、ＯＣＲテキストのフォント、ＯＣＲテキストの出現時間の長さなどのうちの一つまたは複数を含む。第２の視覚情報は、例えば、特定の情報を含むビデオフレームであり、特定の情報は、例えば、ＯＣＲテキスト、顔画像などのうちの一つまたは複数を含む。例えば、図３の「ＸＸＸは全省の農村の電子商取引品質および効率向上のテレビ電話会議で強調する

」のＯＣＲテキストの位置を第１の視覚情報とすることができ、図３に示すビデオフレームにはＯＣＲテキストが含まれ、顔画像も含まれるので、当該ビデオフレームをキーフレーム、すなわち第２の視覚情報とすることができる。

２０３、テキストコンテンツと視覚情報に基づいて、ビデオ内のキーワードを抽出する。

具体的には、図４に示すように、テキストコンテンツと視覚情報に対して特徴抽出を行って、テキスト特徴と視覚特徴をそれぞれ取得することができる。

さらに、視覚情報は、第１の視覚情報と第２の視覚情報に分けられることができ、第１の視覚情報と第２の視覚情報に対して特徴抽出を行って、第１の視覚特徴と第２の視覚特徴をそれぞれ取得することができる。

具体的には、テキストコンテンツ、第１の視覚情報はいずれもテキスト形式に属するため、テキスト特徴の抽出方式を使用して、それを対応する特徴ベクトルに変換することができる。第２の視覚情報は、キーフレームであり、画像であるため、画像特徴の抽出方式を使用して、それを対応する特徴ベクトルに変換することができる。すなわち、テキストコンテンツに対して第１のテキスト符号化を行って、テキスト特徴を取得するステップと、第１の視覚情報に対して第２のテキスト符号化を行って、第１の視覚特徴を取得するステップと、第２の視覚情報に対して画像符号化を行って、第２の視覚特徴を取得するステップと、を含むことができる。

異なるモーダル情報を符号化処理することで、各モーダル情報により適切な符号化方式で処理して、各モーダル情報に対応する特徴の精度を向上させ、さらに、分類精度を向上させることができる。

図４に示すように、第１のテキスト符号化モデルを使用して、テキストコンテンツを符号化して、テキスト特徴を取得し、第２のテキスト符号化モデルを使用して、第１の視覚情報を符号化して、第１の視覚特徴を取得し、画像符号化モデルを使用して、第２の視覚情報を符号化して、第２の視覚特徴を取得することができる。その中、第１のテキスト符号化モデルおよび／または第２のテキスト符号化モデルは、例えば、Ｔｒａｎｓｆｏｒｍｅｒネットワークにおけるエンコーダ（図４には、第１のＴｒａｎｓｆｏｒｍｅｒネットワークと第２のＴｒａｎｓｆｏｒｍｅｒネットワークをそれぞれ表示する）である。画像符号化モデルは、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）であり、具体的には、例えば、ｒｅｓｎｅｔ－１５２である。

テキスト符号化の出力は、ベクトル形式であり、画像符号化について、抽出された特徴図（ｆｅａｔｕｒｅｍａｐ）を平坦化して、それをベクトル形式に変換することができるため、テキスト特徴、第１の視覚特徴、第２の視覚特徴がすべてベクトル形式であるようにすることを理解されたい。

テキスト特徴、第１の視覚特徴、および第２の視覚特徴を取得した後、これらの３つの特徴を融合することができ、具体的には、これらの３つの特徴がいずれもベクトル形式であるため、これらの３つの特徴に対してベクトルスティッチングを行って、スティッチングベクトルを取得し、スティッチングベクトルを融合特徴とすることができる。

ベクトルスティッチングの方式を使用して融合することで、マルチモーダル情報融合を簡単に実現することができる。

融合ベクトルを取得した後、条件付き確率場（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ、ＣＰＦ）を使用して、融合特徴に基づいてキーワードラベル付けを行って、ビデオ内のキーワードを取得することができる。図４に示すように、中国語を例にとると、中国語の各字に対応して、Ｂ、Ｉ、Ｏをラベル付けすることができる、その中、Ｂはキーワードの開始点を表示し、Ｉはキーワードの他の部分を表示し、Ｏはキーワードでないことを表示するため、キーワードラベル付けによってビデオ内のキーワードを取得することができる。例えば、上記の「ＸＸＸは全省の農村の電子商取引品質および効率向上のテレビ電話会議で強調する

」に対応して、キーワードラベル付けを経て、

は、それぞれＢ、Ｉ、Ｉ、Ｉにラベル付けられ、その他の字は、いずれもＯにラベル付けられると、抽出されたキーワードは、「農村の電子商取引

」である。

その中、特徴融合を行う時に、中国語を例にとると、各字に対応して融合することができ、例えば、テキストコンテンツは、「字１」、「字２」などを含み、「字１」に対応する第１の視覚情報は、視覚１（ｆｅａｔ１）で表示し、第１の視覚情報は、「視覚１」、「視覚２」などを含むと、融合時、「字１」を例にとると、「字１」に対応するテキスト特徴＋「視覚１」に対応する第１の視覚特徴＋第２の視覚特徴を、「字１」に対応する融合特徴とし、「＋」はスティッチングを表示する。また、融合時に、［ＣＬＳ］に対応する特徴が含まれてもよく、含まれなくてもよい。図４の第１のＴｒａｎｓｆｏｒｍｅｒネットワークを例にとると、入力ブロックは、［ＣＬＳ］、「字１」、「字２」などを含み、出力ブロックは、Ｈ０、Ｈ１、Ｈ２などのテキスト特徴を含み、Ｈ０は［ＣＬＳ］に対応する隠れ層出力ベクトルであり、Ｈ１は「字１」に対応する隠れ層出力ベクトルであり、Ｈ２は「字２」に対応する隠れ層出力ベクトルである。第２のＴｒａｎｓｆｏｒｍｅｒネットワークの入力ブロックは出力ブロックと類似であり、入力のみが視覚情報であり、出力が視覚特徴である。字に基づくベクトルスティッチングであるため、融合特徴はテキストコンテンツの中の字を単位とし、キーワードラベル付けを行う時、単語ごとに上記のＢ、Ｉ、Ｏの識別を行って、キーワードを決定することができる。

ＣＲＦを使用して融合特徴をラベル付けすることによって、キーワードラベル付けの方式に基づいて、ビデオ内のキーワードを抽出することができる。

２０４、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定する。

例えば、百度百科からキーワードに対応する背景知識を取得する。例えば、図３に示すビデオフレームに対応して、抽出されたキーワードは「農村の電子商取引

」であり、百度百科から、「農村の電子商取引

」に対応する背景知識は、「農村電子商取引プラットフォームが密集した農村チェーンアウトレットを協力して、デジタル化、情報化の手段で、集約化管理、市場化運営、体系化された地域間および業界間の提携によって、コンパクトで整然とした業界連合を構築し、農村の商業コストを低減し、農村の商業分野を拡大して、農民がプラットフォームの最大の受益者になるようにし、業者が新たな利益成長を獲得するようにする」であることを検索することができる。

知識ベースから背景知識を取得することによって、知識ベースには多くの各態様のデータリソースがあるため、既存リソースを十分に利用することができる。

その後、当該キーワードと背景知識をスティッチングして、スティッチングテキストを取得し、スティッチングテキストを認識すべきテキストとすることができる。

抽出されたビデオ内のキーワードが複数である場合、各キーワードと背景知識に対応してスティッチングを行って、次に、すべてのキーワードをスティッチングすることができる。例えば、第１のキーワード＋第１の背景知識＋第２のキーワード＋第２の背景知識＋第３のキーワード＋第３の背景知識などであり、その中の＋は、スティッチングを表示することを理解することができる。

２０５、認識すべきテキストを分類して、ビデオのカテゴリを取得する。

その中、認識すべきテキストを分類モデルに入力し、ビデオのカテゴリとして出力することができる。分類モデルは、例えば、テキスト符号化ネットワークと分類ネットワークを含む。図５に示すように、テキスト符号化ネットワークは、Ｔｒａｎｓｆｏｒｍｅｒネットワークのエンコーダであってもよく、図５には第３のＴｒａｎｓｆｏｒｍｅｒネットワークで表示し、中国語を例にとると、認識すべきテキストを複数の単語に分割し、「単語１」、「単語２」などで表示し、取得された複数の単語と分類識別子「[ＣＬＳ]」を入力とし、テキスト符号化ネットワークに入力し、Ｈ０、Ｈ１、Ｈ２などを含む隠れ層ベクトルを出力することができ、その中、Ｈ０は[ＣＬＳ]に対応する隠れ層ベクトルであり、Ｈ０を分類ネットワークの入力とし、出力は分類結果であり、すなわちビデオのカテゴリである。分類ネットワークは、全接続層を含むなどの、様々な既存の分類ネットワークを使用することができる。

さらに、分類モデルは、ラジオとテレビデータを使用してトレーニングした後に取得することがで、すなわち、分類モデルがトレーニング時、使用されるトレーニングデータは、ラジオとテレビデータである。ラジオとテレビデータは、ラジオとテレビのビデオデータ、および対応するビデオラベルを含み、ビデオラベルは、ラジオとテレビのビデオ分類標準に従ってラベル付けすることができる。ラジオとテレビのビデオ分類標準は、ラジオおよびテレビ番組資料分類法である。ラジオおよびテレビ番組資料分類法は、中国テレビおよびラジオなどの番組の最も権威の分類体系である。当該分類体系は、樹形構造を使用し、１３個の大分類に分けられ、一般的には、３から４級に細分化される。インターネットで放送されるテレビ、映画、バラエティ、アニメ、ニュースなどのテレビおよびラジオ番組は、いずれもこの権威の分類体系に従って分類することができる。正規のテレビ局がビデオ内容をカタログ化するにも、当該分類標準に従ってビデオ分類を行う必要がある。ビデオラベルを使用する時には、実際のニーズに応じて行うことができ、例えば、２級のカテゴリに細分化する必要がある場合、トレーニング時のビデオラベルは、２級ラベルを使用できることを理解することができる。

ラジオとテレビデータに基づいてトレーニングした後に取得された分類モデルは、標準に適合し、より権威性、標準性を持ち、さらに、分類モデルの汎用性を向上させることができる。

図６は、本開示の第６の実施例による概略図である。本実施例は、ビデオ分類装置を提供し、当該装置６００は、抽出モジュール６０１、決定モジュール６０２、および分類モジュール６０３を含む。

抽出モジュール６０１は、ビデオのマルチモーダル情報に基づいて、ビデオ内のキーワードを抽出するために用いられ、決定モジュール６０２は、キーワードに対応する背景知識を取得し、キーワードと背景知識に基づいて、認識すべきテキストを決定するために用いられ、分類モジュール６０３は、認識すべきテキストを分類して、ビデオのカテゴリを取得するために用いられる。

いくつかの実施例では、抽出モジュール６０１は、具体的には、マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、各モーダル情報に対応する特徴を取得し、各モーダル情報に対応する特徴を融合して、融合特徴を取得し、融合特徴に基づいてキーワードラベル付けを行って、ビデオ内のキーワードを決定するために用いられる。

いくつかの実施例では、マルチモーダル情報は、テキストコンテンツと視覚情報を含み、視覚情報は、第１の視覚情報と第２の視覚情報を含み、第１の視覚情報は、ビデオの中のビデオフレームにおけるテキストに対応する視覚情報であり、第２の視覚情報は、ビデオ内のキーフレームであり、抽出モジュール６０１は、さらに、具体的には、テキストコンテンツに対して第１のテキスト符号化を行って、テキスト特徴を取得し、第１の視覚情報に対して第２のテキスト符号化を行って、第１の視覚特徴を取得し、第２の視覚情報に対して画像符号化を行って、第２の視覚特徴を取得するために用いられる。

いくつかの実施例では、抽出モジュール６０１は、さらに、具体的には、各モーダル情報に対応する特徴に対してベクトルスティッチングを行って、スティッチングベクトルを取得し、スティッチングベクトルを融合特徴とするために用いられる。

いくつかの実施例では、抽出モジュール６０１は、さらに、具体的には、条件付き確率場を使用して、融合特徴に基づいてキーワードラベル付けを行うために用いられる。

いくつかの実施例では、決定モジュール６０２は、具体的には、既存の知識ベースから、キーワードに対応する背景知識を取得するために用いられる。

いくつかの実施例では、分類モジュール６０３は、具体的には、分類モデルを使用して、認識すべきテキストを分類するために用いられ、分類モデルは、ラジオとテレビデータを使用してトレーニングした後に取得される。

本開示の実施例では、マルチモーダル情報に基づいて処理するによって、マルチモーダル情報を有するビデオの特性を十分に利用して、ビデオ分類の精度を向上させることができる。キーワードに対応する背景知識を取得し、背景知識に基づいて処理することにより、キーワードの知識を補完することができ、認識すべきテキストがより高い解釈性を持つようになり、ビデオ分類の精度をさらに向上させる。異なるモーダル情報を符号化処理することで、各モーダル情報により適切な符号化方式で処理して、各モーダル情報に対応する特徴の精度を向上させ、さらに、分類精度を向上させることができる。ベクトルスティッチングの方式を使用して融合することによって、マルチモーダル情報融合を簡単に実現することができる。ＣＲＦを使用して融合特徴をラベル付けすることによって、キーワードラベル付けの方式に基づいて、ビデオ内のキーワードを抽出することができる。知識ベースから背景知識を取得することによって、知識ベースには多くの各態様のデータリソースがあるため、既存リソースを十分に利用することができる。ラジオとテレビデータに基づいてトレーニングした後に取得された分類モデルは、標準に適合し、より権威性、標準性を持ち、さらに、分類モデルの汎用性を向上させることができる。

本開示の実施例では、異なる実施例の同じまたは類似の内容は、互いに参照できることを理解することができる。

本開示の実施例の「第１」、「第２」などは、区分にのみ用いられ、重要度の高低、時系列的な前後などを示すものではないことを理解されたい。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。

図７に示すように、本開示の実施例の例を実現するための電子機器７００のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図７に示すように、電子機器７００は計算ユニット７０１を含み、計算ユニット７０１は、読み取り専用メモリ（ＲＯＭ）７０２に記憶されているコンピュータプログラムまたは記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ７０３には、電子機器７００が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介してお互いに接続される。入出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続される。

電子機器７００内の複数のコンポーネントは、Ｉ／Ｏインターフェース７０５に接続されており、キーボード、マウスなどの入力ユニット７０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット７０７と、ディスク、光ディスクなどの記憶ユニット７０８と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット７０９と、を含む。通信ユニット７０９は、電子機器７００が、インターネットなどのコンピュータネットワーク、および／または様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット７０１は、様々な処理と計算能力を備える汎用および／または専用の処理コンポーネントである。計算ユニット７０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット７０１は、ビデオ分類方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、ビデオ分類方法は、記憶ユニット７０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ７０２および／または通信ユニット７０９を介して電子機器７００にロードおよび／またはインストールされる。コンピュータプログラムがＲＡＭ７０３にロードされて計算ユニット７０１によって実行される場合、上記のビデオ分類方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット７０１は、他の任意の適切な方式（例えば、ファームウェアによって）を介してビデオ分類方法を実行するように構成されることができる。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび／またはブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとＶＰＳサーバ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ、またはＶＰＳと呼ぶ）に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

ビデオ分類方法であって、
ビデオのマルチモーダル情報に基づいて、前記ビデオ内のキーワードを抽出するステップと、
前記キーワードに対応する背景知識を取得し、前記キーワードと前記背景知識に基づいて、認識すべきテキストを決定するステップと、
前記認識すべきテキストを分類して、前記ビデオのカテゴリを取得するステップと、を含む、
ビデオ分類方法。
前記ビデオのマルチモーダル情報に基づいて、前記ビデオ内のキーワードを抽出するステップは、
前記マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、前記各モーダル情報に対応する特徴を取得するステップと、
前記各モーダル情報に対応する特徴を融合して、融合特徴を取得するステップと、
前記融合特徴に基づいてキーワードラベル付けを行って、前記ビデオ内のキーワードを決定するステップと、を含む、
請求項１に記載のビデオ分類方法。
前記マルチモーダル情報は、テキストコンテンツと視覚情報を含み、前記視覚情報は、第１の視覚情報と第２の視覚情報を含み、前記第１の視覚情報は、前記ビデオの中のビデオフレームにおけるテキストに対応する視覚情報であり、前記第２の視覚情報は、前記ビデオ内のキーフレームであり、
前記マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、前記各モーダル情報に対応する特徴を取得するステップは、
前記テキストコンテンツに対して第１のテキスト符号化を行って、テキスト特徴を取得するステップと、
前記第１の視覚情報に対して第２のテキスト符号化を行って、第１の視覚特徴を取得するステップと、
前記第２の視覚情報に対して画像符号化を行って、第２の視覚特徴を取得するステップと、を含む、
請求項２に記載のビデオ分類方法。
前記各モーダル情報に対応する特徴を融合して、融合特徴を取得するステップは、
前記各モーダル情報に対応する特徴に対してベクトルスティッチングを行って、スティッチングベクトルを取得し、前記スティッチングベクトルを融合特徴とするステップを含む、
請求項２に記載のビデオ分類方法。
前記融合特徴に基づいてキーワードラベル付けを行うステップは、
条件付き確率場を使用して、前記融合特徴に基づいてキーワードラベル付けを行うステップを含む、
請求項２に記載のビデオ分類方法。
前記キーワードに対応する背景知識を取得するステップは、
既存の知識ベースから、前記キーワードに対応する背景知識を取得するステップを含む、
請求項１に記載のビデオ分類方法。
前記認識すべきテキストを分類するステップは、
分類モデルを使用して、前記認識すべきテキストを分類するステップを含み、前記分類モデルは、ラジオとテレビのデータを使用してトレーニングした後に取得される、
請求項１から６のいずれか一項に記載のビデオ分類方法。
ビデオ分類装置であって、
ビデオのマルチモーダル情報に基づいて、前記ビデオ内のキーワードを抽出するための抽出モジュールと、
前記キーワードに対応する背景知識を取得し、前記キーワードと前記背景知識に基づいて、認識すべきテキストを決定するための決定モジュールと、
前記認識すべきテキストを分類して、前記ビデオのカテゴリを取得するための分類モジュールと、を含む、
ビデオ分類装置。
前記抽出モジュールは、具体的には、
前記マルチモーダル情報内の各モーダル情報に対して、それぞれ特徴抽出を行って、前記各モーダル情報に対応する特徴を取得し、
前記各モーダル情報に対応する特徴を融合して、融合特徴を取得し、
前記融合特徴に基づいてキーワードラベル付けを行って、前記ビデオ内のキーワードを決定するために用いられる、
請求項８に記載のビデオ分類装置。
前記マルチモーダル情報は、テキストコンテンツと視覚情報を含み、前記視覚情報は、第１の視覚情報と第２の視覚情報を含み、前記第１の視覚情報は、前記ビデオの中のビデオフレームにおけるテキストに対応する視覚情報であり、前記第２の視覚情報は、前記ビデオ内のキーフレームであり、
前記抽出モジュールは、さらに、具体的には、
前記テキストコンテンツに対して第１のテキスト符号化を行って、テキスト特徴を取得し、
前記第１の視覚情報に対して第２のテキスト符号化を行って、第１の視覚特徴を取得し、
前記第２の視覚情報に対して画像符号化を行って、第２の視覚特徴を取得するために用いられる、
請求項９に記載のビデオ分類装置。
前記抽出モジュールは、さらに、具体的には、
前記各モーダル情報に対応する特徴に対してベクトルスティッチングを行って、スティッチングベクトルを取得し、前記スティッチングベクトルを融合特徴とするために用いられる、
請求項９に記載のビデオ分類装置。
前記抽出モジュールは、具体的に、
条件付き確率場を使用して、前記融合特徴に基づいてキーワードラベル付けを行うために用いられる、
請求項９に記載のビデオ分類装置。
前記決定モジュールは、具体的には、
既存の知識ベースから、前記キーワードに対応する背景知識を取得するために用いられる、
請求項８に記載のビデオ分類装置。
前記分類モジュールは、具体的には、
分類モデルを使用して、前記認識すべきテキストを分類するために用いられ、前記分類モデルは、ラジオとテレビのデータを使用してトレーニングした後に取得される、
請求項８から１３のいずれか一項に記載のビデオ分類装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１から７のいずれか一項に記載のビデオ分類方法を実行する、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～７のいずれか一項に記載のビデオ分類方法を実行させる、
非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される時に請求項１～７のいずれかの一つに記載のビデオ分類方法を実現する、
コンピュータプログラム。