JP7142737B2

JP7142737B2 - マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体

Info

Publication number: JP7142737B2
Application number: JP2021020378A
Authority: JP
Inventors: キーワン，; ツィファンフェン，; ツィジーリュウ，; チュンガンチャイ，; ヨンチュウ，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-14
Filing date: 2021-02-12
Publication date: 2022-09-27
Anticipated expiration: 2041-02-12
Also published as: JP2021128774A; EP3866026A1; US20210256051A1; KR20210104571A; KR102455616B1; US11995117B2; CN111259215B; CN111259215A

Description

本開示の実施例は、概してコンピュータ分野に関し、より具体的には知識グラフ分野に関する。

モバイルインターネットの発展に伴い、ネットワークリソース（例えば、ビデオ、音声、画像など）が、ますます流行するようになった。例えば、ビデオは、その時間により、長いビデオ、短いビデオ、小さいビデオなどに分けることができる。長いビデオとは、時間が長く、映画番組を中心としたビデオを指し、通常はプロの映画会社によって撮影される。短いビデオとは、時間が短く、題材がより豊富なビデオを指し、通常は映画会社のプロまたはセミプロのチームによって撮影されるものではない。小さなビデオとは、通常、１分以内（例えば１５秒）であって、個人ユーザにより制作されることを中心とした、ユーザの日常生活に関するビデオを指す。

大規模なマルチメディアデータベース（ビデオなど）を有する組織では、通常、ビデオをテーマにより分類する必要がある。テーマ分類により、ユーザは必要な内容をより簡単に検索できるので、ビデオ配信やユーザのパーソナライズされた推奨事項も容易になる。一般的に、ビデオのタイトルとテキストの紹介に基づいてビデオを分類したり、ビデオの具体的な内容に基づいてビデオを分類したりする。

本開示の例示的な実施例によれば、マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体を提供する。

本開示の第１態様において、マルチモーダルに基づくテーマ分類方法を提供する。当該方法は、オブジェクトのテキスト情報と非テキスト情報を取得するステップであって、非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも１つを含むステップと、事前に構築された知識ベースに基づいて、テキスト情報内のエンティティ集合を決定するステップと、テキスト情報とエンティティ集合に基づいて、オブジェクトのテキスト特徴を抽出するステップと、オブジェクトのテキスト特徴と非テキスト特徴に基づいて、オブジェクトのテーマ分類を決定するステップであって、非テキスト特徴は非テキスト情報に基づいて抽出されるステップと、を含む。

本開示の第２態様において、マルチモーダルに基づくテーマ分類装置を提供する。当該装置は、オブジェクトのテキスト情報と非テキスト情報を取得するように構成されるマルチモーダル情報取得モジュールであって、非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも１つを含むマルチモーダル情報取得モジュールと、事前に構築された知識ベースに基づいて、テキスト情報内のエンティティ集合を決定するように構成されるエンティティ抽出モジュールと、テキスト情報とエンティティ集合に基づいて、オブジェクトのテキスト特徴を抽出するように構成されるテキスト特徴抽出モジュールと、オブジェクトのテキスト特徴と非テキスト特徴に基づいて、オブジェクトのテーマ分類を決定するように構成されるテーマ分類決定モジュールであって、非テキスト特徴は非テキスト情報に基づいて抽出されるテーマ分類決定モジュールと、を含む。

本開示の第３態様において、電子機器を提供する。当該機器は、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶するための記憶装置と、を含み、１つまたは複数のプログラムは、１つまたは複数のプロセッサによって実行される場合、電子機器に本開示の実施例に係る方法またはプロセスを実現させる。

本開示の第４態様において、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。当該プログラムはプロセッサによって実行される場合、本開示の実施例に係る方法またはプロセスを実現する。

なお、本発明の内容部分に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は、以下の説明によって容易に理解される。

添付の図面と以下の詳細な説明を参照すると、本開示の各実施例の上記およびその他の特徴、利点、および態様がより明らかになる。図面では、同じまたは類似の図面ラベルは、同じまたは類似の要素を示す。
本開示の実施例に係るオブジェクトのテーマを決定するための例示環境を示す。本開示の実施例に係るマルチモーダルに基づくテーマ分類方法を示すフローチャートである。本開示の実施例に係るビデオのテキスト情報を取得するためのプロセスを示す概略図である。本開示の実施例に係るビデオのマルチレベルテーマ分類結果を決定するためのプロセスを示す概略図である。本開示の実施例に係るコアエンティティ及びそれに対応するテーマタイプを用いて融合特徴に対して注意力処理を行うためを示す概略図である。本開示の実施例に係るエンティティベクトル生成モデルをトレーニングするためを示す概略図である。本開示の実施例に係るマルチモーダルに基づくテーマ分類装置を示すブロック図である。本開示の複数の実施例を実行できる電子機器のブロック図である。

以下、添付の図面を参照して本開示の実施例をより詳細に説明する。本開示のいくつかの実施形態を添付の図面に示したが、本開示は種々の形態で実現でき、本明細書で説明する実施例に限定されると解釈すべきではなく、これらの実施例は、本開示をより徹底的かつ完全に理解するために提供されると理解されたい。なお、本開示の図面および実施例は、単なる例示であり、本開示の保護範囲を制限するためには使用されないと理解されるべきである。

本開示の実施例の説明において、「含む」との用語及びその類似語は、開放的に含む、即ち「含むが限定されない」を意味すると理解されるべきである。用語「基づく」は、「少なくとも一部が基づく」を意味すると理解されるべきである。「一実施例」または「当該実施例」との用語は、「少なくとも１つの実施例」を意味すると理解されるべきである。以下、その他の明確及び暗黙的な定義を含むことができる。

本開示のいくつかの実施例は、ビデオをオブジェクトの例示として本開示のマルチモーダルに基づくテーマ分類方法を説明するが、音声、画像などのオブジェクトも本開示のテーマ分類方法と組み合わせて使用することができる。

例えば、ビデオの管理、検索、または推奨を容易にするため、通常、ビデオを分類する必要がある。従来のビデオ分類方法には、主に以下の２つがある。１つは手動ラベル付け方式であるが、手動ラベル付け方式は、コストが高く、時間がかかり、誤りやすく、定期的なメンテナンスが必要であり、大規模に展開することができない。もう１つは機械学習による方式であり、例えば、機械学習モデルがビデオのテキスト情報または視覚情報に基づいて分類するが、シングルモードの情報は、通常、情報量が少なく、分類結果がそれほど正確ではなく、複雑なシーンでの適用のニーズを満たすことも困難である。いくつかの改良された技術では、ビデオのテーマ分類にマルチモーダル情報を使用しようとするが、本出願の発明者は、マルチモーダル情報を使用するだけでは良好な分類結果を得ることができないことを発見した。

そこで、本開示の実施例では、知識ベースの知識とマルチモーダル情報を組み合わせて、マルチモーダルテーマ分類を行う知識ベースに基づくマルチモーダルテーマ分類方法を提供する。本開示の実施例によれば、特徴抽出時に知識ベースに基づくテキストエンティティリンクを導入し、テキスト特徴抽出時にリンクされたエンティティを考慮する。したがって、本開示の実施例は、分類対象のオブジェクトの内容をよりよく理解し、より正確なテーマ分類結果を取得することができる。マルチモーダルのテーマ分類は、マルチモーダル情報をよりよく使用することができ、同時に、知識ベースのエンティティリンクによってテーマ分類により多くの参照情報をもたらし、より良いテーマ分類効果を得ることができる。

本開示の実施例は、オブジェクトのテーマ分類またはタグ生成に適用され、オブジェクトに対する理解と検索を容易にすることができる。また、本開示の実施例は、オブジェクトの配信や推奨にも使用できるため、オブジェクトがコールドスタートを推奨するシーンに適用することができる。以下、図面１～８を参照して本開示のいくつかの例示的な実施例を詳細に説明する。

図１は本開示の実施例のオブジェクトのテーマを決定する例示環境１００を示す。ここでは、オブジェクトをビデオとして例を挙げるが、オブジェクトが音声や画像などであってもよい。図１に示すように、ビデオ１１０をマルチモーダルテーマ理解システム１２０に入力して、ビデオ１１０に対応するテーマ出力１３０を取得することができ、マルチモーダルテーマ理解システム１２０は、テーマ分類モデル１２１とテーマ推定モデル１２２とを含むことができる。ビデオ１１０は、長いビデオ、短いビデオ、小さいビデオなど、様々なタイプのビデオである。図１ではテーマ分類モデル１２１とテーマ推定モデル１２２を同時に示すが、いくつかの実施例では、マルチモーダルテーマ理解システム１２０はテーマ推定モデル１２２を含まなくてもよい。

テーマ分類モデル１２１は、ビデオ１１０のマルチモーダル情報（例えば、視覚情報、オーディオ情報、テキスト情報など）を用いて、クローズドテーマの分類を行うことができる。クローズドテーマは、手動で整理することも、コンピュータが自動的に抽出して生成することもできる。テーマ推定モデル１２２は、ビデオ１１０のテキスト情報に基づいて、ビデオのテーマ推定を決定する。テーマ推定は、より細かいオープンなテーマを使用して、ビデオタグを生成することができる。したがって、テーマ分類結果とテーマ推定結果を融合することで、融合されたテーマ出力１３０を取得することができる。したがって、本開示の実施例のマルチモーダルテーマ理解システム１２０は、非常に完全で、クローズドテーマ分類とオープンテーマのラベル付けの両方に適用できる。

テーマ分類モデル１２１とテーマ推定モデル１２２は、知識ベース１２５における知識によってそれぞれのテーマ分類や推断を行うことができる。知識ベース１２５にはビデオに関連するいくつかのエンティティ及び対応するテーマタイプが記憶される。

図２は本開示の実施例に係るマルチモーダルに基づくテーマ分類方法２００を示すフローチャートであり、方法２００は図１で説明されたテーマ分類モデル１２１によって実行される。

ブロック２０２では、オブジェクトのテキスト情報と非テキスト情報を取得する。非テキスト情報は視覚情報とオーディオ情報のうちの少なくとも１つを含む。ビデオの場合には、非テキスト情報は視覚情報とオーディオ情報とを含み、オーディオの場合には、非テキスト情報はオーディオ情報を含み、画像の場合には、非テキスト情報は視覚情報を含む。例えば、テーマ分類モデル１２１は、入力されたビデオ１１０から、視覚情報、オーディオ情報及びテキスト情報などのビデオ１１０のマルチモーダル情報を抽出することができる。視覚情報はビデオ情報と画像フレームとを含み、テキスト情報は文字部分及び画像と音声から認識されるテキストを含むことができる。各情報のソースまたは形式は、モーダルと呼ぶ。情報の媒体には、音声、視覚、文字などが含まれ、それぞれを、モーダルと呼ぶことができる。マルチモーダルテーマを理解することで、機械学習の方法によりマルチモーダル情報を処理及び理解する能力を実現することができる。

ブロック２０４では、事前に構築された知識ベースに基づいて、テキスト情報内のエンティティ集合を決定する。例えば、テーマ分類モデル１２１は、ビデオに対して事前に構築された知識ベース１２５に基づいて、テキストに関係する１つまたは複数のエンティティをリンクする。テキスト情報に対してエンティティリンクを行うことで、テキストに関係するいくつかのビデオ関連情報を抽出することができる。

ブロック２０６では、テキスト情報とエンティティ集合に基づいて、オブジェクトのテキスト特徴を抽出する。テーマ分類モデル１２１は、ビデオのテキスト特徴を抽出する際に、ビデオのテキスト情報及びテキスト情報から抽出されたエンティティ集合を同時に考慮して、より正確なテキスト情報を取得する。

ブロック２０８では、オブジェクトのテキスト特徴と非テキスト特徴に基づいて、オブジェクトのテーマ分類を決定する。非テキスト特徴は、視覚特徴とオーディオ特徴のうちの少なくとも１つを含み、視覚特徴は、視覚情報に基づいて抽出され、オーディオ特徴は、オーディオ情報に基づいて抽出される。テーマ分類モデル１２１は、マルチモーダル情報の複数の特徴に基づいて、ビデオの分類テーマを決定する。

したがって、本開示の実施例の方法２００は、マルチモーダル情報に基づくオブジェクトテーマ分類プロセスにおいて、特徴抽出時に知識ベースに基づくテキストエンティティリンクを導入し、テキスト特徴抽出プロセスでリンクされたエンティティを考慮する。したがって、本開示の実施例は、分類対象のオブジェクトの内容をよりよく理解し、より正確なテーマ分類結果を取得することができる。

本開示の実施例は、自動方式によってオブジェクトに対してテーマ分類を行うので、プロセスが効率的で低コストである。また、本開示の実施例は、マルチモーダル情報を十分に使用し、異なるモーダルの情報を融合することができ、異なるモーダルの特長を結合しながら、異なるモーダルの情報を用いて検証及び位置合わせを行うことができる。同時に、知識ベースを組み合わせてマルチモーダル情報をよりよく理解し、マルチモーダルのテーマをより包括的かつ深く理解することができる。

図３は本開示の実施例に係るビデオのテキスト情報を取得するためのプロセス３００を示す概略図である。図３に示すように、視覚情報３１０（ビデオ情報とビデオの表紙フレームなどの画像フレームを含むことができる）、オーディオ情報３２０及び文字情報３３０を含む、入力されたビデオ１１０のマルチモーダル情報を抽出する。文字情報３３０は、ビデオ１１０のタイトル、関連する説明や要約、ユーザコメント、及び弾幕（ビデオで画面を横切るコメント）などを含むことができる。

ブロック３１１では、ビデオ情報３１０に対して光学文字認識（ＯＣＲ）を行い、その中の画像テキスト３１２を抽出する。ブロック３２１では、オーディオ情報３２０に対して自動音声認識（ＡＳＲ）を行い、その中の音声テキスト３２２を抽出する。文字情報３３０に基づいて文字テキスト３３２を取得する。これらの異なるルートで取得された画像テキスト３１２、音声テキスト３２２及び文字テキスト３３２を融合し、ビデオのテキスト情報３３３を取得する。このような方式により、より豊富なビデオテキスト情報を取得して、テーマ分類の正確性を向上させることができる。

図４は本開示の実施例に係るビデオのマルチレベルテーマ分類結果を決定するためのプロセス４００を示す概略図である。なお、図４のプロセス４００は、図１中のテーマ分類モデル１２１の１つの例示的な実現プロセスである。図４に示すように、注意力の長期短期記憶（ＬＳＴＭ）モデル４０５と畳み込みニューラルネットワーク（ＣＮＮ）モデル４１５（例えば、ＲＣＮＮモデル）により、視覚特徴４１０、オーディオ特徴４２０及びテキスト特徴４３０をそれぞれ抽出することができる。

注意力ＬＳＴＭモデル４０５は、畳み込み特徴の計算、特徴集約などの操作を実行する、注意力メカニズムに基づくＬＳＴＭであってもよい。注意力ＬＳＴＭモデル４０５は、ＯＣＲ認識、顔認識及び特徴抽出により、視覚情報３１０の視覚特徴４１０を生成し、ＡＳＲ認識及び特徴抽出により、オーディオ情報３２０のオーディオ特徴４２０を生成する。

ＣＮＮモデル４１５、予めトレーニングされた言語モデルによって単語埋め込みベクトルと文字埋め込みベクトルを抽出し、テキストに対してエンティティリンクを行い、テキスト中のエンティティをリンクし、予めトレーニングされたエンティティのベクトル生成モデルによってエンティティ埋め込みベクトルを取得し、上記埋め込みベクトルを融合することもできる。また、ＣＮＮモデル４１５は、位置埋め込み、予めトレーニングされたエンティティ埋め込みなどのプロセスに関連し、ディープニューラルネットワークによって低緯度の意味特徴の抽出を行って対応するテキスト特徴４３０を取得することもできる。例えば、知識ベース１２５に基づいて、テキスト情報３３３からエンティティ集合４０８を抽出し、ＣＮＮモデル４１５がテキスト情報３３３とエンティティ集合４０８に基づいて、対応するテキスト特徴４３０を抽出する。特徴抽出時に知識ベースに基づくテキストエンティティリンクを導入するとともに、テキスト特徴抽出時にリンクされたエンティティを考慮することで、本開示の実施例は、分類対象のビデオ内容をよりよく理解して、より正確なテーマ分類結果を取得することができる。

次に、４２５では、視覚特徴４１０、オーディオ特徴４２０及びテキスト特徴４３０を融合することで、ビデオの融合特徴４３５を取得する。例えば、特徴融合プロセスは、複数のモーダルの情報を統合したり、モーダル間の相関性を判断したり、マルチモーダルの特徴情報に対して次元削減及び処理を行ったりすることができる。

引き続き図４を参照すると、エンティティ集合４０８から最も主要なコアエンティティ４４５を抽出し、知識ベース１２５に基づいてコアエンティティ４４５に対応するテーマタイプを決定する。例えば、エンティティリンクによってコアエンティティ４４５を取得し、ビデオ知識グラフに基づいて属するテーマタイプを取得する。例えば、『インファナル・アフェア』のよく知られたシーン、「ハン・チェンは彼の手で死ぬとは夢にも思わなかっただろう」というテキストに対して抽出されたコアエンティティ４４５は「インファナル・アフェア」であり、コアエンティティが属するテーマタイプは「映画」である。

次に、ブロック４６５では、コアエンティティ４４５の埋め込みベクトル及び対応するテーマタイプの埋め込みベクトルを用いて融合特徴４３５（例えば融合表現ｈ）に対して注意力処理を行い、さらに、第１の特徴Ｖ１と第２の特徴Ｖ２を取得して、４７５に示すように、Ｖ１とＶ２をマージまたは融合する。取得された第１の特徴Ｖ１と第２の特徴Ｖ２に基づいて、限定タグの分類方式によって、階層分類技術を用いてマルチレベルテーマ分類結果４８５（例えば１レベルテーマ分類結果、２レベルテーマ分類結果など）を取得することができる。

図５は本開示の実施例に係るコアエンティティ及びそれに対応するテーマタイプを用いて融合特徴に対して注意力処理を行うことを示す概略図５００である。ｈ１、ｈ２…ｈｎは、融合特徴のベクトルの各部を示し、ＣＥ_ｅｍｂはコアエンティティのベクトルを示し、ＥＣ_ｅｍｂはコアエンティティが属するテーマタイプのベクトルを示す。５１０は、コアエンティティのベクトルＣＥ_ｅｍｂによって融合特徴ｈに対して注意力処理を行って、対応する第１の特徴Ｖ１を生成することを示す。５２０は、コアエンティティが属するテーマタイプのベクトルＥＣ_ｅｍｂによって融合特徴ｈに対して注意力処理を行って、対応する第２の特徴Ｖ２を生成することを示す。５３０では、階層分類を実行して対応する階層テーマ分類結果を取得する。以下の式（１）～（３）は、注意力処理の計算式を示す。

α_ｉｊは融合特徴の各部に対するコアエンティティまたはテーマタイプの重みを示し、ｉ＝０の時はコアエンティティの重みを示し、ｉ＝１の時はコアエンティティのテーマタイプの重みを示し、ｊは融合特徴ｈにおけるｊ番目の部分を示す。

したがって、コアエンティティ及びそのテーマタイプを用いて融合特徴に対して注意力処理を行うことにより、テーマ分類の正確性をさらに向上させることができる。

図６は本開示の実施例に係るエンティティベクトル生成モデルをトレーニングすることを示す概略図６００である。図６に示すように、各エンティティに対してモデルを個別に作成でき、正例と負例の比率は、１：１０のように予め設定することができる。

６１０はエンティティの正例の構築プロセスを示し、知識ベース１２５からエンティティのテキスト説明６１１（例えばテキスト要約と説明情報など）及びエンティティの関連ビデオ６１２を取得する。そして、ｗｏｒｄ２ｖｅｃによってテキストベクトル６１３を取得し、ｖｉｄｅｏ２ｖｅｃによってビデオベクトル６１４を取得し、テキストベクトル６１３とビデオベクトル６１４を融合して、正例ベクトル６１５を取得する。

６２０はエンティティの負例の構築プロセスを示す。知識ベース１２５におけるすべてのエンティティのテキスト要約情報と説明された単語の頻度情報を統計し、帯域ランダムサンプリングによって負例の語彙シーケンス６２１を取得し、知識ベース１２５からビデオ６２２をランダムにサンプリングする。そして、ｗｏｒｄ２ｖｅｃによってテキストベクトル６２３を取得し、ｖｉｄｅｏ２ｖｅｃによってビデオベクトル６２４を取得し、テキストベクトル６２３とビデオベクトル６２４を融合して、負例ベクトル６２５を取得する。

そして、ニューラルネットワークによってベクトルを処理し（例えば次元削減など）、ｓｉｇｍｏｄに入力し、最終のパラメータをエンティティベクトルとして決定する。このような方式により、正例５と負例とによりエンティティのベクトル生成モデルをトレーニングすることができる。生成されたエンティティのベクトル生成モデルは、使用時にエンティティの対応するエンティティベクトルを生成することができ、テーマ分類の正確性をさらに向上させる。

図７は本開示の実施例に係るマルチモーダルに基づくテーマ分類装置７００を示すブロック図である。図７に示すように、装置７００は、マルチモーダル情報取得モジュール７１０と、エンティティリンクモジュール７２０と、テキスト特徴抽出モジュール７３０と、テーマ分類決定モジュール７４０と、を含む。マルチモーダル情報取得モジュール７１０は、オブジェクトのテキスト情報と非テキスト情報を取得するように構成される。非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも１つを含む。エンティティリンクモジュール７２０は、事前に構築された知識ベースに基づいて、テキスト情報内のエンティティ集合を決定するように構成される。テキスト特徴抽出モジュール７３０は、テキスト情報とエンティティ集合に基づいて、オブジェクトのテキスト特徴を抽出するように構成される。テーマ分類決定モジュール７４０は、オブジェクトのテキスト特徴と非テキスト特徴に基づいて、オブジェクトのテーマ分類を決定するように構成され、非テキスト特徴は非テキスト情報に基づいて抽出される。

いくつかの実施例において、マルチモーダル情報取得モジュール７１０は、視覚情報に対する光学文字認識に基づいて、画像テキストを取得するように構成される画像テキスト取得モジュールと、オーディオ情報に対する自動音声認識に基づいて、音声テキストを取得するように構成される音声テキスト取得モジュールと、オブジェクトのタイトルと弾幕に基づいて、文字テキストを取得するように構成される文字テキスト取得モジュールと、画像テキスト、音声テキスト及び文字テキストを融合することにより、テキスト情報を取得するように構成されるテキスト融合モジュールと、を含む。

いくつかの実施例において、テーマ分類決定モジュール７４０は、視覚情報とオーディオ情報に基づいて、注意力に基づく長期短期記憶ネットワークによって視覚特徴とオーディオ特徴を抽出するように構成される特徴抽出モジュールと、視覚特徴、オーディオ特徴及びテキスト特徴を融合することにより、オブジェクトの融合特徴を取得するように構成される融合特徴取得モジュールと、融合特徴に基づいて、オブジェクトのマルチレベルテーマ分類を決定するように構成されるマルチレベルテーマ分類決定モジュールと、を含む。

いくつかの実施例において、マルチレベルテーマ分類決定モジュールは、エンティティ集合内のコアエンティティを決定するように構成されるコアエンティティ決定モジュールと、知識ベースに基づいて、コアエンティティに対応するテーマタイプを決定するように構成されるテーマタイプ決定モジュールと、を含む。

いくつかの実施例において、マルチレベルテーマ分類決定モジュールは、コアエンティティのベクトルを用いて融合特徴に対して重み付け処理を行うことにより、第１の特徴を取得するように構成される第１の特徴取得モジュールと、テーマタイプのベクトルを用いて融合特徴に対して重み付け処理を行うことにより、第２の特徴を取得するように構成される第２の特徴取得モジュールと、第１の特徴と第２の特徴に基づいて、オブジェクトのマルチレベルテーマ分類を取得するように構成されるマルチレベルテーマ分類取得モジュールと、をさらに含む。

いくつかの実施例において、装置７００は、各エンティティに対して、知識ベース内のエンティティのテキスト説明とエンティティに関連するオブジェクトに基づいて、正例ベクトルを取得し、ランダムにサンプリングされたテキストとランダムにサンプリングされたオブジェクトに基づいて、負例ベクトルを取得し、及び予め設定された比率の正例ベクトルと負例ベクトルに基づいて、エンティティのベクトル生成モデルをトレーニングするように構成されるトレーニングモジュールをさらに含む。

いくつかの実施例において、トレーニングモジュールは、知識ベースにおけるすべてのエンティティのテキスト説明内の単語の頻度を統計するように構成される統計モジュールと、各単語の頻度に基づいて、負例とされた単語シーケンスをランダムに選択するように構成されるランダム選択モジュールと、を含む。

いくつかの実施例において、装置７００は、テキスト情報に基づいて、オブジェクトのテーマ推定を決定するように構成されるテーマ推定モジュールと、オブジェクトのテーマ分類とテーマ推定に基づいて、オブジェクトの融合テーマを決定するように構成される融合テーマ決定モジュールと、をさらに含む。

図８は本開示の実施例が実施可能な例示的な機器８００を示すブロック図である。図に示すように、機器８００は読み出し専用メモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム命令または記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラム命令に基づいて、それぞれの適当な動作と処理を実行する中央処理装置（ＣＰＵ）８０１を含む。ＲＡＭ８０３では、機器８００の操作に用いられる各プログラムとデータを記憶することができる。ＣＰＵ８０１、ＲＯＭ８０２及びＲＡＭ８０３は総線８０４を介して互いに接続されている。輸入／輸出（Ｉ／Ｏ）インターフェース８０５も総線８０４に接続される。

キーボード、マウスなどの入力ユニット８０６と、各種のディスプレイ、スピーカなどの出力ユニット８０７と、ディスク、ＣＤなどの記憶ユニット８０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット８０９とを含む機器８００における複数の部品は、Ｉ／Ｏインターフェース８０５に接続されている。通信ユニット８０９は、機器８００がインターネットおよび／または様々な電気通信ネットワークなどを介して他の機器と情報／データを交換することを許容する。

中央処理装置８０１は上記説明された各方法とプロセスを実行する。例えば、いくつかの実施例では、これらの方法とプロセスはコンピューターソフトウェアプログラムとして実現でき、記憶ユニット８０８のような機械読み取り可能な記憶媒体に有形的に含まれる。いくつかの実施例では、コンピュータプログラムの一部または全てがＲＯＭ８０２や／または通信ユニット８０９を通して機器８００にロード及び／又は装着できる。コンピュータプログラムがＲＡＭ８０３にロードしてＣＰＵ８０１で実行される場合、上記説明した方法の１つまたは複数のステップを実行することができる。また、他の実施形態では、ＣＰＵ８０１は、他の任意の適当な方法（例えば、ファームウェアによって）によって本開示の実施例の各方法を実行するように構成されてもいい。

本説明書は、上で説明した機能は少なくとも部分的に１つまたは複数のハードウェアロジックコンポーネントで実行できる。例えば、非制限的に、使用できる示範類型のハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）と、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）と、システムオンチップ（ＳＯＣ）と、プログラムの書き換えが可能なロジックデバイス（ＣＰＬＤ）などを含む。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供してもよく、その結果、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図において特定される機能／操作が実行される。プログラムコードは、完全に機器で実行、部分的に機器で実行することができ、スタンドアロンソフトウェアパッケージとして部分的に機器で実行され、部分的にリモート機器で実行されまたは全てリモート機器またはサーバで実行され得る。

本開示の明細書では、機器読み取り可能な媒体は、命令実行システム、装置、または機器によって使用されるまたは命令実行システム、装置、または機器と組み合わせて使用するためのプログラムを含むまたは記憶することができる有形の媒体とすることができる。機器読み取り可能な媒体は、機器読み取り可能な信号媒体または機器読み取り可能な記憶媒体とすることができる。機器読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、または機器、あるいは上記任意の適切な組み合わせを含むことができるが、それらに限定されない。機器読み取り可能な記憶媒体のより具体的な例は、１つまたは複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンメモリ（ＲＯＭ）、消去可能プログラマブルリードオンメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができる。

本明細書で記載のコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から様々なコンピューティング／処理デバイスにダウンロードする、またはインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、および／またはワイヤレスネットワークなどのネットワークを介して外部コンピュータまたは外部ストレージデバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、ワイヤレス伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータおよび／またはエッジサーバを含むことができる。各コンピューティング／処理デバイスのネットワークアダプタカードまたはネットワークインターフェイスは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、各コンピューティング／処理デバイスのコンピュータ読み取り可能な記憶媒体に記憶するためにコンピュータ読み取り可能なプログラム命令を転送する。

動作またはステップは、特定の順序で説明されたが、これは、そのような動作またはステップが示された特定の順序または順番で実行され、または所望の結果を達成するためにすべての示された動作またはステップが実行されるように求めるものとして理解すべきである。特定の状況では、マルチタスキングおよび並列処理は、有利である場合がある。同様に、いくつかの具体的な実現例の詳細が上記説明に含まれているが、これらは本開示の範囲を限定するものとして解釈するべきではない。独立した実施例で説明されているいくつかの特徴は、組み合わせでも単一の実現においても実現することができる。むしろ、単一の実施例の全文と後文にいて説明されている様々な特徴は、個別にまたは任意の適切なサブコンビネーションとして複数の実施例で実施することもできる。

本開示の実施例は、構成的特徴および／または方法論理的動作に特有の言語で説明されているが、添付の特許請求の範囲で定義されるテーマは、説明された上記特定の特徴または動作に限定されないと理解すべきである。むしろ、上記特定の特徴および動作は、単に特許請求の範囲を実施する例示的な形態である。

Claims

オブジェクトのテキスト情報と非テキスト情報を取得するステップであって、前記非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも１つを含むステップと、
事前に構築された知識ベースに基づいて、前記テキスト情報内のエンティティ集合を決定するステップであって、事前に構築された知識ベースに基づいて、テキストに関係する１つまたは複数のエンティティをリンクすることができ、テキスト情報に対してエンティティリンクを行うことにより、テキストに関係するオブジェクト関連情報を抽出することができるステップと、
前記テキスト情報と前記エンティティ集合に基づいて、前記オブジェクトのテキスト特徴を抽出するステップと、
前記オブジェクトのテキスト特徴と非テキスト特徴に基づいて、前記オブジェクトのテーマ分類を決定するステップであって、前記非テキスト特徴は前記非テキスト情報に基づいて抽出されるステップと、を含むことを特徴とする、マルチモーダルに基づくテーマ分類方法。
前記オブジェクトの前記テキスト情報を取得するステップは、
前記視覚情報に対する光学文字認識に基づいて、画像テキストを取得するステップと、
前記オーディオ情報に対する自動音声認識に基づいて、音声テキストを取得するステップと、
前記オブジェクトのタイトルと弾幕に基づいて、文字テキストを取得するステップと、
前記画像テキスト、前記音声テキスト及び前記文字テキストを融合することにより、前記テキスト情報を取得するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記オブジェクトのテーマ分類を決定するステップは、
前記視覚情報と前記オーディオ情報に基づいて、注意力に基づく長期短期記憶ネットワークによって視覚特徴とオーディオ特徴を抽出するステップと、
前記視覚特徴、前記オーディオ特徴及び前記テキスト特徴を融合することにより、前記オブジェクトの融合特徴を取得するステップと、
前記融合特徴に基づいて、前記オブジェクトのマルチレベルテーマ分類を決定するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記オブジェクトのマルチレベルテーマ分類を決定するステップは、
前記エンティティ集合内のコアエンティティを決定するステップと、
前記知識ベースに基づいて、前記コアエンティティに対応するテーマタイプを決定するステップと、を含むことを特徴とする、請求項３に記載の方法。
前記オブジェクトのマルチレベルテーマ分類を決定するステップは、
前記コアエンティティのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第１の特徴を取得するステップと、
前記テーマタイプのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第２の特徴を取得するステップと、
前記第１の特徴と前記第２の特徴に基づいて、前記オブジェクトの前記マルチレベルテーマ分類を取得するステップと、をさらに含むことを特徴とする、請求項４に記載の方法。
各エンティティに対して、
前記知識ベース内の前記エンティティのテキスト説明と前記エンティティに関連するオブジェクトに基づいて、正例ベクトルを取得するステップと、
ランダムにサンプリングされたテキストとランダムにサンプリングされたオブジェクトに基づいて、負例ベクトルを取得するステップと、
予め設定された比率の前記正例ベクトルと前記負例ベクトルに基づいて、前記エンティティのベクトル生成モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項１に記載の方法。
前記負例ベクトルを取得するステップは、
前記知識ベースにおけるすべてのエンティティのテキスト説明内の単語の頻度を統計するステップと、
各単語の頻度に基づいて、負例とされた単語シーケンスをランダムに選択するステップと、を含むことを特徴とする、請求項６に記載の方法。
前記テキスト情報に基づいて、前記オブジェクトのテーマ推定を決定するステップと、
前記オブジェクトの前記テーマ分類と前記テーマ推定に基づいて、前記オブジェクトの融合テーマを決定するステップと、をさらに含むことを特徴とする、請求項１に記載の方法。
オブジェクトのテキスト情報と非テキスト情報を取得するように構成されるマルチモーダル情報取得モジュールであって、前記非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも１つを含むマルチモーダル情報取得モジュールと、
事前に構築された知識ベースに基づいて、前記テキスト情報内のエンティティ集合を決定するように構成されるエンティティ抽出モジュールであって、事前に構築された知識ベースに基づいて、テキストに関係する１つまたは複数のエンティティをリンクすることができ、テキスト情報に対してエンティティリンクを行うことにより、テキストに関係するオブジェクト関連情報を抽出することができるエンティティ抽出モジュールと、
前記テキスト情報と前記エンティティ集合に基づいて、前記オブジェクトのテキスト特徴を抽出するように構成されるテキスト特徴抽出モジュールと、
前記オブジェクトの前記テキスト特徴と非テキスト特徴に基づいて、前記オブジェクトのテーマ分類を決定するように構成されるテーマ分類決定モジュールであって、前記非テキスト特徴は非テキスト情報に基づいて抽出されるテーマ分類決定モジュールと、を含むことを特徴とする、マルチモーダルに基づくテーマ分類装置。
前記マルチモーダル情報取得モジュールは、
前記視覚情報に対する光学文字認識に基づいて、画像テキストを取得するように構成される画像テキスト取得モジュールと、
前記オーディオ情報に対する自動音声認識に基づいて、音声テキストを取得するように構成される音声テキスト取得モジュールと、
前記オブジェクトのタイトルと弾幕に基づいて、文字テキストを取得するように構成される文字テキスト取得モジュールと、
前記画像テキスト、前記音声テキスト及び前記文字テキストを融合することにより、前記テキスト情報を取得するように構成されるテキスト融合モジュールと、を含むことを特徴とする、請求項９に記載の装置。
前記テーマ分類決定モジュールは、
前記視覚情報と前記オーディオ情報に基づいて、注意力に基づく長期短期記憶ネットワークによって視覚特徴とオーディオ特徴を抽出するように構成される特徴抽出モジュールと、
前記視覚特徴、前記オーディオ特徴及び前記テキスト特徴を融合することにより、前記オブジェクトの融合特徴を取得するように構成される融合特徴取得モジュールと、
前記融合特徴に基づいて、前記オブジェクトのマルチレベルテーマ分類を決定するように構成されるマルチレベルテーマ分類決定モジュールと、を含むことを特徴とする、請求項９に記載の装置。
前記マルチレベルテーマ分類決定モジュールは、
前記エンティティ集合内のコアエンティティを決定するように構成されるコアエンティティ決定モジュールと、
前記知識ベースに基づいて、前記コアエンティティに対応するテーマタイプを決定するように構成されるテーマタイプ決定モジュールと、を含むことを特徴とする、請求項１１に記載の装置。
前記マルチレベルテーマ分類決定モジュールは、
前記コアエンティティのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第１の特徴を取得するように構成される第１の特徴取得モジュールと、
前記テーマタイプのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第２の特徴を取得するように構成される第２の特徴取得モジュールと、
前記第１の特徴と前記第２の特徴に基づいて、前記オブジェクトの前記マルチレベルテーマ分類を取得するように構成されるマルチレベルテーマ分類取得モジュールと、をさらに含むことを特徴とする、請求項１２に記載の装置。
各エンティティに対して、
前記知識ベース内の前記エンティティのテキスト説明と前記エンティティに関連するオブジェクトに基づいて、正例ベクトルを取得し、
ランダムにサンプリングされたテキストとランダムにサンプリングされたオブジェクトに基づいて、負例ベクトルを取得し、
予め設定された比率の前記正例ベクトルと前記負例ベクトルに基づいて、前記エンティティのベクトル生成モデルをトレーニングするように構成されるトレーニングモジュールをさらに含むことを特徴とする、請求項９に記載の装置。
前記トレーニングモジュールは、
前記知識ベースにおけるすべてのエンティティのテキスト説明内の単語の頻度を統計するように構成される統計モジュールと、
各単語の頻度に基づいて、負例とされた単語シーケンスをランダムに選択するように構成されるランダム選択モジュールと、を含むことを特徴とする、請求項１４に記載の装置。
前記テキスト情報に基づいて、前記オブジェクトのテーマ推定を決定するように構成されるテーマ推定モジュールと、
前記オブジェクトの前記テーマ分類と前記テーマ推定に基づいて、前記オブジェクトの融合テーマを決定するように構成される融合テーマ決定モジュールと、をさらに含むことを特徴とする、請求項９に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するための記憶装置と、を含み、
前記１つまたは複数のプログラムは、前記１つまたは複数のプロセッサによって実行される場合、前記電子機器に請求項１から８のいずれかに記載の方法を実現させることを特徴とする、電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムはプロセッサによって実行される場合、請求項１から８のいずれかに記載の方法を実現することを特徴とする、コンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、請求項１から８のいずれかに記載の方法を前記コンピュータに実行させることを特徴とする、コンピュータプログラム。