JP7225273B2

JP7225273B2 - マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体

Info

Publication number: JP7225273B2
Application number: JP2021004519A
Authority: JP
Inventors: チーファンフォン; ハイフェンワン; コーシンレン; ヨンチュー; ヤジュアンリュイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-01-15
Filing date: 2021-01-14
Publication date: 2023-02-20
Anticipated expiration: 2041-01-14
Also published as: JP2021082308A; US20210192142A1; EP3812926A1; CN111221984A; KR20210037619A; KR102532152B1; CN111221984B

Description

本願は、データ処理技術分野に関し、特に、人工知能技術におけるマルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体に関する。

グラフィック／テキスト、ビデオコンテンツリソースは、現在、インターネットの主流のリソース形態であり、グラフィック／テキスト、ビデオコンテンツなどの様々なモダリティを持つマルチモーダルコンテンツを精確に理解するのは、知能製品の重要な基盤及びコアな要件である。

従来技術において、グラフィック／テキストとビデオコンテンツリソースなどのマルチモーダルコンテンツの本当の意味を正確に理解するために、通常は、テキスト、視覚、音声などの技術を利用して、マルチモーダルコンテンツに対して意味分析を行い、シングルモーダル理解結果を得、そして複数のシングルモーダル理解結果を融合させて、最終的なマルチモーダル理解結果を得る。

しかし、上記方法は、マルチモーダルコンテンツに対応する物体、人物及び文字などの知識点のみを確定することができ、知識点間の関係及び実際に発生したイベントについては明確にできず、意味理解結果が不正確である問題がある。

本願の実施例によって提供されるマルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体は、従来のマルチモーダルコンテンツの処理方法に存在する、意味理解結果が不正確である問題を解決するために使用される。

第１の態様において、本願は、マルチモーダルコンテンツ処理方法を提供し、前記方法は、
ユーザのコンテンツ処理要求を受信し、前記コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用されることと、
前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得ることと、
前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定し、前記マルチモーダル知識グラフが、前記マルチモーダル知識点と前記マルチモーダル知識点との関連関係を含むことと、を含む。

本実施例において、マルチモーダルコンテンツのマルチモーダル知識点とマルチモーダル知識グラフを用いてマルチモーダルコンテンツに対して理解を行うため、正確な意味理解結果を得、マルチモーダルコンテンツの正確な応用を実現し、従来技術に存在する、マルチモーダルコンテンツの理解が不正確である問題を解決する。

第１の態様の１つの可能な設計において、前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定することは、
前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定することと、
前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定することと、
前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定することと、を含む。

前記基本的な意味理解結果は、第１の意味理解結果及び／又は第２の意味理解結果を含み、
前記第１の意味理解結果は、前記マルチモーダル知識点と予め設定された深度学習方法に従って、前記マルチモーダルコンテンツに対して意味理解を行うことによって得られ、
前記第２の意味理解結果は、予め設定された融合方法に従って、前記マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行うことによって得られる。

本実施例において、知識グラフに基づく関連結果、深度神経ネットワークに基づく融合モデリング結果及びシングルモーダル理解結果に基づく融合手段は、マルチモーダルコンテンツに対する意味理解を共同で実現し、マルチモーダルコンテンツの理解精度をさらに向上させる。

第１の態様の他の可能な設計において、前記方法は、
マルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含むことと、
前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定することと、
前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘することと、
知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立することと、
前記マルチモーダル知識点サンプル間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立することと、をさらに含む。

本願の技術的解決手段は、マルチモーダル知識グラフを確立することにより、知識点に意味解釈を与え、マルチモーダルコンテンツの正確な意味理解を実現するための基礎を定める。

第１の態様の別の可能な設計において、前記方法は、
知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力することをさらに含む。

第１の態様のさらに他の可能な設計において、前記方法は、
前記意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得することと、
前記ユーザに前記推薦リソースをプッシュすることと、
又は
前記意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定することと、
前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得することと、をさらに含む。

本実施例の技術的解決手段は、リソースの正確な推薦と知能検索の精度を実現する。

第２の態様において、本願は、マルチモーダルコンテンツ処理装置を提供し、前記装置は、受信モジュール、処理モジュール及び確定モジュールを含み、
前記受信モジュールが、ユーザのコンテンツ処理要求を受信するために使用され、前記コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用され、
前記処理モジュールが、前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得るために使用され、
前記確定モジュールが、前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用され、前記マルチモーダル知識グラフが、前記マルチモーダル知識点と前記マルチモーダル知識点との関連関係を含む。

第２の態様の１つの可能な設計において、前記確定モジュールは具体的に、前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定すること、前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定すること、及び、前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定することのために使用される。

第２の態様の他の可能な設計において、前記処理モジュールはさらに、マルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含むこと、前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定すること、前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘すること、知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立すること、及び前記マルチモーダル知識点サンプル間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立することのために使用される。

第２の態様の別の可能な設計において、前記装置は、出力モジュールをさらに含み、
前記出力モジュールは、知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力するために使用される。

第２の態様の別の可能な設計において、前記装置は、出力モジュールをさらに含み、
前記処理モジュールは、前記意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得するためにさらに使用され、
前記出力モジュールは、前記ユーザに前記推薦リソースをプッシュするために使用され、
又は
前記確定モジュールは、前記意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定するためにさらに使用され、
前記処理モジュールは、前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得するためにさらに使用され、
前記出力モジュールは、前記マルチモーダルコンテンツに対する検索結果を出力するために使用される。

本願の第２の態様によって提供された装置は、第１の態様によって提供された方法を実行するために使用されてもよく、その実現原理と技術的効果が類似であり、ここでは繰り返さない。

第３の態様において、本願は電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサ、及び
前記少なくとも１つのプロセッサと通信接続されるメモリ、を含み、そのうち、
前記メモリには前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが、第１の態様及び第１の態様の各可能な設計に記載の方法を実行することができる。

第４の態様において、本願は、コンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに第１の態様及び第１の態様の各可能な設計に記載の方法を実行させるために使用される。

第５の態様において、本願は、マルチモーダルコンテンツ処理方法を提供し、前記方法は、
外部のコンテンツ処理要求に応答して、処理対象マルチモーダルコンテンツを確定することと、
予め確立された知識グラフと前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定することと、を含む。

第６の態様において、本願は、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサで実行されると、第１の態様及び第１の態様の各可能な設計に記載の方法が実現される。

上記願の１つの実施例は、以下のような利点又は有益な効果を有する。ユーザのコンテンツ処理要求を受信し、当該コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用され、マルチモーダルコンテンツに対して解析を行い、当該マルチモーダルコンテンツに対応するマルチモーダル知識点を得、当該マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツに従って、当該マルチモーダルコンテンツの意味理解結果を確定し、当該マルチモーダル知識グラフは、マルチモーダル知識点とマルチモーダル知識点との関連関係を含む。当該技術的解決手段は、マルチモーダルコンテンツのマルチモーダル知識点とマルチモーダル知識グラフを用いて、マルチモーダルコンテンツに対して理解を行うため、マルチモーダル知識点間の関係及び実際に発生したイベントを明確にできない問題を克服し、さらに正確な意味理解結果を得、マルチモーダルコンテンツの正確な応用を実現する。

上記の選択可能な形態の他の効果を、具体的な実施例と併せて以下に説明する。

添付の図面は、本願をよりよく理解するために使用されており、本願を限定するものではない。
本願によって提供されるマルチモーダルコンテンツ処理方法の１つの応用シーンの概略図である。本願の第１の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。育児の１つのシーンの概略図である。本願の実施例によって提供されるマルチモーダルコンテンツの処理概略図である。本願の第２の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。本願の第３の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。マルチモーダル知識グラフを構築するためのフレームワーク概略図である。本願の実施例によって提供されるマルチモーダルコンテンツ処理装置の概略構造図である。本願の実施例のマルチモーダルコンテンツ処理方法を実現するための電子機器のブロック図である。

以下、添付図面を参照して本願の例示的な実施例を説明するが、本願の実施例の様々な詳細が理解を容易にするために含まれており、単なる例示的なものと考えられるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを理解するはずである。同様に、明確かつ簡潔にするために、以下の説明において、よく知られている機能及び構造の説明は省略されている。

本願の技術的解決手段を紹介する前に、まず、本願に関連する用語について説明する。

マルチモーダルコンテンツ
マルチモーダルコンテンツは、様々なモダリティを有するリソースであり、各情報のソース又は形態は、１つのモダリティと呼ばれることができる。例えば、人は、触覚、聴覚、視覚、及び嗅覚を有し、情報の媒体は、音声、ビデオ、文字などがあり、様々なセンサー、例えばレーダー、赤外線、加速度計などである。上記のいずれも１つのモダリティと言える。また、モダリティは、非常に広い定義を持つことができ、例えば、２つの異なる言語を、２つのモダリティとしてもよく、２つの異なる状況で収集されたデータセットさえ、２つのモダリティとして考えられてもよい。

知識グラフ
知識グラフは、ノードとサイドから図の形で構成され、知識の構造化表現形態である。知識グラフのノードは、知識点と呼ばれることができ、その表現された情報は、エンティティ、概念、イベント、動作、機能、テーマ、シーン、ソース、視覚リソース、音声リソース、テキストリソース、ユーザ行為などを含むが、これらに限定されなく、これに応じて、知識グラフのサイドは、知識点間の関連関係とも呼ばれることができ、その表現された情報は、属性、従属、タイミング及び因果などを含むが、これらに限定されない。

知識グラフのエンティティは、客観世界に存在するいくつかの客体を解釈でき、例えば、人物、動物、植物などがあり、概念は、同じ属性のエンティティからなるセットとして解釈でき、例えば、労働者、スター、赤ちゃん、母親があり、機能は、エンティティが有する能力と機能属性として解釈でき、いくつかのシーンで動作と同じ解釈を持ち、テーマは、話題としても理解でき、例えば、人工知能、通信などがあり、シーンとは、日常生活中の具体的な場面や状況を指し、例えば、労働場面、食事場面、学習場面などがあり、ソースとは、リソースの出所を指し、例えば、ビデオリソースが個人のアカウントから取得されること、教育リソースが教育機関のアカウントから取得されることなどがあり、視覚リソースとは、各種のフォーマットの可視ファイルを指し、例えば、ビデオファイル、画像ファイルがあり、音声リソースは、音楽、通話などのリソースであってもよく、テキストリソースは、ドキュメントなどであってもよい。

説明すべきものとして、上記のものは、知識グラフの知識点を簡単に解釈するだけのものであり、実際の応用において、知識グラフの知識点は他のコンテンツも含まれてもよく、そして、本願は、上記知識点の表現形態を限定するものではなく、際の状況に応じて決定することができる。

現在、知識グラフは、人工知能の重要な技術の一つとして、広く応用されており、例えば、テキスト理解、知能推薦、知能検索などの様々なタスクがある。そのうち、テキスト理解については、所与のテキストに対して処理を行って複数のテキストセグメントを得ると解釈されてもよく、得られた複数のテキストセグメントと知識グラフにおける知識点を関連付け、関連付けられた結果に基づいて、テキストの意味理解結果を確定する。知能推薦については、ユーザが視聴しているビデオ又は検索したコンテンツに対して意味理解を行い、知識グラフを組み合わせてユーザが本当に関心を持っているイベントを推論し、当該イベントに基づいてユーザに類似のコンテンツを推薦する。知能検索については、テキストワードが少ないシーンに応用でき、まずユーザが興味を持っているリソースを処理し、知識グラフを組み合わせてユーザが本当に関心を持っているイベントを推論し、テキスト形態に基づいて当該イベントを表し、さらに当該イベントのテキストでリソース検索を行う場合、より多くの検索結果を得ることができる。

以下、図１と併せて本願の実施例によって設計されたシステム構成を説明する。図１は本願によって提供されるマルチモーダルコンテンツ処理方法の１つの応用シーンの概略図である。図１に示すように、当該応用シーンは、トレーニング機器１１、処理機器１２及びデータ記憶機器１３を含んでもよい。例示的に、図１に示す応用シーンにおいて、トレーニング機器１１は、知識グラフを構築するためのマルチモーダルコンテンツをウェブページから取得し、その後マルチモーダル知識グラフを構築する際に直接使用できるように、データ記憶機器１３に記憶することができ、処理機器１２は、外部から入力された処理対象マルチモーダルコンテンツを受信し、当該マルチモーダルコンテンツに対して処理を行い、及び処理結果をデータ記憶機器１３に記憶することができる。

本実施例において、データ記憶機器１３は、大量の知識グラフを構築するためのマルチモーダルコンテンツを記憶することができ、処理機器１２の処理結果を記憶することもでき、トレーニング機器１１は、データ記憶機器１５での、知識グラフを構築するためのマルチモーダルコンテンツに基づいて、知識グラフ構築方法のプログラムコードを実行して、マルチモーダル知識グラフを構築するために使用され、処理機器１２は、データ記憶機器１３での処理対象マルチモーダルコンテンツに基づいて、マルチモーダルコンテンツ処理方法のプログラムコードを実行して、マルチモーダルコンテンツの意味理解結果を得るために使用される。

理解できるものとして、当該マルチモーダル知識グラフは、汎用知識グラフうちの１つであり、汎用知識グラフは、トレーニング機器が取得された各種モダリティのコンテンツを処理して、構築した知識グラフであり、実際の応用において、マルチモーダル知識グラフは、汎用知識グラフにフィードバックすることができ、汎用知識グラフを選別することにより、マルチモーダル知識グラフを得ることができる。

説明すべきものとして、図１は、本願の実施例によって提供される１つの応用シーンの概略図だけであり、図１に示す機器間の位置関係は、任意の制限を構成しなく、例えば、図１において、データ記憶機器１３は、処理機器１２に対して外部メモリであってもよく、他の状況において、データ記憶機器１３を処理機器１２に配置してもよい。本願の実施例において、トレーニング機器１１と処理機器１２は、同一の機器であってもよく、又は異なる機器であってもよく、本願の実施例はこれに限定されない。

例示的に、以下において、トレーニング機器１１と処理機器１２が同一の電子機器であることを例に挙げて、本願の技術的解決手段について詳細に説明する。電子機器が具体的にサーバであるか、それとも端末機器であるかについては、本願の実施例はこれに限定されず、実際の状況に応じて確定することができる。

以下、本願の技術的解決手段について具体的な実施形態により詳細に説明する。説明すべきものとして、以下のいくつかの具体的な実施例は、互いに結合してもよく、同じ又は類似の概念又はプロセスは、いくつかの実施例では繰り返さないかもしれない。

図２は、本願の第１の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。図２に示すように、当該方法は、次のステップを含むことができる。

Ｓ２０１において、ユーザのコンテンツ処理要求を受信し、当該コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用される。

本願の実施例において、マルチモーダルコンテンツに対して意味理解を行う必要があるとき、ユーザは、電子機器にコンテンツ処理要求を送信することができ、当該コンテンツ処理要求には、処理対象マルチモーダルコンテンツを含み、それに応じて、電子機器は、当該コンテンツ処理要求を受信して認識し、その後、コンテンツ処理要求における処理対象マルチモーダルコンテンツを分析し、これにより当該マルチモーダルコンテンツに対応する意味理解結果を確定する。

理解できるものとして、ユーザは、様々な方式で電子機器にコンテンツ処理要求を送信することができ、例えば、クリック操作、タッチ操作、押下操作又は音声入力などの方式の少なくとも１つを介して、電子機器にコンテンツ処理要求を送信することができ、本願は、ユーザがコンテンツ処理要求を送信する方式を限定するものではなく、実際応用シーンに従って確定することができる。例えば、インタラクティブインターフェースを有する電子機器に対して、ユーザは、当該インタラクティブインターフェースで操作を行うことにより、コンテンツ処理要求を送信することができ、インタラクティブ対話を有する知能機器に対して、ユーザが音声命令によってコンテンツ処理要求を送信することを取得することができる。

例示的に、本実施例において、処理対象マルチモーダルコンテンツは、ビデオ、例えば、映画の断片、日常生活のビデオであってもよく、テキスト図像、例えば、ＩＤカードの図像であってもよく、本願の実施例は、マルチモーダルコンテンツの表現形態を限定するものではなく、実際の状況に応じて確定することができる。

Ｓ２０２において、マルチモーダルコンテンツに対して解析を行い、マルチモーダルコンテンツに対応するマルチモーダル知識点を得る。

本実施例において、電子機器は、ユーザのコンテンツ理解要求を受信した後、まず、コンテンツ処理要求におけるマルチモーダルコンテンツを確定し、次に当該マルチモーダルコンテンツに対して解析を行い、当該マルチモーダルコンテンツに含まれるマルチモーダル知識点を確定する。

例示的に、マルチモーダルコンテンツに対して解析を行うことは、主にマルチモーダルコンテンツが有する複数のモダリティに基づいており、例えば、視覚、音声、テキストようなこれらのモダリティは、意味理解の基本的なコンテンツとして機能することができる。本願の実施例は、主に視覚分析、音声認識、テキスト理解技術を採用する。例えば、あるビデオについては、異なる次元に立って理解することができ、視覚的には、顔分析によってビデオの中に誰がいるのを確定し、光学キャラクタ認識（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）によって、ビデオの中にどの文字が現れ、どの動物、物体が現れるのを確定し、音声的には、人物の音声を文字に変換し、ビデオ自身に添えられた文字を組み合わせて意味理解を行うなど、が挙げられる。

例えば、図３は育児の１つのシーンの概略図である。図３に示すように、ビデオセグメント（テキスト、視覚、音声情報を含む）を例にとり、当該シーンにおいて、当該マルチモーダルコンテンツは、育児のあるビデオであり、「ビデオにおいて、ある女性が赤ちゃんを叩いていり、ビデオには、赤ちゃんが乳を飲んだ後、乳を吐いたり、しゃっくりをしたりするとき、お母さんはこうするべきであるような文字説明がある」、視覚によって（赤ちゃん、母親、叩き動作）を理解でき、テキストによってキーワード（吐乳、赤ちゃん、しゃっくり）などを理解でき、即ち、当該マルチモーダルコンテンツに対応するマルチモーダル知識点は、人物「母親、赤ちゃん」、動作「叩き、背を叩く」などを含むことができる。

Ｓ２０３において、上記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツに従って、マルチモーダルコンテンツの意味理解結果を確定する。

当該マルチモーダル知識グラフは、マルチモーダル知識点と当該マルチモーダル知識点との関連関係を含む。

本実施例において、マルチモーダル知識グラフに含まれたマルチモーダル知識点と当該マルチモーダル知識点との関連関係は、大量のマルチモーダルコンテンツサンプルに対して解析を行い、実際生活における経験知識に基づいて解析の結果に対してトレーニングすることによって得られた知識グラフである。

理解できるものとして、マルチモーダルコンテンツに対応するマルチモーダル知識点は、少なくとも２つの知識点であってもよく、本実施例におけるマルチモーダル知識点は、解析によって得られた複数の知識点の総称である。

例示的に、マルチモーダルコンテンツに対応するマルチモーダル知識点を確定した後、まず当該マルチモーダル知識点とマルチモーダル知識グラフとの関連関係を確立し、次にマルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツを組み合わせて、表現学習、知識関連、計算推論などの技術を通じて、当該マルチモーダルコンテンツの意味理解結果を確定することができる。

知識関連は、マルチモーダルコンテンツとマルチモーダル知識グラフの関連問題を解決でき、具体的には、知識関連のステップは、主に知識認識、知識関連の順序付けと方策決定を含み、計算推論は、知識グラフ、マルチモーダルコンテンツ及び融合情報を組み合わせて、マルチモーダルコンテンツに隠れた情報を計算して推論すると理解できる。

例えば、上記図３に示すシーン概略図に対して、視覚分析及びテキスト理解によって、人物「母親、赤ちゃん」、動作「叩き、背を叩く」を認識でき、視覚分析に基づいて、「ある母親が赤ちゃんに背を叩く」ということを知ることができ、これらの知識点をマルチモーダル知識グラフに関連付け、例えば、赤ちゃんをマルチモーダル知識グラフでの赤ちゃんに関連付け、母親をマルチモーダル知識グラフでの母親、背を叩く動作、吐乳などに関連付け、マルチモーダル知識グラフでの母親、赤ちゃん及び背を叩く動作、吐乳などに従って、ビデオで実際に発生するイベント「母親が赤ちゃんにしゃっくりを叩く」（注、しゃっくりを叩くは、育児領域のシーン名詞である）を推論し、即ち、当該ビデオの意味理解結果である。

また、例えば、マルチモーダルコンテンツがある映画の断片、「ビデオで、ある屋上で、二人が向かい合って立っていり、そのうち、一人が銃を持って他の人のおでこを指していり、断片には、すみません、警察ですような文字説明がある」であれば、このとき、当該マルチモーダルコンテンツに対応するマルチモーダル知識点は、シーン「屋上」、エンティティ「人、銃」、動作「銃を持って指す」などを含むことができる。このとき、マルチモーダル知識グラフを組み合わせると、映画「無間道」の中の断片であると推論でき、当該映画断片の意味理解結果である。

例示的に、図４は、本実施例によって提供されるマルチモーダルコンテンツの処理概略図である。図４に示すように、本実施例において、マルチモーダルコンテンツの処理プロセスは、オフラインプロセスとオンラインプロセスを含むことができ、そのうち、オフラインプロセスは、主に汎用知識グラフとマルチモーダルコンテンツサンプルに従って、マルチモーダル知識グラフを構築し、オンラインプロセスは、外部から入力されたマルチモーダルコンテンツを受信すること、マルチモーダルコンテンツの解析を実行してマルチモーダル知識点を得ること、その後、マルチモーダル知識点とマルチモーダル知識グラフを関連付けて、マルチモーダルコンテンツ解析の結果とマルチモーダル知識グラフに対してマルチモーダル融合を行うこと、及びマルチモーダル知識グラフを組み合わせる上で意味理解を行って意味理解結果を出力すること、を含む。

上記の分析から分かるように、本実施例において、テキスト、視覚、音声などのマルチモーダルコンテンツ及び予め確立されたマルチモーダル知識グラフを総合的に利用して、マルチモーダルコンテンツの意味理解を良好に実現でき、意味理解が不正確である問題を回避することができる。

さらに、本願の実施例において、マルチモーダルコンテンツの意味理解結果を確定した後、意味表現方式によって意味理解結果を表すことができる。そのうち、意味表現は、明示的意味表現と暗黙的意味表現を含むことができる。明示的意味表現は、知識グラフに基づく意味表現を含み、暗黙的意味表現とは、マルチモーダルコンテンツ及び明示的理解結果のベクトル表現を意味する。

例えば、しゃっくりを叩くイベントについて、明示的意味表現の出力は、イベントが、しゃっくりを叩くことで、エンティティが、母親と赤ちゃんがいて、動作が、背を叩く動作、吐乳などがあり、暗黙的意味表現とは、すでに理解されたイベントをベクトルの形態に表すことである。

例示的に、本実施例は、マルチモーダル表現学習によってマルチモーダルコンテンツの表現問題を解決し、主に、深度学習ネットワークに基づく表現学習、グラフニューラルネットワーク（ｇｒａｐｈｎｅｕｒａｌｎｅｔｗｏｒｋ、ＧＮＮ）に基づく表現学習、ネットワーク表現学習などの方法を含む。

本実施例における意味理解結果は、正確な意味理解情報を含み、知能応用に適用されることができ、例えば、知能推薦、知能検索、知能対話システムなどのシーンに適用されることができる。

具体的に、本実施例の１つの可能な設計において、当該マルチモーダルコンテンツ処理方法は、以下のステップをさらに含んでもよく、
知識グラフの意味表現方法に基づいて、当該マルチモーダルコンテンツの意味理解結果を出力する。

本実施例において、マルチモーダルコンテンツの意味理解結果を得た後、直接出力する必要があれば、意味表現方法などの明示的方式で出力することができ、そのうち、当該明示的方式は、ユーザに分かりやすい形態である。

例えば、上記育児シーンにおけるビデオセグメントは、直接に「しゃっくりを叩く」イベントを文字形態で出力することができ、ユーザが当該ビデオの本当の意味を直接確定できるようにする。

本実施例の他の可能な設計において、当該マルチモーダルコンテンツ処理方法は、以下のステップをさらに含むことができ、
当該意味理解結果のベクトル表現に従って、タイプが当該マルチモーダルコンテンツと一致する推薦リソースを取得し、当該ユーザに当該推薦リソースをプッシュする。

例示的に、ユーザがある種類のビデオを見るとき、そのようなビデオに興味があることを示し、したがって、マルチモーダルコンテンツに対応する意味理解結果を知能推薦シーンに適用するとき、上記確定された意味理解結果は、ベクトルによって表し、直接に意味理解結果のベクトル表現を知能推薦の入力として、ネットワークリソースからタイプが当該マルチモーダルコンテンツと一致する推薦リソースを取得し、ユーザにプッシュすることにより、知能推薦の精度を向上させる。

例えば、ユーザが視聴したビデオは、どのように正しくしゃっくりを叩くことに関するビデオであり、当該ビデオの再生を完了した後、電子機器は、しゃっくりを叩くことのベクトル表現に基づいて、ネットワークリソースから、どのように正しくしゃっくりを叩くことを教える別のビデオを確定し、リソースの正確な推薦を実現する。

本実施例の別の可能な設計において、当該マルチモーダルコンテンツ処理方法は、以下のステップをさらに含むことができる。
当該意味理解結果のベクトル表現に従って、当該マルチモーダルコンテンツのテキスト理解結果を確定し、当該テキスト理解結果に従って、検索プロセスを実行し、当該マルチモーダルコンテンツに対する検索結果を取得し、当該マルチモーダルコンテンツに対する検索結果を出力する。

本実施例において、通常ビデオに含まれる文字が少ないので、ユーザが入力したビデオに基づいてコンテンツ検索を行うとき、得られた検索結果が比較的少なくなり、検索結果が不正確である問題を引き起こす可能性があるが、上記確定された意味理解結果をベクトル表現によって、マルチモーダルコンテンツのテキスト理解結果を確定し、当該テキスト理解結果を知能検索の入力として、より多くの検索結果を確定することができ、これにより知能検索の精度を向上させる。

本願の実施例によって提供されるのマルチモーダルコンテンツ処理方法は、ユーザのコンテンツ処理要求を受信し、当該コンテンツ処理要求は、処理対象マルチモーダルコンテンツに対して意味理解を行うために使用され、マルチモーダルコンテンツに対して解析を行い、当該マルチモーダルコンテンツに対応するマルチモーダル知識点を得、当該マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツに従って、当該マルチモーダルコンテンツの意味理解結果を確定し、当該マルチモーダル知識グラフは、マルチモーダル知識点とマルチモーダル知識点との関連関係を含む。当該技術的解決手段は、マルチモーダルコンテンツのマルチモーダル知識点とマルチモーダル知識グラフを組み合わせて、マルチモーダルコンテンツに対して理解を行い、正確な意味理解結果を得ることができ、マルチモーダルコンテンツの正確な応用に基礎を定める。

例示的に、上記図２に示す実施例に基づいて、図５は、本願の第２の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。図５に示すように、本実施例において、上記Ｓ２０３は、以下のステップにより実現されることができる。

Ｓ５０１において、マルチモーダル知識点とマルチモーダル知識グラフに従って、マルチモーダル知識点間の関連関係を確定する。

本実施例において、確定されたマルチモーダルコンテンツに対応するマルチモーダル知識点について、マルチモーダル知識グラフをクエリすることによって、当該マルチモーダル知識グラフには対応するマルチモーダル知識点があるかどうかを判断することができ、ＹＥＳであると、両者が関連関係を有するのを確定し、実際応用と併せて、マルチモーダル知識点間の関連関係を確定する。

例示的に、マルチモーダル知識点間の関連関係は、エンティティ属性、エンティティ関係、エンティティ従属関係、包含（ｐａｒｔｏｆ）関係、側面関係（ｆａｃｅｔｏｆ）、関連（ｒｅｌａｔｅｄｏｆ）などの関係の少なくとも１つを含む。

本願の実施例は、マルチモーダル知識点間の関連関係の具体的な表現形態に限定されるものではなく、実際の状況に応じて確定されることができる。

Ｓ５０２において、マルチモーダル知識点と予め設定された意味理解方法に従って、マルチモーダルコンテンツの基本的な意味理解結果を確定する。

例示的に、当該予め設定された意味理解方法は、予め設定された深度学習方法及び／又は予め設定された融合方法を含んでもよく、それに応じて、本実施例における基本的な意味理解結果は、第１の意味理解結果及び／又は第２の意味理解結果を含んでもよい。

第１の意味理解結果は、マルチモーダル知識点と予め設定された深度学習方法に従って、マルチモーダルコンテンツに対して意味理解を行って得られ、第２の意味理解結果は、予め設定された融合方法に従って、マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行って得られる。

１つの例示として、各モダリティでマルチモーダルコンテンツに対して理解を行った後、各モダリティの情報、即ちマルチモーダル知識点を得ることができ、マルチモーダル知識点を深度神経ネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ、ＤＮＮ）によって融合を行ってベクトルとして表し、異なる応用シーンを結合して第１の意味理解結果を得ることができる。

別の例示として、マルチモーダルコンテンツについては、まず、テキスト、視覚、音声などの理解技術をそれぞれ利用して、シングルモーダル意味理解結果を得、次に、予め設定された融合方法に従って、すべてのシングルモーダル意味理解結果に対して融合を行って、第２の意味理解結果を得る。

理解できるものとして、本願の実施例における第１の意味理解結果と第２の意味理解結果は、２つの方式で得られた基本的な意味理解結果を区別するためだけであり、具体的な関係を限定するものではない。

Ｓ５０３において、上記マルチモーダル知識点間の関連関係、基本的な意味理解結果及びマルチモーダル知識グラフに従って、当該マルチモーダルコンテンツの意味理解結果を確定する。

１つの実施例において、当該ステップは、マルチモーダル融合のプロセスとして解釈でき、マルチモーダル融合は、主にマルチモーダル知識点の統一モデリングを解決し、さらにマルチモーダルコンテンツの意味理解結果を確定する。

本願は、様々な方法を採用してマルチモーダル融合問題を総合的に解決し、前記方法は、知識グラフ関連に基づくアライメント融合、深度神経ネットワークに基づく融合モデリング、シングルモーダル理解結果に基づく融合など、を含む。そのうち、知識グラフ関連に基づくアライメント融合とは、マルチモーダルコンテンツと知識グラフの関連をモデリングすることによって、知識グラフに隠れた知識を利用して、アライメント、融合の問題を解決することである。深度神経ネットワークに基づく融合モデリングは、上記Ｓ５０２において第１の意味理解結果を得るプロセスであり、シングルモーダル理解結果に基づく融合は、上記Ｓ５０２において第２の意味理解結果を得るプロセスである。

本願で提供されるマルチモーダルコンテンツ処理方法は、マルチモーダル知識点とマルチモーダル知識グラフに従って、マルチモーダル知識点間の関連関係を確定し、マルチモーダル知識点と予め設定された意味理解方法に従って、マルチモーダルコンテンツの基本的な意味理解結果を確定し、上記マルチモーダル知識点間の関連関係、基本的な意味理解結果及びマルチモーダル知識グラフに従って、当該マルチモーダルコンテンツの意味理解結果を確定する。当該技術的解決手段において、知識グラフに基づく関連結果、深度神経ネットワークに基づく融合モデリング結果及びシングルモーダル理解結果に基づく融合手段は、マルチモーダルコンテンツに対する意味理解を共同で実現し、マルチモーダルコンテンツの理解精度をさらに向上させる。

例示的に、上記の実施例に基づいて、図６は、本願の第３の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。図７は、マルチモーダル知識グラフを構築するためのフレームワーク概略図である。図６に示すように、本実施例において、当該方法は、以下のステップをさらに含むことができる。

Ｓ６０１において、マルチモーダルデータセットを取得し、当該マルチモーダルデータセットは、複数のマルチモーダルコンテンツサンプルを含む。

本実施例において、様々なウェブサイト又はシステムからマルチモーダルコンテンツのマルチモーダルデータセットを取得することができ、当該マルチモーダルデータセットには、複数のマルチモーダルコンテンツサンプルが含まれる。理解できるものとして、当該マルチモーダルデータセットにおけるマルチモーダルコンテンツサンプルを、マルチモーダル知識グラフを構築するためのサンプルとすることができる。

例示的に、図７を参照して、マルチモーダルデータセットにおけるマルチモーダルコンテンツサンプルは、インターネットリソース、ユーザログ、ユーザ生成コンテンツ（ｕｓｅｒｇｅｎｅｒａｔｅｄｃｏｎｔｅｎｔ、ＵＧＣ）又は他の形態のリソースであってもよい。本願の実施例は、マルチモーダルコンテンツサンプルの表現形態を限定するものではなく、実際の状況に応じて確定することができる。

Ｓ６０２において、マルチモーダルデータセットに対して処理を行い、当該マルチモーダル知識グラフの本体を確定する。

本体（ｏｎｔｏｌｏｇｙ）は、概念をモデリングする規範であり、客観世界を記述する抽象モデルであり、形態化の形で概念とその間の連絡を明確に定義し、本体に反映される知識は、明確に定義されたコンセンサスであり、業界で認められている概念的なフレームワークであり、一般的に変化しなく、例えば「人」、「事」、「物」がある。これにより、本体は、マルチモーダル知識グラフの基礎であり、マルチモーダル知識グラフの本体を確定してこそ、様々な知識を関連付けることができる。

したがって、図７を参照して、本実施例において、マルチモーダルデータセットにおけるマルチモーダルコンテンツサンプルに対して分析を行うことにより、マルチモーダル知識グラフの本体を構築し、さらにＳ６０３におけるマルチモーダル知識点の発掘とＳ６０４におけるマルチモーダル知識点間の関連関係の発掘プロセスを実行する。

Ｓ６０３において、マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘する。

例示的に、マルチモーダルデータセットにおけるマルチモーダルコンテンツサンプルの知識点に対して発掘を行うことにより、各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを確定することができる。マルチモーダル知識点サンプルは、エンティティ、概念、イベント、動作、機能、テーマ、シーン、ソース、視覚リソース、音声リソース、テキストリソース、ユーザ行為などの内容の少なくとも１つを含んでもよい。そのうち、エンティティは本体、実例及び関係の統合であり、例えば、「人」は本体フレームにおける１つの概念であり、概念にも関連属性、例えば「性別」が規定され、明さんは具体的な人で、実例と呼ばれ、だから明さんも性別があり、明さん及び明さんの本体概念「人」を表す関連属性は、エンティティ（簡単に言えば、本体＋実例）と総称される。

他のマルチモーダル知識点についての解釈は、前述の図１に示す応用シーンでの説明を参照してもよく、ここでは繰り返さない。

Ｓ６０４において、知識グラフ表現学習によって、マルチモーダル知識点サンプル間の関連関係を確立する。

例示的に、マルチモーダル知識点サンプル間の関連関係は、エンティティ属性／関係、従属関係、包含関係、側面関係、関連などの知識関係を含み、知識グラフは、グラフ組織形態であり、意味関連によって様々なエンティティを関連付けることができ、即ち、複数の知識点を関連付けることによって、マルチモーダル知識点間の関連関係を形成する。

例えば、育児中のしゃっくりを叩くイベントのビデオを例として説明し、マルチモーダル知識点間の関連関係は、母親と赤ちゃん間の関係、母親と叩き動作、叩きと赤ちゃんの背などを含んでもよい。理解できるものとして、本実施例では、マルチモーダル知識点間の関連関係の具体的な表現形態を限定しない。

１つの実施例において、図７を参照して、汎用知識グラフに基づいて、表現学習の方式によってマルチモーダル知識点間の関連関係を確定することができる。

Ｓ６０５において、マルチモーダル知識点間の関連関係と当該マルチモーダル知識グラフの本体に基づいて、マルチモーダル知識グラフを確立する。

例示的に、図７を参照して、マルチモーダル知識グラフを確立するプロセスは、本体構築、知識認識、知識抽出、知識関連、知識構築、知識融合、表現学習、知識推論、繰り返し制御、品質制御、特徴構築などの内容の１つ又は複数を含むことができる。本願の実施例は、マルチモーダル知識グラフの具体的な処理フローを限定せず、実際の状況に応じて確定することができる。

図７に示すフレームワーク図において、マルチモーダル知識点間の関連関係に対して正規化融合、関係推論及び検証を行った後、さらに本体構築と汎用知識グラフのスクリーニングに結合して、マルチモーダル知識グラフを得ることができる。また、当該マルチモーダル知識グラフは、汎用知識グラフにフィードバックすることができ、即ち、汎用知識グラフを絶えず改善する。さらに、繰り返し制御、特徴発掘、品質制御などを組み合わせて、当該マルチモーダル知識グラフを絶えず更新して完備することもできる。

本体構築は人にとって、即ち人物タイプを確定するプロセスであり、知識認識とは、マルチモーダルコンテンツにおけるエンティティ、概念、イベント、動作などの知識点を認識するプロセスであり、知識抽出とは、マルチモーダルコンテンツにおける知識点を抽出するプロセスであり、知識関連とは、複数の知識点の関連関係を確立することであり、知識融合とは、同一のエンティティの情報を融合させて共同解釈するプロセスであり、表現学習とは、知識点を表現するプロセスであり、例えば、表示出力（分かりやすい）、暗黙的ベクトル（機械演算に便利である）などが挙げられ、知識推論とは、従来の知識点と関連関係に基づいて新しい知識を導き出すプロセスであり、繰り返し制御とは、融合させて重複を除去するプロセスであり、品質制御とは、誤った知識を除去し、正しい知識を保持するプロセスであり、特徴構築とは、使用しやすいように各知識点にいくつかの特徴又は説明を追加するプロセスである。

理解できるものとして、本願の実施例は、マルチモーダル知識グラフを確立する具体的な方式とステップを限定せず、実際の状況に応じて柔軟に調整することができる。

本願の実施例によって提供されるマルチモーダルコンテンツ処理方法は、マルチモーダルデータセットを取得することにより、マルチモーダルデータセットに対して処理を行い、当該マルチモーダル知識グラフの本体を確定し、マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘し、知識グラフ表現学習によって、マルチモーダル知識点サンプル間の関連関係を確立し、マルチモーダル知識点サンプル間の関連関係と当該マルチモーダル知識グラフの本体に基づいて、マルチモーダル知識グラフを確立し、知識点に意味解釈を与え、マルチモーダルコンテンツの正確な意味理解を実現するための基礎を定める。

上記分析に基づいて分かるように、知識グラフの意味理解に基づいて、理解において、知識グラフを融合させることで、マルチモーダルコンテンツの意味理解をより良く実現することができ、意味理解の精度を高める。マルチモーダル知識グラフを構築することにより、マルチモーダル知識グラフを利用して理解のために正確な意味を付与し、マルチモーダルコンテンツ表現学習の方式によって知識の増強を実現し、マルチモーダルコンテンツの正確な意味理解結果を得るための基礎を定める。

上記において、本願の実施例によって提供されるマルチモーダルコンテンツ処理方法の具体的な実現を説明したが、以下に本願の装置実施例を示し、本願の方法実施例を実行するために使用されることができる。本願の装置実施例に開示されない詳細については、本願の方法実施例を参照されたい。

図８は、本願の実施例によって提供されるマルチモーダルコンテンツ処理装置の概略構造図である。当該装置は、電子機器に集積されるか又は電子機器によって実現されてもよい。図８に示すように、本実施例において、当該マルチモーダルコンテンツ処理装置８０は、受信モジュール８０１、処理モジュール８０２及び確定モジュール８０３を含んでもよい。

受信モジュール８０１は、ユーザのコンテンツ処理要求を受信するために使用され、当該コンテンツ処理要求は、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用され、
当該処理モジュール８０２は、前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得るために使用され、
当該確定モジュール８０３は、前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフと前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用され、前記マルチモーダル知識グラフは、前記マルチモーダル知識点と前記マルチモーダル知識点間の関連関係を含む。

本願の実施例の１つの可能な設計において、確定モジュール８０３は、具体的に前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定し、前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定し、前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用される。

本願の実施例の他の可能な設計において、処理モジュール８０２は、さらにマルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含み、前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定し、前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘し、知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立し、及び前記マルチモーダル知識点間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立するために使用される。

本願の実施例の他の可能な設計において、前記装置は、出力モジュールをさらに含み、
当該出力モジュールは、知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力するために使用される。

本願の実施例の他の可能な設計において、前記装置は、出力モジュールをさらに含み、
当該処理モジュール８０２は、前記意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得するためにさらに使用され、
前記出力モジュールは、前記ユーザに前記推薦リソースをプッシュするために使用され、
又は
当該確定モジュール８０３は、さらに前記意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定するために使用され、
当該処理モジュール８０２は、さらに前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得するために使用され、
前記出力モジュールは、前記マルチモーダルコンテンツに対する検索結果を出力するために使用される。

本願の実施例によって提供される装置は、図２～図７に示す実施例における方法を実行するために使用されることができ、その実現原理と技術的効果は類似であり、ここでは繰り返さない。

説明すべきものとして、上記装置の各モジュールの区分は、論理機能の区分にすぎず、実際に実現されるとき、１つの物理エンティティに完全に又は部分的に集積され、又は物理的に分離される場合があることを理解する必要がある。そして、これらのモジュールは、すべてソフトウェアが処理要素によって呼び出されるように実現されてもよく、すべてハードウェアの形で実現されてもよく、一部のモジュールが、処理要素によってソフトウェアを呼び出すように実現され、一部のモジュールが、ハードウェアの形で実現されてもよい。例えば、処理モジュールは、単独に設定された処理要素であってもよく、上記装置のあるチップに集積されて実現されてもよく、また、プログラムコードの形で上記装置のメモリに記憶され、上記装置のある処理要素によって上記処理モジュールの機能が呼び出され実行されてもよい。他のモジュールの実現も類似である。さらに、これらのモジュールは、すべて又は一部を１つに集積されてもよく、独立して実現されてもよい。ここで説明する処理要素は、信号の処理能力を有する集積回路であってもよい。実現プロセスにおいて、上記方法の各ステップ又は上記各モジュールは、プロセッサ要素におけるハードウェアの集積論理回路又はソフトウェア形の指令によって達成されることができる。

本願の実施例に従って、本願は、コンピュータプログラムを提供し、コンピュータプログラムは、可読記憶媒体に記憶され、電子機器の少なくとも１つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、当該コンピュータプログラムがプロセッサで実行されると、本願の実施例によって提供されるマルチモーダルコンテンツ処理方法が実現される。

さらに、本願の実施例に従って、本願は、電子機器と可読記憶媒体をさらに提供する。

図９は、本願の実施例のマルチモーダルコンテンツ処理方法を実現するための電子機器のブロック図である。図９に示すように、電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタル処理、セルラー電話、スマートフォン、ウェアラブル機器及び他の類似のコンピューティング装置など、さまざまな形式のモバイル装置を表してもよい。本明細書に示す部品、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書で記載及び／又は要求される本願の実施を制限することを意図しない。

図９に示すように、当該電子機器は、１つ又は複数のプロセッサ９０１、メモリ９０２、及び高速インターフェース及び低速インターフェースを含む様々な部品を接続するためのインターフェースを含む。様々な部品は、異なるバスを使用して相互に接続され、共通のマザーボードに取り付けられてもよいし、又は必要に応じて他の形態でインストールされてもよい。プロセッサは、電子機器で実行された命令を処理することができ、前記命令は、ＧＵＩのグラフィック情報を外部入力／出力装置（例えばインターフェースに結合された表示機器など）に表示するようにメモリ内又はメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリ及び複数のメモリと共に使用してもよい。同様に、複数の電子機器を接続して、各機器は、いくつかの必要な操作を提供してもよい（例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして）。図９では、プロセッサ９０１を例に取る。

メモリ９０２は、本願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。そのうち、前記メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されることにより、前記少なくとも１つのプロセッサが本願によって提供されるマルチモーダルコンテンツ処理方法を実行する。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータ命令が記憶され、当該コンピュータ命令が、本願によって提供されるマルチモーダルコンテンツ処理方法をコンピュータに実行させるために使用される。

メモリ９０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例におけるマルチモーダルコンテンツ処理方法に対応するプログラム命令／モジュール（例えば、図８に示す受信モジュール８０１、処理モジュール８０２及び確定モジュール８０３）を記憶するために使用できる。プロセッサ９０１は、メモリ９０２に記憶される非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能応用及びデータ処理を実行し、即ち、上記方法の実施例におけるマルチモーダルコンテンツ処理方法を実施する。

メモリ９０２には、プログラム記憶領域とデータ記憶領域を含んでもよく、そのうち、プログラム記憶領域が、操作システムと少なくとも１つの機能に必要な応用プログラムを記憶してもよく、データ記憶領域には、マルチモーダルコンテンツ処理の電子機器の使用に応じて作成されたデータなどを記憶してもよい。なお、メモリ９０２は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも１つの磁気メモリ、フラッシュメモリ、又は他の非一時的な固体メモリなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ９０２は、例えば、プロセッサ９０１に対してリモートに設定されたメモリを含み、これらのリモートメモリは、ネットワークを介してマルチモーダルコンテンツ処理の電子機器に接続されてもよい。上記ネットワークの実例は、インターネット、企業イントラネット、ローカルネットワーク、モバイル通信ネットワーク、及びこれらの組み合わせを含むが、これらに限定されない。

マルチモーダルコンテンツ処理方法の電子機器は、入力装置９０３と出力装置９０４をさらに含んでもよい。プロセッサ９０１、メモリ９０２、入力装置９０３及び出力装置９０４は、バス又は他の形態で接続されてもよいが、図９では、バスで接続される例を取る。

入力装置９０３は、入力されたデジタル又はキャラクタ情報を受信し、及びマルチモーダルコンテンツ処理の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示棒、１つ又は複数のマウスボタン、トラックボール、操縦棒などの入力装置である。出力装置９０４は、表示機器、補助照明装置（例えば、発光ダイオード（ＬＥＤ））及び触覚フィードバック装置（例えば、振動モーター）などを含んでもよい。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含んでもよい。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。

本明細書で説明するシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実施されることができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されてもよく、当該１つ又は複数コンピュータプログラムが、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び／又は解釈されるでき、当該プログラム可能なプロセッサが、専用又は汎用プログラム可能なプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェア応用、又はコードとも呼ばれる）は、プログラム可能なプロセッサの機械命令を含み、高級過程及び／又はオブジェクトに向けたプログラミング言語、及び／又はアセンブリ／機械言語を用いてこれらの計算プログラムを実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令及び／又はデータをプログラム可能なプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラム可能な論理装置（ＰＬＤ））を指し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令及び／又はデータをプログラム可能なプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、ここで説明するシステム及び技術をコンピュータに実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、及びユーザがコンピュータに入力を提供できるキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）を有する。他のタイプの装置は、さらにユーザとの対話を提供するために使用されてもよく、例えば、ユーザに提供されるフィードバックが、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力、音声入力、又は触覚入力を含む）を使用して、ユーザからの入力を受信してもよい。

本明細書で説明するシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとして）、又はミドルウェア部品を含む計算システム（例えば、応用サーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカルユーザインターフェース又はＷｅｂブラウザを備えたユーザコンピュータ、ユーザが、当該グラフィカルユーザインターフェース又は当該Ｗｅｂブラウザを通じて本明細書で説明するシステム及び技術の実施形態と対話できる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組合せを含む計算システムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を通じて、システムの部品を相互に接続してもよい。通信ネットワークの例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。通常、クライアント及びサーバは、互いに離れており、通信ネットワークを介して相互作用する。クライアントとサーバ間の関係は、対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を持つコンピュータプログラムによって生成される。

さらに、本願はさらに、マルチモーダルコンテンツ処理方法を提供し、前記方法は、
外部のコンテンツ処理要求に応答し、処理対象マルチモーダルコンテンツを確定することと、
予め確立された知識グラフと前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定することと、を含む。

本願の実施例の技術的解決手段に従って、ユーザのコンテンツ処理要求を受信することにより、当該コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うために使用され、マルチモーダルコンテンツに対して解析を行い、当該マルチモーダルコンテンツに対応するマルチモーダル知識点を得、当該マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツに従って、当該マルチモーダルコンテンツの意味理解結果を確定し、当該マルチモーダル知識グラフが、マルチモーダル知識点とマルチモーダル知識点との関連関係を含む。当該技術的解決手段は、マルチモーダルコンテンツのマルチモーダル知識点とマルチモーダル知識グラフを組み合わせて、マルチモーダルコンテンツに対して理解を行い、正確な意味理解結果を得ることができ、マルチモーダルコンテンツの正確な応用に基礎を定める。

理解すべきものとして、上記のさまざまな形式のプロセスを使用して、ステップの順序を変更、追加、又は削除する。例えば、本願に記載された各ステップは、本願に開示された技術的解決手段の所望の結果が達成され得る限り、並列、順次、又は異なる順序で実行されてもよく、本明細書に限定されない。

上記具体的な実施形態は、本願の保護範囲に対する制限を構成しない。当業者は、設計要求及び他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本願の精神と原則の範囲内で行われた修正、同等の代替、及び改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims

電子機器によって実行されるマルチモーダルコンテンツ処理方法であって、
ユーザのコンテンツ処理要求を受信することであって、前記コンテンツ処理要求には処理対象マルチモーダルコンテンツが含まれ、前記コンテンツ処理要求が、前記マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用されることと、
前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得ることと、
前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定し、前記マルチモーダル知識グラフが、前記マルチモーダル知識点と前記マルチモーダル知識点間の関連関係を含むことと、を含み、
前記コンテンツ処理要求に含まれる前記マルチモーダルコンテンツの意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得することと、
前記ユーザに前記推薦リソースをプッシュすることと、
又は
前記コンテンツ処理要求に含まれる前記マルチモーダルコンテンツの意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定することと、
前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得することと、
をさらに含むことを特徴とするマルチモーダルコンテンツ処理方法。
前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定することは、
前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定することと、
前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定することと、
前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定することと、を含むことを特徴とする請求項１に記載の方法。
前記基本的な意味理解結果は、第１の意味理解結果及び／又は第２の意味理解結果を含み、
前記第１の意味理解結果は、前記マルチモーダル知識点と予め設定された深度学習方法に従って、前記マルチモーダルコンテンツに対して意味理解を行うことによって得られ、
前記第２の意味理解結果は、予め設定された融合方法に従って、前記マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行うことによって得られることを特徴とする請求項２に記載の方法。
マルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含むことと、
前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定することと、
前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘することと、
知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立することと、
前記マルチモーダル知識点サンプル間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立することと、をさらに含むことを特徴とする請求項１～請求項３のいずれか１項に記載の方法。
知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力することをさらに含むことを特徴とする請求項１～請求項３のいずれか１項に記載の方法。
受信モジュール、処理モジュール及び確定モジュールを含み、
前記受信モジュールは、ユーザのコンテンツ処理要求を受信するために使用され、前記コンテンツ処理要求には処理対象マルチモーダルコンテンツが含まれ、前記コンテンツ処理要求は、前記マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用され、
前記処理モジュールは、前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得るために使用され、
前記確定モジュールは、前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用され、前記マルチモーダル知識グラフは、前記マルチモーダル知識点と前記マルチモーダル知識点間の関連関係を含み、
出力モジュールをさらに含み、
前記処理モジュールは、前記コンテンツ処理要求に含まれる前記マルチモーダルコンテンツの意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得するためにさらに使用され、
前記出力モジュールは、前記ユーザに前記推薦リソースをプッシュするために使用され、
又は
前記確定モジュールは、前記コンテンツ処理要求に含まれる前記マルチモーダルコンテンツの意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定するためにさらに使用され、
前記処理モジュールは、前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得するためにさらに使用され、
前記出力モジュールは、前記マルチモーダルコンテンツに対する検索結果を出力するために使用されることを特徴とするマルチモーダルコンテンツ処理装置。
前記確定モジュールは、前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定し、前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定し、前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用されることを特徴とする請求項６に記載の装置。
前記基本的な意味理解結果は、第１の意味理解結果及び／又は第２の意味理解結果を含み、
前記第１の意味理解結果は、前記マルチモーダル知識点と予め設定された深度学習方法に従って、前記マルチモーダルコンテンツに対して意味理解を行うことによって得られ、
前記第２の意味理解結果は、予め設定された融合方法に従って前記マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行うことによって得られることを特徴とする請求項７に記載の装置。
前記処理モジュールはさらに、マルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含み、前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定し、前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘し、知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立し、及び前記マルチモーダル知識点サンプル間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立するために使用されることを特徴とする請求項６～請求項８のいずれか１項に記載の装置。
出力モジュールをさらに含み、
前記出力モジュールは、知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力するために使用されることを特徴とする請求項６～請求項８のいずれか１項に記載の装置。
少なくとも１つのプロセッサ、及び
前記少なくとも１つのプロセッサと通信接続されるメモリを含み、
前記メモリには前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサが請求項１～請求項５のいずれか１項に記載の方法を実行することを特徴とする電子機器。
コンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令が、コンピュータに請求項１～請求項５のいずれか１項に記載の方法を実行させるために使用されることを特徴とするコンピュータ可読記憶媒体。
プロセッサで実行されると、請求項１～請求項５のいずれか１項に記載の方法が実現されることを特徴とするコンピュータプログラム。