JP7225273B2 - マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体 - Google Patents

マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP7225273B2
JP7225273B2 JP2021004519A JP2021004519A JP7225273B2 JP 7225273 B2 JP7225273 B2 JP 7225273B2 JP 2021004519 A JP2021004519 A JP 2021004519A JP 2021004519 A JP2021004519 A JP 2021004519A JP 7225273 B2 JP7225273 B2 JP 7225273B2
Authority
JP
Japan
Prior art keywords
multimodal
content
semantic understanding
knowledge
understanding result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021004519A
Other languages
English (en)
Other versions
JP2021082308A (ja
Inventor
チーファン フォン
ハイフェン ワン
コーシン レン
ヨン チュー
ヤジュアン リュイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021082308A publication Critical patent/JP2021082308A/ja
Application granted granted Critical
Publication of JP7225273B2 publication Critical patent/JP7225273B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本願は、データ処理技術分野に関し、特に、人工知能技術におけるマルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体に関する。
グラフィック/テキスト、ビデオコンテンツリソースは、現在、インターネットの主流のリソース形態であり、グラフィック/テキスト、ビデオコンテンツなどの様々なモダリティを持つマルチモーダルコンテンツを精確に理解するのは、知能製品の重要な基盤及びコアな要件である。
従来技術において、グラフィック/テキストとビデオコンテンツリソースなどのマルチモーダルコンテンツの本当の意味を正確に理解するために、通常は、テキスト、視覚、音声などの技術を利用して、マルチモーダルコンテンツに対して意味分析を行い、シングルモーダル理解結果を得、そして複数のシングルモーダル理解結果を融合させて、最終的なマルチモーダル理解結果を得る。
しかし、上記方法は、マルチモーダルコンテンツに対応する物体、人物及び文字などの知識点のみを確定することができ、知識点間の関係及び実際に発生したイベントについては明確にできず、意味理解結果が不正確である問題がある。
本願の実施例によって提供されるマルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体は、従来のマルチモーダルコンテンツの処理方法に存在する、意味理解結果が不正確である問題を解決するために使用される。
第1の態様において、本願は、マルチモーダルコンテンツ処理方法を提供し、前記方法は、
ユーザのコンテンツ処理要求を受信し、前記コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用されることと、
前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得ることと、
前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定し、前記マルチモーダル知識グラフが、前記マルチモーダル知識点と前記マルチモーダル知識点との関連関係を含むことと、を含む。
本実施例において、マルチモーダルコンテンツのマルチモーダル知識点とマルチモーダル知識グラフを用いてマルチモーダルコンテンツに対して理解を行うため、正確な意味理解結果を得、マルチモーダルコンテンツの正確な応用を実現し、従来技術に存在する、マルチモーダルコンテンツの理解が不正確である問題を解決する。
第1の態様の1つの可能な設計において、前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定することは、
前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定することと、
前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定することと、
前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定することと、を含む。
前記基本的な意味理解結果は、第1の意味理解結果及び/又は第2の意味理解結果を含み、
前記第1の意味理解結果は、前記マルチモーダル知識点と予め設定された深度学習方法に従って、前記マルチモーダルコンテンツに対して意味理解を行うことによって得られ、
前記第2の意味理解結果は、予め設定された融合方法に従って、前記マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行うことによって得られる。
本実施例において、知識グラフに基づく関連結果、深度神経ネットワークに基づく融合モデリング結果及びシングルモーダル理解結果に基づく融合手段は、マルチモーダルコンテンツに対する意味理解を共同で実現し、マルチモーダルコンテンツの理解精度をさらに向上させる。
第1の態様の他の可能な設計において、前記方法は、
マルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含むことと、
前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定することと、
前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘することと、
知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立することと、
前記マルチモーダル知識点サンプル間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立することと、をさらに含む。
本願の技術的解決手段は、マルチモーダル知識グラフを確立することにより、知識点に意味解釈を与え、マルチモーダルコンテンツの正確な意味理解を実現するための基礎を定める。
第1の態様の別の可能な設計において、前記方法は、
知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力することをさらに含む。
第1の態様のさらに他の可能な設計において、前記方法は、
前記意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得することと、
前記ユーザに前記推薦リソースをプッシュすることと、
又は
前記意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定することと、
前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得することと、をさらに含む。
本実施例の技術的解決手段は、リソースの正確な推薦と知能検索の精度を実現する。
第2の態様において、本願は、マルチモーダルコンテンツ処理装置を提供し、前記装置は、受信モジュール、処理モジュール及び確定モジュールを含み、
前記受信モジュールが、ユーザのコンテンツ処理要求を受信するために使用され、前記コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用され、
前記処理モジュールが、前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得るために使用され、
前記確定モジュールが、前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用され、前記マルチモーダル知識グラフが、前記マルチモーダル知識点と前記マルチモーダル知識点との関連関係を含む。
第2の態様の1つの可能な設計において、前記確定モジュールは具体的に、前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定すること、前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定すること、及び、前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定することのために使用される。
前記基本的な意味理解結果は、第1の意味理解結果及び/又は第2の意味理解結果を含み、
前記第1の意味理解結果は、前記マルチモーダル知識点と予め設定された深度学習方法に従って、前記マルチモーダルコンテンツに対して意味理解を行うことによって得られ、
前記第2の意味理解結果は、予め設定された融合方法に従って、前記マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行うことによって得られる。
第2の態様の他の可能な設計において、前記処理モジュールはさらに、マルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含むこと、前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定すること、前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘すること、知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立すること、及び前記マルチモーダル知識点サンプル間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立することのために使用される。
第2の態様の別の可能な設計において、前記装置は、出力モジュールをさらに含み、
前記出力モジュールは、知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力するために使用される。
第2の態様の別の可能な設計において、前記装置は、出力モジュールをさらに含み、
前記処理モジュールは、前記意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得するためにさらに使用され、
前記出力モジュールは、前記ユーザに前記推薦リソースをプッシュするために使用され、
又は
前記確定モジュールは、前記意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定するためにさらに使用され、
前記処理モジュールは、前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得するためにさらに使用され、
前記出力モジュールは、前記マルチモーダルコンテンツに対する検索結果を出力するために使用される。
本願の第2の態様によって提供された装置は、第1の態様によって提供された方法を実行するために使用されてもよく、その実現原理と技術的効果が類似であり、ここでは繰り返さない。
第3の態様において、本願は電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信接続されるメモリ、を含み、そのうち、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが、第1の態様及び第1の態様の各可能な設計に記載の方法を実行することができる。
第4の態様において、本願は、コンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに第1の態様及び第1の態様の各可能な設計に記載の方法を実行させるために使用される。
第5の態様において、本願は、マルチモーダルコンテンツ処理方法を提供し、前記方法は、
外部のコンテンツ処理要求に応答して、処理対象マルチモーダルコンテンツを確定することと、
予め確立された知識グラフと前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定することと、を含む。
第6の態様において、本願は、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサで実行されると、第1の態様及び第1の態様の各可能な設計に記載の方法が実現される。
上記願の1つの実施例は、以下のような利点又は有益な効果を有する。ユーザのコンテンツ処理要求を受信し、当該コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用され、マルチモーダルコンテンツに対して解析を行い、当該マルチモーダルコンテンツに対応するマルチモーダル知識点を得、当該マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツに従って、当該マルチモーダルコンテンツの意味理解結果を確定し、当該マルチモーダル知識グラフは、マルチモーダル知識点とマルチモーダル知識点との関連関係を含む。当該技術的解決手段は、マルチモーダルコンテンツのマルチモーダル知識点とマルチモーダル知識グラフを用いて、マルチモーダルコンテンツに対して理解を行うため、マルチモーダル知識点間の関係及び実際に発生したイベントを明確にできない問題を克服し、さらに正確な意味理解結果を得、マルチモーダルコンテンツの正確な応用を実現する。
上記の選択可能な形態の他の効果を、具体的な実施例と併せて以下に説明する。
添付の図面は、本願をよりよく理解するために使用されており、本願を限定するものではない。
本願によって提供されるマルチモーダルコンテンツ処理方法の1つの応用シーンの概略図である。 本願の第1の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。 育児の1つのシーンの概略図である。 本願の実施例によって提供されるマルチモーダルコンテンツの処理概略図である。 本願の第2の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。 本願の第3の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。 マルチモーダル知識グラフを構築するためのフレームワーク概略図である。 本願の実施例によって提供されるマルチモーダルコンテンツ処理装置の概略構造図である。 本願の実施例のマルチモーダルコンテンツ処理方法を実現するための電子機器のブロック図である。
以下、添付図面を参照して本願の例示的な実施例を説明するが、本願の実施例の様々な詳細が理解を容易にするために含まれており、単なる例示的なものと考えられるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを理解するはずである。同様に、明確かつ簡潔にするために、以下の説明において、よく知られている機能及び構造の説明は省略されている。
本願の技術的解決手段を紹介する前に、まず、本願に関連する用語について説明する。
マルチモーダルコンテンツ
マルチモーダルコンテンツは、様々なモダリティを有するリソースであり、各情報のソース又は形態は、1つのモダリティと呼ばれることができる。例えば、人は、触覚、聴覚、視覚、及び嗅覚を有し、情報の媒体は、音声、ビデオ、文字などがあり、様々なセンサー、例えばレーダー、赤外線、加速度計などである。上記のいずれも1つのモダリティと言える。また、モダリティは、非常に広い定義を持つことができ、例えば、2つの異なる言語を、2つのモダリティとしてもよく、2つの異なる状況で収集されたデータセットさえ、2つのモダリティとして考えられてもよい。
知識グラフ
知識グラフは、ノードとサイドから図の形で構成され、知識の構造化表現形態である。知識グラフのノードは、知識点と呼ばれることができ、その表現された情報は、エンティティ、概念、イベント、動作、機能、テーマ、シーン、ソース、視覚リソース、音声リソース、テキストリソース、ユーザ行為などを含むが、これらに限定されなく、これに応じて、知識グラフのサイドは、知識点間の関連関係とも呼ばれることができ、その表現された情報は、属性、従属、タイミング及び因果などを含むが、これらに限定されない。
知識グラフのエンティティは、客観世界に存在するいくつかの客体を解釈でき、例えば、人物、動物、植物などがあり、概念は、同じ属性のエンティティからなるセットとして解釈でき、例えば、労働者、スター、赤ちゃん、母親があり、機能は、エンティティが有する能力と機能属性として解釈でき、いくつかのシーンで動作と同じ解釈を持ち、テーマは、話題としても理解でき、例えば、人工知能、通信などがあり、シーンとは、日常生活中の具体的な場面や状況を指し、例えば、労働場面、食事場面、学習場面などがあり、ソースとは、リソースの出所を指し、例えば、ビデオリソースが個人のアカウントから取得されること、教育リソースが教育機関のアカウントから取得されることなどがあり、視覚リソースとは、各種のフォーマットの可視ファイルを指し、例えば、ビデオファイル、画像ファイルがあり、音声リソースは、音楽、通話などのリソースであってもよく、テキストリソースは、ドキュメントなどであってもよい。
説明すべきものとして、上記のものは、知識グラフの知識点を簡単に解釈するだけのものであり、実際の応用において、知識グラフの知識点は他のコンテンツも含まれてもよく、そして、本願は、上記知識点の表現形態を限定するものではなく、際の状況に応じて決定することができる。
現在、知識グラフは、人工知能の重要な技術の一つとして、広く応用されており、例えば、テキスト理解、知能推薦、知能検索などの様々なタスクがある。そのうち、テキスト理解については、所与のテキストに対して処理を行って複数のテキストセグメントを得ると解釈されてもよく、得られた複数のテキストセグメントと知識グラフにおける知識点を関連付け、関連付けられた結果に基づいて、テキストの意味理解結果を確定する。知能推薦については、ユーザが視聴しているビデオ又は検索したコンテンツに対して意味理解を行い、知識グラフを組み合わせてユーザが本当に関心を持っているイベントを推論し、当該イベントに基づいてユーザに類似のコンテンツを推薦する。知能検索については、テキストワードが少ないシーンに応用でき、まずユーザが興味を持っているリソースを処理し、知識グラフを組み合わせてユーザが本当に関心を持っているイベントを推論し、テキスト形態に基づいて当該イベントを表し、さらに当該イベントのテキストでリソース検索を行う場合、より多くの検索結果を得ることができる。
以下、図1と併せて本願の実施例によって設計されたシステム構成を説明する。図1は本願によって提供されるマルチモーダルコンテンツ処理方法の1つの応用シーンの概略図である。図1に示すように、当該応用シーンは、トレーニング機器11、処理機器12及びデータ記憶機器13を含んでもよい。例示的に、図1に示す応用シーンにおいて、トレーニング機器11は、知識グラフを構築するためのマルチモーダルコンテンツをウェブページから取得し、その後マルチモーダル知識グラフを構築する際に直接使用できるように、データ記憶機器13に記憶することができ、処理機器12は、外部から入力された処理対象マルチモーダルコンテンツを受信し、当該マルチモーダルコンテンツに対して処理を行い、及び処理結果をデータ記憶機器13に記憶することができる。
本実施例において、データ記憶機器13は、大量の知識グラフを構築するためのマルチモーダルコンテンツを記憶することができ、処理機器12の処理結果を記憶することもでき、トレーニング機器11は、データ記憶機器15での、知識グラフを構築するためのマルチモーダルコンテンツに基づいて、知識グラフ構築方法のプログラムコードを実行して、マルチモーダル知識グラフを構築するために使用され、処理機器12は、データ記憶機器13での処理対象マルチモーダルコンテンツに基づいて、マルチモーダルコンテンツ処理方法のプログラムコードを実行して、マルチモーダルコンテンツの意味理解結果を得るために使用される。
理解できるものとして、当該マルチモーダル知識グラフは、汎用知識グラフうちの1つであり、汎用知識グラフは、トレーニング機器が取得された各種モダリティのコンテンツを処理して、構築した知識グラフであり、実際の応用において、マルチモーダル知識グラフは、汎用知識グラフにフィードバックすることができ、汎用知識グラフを選別することにより、マルチモーダル知識グラフを得ることができる。
説明すべきものとして、図1は、本願の実施例によって提供される1つの応用シーンの概略図だけであり、図1に示す機器間の位置関係は、任意の制限を構成しなく、例えば、図1において、データ記憶機器13は、処理機器12に対して外部メモリであってもよく、他の状況において、データ記憶機器13を処理機器12に配置してもよい。本願の実施例において、トレーニング機器11と処理機器12は、同一の機器であってもよく、又は異なる機器であってもよく、本願の実施例はこれに限定されない。
例示的に、以下において、トレーニング機器11と処理機器12が同一の電子機器であることを例に挙げて、本願の技術的解決手段について詳細に説明する。電子機器が具体的にサーバであるか、それとも端末機器であるかについては、本願の実施例はこれに限定されず、実際の状況に応じて確定することができる。
以下、本願の技術的解決手段について具体的な実施形態により詳細に説明する。説明すべきものとして、以下のいくつかの具体的な実施例は、互いに結合してもよく、同じ又は類似の概念又はプロセスは、いくつかの実施例では繰り返さないかもしれない。
図2は、本願の第1の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。図2に示すように、当該方法は、次のステップを含むことができる。
S201において、ユーザのコンテンツ処理要求を受信し、当該コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用される。
本願の実施例において、マルチモーダルコンテンツに対して意味理解を行う必要があるとき、ユーザは、電子機器にコンテンツ処理要求を送信することができ、当該コンテンツ処理要求には、処理対象マルチモーダルコンテンツを含み、それに応じて、電子機器は、当該コンテンツ処理要求を受信して認識し、その後、コンテンツ処理要求における処理対象マルチモーダルコンテンツを分析し、これにより当該マルチモーダルコンテンツに対応する意味理解結果を確定する。
理解できるものとして、ユーザは、様々な方式で電子機器にコンテンツ処理要求を送信することができ、例えば、クリック操作、タッチ操作、押下操作又は音声入力などの方式の少なくとも1つを介して、電子機器にコンテンツ処理要求を送信することができ、本願は、ユーザがコンテンツ処理要求を送信する方式を限定するものではなく、実際応用シーンに従って確定することができる。例えば、インタラクティブインターフェースを有する電子機器に対して、ユーザは、当該インタラクティブインターフェースで操作を行うことにより、コンテンツ処理要求を送信することができ、インタラクティブ対話を有する知能機器に対して、ユーザが音声命令によってコンテンツ処理要求を送信することを取得することができる。
例示的に、本実施例において、処理対象マルチモーダルコンテンツは、ビデオ、例えば、映画の断片、日常生活のビデオであってもよく、テキスト図像、例えば、IDカードの図像であってもよく、本願の実施例は、マルチモーダルコンテンツの表現形態を限定するものではなく、実際の状況に応じて確定することができる。
S202において、マルチモーダルコンテンツに対して解析を行い、マルチモーダルコンテンツに対応するマルチモーダル知識点を得る。
本実施例において、電子機器は、ユーザのコンテンツ理解要求を受信した後、まず、コンテンツ処理要求におけるマルチモーダルコンテンツを確定し、次に当該マルチモーダルコンテンツに対して解析を行い、当該マルチモーダルコンテンツに含まれるマルチモーダル知識点を確定する。
例示的に、マルチモーダルコンテンツに対して解析を行うことは、主にマルチモーダルコンテンツが有する複数のモダリティに基づいており、例えば、視覚、音声、テキストようなこれらのモダリティは、意味理解の基本的なコンテンツとして機能することができる。本願の実施例は、主に視覚分析、音声認識、テキスト理解技術を採用する。例えば、あるビデオについては、異なる次元に立って理解することができ、視覚的には、顔分析によってビデオの中に誰がいるのを確定し、光学キャラクタ認識(optical character recognition、OCR)によって、ビデオの中にどの文字が現れ、どの動物、物体が現れるのを確定し、音声的には、人物の音声を文字に変換し、ビデオ自身に添えられた文字を組み合わせて意味理解を行うなど、が挙げられる。
例えば、図3は育児の1つのシーンの概略図である。図3に示すように、ビデオセグメント(テキスト、視覚、音声情報を含む)を例にとり、当該シーンにおいて、当該マルチモーダルコンテンツは、育児のあるビデオであり、「ビデオにおいて、ある女性が赤ちゃんを叩いていり、ビデオには、赤ちゃんが乳を飲んだ後、乳を吐いたり、しゃっくりをしたりするとき、お母さんはこうするべきであるような文字説明がある」、視覚によって(赤ちゃん、母親、叩き動作)を理解でき、テキストによってキーワード(吐乳、赤ちゃん、しゃっくり)などを理解でき、即ち、当該マルチモーダルコンテンツに対応するマルチモーダル知識点は、人物「母親、赤ちゃん」、動作「叩き、背を叩く」などを含むことができる。
S203において、上記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツに従って、マルチモーダルコンテンツの意味理解結果を確定する。
当該マルチモーダル知識グラフは、マルチモーダル知識点と当該マルチモーダル知識点との関連関係を含む。
本実施例において、マルチモーダル知識グラフに含まれたマルチモーダル知識点と当該マルチモーダル知識点との関連関係は、大量のマルチモーダルコンテンツサンプルに対して解析を行い、実際生活における経験知識に基づいて解析の結果に対してトレーニングすることによって得られた知識グラフである。
理解できるものとして、マルチモーダルコンテンツに対応するマルチモーダル知識点は、少なくとも2つの知識点であってもよく、本実施例におけるマルチモーダル知識点は、解析によって得られた複数の知識点の総称である。
例示的に、マルチモーダルコンテンツに対応するマルチモーダル知識点を確定した後、まず当該マルチモーダル知識点とマルチモーダル知識グラフとの関連関係を確立し、次にマルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツを組み合わせて、表現学習、知識関連、計算推論などの技術を通じて、当該マルチモーダルコンテンツの意味理解結果を確定することができる。
知識関連は、マルチモーダルコンテンツとマルチモーダル知識グラフの関連問題を解決でき、具体的には、知識関連のステップは、主に知識認識、知識関連の順序付けと方策決定を含み、計算推論は、知識グラフ、マルチモーダルコンテンツ及び融合情報を組み合わせて、マルチモーダルコンテンツに隠れた情報を計算して推論すると理解できる。
例えば、上記図3に示すシーン概略図に対して、視覚分析及びテキスト理解によって、人物「母親、赤ちゃん」、動作「叩き、背を叩く」を認識でき、視覚分析に基づいて、「ある母親が赤ちゃんに背を叩く」ということを知ることができ、これらの知識点をマルチモーダル知識グラフに関連付け、例えば、赤ちゃんをマルチモーダル知識グラフでの赤ちゃんに関連付け、母親をマルチモーダル知識グラフでの母親、背を叩く動作、吐乳などに関連付け、マルチモーダル知識グラフでの母親、赤ちゃん及び背を叩く動作、吐乳などに従って、ビデオで実際に発生するイベント「母親が赤ちゃんにしゃっくりを叩く」(注、しゃっくりを叩くは、育児領域のシーン名詞である)を推論し、即ち、当該ビデオの意味理解結果である。
また、例えば、マルチモーダルコンテンツがある映画の断片、「ビデオで、ある屋上で、二人が向かい合って立っていり、そのうち、一人が銃を持って他の人のおでこを指していり、断片には、すみません、警察ですような文字説明がある」であれば、このとき、当該マルチモーダルコンテンツに対応するマルチモーダル知識点は、シーン「屋上」、エンティティ「人、銃」、動作「銃を持って指す」などを含むことができる。このとき、マルチモーダル知識グラフを組み合わせると、映画「無間道」の中の断片であると推論でき、当該映画断片の意味理解結果である。
例示的に、図4は、本実施例によって提供されるマルチモーダルコンテンツの処理概略図である。図4に示すように、本実施例において、マルチモーダルコンテンツの処理プロセスは、オフラインプロセスとオンラインプロセスを含むことができ、そのうち、オフラインプロセスは、主に汎用知識グラフとマルチモーダルコンテンツサンプルに従って、マルチモーダル知識グラフを構築し、オンラインプロセスは、外部から入力されたマルチモーダルコンテンツを受信すること、マルチモーダルコンテンツの解析を実行してマルチモーダル知識点を得ること、その後、マルチモーダル知識点とマルチモーダル知識グラフを関連付けて、マルチモーダルコンテンツ解析の結果とマルチモーダル知識グラフに対してマルチモーダル融合を行うこと、及びマルチモーダル知識グラフを組み合わせる上で意味理解を行って意味理解結果を出力すること、を含む。
上記の分析から分かるように、本実施例において、テキスト、視覚、音声などのマルチモーダルコンテンツ及び予め確立されたマルチモーダル知識グラフを総合的に利用して、マルチモーダルコンテンツの意味理解を良好に実現でき、意味理解が不正確である問題を回避することができる。
さらに、本願の実施例において、マルチモーダルコンテンツの意味理解結果を確定した後、意味表現方式によって意味理解結果を表すことができる。そのうち、意味表現は、明示的意味表現と暗黙的意味表現を含むことができる。明示的意味表現は、知識グラフに基づく意味表現を含み、暗黙的意味表現とは、マルチモーダルコンテンツ及び明示的理解結果のベクトル表現を意味する。
例えば、しゃっくりを叩くイベントについて、明示的意味表現の出力は、イベントが、しゃっくりを叩くことで、エンティティが、母親と赤ちゃんがいて、動作が、背を叩く動作、吐乳などがあり、暗黙的意味表現とは、すでに理解されたイベントをベクトルの形態に表すことである。
例示的に、本実施例は、マルチモーダル表現学習によってマルチモーダルコンテンツの表現問題を解決し、主に、深度学習ネットワークに基づく表現学習、グラフニューラルネットワーク(graph neural network、GNN)に基づく表現学習、ネットワーク表現学習などの方法を含む。
本実施例における意味理解結果は、正確な意味理解情報を含み、知能応用に適用されることができ、例えば、知能推薦、知能検索、知能対話システムなどのシーンに適用されることができる。
具体的に、本実施例の1つの可能な設計において、当該マルチモーダルコンテンツ処理方法は、以下のステップをさらに含んでもよく、
知識グラフの意味表現方法に基づいて、当該マルチモーダルコンテンツの意味理解結果を出力する。
本実施例において、マルチモーダルコンテンツの意味理解結果を得た後、直接出力する必要があれば、意味表現方法などの明示的方式で出力することができ、そのうち、当該明示的方式は、ユーザに分かりやすい形態である。
例えば、上記育児シーンにおけるビデオセグメントは、直接に「しゃっくりを叩く」イベントを文字形態で出力することができ、ユーザが当該ビデオの本当の意味を直接確定できるようにする。
本実施例の他の可能な設計において、当該マルチモーダルコンテンツ処理方法は、以下のステップをさらに含むことができ、
当該意味理解結果のベクトル表現に従って、タイプが当該マルチモーダルコンテンツと一致する推薦リソースを取得し、当該ユーザに当該推薦リソースをプッシュする。
例示的に、ユーザがある種類のビデオを見るとき、そのようなビデオに興味があることを示し、したがって、マルチモーダルコンテンツに対応する意味理解結果を知能推薦シーンに適用するとき、上記確定された意味理解結果は、ベクトルによって表し、直接に意味理解結果のベクトル表現を知能推薦の入力として、ネットワークリソースからタイプが当該マルチモーダルコンテンツと一致する推薦リソースを取得し、ユーザにプッシュすることにより、知能推薦の精度を向上させる。
例えば、ユーザが視聴したビデオは、どのように正しくしゃっくりを叩くことに関するビデオであり、当該ビデオの再生を完了した後、電子機器は、しゃっくりを叩くことのベクトル表現に基づいて、ネットワークリソースから、どのように正しくしゃっくりを叩くことを教える別のビデオを確定し、リソースの正確な推薦を実現する。
本実施例の別の可能な設計において、当該マルチモーダルコンテンツ処理方法は、以下のステップをさらに含むことができる。
当該意味理解結果のベクトル表現に従って、当該マルチモーダルコンテンツのテキスト理解結果を確定し、当該テキスト理解結果に従って、検索プロセスを実行し、当該マルチモーダルコンテンツに対する検索結果を取得し、当該マルチモーダルコンテンツに対する検索結果を出力する。
本実施例において、通常ビデオに含まれる文字が少ないので、ユーザが入力したビデオに基づいてコンテンツ検索を行うとき、得られた検索結果が比較的少なくなり、検索結果が不正確である問題を引き起こす可能性があるが、上記確定された意味理解結果をベクトル表現によって、マルチモーダルコンテンツのテキスト理解結果を確定し、当該テキスト理解結果を知能検索の入力として、より多くの検索結果を確定することができ、これにより知能検索の精度を向上させる。
本願の実施例によって提供されるのマルチモーダルコンテンツ処理方法は、ユーザのコンテンツ処理要求を受信し、当該コンテンツ処理要求は、処理対象マルチモーダルコンテンツに対して意味理解を行うために使用され、マルチモーダルコンテンツに対して解析を行い、当該マルチモーダルコンテンツに対応するマルチモーダル知識点を得、当該マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツに従って、当該マルチモーダルコンテンツの意味理解結果を確定し、当該マルチモーダル知識グラフは、マルチモーダル知識点とマルチモーダル知識点との関連関係を含む。当該技術的解決手段は、マルチモーダルコンテンツのマルチモーダル知識点とマルチモーダル知識グラフを組み合わせて、マルチモーダルコンテンツに対して理解を行い、正確な意味理解結果を得ることができ、マルチモーダルコンテンツの正確な応用に基礎を定める。
例示的に、上記図2に示す実施例に基づいて、図5は、本願の第2の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。図5に示すように、本実施例において、上記S203は、以下のステップにより実現されることができる。
S501において、マルチモーダル知識点とマルチモーダル知識グラフに従って、マルチモーダル知識点間の関連関係を確定する。
本実施例において、確定されたマルチモーダルコンテンツに対応するマルチモーダル知識点について、マルチモーダル知識グラフをクエリすることによって、当該マルチモーダル知識グラフには対応するマルチモーダル知識点があるかどうかを判断することができ、YESであると、両者が関連関係を有するのを確定し、実際応用と併せて、マルチモーダル知識点間の関連関係を確定する。
例示的に、マルチモーダル知識点間の関連関係は、エンティティ属性、エンティティ関係、エンティティ従属関係、包含(part of)関係、側面関係(facet of)、関連(related of)などの関係の少なくとも1つを含む。
本願の実施例は、マルチモーダル知識点間の関連関係の具体的な表現形態に限定されるものではなく、実際の状況に応じて確定されることができる。
S502において、マルチモーダル知識点と予め設定された意味理解方法に従って、マルチモーダルコンテンツの基本的な意味理解結果を確定する。
例示的に、当該予め設定された意味理解方法は、予め設定された深度学習方法及び/又は予め設定された融合方法を含んでもよく、それに応じて、本実施例における基本的な意味理解結果は、第1の意味理解結果及び/又は第2の意味理解結果を含んでもよい。
第1の意味理解結果は、マルチモーダル知識点と予め設定された深度学習方法に従って、マルチモーダルコンテンツに対して意味理解を行って得られ、第2の意味理解結果は、予め設定された融合方法に従って、マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行って得られる。
1つの例示として、各モダリティでマルチモーダルコンテンツに対して理解を行った後、各モダリティの情報、即ちマルチモーダル知識点を得ることができ、マルチモーダル知識点を深度神経ネットワーク(deep neural networks、DNN)によって融合を行ってベクトルとして表し、異なる応用シーンを結合して第1の意味理解結果を得ることができる。
別の例示として、マルチモーダルコンテンツについては、まず、テキスト、視覚、音声などの理解技術をそれぞれ利用して、シングルモーダル意味理解結果を得、次に、予め設定された融合方法に従って、すべてのシングルモーダル意味理解結果に対して融合を行って、第2の意味理解結果を得る。
理解できるものとして、本願の実施例における第1の意味理解結果と第2の意味理解結果は、2つの方式で得られた基本的な意味理解結果を区別するためだけであり、具体的な関係を限定するものではない。
S503において、上記マルチモーダル知識点間の関連関係、基本的な意味理解結果及びマルチモーダル知識グラフに従って、当該マルチモーダルコンテンツの意味理解結果を確定する。
1つの実施例において、当該ステップは、マルチモーダル融合のプロセスとして解釈でき、マルチモーダル融合は、主にマルチモーダル知識点の統一モデリングを解決し、さらにマルチモーダルコンテンツの意味理解結果を確定する。
本願は、様々な方法を採用してマルチモーダル融合問題を総合的に解決し、前記方法は、知識グラフ関連に基づくアライメント融合、深度神経ネットワークに基づく融合モデリング、シングルモーダル理解結果に基づく融合など、を含む。そのうち、知識グラフ関連に基づくアライメント融合とは、マルチモーダルコンテンツと知識グラフの関連をモデリングすることによって、知識グラフに隠れた知識を利用して、アライメント、融合の問題を解決することである。深度神経ネットワークに基づく融合モデリングは、上記S502において第1の意味理解結果を得るプロセスであり、シングルモーダル理解結果に基づく融合は、上記S502において第2の意味理解結果を得るプロセスである。
本願で提供されるマルチモーダルコンテンツ処理方法は、マルチモーダル知識点とマルチモーダル知識グラフに従って、マルチモーダル知識点間の関連関係を確定し、マルチモーダル知識点と予め設定された意味理解方法に従って、マルチモーダルコンテンツの基本的な意味理解結果を確定し、上記マルチモーダル知識点間の関連関係、基本的な意味理解結果及びマルチモーダル知識グラフに従って、当該マルチモーダルコンテンツの意味理解結果を確定する。当該技術的解決手段において、知識グラフに基づく関連結果、深度神経ネットワークに基づく融合モデリング結果及びシングルモーダル理解結果に基づく融合手段は、マルチモーダルコンテンツに対する意味理解を共同で実現し、マルチモーダルコンテンツの理解精度をさらに向上させる。
例示的に、上記の実施例に基づいて、図6は、本願の第3の実施例によって提供されるマルチモーダルコンテンツ処理方法のフローの概略図である。図7は、マルチモーダル知識グラフを構築するためのフレームワーク概略図である。図6に示すように、本実施例において、当該方法は、以下のステップをさらに含むことができる。
S601において、マルチモーダルデータセットを取得し、当該マルチモーダルデータセットは、複数のマルチモーダルコンテンツサンプルを含む。
本実施例において、様々なウェブサイト又はシステムからマルチモーダルコンテンツのマルチモーダルデータセットを取得することができ、当該マルチモーダルデータセットには、複数のマルチモーダルコンテンツサンプルが含まれる。理解できるものとして、当該マルチモーダルデータセットにおけるマルチモーダルコンテンツサンプルを、マルチモーダル知識グラフを構築するためのサンプルとすることができる。
例示的に、図7を参照して、マルチモーダルデータセットにおけるマルチモーダルコンテンツサンプルは、インターネットリソース、ユーザログ、ユーザ生成コンテンツ(user generated content、UGC)又は他の形態のリソースであってもよい。本願の実施例は、マルチモーダルコンテンツサンプルの表現形態を限定するものではなく、実際の状況に応じて確定することができる。
S602において、マルチモーダルデータセットに対して処理を行い、当該マルチモーダル知識グラフの本体を確定する。
本体(ontology)は、概念をモデリングする規範であり、客観世界を記述する抽象モデルであり、形態化の形で概念とその間の連絡を明確に定義し、本体に反映される知識は、明確に定義されたコンセンサスであり、業界で認められている概念的なフレームワークであり、一般的に変化しなく、例えば「人」、「事」、「物」がある。これにより、本体は、マルチモーダル知識グラフの基礎であり、マルチモーダル知識グラフの本体を確定してこそ、様々な知識を関連付けることができる。
したがって、図7を参照して、本実施例において、マルチモーダルデータセットにおけるマルチモーダルコンテンツサンプルに対して分析を行うことにより、マルチモーダル知識グラフの本体を構築し、さらにS603におけるマルチモーダル知識点の発掘とS604におけるマルチモーダル知識点間の関連関係の発掘プロセスを実行する。
S603において、マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘する。
例示的に、マルチモーダルデータセットにおけるマルチモーダルコンテンツサンプルの知識点に対して発掘を行うことにより、各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを確定することができる。マルチモーダル知識点サンプルは、エンティティ、概念、イベント、動作、機能、テーマ、シーン、ソース、視覚リソース、音声リソース、テキストリソース、ユーザ行為などの内容の少なくとも1つを含んでもよい。そのうち、エンティティは本体、実例及び関係の統合であり、例えば、「人」は本体フレームにおける1つの概念であり、概念にも関連属性、例えば「性別」が規定され、明さんは具体的な人で、実例と呼ばれ、だから明さんも性別があり、明さん及び明さんの本体概念「人」を表す関連属性は、エンティティ(簡単に言えば、本体+実例)と総称される。
他のマルチモーダル知識点についての解釈は、前述の図1に示す応用シーンでの説明を参照してもよく、ここでは繰り返さない。
S604において、知識グラフ表現学習によって、マルチモーダル知識点サンプル間の関連関係を確立する。
例示的に、マルチモーダル知識点サンプル間の関連関係は、エンティティ属性/関係、従属関係、包含関係、側面関係、関連などの知識関係を含み、知識グラフは、グラフ組織形態であり、意味関連によって様々なエンティティを関連付けることができ、即ち、複数の知識点を関連付けることによって、マルチモーダル知識点間の関連関係を形成する。
例えば、育児中のしゃっくりを叩くイベントのビデオを例として説明し、マルチモーダル知識点間の関連関係は、母親と赤ちゃん間の関係、母親と叩き動作、叩きと赤ちゃんの背などを含んでもよい。理解できるものとして、本実施例では、マルチモーダル知識点間の関連関係の具体的な表現形態を限定しない。
1つの実施例において、図7を参照して、汎用知識グラフに基づいて、表現学習の方式によってマルチモーダル知識点間の関連関係を確定することができる。
S605において、マルチモーダル知識点間の関連関係と当該マルチモーダル知識グラフの本体に基づいて、マルチモーダル知識グラフを確立する。
例示的に、図7を参照して、マルチモーダル知識グラフを確立するプロセスは、本体構築、知識認識、知識抽出、知識関連、知識構築、知識融合、表現学習、知識推論、繰り返し制御、品質制御、特徴構築などの内容の1つ又は複数を含むことができる。本願の実施例は、マルチモーダル知識グラフの具体的な処理フローを限定せず、実際の状況に応じて確定することができる。
図7に示すフレームワーク図において、マルチモーダル知識点間の関連関係に対して正規化融合、関係推論及び検証を行った後、さらに本体構築と汎用知識グラフのスクリーニングに結合して、マルチモーダル知識グラフを得ることができる。また、当該マルチモーダル知識グラフは、汎用知識グラフにフィードバックすることができ、即ち、汎用知識グラフを絶えず改善する。さらに、繰り返し制御、特徴発掘、品質制御などを組み合わせて、当該マルチモーダル知識グラフを絶えず更新して完備することもできる。
本体構築は人にとって、即ち人物タイプを確定するプロセスであり、知識認識とは、マルチモーダルコンテンツにおけるエンティティ、概念、イベント、動作などの知識点を認識するプロセスであり、知識抽出とは、マルチモーダルコンテンツにおける知識点を抽出するプロセスであり、知識関連とは、複数の知識点の関連関係を確立することであり、知識融合とは、同一のエンティティの情報を融合させて共同解釈するプロセスであり、表現学習とは、知識点を表現するプロセスであり、例えば、表示出力(分かりやすい)、暗黙的ベクトル(機械演算に便利である)などが挙げられ、知識推論とは、従来の知識点と関連関係に基づいて新しい知識を導き出すプロセスであり、繰り返し制御とは、融合させて重複を除去するプロセスであり、品質制御とは、誤った知識を除去し、正しい知識を保持するプロセスであり、特徴構築とは、使用しやすいように各知識点にいくつかの特徴又は説明を追加するプロセスである。
理解できるものとして、本願の実施例は、マルチモーダル知識グラフを確立する具体的な方式とステップを限定せず、実際の状況に応じて柔軟に調整することができる。
本願の実施例によって提供されるマルチモーダルコンテンツ処理方法は、マルチモーダルデータセットを取得することにより、マルチモーダルデータセットに対して処理を行い、当該マルチモーダル知識グラフの本体を確定し、マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘し、知識グラフ表現学習によって、マルチモーダル知識点サンプル間の関連関係を確立し、マルチモーダル知識点サンプル間の関連関係と当該マルチモーダル知識グラフの本体に基づいて、マルチモーダル知識グラフを確立し、知識点に意味解釈を与え、マルチモーダルコンテンツの正確な意味理解を実現するための基礎を定める。
上記分析に基づいて分かるように、知識グラフの意味理解に基づいて、理解において、知識グラフを融合させることで、マルチモーダルコンテンツの意味理解をより良く実現することができ、意味理解の精度を高める。マルチモーダル知識グラフを構築することにより、マルチモーダル知識グラフを利用して理解のために正確な意味を付与し、マルチモーダルコンテンツ表現学習の方式によって知識の増強を実現し、マルチモーダルコンテンツの正確な意味理解結果を得るための基礎を定める。
上記において、本願の実施例によって提供されるマルチモーダルコンテンツ処理方法の具体的な実現を説明したが、以下に本願の装置実施例を示し、本願の方法実施例を実行するために使用されることができる。本願の装置実施例に開示されない詳細については、本願の方法実施例を参照されたい。
図8は、本願の実施例によって提供されるマルチモーダルコンテンツ処理装置の概略構造図である。当該装置は、電子機器に集積されるか又は電子機器によって実現されてもよい。図8に示すように、本実施例において、当該マルチモーダルコンテンツ処理装置80は、受信モジュール801、処理モジュール802及び確定モジュール803を含んでもよい。
受信モジュール801は、ユーザのコンテンツ処理要求を受信するために使用され、当該コンテンツ処理要求は、処理対象マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用され、
当該処理モジュール802は、前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得るために使用され、
当該確定モジュール803は、前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフと前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用され、前記マルチモーダル知識グラフは、前記マルチモーダル知識点と前記マルチモーダル知識点間の関連関係を含む。
本願の実施例の1つの可能な設計において、確定モジュール803は、具体的に前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定し、前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定し、前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用される。
前記基本的な意味理解結果は、第1の意味理解結果及び/又は第2の意味理解結果を含み、
前記第1の意味理解結果は、前記マルチモーダル知識点と予め設定された深度学習方法に従って、前記マルチモーダルコンテンツに対して意味理解を行うことによって得られ、
前記第2の意味理解結果は、予め設定された融合方法に従って、前記マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行うことによって得られる。
本願の実施例の他の可能な設計において、処理モジュール802は、さらにマルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含み、前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定し、前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘し、知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立し、及び前記マルチモーダル知識点間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立するために使用される。
本願の実施例の他の可能な設計において、前記装置は、出力モジュールをさらに含み、
当該出力モジュールは、知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力するために使用される。
本願の実施例の他の可能な設計において、前記装置は、出力モジュールをさらに含み、
当該処理モジュール802は、前記意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得するためにさらに使用され、
前記出力モジュールは、前記ユーザに前記推薦リソースをプッシュするために使用され、
又は
当該確定モジュール803は、さらに前記意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定するために使用され、
当該処理モジュール802は、さらに前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得するために使用され、
前記出力モジュールは、前記マルチモーダルコンテンツに対する検索結果を出力するために使用される。
本願の実施例によって提供される装置は、図2~図7に示す実施例における方法を実行するために使用されることができ、その実現原理と技術的効果は類似であり、ここでは繰り返さない。
説明すべきものとして、上記装置の各モジュールの区分は、論理機能の区分にすぎず、実際に実現されるとき、1つの物理エンティティに完全に又は部分的に集積され、又は物理的に分離される場合があることを理解する必要がある。そして、これらのモジュールは、すべてソフトウェアが処理要素によって呼び出されるように実現されてもよく、すべてハードウェアの形で実現されてもよく、一部のモジュールが、処理要素によってソフトウェアを呼び出すように実現され、一部のモジュールが、ハードウェアの形で実現されてもよい。例えば、処理モジュールは、単独に設定された処理要素であってもよく、上記装置のあるチップに集積されて実現されてもよく、また、プログラムコードの形で上記装置のメモリに記憶され、上記装置のある処理要素によって上記処理モジュールの機能が呼び出され実行されてもよい。他のモジュールの実現も類似である。さらに、これらのモジュールは、すべて又は一部を1つに集積されてもよく、独立して実現されてもよい。ここで説明する処理要素は、信号の処理能力を有する集積回路であってもよい。実現プロセスにおいて、上記方法の各ステップ又は上記各モジュールは、プロセッサ要素におけるハードウェアの集積論理回路又はソフトウェア形の指令によって達成されることができる。
本願の実施例に従って、本願は、コンピュータプログラムを提供し、コンピュータプログラムは、可読記憶媒体に記憶され、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、当該コンピュータプログラムがプロセッサで実行されると、本願の実施例によって提供されるマルチモーダルコンテンツ処理方法が実現される。
さらに、本願の実施例に従って、本願は、電子機器と可読記憶媒体をさらに提供する。
図9は、本願の実施例のマルチモーダルコンテンツ処理方法を実現するための電子機器のブロック図である。図9に示すように、電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなど、さまざまな形式のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタル処理、セルラー電話、スマートフォン、ウェアラブル機器及び他の類似のコンピューティング装置など、さまざまな形式のモバイル装置を表してもよい。本明細書に示す部品、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書で記載及び/又は要求される本願の実施を制限することを意図しない。
図9に示すように、当該電子機器は、1つ又は複数のプロセッサ901、メモリ902、及び高速インターフェース及び低速インターフェースを含む様々な部品を接続するためのインターフェースを含む。様々な部品は、異なるバスを使用して相互に接続され、共通のマザーボードに取り付けられてもよいし、又は必要に応じて他の形態でインストールされてもよい。プロセッサは、電子機器で実行された命令を処理することができ、前記命令は、GUIのグラフィック情報を外部入力/出力装置(例えばインターフェースに結合された表示機器など)に表示するようにメモリ内又はメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリ及び複数のメモリと共に使用してもよい。同様に、複数の電子機器を接続して、各機器は、いくつかの必要な操作を提供してもよい(例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)。図9では、プロセッサ901を例に取る。
メモリ902は、本願によって提供される非一時的なコンピュータ読み取り可能な記憶媒体である。そのうち、前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されることにより、前記少なくとも1つのプロセッサが本願によって提供されるマルチモーダルコンテンツ処理方法を実行する。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータ命令が記憶され、当該コンピュータ命令が、本願によって提供されるマルチモーダルコンテンツ処理方法をコンピュータに実行させるために使用される。
メモリ902は、非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例におけるマルチモーダルコンテンツ処理方法に対応するプログラム命令/モジュール(例えば、図8に示す受信モジュール801、処理モジュール802及び確定モジュール803)を記憶するために使用できる。プロセッサ901は、メモリ902に記憶される非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能応用及びデータ処理を実行し、即ち、上記方法の実施例におけるマルチモーダルコンテンツ処理方法を実施する。
メモリ902には、プログラム記憶領域とデータ記憶領域を含んでもよく、そのうち、プログラム記憶領域が、操作システムと少なくとも1つの機能に必要な応用プログラムを記憶してもよく、データ記憶領域には、マルチモーダルコンテンツ処理の電子機器の使用に応じて作成されたデータなどを記憶してもよい。なお、メモリ902は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも1つの磁気メモリ、フラッシュメモリ、又は他の非一時的な固体メモリなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ902は、例えば、プロセッサ901に対してリモートに設定されたメモリを含み、これらのリモートメモリは、ネットワークを介してマルチモーダルコンテンツ処理の電子機器に接続されてもよい。上記ネットワークの実例は、インターネット、企業イントラネット、ローカルネットワーク、モバイル通信ネットワーク、及びこれらの組み合わせを含むが、これらに限定されない。
マルチモーダルコンテンツ処理方法の電子機器は、入力装置903と出力装置904をさらに含んでもよい。プロセッサ901、メモリ902、入力装置903及び出力装置904は、バス又は他の形態で接続されてもよいが、図9では、バスで接続される例を取る。
入力装置903は、入力されたデジタル又はキャラクタ情報を受信し、及びマルチモーダルコンテンツ処理の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示棒、1つ又は複数のマウスボタン、トラックボール、操縦棒などの入力装置である。出力装置904は、表示機器、補助照明装置(例えば、発光ダイオード(LED))及び触覚フィードバック装置(例えば、振動モーター)などを含んでもよい。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでもよい。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。
本明細書で説明するシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実施されることができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されてもよく、当該1つ又は複数コンピュータプログラムが、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び/又は解釈されるでき、当該プログラム可能なプロセッサが、専用又は汎用プログラム可能なプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェア応用、又はコードとも呼ばれる)は、プログラム可能なプロセッサの機械命令を含み、高級過程及び/又はオブジェクトに向けたプログラミング言語、及び/又はアセンブリ/機械言語を用いてこれらの計算プログラムを実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能な論理装置(PLD))を指し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサに提供するための任意の信号を指す。
ユーザとの対話を提供するために、ここで説明するシステム及び技術をコンピュータに実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びユーザがコンピュータに入力を提供できるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)を有する。他のタイプの装置は、さらにユーザとの対話を提供するために使用されてもよく、例えば、ユーザに提供されるフィードバックが、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力、音声入力、又は触覚入力を含む)を使用して、ユーザからの入力を受信してもよい。
本明細書で説明するシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとして)、又はミドルウェア部品を含む計算システム(例えば、応用サーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカルユーザインターフェース又はWebブラウザを備えたユーザコンピュータ、ユーザが、当該グラフィカルユーザインターフェース又は当該Webブラウザを通じて本明細書で説明するシステム及び技術の実施形態と対話できる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組合せを含む計算システムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を通じて、システムの部品を相互に接続してもよい。通信ネットワークの例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。通常、クライアント及びサーバは、互いに離れており、通信ネットワークを介して相互作用する。クライアントとサーバ間の関係は、対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を持つコンピュータプログラムによって生成される。
さらに、本願はさらに、マルチモーダルコンテンツ処理方法を提供し、前記方法は、
外部のコンテンツ処理要求に応答し、処理対象マルチモーダルコンテンツを確定することと、
予め確立された知識グラフと前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定することと、を含む。
本願の実施例の技術的解決手段に従って、ユーザのコンテンツ処理要求を受信することにより、当該コンテンツ処理要求が、処理対象マルチモーダルコンテンツに対して意味理解を行うために使用され、マルチモーダルコンテンツに対して解析を行い、当該マルチモーダルコンテンツに対応するマルチモーダル知識点を得、当該マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及びマルチモーダルコンテンツに従って、当該マルチモーダルコンテンツの意味理解結果を確定し、当該マルチモーダル知識グラフが、マルチモーダル知識点とマルチモーダル知識点との関連関係を含む。当該技術的解決手段は、マルチモーダルコンテンツのマルチモーダル知識点とマルチモーダル知識グラフを組み合わせて、マルチモーダルコンテンツに対して理解を行い、正確な意味理解結果を得ることができ、マルチモーダルコンテンツの正確な応用に基礎を定める。
理解すべきものとして、上記のさまざまな形式のプロセスを使用して、ステップの順序を変更、追加、又は削除する。例えば、本願に記載された各ステップは、本願に開示された技術的解決手段の所望の結果が達成され得る限り、並列、順次、又は異なる順序で実行されてもよく、本明細書に限定されない。
上記具体的な実施形態は、本願の保護範囲に対する制限を構成しない。当業者は、設計要求及び他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本願の精神と原則の範囲内で行われた修正、同等の代替、及び改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims (13)

  1. 電子機器によって実行されるマルチモーダルコンテンツ処理方法であって、
    ユーザのコンテンツ処理要求を受信することであって、前記コンテンツ処理要求には処理対象マルチモーダルコンテンツが含まれ、前記コンテンツ処理要求が、前記マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用されることと、
    前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得ることと、
    前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定し、前記マルチモーダル知識グラフが、前記マルチモーダル知識点と前記マルチモーダル知識点間の関連関係を含むことと、を含み、
    前記コンテンツ処理要求に含まれる前記マルチモーダルコンテンツの意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得することと、
    前記ユーザに前記推薦リソースをプッシュすることと、
    又は
    前記コンテンツ処理要求に含まれる前記マルチモーダルコンテンツの意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定することと、
    前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得することと、
    をさらに含むことを特徴とするマルチモーダルコンテンツ処理方法。
  2. 前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定することは、
    前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定することと、
    前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定することと、
    前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定することと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記基本的な意味理解結果は、第1の意味理解結果及び/又は第2の意味理解結果を含み、
    前記第1の意味理解結果は、前記マルチモーダル知識点と予め設定された深度学習方法に従って、前記マルチモーダルコンテンツに対して意味理解を行うことによって得られ、
    前記第2の意味理解結果は、予め設定された融合方法に従って、前記マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行うことによって得られることを特徴とする請求項2に記載の方法。
  4. マルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含むことと、
    前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定することと、
    前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘することと、
    知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立することと、
    前記マルチモーダル知識点サンプル間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立することと、をさらに含むことを特徴とする請求項1~請求項3のいずれか1項に記載の方法。
  5. 知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力することをさらに含むことを特徴とする請求項1~請求項3のいずれか1項に記載の方法。
  6. 受信モジュール、処理モジュール及び確定モジュールを含み、
    前記受信モジュールは、ユーザのコンテンツ処理要求を受信するために使用され、前記コンテンツ処理要求には処理対象マルチモーダルコンテンツが含まれ、前記コンテンツ処理要求は、前記マルチモーダルコンテンツに対して意味理解を行うことを要求するために使用され、
    前記処理モジュールは、前記マルチモーダルコンテンツに対して解析を行い、前記マルチモーダルコンテンツに対応するマルチモーダル知識点を得るために使用され、
    前記確定モジュールは、前記マルチモーダル知識点、予め確立されたマルチモーダル知識グラフ及び前記マルチモーダルコンテンツに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用され、前記マルチモーダル知識グラフは、前記マルチモーダル知識点と前記マルチモーダル知識点間の関連関係を含み、
    出力モジュールをさらに含み、
    前記処理モジュールは、前記コンテンツ処理要求に含まれる前記マルチモーダルコンテンツの意味理解結果のベクトル表現に従って、タイプが前記マルチモーダルコンテンツと一致する推薦リソースを取得するためにさらに使用され、
    前記出力モジュールは、前記ユーザに前記推薦リソースをプッシュするために使用され、
    又は
    前記確定モジュールは、前記コンテンツ処理要求に含まれる前記マルチモーダルコンテンツの意味理解結果のベクトル表現に従って、前記マルチモーダルコンテンツのテキスト理解結果を確定するためにさらに使用され、
    前記処理モジュールは、前記テキスト理解結果に従って、検索プロセスを実行し、前記マルチモーダルコンテンツに対する検索結果を取得するためにさらに使用され、
    前記出力モジュールは、前記マルチモーダルコンテンツに対する検索結果を出力するために使用されることを特徴とするマルチモーダルコンテンツ処理装置。
  7. 前記確定モジュールは、前記マルチモーダル知識点と前記マルチモーダル知識グラフに従って、前記マルチモーダル知識点間の関連関係を確定し、前記マルチモーダル知識点と予め設定された意味理解方法に従って、前記マルチモーダルコンテンツの基本的な意味理解結果を確定し、前記マルチモーダル知識点間の関連関係、前記基本的な意味理解結果及び前記マルチモーダル知識グラフに従って、前記マルチモーダルコンテンツの意味理解結果を確定するために使用されることを特徴とする請求項6に記載の装置。
  8. 前記基本的な意味理解結果は、第1の意味理解結果及び/又は第2の意味理解結果を含み、
    前記第1の意味理解結果は、前記マルチモーダル知識点と予め設定された深度学習方法に従って、前記マルチモーダルコンテンツに対して意味理解を行うことによって得られ、
    前記第2の意味理解結果は、予め設定された融合方法に従って前記マルチモーダル知識点に対応する複数のシングルモーダル意味理解結果に対して融合を行うことによって得られることを特徴とする請求項7に記載の装置。
  9. 前記処理モジュールはさらに、マルチモーダルデータセットを取得し、前記マルチモーダルデータセットが、複数のマルチモーダルコンテンツサンプルを含み、前記マルチモーダルデータセットに対して処理を行い、前記マルチモーダル知識グラフの本体を確定し、前記マルチモーダルデータセットにおける各マルチモーダルコンテンツサンプルのマルチモーダル知識点サンプルを発掘し、知識グラフ表現学習によって、前記マルチモーダル知識点サンプル間の関連関係を確立し、及び前記マルチモーダル知識点サンプル間の関連関係と前記マルチモーダル知識グラフの本体に基づいて、前記マルチモーダル知識グラフを確立するために使用されることを特徴とする請求項6~請求項8のいずれか1項に記載の装置。
  10. 出力モジュールをさらに含み、
    前記出力モジュールは、知識グラフの意味表現方法に基づいて、前記マルチモーダルコンテンツの意味理解結果を出力するために使用されることを特徴とする請求項6~請求項8のいずれか1項に記載の装置。
  11. 少なくとも1つのプロセッサ、及び
    前記少なくとも1つのプロセッサと通信接続されるメモリを含み、
    前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサが請求項1~請求項5のいずれか1項に記載の方法を実行することを特徴とする電子機器。
  12. コンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令が、コンピュータに請求項1~請求項5のいずれか1項に記載の方法を実行させるために使用されることを特徴とするコンピュータ可読記憶媒体。
  13. プロセッサで実行されると、請求項1~請求項5のいずれか1項に記載の方法が実現されることを特徴とするコンピュータプログラム。
JP2021004519A 2020-01-15 2021-01-14 マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体 Active JP7225273B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010044247.9A CN111221984B (zh) 2020-01-15 2020-01-15 多模态内容处理方法、装置、设备及存储介质
CN202010044247.9 2020-01-15

Publications (2)

Publication Number Publication Date
JP2021082308A JP2021082308A (ja) 2021-05-27
JP7225273B2 true JP7225273B2 (ja) 2023-02-20

Family

ID=70831856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021004519A Active JP7225273B2 (ja) 2020-01-15 2021-01-14 マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20210192142A1 (ja)
EP (1) EP3812926A1 (ja)
JP (1) JP7225273B2 (ja)
KR (1) KR102532152B1 (ja)
CN (1) CN111221984B (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11528248B2 (en) * 2020-06-10 2022-12-13 Bank Of America Corporation System for intelligent multi-modal classification in a distributed technical environment
US20220019742A1 (en) * 2020-07-20 2022-01-20 International Business Machines Corporation Situational awareness by fusing multi-modal data with semantic model
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法
CN113849575B (zh) * 2020-12-10 2022-08-09 阿里巴巴集团控股有限公司 数据处理方法、装置和系统
CN112465144B (zh) * 2020-12-11 2023-07-28 北京航空航天大学 基于有限知识的多模态示范意图生成方法及装置
CN112668489A (zh) * 2020-12-30 2021-04-16 深圳英飞拓科技股份有限公司 一种基于人体部位关节点检测有限空间内人员行为的方法及系统
CN112732969A (zh) * 2021-01-14 2021-04-30 珠海格力电器股份有限公司 图像语义分析方法、装置、存储介质及电子设备
JP7486263B2 (ja) 2021-03-05 2024-05-17 Kddi株式会社 マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法
CN113032538A (zh) * 2021-03-11 2021-06-25 五邑大学 一种基于知识图谱的话题转移方法、控制器及存储介质
CN113127708B (zh) * 2021-04-20 2024-06-07 中国科学技术大学 信息交互方法、装置、设备及存储介质
CN113487024A (zh) * 2021-06-29 2021-10-08 任立椋 交替序列生成模型训练方法、从文本中抽取图的方法
CN113688251B (zh) * 2021-07-27 2024-02-13 广东师大维智信息科技有限公司 一种室内体育赛事安保领域的知识图谱构建方法与系统
CN113779934B (zh) * 2021-08-13 2024-04-26 远光软件股份有限公司 多模态信息提取方法、装置、设备及计算机可读存储介质
CN113722430A (zh) * 2021-08-23 2021-11-30 北京工业大学 面向食品安全的多模态人机交互方法和系统、设备及介质
CN113742586B (zh) * 2021-08-31 2023-10-24 华中师范大学 一种基于知识图谱嵌入的学习资源推荐方法及系统
CN113688220B (zh) * 2021-09-02 2022-05-24 国家电网有限公司客户服务中心 一种基于语义理解的文本机器人对话方法及系统
CN113837910B (zh) * 2021-09-28 2024-04-16 科大讯飞股份有限公司 试题推荐方法、装置、电子设备和存储介质
CN114067796B (zh) * 2021-11-15 2024-07-23 四川长虹电器股份有限公司 一种自定义语音命令的设计方法
CN114255427B (zh) * 2021-12-21 2023-04-18 北京百度网讯科技有限公司 视频理解方法、装置、设备以及存储介质
CN114299194B (zh) * 2021-12-23 2023-06-02 北京百度网讯科技有限公司 图像生成模型的训练方法、图像生成方法及装置
CN114167994B (zh) * 2022-02-11 2022-06-28 北京亮亮视野科技有限公司 知识库添加方法、装置、设备及介质
CN114610911B (zh) * 2022-03-04 2023-09-19 中国电子科技集团公司第十研究所 多模态知识本征表示学习方法、装置、设备及存储介质
CN114399006B (zh) * 2022-03-24 2022-07-12 山东省计算中心(国家超级计算济南中心) 基于超算的多源异构图数据融合方法及系统
CN114580425B (zh) * 2022-05-06 2022-09-09 阿里巴巴(中国)有限公司 命名实体识别的方法和装置,以及电子设备和存储介质
CN115130435B (zh) * 2022-06-27 2023-08-11 北京百度网讯科技有限公司 文档处理方法、装置、电子设备和存储介质
TWI811026B (zh) * 2022-07-15 2023-08-01 葉德源 自主數位學習評量系統及方法
CN115422399B (zh) * 2022-07-21 2023-10-31 中国科学院自动化研究所 视频搜索方法、装置、设备和存储介质
CN114925176B (zh) * 2022-07-22 2022-10-11 北京融信数联科技有限公司 一种智能体多模态认知图谱的构建方法、系统和介质
JP2024031042A (ja) * 2022-08-25 2024-03-07 ユニ・チャーム株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2024076156A1 (ko) * 2022-10-07 2024-04-11 삼성전자주식회사 멀티미디어 콘텐트 내에서 텍스트와 결합된 이미지를 식별하기 위한 전자 장치 및 그 방법
CN115658935B (zh) * 2022-12-06 2023-05-02 北京红棉小冰科技有限公司 一种个性化评论生成方法及装置
CN115860436B (zh) * 2023-02-21 2023-05-26 齐鲁工业大学(山东省科学院) 一种基于知识图谱的城市热线派单方法及系统
CN117150031A (zh) * 2023-07-24 2023-12-01 青海师范大学 一种面向多模态数据的处理方法及系统
CN117009550B (zh) * 2023-08-09 2024-04-19 中国船舶集团有限公司第七〇九研究所 一种海上多源冲突条件下多模态时空本体构建方法
CN116934754B (zh) * 2023-09-18 2023-12-01 四川大学华西第二医院 基于图神经网络的肝脏影像识别方法及装置
CN117540102B (zh) * 2023-12-04 2024-07-09 中国科学院地理科学与资源研究所 一种基于知识图谱和多模态数据的生态文明模式推荐方法
CN117831056A (zh) * 2023-12-29 2024-04-05 广电运通集团股份有限公司 票据信息提取方法、装置及票据信息提取系统
CN117633328B (zh) * 2024-01-25 2024-04-12 武汉博特智能科技有限公司 基于数据挖掘的新媒体内容监测方法及系统
CN118133845B (zh) * 2024-05-08 2024-07-16 中国人民解放军国防科技大学 一种多通道语义理解的融合方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020107827A1 (en) 2000-11-06 2002-08-08 International Business Machines Corporation Multimedia network for knowledge representation
JP2002288178A (ja) 2001-03-23 2002-10-04 Toshiba Corp マルチメディア情報収集管理装置およびプログラム
JP2004505378A (ja) 2000-07-28 2004-02-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア・セグメンテーション及びインデキシングのためのコンテキスト及びコンテンツに基づく情報処理
JP2008123486A (ja) 2006-11-10 2008-05-29 Fuji Xerox Co Ltd デジタルメディアで1つまたは複数の概念を検出する方法、システム及びプログラム
US20160179945A1 (en) 2014-12-19 2016-06-23 Universidad Nacional De Educación A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
US20180189570A1 (en) 2016-12-30 2018-07-05 Facebook, Inc. Video Understanding Platform
JP2019074843A (ja) 2017-10-13 2019-05-16 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2948159B2 (ja) * 1996-12-06 1999-09-13 株式会社日立製作所 データベース装置
US8358856B2 (en) * 2008-06-02 2013-01-22 Eastman Kodak Company Semantic event detection for digital content records
JP4969554B2 (ja) 2008-11-14 2012-07-04 ヤフー株式会社 トピックグラフを利用したドキュメント検索サーバ及び方法
EP2579609A1 (en) * 2011-10-06 2013-04-10 Thomson Licensing Method and apparatus for providing information for a multimedia content item
US11397462B2 (en) * 2012-09-28 2022-07-26 Sri International Real-time human-machine collaboration using big data driven augmented reality technologies
CN105550190B (zh) * 2015-06-26 2019-03-29 许昌学院 面向知识图谱的跨媒体检索系统
US11023523B2 (en) * 2015-10-23 2021-06-01 Carnegie Mellon University Video content retrieval system
CN106326440B (zh) * 2016-08-26 2019-11-29 北京光年无限科技有限公司 一种面向智能机器人的人机交互方法及装置
CN107273477A (zh) * 2017-06-09 2017-10-20 北京光年无限科技有限公司 一种用于机器人的人机交互方法及装置
CN107766571B (zh) * 2017-11-08 2021-02-09 北京大学 一种多媒体资源的检索方法和装置
US11010436B1 (en) * 2018-04-20 2021-05-18 Facebook, Inc. Engaging users by personalized composing-content recommendation
CN109033277A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 基于机器学习的类脑系统、方法、设备及存储介质
WO2020023590A1 (en) * 2018-07-24 2020-01-30 Newton Howard Intelligent reasoning framework for user intent extraction
CN109697233B (zh) * 2018-12-03 2023-06-20 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN110647662B (zh) * 2019-08-03 2022-10-14 电子科技大学 一种基于语义的多模态时空数据关联方法
CN110472107B (zh) * 2019-08-22 2024-01-30 腾讯科技(深圳)有限公司 多模态知识图谱构建方法、装置、服务器以及存储介质
CN110516160B (zh) * 2019-08-30 2022-04-01 中国科学院自动化研究所 基于知识图谱的用户建模方法、序列推荐方法
CN110597992B (zh) * 2019-09-10 2023-08-29 腾讯科技(深圳)有限公司 基于知识图谱的语义推理方法及装置、电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004505378A (ja) 2000-07-28 2004-02-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア・セグメンテーション及びインデキシングのためのコンテキスト及びコンテンツに基づく情報処理
US20020107827A1 (en) 2000-11-06 2002-08-08 International Business Machines Corporation Multimedia network for knowledge representation
JP2002288178A (ja) 2001-03-23 2002-10-04 Toshiba Corp マルチメディア情報収集管理装置およびプログラム
JP2008123486A (ja) 2006-11-10 2008-05-29 Fuji Xerox Co Ltd デジタルメディアで1つまたは複数の概念を検出する方法、システム及びプログラム
US20160179945A1 (en) 2014-12-19 2016-06-23 Universidad Nacional De Educación A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
US20180189570A1 (en) 2016-12-30 2018-07-05 Facebook, Inc. Video Understanding Platform
JP2019074843A (ja) 2017-10-13 2019-05-16 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kesorn Kraisak et al.,Enhansed Sports Image Annotation and Retrieval Based upon Semantic Analysis of Multimodal Cues,3rd Pacific Rim Symposium on Image and Video Technology,vol.5414,[online],2009年01月13日,pp.817-828,[令和3年10月27日検索], インターネット<URL:https://link.springer.com/content/pdf/10.1007/978-3-540-92957-4_71.pdf>
入部 百合絵、外1名,分散型VODにおけるSemanticWebの提案及び同期型表示インタフェースの構築,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2001年07月12日,第101巻,第203号,p.67-72

Also Published As

Publication number Publication date
JP2021082308A (ja) 2021-05-27
US20210192142A1 (en) 2021-06-24
EP3812926A1 (en) 2021-04-28
CN111221984A (zh) 2020-06-02
KR20210037619A (ko) 2021-04-06
KR102532152B1 (ko) 2023-05-12
CN111221984B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
JP7225273B2 (ja) マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体
US20210397947A1 (en) Method and apparatus for generating model for representing heterogeneous graph node
CN112507715B (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US20210390428A1 (en) Method, apparatus, device and storage medium for training model
US11847164B2 (en) Method, electronic device and storage medium for generating information
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
US10474962B2 (en) Semantic entity relation detection classifier training
KR102451496B1 (ko) 텍스트 주제 생성 방법, 장치 및 전자기기
CN111967256B (zh) 事件关系的生成方法、装置、电子设备和存储介质
JP7386827B2 (ja) セマンティック処理方法、装置、電子機器及び媒体
KR20210040316A (ko) 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램
US12032906B2 (en) Method, apparatus and device for quality control and storage medium
US20210216722A1 (en) Method and apparatus for processing sematic description of text entity, and storage medium
KR102475235B1 (ko) 리소스 정렬 방법, 정렬 모델을 트레이닝하는 방법 및 대응하는 장치
JP7091430B2 (ja) インタラクション情報推薦方法及び装置
JP2022050379A (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
JP7192192B2 (ja) 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体
CN111858880B (zh) 获取查询结果的方法、装置、电子设备和可读存储介质
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
CN117391067A (zh) 内容质检方法、装置、设备以及存储介质
US11922144B1 (en) Schema-based integration of external APIs with natural language applications
WO2024196429A1 (en) Schema-based integration of external apis with natural language applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230208

R150 Certificate of patent or registration of utility model

Ref document number: 7225273

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150