JP7142737B2 - マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 - Google Patents

マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP7142737B2
JP7142737B2 JP2021020378A JP2021020378A JP7142737B2 JP 7142737 B2 JP7142737 B2 JP 7142737B2 JP 2021020378 A JP2021020378 A JP 2021020378A JP 2021020378 A JP2021020378 A JP 2021020378A JP 7142737 B2 JP7142737 B2 JP 7142737B2
Authority
JP
Japan
Prior art keywords
text
information
theme
entity
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021020378A
Other languages
English (en)
Other versions
JP2021128774A (ja
Inventor
キー ワン,
ツィファン フェン,
ツィジー リュウ,
チュンガン チャイ,
ヨン チュウ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021128774A publication Critical patent/JP2021128774A/ja
Application granted granted Critical
Publication of JP7142737B2 publication Critical patent/JP7142737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示の実施例は、概してコンピュータ分野に関し、より具体的には知識グラフ分野に関する。
モバイルインターネットの発展に伴い、ネットワークリソース(例えば、ビデオ、音声、画像など)が、ますます流行するようになった。例えば、ビデオは、その時間により、長いビデオ、短いビデオ、小さいビデオなどに分けることができる。長いビデオとは、時間が長く、映画番組を中心としたビデオを指し、通常はプロの映画会社によって撮影される。短いビデオとは、時間が短く、題材がより豊富なビデオを指し、通常は映画会社のプロまたはセミプロのチームによって撮影されるものではない。小さなビデオとは、通常、1分以内(例えば15秒)であって、個人ユーザにより制作されることを中心とした、ユーザの日常生活に関するビデオを指す。
大規模なマルチメディアデータベース(ビデオなど)を有する組織では、通常、ビデオをテーマにより分類する必要がある。テーマ分類により、ユーザは必要な内容をより簡単に検索できるので、ビデオ配信やユーザのパーソナライズされた推奨事項も容易になる。一般的に、ビデオのタイトルとテキストの紹介に基づいてビデオを分類したり、ビデオの具体的な内容に基づいてビデオを分類したりする。
本開示の例示的な実施例によれば、マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体を提供する。
本開示の第1態様において、マルチモーダルに基づくテーマ分類方法を提供する。当該方法は、オブジェクトのテキスト情報と非テキスト情報を取得するステップであって、非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも1つを含むステップと、事前に構築された知識ベースに基づいて、テキスト情報内のエンティティ集合を決定するステップと、テキスト情報とエンティティ集合に基づいて、オブジェクトのテキスト特徴を抽出するステップと、オブジェクトのテキスト特徴と非テキスト特徴に基づいて、オブジェクトのテーマ分類を決定するステップであって、非テキスト特徴は非テキスト情報に基づいて抽出されるステップと、を含む。
本開示の第2態様において、マルチモーダルに基づくテーマ分類装置を提供する。当該装置は、オブジェクトのテキスト情報と非テキスト情報を取得するように構成されるマルチモーダル情報取得モジュールであって、非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも1つを含むマルチモーダル情報取得モジュールと、事前に構築された知識ベースに基づいて、テキスト情報内のエンティティ集合を決定するように構成されるエンティティ抽出モジュールと、テキスト情報とエンティティ集合に基づいて、オブジェクトのテキスト特徴を抽出するように構成されるテキスト特徴抽出モジュールと、オブジェクトのテキスト特徴と非テキスト特徴に基づいて、オブジェクトのテーマ分類を決定するように構成されるテーマ分類決定モジュールであって、非テキスト特徴は非テキスト情報に基づいて抽出されるテーマ分類決定モジュールと、を含む。
本開示の第3態様において、電子機器を提供する。当該機器は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するための記憶装置と、を含み、1つまたは複数のプログラムは、1つまたは複数のプロセッサによって実行される場合、電子機器に本開示の実施例に係る方法またはプロセスを実現させる。
本開示の第4態様において、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供する。当該プログラムはプロセッサによって実行される場合、本開示の実施例に係る方法またはプロセスを実現する。
なお、本発明の内容部分に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は、以下の説明によって容易に理解される。
添付の図面と以下の詳細な説明を参照すると、本開示の各実施例の上記およびその他の特徴、利点、および態様がより明らかになる。図面では、同じまたは類似の図面ラベルは、同じまたは類似の要素を示す。
本開示の実施例に係るオブジェクトのテーマを決定するための例示環境を示す。 本開示の実施例に係るマルチモーダルに基づくテーマ分類方法を示すフローチャートである。 本開示の実施例に係るビデオのテキスト情報を取得するためのプロセスを示す概略図である。 本開示の実施例に係るビデオのマルチレベルテーマ分類結果を決定するためのプロセスを示す概略図である。 本開示の実施例に係るコアエンティティ及びそれに対応するテーマタイプを用いて融合特徴に対して注意力処理を行うためを示す概略図である。 本開示の実施例に係るエンティティベクトル生成モデルをトレーニングするためを示す概略図である。 本開示の実施例に係るマルチモーダルに基づくテーマ分類装置を示すブロック図である。 本開示の複数の実施例を実行できる電子機器のブロック図である。
以下、添付の図面を参照して本開示の実施例をより詳細に説明する。本開示のいくつかの実施形態を添付の図面に示したが、本開示は種々の形態で実現でき、本明細書で説明する実施例に限定されると解釈すべきではなく、これらの実施例は、本開示をより徹底的かつ完全に理解するために提供されると理解されたい。なお、本開示の図面および実施例は、単なる例示であり、本開示の保護範囲を制限するためには使用されないと理解されるべきである。
本開示の実施例の説明において、「含む」との用語及びその類似語は、開放的に含む、即ち「含むが限定されない」を意味すると理解されるべきである。用語「基づく」は、「少なくとも一部が基づく」を意味すると理解されるべきである。「一実施例」または「当該実施例」との用語は、「少なくとも1つの実施例」を意味すると理解されるべきである。以下、その他の明確及び暗黙的な定義を含むことができる。
本開示のいくつかの実施例は、ビデオをオブジェクトの例示として本開示のマルチモーダルに基づくテーマ分類方法を説明するが、音声、画像などのオブジェクトも本開示のテーマ分類方法と組み合わせて使用することができる。
例えば、ビデオの管理、検索、または推奨を容易にするため、通常、ビデオを分類する必要がある。従来のビデオ分類方法には、主に以下の2つがある。1つは手動ラベル付け方式であるが、手動ラベル付け方式は、コストが高く、時間がかかり、誤りやすく、定期的なメンテナンスが必要であり、大規模に展開することができない。もう1つは機械学習による方式であり、例えば、機械学習モデルがビデオのテキスト情報または視覚情報に基づいて分類するが、シングルモードの情報は、通常、情報量が少なく、分類結果がそれほど正確ではなく、複雑なシーンでの適用のニーズを満たすことも困難である。いくつかの改良された技術では、ビデオのテーマ分類にマルチモーダル情報を使用しようとするが、本出願の発明者は、マルチモーダル情報を使用するだけでは良好な分類結果を得ることができないことを発見した。
そこで、本開示の実施例では、知識ベースの知識とマルチモーダル情報を組み合わせて、マルチモーダルテーマ分類を行う知識ベースに基づくマルチモーダルテーマ分類方法を提供する。本開示の実施例によれば、特徴抽出時に知識ベースに基づくテキストエンティティリンクを導入し、テキスト特徴抽出時にリンクされたエンティティを考慮する。したがって、本開示の実施例は、分類対象のオブジェクトの内容をよりよく理解し、より正確なテーマ分類結果を取得することができる。マルチモーダルのテーマ分類は、マルチモーダル情報をよりよく使用することができ、同時に、知識ベースのエンティティリンクによってテーマ分類により多くの参照情報をもたらし、より良いテーマ分類効果を得ることができる。
本開示の実施例は、オブジェクトのテーマ分類またはタグ生成に適用され、オブジェクトに対する理解と検索を容易にすることができる。また、本開示の実施例は、オブジェクトの配信や推奨にも使用できるため、オブジェクトがコールドスタートを推奨するシーンに適用することができる。以下、図面1~8を参照して本開示のいくつかの例示的な実施例を詳細に説明する。
図1は本開示の実施例のオブジェクトのテーマを決定する例示環境100を示す。ここでは、オブジェクトをビデオとして例を挙げるが、オブジェクトが音声や画像などであってもよい。図1に示すように、ビデオ110をマルチモーダルテーマ理解システム120に入力して、ビデオ110に対応するテーマ出力130を取得することができ、マルチモーダルテーマ理解システム120は、テーマ分類モデル121とテーマ推定モデル122とを含むことができる。ビデオ110は、長いビデオ、短いビデオ、小さいビデオなど、様々なタイプのビデオである。図1ではテーマ分類モデル121とテーマ推定モデル122を同時に示すが、いくつかの実施例では、マルチモーダルテーマ理解システム120はテーマ推定モデル122を含まなくてもよい。
テーマ分類モデル121は、ビデオ110のマルチモーダル情報(例えば、視覚情報、オーディオ情報、テキスト情報など)を用いて、クローズドテーマの分類を行うことができる。クローズドテーマは、手動で整理することも、コンピュータが自動的に抽出して生成することもできる。テーマ推定モデル122は、ビデオ110のテキスト情報に基づいて、ビデオのテーマ推定を決定する。テーマ推定は、より細かいオープンなテーマを使用して、ビデオタグを生成することができる。したがって、テーマ分類結果とテーマ推定結果を融合することで、融合されたテーマ出力130を取得することができる。したがって、本開示の実施例のマルチモーダルテーマ理解システム120は、非常に完全で、クローズドテーマ分類とオープンテーマのラベル付けの両方に適用できる。
テーマ分類モデル121とテーマ推定モデル122は、知識ベース125における知識によってそれぞれのテーマ分類や推断を行うことができる。知識ベース125にはビデオに関連するいくつかのエンティティ及び対応するテーマタイプが記憶される。
図2は本開示の実施例に係るマルチモーダルに基づくテーマ分類方法200を示すフローチャートであり、方法200は図1で説明されたテーマ分類モデル121によって実行される。
ブロック202では、オブジェクトのテキスト情報と非テキスト情報を取得する。非テキスト情報は視覚情報とオーディオ情報のうちの少なくとも1つを含む。ビデオの場合には、非テキスト情報は視覚情報とオーディオ情報とを含み、オーディオの場合には、非テキスト情報はオーディオ情報を含み、画像の場合には、非テキスト情報は視覚情報を含む。例えば、テーマ分類モデル121は、入力されたビデオ110から、視覚情報、オーディオ情報及びテキスト情報などのビデオ110のマルチモーダル情報を抽出することができる。視覚情報はビデオ情報と画像フレームとを含み、テキスト情報は文字部分及び画像と音声から認識されるテキストを含むことができる。各情報のソースまたは形式は、モーダルと呼ぶ。情報の媒体には、音声、視覚、文字などが含まれ、それぞれを、モーダルと呼ぶことができる。マルチモーダルテーマを理解することで、機械学習の方法によりマルチモーダル情報を処理及び理解する能力を実現することができる。
ブロック204では、事前に構築された知識ベースに基づいて、テキスト情報内のエンティティ集合を決定する。例えば、テーマ分類モデル121は、ビデオに対して事前に構築された知識ベース125に基づいて、テキストに関係する1つまたは複数のエンティティをリンクする。テキスト情報に対してエンティティリンクを行うことで、テキストに関係するいくつかのビデオ関連情報を抽出することができる。
ブロック206では、テキスト情報とエンティティ集合に基づいて、オブジェクトのテキスト特徴を抽出する。テーマ分類モデル121は、ビデオのテキスト特徴を抽出する際に、ビデオのテキスト情報及びテキスト情報から抽出されたエンティティ集合を同時に考慮して、より正確なテキスト情報を取得する。
ブロック208では、オブジェクトのテキスト特徴と非テキスト特徴に基づいて、オブジェクトのテーマ分類を決定する。非テキスト特徴は、視覚特徴とオーディオ特徴のうちの少なくとも1つを含み、視覚特徴は、視覚情報に基づいて抽出され、オーディオ特徴は、オーディオ情報に基づいて抽出される。テーマ分類モデル121は、マルチモーダル情報の複数の特徴に基づいて、ビデオの分類テーマを決定する。
したがって、本開示の実施例の方法200は、マルチモーダル情報に基づくオブジェクトテーマ分類プロセスにおいて、特徴抽出時に知識ベースに基づくテキストエンティティリンクを導入し、テキスト特徴抽出プロセスでリンクされたエンティティを考慮する。したがって、本開示の実施例は、分類対象のオブジェクトの内容をよりよく理解し、より正確なテーマ分類結果を取得することができる。
本開示の実施例は、自動方式によってオブジェクトに対してテーマ分類を行うので、プロセスが効率的で低コストである。また、本開示の実施例は、マルチモーダル情報を十分に使用し、異なるモーダルの情報を融合することができ、異なるモーダルの特長を結合しながら、異なるモーダルの情報を用いて検証及び位置合わせを行うことができる。同時に、知識ベースを組み合わせてマルチモーダル情報をよりよく理解し、マルチモーダルのテーマをより包括的かつ深く理解することができる。
図3は本開示の実施例に係るビデオのテキスト情報を取得するためのプロセス300を示す概略図である。図3に示すように、視覚情報310(ビデオ情報とビデオの表紙フレームなどの画像フレームを含むことができる)、オーディオ情報320及び文字情報330を含む、入力されたビデオ110のマルチモーダル情報を抽出する。文字情報330は、ビデオ110のタイトル、関連する説明や要約、ユーザコメント、及び弾幕(ビデオで画面を横切るコメント)などを含むことができる。
ブロック311では、ビデオ情報310に対して光学文字認識(OCR)を行い、その中の画像テキスト312を抽出する。ブロック321では、オーディオ情報320に対して自動音声認識(ASR)を行い、その中の音声テキスト322を抽出する。文字情報330に基づいて文字テキスト332を取得する。これらの異なるルートで取得された画像テキスト312、音声テキスト322及び文字テキスト332を融合し、ビデオのテキスト情報333を取得する。このような方式により、より豊富なビデオテキスト情報を取得して、テーマ分類の正確性を向上させることができる。
図4は本開示の実施例に係るビデオのマルチレベルテーマ分類結果を決定するためのプロセス400を示す概略図である。なお、図4のプロセス400は、図1中のテーマ分類モデル121の1つの例示的な実現プロセスである。図4に示すように、注意力の長期短期記憶(LSTM)モデル405と畳み込みニューラルネットワーク(CNN)モデル415(例えば、RCNNモデル)により、視覚特徴410、オーディオ特徴420及びテキスト特徴430をそれぞれ抽出することができる。
注意力LSTMモデル405は、畳み込み特徴の計算、特徴集約などの操作を実行する、注意力メカニズムに基づくLSTMであってもよい。注意力LSTMモデル405は、OCR認識、顔認識及び特徴抽出により、視覚情報310の視覚特徴410を生成し、ASR認識及び特徴抽出により、オーディオ情報320のオーディオ特徴420を生成する。
CNNモデル415、予めトレーニングされた言語モデルによって単語埋め込みベクトルと文字埋め込みベクトルを抽出し、テキストに対してエンティティリンクを行い、テキスト中のエンティティをリンクし、予めトレーニングされたエンティティのベクトル生成モデルによってエンティティ埋め込みベクトルを取得し、上記埋め込みベクトルを融合することもできる。また、CNNモデル415は、位置埋め込み、予めトレーニングされたエンティティ埋め込みなどのプロセスに関連し、ディープニューラルネットワークによって低緯度の意味特徴の抽出を行って対応するテキスト特徴430を取得することもできる。例えば、知識ベース125に基づいて、テキスト情報333からエンティティ集合408を抽出し、CNNモデル415がテキスト情報333とエンティティ集合408に基づいて、対応するテキスト特徴430を抽出する。特徴抽出時に知識ベースに基づくテキストエンティティリンクを導入するとともに、テキスト特徴抽出時にリンクされたエンティティを考慮することで、本開示の実施例は、分類対象のビデオ内容をよりよく理解して、より正確なテーマ分類結果を取得することができる。
次に、425では、視覚特徴410、オーディオ特徴420及びテキスト特徴430を融合することで、ビデオの融合特徴435を取得する。例えば、特徴融合プロセスは、複数のモーダルの情報を統合したり、モーダル間の相関性を判断したり、マルチモーダルの特徴情報に対して次元削減及び処理を行ったりすることができる。
引き続き図4を参照すると、エンティティ集合408から最も主要なコアエンティティ445を抽出し、知識ベース125に基づいてコアエンティティ445に対応するテーマタイプを決定する。例えば、エンティティリンクによってコアエンティティ445を取得し、ビデオ知識グラフに基づいて属するテーマタイプを取得する。例えば、『インファナル・アフェア』のよく知られたシーン、「ハン・チェンは彼の手で死ぬとは夢にも思わなかっただろう」というテキストに対して抽出されたコアエンティティ445は「インファナル・アフェア」であり、コアエンティティが属するテーマタイプは「映画」である。
次に、ブロック465では、コアエンティティ445の埋め込みベクトル及び対応するテーマタイプの埋め込みベクトルを用いて融合特徴435(例えば融合表現h)に対して注意力処理を行い、さらに、第1の特徴V1と第2の特徴V2を取得して、475に示すように、V1とV2をマージまたは融合する。取得された第1の特徴V1と第2の特徴V2に基づいて、限定タグの分類方式によって、階層分類技術を用いてマルチレベルテーマ分類結果485(例えば1レベルテーマ分類結果、2レベルテーマ分類結果など)を取得することができる。
図5は本開示の実施例に係るコアエンティティ及びそれに対応するテーマタイプを用いて融合特徴に対して注意力処理を行うことを示す概略図500である。h1、h2…hnは、融合特徴のベクトルの各部を示し、CEembはコアエンティティのベクトルを示し、ECembはコアエンティティが属するテーマタイプのベクトルを示す。510は、コアエンティティのベクトルCEembによって融合特徴hに対して注意力処理を行って、対応する第1の特徴V1を生成することを示す。520は、コアエンティティが属するテーマタイプのベクトルECembによって融合特徴hに対して注意力処理を行って、対応する第2の特徴V2を生成することを示す。530では、階層分類を実行して対応する階層テーマ分類結果を取得する。以下の式(1)~(3)は、注意力処理の計算式を示す。
Figure 0007142737000001
αijは融合特徴の各部に対するコアエンティティまたはテーマタイプの重みを示し、i=0の時はコアエンティティの重みを示し、i=1の時はコアエンティティのテーマタイプの重みを示し、jは融合特徴hにおけるj番目の部分を示す。
したがって、コアエンティティ及びそのテーマタイプを用いて融合特徴に対して注意力処理を行うことにより、テーマ分類の正確性をさらに向上させることができる。
図6は本開示の実施例に係るエンティティベクトル生成モデルをトレーニングすることを示す概略図600である。図6に示すように、各エンティティに対してモデルを個別に作成でき、正例と負例の比率は、1:10のように予め設定することができる。
610はエンティティの正例の構築プロセスを示し、知識ベース125からエンティティのテキスト説明611(例えばテキスト要約と説明情報など)及びエンティティの関連ビデオ612を取得する。そして、word2vecによってテキストベクトル613を取得し、video2vecによってビデオベクトル614を取得し、テキストベクトル613とビデオベクトル614を融合して、正例ベクトル615を取得する。
620はエンティティの負例の構築プロセスを示す。知識ベース125におけるすべてのエンティティのテキスト要約情報と説明された単語の頻度情報を統計し、帯域ランダムサンプリングによって負例の語彙シーケンス621を取得し、知識ベース125からビデオ622をランダムにサンプリングする。そして、word2vecによってテキストベクトル623を取得し、video2vecによってビデオベクトル624を取得し、テキストベクトル623とビデオベクトル624を融合して、負例ベクトル625を取得する。
そして、ニューラルネットワークによってベクトルを処理し(例えば次元削減など)、sigmodに入力し、最終のパラメータをエンティティベクトルとして決定する。このような方式により、正例5と負例とによりエンティティのベクトル生成モデルをトレーニングすることができる。生成されたエンティティのベクトル生成モデルは、使用時にエンティティの対応するエンティティベクトルを生成することができ、テーマ分類の正確性をさらに向上させる。
図7は本開示の実施例に係るマルチモーダルに基づくテーマ分類装置700を示すブロック図である。図7に示すように、装置700は、マルチモーダル情報取得モジュール710と、エンティティリンクモジュール720と、テキスト特徴抽出モジュール730と、テーマ分類決定モジュール740と、を含む。マルチモーダル情報取得モジュール710は、オブジェクトのテキスト情報と非テキスト情報を取得するように構成される。非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも1つを含む。エンティティリンクモジュール720は、事前に構築された知識ベースに基づいて、テキスト情報内のエンティティ集合を決定するように構成される。テキスト特徴抽出モジュール730は、テキスト情報とエンティティ集合に基づいて、オブジェクトのテキスト特徴を抽出するように構成される。テーマ分類決定モジュール740は、オブジェクトのテキスト特徴と非テキスト特徴に基づいて、オブジェクトのテーマ分類を決定するように構成され、非テキスト特徴は非テキスト情報に基づいて抽出される。
いくつかの実施例において、マルチモーダル情報取得モジュール710は、視覚情報に対する光学文字認識に基づいて、画像テキストを取得するように構成される画像テキスト取得モジュールと、オーディオ情報に対する自動音声認識に基づいて、音声テキストを取得するように構成される音声テキスト取得モジュールと、オブジェクトのタイトルと弾幕に基づいて、文字テキストを取得するように構成される文字テキスト取得モジュールと、画像テキスト、音声テキスト及び文字テキストを融合することにより、テキスト情報を取得するように構成されるテキスト融合モジュールと、を含む。
いくつかの実施例において、テーマ分類決定モジュール740は、視覚情報とオーディオ情報に基づいて、注意力に基づく長期短期記憶ネットワークによって視覚特徴とオーディオ特徴を抽出するように構成される特徴抽出モジュールと、視覚特徴、オーディオ特徴及びテキスト特徴を融合することにより、オブジェクトの融合特徴を取得するように構成される融合特徴取得モジュールと、融合特徴に基づいて、オブジェクトのマルチレベルテーマ分類を決定するように構成されるマルチレベルテーマ分類決定モジュールと、を含む。
いくつかの実施例において、マルチレベルテーマ分類決定モジュールは、エンティティ集合内のコアエンティティを決定するように構成されるコアエンティティ決定モジュールと、知識ベースに基づいて、コアエンティティに対応するテーマタイプを決定するように構成されるテーマタイプ決定モジュールと、を含む。
いくつかの実施例において、マルチレベルテーマ分類決定モジュールは、コアエンティティのベクトルを用いて融合特徴に対して重み付け処理を行うことにより、第1の特徴を取得するように構成される第1の特徴取得モジュールと、テーマタイプのベクトルを用いて融合特徴に対して重み付け処理を行うことにより、第2の特徴を取得するように構成される第2の特徴取得モジュールと、第1の特徴と第2の特徴に基づいて、オブジェクトのマルチレベルテーマ分類を取得するように構成されるマルチレベルテーマ分類取得モジュールと、をさらに含む。
いくつかの実施例において、装置700は、各エンティティに対して、知識ベース内のエンティティのテキスト説明とエンティティに関連するオブジェクトに基づいて、正例ベクトルを取得し、ランダムにサンプリングされたテキストとランダムにサンプリングされたオブジェクトに基づいて、負例ベクトルを取得し、及び予め設定された比率の正例ベクトルと負例ベクトルに基づいて、エンティティのベクトル生成モデルをトレーニングするように構成されるトレーニングモジュールをさらに含む。
いくつかの実施例において、トレーニングモジュールは、知識ベースにおけるすべてのエンティティのテキスト説明内の単語の頻度を統計するように構成される統計モジュールと、各単語の頻度に基づいて、負例とされた単語シーケンスをランダムに選択するように構成されるランダム選択モジュールと、を含む。
いくつかの実施例において、装置700は、テキスト情報に基づいて、オブジェクトのテーマ推定を決定するように構成されるテーマ推定モジュールと、オブジェクトのテーマ分類とテーマ推定に基づいて、オブジェクトの融合テーマを決定するように構成される融合テーマ決定モジュールと、をさらに含む。
図8は本開示の実施例が実施可能な例示的な機器800を示すブロック図である。図に示すように、機器800は読み出し専用メモリ(ROM)802に記憶されたコンピュータプログラム命令または記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラム命令に基づいて、それぞれの適当な動作と処理を実行する中央処理装置(CPU)801を含む。RAM803では、機器800の操作に用いられる各プログラムとデータを記憶することができる。CPU801、ROM802及びRAM803は総線804を介して互いに接続されている。輸入/輸出(I/O)インターフェース805も総線804に接続される。
キーボード、マウスなどの入力ユニット806と、各種のディスプレイ、スピーカなどの出力ユニット807と、ディスク、CDなどの記憶ユニット808と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット809とを含む機器800における複数の部品は、I/Oインターフェース805に接続されている。通信ユニット809は、機器800がインターネットおよび/または様々な電気通信ネットワークなどを介して他の機器と情報/データを交換することを許容する。
中央処理装置801は上記説明された各方法とプロセスを実行する。例えば、いくつかの実施例では、これらの方法とプロセスはコンピューターソフトウェアプログラムとして実現でき、記憶ユニット808のような機械読み取り可能な記憶媒体に有形的に含まれる。いくつかの実施例では、コンピュータプログラムの一部または全てがROM802や/または通信ユニット809を通して機器800にロード及び/又は装着できる。コンピュータプログラムがRAM803にロードしてCPU801で実行される場合、上記説明した方法の1つまたは複数のステップを実行することができる。また、他の実施形態では、CPU801は、他の任意の適当な方法(例えば、ファームウェアによって)によって本開示の実施例の各方法を実行するように構成されてもいい。
本説明書は、上で説明した機能は少なくとも部分的に1つまたは複数のハードウェアロジックコンポーネントで実行できる。例えば、非制限的に、使用できる示範類型のハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)と、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)と、システムオンチップ(SOC)と、プログラムの書き換えが可能なロジックデバイス(CPLD)などを含む。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供してもよく、その結果、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図において特定される機能/操作が実行される。プログラムコードは、完全に機器で実行、部分的に機器で実行することができ、スタンドアロンソフトウェアパッケージとして部分的に機器で実行され、部分的にリモート機器で実行されまたは全てリモート機器またはサーバで実行され得る。
本開示の明細書では、機器読み取り可能な媒体は、命令実行システム、装置、または機器によって使用されるまたは命令実行システム、装置、または機器と組み合わせて使用するためのプログラムを含むまたは記憶することができる有形の媒体とすることができる。機器読み取り可能な媒体は、機器読み取り可能な信号媒体または機器読み取り可能な記憶媒体とすることができる。機器読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、または機器、あるいは上記任意の適切な組み合わせを含むことができるが、それらに限定されない。機器読み取り可能な記憶媒体のより具体的な例は、1つまたは複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンメモリ(ROM)、消去可能プログラマブルリードオンメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むことができる。
本明細書で記載のコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から様々なコンピューティング/処理デバイスにダウンロードする、またはインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、および/またはワイヤレスネットワークなどのネットワークを介して外部コンピュータまたは外部ストレージデバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、ワイヤレス伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータおよび/またはエッジサーバを含むことができる。各コンピューティング/処理デバイスのネットワークアダプタカードまたはネットワークインターフェイスは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、各コンピューティング/処理デバイスのコンピュータ読み取り可能な記憶媒体に記憶するためにコンピュータ読み取り可能なプログラム命令を転送する。
動作またはステップは、特定の順序で説明されたが、これは、そのような動作またはステップが示された特定の順序または順番で実行され、または所望の結果を達成するためにすべての示された動作またはステップが実行されるように求めるものとして理解すべきである。特定の状況では、マルチタスキングおよび並列処理は、有利である場合がある。同様に、いくつかの具体的な実現例の詳細が上記説明に含まれているが、これらは本開示の範囲を限定するものとして解釈するべきではない。独立した実施例で説明されているいくつかの特徴は、組み合わせでも単一の実現においても実現することができる。むしろ、単一の実施例の全文と後文にいて説明されている様々な特徴は、個別にまたは任意の適切なサブコンビネーションとして複数の実施例で実施することもできる。
本開示の実施例は、構成的特徴および/または方法論理的動作に特有の言語で説明されているが、添付の特許請求の範囲で定義されるテーマは、説明された上記特定の特徴または動作に限定されないと理解すべきである。むしろ、上記特定の特徴および動作は、単に特許請求の範囲を実施する例示的な形態である。

Claims (19)

  1. オブジェクトのテキスト情報と非テキスト情報を取得するステップであって、前記非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも1つを含むステップと、
    事前に構築された知識ベースに基づいて、前記テキスト情報内のエンティティ集合を決定するステップであって、事前に構築された知識ベースに基づいて、テキストに関係する1つまたは複数のエンティティをリンクすることができ、テキスト情報に対してエンティティリンクを行うことにより、テキストに関係するオブジェクト関連情報を抽出することができるステップと、
    前記テキスト情報と前記エンティティ集合に基づいて、前記オブジェクトのテキスト特徴を抽出するステップと、
    前記オブジェクトのテキスト特徴と非テキスト特徴に基づいて、前記オブジェクトのテーマ分類を決定するステップであって、前記非テキスト特徴は前記非テキスト情報に基づいて抽出されるステップと、を含むことを特徴とする、マルチモーダルに基づくテーマ分類方法。
  2. 前記オブジェクトの前記テキスト情報を取得するステップは、
    前記視覚情報に対する光学文字認識に基づいて、画像テキストを取得するステップと、
    前記オーディオ情報に対する自動音声認識に基づいて、音声テキストを取得するステップと、
    前記オブジェクトのタイトルと弾幕に基づいて、文字テキストを取得するステップと、
    前記画像テキスト、前記音声テキスト及び前記文字テキストを融合することにより、前記テキスト情報を取得するステップと、を含むことを特徴とする、請求項1に記載の方法。
  3. 前記オブジェクトのテーマ分類を決定するステップは、
    前記視覚情報と前記オーディオ情報に基づいて、注意力に基づく長期短期記憶ネットワークによって視覚特徴とオーディオ特徴を抽出するステップと、
    前記視覚特徴、前記オーディオ特徴及び前記テキスト特徴を融合することにより、前記オブジェクトの融合特徴を取得するステップと、
    前記融合特徴に基づいて、前記オブジェクトのマルチレベルテーマ分類を決定するステップと、を含むことを特徴とする、請求項1に記載の方法。
  4. 前記オブジェクトのマルチレベルテーマ分類を決定するステップは、
    前記エンティティ集合内のコアエンティティを決定するステップと、
    前記知識ベースに基づいて、前記コアエンティティに対応するテーマタイプを決定するステップと、を含むことを特徴とする、請求項3に記載の方法。
  5. 前記オブジェクトのマルチレベルテーマ分類を決定するステップは、
    前記コアエンティティのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第1の特徴を取得するステップと、
    前記テーマタイプのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第2の特徴を取得するステップと、
    前記第1の特徴と前記第2の特徴に基づいて、前記オブジェクトの前記マルチレベルテーマ分類を取得するステップと、をさらに含むことを特徴とする、請求項4に記載の方法。
  6. 各エンティティに対して、
    前記知識ベース内の前記エンティティのテキスト説明と前記エンティティに関連するオブジェクトに基づいて、正例ベクトルを取得するステップと、
    ランダムにサンプリングされたテキストとランダムにサンプリングされたオブジェクトに基づいて、負例ベクトルを取得するステップと、
    予め設定された比率の前記正例ベクトルと前記負例ベクトルに基づいて、前記エンティティのベクトル生成モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項1に記載の方法。
  7. 前記負例ベクトルを取得するステップは、
    前記知識ベースにおけるすべてのエンティティのテキスト説明内の単語の頻度を統計するステップと、
    各単語の頻度に基づいて、負例とされた単語シーケンスをランダムに選択するステップと、を含むことを特徴とする、請求項6に記載の方法。
  8. 前記テキスト情報に基づいて、前記オブジェクトのテーマ推定を決定するステップと、
    前記オブジェクトの前記テーマ分類と前記テーマ推定に基づいて、前記オブジェクトの融合テーマを決定するステップと、をさらに含むことを特徴とする、請求項1に記載の方法。
  9. オブジェクトのテキスト情報と非テキスト情報を取得するように構成されるマルチモーダル情報取得モジュールであって、前記非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも1つを含むマルチモーダル情報取得モジュールと、
    事前に構築された知識ベースに基づいて、前記テキスト情報内のエンティティ集合を決定するように構成されるエンティティ抽出モジュールであって、事前に構築された知識ベースに基づいて、テキストに関係する1つまたは複数のエンティティをリンクすることができ、テキスト情報に対してエンティティリンクを行うことにより、テキストに関係するオブジェクト関連情報を抽出することができるエンティティ抽出モジュールと、
    前記テキスト情報と前記エンティティ集合に基づいて、前記オブジェクトのテキスト特徴を抽出するように構成されるテキスト特徴抽出モジュールと、
    前記オブジェクトの前記テキスト特徴と非テキスト特徴に基づいて、前記オブジェクトのテーマ分類を決定するように構成されるテーマ分類決定モジュールであって、前記非テキスト特徴は非テキスト情報に基づいて抽出されるテーマ分類決定モジュールと、を含むことを特徴とする、マルチモーダルに基づくテーマ分類装置。
  10. 前記マルチモーダル情報取得モジュールは、
    前記視覚情報に対する光学文字認識に基づいて、画像テキストを取得するように構成される画像テキスト取得モジュールと、
    前記オーディオ情報に対する自動音声認識に基づいて、音声テキストを取得するように構成される音声テキスト取得モジュールと、
    前記オブジェクトのタイトルと弾幕に基づいて、文字テキストを取得するように構成される文字テキスト取得モジュールと、
    前記画像テキスト、前記音声テキスト及び前記文字テキストを融合することにより、前記テキスト情報を取得するように構成されるテキスト融合モジュールと、を含むことを特徴とする、請求項9に記載の装置。
  11. 前記テーマ分類決定モジュールは、
    前記視覚情報と前記オーディオ情報に基づいて、注意力に基づく長期短期記憶ネットワークによって視覚特徴とオーディオ特徴を抽出するように構成される特徴抽出モジュールと、
    前記視覚特徴、前記オーディオ特徴及び前記テキスト特徴を融合することにより、前記オブジェクトの融合特徴を取得するように構成される融合特徴取得モジュールと、
    前記融合特徴に基づいて、前記オブジェクトのマルチレベルテーマ分類を決定するように構成されるマルチレベルテーマ分類決定モジュールと、を含むことを特徴とする、請求項9に記載の装置。
  12. 前記マルチレベルテーマ分類決定モジュールは、
    前記エンティティ集合内のコアエンティティを決定するように構成されるコアエンティティ決定モジュールと、
    前記知識ベースに基づいて、前記コアエンティティに対応するテーマタイプを決定するように構成されるテーマタイプ決定モジュールと、を含むことを特徴とする、請求項11に記載の装置。
  13. 前記マルチレベルテーマ分類決定モジュールは、
    前記コアエンティティのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第1の特徴を取得するように構成される第1の特徴取得モジュールと、
    前記テーマタイプのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第2の特徴を取得するように構成される第2の特徴取得モジュールと、
    前記第1の特徴と前記第2の特徴に基づいて、前記オブジェクトの前記マルチレベルテーマ分類を取得するように構成されるマルチレベルテーマ分類取得モジュールと、をさらに含むことを特徴とする、請求項12に記載の装置。
  14. 各エンティティに対して、
    前記知識ベース内の前記エンティティのテキスト説明と前記エンティティに関連するオブジェクトに基づいて、正例ベクトルを取得し、
    ランダムにサンプリングされたテキストとランダムにサンプリングされたオブジェクトに基づいて、負例ベクトルを取得し、
    予め設定された比率の前記正例ベクトルと前記負例ベクトルに基づいて、前記エンティティのベクトル生成モデルをトレーニングするように構成されるトレーニングモジュールをさらに含むことを特徴とする、請求項9に記載の装置。
  15. 前記トレーニングモジュールは、
    前記知識ベースにおけるすべてのエンティティのテキスト説明内の単語の頻度を統計するように構成される統計モジュールと、
    各単語の頻度に基づいて、負例とされた単語シーケンスをランダムに選択するように構成されるランダム選択モジュールと、を含むことを特徴とする、請求項14に記載の装置。
  16. 前記テキスト情報に基づいて、前記オブジェクトのテーマ推定を決定するように構成されるテーマ推定モジュールと、
    前記オブジェクトの前記テーマ分類と前記テーマ推定に基づいて、前記オブジェクトの融合テーマを決定するように構成される融合テーマ決定モジュールと、をさらに含むことを特徴とする、請求項9に記載の装置。
  17. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶するための記憶装置と、を含み、
    前記1つまたは複数のプログラムは、前記1つまたは複数のプロセッサによって実行される場合、前記電子機器に請求項1から8のいずれかに記載の方法を実現させることを特徴とする、電子機器。
  18. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記プログラムはプロセッサによって実行される場合、請求項1から8のいずれかに記載の方法を実現することを特徴とする、コンピュータ読み取り可能な記憶媒体。
  19. コンピュータ上で動作しているときに、請求項1から8のいずれかに記載の方法を前記コンピュータに実行させることを特徴とする、コンピュータプログラム。
JP2021020378A 2020-02-14 2021-02-12 マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 Active JP7142737B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010093770.0A CN111259215B (zh) 2020-02-14 2020-02-14 基于多模态的主题分类方法、装置、设备、以及存储介质
CN202010093770.0 2020-02-14

Publications (2)

Publication Number Publication Date
JP2021128774A JP2021128774A (ja) 2021-09-02
JP7142737B2 true JP7142737B2 (ja) 2022-09-27

Family

ID=70945613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021020378A Active JP7142737B2 (ja) 2020-02-14 2021-02-12 マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体

Country Status (5)

Country Link
US (1) US11995117B2 (ja)
EP (1) EP3866026A1 (ja)
JP (1) JP7142737B2 (ja)
KR (1) KR102455616B1 (ja)
CN (1) CN111259215B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100346B (zh) * 2020-08-28 2021-07-20 西北工业大学 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN114157906B (zh) * 2020-09-07 2024-04-02 北京达佳互联信息技术有限公司 视频检测方法、装置、电子设备及存储介质
CN112685565B (zh) * 2020-12-29 2023-07-21 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN112749300B (zh) * 2021-01-22 2024-03-01 北京百度网讯科技有限公司 用于视频分类的方法、装置、设备、存储介质和程序产品
CN112822506A (zh) * 2021-01-22 2021-05-18 百度在线网络技术(北京)有限公司 用于分析视频流的方法和装置
CN112863518B (zh) * 2021-01-29 2024-01-09 深圳前海微众银行股份有限公司 一种语音数据主题识别的方法及装置
CN113159010B (zh) * 2021-03-05 2022-07-22 北京百度网讯科技有限公司 视频分类方法、装置、设备和存储介质
CN113204615B (zh) * 2021-04-29 2023-11-24 北京百度网讯科技有限公司 实体抽取方法、装置、设备和存储介质
CN113177138A (zh) * 2021-04-30 2021-07-27 南开大学 一种基于弹幕和标题分析的有监督视频分类方法
CN113094549A (zh) * 2021-06-10 2021-07-09 智者四海(北京)技术有限公司 一种视频分类方法、装置、电子设备和存储介质
CN113408282B (zh) * 2021-08-06 2021-11-09 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
CN116028668A (zh) * 2021-10-27 2023-04-28 腾讯科技(深圳)有限公司 信息处理方法、装置、计算机设备以及存储介质
CN113992944A (zh) * 2021-10-28 2022-01-28 北京中科闻歌科技股份有限公司 视频编目方法、装置、设备、系统及介质
CN116150428B (zh) * 2021-11-16 2024-06-07 腾讯科技(深圳)有限公司 视频标签获取方法、装置、电子设备及存储介质
WO2023128432A1 (ko) * 2021-12-29 2023-07-06 삼성전자 주식회사 상품을 인식하는 방법 및 전자 장치
KR20230102882A (ko) * 2021-12-30 2023-07-07 삼성전자주식회사 전자 장치 및 그 제어 방법
CN114782670A (zh) * 2022-05-11 2022-07-22 中航信移动科技有限公司 一种多模态敏感信息鉴别方法、设备及介质
CN115797943B (zh) * 2023-02-08 2023-05-05 广州数说故事信息科技有限公司 一种基于多模态的视频文本内容提取方法、系统及存储介质
CN117150436B (zh) * 2023-10-31 2024-01-30 上海大智慧财汇数据科技有限公司 多模态自适应融合的主题识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009060490A (ja) 2007-09-03 2009-03-19 Toshiba Corp 動画像処理装置及び方法
US20160004911A1 (en) 2012-04-23 2016-01-07 Sri International Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
JP2016218652A (ja) 2015-05-19 2016-12-22 シャープ株式会社 表示装置、情報処理プログラムおよび情報処理方法
JP2021081930A (ja) 2019-11-18 2021-05-27 日本放送協会 学習装置、情報分類装置、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961954B1 (en) * 1997-10-27 2005-11-01 The Mitre Corporation Automated segmentation, information extraction, summarization, and presentation of broadcast news
JP2005062971A (ja) * 2003-08-19 2005-03-10 Pioneer Electronic Corp コンテンツ検索システム
US10467289B2 (en) * 2011-08-02 2019-11-05 Comcast Cable Communications, Llc Segmentation of video according to narrative theme
CN102831234B (zh) * 2012-08-31 2015-04-22 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
MX349609B (es) * 2013-09-13 2017-08-04 Arris Entpr Llc Segmentacion de contenido de video basado en contenido.
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
US10521732B2 (en) * 2015-12-28 2019-12-31 Facebook, Inc. Systems and methods for content presentation
CN106940702A (zh) * 2016-01-05 2017-07-11 富士通株式会社 连接短文本中实体提及与语义知识库中实体的方法和设备
US10169453B2 (en) * 2016-03-28 2019-01-01 Microsoft Technology Licensing, Llc Automatic document summarization using search engine intelligence
CN105843931A (zh) * 2016-03-30 2016-08-10 广州酷狗计算机科技有限公司 一种进行分类的方法和装置
US9569729B1 (en) * 2016-07-20 2017-02-14 Chenope, Inc. Analytical system and method for assessing certain characteristics of organizations
US10282462B2 (en) * 2016-10-31 2019-05-07 Walmart Apollo, Llc Systems, method, and non-transitory computer-readable storage media for multi-modal product classification
US11197036B2 (en) * 2017-04-26 2021-12-07 Piksel, Inc. Multimedia stream analysis and retrieval
CN107220386B (zh) * 2017-06-29 2020-10-02 北京百度网讯科技有限公司 信息推送方法和装置
CN107545033B (zh) * 2017-07-24 2020-12-01 清华大学 一种基于表示学习的知识库实体分类的计算方法
US11115666B2 (en) * 2017-08-03 2021-09-07 At&T Intellectual Property I, L.P. Semantic video encoding
JP7077141B2 (ja) 2018-05-28 2022-05-30 シャープ株式会社 画像記録装置、画像記録方法およびプログラム
CN109933688A (zh) * 2019-02-13 2019-06-25 北京百度网讯科技有限公司 确定视频标注信息的方法、装置、设备和计算机存储介质
CN110083716A (zh) * 2019-05-07 2019-08-02 青海大学 基于藏文的多模态情感计算方法及系统
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009060490A (ja) 2007-09-03 2009-03-19 Toshiba Corp 動画像処理装置及び方法
US20160004911A1 (en) 2012-04-23 2016-01-07 Sri International Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics
JP2016218652A (ja) 2015-05-19 2016-12-22 シャープ株式会社 表示装置、情報処理プログラムおよび情報処理方法
JP2021081930A (ja) 2019-11-18 2021-05-27 日本放送協会 学習装置、情報分類装置、及びプログラム

Also Published As

Publication number Publication date
JP2021128774A (ja) 2021-09-02
EP3866026A1 (en) 2021-08-18
US20210256051A1 (en) 2021-08-19
KR20210104571A (ko) 2021-08-25
KR102455616B1 (ko) 2022-10-17
US11995117B2 (en) 2024-05-28
CN111259215B (zh) 2023-06-27
CN111259215A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
JP7142737B2 (ja) マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体
CN108509465B (zh) 一种视频数据的推荐方法、装置和服务器
CA2817103C (en) Learning tags for video annotation using latent subtags
CN112163122B (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN109117777A (zh) 生成信息的方法和装置
CN112883731B (zh) 内容分类方法和装置
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
Zhang et al. A survey on machine learning techniques for auto labeling of video, audio, and text data
CN116955699B (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
Ji et al. A semantic-based video scene segmentation using a deep neural network
CN112188312A (zh) 用于确定新闻的视频素材的方法和装置
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN114491258A (zh) 基于多模态内容的关键词推荐系统及方法
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN110516086B (zh) 一种基于深度神经网络影视标签自动获取方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN112861580A (zh) 基于视频信息处理模型的视频信息处理方法及装置
Gayathri et al. An efficient video indexing and retrieval algorithm using ensemble classifier
Yu et al. TCR: Short Video Title Generation and Cover Selection with Attention Refinement
CN114860992A (zh) 视频的标题生成方法、装置、设备及存储介质
Pandit et al. Image Aesthetic Score Prediction Using Image Captioning
CN117556276B (zh) 用于确定文本和视频之间的相似度的方法和装置
CN116150428B (zh) 视频标签获取方法、装置、电子设备及存储介质
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220913

R150 Certificate of patent or registration of utility model

Ref document number: 7142737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150