JP7142737B2 - マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 - Google Patents
マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 Download PDFInfo
- Publication number
- JP7142737B2 JP7142737B2 JP2021020378A JP2021020378A JP7142737B2 JP 7142737 B2 JP7142737 B2 JP 7142737B2 JP 2021020378 A JP2021020378 A JP 2021020378A JP 2021020378 A JP2021020378 A JP 2021020378A JP 7142737 B2 JP7142737 B2 JP 7142737B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- information
- theme
- entity
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 239000013598 vector Substances 0.000 claims description 48
- 230000000007 visual effect Effects 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000012015 optical character recognition Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000013145 classification model Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
αijは融合特徴の各部に対するコアエンティティまたはテーマタイプの重みを示し、i=0の時はコアエンティティの重みを示し、i=1の時はコアエンティティのテーマタイプの重みを示し、jは融合特徴hにおけるj番目の部分を示す。
Claims (19)
- オブジェクトのテキスト情報と非テキスト情報を取得するステップであって、前記非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも1つを含むステップと、
事前に構築された知識ベースに基づいて、前記テキスト情報内のエンティティ集合を決定するステップであって、事前に構築された知識ベースに基づいて、テキストに関係する1つまたは複数のエンティティをリンクすることができ、テキスト情報に対してエンティティリンクを行うことにより、テキストに関係するオブジェクト関連情報を抽出することができるステップと、
前記テキスト情報と前記エンティティ集合に基づいて、前記オブジェクトのテキスト特徴を抽出するステップと、
前記オブジェクトのテキスト特徴と非テキスト特徴に基づいて、前記オブジェクトのテーマ分類を決定するステップであって、前記非テキスト特徴は前記非テキスト情報に基づいて抽出されるステップと、を含むことを特徴とする、マルチモーダルに基づくテーマ分類方法。 - 前記オブジェクトの前記テキスト情報を取得するステップは、
前記視覚情報に対する光学文字認識に基づいて、画像テキストを取得するステップと、
前記オーディオ情報に対する自動音声認識に基づいて、音声テキストを取得するステップと、
前記オブジェクトのタイトルと弾幕に基づいて、文字テキストを取得するステップと、
前記画像テキスト、前記音声テキスト及び前記文字テキストを融合することにより、前記テキスト情報を取得するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記オブジェクトのテーマ分類を決定するステップは、
前記視覚情報と前記オーディオ情報に基づいて、注意力に基づく長期短期記憶ネットワークによって視覚特徴とオーディオ特徴を抽出するステップと、
前記視覚特徴、前記オーディオ特徴及び前記テキスト特徴を融合することにより、前記オブジェクトの融合特徴を取得するステップと、
前記融合特徴に基づいて、前記オブジェクトのマルチレベルテーマ分類を決定するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記オブジェクトのマルチレベルテーマ分類を決定するステップは、
前記エンティティ集合内のコアエンティティを決定するステップと、
前記知識ベースに基づいて、前記コアエンティティに対応するテーマタイプを決定するステップと、を含むことを特徴とする、請求項3に記載の方法。 - 前記オブジェクトのマルチレベルテーマ分類を決定するステップは、
前記コアエンティティのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第1の特徴を取得するステップと、
前記テーマタイプのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第2の特徴を取得するステップと、
前記第1の特徴と前記第2の特徴に基づいて、前記オブジェクトの前記マルチレベルテーマ分類を取得するステップと、をさらに含むことを特徴とする、請求項4に記載の方法。 - 各エンティティに対して、
前記知識ベース内の前記エンティティのテキスト説明と前記エンティティに関連するオブジェクトに基づいて、正例ベクトルを取得するステップと、
ランダムにサンプリングされたテキストとランダムにサンプリングされたオブジェクトに基づいて、負例ベクトルを取得するステップと、
予め設定された比率の前記正例ベクトルと前記負例ベクトルに基づいて、前記エンティティのベクトル生成モデルをトレーニングするステップと、をさらに含むことを特徴とする、請求項1に記載の方法。 - 前記負例ベクトルを取得するステップは、
前記知識ベースにおけるすべてのエンティティのテキスト説明内の単語の頻度を統計するステップと、
各単語の頻度に基づいて、負例とされた単語シーケンスをランダムに選択するステップと、を含むことを特徴とする、請求項6に記載の方法。 - 前記テキスト情報に基づいて、前記オブジェクトのテーマ推定を決定するステップと、
前記オブジェクトの前記テーマ分類と前記テーマ推定に基づいて、前記オブジェクトの融合テーマを決定するステップと、をさらに含むことを特徴とする、請求項1に記載の方法。 - オブジェクトのテキスト情報と非テキスト情報を取得するように構成されるマルチモーダル情報取得モジュールであって、前記非テキスト情報は、視覚情報とオーディオ情報のうちの少なくとも1つを含むマルチモーダル情報取得モジュールと、
事前に構築された知識ベースに基づいて、前記テキスト情報内のエンティティ集合を決定するように構成されるエンティティ抽出モジュールであって、事前に構築された知識ベースに基づいて、テキストに関係する1つまたは複数のエンティティをリンクすることができ、テキスト情報に対してエンティティリンクを行うことにより、テキストに関係するオブジェクト関連情報を抽出することができるエンティティ抽出モジュールと、
前記テキスト情報と前記エンティティ集合に基づいて、前記オブジェクトのテキスト特徴を抽出するように構成されるテキスト特徴抽出モジュールと、
前記オブジェクトの前記テキスト特徴と非テキスト特徴に基づいて、前記オブジェクトのテーマ分類を決定するように構成されるテーマ分類決定モジュールであって、前記非テキスト特徴は非テキスト情報に基づいて抽出されるテーマ分類決定モジュールと、を含むことを特徴とする、マルチモーダルに基づくテーマ分類装置。 - 前記マルチモーダル情報取得モジュールは、
前記視覚情報に対する光学文字認識に基づいて、画像テキストを取得するように構成される画像テキスト取得モジュールと、
前記オーディオ情報に対する自動音声認識に基づいて、音声テキストを取得するように構成される音声テキスト取得モジュールと、
前記オブジェクトのタイトルと弾幕に基づいて、文字テキストを取得するように構成される文字テキスト取得モジュールと、
前記画像テキスト、前記音声テキスト及び前記文字テキストを融合することにより、前記テキスト情報を取得するように構成されるテキスト融合モジュールと、を含むことを特徴とする、請求項9に記載の装置。 - 前記テーマ分類決定モジュールは、
前記視覚情報と前記オーディオ情報に基づいて、注意力に基づく長期短期記憶ネットワークによって視覚特徴とオーディオ特徴を抽出するように構成される特徴抽出モジュールと、
前記視覚特徴、前記オーディオ特徴及び前記テキスト特徴を融合することにより、前記オブジェクトの融合特徴を取得するように構成される融合特徴取得モジュールと、
前記融合特徴に基づいて、前記オブジェクトのマルチレベルテーマ分類を決定するように構成されるマルチレベルテーマ分類決定モジュールと、を含むことを特徴とする、請求項9に記載の装置。 - 前記マルチレベルテーマ分類決定モジュールは、
前記エンティティ集合内のコアエンティティを決定するように構成されるコアエンティティ決定モジュールと、
前記知識ベースに基づいて、前記コアエンティティに対応するテーマタイプを決定するように構成されるテーマタイプ決定モジュールと、を含むことを特徴とする、請求項11に記載の装置。 - 前記マルチレベルテーマ分類決定モジュールは、
前記コアエンティティのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第1の特徴を取得するように構成される第1の特徴取得モジュールと、
前記テーマタイプのベクトルを用いて前記融合特徴に対して重み付け処理を行うことにより、第2の特徴を取得するように構成される第2の特徴取得モジュールと、
前記第1の特徴と前記第2の特徴に基づいて、前記オブジェクトの前記マルチレベルテーマ分類を取得するように構成されるマルチレベルテーマ分類取得モジュールと、をさらに含むことを特徴とする、請求項12に記載の装置。 - 各エンティティに対して、
前記知識ベース内の前記エンティティのテキスト説明と前記エンティティに関連するオブジェクトに基づいて、正例ベクトルを取得し、
ランダムにサンプリングされたテキストとランダムにサンプリングされたオブジェクトに基づいて、負例ベクトルを取得し、
予め設定された比率の前記正例ベクトルと前記負例ベクトルに基づいて、前記エンティティのベクトル生成モデルをトレーニングするように構成されるトレーニングモジュールをさらに含むことを特徴とする、請求項9に記載の装置。 - 前記トレーニングモジュールは、
前記知識ベースにおけるすべてのエンティティのテキスト説明内の単語の頻度を統計するように構成される統計モジュールと、
各単語の頻度に基づいて、負例とされた単語シーケンスをランダムに選択するように構成されるランダム選択モジュールと、を含むことを特徴とする、請求項14に記載の装置。 - 前記テキスト情報に基づいて、前記オブジェクトのテーマ推定を決定するように構成されるテーマ推定モジュールと、
前記オブジェクトの前記テーマ分類と前記テーマ推定に基づいて、前記オブジェクトの融合テーマを決定するように構成される融合テーマ決定モジュールと、をさらに含むことを特徴とする、請求項9に記載の装置。 - 1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するための記憶装置と、を含み、
前記1つまたは複数のプログラムは、前記1つまたは複数のプロセッサによって実行される場合、前記電子機器に請求項1から8のいずれかに記載の方法を実現させることを特徴とする、電子機器。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムはプロセッサによって実行される場合、請求項1から8のいずれかに記載の方法を実現することを特徴とする、コンピュータ読み取り可能な記憶媒体。 - コンピュータ上で動作しているときに、請求項1から8のいずれかに記載の方法を前記コンピュータに実行させることを特徴とする、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010093770.0A CN111259215B (zh) | 2020-02-14 | 2020-02-14 | 基于多模态的主题分类方法、装置、设备、以及存储介质 |
CN202010093770.0 | 2020-02-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021128774A JP2021128774A (ja) | 2021-09-02 |
JP7142737B2 true JP7142737B2 (ja) | 2022-09-27 |
Family
ID=70945613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021020378A Active JP7142737B2 (ja) | 2020-02-14 | 2021-02-12 | マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11995117B2 (ja) |
EP (1) | EP3866026A1 (ja) |
JP (1) | JP7142737B2 (ja) |
KR (1) | KR102455616B1 (ja) |
CN (1) | CN111259215B (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100346B (zh) * | 2020-08-28 | 2021-07-20 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
CN114157906B (zh) * | 2020-09-07 | 2024-04-02 | 北京达佳互联信息技术有限公司 | 视频检测方法、装置、电子设备及存储介质 |
CN112685565B (zh) * | 2020-12-29 | 2023-07-21 | 平安科技(深圳)有限公司 | 基于多模态信息融合的文本分类方法、及其相关设备 |
CN112749300B (zh) * | 2021-01-22 | 2024-03-01 | 北京百度网讯科技有限公司 | 用于视频分类的方法、装置、设备、存储介质和程序产品 |
CN112822506A (zh) * | 2021-01-22 | 2021-05-18 | 百度在线网络技术(北京)有限公司 | 用于分析视频流的方法和装置 |
CN112863518B (zh) * | 2021-01-29 | 2024-01-09 | 深圳前海微众银行股份有限公司 | 一种语音数据主题识别的方法及装置 |
CN113159010B (zh) * | 2021-03-05 | 2022-07-22 | 北京百度网讯科技有限公司 | 视频分类方法、装置、设备和存储介质 |
CN113204615B (zh) * | 2021-04-29 | 2023-11-24 | 北京百度网讯科技有限公司 | 实体抽取方法、装置、设备和存储介质 |
CN113177138A (zh) * | 2021-04-30 | 2021-07-27 | 南开大学 | 一种基于弹幕和标题分析的有监督视频分类方法 |
CN113094549A (zh) * | 2021-06-10 | 2021-07-09 | 智者四海(北京)技术有限公司 | 一种视频分类方法、装置、电子设备和存储介质 |
CN113408282B (zh) * | 2021-08-06 | 2021-11-09 | 腾讯科技(深圳)有限公司 | 主题模型训练和主题预测方法、装置、设备及存储介质 |
CN116028668A (zh) * | 2021-10-27 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机设备以及存储介质 |
CN113992944A (zh) * | 2021-10-28 | 2022-01-28 | 北京中科闻歌科技股份有限公司 | 视频编目方法、装置、设备、系统及介质 |
CN116150428B (zh) * | 2021-11-16 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 视频标签获取方法、装置、电子设备及存储介质 |
WO2023128432A1 (ko) * | 2021-12-29 | 2023-07-06 | 삼성전자 주식회사 | 상품을 인식하는 방법 및 전자 장치 |
KR20230102882A (ko) * | 2021-12-30 | 2023-07-07 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN114782670A (zh) * | 2022-05-11 | 2022-07-22 | 中航信移动科技有限公司 | 一种多模态敏感信息鉴别方法、设备及介质 |
CN115797943B (zh) * | 2023-02-08 | 2023-05-05 | 广州数说故事信息科技有限公司 | 一种基于多模态的视频文本内容提取方法、系统及存储介质 |
CN117150436B (zh) * | 2023-10-31 | 2024-01-30 | 上海大智慧财汇数据科技有限公司 | 多模态自适应融合的主题识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009060490A (ja) | 2007-09-03 | 2009-03-19 | Toshiba Corp | 動画像処理装置及び方法 |
US20160004911A1 (en) | 2012-04-23 | 2016-01-07 | Sri International | Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics |
JP2016218652A (ja) | 2015-05-19 | 2016-12-22 | シャープ株式会社 | 表示装置、情報処理プログラムおよび情報処理方法 |
JP2021081930A (ja) | 2019-11-18 | 2021-05-27 | 日本放送協会 | 学習装置、情報分類装置、及びプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6961954B1 (en) * | 1997-10-27 | 2005-11-01 | The Mitre Corporation | Automated segmentation, information extraction, summarization, and presentation of broadcast news |
JP2005062971A (ja) * | 2003-08-19 | 2005-03-10 | Pioneer Electronic Corp | コンテンツ検索システム |
US10467289B2 (en) * | 2011-08-02 | 2019-11-05 | Comcast Cable Communications, Llc | Segmentation of video according to narrative theme |
CN102831234B (zh) * | 2012-08-31 | 2015-04-22 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
MX349609B (es) * | 2013-09-13 | 2017-08-04 | Arris Entpr Llc | Segmentacion de contenido de video basado en contenido. |
US20160014482A1 (en) * | 2014-07-14 | 2016-01-14 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Generating Video Summary Sequences From One or More Video Segments |
US10521732B2 (en) * | 2015-12-28 | 2019-12-31 | Facebook, Inc. | Systems and methods for content presentation |
CN106940702A (zh) * | 2016-01-05 | 2017-07-11 | 富士通株式会社 | 连接短文本中实体提及与语义知识库中实体的方法和设备 |
US10169453B2 (en) * | 2016-03-28 | 2019-01-01 | Microsoft Technology Licensing, Llc | Automatic document summarization using search engine intelligence |
CN105843931A (zh) * | 2016-03-30 | 2016-08-10 | 广州酷狗计算机科技有限公司 | 一种进行分类的方法和装置 |
US9569729B1 (en) * | 2016-07-20 | 2017-02-14 | Chenope, Inc. | Analytical system and method for assessing certain characteristics of organizations |
US10282462B2 (en) * | 2016-10-31 | 2019-05-07 | Walmart Apollo, Llc | Systems, method, and non-transitory computer-readable storage media for multi-modal product classification |
US11197036B2 (en) * | 2017-04-26 | 2021-12-07 | Piksel, Inc. | Multimedia stream analysis and retrieval |
CN107220386B (zh) * | 2017-06-29 | 2020-10-02 | 北京百度网讯科技有限公司 | 信息推送方法和装置 |
CN107545033B (zh) * | 2017-07-24 | 2020-12-01 | 清华大学 | 一种基于表示学习的知识库实体分类的计算方法 |
US11115666B2 (en) * | 2017-08-03 | 2021-09-07 | At&T Intellectual Property I, L.P. | Semantic video encoding |
JP7077141B2 (ja) | 2018-05-28 | 2022-05-30 | シャープ株式会社 | 画像記録装置、画像記録方法およびプログラム |
CN109933688A (zh) * | 2019-02-13 | 2019-06-25 | 北京百度网讯科技有限公司 | 确定视频标注信息的方法、装置、设备和计算机存储介质 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
CN110738061B (zh) * | 2019-10-17 | 2024-05-28 | 北京搜狐互联网信息服务有限公司 | 古诗词生成方法、装置、设备及存储介质 |
-
2020
- 2020-02-14 CN CN202010093770.0A patent/CN111259215B/zh active Active
- 2020-10-13 US US17/069,410 patent/US11995117B2/en active Active
- 2020-10-16 EP EP20202345.3A patent/EP3866026A1/en not_active Withdrawn
-
2021
- 2021-02-09 KR KR1020210017976A patent/KR102455616B1/ko active IP Right Grant
- 2021-02-12 JP JP2021020378A patent/JP7142737B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009060490A (ja) | 2007-09-03 | 2009-03-19 | Toshiba Corp | 動画像処理装置及び方法 |
US20160004911A1 (en) | 2012-04-23 | 2016-01-07 | Sri International | Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics |
JP2016218652A (ja) | 2015-05-19 | 2016-12-22 | シャープ株式会社 | 表示装置、情報処理プログラムおよび情報処理方法 |
JP2021081930A (ja) | 2019-11-18 | 2021-05-27 | 日本放送協会 | 学習装置、情報分類装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2021128774A (ja) | 2021-09-02 |
EP3866026A1 (en) | 2021-08-18 |
US20210256051A1 (en) | 2021-08-19 |
KR20210104571A (ko) | 2021-08-25 |
KR102455616B1 (ko) | 2022-10-17 |
US11995117B2 (en) | 2024-05-28 |
CN111259215B (zh) | 2023-06-27 |
CN111259215A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7142737B2 (ja) | マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体 | |
CN108509465B (zh) | 一种视频数据的推荐方法、装置和服务器 | |
CA2817103C (en) | Learning tags for video annotation using latent subtags | |
CN112163122B (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN109117777A (zh) | 生成信息的方法和装置 | |
CN112883731B (zh) | 内容分类方法和装置 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
Zhang et al. | A survey on machine learning techniques for auto labeling of video, audio, and text data | |
CN116955699B (zh) | 一种视频跨模态搜索模型训练方法、搜索方法及装置 | |
Ji et al. | A semantic-based video scene segmentation using a deep neural network | |
CN112188312A (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN114491258A (zh) | 基于多模态内容的关键词推荐系统及方法 | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
CN110516086B (zh) | 一种基于深度神经网络影视标签自动获取方法 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN112861580A (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
Gayathri et al. | An efficient video indexing and retrieval algorithm using ensemble classifier | |
Yu et al. | TCR: Short Video Title Generation and Cover Selection with Attention Refinement | |
CN114860992A (zh) | 视频的标题生成方法、装置、设备及存储介质 | |
Pandit et al. | Image Aesthetic Score Prediction Using Image Captioning | |
CN117556276B (zh) | 用于确定文本和视频之间的相似度的方法和装置 | |
CN116150428B (zh) | 视频标签获取方法、装置、电子设备及存储介质 | |
CN117765450B (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7142737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |