JP7181999B2 - 検索方法及び検索装置、記憶媒体 - Google Patents
検索方法及び検索装置、記憶媒体 Download PDFInfo
- Publication number
- JP7181999B2 JP7181999B2 JP2021521293A JP2021521293A JP7181999B2 JP 7181999 B2 JP7181999 B2 JP 7181999B2 JP 2021521293 A JP2021521293 A JP 2021521293A JP 2021521293 A JP2021521293 A JP 2021521293A JP 7181999 B2 JP7181999 B2 JP 7181999B2
- Authority
- JP
- Japan
- Prior art keywords
- person
- video
- similarity
- text
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7343—Query language or query format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本願は、2019年09月29日に提出された、出願番号が201910934892.5号である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
例えば、本願は以下の項目を提供する。
(項目1)
テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、
前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することと、を含む、検索方法。
(項目2)
前記テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、
前記テキストのパラグラフ特徴を決定することと、
前記少なくとも1つのビデオのビデオ特徴を決定することと、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含むことを特徴とする
項目1に記載の検索方法。
(項目3)
前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含むことを特徴とする
項目2に記載の検索方法。
(項目4)
前記テキストの第1人物インタラクティブグラフを決定することは、
前記テキストに含まれる人名を検出することと、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、
各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含み、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表されることを特徴とする
項目1から3のうちいずれか一項に記載の検索方法。
(項目5)
前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含むことを特徴とする
項目4に記載の検索方法。
(項目6)
前記テキストに含まれる人名を検出することは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含むことを特徴とする
項目4又は5に記載の検索方法。
(項目7)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴及び動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと、を含むことを特徴とする
項目1から6のうちいずれか一項に記載の検索方法。
(項目8)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを更に含むことを特徴とする
項目7に記載の検索方法。
(項目9)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含むことを特徴とする
項目7又は8に記載の検索方法。
(項目10)
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することは、
各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、
類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含むことを特徴とする
項目1から9のうちいずれか一項に記載の検索方法。
(項目11)
前記検索方法は、検索ネットワークにより実現し、前記検索方法は、
テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、
前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、
前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、
前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を更に含むことを特徴とする
項目1から10のうちいずれか一項に記載の検索方法。
(項目12)
前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを含むことを特徴とする
項目11に記載の検索方法。
(項目13)
テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成される第1決定モジュールであって、前記テキストは、検索条件を表すためのものである、第1決定モジュールと、
前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定するように構成される第2決定モジュールと、
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュールと、を備える、検索装置。
(項目14)
前記第1決定モジュールは、
前記テキストのパラグラフ特徴を決定し、
前記少なくとも1つのビデオのビデオ特徴を決定し、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定するように構成されることを特徴とする
項目13に記載の検索装置。
(項目15)
前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含むことを特徴とする
項目14に記載の検索装置。
(項目16)
前記第2決定モジュールは、
前記テキストに含まれる人名を検出し、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、
各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表されることを特徴とする
項目13から15のうちいずれか一項に記載の検索装置。
(項目17)
前記第2決定モジュールは更に、
同一の動作ノードに接続されるキャラクターノードを相互接続するように構成されることを特徴とする
項目16に記載の検索装置。
(項目18)
前記第2決定モジュールは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成されることを特徴とする
項目16又は17に記載の検索装置。
(項目19)
前記第2決定モジュールは、
前記少なくとも1つのビデオの各ショットにおける人物を検出し、
前記人物の人体特徴及び動き特徴を抽出し、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、
各人物に対応するキャラクターノードと動作ノードを接続するように構成されることを特徴とする
項目13から18のうちいずれか一項に記載の検索装置。
(項目20)
前記第2決定モジュールは更に、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続するように構成されることを特徴とする
項目19に記載の検索装置。
(項目21)
前記第2決定モジュールは更に、
1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成されることを特徴とする
項目19又は20に記載の検索装置。
(項目22)
前記処理モジュールは、
各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得て、
類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成されることを特徴とする
項目13から21のうちいずれか一項に記載の検索装置。
(項目23)
前記検索装置は、検索ネットワークにより実現され、
テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、
前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定し、
前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定し、
前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定し、
前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュールを更に備えることを特徴とする
項目13から22のうちいずれか一項に記載の検索装置。
(項目24)
前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、
前記訓練モジュールは、
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整するように構成されることを特徴とする
項目23に記載の検索装置。
(項目25)
メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行して、項目1から12のうちいずれか一項に記載の検索方法を実行するように構成される、検索装置。
(項目26)
プロセッサにより実行されるときに、前記プロセッサに、項目1から12のうちいずれか一項に記載の検索方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
(項目27)
電子機器で実行されるときに、前記電子機器におけるプロセッサに、項目1から12のうちいずれか一項に記載の検索方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。
ステップS101において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものである。
前記テキストのパラグラフ特徴を決定することであって、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含む、ことと、
前記少なくとも1つのビデオのビデオ特徴を決定することであって、前記ビデオ特徴は、ショット特徴及びショットの数を含む、ことと、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含む。
各ショットが最大1つのセンテンスに割り当てられることと、
上位の番号のショットが割り当てられたセンテンスは、下位の番号のショットが割り当てられたセンテンスよりも前方に位置する。
前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴及び動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと、を含む。
1つのノードがもう1つの集合における最大1つのノードのみにマッチング可能であることと、
異なるタイプのノードをマッチングできないことと、を含む。
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを含む。
Claims (15)
- 電子機器によって実行される検索方法であって、
テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフおよび前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、
前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、
各ビデオの前記第1類似度および前記第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、
前記少なくとも1つのビデオから、類似度値が最も高いビデオを前記検索条件に合致するビデオとして決定することと
を含む、検索方法。 - 前記テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、
前記テキストのパラグラフ特徴を決定することと、
前記少なくとも1つのビデオのビデオ特徴を決定することと、
前記テキストのパラグラフ特徴および前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと
を含む、請求項1に記載の検索方法。 - 前記パラグラフ特徴は、センテンス特徴およびセンテンスの数を含み、前記ビデオ特徴は、ショット特徴およびショットの数を含む、請求項2に記載の検索方法。
- 前記テキストの第1人物インタラクティブグラフを決定することは、
前記テキストに含まれる人名を検出することと、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、
各前記人物に対応するキャラクターノードと動作ノードを接続することと
を含み、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される、請求項1~3のうちいずれか一項に記載の検索方法。 - 前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含む、請求項4に記載の検索方法。
- 前記テキストに含まれる人名を検出することは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含む、請求項4または請求項5に記載の検索方法。 - 前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴および動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと
を含む、請求項1~6のうちいずれか一項に記載の検索方法。 - 前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを更に含む、請求項7に記載の検索方法。 - 前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含む、請求項7または請求項8に記載の検索方法。 - 前記検索方法は、検索ネットワークにより実現し、前記検索ネットワークは、第1サブネットワークおよび第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成されており、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成されており、
前記検索方法は、
テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、
前記第1類似度予測値および前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、
前記第2類似度予測値および前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、
前記第1類似度の損失および前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと
を更に含む、請求項1~9のうちいずれか一項に記載の検索方法。 - 前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第1サブネットワークおよび前記第2サブネットワークの重みパラメータを調整することを含む、請求項10に記載の検索方法。 - 検索装置であって、
テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成されている第1決定モジュールであって、前記テキストは、検索条件を表すためのものである、第1決定モジュールと、
前記テキストの第1人物インタラクティブグラフおよび前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することとを行うように構成されている第2決定モジュールと、
各ビデオの前記第1類似度および前記第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、前記少なくとも1つのビデオから、類似度値が最も高いビデオを前記検索条件に合致するビデオとして決定することとを行うように構成されている処理モジュールと
を備える、検索装置。 - メモリとプロセッサとを備えた検索装置であって、前記メモリには、前記プロセッサによって実行可能であるコンピュータプログラムが記憶されており、前記プロセッサは、前記コンピュータプログラムを実行することにより、請求項1~11のうちいずれか一項に記載の検索方法を実行するように構成されている、検索装置。
- コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1~11のうちいずれか一項に記載の検索方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
- コンピュータプログラムであって、前記コンピュータプログラムは、プロッセッサによって実行されると、請求項1~11のうちいずれか一項に記載の検索方法を実行することを前記プロセッサに行わせる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910934892.5 | 2019-09-29 | ||
CN201910934892.5A CN110659392B (zh) | 2019-09-29 | 2019-09-29 | 检索方法及装置、存储介质 |
PCT/CN2019/118196 WO2021056750A1 (zh) | 2019-09-29 | 2019-11-13 | 检索方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022505320A JP2022505320A (ja) | 2022-01-14 |
JP7181999B2 true JP7181999B2 (ja) | 2022-12-01 |
Family
ID=69038407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021521293A Active JP7181999B2 (ja) | 2019-09-29 | 2019-11-13 | 検索方法及び検索装置、記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210326383A1 (ja) |
JP (1) | JP7181999B2 (ja) |
KR (1) | KR20210060563A (ja) |
CN (1) | CN110659392B (ja) |
SG (1) | SG11202107151TA (ja) |
TW (1) | TWI749441B (ja) |
WO (1) | WO2021056750A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259118B (zh) * | 2020-05-06 | 2020-09-01 | 广东电网有限责任公司 | 一种文本数据检索方法及装置 |
CN112256913A (zh) * | 2020-10-19 | 2021-01-22 | 四川长虹电器股份有限公司 | 一种基于图模型比对的视频搜索方法 |
CN113204674B (zh) * | 2021-07-05 | 2021-09-17 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008112432A (ja) | 2006-10-06 | 2008-05-15 | Nippon Hoso Kyokai <Nhk> | 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム |
JP2012118756A (ja) | 2010-11-30 | 2012-06-21 | Toshiba Corp | 電子機器、人物相関図出力方法、人物相関図出力システム |
JP2016081265A (ja) | 2014-10-16 | 2016-05-16 | 日本電気株式会社 | 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム |
JP2019008684A (ja) | 2017-06-28 | 2019-01-17 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理システム、情報処理方法およびプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877774B1 (en) * | 1999-04-19 | 2011-01-25 | At&T Intellectual Property Ii, L.P. | Browsing and retrieval of full broadcast-quality video |
US20060018516A1 (en) * | 2004-07-22 | 2006-01-26 | Masoud Osama T | Monitoring activity using video information |
US8451292B2 (en) * | 2009-11-23 | 2013-05-28 | National Cheng Kung University | Video summarization method based on mining story structure and semantic relations among concept entities thereof |
CN103365854A (zh) * | 2012-03-28 | 2013-10-23 | 鸿富锦精密工业(深圳)有限公司 | 视频文件检索系统及检索方法 |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN103440274B (zh) * | 2013-08-07 | 2016-09-28 | 北京航空航天大学 | 一种基于细节描述的视频事件概要图构造和匹配方法 |
CN106462747B (zh) * | 2014-06-17 | 2020-03-17 | 河谷控股Ip有限责任公司 | 活动识别系统和方法 |
CN105279495B (zh) * | 2015-10-23 | 2019-06-04 | 天津大学 | 一种基于深度学习和文本总结的视频描述方法 |
CN106127803A (zh) * | 2016-06-17 | 2016-11-16 | 北京交通大学 | 人体运动捕捉数据行为分割方法及系统 |
CN109783655B (zh) * | 2018-12-07 | 2022-12-30 | 西安电子科技大学 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
-
2019
- 2019-09-29 CN CN201910934892.5A patent/CN110659392B/zh active Active
- 2019-11-13 KR KR1020217011348A patent/KR20210060563A/ko active Search and Examination
- 2019-11-13 JP JP2021521293A patent/JP7181999B2/ja active Active
- 2019-11-13 WO PCT/CN2019/118196 patent/WO2021056750A1/zh active Application Filing
- 2019-11-13 SG SG11202107151TA patent/SG11202107151TA/en unknown
-
2020
- 2020-01-03 TW TW109100236A patent/TWI749441B/zh active
-
2021
- 2021-06-29 US US17/362,803 patent/US20210326383A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008112432A (ja) | 2006-10-06 | 2008-05-15 | Nippon Hoso Kyokai <Nhk> | 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム |
JP2012118756A (ja) | 2010-11-30 | 2012-06-21 | Toshiba Corp | 電子機器、人物相関図出力方法、人物相関図出力システム |
JP2016081265A (ja) | 2014-10-16 | 2016-05-16 | 日本電気株式会社 | 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム |
JP2019008684A (ja) | 2017-06-28 | 2019-01-17 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理システム、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20210060563A (ko) | 2021-05-26 |
CN110659392B (zh) | 2022-05-06 |
TW202113575A (zh) | 2021-04-01 |
TWI749441B (zh) | 2021-12-11 |
US20210326383A1 (en) | 2021-10-21 |
WO2021056750A1 (zh) | 2021-04-01 |
JP2022505320A (ja) | 2022-01-14 |
CN110659392A (zh) | 2020-01-07 |
SG11202107151TA (en) | 2021-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597314B (zh) | 推理问答方法、装置以及设备 | |
WO2020082560A1 (zh) | 文本关键词提取方法、装置、设备及计算机可读存储介质 | |
US20210224601A1 (en) | Video sequence selection method, computer device, and storage medium | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
JP7181999B2 (ja) | 検索方法及び検索装置、記憶媒体 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN111611436A (zh) | 一种标签数据处理方法、装置以及计算机可读存储介质 | |
Dhingra et al. | Linguistic knowledge as memory for recurrent neural networks | |
JP2015162244A (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
CN113704460A (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
KR20200083159A (ko) | 사용자 단말에서의 사진 검색 방법 및 시스템 | |
CN115114395A (zh) | 内容检索及模型训练方法、装置、电子设备和存储介质 | |
CN114386410A (zh) | 预训练模型的训练方法和文本处理方法 | |
Deorukhkar et al. | A detailed review of prevailing image captioning methods using deep learning techniques | |
CN114548274A (zh) | 一种基于多模态交互的谣言检测方法及系统 | |
CN114417823A (zh) | 一种基于句法和图卷积网络的方面级情感分析方法及装置 | |
CN113535949A (zh) | 基于图片和句子的多模态联合事件检测方法 | |
CN113342944A (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN110851629A (zh) | 一种图像检索的方法 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
CN115774797A (zh) | 视频内容检索方法、装置、设备和计算机可读存储介质 | |
CN117521674B (zh) | 对抗信息的生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210416 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210416 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7181999 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |