JP7181999B2 - 検索方法及び検索装置、記憶媒体 - Google Patents

検索方法及び検索装置、記憶媒体 Download PDF

Info

Publication number
JP7181999B2
JP7181999B2 JP2021521293A JP2021521293A JP7181999B2 JP 7181999 B2 JP7181999 B2 JP 7181999B2 JP 2021521293 A JP2021521293 A JP 2021521293A JP 2021521293 A JP2021521293 A JP 2021521293A JP 7181999 B2 JP7181999 B2 JP 7181999B2
Authority
JP
Japan
Prior art keywords
person
video
similarity
text
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021521293A
Other languages
English (en)
Other versions
JP2022505320A (ja
Inventor
熊宇
黄青▲ちう▼
郭凌峰
周航
周博磊
林▲達▼▲華▼
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2022505320A publication Critical patent/JP2022505320A/ja
Application granted granted Critical
Publication of JP7181999B2 publication Critical patent/JP7181999B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本願は、2019年09月29日に提出された、出願番号が201910934892.5号である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、コンピュータビジョン技術分野に関し、具体的には検索方法及び検索装置、記憶媒体に関する。
実生活において、テキスト記述に基づいて、ビデオデータベースからテキスト記述に合致するビデオを検索する機能は、広く求められている。従来の検索方法は一般的には、文字を単語ベクトルに符号化すると同時に、ビデオをビデオ特徴ベクトルに符号化する。
本願は、検索方法の技術的解決手段を提供する。
本願の第1態様によれば、検索方法を提供する。前記検索方法は、テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することと、を含む。
このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも1つのビデオとの間の第1類似度、前記テキストの第1人物インタラクティブグラフと前記少なくとも1つのビデオの第2人物インタラクティブグラフとの間の第2類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオを検索する正確率を向上させることができる。
可能な実現形態において、テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、前記テキストのパラグラフ特徴を決定することと、前記少なくとも1つのビデオのビデオ特徴を決定することと、前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含む。
このように、テキストのパラグラフ特徴及びビデオのビデオ特徴を分析して第1類似度を決定することで、ビデオとテキストとの直接的に合致した類似度を得て、後続で、検索条件に合致するビデオの決定のための参考となる根拠を提供することができる。
可能な実現形態において、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含む。
このように、センテンス特徴及びセンテンスの数をテキストのパラグラフ特徴とし、ショット特徴及びショットの数をビデオのビデオ特徴とすることで、テキスト及びビデオに対して量子化を行い、更に、テキストのパラグラフ特徴及びビデオのビデオ特徴の分析のための根拠を提供することができる。
可能な実現形態において、前記テキストの第1人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含み、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
テキストにおけるセンテンスは一般的には、イベントにおけるシナリオと類似した順番に従う。各テキストはいずれもビデオにおける1つのイベントを記述する。このように、テキストの人物インタラクティブグラフを構築することで、ビデオの叙事構造を捕捉し、後続で、検索条件に合致するビデオを決定するための参考となる根拠を提供する。
可能な実現形態において、前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含む。
このように、テキストの人物インタラクティブグラフをより好適に構築し、更に、ビデオの叙事構造をより好適に捕捉することに寄与する。
可能な実現形態において、前記テキストに含まれる人名を検出することは、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含む。
このように、テキストにおける、非人名で表される人物の見落としを防止し、テキストで記述された全ての人物に対して分析を行い、更に、テキストの人物インタラクティブグラフを決定する正確率を更に向上させることができる。
可能な実現形態において、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、前記少なくとも1つのビデオの各ショットにおける人物を検出することと、前記人物の人体特徴及び動き特徴を抽出することと、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、各人物に対応するキャラクターノードと動作ノードを接続することと、を含む。
このように、人物間の相互作用は、しばしばテキストで記述され、キャラクター間のインタラクションは、ビデオストーリーにおいて重要な役割を演じている。この観点に基づいて、本願は、グラフで表される人物インタラクティブグラフに基づいて、ビデオの人物インタラクティブグラフとテキストの人物インタラクティブグラフとの類似度を決定することで、後続で、検索条件に合致するビデオを決定するための参考となる根拠を提供する。
可能な実現形態において、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを更に含む。
このように、ビデオの人物インタラクティブグラフをより好適に構築し、更に、ビデオの叙事構造をより好適に捕捉することに寄与する。
可能な実現形態において、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含む。
このように、ビデオの人物インタラクティブグラフをより好適に構築し、更に、ビデオの叙事構造をより好適に捕捉することに寄与する。
可能な実現形態において、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することは、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含む。
このように、第1類似度及び第2類似度により、検索条件に合致するビデオを決定することで、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。
可能な実現形態において、前記検索方法は、検索ネットワークにより実現し、前記検索方法は、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を更に含む。
このように、検索ネットワークにより検索を実現することで、テキスト記述に合致するビデオを迅速に検索することに寄与する。
可能な実現形態において、前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを含む。
このように、異なるサブネットワークにより、異なる類似度をそれぞれ決定することで、検索条件に関わる第1類似度及び第2類似度を迅速に得ることに寄与し、更に、検索条件に合致するビデオを迅速に検索することができる。
本願の第2態様によれば、検索装置を提供する。前記検索装置は、テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成される第1決定モジュールであって、前記テキストは、検索条件を表すためのものである、第1決定モジュールと、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定するように構成される第2決定モジュールと、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュールと、を備える。
可能な実現形態において、前記第1決定モジュールは、前記テキストのパラグラフ特徴を決定し、前記少なくとも1つのビデオのビデオ特徴を決定し、前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定するように構成される。
可能な実現形態において、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含む。
可能な実現形態において、前記第2決定モジュールは、前記テキストに含まれる人名を検出し、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
可能な実現形態において、前記第2決定モジュールは更に、同一の動作ノードに接続されるキャラクターノードを相互接続するように構成される。
可能な実現形態において、前記第2決定モジュールは、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成される。
可能な実現形態において、前記第2決定モジュールは、前記少なくとも1つのビデオの各ショットにおける人物を検出し、前記人物の人体特徴及び動き特徴を抽出し、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、各人物に対応するキャラクターノードと動作ノードを接続するように構成される。
可能な実現形態において、前記第2決定モジュールは更に、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続するように構成される。
可能な実現形態において、前記第2決定モジュールは更に、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成される。
可能な実現形態において、前記処理モジュールは、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得て、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成される。
可能な実現形態において、前記検索装置は、検索ネットワークにより実現し、前記検索装置は、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定し、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定し、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定し、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュールを更に備える。
可能な実現形態において、前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、前記訓練モジュールは、前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整するように構成される。
本願の第3態様によれば、検索装置を提供する。前記検索装置は、メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行して、本願の実施例に記載の検索方法のステップを実行するように構成される。
本願の第4態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されるときに、前記プロセッサに、本願の実施例に記載の検索方法のステップを実行させる。
本願の第5態様によれば、コンピュータ可読プログラムを提供する。該コンピュータ可読プログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器におけるプロセッサに、本願の実施例に記載の検索方法を実行させる。
例えば、本願は以下の項目を提供する。
(項目1)
テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、
前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することと、を含む、検索方法。
(項目2)
前記テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、
前記テキストのパラグラフ特徴を決定することと、
前記少なくとも1つのビデオのビデオ特徴を決定することと、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含むことを特徴とする
項目1に記載の検索方法。
(項目3)
前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含むことを特徴とする
項目2に記載の検索方法。
(項目4)
前記テキストの第1人物インタラクティブグラフを決定することは、
前記テキストに含まれる人名を検出することと、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、
各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含み、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表されることを特徴とする
項目1から3のうちいずれか一項に記載の検索方法。
(項目5)
前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含むことを特徴とする
項目4に記載の検索方法。
(項目6)
前記テキストに含まれる人名を検出することは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含むことを特徴とする
項目4又は5に記載の検索方法。
(項目7)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴及び動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと、を含むことを特徴とする
項目1から6のうちいずれか一項に記載の検索方法。
(項目8)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを更に含むことを特徴とする
項目7に記載の検索方法。
(項目9)
前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含むことを特徴とする
項目7又は8に記載の検索方法。
(項目10)
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することは、
各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、
類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含むことを特徴とする
項目1から9のうちいずれか一項に記載の検索方法。
(項目11)
前記検索方法は、検索ネットワークにより実現し、前記検索方法は、
テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、
前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、
前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、
前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を更に含むことを特徴とする
項目1から10のうちいずれか一項に記載の検索方法。
(項目12)
前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを含むことを特徴とする
項目11に記載の検索方法。
(項目13)
テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成される第1決定モジュールであって、前記テキストは、検索条件を表すためのものである、第1決定モジュールと、
前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定するように構成される第2決定モジュールと、
前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュールと、を備える、検索装置。
(項目14)
前記第1決定モジュールは、
前記テキストのパラグラフ特徴を決定し、
前記少なくとも1つのビデオのビデオ特徴を決定し、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定するように構成されることを特徴とする
項目13に記載の検索装置。
(項目15)
前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含むことを特徴とする
項目14に記載の検索装置。
(項目16)
前記第2決定モジュールは、
前記テキストに含まれる人名を検出し、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、
各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表されることを特徴とする
項目13から15のうちいずれか一項に記載の検索装置。
(項目17)
前記第2決定モジュールは更に、
同一の動作ノードに接続されるキャラクターノードを相互接続するように構成されることを特徴とする
項目16に記載の検索装置。
(項目18)
前記第2決定モジュールは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成されることを特徴とする
項目16又は17に記載の検索装置。
(項目19)
前記第2決定モジュールは、
前記少なくとも1つのビデオの各ショットにおける人物を検出し、
前記人物の人体特徴及び動き特徴を抽出し、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、
各人物に対応するキャラクターノードと動作ノードを接続するように構成されることを特徴とする
項目13から18のうちいずれか一項に記載の検索装置。
(項目20)
前記第2決定モジュールは更に、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続するように構成されることを特徴とする
項目19に記載の検索装置。
(項目21)
前記第2決定モジュールは更に、
1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成されることを特徴とする
項目19又は20に記載の検索装置。
(項目22)
前記処理モジュールは、
各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得て、
類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成されることを特徴とする
項目13から21のうちいずれか一項に記載の検索装置。
(項目23)
前記検索装置は、検索ネットワークにより実現され、
テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、
前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定し、
前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定し、
前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定し、
前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュールを更に備えることを特徴とする
項目13から22のうちいずれか一項に記載の検索装置。
(項目24)
前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、
前記訓練モジュールは、
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整するように構成されることを特徴とする
項目23に記載の検索装置。
(項目25)
メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行して、項目1から12のうちいずれか一項に記載の検索方法を実行するように構成される、検索装置。
(項目26)
プロセッサにより実行されるときに、前記プロセッサに、項目1から12のうちいずれか一項に記載の検索方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
(項目27)
電子機器で実行されるときに、前記電子機器におけるプロセッサに、項目1から12のうちいずれか一項に記載の検索方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。
本願で提供される技術的解決手段において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定し、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも1つのビデオとの間の第1類似度、前記テキストの第1人物インタラクティブグラフと前記少なくとも1つのビデオの第2人物インタラクティブグラフとの間の第2類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオの検索の正確率を向上させることができる。
一例示的な実施例による検索方法の概説フレームワークを示す概略図である。 一例示的な実施例による検索方法の実現フローを示す概略図である。 一例示的な実施例による検索装置の構造を示す概略図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
ここで、例示的な実施例を詳しく説明し、その例を図面に示す。以下の記述が図面に係る場合、別途にて示さない限り、異なる図面における同じ数字は、同じまたは類似する要素を示す。以下の例示的な実施例において記述する実施形態は、本願の実施例に合致するすべての実施形態を代表するものではない。一方、それらは、添付された特許請求の範囲に詳細に記載されたような、本願の実施例の一部の形態に合致する装置及び方法の例に過ぎない。
本願の実施例において使用される用語は、特定の実施例を説明することだけを目的としており、そして本願の実施例を限定することは意図されていない。本願の実施例及び添付の特許請求の範囲で使用されるとき、単数形の「1つの」、「前記」及び「該」は、文脈が明らかに違うように示さない限り、複数形も含む意図である。本明細書中で使用される「及び/又は」という用語は、列挙された1つ以上の関連する対象物の任意の又は全ての可能的な組み合わせを参照かつ包含することも理解されるべきである。
本願の実施例では、用語である第1、第2、第3などを用いて各種情報を記述する可能性があるが、これらの情報はこれらの用語に限定されないことが理解されるべきである。これらの用語は、同一種類の情報をお互いに区別するためだけに用いられる。例えば、本願の実施例の範囲を逸脱しない限り、第1情報は第2情報と称されてもよく、同様に、第2情報は第1情報と称されてもよい。文脈によっては、ここで使用される語句「とすれば」及び「すると」は、「…場合」、「…時」又は「と決定されるのに応答して」と解釈される。
以下、図面及び具体的な実施例を参照しながら、本願の検索方法を詳しく説明する。
図1は、一例示的な実施例による検索方法の概説フレームワークを示す概略図である。該フレームワークは、ビデオとテキストとのマッチングに用いられる。例えば、映画セグメントとシナリオセグメントとのマッチングに用いられる。該フレームワークは、イベントフローモジュール(EFM:Event Flow Module)及び人物インタラクションモジュール(CIM:Character Interaction Module)という2つのモジュールを備え、イベントフローモジュールは、イベントフローのイベント構造を探索し、パラグラフ特徴及びビデオ特徴を入力として、ビデオとパラグラフとの直接的な類似度を出力するように構成され、人物インタラクションモジュールは、人物インタラクションを利用して、パラグラフにおける人物インタラクティブグラフ及びビデオにおける人物インタラクティブグラフをそれぞれ構築し、更に、グラフマッチングアルゴリズムを用いて、2つのグラフの類似度を評価するように構成される。
1つの検索テキストP及び1つの候補ビデオQが与えられた。上記2つのモジュールは、それぞれ、PとQとの類似度スコアを生成し、それぞれ、
Figure 0007181999000001
で表す。続いて、合計マッチングスコア
Figure 0007181999000002
をそれらの和と定義する。
Figure 0007181999000003
具体的に
Figure 0007181999000004
を如何に解くかは、下記で詳しく説明される。
勿論、他の実施例において、合計マッチングスコアは、上記2つのモジュールで得られたスコアに対して加重加算などを行うことで得られた演算結果であってもよい。
本願の実施例は、検索方法を提供する。該検索方法は、端末機器、サーバ又は他の電子機器に適用可能である。ここで、端末機器は、ユーザ機器(UE:User Equipment)、携帯機器、セルラー電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。幾つかの可能な実現形態において、該処理方法は、プロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現してもよい。図2に示すように、前記検索方法は主に以下を含む。
ステップS101において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものである。
ここで、前記テキストは、検索条件を表すための文字記述である。本願の実施例は、テキストの取得方式を限定しない。例えば、電子機器は、ユーザにより入力領域で入力された文字記述を受信することができ、又は、ユーザの音声入力を受信し、続いて、音声データを文字記述に変換することができる。
ここで、前記検索条件は、人名及び動作を表す少なくとも1つの動詞を含む。例えば、ジャックは、彼自身を一発なぐった。
ここで、前記少なくとも1つのビデオは、検索に供するローカル又は第3者ビデオデータベースに位置する。
ここで、前記第1類似度は、ビデオとテキストとの直接的なマッチング程度を表す類似度である。
一例において、電子機器は、テキストのパラグラフ特徴及びビデオのビデオ特徴をイベントフローモジュールに入力し、イベントフローモジュールにより、ビデオとテキストとの類似度である第1類似度を出力する。
幾つかの選択可能な実現形態において、テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、
前記テキストのパラグラフ特徴を決定することであって、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含む、ことと、
前記少なくとも1つのビデオのビデオ特徴を決定することであって、前記ビデオ特徴は、ショット特徴及びショットの数を含む、ことと、
前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含む。
幾つかの例において、テキストのパラグラフ特徴を決定することは、第1ニューラルネットワークを利用してテキストを処理し、テキストのパラグラフ特徴を得ることであって、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含む、ことを含む。例えば、各単語は、1つの300次元のベクトルに対応する。センテンスにおける各単語の特徴を加算することで、センテンスの特徴を得る。センテンスの数は、テキストにおける句点である。入力されたテキストに対して句点でセンテンスを分割し、センテンスの数を得る。
幾つかの例において、ビデオのビデオ特徴を決定することは、第2ニューラルネットワークを利用してビデオを処理することを含む。具体的には、まず、ビデオをピクチャストリームに復号し、続いて、ピクチャストリームに基づいてビデオ特徴を得る。前記ビデオ特徴は、ショット特徴及びショットの数を含む。例えば、ショット特徴は、ショットの3枚のキーフレームのピクチャをニューラルネットワークにより処理することで得られた3つの2348次元のベクトルの平均値である。1つのショットは、ビデオにおける同一のカメラが同一の位置で撮った連続画面である。画面が切り替わると、もう1つのショットになる。従来のショットセグメンテーションアルゴリズムで、ショットの数を得る。
このように、テキストのパラグラフ特徴及びビデオのビデオ特徴を分析して第1類似度を決定することで、後続で、検索条件に合致するビデオの決定のための参考となる根拠を提供する。文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行い、テキスト記述に基づいて、ビデオを検索する正確率を向上させることができる。
上記技術的解決手段において、任意選択的に、前記第1類似度の演算式は、以下のとおりである。
Figure 0007181999000005
ここで、1つのパラグラフ特徴は、M個のセンテンス特徴からなり、センテンス特徴を
Figure 0007181999000006
とすると、パラグラフ特徴は、
Figure 0007181999000007
で表される。1つのビデオ特徴は、N個のショット特徴からなり、ショット特徴を
Figure 0007181999000008
とすると、ビデオ特徴は、
Figure 0007181999000009
で表される。ブール割り当て行列
Figure 0007181999000010
は、各ショットを各センテンスに割り当てるために用いられる。ここで、
Figure 0007181999000011
は、i番目のショットがj番目のセンテンスに割り当てられることを示し、
Figure 0007181999000012
は、i番目のショットがj番目のセンテンスに割り当てられていないことを示す。
上記技術的解決手段において、任意選択的に、前記第1類似度の演算式の制約条件は、
各ショットが最大1つのセンテンスに割り当てられることと、
上位の番号のショットが割り当てられたセンテンスは、下位の番号のショットが割り当てられたセンテンスよりも前方に位置する。
従って、第1類似度の算出を下記式(3)の最適化ターゲットの解きに変換することができる。最適化ターゲットと制約条件を合わせることで、下記最適化式を得ることができる。
Figure 0007181999000013
Figure 0007181999000014
Figure 0007181999000015
ここで、式(3)は、最適化ターゲットである。s.t.は、such thatの略語であり、式(3)の制約条件を表す式(4)及び(5)を引き出す。
Figure 0007181999000016
は、Yのi行目のベクトルを表し、
Figure 0007181999000017
は、1つのブールベクトルの1番目の非ゼロ値の番号を表す。式(4)において、Yは、1つの行列であり、1は、1つのベクトル(全ての要素はいずれも1であるベクトル)であり、Y1は、行列Yとベクトル1との積である。
更に、従来のダイナミックプログラミングアルゴリズムにより、該最適化課題の解を得ることができる。具体的には、ダイナミックプログラミングアルゴリズムに関連するアルゴリズムにより、最適なYを解き、
Figure 0007181999000018
の値を得ることができる。
他の実施例において、パラグラフ特徴及びビデオ特徴に対して、他のタイプの演算を行うこともできる。例えば、複数のパラグラフ特徴及び対応する複数のビデオ特徴に対して加重又は比例演算などを行い、前記第1類似度を得る。
ステップS102において、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定する。
ここで、人物インタラクティブグラフは、人物間のキャラクター関係及び動作関係を表すためのグラフであり、キャラクターノード及び動作ノードを含む。
幾つかの選択可能な実現形態において、1つのテキストは、1つの第1人物インタラクティブグラフに対応し、1つのビデオは、1つの第2人物インタラクティブグラフに対応する。
幾つかの選択可能な実現形態において、前記テキストの第1人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含む。
ここで、データベースは、大量の人名とポートレートとの対応関係が事前記憶されたライブラリである。前記ポートレートは、該人名に対応する人物のポートレートである。ポートレートデータは、ネットワークからクローリングされてもよい。例えば、imdbウェブサイト及びtmdbウェブサイトから、ポートレートデータをクローリングすることができる。ここで、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
幾つかの実施例において、前記テキストのセマンティックツリーを解析により決定することは、依存構文アルゴリズムにより、テキストのセマンティックツリーを解析により決定することを含む。例えば、依存構文アルゴリズムを利用して、各センテンスを一つ一つの単語に分け、続いて、言語学の幾つかのルールに基づいて、単語をノードとして、セマンティックツリーを構築する。
まず、各センテンスから1つのグラフを得る。続いて、各パラグラフに複数のセンテンスがあるため、複数のグラフがある。しかしながら、数学的に、我々は、該複数のグラフを1つのグラフ(1つの非接続グラフ)と見做すことができる。つまり、数学的に、グラフの定義において、各ノードからもう1つのノードへの経路が全て存在するとは限らず、複数の小さなグラフに分割可能なグラフであってもよい。
ここで、複数の人名が同一の動作ノードを示すと、前記複数の人名の動作ノードを辺で2つずつ接続する。
ここで、辺で接続される2つのノード特徴をスプライシングして辺の特徴とする。
例示的に、辺で接続される2つのノード特徴をそれぞれ2つのベクトルで表してもよい。該2つのベクトルをスプライシング(例えば、次元加算)することで、辺の特徴を得る。例えば、1つの3次元のベクトルともう1つの4次元のベクトルを直接的にスプライシングすることで、7次元のベクトルを得る。例を挙げると、[1,3,4]と[2,5,3,6]をスプライシングする場合、スプライシング結果は、[1,3,4,2,5,3,6]である。
幾つかの例において、Word2Vec単語ベクトルニューラルネットワークにより処理された特徴を用いて、動作ノードを表すことができる。つまり、人物の動き特徴とする。
幾つかの例において、テキストに含まれる人名を検出する時、テキストにおける代名詞を、前記代名詞で表される人名に置き換える。具体的には、人名検出ツール(例えば、スタンフォード人名検出ツールキット)により、全ての人名(例えば「ジャック」)を検出する。続いて、共参照解析ツールにより、代名詞を、該代名詞で表される人名に置き換える(例えば、「ジャックは、彼自身を一発なぐった」における「彼」を「ジャック」として抽出する)。
幾つかの実施例において、人名に基づいて、データベースから、前記人名に対応する人物のポートレートを検索し、ニューラルネットワークにより、前記ポートレートの画像特徴を抽出する。ここで、前記画像特徴は、顔及び体特徴を含む。ニューラルネットワークにより、前記テキストにおける各センテンスのセマンティックツリー及び前記セマンティックツリーにおける、例えば、名詞、代名詞、動詞などのような、各単語の品詞を決定する。前記セマンティックツリーにおける各ノードは、前記センテンスにおける1つの単語である。センテンスにおける動詞を人物の動き特徴とする。つまり、動作ノードとする。名詞又は代名詞に対応する人名を人物のキャラクターノードとする。人物のポートレートの画像特徴を人物のキャラクターノードに付加する。前記セマンティックツリー及び前記人名に基づいて、各前記人名に対応するキャラクターノードと前記人名の動作ノードを接続する。複数の人名は同一の動作ノードを示すと、前記複数の人名を辺で2つずつ接続する。
幾つかの選択可能な実現形態において、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴及び動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと、を含む。
ここで、1つのショットは、ビデオにおける同一のカメラが同一の位置で撮った連続画面である。画面が切り替わると、もう1つのショットになる。従来のショットセグメンテーションアルゴリズムで、ショットの数を得る。
ここで、前記人体特徴は、人物の顔及び体特徴である。ショットに対応する画像を訓練されたモデルにより処理することで、画像における人物の人体特徴を得ることができる。
ここで、前記動き特徴は、ショットに対応する画像を訓練されたモデルに入力することで得られた画像における人物の動き特徴である。例えば、認識により得られた人物の、現在画像における動作(例えば水を飲む)である。
更に、前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定する時、1組の人物が同時に1つのショットに現れると、同一組の人物における人物のキャラクターノードを2つずつ接続することと、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することと、を更に含む。
ここで、前記隣接ショットは、現在ショットの前の1つのショット及び後の1つのショットである。
ここで、複数のキャラクターノードが同一の動作ノードを示すと、前記複数のキャラクターノードの動作ノードを辺で2つずつ接続する。
ここで、辺で接続される2つのノード特徴をスプライシングして辺の特徴とする。
上記辺特徴の決定プロセスは、第1人物インタラクティブグラフにおける辺特徴の決定方法を参照することができ、ここで、詳細な説明を省略する。
ステップS103において、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定する。
ここで、前記第2類似度は、第1人物インタラクティブグラフと第2人物インタラクティブグラフという2つのグラフに対してマッチング演算を行うことで得られた類似度である。
一例において、電子機器は、テキスト及びビデオを人物インタラクションモジュールに入力し、人物インタラクションモジュールにより、テキストにおける第1人物インタラクティブグラフ及びビデオにおける第2人物インタラクティブグラフを構築し、更に、グラフマッチングアルゴリズムにより、2つのグラフ間の類似度を評価し、該類似度である第2類似度を出力する。
幾つかの選択可能な実施形態において、前記第2類似度の演算式は、以下のとおりである。
Figure 0007181999000019
ここで、uは、二値ベクトル(ブールベクトル)を表し、
Figure 0007181999000020
は、Vにおけるi番目のノードとVにおけるa番目のノードがマッチングできることを表し、
Figure 0007181999000021
は、Vにおけるi番目のノードとVにおけるa番目のノードがマッチングできないことを表す。同様に、
Figure 0007181999000022
は、Vにおけるj番目のノードとVにおけるb番目のノードがマッチングできることを表し、
Figure 0007181999000023
は、Vにおけるj番目のノードとVにおけるb番目のノードがマッチングできないことを表す。i,a,j,bはいずれもインデックスシンボルである。
Figure 0007181999000024
は、Vにおけるi番目のノードとVにおけるa番目のノードとの類似度を表し、
Figure 0007181999000025
は、Eにおける辺(i,j)とEにおける辺(a,b)との類似度を表す。
テキストにおける第1人物インタラクティブグラフを
Figure 0007181999000026
とする。ここで、
Figure 0007181999000027
は、ノードの集合であり、Eは、辺の集合である。
Figure 0007181999000028
は、2種のノードからなる。
Figure 0007181999000029
は、第1人物インタラクティブグラフにおける動作ノードであり、
Figure 0007181999000030
は、第1人物インタラクティブグラフにおけるキャラクターノードである。
ビデオにおける第2人物インタラクティブグラフを
Figure 0007181999000031
とする。ここで、Vは、ノードの集合であり、Eは、辺の集合である。Vは、2種のノードからなる。
Figure 0007181999000032
は、第2人物インタラクティブグラフにおける動作ノードであり、
Figure 0007181999000033
は、第1人物インタラクティブグラフにおけるキャラクターノードである。
Figure 0007181999000034
において、mは、動作ノードの数であり、mは、キャラクターノードの数である。
Figure 0007181999000035
において、nは、動作ノードの数であり、nは、キャラクターノードの数である。
ブールベクトル
Figure 0007181999000036
を与える。
Figure 0007181999000037
であると、
Figure 0007181999000038
とマッチングされたことを表す。類似度行列は、
Figure 0007181999000039
である。類似度行列
Figure 0007181999000040
対角線要素は、ノードの類似度
Figure 0007181999000041
である。Vにおけるi番目のノードとVにおけるa番目のノードとの類似度を評価する。
Figure 0007181999000042
により、辺
Figure 0007181999000043
との類似度を評価する。類似度は、ノード又は辺に対応する特徴をドット積処理することで得られる。
幾つかの選択可能な実施形態において、前記第2類似度の演算式の制約条件は、
1つのノードがもう1つの集合における最大1つのノードのみにマッチング可能であることと、
異なるタイプのノードをマッチングできないことと、を含む。
つまり、マッチングは、一対一型マッチングでなければならない。1つのノードは、もう1つの集合における最大1つのノードのみにマッチング可能である。異なるタイプのノードをマッチングできない。例えば、キャラクターノードは、もう1つの集合の動作ノードにマッチングできない。
従って、上記第2類似度の算出を下記最適化式(7)の解きに変換することができる。最終的な最適化式と上記制約条件を合わせることで、以下を得ることができる。
Figure 0007181999000044
最適化式を解く過程において、uを得る。uを式(7)に代入することで、類似度を得ることができる。
他の実施例において、マッチングしたノード特徴及び動作特徴に対して加重平均などの演算を行うという他の演算方式で、前記第2類似度を得ることもできる。
ステップS104において、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定する。
幾つかの選択可能な実施形態において、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することは、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含む。
幾つかの実施例において、重みは、データベースにおける検証集合により決定される。検証集合において、重み調整により、最終的な検索結果フィードバックに基づいて、一組の最適な重みを得ることができ、更に、試験集合又は実際の検索に直接的に用いることができる。
このように、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行い、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定し、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。
勿論、他の実施例において、第1類似度と第2類似度を直接的に加算して、各ビデオに対応する類似度を得ることもできる。
上記技術的解決手段において、前記検索方法は、検索ネットワークにより実現し、該検索ネットワークの訓練方法は、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を含む。
本願の実施例において、前記検索ネットワークに対応する検索フレームワークに、異なる構成モジュールがある。各モジュールにおいて、異なるタイプのニューラルネットワークを用いることができる。前記検索フレームワークは、イベントフローモジュールと人物関係モジュールで構成されるフレームワークである。
幾つかの選択可能な実施形態において、前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成される。
具体的には、テキスト及びビデオを第1サブネットワークに入力し、該第1サブネットワークは、テキストとビデオとの間の第1類似度予測値を出力する。テキスト及びビデオを第2サブネットワークに入力し、該第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの第2類似度予測を出力する。アノテーションされた真値に基づいて、テキストとビデオとの間の第1類似度の真値、及び前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度真値を得ることができる。第1類似度予測値と第1類似度の真値との差に基づいて、第1類似度の損失を得ることができる。第2類似度予測値と第2類似度の真値との差に基づいて、第2類似度の損失を得ることができる。第1類似度の損失及び第2類似度の損失に基づいて、損失関数を用いて第1サブネットワーク及び第2サブネットワークのネットワークパラメータを調整する。
一例において、データ集合を構築する。該データ集合は、328個の映画の概要、及び概要パラグラフと映画セグメントとの注釈の関連付けを含む。具体的には、該データ集合は、各映画のために高品質な詳細概要を提供するだけでなく、手動注釈により、各パラグラフと映画セグメントとを関連付ける。ここで、各映画セグメントは、各分間まで持続して完全なイベントを捕捉することができる。このような映画セグメント及び関連概要パラグラフにより、人々は、より大きな範囲及びより高いセマンティックレベルで分析を行うことができる。該データ集合を基に、本願は、イベントフローモジュール及び人物インタラクションモジュールを含むフレームワークを利用して、映画セグメントと概要パラグラフとのマッチングを実行する。従来の、特徴に基づいたマッチング方法に比べて、該フレームワークは、マッチング精度を著しく向上させると同時に、映画に対する理解における叙事構造及び人物インタラクションの重要性を開示する。
幾つかの選択可能な実施形態において、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを含む。
幾つかの選択可能な実施形態において、前記損失関数は、以下で表される。
Figure 0007181999000045
ここで、
Figure 0007181999000046
は、イベントフローモジュールに埋め込まれたネットワークのモデルパラメータを表し、
Figure 0007181999000047
は、人物インタラクションモジュールに埋め込まれたネットワークのモデルパラメータを表す。
ここで、Yは、イベントフローモジュールにより定義された二値行列であり、uは、人物インタラクションモジュールの二値ベクトルであり、式(12)は、最小化関数
Figure 0007181999000048
によりネットワークのパラメータを調整することを表し、例えば、下記式(13)に示すように、新たなネットワークパラメータ
Figure 0007181999000049
を得る。
Figure 0007181999000050
ここで、
Figure 0007181999000051
は、以下で表される。
Figure 0007181999000052
ここで、
Figure 0007181999000053
は、式(3)の値を最大にするYであり、最適解とも呼ばれる。
ここで、
Figure 0007181999000054
は、式(7)の値を最大にするuである。
ここで、
Figure 0007181999000055
は、i番目のビデオ
Figure 0007181999000056
とj番目のパラグラフ
Figure 0007181999000057
との類似度を表し、
Figure 0007181999000058
は、i番目のビデオ
Figure 0007181999000059
とi番目のパラグラフ
Figure 0007181999000060
との類似度を表し、
Figure 0007181999000061
は、j番目のビデオ
Figure 0007181999000062
とi番目のパラグラフ
Figure 0007181999000063
との類似度を表す。aは、損失関数のパラメータであり、最小類似度差分値を表す。
本願に記載の技術的解決手段は、種々の検索タスクに適用可能である。検索シーンを限定しない。例えば、検索シーンは、映画セグメント検索シーン、ドラマセグメント検索シーン、ショートビデオ検索シーンなどを含む。
本願で提供される技術的解決手段において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定し、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも1つのビデオとの間の第1類似度、前記テキストの第1人物インタラクティブグラフと前記少なくとも1つのビデオの第2人物インタラクティブグラフとの間の第2類似度を決定することで、従来の、特徴に基づく検索アルゴリズムにおける、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことが行われていないという問題を解決する。イベントフローマッチング方法及び人物インタラクションマッチング方法を用いてビデオ検索を行い、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。
上記検索方法に対応して、本願の実施例は、検索装置を提供する。図3に示すように、前記検索装置は、テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成される第1決定モジュール10であって、前記テキストは、検索条件を表すためのものである、第1決定モジュール10と、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定するように構成される第2決定モジュール20と、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュール30と、を備える。
幾つかの実施例において、前記第1決定モジュール10は、前記テキストのパラグラフ特徴を決定し、前記少なくとも1つのビデオのビデオ特徴を決定し、前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定するように構成される。
幾つかの実施例において、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含む。
幾つかの実施例において、前記第2決定モジュール20は、前記テキストに含まれる人名を検出し、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
幾つかの実施例において、前記第2決定モジュール20は更に、同一の動作ノードに接続されるキャラクターノードを相互接続するように構成される。
幾つかの実施例において、前記第2決定モジュール20は、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成される。
幾つかの実施例において、前記第2決定モジュール20は、前記少なくとも1つのビデオの各ショットにおける人物を検出し、前記人物の人体特徴及び動き特徴を抽出し、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、各人物に対応するキャラクターノードと動作ノードを接続するように構成される。
幾つかの実施例において、前記第2決定モジュール20は更に、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続するように構成される。
幾つかの実施例において、前記第2決定モジュール20は更に、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成される。
幾つかの実施例において、前記処理モジュール30は、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得て、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成される。
幾つかの実施例において、前記検索装置は、検索ネットワークにより実現し、前記検索装置は、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定し、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定し、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定し、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュール40を更に備える。
幾つかの実施例において、前記検索ネットワークは、第1サブネットワーク及び第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成され、前記第2サブネットワークは、テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成され、前記訓練モジュール40は、前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整するように構成される。
図3に示す検索装置における各処理モジュールの実現機能を、前記検索方法の関連記述を参照しながら理解することができることは、当業者であれば理解すべきである。図3に示す検索装置における各処理ユニットの機能は、プロセッサで実行されるプログラムにより実現してもよく、具体的なロジック回路により実現してもよいことは、当業者であれば理解すべきである。
実際の適用において、上記第1決定モジュール10、第2決定モジュール20、処理モジュール30及び訓練モジュール40の具体的な構造は、いずれもプロセッサに対応してもよい。前記プロセッサの具体的な構造は、中央演算処理装置(CPU:Central Processing Unit)、マイクロプロセッサ(MCU:Micro Controller Unit)、デジタル信号プロセッサ(DSP:Digital Signal Processing)又はプログラマブルロジックコントローラ(PLC:Programmable Logic Controller)等のような、処理機能を有する電子デバイス又は電子デバイスの集合であってもよい。ここで、前記プロセッサは、実行可能なコードを含む。前記実行可能なコードは、記憶媒体に記憶される。前記プロセッサは、バスなどの通信インタフェースを介して前記記憶媒体に接続される。具体的な各ユニットに対応する機能を実行する時、前記記憶媒体から、前記実行可能なコードを読み出して実行する。前記記憶媒体における、前記実行可能なコードを記憶するための部分は、好ましくは、非一時的記憶媒体である。
本願の実施例で提供される検索装置は、テキストに基づいてビデオを検索する正確率を向上させることができる。
本願の実施例は、検索装置を更に記載する。前記検索装置は、メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行する時、前記いずれか1つの技術的解決手段により提供される検索方法を実現させる。
一実施形態として、前記プロセッサが前記プログラムを実行する時、テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定することと、を実現させる。
一実施形態として、前記プロセッサが前記プログラムを実行する時、以下を実現させる。テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、前記テキストのパラグラフ特徴を決定することと、前記少なくとも1つのビデオのビデオ特徴を決定することと、前記テキストのパラグラフ特徴及び前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定することと、を含む。
一実施形態として、前記プロセッサが前記プログラムを実行する時、前記テキストの第1人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を実現させ、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。
一実施形態として、前記プロセッサが前記プログラムを実行する時、同一の動作ノードに接続されるキャラクターノードを相互接続することを実現させる。
一実施形態として、前記プロセッサが前記プログラムを実行する時、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを実現させる。
一実施形態として、前記プロセッサが前記プログラムを実行する時、前記少なくとも1つのビデオの各ショットにおける人物を検出することと、前記人物の人体特徴及び動き特徴を抽出することと、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、各人物に対応するキャラクターノードと動作ノードを接続することと、を実現させる。
一実施形態として、前記プロセッサが前記プログラムを実行する時、1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを実現させる。
一実施形態として、前記プロセッサが前記プログラムを実行する時、1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを実現させる。
一実施形態として、前記プロセッサが前記プログラムを実行する時、各ビデオの前記第1類似度及び第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を実現させる。
一実施形態として、前記プロセッサが前記プログラムを実行する時、テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、前記第1類似度予測値と前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、前記第2類似度予測値と前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、前記第1類似度の損失及び前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、前記合計損失値に基づいて、前記第1サブネットワーク及び前記第2サブネットワークの重みパラメータを調整することを実現させる。
本願の実施例で提供される検索装置は、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。
本願の実施例は、コンピュータ可読記憶媒体を更に記載する。前記コンピュータ記憶媒体に、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令は、前記各実施例に記載の検索方法を実行するために用いられる。つまり、前記コンピュータによる実行可能な命令がプロセッサにより実行された後、前記いずれか1つの技術的解決手段で提供される検索方法を実現させることができる。該コンピュータ記憶媒体は、揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。
本願の実施例は、コンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で実行されるときに、機器におけるプロセッサは、上記いずれか1つの実施例で提供される検索方法を実行する。
上記コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア又はその組み合わせにより実現してもよい。1つの選択可能な実施例において、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現化され、もう1つの選択可能な実施例において、コンピュータプログラム製品は、具体的には、例えば、ソフトウェア開発キット(Software Development Kit:SDK)等のようなソフトウェア製品として具現化されてもよい。
本実施例のコンピュータ記憶媒体における各プログラムの機能を、前記各実施例に記載の検索方法の関連記述を参照しながら理解できることは、当業者であれば理解すべきである。
本願で提供される幾つかの実施例において、開示される機器及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した機器の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、機器又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した上記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとを組み合わせて実現してもよい。
上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ可読記憶媒体に記憶され、該プログラムが実行されるときに、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ(ROM:Read-only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者であれば理解すべきである。
又は、本願の上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータ可読記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器(パーソナルコンピュータ、サーバ又はネットワーク機器など)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶装置、ROM、RAM、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
以上は本発明の具体的な実施形態に過ぎず、本願の保護範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本願の保護範囲内に含まれるべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。
本願の実施例で提供される技術的解決手段において、テキストと少なくとも1つのビデオとの間の第1類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第1人物インタラクティブグラフ及び前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定し、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定し、前記第1類似度及び前記第2類似度に基づいて、前記少なくとも1つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも1つのビデオとの間の第1類似度、前記テキストの第1人物インタラクティブグラフと前記少なくとも1つのビデオの第2人物インタラクティブグラフとの間の第2類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオの検索の正確率を向上させることができる。

Claims (15)

  1. 電子機器によって実行される検索方法であって、
    テキストと少なくとも1つのビデオとの間の第1類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
    前記テキストの第1人物インタラクティブグラフおよび前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、
    前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することと、
    各ビデオの前記第1類似度および前記第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、
    記少なくとも1つのビデオから、類似度値が最も高いビデオを前記検索条件に合致するビデオとして決定すること
    を含む、検索方法。
  2. 前記テキストと少なくとも1つのビデオとの間の第1類似度を決定することは、
    前記テキストのパラグラフ特徴を決定することと、
    前記少なくとも1つのビデオのビデオ特徴を決定することと、
    前記テキストのパラグラフ特徴および前記少なくとも1つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも1つのビデオとの間の第1類似度を決定すること
    を含む請求項1に記載の検索方法。
  3. 前記パラグラフ特徴は、センテンス特徴およびセンテンスの数を含み、前記ビデオ特徴は、ショット特徴およびショットの数を含む請求項2に記載の検索方法。
  4. 前記テキストの第1人物インタラクティブグラフを決定することは、
    前記テキストに含まれる人名を検出することと、
    データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、
    前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、
    各前記人物に対応するキャラクターノードと動作ノードを接続すること
    を含み、
    前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される請求項13のうちいずれか一項に記載の検索方法。
  5. 前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含む請求項4に記載の検索方法。
  6. 前記テキストに含まれる人名を検出することは、
    前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含む請求項4または請求項5に記載の検索方法。
  7. 前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
    前記少なくとも1つのビデオの各ショットにおける人物を検出することと、
    前記人物の人体特徴および動き特徴を抽出することと、
    前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
    各人物に対応するキャラクターノードと動作ノードを接続すること
    を含む請求項16のうちいずれか一項に記載の検索方法。
  8. 前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは
    1つのショットに同時に現れた1組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを2つずつ接続することを更に含む請求項7に記載の検索方法。
  9. 前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することは、
    1つのショットにおける1つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含む請求項7または請求項8に記載の検索方法。
  10. 前記検索方法は、検索ネットワークにより実現し、前記検索ネットワークは、第1サブネットワークおよび第2サブネットワークを含み、前記第1サブネットワークは、テキストとビデオとの間の第1類似度を決定するように構成されており、前記第2サブネットワークは、前記テキストの第1人物インタラクティブグラフと前記ビデオの第2人物インタラクティブグラフとの類似度を決定するように構成されており、
    前記検索方法は、
    テキストと訓練サンプル集合におけるビデオとの間の第1類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
    前記テキストの第1人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第2人物インタラクティブグラフとの間の第2類似度予測値を決定することと、
    前記第1類似度予測値および前記第1類似度の真値に基づいて、前記第1類似度の損失を決定することと、
    前記第2類似度予測値および前記第2類似度の真値に基づいて、前記第2類似度の損失を決定することと、
    前記第1類似度の損失および前記第2類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、
    前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整すること
    を更に含む請求項1~9のうちいずれか一項に記載の検索方法。
  11. 記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
    前記合計損失値に基づいて、前記第1サブネットワークおよび前記第2サブネットワークの重みパラメータを調整することを含む請求項10に記載の検索方法。
  12. 検索装置であって、
    テキストと少なくとも1つのビデオとの間の第1類似度を決定するように構成されている第1決定モジュールであって、前記テキストは、検索条件を表すためのものである、第1決定モジュールと、
    前記テキストの第1人物インタラクティブグラフおよび前記少なくとも1つのビデオの第2人物インタラクティブグラフを決定することと、前記第1人物インタラクティブグラフと前記第2人物インタラクティブグラフとの間の第2類似度を決定することとを行うように構成されている第2決定モジュールと、
    各ビデオの前記第1類似度および前記第2類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、前記少なくとも1つのビデオから、類似度値が最も高いビデオを前記検索条件に合致するビデオとして決定することとを行うように構成されている処理モジュール
    を備える、検索装置。
  13. メモリプロセッサとを備えた検索装置であって、前記メモリには、前記プロセッサによって実行可能であるコンピュータプログラムが記憶されており、前記プロセッサは、前記コンピュータプログラムを実行することにより、請求項1~11のうちいずれか一項に記載の検索方法を実行するように構成されている、検索装置。
  14. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると請求項1~11のうちいずれか一項に記載の検索方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
  15. コンピュータプログラムであって、前記コンピュータプログラムは、プロッセッサによって実行されると請求項1~11のうちいずれか一項に記載の検索方法を実行することを前記プロセッサに行わせる、コンピュータプログラム。
JP2021521293A 2019-09-29 2019-11-13 検索方法及び検索装置、記憶媒体 Active JP7181999B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910934892.5 2019-09-29
CN201910934892.5A CN110659392B (zh) 2019-09-29 2019-09-29 检索方法及装置、存储介质
PCT/CN2019/118196 WO2021056750A1 (zh) 2019-09-29 2019-11-13 检索方法及装置、存储介质

Publications (2)

Publication Number Publication Date
JP2022505320A JP2022505320A (ja) 2022-01-14
JP7181999B2 true JP7181999B2 (ja) 2022-12-01

Family

ID=69038407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021521293A Active JP7181999B2 (ja) 2019-09-29 2019-11-13 検索方法及び検索装置、記憶媒体

Country Status (7)

Country Link
US (1) US20210326383A1 (ja)
JP (1) JP7181999B2 (ja)
KR (1) KR20210060563A (ja)
CN (1) CN110659392B (ja)
SG (1) SG11202107151TA (ja)
TW (1) TWI749441B (ja)
WO (1) WO2021056750A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259118B (zh) * 2020-05-06 2020-09-01 广东电网有限责任公司 一种文本数据检索方法及装置
CN112256913A (zh) * 2020-10-19 2021-01-22 四川长虹电器股份有限公司 一种基于图模型比对的视频搜索方法
CN113204674B (zh) * 2021-07-05 2021-09-17 杭州一知智能科技有限公司 基于局部-整体图推理网络的视频-段落检索方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008112432A (ja) 2006-10-06 2008-05-15 Nippon Hoso Kyokai <Nhk> 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム
JP2012118756A (ja) 2010-11-30 2012-06-21 Toshiba Corp 電子機器、人物相関図出力方法、人物相関図出力システム
JP2016081265A (ja) 2014-10-16 2016-05-16 日本電気株式会社 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
JP2019008684A (ja) 2017-06-28 2019-01-17 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877774B1 (en) * 1999-04-19 2011-01-25 At&T Intellectual Property Ii, L.P. Browsing and retrieval of full broadcast-quality video
US20060018516A1 (en) * 2004-07-22 2006-01-26 Masoud Osama T Monitoring activity using video information
US8451292B2 (en) * 2009-11-23 2013-05-28 National Cheng Kung University Video summarization method based on mining story structure and semantic relations among concept entities thereof
CN103365854A (zh) * 2012-03-28 2013-10-23 鸿富锦精密工业(深圳)有限公司 视频文件检索系统及检索方法
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
CN103440274B (zh) * 2013-08-07 2016-09-28 北京航空航天大学 一种基于细节描述的视频事件概要图构造和匹配方法
CN106462747B (zh) * 2014-06-17 2020-03-17 河谷控股Ip有限责任公司 活动识别系统和方法
CN105279495B (zh) * 2015-10-23 2019-06-04 天津大学 一种基于深度学习和文本总结的视频描述方法
CN106127803A (zh) * 2016-06-17 2016-11-16 北京交通大学 人体运动捕捉数据行为分割方法及系统
CN109783655B (zh) * 2018-12-07 2022-12-30 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008112432A (ja) 2006-10-06 2008-05-15 Nippon Hoso Kyokai <Nhk> 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム
JP2012118756A (ja) 2010-11-30 2012-06-21 Toshiba Corp 電子機器、人物相関図出力方法、人物相関図出力システム
JP2016081265A (ja) 2014-10-16 2016-05-16 日本電気株式会社 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
JP2019008684A (ja) 2017-06-28 2019-01-17 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム

Also Published As

Publication number Publication date
KR20210060563A (ko) 2021-05-26
CN110659392B (zh) 2022-05-06
TW202113575A (zh) 2021-04-01
TWI749441B (zh) 2021-12-11
US20210326383A1 (en) 2021-10-21
WO2021056750A1 (zh) 2021-04-01
JP2022505320A (ja) 2022-01-14
CN110659392A (zh) 2020-01-07
SG11202107151TA (en) 2021-07-29

Similar Documents

Publication Publication Date Title
CN111597314B (zh) 推理问答方法、装置以及设备
WO2020082560A1 (zh) 文本关键词提取方法、装置、设备及计算机可读存储介质
US20210224601A1 (en) Video sequence selection method, computer device, and storage medium
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
JP7181999B2 (ja) 検索方法及び検索装置、記憶媒体
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111611436A (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
Dhingra et al. Linguistic knowledge as memory for recurrent neural networks
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN113704460A (zh) 一种文本分类方法、装置、电子设备和存储介质
KR20200083159A (ko) 사용자 단말에서의 사진 검색 방법 및 시스템
CN115114395A (zh) 内容检索及模型训练方法、装置、电子设备和存储介质
CN114386410A (zh) 预训练模型的训练方法和文本处理方法
Deorukhkar et al. A detailed review of prevailing image captioning methods using deep learning techniques
CN114548274A (zh) 一种基于多模态交互的谣言检测方法及系统
CN114417823A (zh) 一种基于句法和图卷积网络的方面级情感分析方法及装置
CN113535949A (zh) 基于图片和句子的多模态联合事件检测方法
CN113342944A (zh) 一种语料泛化方法、装置、设备及存储介质
CN110851629A (zh) 一种图像检索的方法
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210416

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221118

R150 Certificate of patent or registration of utility model

Ref document number: 7181999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150