JP7181999B2

JP7181999B2 - 検索方法及び検索装置、記憶媒体

Info

Publication number: JP7181999B2
Application number: JP2021521293A
Authority: JP
Inventors: 熊宇; 黄青▲ちう▼; 郭凌峰; 周航; 周博磊; 林▲達▼▲華▼
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2019-09-29
Filing date: 2019-11-13
Publication date: 2022-12-01
Anticipated expiration: 2039-11-13
Also published as: KR20210060563A; CN110659392B; TW202113575A; TWI749441B; US20210326383A1; WO2021056750A1; JP2022505320A; CN110659392A; SG11202107151TA

Description

（関連出願の相互参照）
本願は、２０１９年０９月２９日に提出された、出願番号が２０１９１０９３４８９２．５号である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータビジョン技術分野に関し、具体的には検索方法及び検索装置、記憶媒体に関する。

実生活において、テキスト記述に基づいて、ビデオデータベースからテキスト記述に合致するビデオを検索する機能は、広く求められている。従来の検索方法は一般的には、文字を単語ベクトルに符号化すると同時に、ビデオをビデオ特徴ベクトルに符号化する。

本願は、検索方法の技術的解決手段を提供する。

本願の第１態様によれば、検索方法を提供する。前記検索方法は、テキストと少なくとも１つのビデオとの間の第１類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することと、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定することと、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定することと、を含む。

このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも１つのビデオとの間の第１類似度、前記テキストの第１人物インタラクティブグラフと前記少なくとも１つのビデオの第２人物インタラクティブグラフとの間の第２類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオを検索する正確率を向上させることができる。

可能な実現形態において、テキストと少なくとも１つのビデオとの間の第１類似度を決定することは、前記テキストのパラグラフ特徴を決定することと、前記少なくとも１つのビデオのビデオ特徴を決定することと、前記テキストのパラグラフ特徴及び前記少なくとも１つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも１つのビデオとの間の第１類似度を決定することと、を含む。

このように、テキストのパラグラフ特徴及びビデオのビデオ特徴を分析して第１類似度を決定することで、ビデオとテキストとの直接的に合致した類似度を得て、後続で、検索条件に合致するビデオの決定のための参考となる根拠を提供することができる。

可能な実現形態において、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含む。

このように、センテンス特徴及びセンテンスの数をテキストのパラグラフ特徴とし、ショット特徴及びショットの数をビデオのビデオ特徴とすることで、テキスト及びビデオに対して量子化を行い、更に、テキストのパラグラフ特徴及びビデオのビデオ特徴の分析のための根拠を提供することができる。

可能な実現形態において、前記テキストの第１人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含み、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。

テキストにおけるセンテンスは一般的には、イベントにおけるシナリオと類似した順番に従う。各テキストはいずれもビデオにおける１つのイベントを記述する。このように、テキストの人物インタラクティブグラフを構築することで、ビデオの叙事構造を捕捉し、後続で、検索条件に合致するビデオを決定するための参考となる根拠を提供する。

可能な実現形態において、前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含む。

このように、テキストの人物インタラクティブグラフをより好適に構築し、更に、ビデオの叙事構造をより好適に捕捉することに寄与する。

可能な実現形態において、前記テキストに含まれる人名を検出することは、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含む。

このように、テキストにおける、非人名で表される人物の見落としを防止し、テキストで記述された全ての人物に対して分析を行い、更に、テキストの人物インタラクティブグラフを決定する正確率を更に向上させることができる。

可能な実現形態において、前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、前記少なくとも１つのビデオの各ショットにおける人物を検出することと、前記人物の人体特徴及び動き特徴を抽出することと、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、各人物に対応するキャラクターノードと動作ノードを接続することと、を含む。

このように、人物間の相互作用は、しばしばテキストで記述され、キャラクター間のインタラクションは、ビデオストーリーにおいて重要な役割を演じている。この観点に基づいて、本願は、グラフで表される人物インタラクティブグラフに基づいて、ビデオの人物インタラクティブグラフとテキストの人物インタラクティブグラフとの類似度を決定することで、後続で、検索条件に合致するビデオを決定するための参考となる根拠を提供する。

可能な実現形態において、前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、１つのショットに同時に現れた１組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを２つずつ接続することを更に含む。

このように、ビデオの人物インタラクティブグラフをより好適に構築し、更に、ビデオの叙事構造をより好適に捕捉することに寄与する。

可能な実現形態において、前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、１つのショットにおける１つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含む。

可能な実現形態において、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定することは、各ビデオの前記第１類似度及び第２類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含む。

このように、第１類似度及び第２類似度により、検索条件に合致するビデオを決定することで、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。

可能な実現形態において、前記検索方法は、検索ネットワークにより実現し、前記検索方法は、テキストと訓練サンプル集合におけるビデオとの間の第１類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第１人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第２人物インタラクティブグラフとの間の第２類似度予測値を決定することと、前記第１類似度予測値と前記第１類似度の真値に基づいて、前記第１類似度の損失を決定することと、前記第２類似度予測値と前記第２類似度の真値に基づいて、前記第２類似度の損失を決定することと、前記第１類似度の損失及び前記第２類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を更に含む。

このように、検索ネットワークにより検索を実現することで、テキスト記述に合致するビデオを迅速に検索することに寄与する。

可能な実現形態において、前記検索ネットワークは、第１サブネットワーク及び第２サブネットワークを含み、前記第１サブネットワークは、テキストとビデオとの間の第１類似度を決定するように構成され、前記第２サブネットワークは、前記テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの類似度を決定するように構成され、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、前記合計損失値に基づいて、前記第１サブネットワーク及び前記第２サブネットワークの重みパラメータを調整することを含む。

このように、異なるサブネットワークにより、異なる類似度をそれぞれ決定することで、検索条件に関わる第１類似度及び第２類似度を迅速に得ることに寄与し、更に、検索条件に合致するビデオを迅速に検索することができる。

本願の第２態様によれば、検索装置を提供する。前記検索装置は、テキストと少なくとも１つのビデオとの間の第１類似度を決定するように構成される第１決定モジュールであって、前記テキストは、検索条件を表すためのものである、第１決定モジュールと、前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定し、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定するように構成される第２決定モジュールと、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュールと、を備える。

可能な実現形態において、前記第１決定モジュールは、前記テキストのパラグラフ特徴を決定し、前記少なくとも１つのビデオのビデオ特徴を決定し、前記テキストのパラグラフ特徴及び前記少なくとも１つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも１つのビデオとの間の第１類似度を決定するように構成される。

可能な実現形態において、前記第２決定モジュールは、前記テキストに含まれる人名を検出し、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。

可能な実現形態において、前記第２決定モジュールは更に、同一の動作ノードに接続されるキャラクターノードを相互接続するように構成される。

可能な実現形態において、前記第２決定モジュールは、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成される。

可能な実現形態において、前記第２決定モジュールは、前記少なくとも１つのビデオの各ショットにおける人物を検出し、前記人物の人体特徴及び動き特徴を抽出し、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、各人物に対応するキャラクターノードと動作ノードを接続するように構成される。

可能な実現形態において、前記第２決定モジュールは更に、１つのショットに同時に現れた１組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを２つずつ接続するように構成される。

可能な実現形態において、前記第２決定モジュールは更に、１つのショットにおける１つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成される。

可能な実現形態において、前記処理モジュールは、各ビデオの前記第１類似度及び第２類似度に対して加重加算を行い、各ビデオの類似度値を得て、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成される。

可能な実現形態において、前記検索装置は、検索ネットワークにより実現し、前記検索装置は、テキストと訓練サンプル集合におけるビデオとの間の第１類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第１人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第２人物インタラクティブグラフとの間の第２類似度予測値を決定し、前記第１類似度予測値と前記第１類似度の真値に基づいて、前記第１類似度の損失を決定し、前記第２類似度予測値と前記第２類似度の真値に基づいて、前記第２類似度の損失を決定し、前記第１類似度の損失及び前記第２類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュールを更に備える。

可能な実現形態において、前記検索ネットワークは、第１サブネットワーク及び第２サブネットワークを含み、前記第１サブネットワークは、テキストとビデオとの間の第１類似度を決定するように構成され、前記第２サブネットワークは、テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの類似度を決定するように構成され、前記訓練モジュールは、前記合計損失値に基づいて、前記第１サブネットワーク及び前記第２サブネットワークの重みパラメータを調整するように構成される。

本願の第３態様によれば、検索装置を提供する。前記検索装置は、メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行して、本願の実施例に記載の検索方法のステップを実行するように構成される。

本願の第４態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサにより実行されるときに、前記プロセッサに、本願の実施例に記載の検索方法のステップを実行させる。

本願の第５態様によれば、コンピュータ可読プログラムを提供する。該コンピュータ可読プログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードは、電子機器で実行されるときに、前記電子機器におけるプロセッサに、本願の実施例に記載の検索方法を実行させる。
例えば、本願は以下の項目を提供する。
（項目１）
テキストと少なくとも１つのビデオとの間の第１類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することと、
前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定することと、
前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定することと、を含む、検索方法。
（項目２）
前記テキストと少なくとも１つのビデオとの間の第１類似度を決定することは、
前記テキストのパラグラフ特徴を決定することと、
前記少なくとも１つのビデオのビデオ特徴を決定することと、
前記テキストのパラグラフ特徴及び前記少なくとも１つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも１つのビデオとの間の第１類似度を決定することと、を含むことを特徴とする
項目１に記載の検索方法。
（項目３）
前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含むことを特徴とする
項目２に記載の検索方法。
（項目４）
前記テキストの第１人物インタラクティブグラフを決定することは、
前記テキストに含まれる人名を検出することと、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、
各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含み、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表されることを特徴とする
項目１から３のうちいずれか一項に記載の検索方法。
（項目５）
前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含むことを特徴とする
項目４に記載の検索方法。
（項目６）
前記テキストに含まれる人名を検出することは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含むことを特徴とする
項目４又は５に記載の検索方法。
（項目７）
前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、
前記少なくとも１つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴及び動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと、を含むことを特徴とする
項目１から６のうちいずれか一項に記載の検索方法。
（項目８）
前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、１つのショットに同時に現れた１組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを２つずつ接続することを更に含むことを特徴とする
項目７に記載の検索方法。
（項目９）
前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、
１つのショットにおける１つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含むことを特徴とする
項目７又は８に記載の検索方法。
（項目１０）
前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定することは、
各ビデオの前記第１類似度及び第２類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、
類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含むことを特徴とする
項目１から９のうちいずれか一項に記載の検索方法。
（項目１１）
前記検索方法は、検索ネットワークにより実現し、前記検索方法は、
テキストと訓練サンプル集合におけるビデオとの間の第１類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第１人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第２人物インタラクティブグラフとの間の第２類似度予測値を決定することと、
前記第１類似度予測値と前記第１類似度の真値に基づいて、前記第１類似度の損失を決定することと、
前記第２類似度予測値と前記第２類似度の真値に基づいて、前記第２類似度の損失を決定することと、
前記第１類似度の損失及び前記第２類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を更に含むことを特徴とする
項目１から１０のうちいずれか一項に記載の検索方法。
（項目１２）
前記検索ネットワークは、第１サブネットワーク及び第２サブネットワークを含み、前記第１サブネットワークは、テキストとビデオとの間の第１類似度を決定するように構成され、前記第２サブネットワークは、前記テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの類似度を決定するように構成され、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第１サブネットワーク及び前記第２サブネットワークの重みパラメータを調整することを含むことを特徴とする
項目１１に記載の検索方法。
（項目１３）
テキストと少なくとも１つのビデオとの間の第１類似度を決定するように構成される第１決定モジュールであって、前記テキストは、検索条件を表すためのものである、第１決定モジュールと、
前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定し、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定するように構成される第２決定モジュールと、
前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュールと、を備える、検索装置。
（項目１４）
前記第１決定モジュールは、
前記テキストのパラグラフ特徴を決定し、
前記少なくとも１つのビデオのビデオ特徴を決定し、
前記テキストのパラグラフ特徴及び前記少なくとも１つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも１つのビデオとの間の第１類似度を決定するように構成されることを特徴とする
項目１３に記載の検索装置。
（項目１５）
前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含むことを特徴とする
項目１４に記載の検索装置。
（項目１６）
前記第２決定モジュールは、
前記テキストに含まれる人名を検出し、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、
各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表されることを特徴とする
項目１３から１５のうちいずれか一項に記載の検索装置。
（項目１７）
前記第２決定モジュールは更に、
同一の動作ノードに接続されるキャラクターノードを相互接続するように構成されることを特徴とする
項目１６に記載の検索装置。
（項目１８）
前記第２決定モジュールは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成されることを特徴とする
項目１６又は１７に記載の検索装置。
（項目１９）
前記第２決定モジュールは、
前記少なくとも１つのビデオの各ショットにおける人物を検出し、
前記人物の人体特徴及び動き特徴を抽出し、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、
各人物に対応するキャラクターノードと動作ノードを接続するように構成されることを特徴とする
項目１３から１８のうちいずれか一項に記載の検索装置。
（項目２０）
前記第２決定モジュールは更に、１つのショットに同時に現れた１組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを２つずつ接続するように構成されることを特徴とする
項目１９に記載の検索装置。
（項目２１）
前記第２決定モジュールは更に、
１つのショットにおける１つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成されることを特徴とする
項目１９又は２０に記載の検索装置。
（項目２２）
前記処理モジュールは、
各ビデオの前記第１類似度及び第２類似度に対して加重加算を行い、各ビデオの類似度値を得て、
類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成されることを特徴とする
項目１３から２１のうちいずれか一項に記載の検索装置。
（項目２３）
前記検索装置は、検索ネットワークにより実現され、
テキストと訓練サンプル集合におけるビデオとの間の第１類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、
前記テキストの第１人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第２人物インタラクティブグラフとの間の第２類似度予測値を決定し、
前記第１類似度予測値と前記第１類似度の真値に基づいて、前記第１類似度の損失を決定し、
前記第２類似度予測値と前記第２類似度の真値に基づいて、前記第２類似度の損失を決定し、
前記第１類似度の損失及び前記第２類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュールを更に備えることを特徴とする
項目１３から２２のうちいずれか一項に記載の検索装置。
（項目２４）
前記検索ネットワークは、第１サブネットワーク及び第２サブネットワークを含み、前記第１サブネットワークは、テキストとビデオとの間の第１類似度を決定するように構成され、前記第２サブネットワークは、テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの類似度を決定するように構成され、
前記訓練モジュールは、
前記合計損失値に基づいて、前記第１サブネットワーク及び前記第２サブネットワークの重みパラメータを調整するように構成されることを特徴とする
項目２３に記載の検索装置。
（項目２５）
メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行して、項目１から１２のうちいずれか一項に記載の検索方法を実行するように構成される、検索装置。
（項目２６）
プロセッサにより実行されるときに、前記プロセッサに、項目１から１２のうちいずれか一項に記載の検索方法を実行させるためのコンピュータプログラムを記憶した、コンピュータ可読記憶媒体。
（項目２７）
電子機器で実行されるときに、前記電子機器におけるプロセッサに、項目１から１２のうちいずれか一項に記載の検索方法を実行させるためのコンピュータ可読コードを含む、コンピュータプログラム。

本願で提供される技術的解決手段において、テキストと少なくとも１つのビデオとの間の第１類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定し、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定し、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも１つのビデオとの間の第１類似度、前記テキストの第１人物インタラクティブグラフと前記少なくとも１つのビデオの第２人物インタラクティブグラフとの間の第２類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオの検索の正確率を向上させることができる。

一例示的な実施例による検索方法の概説フレームワークを示す概略図である。一例示的な実施例による検索方法の実現フローを示す概略図である。一例示的な実施例による検索装置の構造を示す概略図である。

ここで添付した図面は、明細書に引き入れて本明細書の一部を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。

ここで、例示的な実施例を詳しく説明し、その例を図面に示す。以下の記述が図面に係る場合、別途にて示さない限り、異なる図面における同じ数字は、同じまたは類似する要素を示す。以下の例示的な実施例において記述する実施形態は、本願の実施例に合致するすべての実施形態を代表するものではない。一方、それらは、添付された特許請求の範囲に詳細に記載されたような、本願の実施例の一部の形態に合致する装置及び方法の例に過ぎない。

本願の実施例において使用される用語は、特定の実施例を説明することだけを目的としており、そして本願の実施例を限定することは意図されていない。本願の実施例及び添付の特許請求の範囲で使用されるとき、単数形の「１つの」、「前記」及び「該」は、文脈が明らかに違うように示さない限り、複数形も含む意図である。本明細書中で使用される「及び／又は」という用語は、列挙された１つ以上の関連する対象物の任意の又は全ての可能的な組み合わせを参照かつ包含することも理解されるべきである。

本願の実施例では、用語である第１、第２、第３などを用いて各種情報を記述する可能性があるが、これらの情報はこれらの用語に限定されないことが理解されるべきである。これらの用語は、同一種類の情報をお互いに区別するためだけに用いられる。例えば、本願の実施例の範囲を逸脱しない限り、第１情報は第２情報と称されてもよく、同様に、第２情報は第１情報と称されてもよい。文脈によっては、ここで使用される語句「とすれば」及び「すると」は、「…場合」、「…時」又は「と決定されるのに応答して」と解釈される。

以下、図面及び具体的な実施例を参照しながら、本願の検索方法を詳しく説明する。

図１は、一例示的な実施例による検索方法の概説フレームワークを示す概略図である。該フレームワークは、ビデオとテキストとのマッチングに用いられる。例えば、映画セグメントとシナリオセグメントとのマッチングに用いられる。該フレームワークは、イベントフローモジュール（ＥＦＭ：ＥｖｅｎｔＦｌｏｗＭｏｄｕｌｅ）及び人物インタラクションモジュール（ＣＩＭ：ＣｈａｒａｃｔｅｒＩｎｔｅｒａｃｔｉｏｎＭｏｄｕｌｅ）という２つのモジュールを備え、イベントフローモジュールは、イベントフローのイベント構造を探索し、パラグラフ特徴及びビデオ特徴を入力として、ビデオとパラグラフとの直接的な類似度を出力するように構成され、人物インタラクションモジュールは、人物インタラクションを利用して、パラグラフにおける人物インタラクティブグラフ及びビデオにおける人物インタラクティブグラフをそれぞれ構築し、更に、グラフマッチングアルゴリズムを用いて、２つのグラフの類似度を評価するように構成される。

１つの検索テキストＰ及び１つの候補ビデオＱが与えられた。上記２つのモジュールは、それぞれ、ＰとＱとの類似度スコアを生成し、それぞれ、

で表す。続いて、合計マッチングスコア

をそれらの和と定義する。

具体的に

を如何に解くかは、下記で詳しく説明される。

勿論、他の実施例において、合計マッチングスコアは、上記２つのモジュールで得られたスコアに対して加重加算などを行うことで得られた演算結果であってもよい。

本願の実施例は、検索方法を提供する。該検索方法は、端末機器、サーバ又は他の電子機器に適用可能である。ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、携帯機器、セルラー電話、コードレス電話、パーソナルデジタルアシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。幾つかの可能な実現形態において、該処理方法は、プロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現してもよい。図２に示すように、前記検索方法は主に以下を含む。
ステップＳ１０１において、テキストと少なくとも１つのビデオとの間の第１類似度を決定し、前記テキストは、検索条件を表すためのものである。

ここで、前記テキストは、検索条件を表すための文字記述である。本願の実施例は、テキストの取得方式を限定しない。例えば、電子機器は、ユーザにより入力領域で入力された文字記述を受信することができ、又は、ユーザの音声入力を受信し、続いて、音声データを文字記述に変換することができる。

ここで、前記検索条件は、人名及び動作を表す少なくとも１つの動詞を含む。例えば、ジャックは、彼自身を一発なぐった。

ここで、前記少なくとも１つのビデオは、検索に供するローカル又は第３者ビデオデータベースに位置する。

ここで、前記第１類似度は、ビデオとテキストとの直接的なマッチング程度を表す類似度である。

一例において、電子機器は、テキストのパラグラフ特徴及びビデオのビデオ特徴をイベントフローモジュールに入力し、イベントフローモジュールにより、ビデオとテキストとの類似度である第１類似度を出力する。

幾つかの選択可能な実現形態において、テキストと少なくとも１つのビデオとの間の第１類似度を決定することは、
前記テキストのパラグラフ特徴を決定することであって、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含む、ことと、
前記少なくとも１つのビデオのビデオ特徴を決定することであって、前記ビデオ特徴は、ショット特徴及びショットの数を含む、ことと、
前記テキストのパラグラフ特徴及び前記少なくとも１つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも１つのビデオとの間の第１類似度を決定することと、を含む。

幾つかの例において、テキストのパラグラフ特徴を決定することは、第１ニューラルネットワークを利用してテキストを処理し、テキストのパラグラフ特徴を得ることであって、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含む、ことを含む。例えば、各単語は、１つの３００次元のベクトルに対応する。センテンスにおける各単語の特徴を加算することで、センテンスの特徴を得る。センテンスの数は、テキストにおける句点である。入力されたテキストに対して句点でセンテンスを分割し、センテンスの数を得る。

幾つかの例において、ビデオのビデオ特徴を決定することは、第２ニューラルネットワークを利用してビデオを処理することを含む。具体的には、まず、ビデオをピクチャストリームに復号し、続いて、ピクチャストリームに基づいてビデオ特徴を得る。前記ビデオ特徴は、ショット特徴及びショットの数を含む。例えば、ショット特徴は、ショットの３枚のキーフレームのピクチャをニューラルネットワークにより処理することで得られた３つの２３４８次元のベクトルの平均値である。１つのショットは、ビデオにおける同一のカメラが同一の位置で撮った連続画面である。画面が切り替わると、もう１つのショットになる。従来のショットセグメンテーションアルゴリズムで、ショットの数を得る。

このように、テキストのパラグラフ特徴及びビデオのビデオ特徴を分析して第１類似度を決定することで、後続で、検索条件に合致するビデオの決定のための参考となる根拠を提供する。文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行い、テキスト記述に基づいて、ビデオを検索する正確率を向上させることができる。

上記技術的解決手段において、任意選択的に、前記第１類似度の演算式は、以下のとおりである。

ここで、１つのパラグラフ特徴は、Ｍ個のセンテンス特徴からなり、センテンス特徴を

とすると、パラグラフ特徴は、

で表される。１つのビデオ特徴は、Ｎ個のショット特徴からなり、ショット特徴を

とすると、ビデオ特徴は、

で表される。ブール割り当て行列

は、各ショットを各センテンスに割り当てるために用いられる。ここで、

は、ｉ番目のショットがｊ番目のセンテンスに割り当てられることを示し、

は、ｉ番目のショットがｊ番目のセンテンスに割り当てられていないことを示す。

上記技術的解決手段において、任意選択的に、前記第１類似度の演算式の制約条件は、
各ショットが最大１つのセンテンスに割り当てられることと、
上位の番号のショットが割り当てられたセンテンスは、下位の番号のショットが割り当てられたセンテンスよりも前方に位置する。

従って、第１類似度の算出を下記式（３）の最適化ターゲットの解きに変換することができる。最適化ターゲットと制約条件を合わせることで、下記最適化式を得ることができる。

ここで、式（３）は、最適化ターゲットである。ｓ．ｔ．は、ｓｕｃｈｔｈａｔの略語であり、式（３）の制約条件を表す式（４）及び（５）を引き出す。

は、Ｙのｉ行目のベクトルを表し、

は、１つのブールベクトルの１番目の非ゼロ値の番号を表す。式（４）において、Ｙは、１つの行列であり、１は、１つのベクトル（全ての要素はいずれも１であるベクトル）であり、Ｙ１は、行列Ｙとベクトル１との積である。

更に、従来のダイナミックプログラミングアルゴリズムにより、該最適化課題の解を得ることができる。具体的には、ダイナミックプログラミングアルゴリズムに関連するアルゴリズムにより、最適なＹを解き、

の値を得ることができる。

他の実施例において、パラグラフ特徴及びビデオ特徴に対して、他のタイプの演算を行うこともできる。例えば、複数のパラグラフ特徴及び対応する複数のビデオ特徴に対して加重又は比例演算などを行い、前記第１類似度を得る。

ステップＳ１０２において、前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定する。

ここで、人物インタラクティブグラフは、人物間のキャラクター関係及び動作関係を表すためのグラフであり、キャラクターノード及び動作ノードを含む。

幾つかの選択可能な実現形態において、１つのテキストは、１つの第１人物インタラクティブグラフに対応し、１つのビデオは、１つの第２人物インタラクティブグラフに対応する。

幾つかの選択可能な実現形態において、前記テキストの第１人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を含む。

ここで、データベースは、大量の人名とポートレートとの対応関係が事前記憶されたライブラリである。前記ポートレートは、該人名に対応する人物のポートレートである。ポートレートデータは、ネットワークからクローリングされてもよい。例えば、ｉｍｄｂウェブサイト及びｔｍｄｂウェブサイトから、ポートレートデータをクローリングすることができる。ここで、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。

幾つかの実施例において、前記テキストのセマンティックツリーを解析により決定することは、依存構文アルゴリズムにより、テキストのセマンティックツリーを解析により決定することを含む。例えば、依存構文アルゴリズムを利用して、各センテンスを一つ一つの単語に分け、続いて、言語学の幾つかのルールに基づいて、単語をノードとして、セマンティックツリーを構築する。

まず、各センテンスから１つのグラフを得る。続いて、各パラグラフに複数のセンテンスがあるため、複数のグラフがある。しかしながら、数学的に、我々は、該複数のグラフを１つのグラフ（１つの非接続グラフ）と見做すことができる。つまり、数学的に、グラフの定義において、各ノードからもう１つのノードへの経路が全て存在するとは限らず、複数の小さなグラフに分割可能なグラフであってもよい。

ここで、複数の人名が同一の動作ノードを示すと、前記複数の人名の動作ノードを辺で２つずつ接続する。

ここで、辺で接続される２つのノード特徴をスプライシングして辺の特徴とする。

例示的に、辺で接続される２つのノード特徴をそれぞれ２つのベクトルで表してもよい。該２つのベクトルをスプライシング（例えば、次元加算）することで、辺の特徴を得る。例えば、１つの３次元のベクトルともう１つの４次元のベクトルを直接的にスプライシングすることで、７次元のベクトルを得る。例を挙げると、［１，３，４］と［２，５，３，６］をスプライシングする場合、スプライシング結果は、［１，３，４，２，５，３，６］である。

幾つかの例において、Ｗｏｒｄ２Ｖｅｃ単語ベクトルニューラルネットワークにより処理された特徴を用いて、動作ノードを表すことができる。つまり、人物の動き特徴とする。

幾つかの例において、テキストに含まれる人名を検出する時、テキストにおける代名詞を、前記代名詞で表される人名に置き換える。具体的には、人名検出ツール（例えば、スタンフォード人名検出ツールキット）により、全ての人名（例えば「ジャック」）を検出する。続いて、共参照解析ツールにより、代名詞を、該代名詞で表される人名に置き換える（例えば、「ジャックは、彼自身を一発なぐった」における「彼」を「ジャック」として抽出する）。

幾つかの実施例において、人名に基づいて、データベースから、前記人名に対応する人物のポートレートを検索し、ニューラルネットワークにより、前記ポートレートの画像特徴を抽出する。ここで、前記画像特徴は、顔及び体特徴を含む。ニューラルネットワークにより、前記テキストにおける各センテンスのセマンティックツリー及び前記セマンティックツリーにおける、例えば、名詞、代名詞、動詞などのような、各単語の品詞を決定する。前記セマンティックツリーにおける各ノードは、前記センテンスにおける１つの単語である。センテンスにおける動詞を人物の動き特徴とする。つまり、動作ノードとする。名詞又は代名詞に対応する人名を人物のキャラクターノードとする。人物のポートレートの画像特徴を人物のキャラクターノードに付加する。前記セマンティックツリー及び前記人名に基づいて、各前記人名に対応するキャラクターノードと前記人名の動作ノードを接続する。複数の人名は同一の動作ノードを示すと、前記複数の人名を辺で２つずつ接続する。

幾つかの選択可能な実現形態において、前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、
前記少なくとも１つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴及び動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと、を含む。

ここで、１つのショットは、ビデオにおける同一のカメラが同一の位置で撮った連続画面である。画面が切り替わると、もう１つのショットになる。従来のショットセグメンテーションアルゴリズムで、ショットの数を得る。

ここで、前記人体特徴は、人物の顔及び体特徴である。ショットに対応する画像を訓練されたモデルにより処理することで、画像における人物の人体特徴を得ることができる。

ここで、前記動き特徴は、ショットに対応する画像を訓練されたモデルに入力することで得られた画像における人物の動き特徴である。例えば、認識により得られた人物の、現在画像における動作（例えば水を飲む）である。

更に、前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定する時、１組の人物が同時に１つのショットに現れると、同一組の人物における人物のキャラクターノードを２つずつ接続することと、１つのショットにおける１つの人物とその隣接ショットの各人物のキャラクターノードを接続することと、を更に含む。

ここで、前記隣接ショットは、現在ショットの前の１つのショット及び後の１つのショットである。

ここで、複数のキャラクターノードが同一の動作ノードを示すと、前記複数のキャラクターノードの動作ノードを辺で２つずつ接続する。

上記辺特徴の決定プロセスは、第１人物インタラクティブグラフにおける辺特徴の決定方法を参照することができ、ここで、詳細な説明を省略する。

ステップＳ１０３において、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定する。

ここで、前記第２類似度は、第１人物インタラクティブグラフと第２人物インタラクティブグラフという２つのグラフに対してマッチング演算を行うことで得られた類似度である。

一例において、電子機器は、テキスト及びビデオを人物インタラクションモジュールに入力し、人物インタラクションモジュールにより、テキストにおける第１人物インタラクティブグラフ及びビデオにおける第２人物インタラクティブグラフを構築し、更に、グラフマッチングアルゴリズムにより、２つのグラフ間の類似度を評価し、該類似度である第２類似度を出力する。

幾つかの選択可能な実施形態において、前記第２類似度の演算式は、以下のとおりである。

ここで、ｕは、二値ベクトル（ブールベクトル）を表し、

は、Ｖ_ｐにおけるｉ番目のノードとＶ_ｑにおけるａ番目のノードがマッチングできることを表し、

は、Ｖ_ｐにおけるｉ番目のノードとＶ_ｑにおけるａ番目のノードがマッチングできないことを表す。同様に、

は、Ｖ_ｐにおけるｊ番目のノードとＶ_ｑにおけるｂ番目のノードがマッチングできることを表し、

は、Ｖ_ｐにおけるｊ番目のノードとＶ_ｑにおけるｂ番目のノードがマッチングできないことを表す。ｉ，ａ，ｊ，ｂはいずれもインデックスシンボルである。

は、Ｖ_ｐにおけるｉ番目のノードとＶ_ｑにおけるａ番目のノードとの類似度を表し、

は、Ｅ_ｐにおける辺（ｉ，ｊ）とＥ_ｑにおける辺（ａ，ｂ）との類似度を表す。

テキストにおける第１人物インタラクティブグラフを

とする。ここで、

は、ノードの集合であり、Ｅ_ｐは、辺の集合である。

は、２種のノードからなる。

は、第１人物インタラクティブグラフにおける動作ノードであり、

は、第１人物インタラクティブグラフにおけるキャラクターノードである。

ビデオにおける第２人物インタラクティブグラフを

とする。ここで、Ｖ_ｑは、ノードの集合であり、Ｅ_ｑは、辺の集合である。Ｖ_ｑは、２種のノードからなる。

は、第２人物インタラクティブグラフにおける動作ノードであり、

において、ｍ_ａは、動作ノードの数であり、ｍ_ｃは、キャラクターノードの数である。

において、ｎ_ａは、動作ノードの数であり、ｎ_ｃは、キャラクターノードの数である。

ブールベクトル

を与える。

であると、

とマッチングされたことを表す。類似度行列は、

である。類似度行列

対角線要素は、ノードの類似度

である。Ｖ_ｑにおけるｉ番目のノードとＶ_ｐにおけるａ番目のノードとの類似度を評価する。

により、辺

との類似度を評価する。類似度は、ノード又は辺に対応する特徴をドット積処理することで得られる。

幾つかの選択可能な実施形態において、前記第２類似度の演算式の制約条件は、
１つのノードがもう１つの集合における最大１つのノードのみにマッチング可能であることと、
異なるタイプのノードをマッチングできないことと、を含む。

つまり、マッチングは、一対一型マッチングでなければならない。１つのノードは、もう１つの集合における最大１つのノードのみにマッチング可能である。異なるタイプのノードをマッチングできない。例えば、キャラクターノードは、もう１つの集合の動作ノードにマッチングできない。

従って、上記第２類似度の算出を下記最適化式（７）の解きに変換することができる。最終的な最適化式と上記制約条件を合わせることで、以下を得ることができる。

最適化式を解く過程において、ｕを得る。ｕを式（７）に代入することで、類似度を得ることができる。

他の実施例において、マッチングしたノード特徴及び動作特徴に対して加重平均などの演算を行うという他の演算方式で、前記第２類似度を得ることもできる。

ステップＳ１０４において、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定する。

幾つかの選択可能な実施形態において、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定することは、各ビデオの前記第１類似度及び第２類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を含む。

幾つかの実施例において、重みは、データベースにおける検証集合により決定される。検証集合において、重み調整により、最終的な検索結果フィードバックに基づいて、一組の最適な重みを得ることができ、更に、試験集合又は実際の検索に直接的に用いることができる。

このように、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行い、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定し、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。

勿論、他の実施例において、第１類似度と第２類似度を直接的に加算して、各ビデオに対応する類似度を得ることもできる。

上記技術的解決手段において、前記検索方法は、検索ネットワークにより実現し、該検索ネットワークの訓練方法は、テキストと訓練サンプル集合におけるビデオとの間の第１類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第１人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第２人物インタラクティブグラフとの間の第２類似度予測値を決定することと、前記第１類似度予測値と前記第１類似度の真値に基づいて、前記第１類似度の損失を決定することと、前記第２類似度予測値と前記第２類似度の真値に基づいて、前記第２類似度の損失を決定することと、前記第１類似度の損失及び前記第２類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を含む。

本願の実施例において、前記検索ネットワークに対応する検索フレームワークに、異なる構成モジュールがある。各モジュールにおいて、異なるタイプのニューラルネットワークを用いることができる。前記検索フレームワークは、イベントフローモジュールと人物関係モジュールで構成されるフレームワークである。

幾つかの選択可能な実施形態において、前記検索ネットワークは、第１サブネットワーク及び第２サブネットワークを含み、前記第１サブネットワークは、テキストとビデオとの間の第１類似度を決定するように構成され、前記第２サブネットワークは、前記テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの類似度を決定するように構成される。

具体的には、テキスト及びビデオを第１サブネットワークに入力し、該第１サブネットワークは、テキストとビデオとの間の第１類似度予測値を出力する。テキスト及びビデオを第２サブネットワークに入力し、該第２サブネットワークは、テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの第２類似度予測値を出力する。アノテーションされた真値に基づいて、テキストとビデオとの間の第１類似度の真値、及び前記テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの類似度真値を得ることができる。第１類似度予測値と第１類似度の真値との差に基づいて、第１類似度の損失を得ることができる。第２類似度予測値と第２類似度の真値との差に基づいて、第２類似度の損失を得ることができる。第１類似度の損失及び第２類似度の損失に基づいて、損失関数を用いて第１サブネットワーク及び第２サブネットワークのネットワークパラメータを調整する。

一例において、データ集合を構築する。該データ集合は、３２８個の映画の概要、及び概要パラグラフと映画セグメントとの注釈の関連付けを含む。具体的には、該データ集合は、各映画のために高品質な詳細概要を提供するだけでなく、手動注釈により、各パラグラフと映画セグメントとを関連付ける。ここで、各映画セグメントは、各分間まで持続して完全なイベントを捕捉することができる。このような映画セグメント及び関連概要パラグラフにより、人々は、より大きな範囲及びより高いセマンティックレベルで分析を行うことができる。該データ集合を基に、本願は、イベントフローモジュール及び人物インタラクションモジュールを含むフレームワークを利用して、映画セグメントと概要パラグラフとのマッチングを実行する。従来の、特徴に基づいたマッチング方法に比べて、該フレームワークは、マッチング精度を著しく向上させると同時に、映画に対する理解における叙事構造及び人物インタラクションの重要性を開示する。

幾つかの選択可能な実施形態において、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第１サブネットワーク及び前記第２サブネットワークの重みパラメータを調整することを含む。

幾つかの選択可能な実施形態において、前記損失関数は、以下で表される。

ここで、

は、イベントフローモジュールに埋め込まれたネットワークのモデルパラメータを表し、

は、人物インタラクションモジュールに埋め込まれたネットワークのモデルパラメータを表す。

ここで、Ｙは、イベントフローモジュールにより定義された二値行列であり、ｕは、人物インタラクションモジュールの二値ベクトルであり、式（１２）は、最小化関数

によりネットワークのパラメータを調整することを表し、例えば、下記式（１３）に示すように、新たなネットワークパラメータ

を得る。

ここで、

は、以下で表される。

ここで、

は、式（３）の値を最大にするＹであり、最適解とも呼ばれる。

ここで、

は、式（７）の値を最大にするｕである。

ここで、

は、ｉ番目のビデオ

とｊ番目のパラグラフ

との類似度を表し、

は、ｉ番目のビデオ

とｉ番目のパラグラフ

との類似度を表し、

は、ｊ番目のビデオ

とｉ番目のパラグラフ

との類似度を表す。ａは、損失関数のパラメータであり、最小類似度差分値を表す。

本願に記載の技術的解決手段は、種々の検索タスクに適用可能である。検索シーンを限定しない。例えば、検索シーンは、映画セグメント検索シーン、ドラマセグメント検索シーン、ショートビデオ検索シーンなどを含む。

本願で提供される技術的解決手段において、テキストと少なくとも１つのビデオとの間の第１類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定し、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定し、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも１つのビデオとの間の第１類似度、前記テキストの第１人物インタラクティブグラフと前記少なくとも１つのビデオの第２人物インタラクティブグラフとの間の第２類似度を決定することで、従来の、特徴に基づく検索アルゴリズムにおける、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことが行われていないという問題を解決する。イベントフローマッチング方法及び人物インタラクションマッチング方法を用いてビデオ検索を行い、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。

上記検索方法に対応して、本願の実施例は、検索装置を提供する。図３に示すように、前記検索装置は、テキストと少なくとも１つのビデオとの間の第１類似度を決定するように構成される第１決定モジュール１０であって、前記テキストは、検索条件を表すためのものである、第１決定モジュール１０と、前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定し、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定するように構成される第２決定モジュール２０と、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定するように構成される処理モジュール３０と、を備える。

幾つかの実施例において、前記第１決定モジュール１０は、前記テキストのパラグラフ特徴を決定し、前記少なくとも１つのビデオのビデオ特徴を決定し、前記テキストのパラグラフ特徴及び前記少なくとも１つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも１つのビデオとの間の第１類似度を決定するように構成される。

幾つかの実施例において、前記パラグラフ特徴は、センテンス特徴及びセンテンスの数を含み、前記ビデオ特徴は、ショット特徴及びショットの数を含む。

幾つかの実施例において、前記第２決定モジュール２０は、前記テキストに含まれる人名を検出し、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得て、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得て、各前記人物に対応するキャラクターノードと動作ノードを接続するように構成され、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。

幾つかの実施例において、前記第２決定モジュール２０は更に、同一の動作ノードに接続されるキャラクターノードを相互接続するように構成される。

幾つかの実施例において、前記第２決定モジュール２０は、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えるように構成される。

幾つかの実施例において、前記第２決定モジュール２０は、前記少なくとも１つのビデオの各ショットにおける人物を検出し、前記人物の人体特徴及び動き特徴を抽出し、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加し、各人物に対応するキャラクターノードと動作ノードを接続するように構成される。

幾つかの実施例において、前記第２決定モジュール２０は更に、１つのショットに同時に現れた１組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを２つずつ接続するように構成される。

幾つかの実施例において、前記第２決定モジュール２０は更に、１つのショットにおける１つの人物とその隣接ショットの各人物のキャラクターノードを接続するように構成される。

幾つかの実施例において、前記処理モジュール３０は、各ビデオの前記第１類似度及び第２類似度に対して加重加算を行い、各ビデオの類似度値を得て、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定するように構成される。

幾つかの実施例において、前記検索装置は、検索ネットワークにより実現し、前記検索装置は、テキストと訓練サンプル集合におけるビデオとの間の第１類似度予測値を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第１人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第２人物インタラクティブグラフとの間の第２類似度予測値を決定し、前記第１類似度予測値と前記第１類似度の真値に基づいて、前記第１類似度の損失を決定し、前記第２類似度予測値と前記第２類似度の真値に基づいて、前記第２類似度の損失を決定し、前記第１類似度の損失及び前記第２類似度の損失に基づいて、損失関数を用いて合計損失値を決定し、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整するように構成される訓練モジュール４０を更に備える。

幾つかの実施例において、前記検索ネットワークは、第１サブネットワーク及び第２サブネットワークを含み、前記第１サブネットワークは、テキストとビデオとの間の第１類似度を決定するように構成され、前記第２サブネットワークは、テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの類似度を決定するように構成され、前記訓練モジュール４０は、前記合計損失値に基づいて、前記第１サブネットワーク及び前記第２サブネットワークの重みパラメータを調整するように構成される。

図３に示す検索装置における各処理モジュールの実現機能を、前記検索方法の関連記述を参照しながら理解することができることは、当業者であれば理解すべきである。図３に示す検索装置における各処理ユニットの機能は、プロセッサで実行されるプログラムにより実現してもよく、具体的なロジック回路により実現してもよいことは、当業者であれば理解すべきである。

実際の適用において、上記第１決定モジュール１０、第２決定モジュール２０、処理モジュール３０及び訓練モジュール４０の具体的な構造は、いずれもプロセッサに対応してもよい。前記プロセッサの具体的な構造は、中央演算処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイクロプロセッサ（ＭＣＵ：ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒＵｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）又はプログラマブルロジックコントローラ（ＰＬＣ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＣｏｎｔｒｏｌｌｅｒ）等のような、処理機能を有する電子デバイス又は電子デバイスの集合であってもよい。ここで、前記プロセッサは、実行可能なコードを含む。前記実行可能なコードは、記憶媒体に記憶される。前記プロセッサは、バスなどの通信インタフェースを介して前記記憶媒体に接続される。具体的な各ユニットに対応する機能を実行する時、前記記憶媒体から、前記実行可能なコードを読み出して実行する。前記記憶媒体における、前記実行可能なコードを記憶するための部分は、好ましくは、非一時的記憶媒体である。

本願の実施例で提供される検索装置は、テキストに基づいてビデオを検索する正確率を向上させることができる。

本願の実施例は、検索装置を更に記載する。前記検索装置は、メモリと、プロセッサと、メモリに記憶されてプロセッサで実行可能であるコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行する時、前記いずれか１つの技術的解決手段により提供される検索方法を実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、テキストと少なくとも１つのビデオとの間の第１類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することと、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定することと、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定することと、を実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、以下を実現させる。テキストと少なくとも１つのビデオとの間の第１類似度を決定することは、前記テキストのパラグラフ特徴を決定することと、前記少なくとも１つのビデオのビデオ特徴を決定することと、前記テキストのパラグラフ特徴及び前記少なくとも１つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも１つのビデオとの間の第１類似度を決定することと、を含む。

一実施形態として、前記プロセッサが前記プログラムを実行する時、前記テキストの第１人物インタラクティブグラフを決定することは、前記テキストに含まれる人名を検出することと、データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、各前記人物に対応するキャラクターノードと動作ノードを接続することと、を実現させ、前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される。

一実施形態として、前記プロセッサが前記プログラムを実行する時、同一の動作ノードに接続されるキャラクターノードを相互接続することを実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、前記少なくとも１つのビデオの各ショットにおける人物を検出することと、前記人物の人体特徴及び動き特徴を抽出することと、前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、各人物に対応するキャラクターノードと動作ノードを接続することと、を実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、１つのショットに同時に現れた１組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを２つずつ接続することを実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、１つのショットにおける１つの人物とその隣接ショットの各人物のキャラクターノードを接続することを実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、各ビデオの前記第１類似度及び第２類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、類似度値が最も高いビデオを、前記検索条件に合致するビデオとして決定することと、を実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、テキストと訓練サンプル集合におけるビデオとの間の第１類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、前記テキストの第１人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第２人物インタラクティブグラフとの間の第２類似度予測値を決定することと、前記第１類似度予測値と前記第１類似度の真値に基づいて、前記第１類似度の損失を決定することと、前記第２類似度予測値と前記第２類似度の真値に基づいて、前記第２類似度の損失を決定することと、前記第１類似度の損失及び前記第２類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと、を実現させる。

一実施形態として、前記プロセッサが前記プログラムを実行する時、前記合計損失値に基づいて、前記第１サブネットワーク及び前記第２サブネットワークの重みパラメータを調整することを実現させる。

本願の実施例で提供される検索装置は、テキスト記述に基づいてビデオを検索する正確率を向上させることができる。

本願の実施例は、コンピュータ可読記憶媒体を更に記載する。前記コンピュータ記憶媒体に、コンピュータによる実行可能な命令が記憶されており、前記コンピュータによる実行可能な命令は、前記各実施例に記載の検索方法を実行するために用いられる。つまり、前記コンピュータによる実行可能な命令がプロセッサにより実行された後、前記いずれか１つの技術的解決手段で提供される検索方法を実現させることができる。該コンピュータ記憶媒体は、揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。

本願の実施例は、コンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で実行されるときに、機器におけるプロセッサは、上記いずれか１つの実施例で提供される検索方法を実行する。

上記コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア又はその組み合わせにより実現してもよい。１つの選択可能な実施例において、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現化され、もう１つの選択可能な実施例において、コンピュータプログラム製品は、具体的には、例えば、ソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ：ＳＤＫ）等のようなソフトウェア製品として具現化されてもよい。

本実施例のコンピュータ記憶媒体における各プログラムの機能を、前記各実施例に記載の検索方法の関連記述を参照しながら理解できることは、当業者であれば理解すべきである。

本願で提供される幾つかの実施例において、開示される機器及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した機器の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、機器又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した上記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとを組み合わせて実現してもよい。

上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ可読記憶媒体に記憶され、該プログラムが実行されるときに、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ-ｏｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者であれば理解すべきである。

又は、本願の上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータ可読記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器（パーソナルコンピュータ、サーバ又はネットワーク機器など）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶装置、ＲＯＭ、ＲＡＭ、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

以上は本発明の具体的な実施形態に過ぎず、本願の保護範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本願の保護範囲内に含まれるべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

本願の実施例で提供される技術的解決手段において、テキストと少なくとも１つのビデオとの間の第１類似度を決定し、前記テキストは、検索条件を表すためのものであり、前記テキストの第１人物インタラクティブグラフ及び前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定し、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定し、前記第１類似度及び前記第２類似度に基づいて、前記少なくとも１つのビデオから、前記検索条件に合致するビデオを決定する。このように、従来の、特徴に基づく検索アルゴリズムに比べて、本願は、テキストと少なくとも１つのビデオとの間の第１類似度、前記テキストの第１人物インタラクティブグラフと前記少なくとも１つのビデオの第２人物インタラクティブグラフとの間の第２類似度を決定することで、文字自体のシンタックス構造及びビデオ自体のイベント構造などの情報を利用してビデオ検索を行うことができ、テキスト記述に基づいて、映画のようなビデオの検索の正確率を向上させることができる。

Claims

電子機器によって実行される検索方法であって、
テキストと少なくとも１つのビデオとの間の第１類似度を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第１人物インタラクティブグラフおよび前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することと、
前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定することと、
各ビデオの前記第１類似度および前記第２類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、
前記少なくとも１つのビデオから、類似度値が最も高いビデオを前記検索条件に合致するビデオとして決定することと
を含む、検索方法。
前記テキストと少なくとも１つのビデオとの間の第１類似度を決定することは、
前記テキストのパラグラフ特徴を決定することと、
前記少なくとも１つのビデオのビデオ特徴を決定することと、
前記テキストのパラグラフ特徴および前記少なくとも１つのビデオのビデオ特徴に基づいて、前記テキストと前記少なくとも１つのビデオとの間の第１類似度を決定することと
を含む、請求項１に記載の検索方法。
前記パラグラフ特徴は、センテンス特徴およびセンテンスの数を含み、前記ビデオ特徴は、ショット特徴およびショットの数を含む、請求項２に記載の検索方法。
前記テキストの第１人物インタラクティブグラフを決定することは、
前記テキストに含まれる人名を検出することと、
データベースから、前記人名に対応する人物のポートレートを検索し、前記ポートレートの画像特徴を抽出し、前記人物のキャラクターノードを得ることと、
前記テキストのセマンティックツリーを解析により決定し、前記セマンティックツリーに基づいて、前記人物の動き特徴を得て、前記人物の動作ノードを得ることと、
各前記人物に対応するキャラクターノードと動作ノードを接続することと
を含み、
前記人物のキャラクターノードは、ポートレートの画像特徴で表され、前記人物の動作ノードは、セマンティックツリーにおける動き特徴で表される、請求項１～３のうちいずれか一項に記載の検索方法。
前記検索方法は、同一の動作ノードに接続されるキャラクターノードを相互接続することを更に含む、請求項４に記載の検索方法。
前記テキストに含まれる人名を検出することは、
前記テキストにおける代名詞を、前記代名詞で表される前記人名に置き換えることを含む、請求項４または請求項５に記載の検索方法。
前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、
前記少なくとも１つのビデオの各ショットにおける人物を検出することと、
前記人物の人体特徴および動き特徴を抽出することと、
前記人物の人体特徴を前記人物のキャラクターノードに付加し、前記人物の動き特徴を前記人物の動作ノードに付加することと、
各人物に対応するキャラクターノードと動作ノードを接続することと
を含む、請求項１～６のうちいずれか一項に記載の検索方法。
前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、
１つのショットに同時に現れた１組の人物を同一組の人物とし、前記同一組の人物のうちの人物のキャラクターノードを２つずつ接続することを更に含む、請求項７に記載の検索方法。
前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することは、
１つのショットにおける１つの人物とその隣接ショットの各人物のキャラクターノードを接続することを更に含む、請求項７または請求項８に記載の検索方法。
前記検索方法は、検索ネットワークにより実現し、前記検索ネットワークは、第１サブネットワークおよび第２サブネットワークを含み、前記第１サブネットワークは、テキストとビデオとの間の第１類似度を決定するように構成されており、前記第２サブネットワークは、前記テキストの第１人物インタラクティブグラフと前記ビデオの第２人物インタラクティブグラフとの類似度を決定するように構成されており、
前記検索方法は、
テキストと訓練サンプル集合におけるビデオとの間の第１類似度予測値を決定することであって、前記テキストは、検索条件を表すためのものである、ことと、
前記テキストの第１人物インタラクティブグラフと前記訓練サンプル集合におけるビデオの第２人物インタラクティブグラフとの間の第２類似度予測値を決定することと、
前記第１類似度予測値および前記第１類似度の真値に基づいて、前記第１類似度の損失を決定することと、
前記第２類似度予測値および前記第２類似度の真値に基づいて、前記第２類似度の損失を決定することと、
前記第１類似度の損失および前記第２類似度の損失に基づいて、損失関数を用いて合計損失値を決定することと、
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することと
を更に含む、請求項１～９のうちいずれか一項に記載の検索方法。
前記合計損失値に基づいて、前記検索ネットワークの重みパラメータを調整することは、
前記合計損失値に基づいて、前記第１サブネットワークおよび前記第２サブネットワークの重みパラメータを調整することを含む、請求項１０に記載の検索方法。
検索装置であって、
テキストと少なくとも１つのビデオとの間の第１類似度を決定するように構成されている第１決定モジュールであって、前記テキストは、検索条件を表すためのものである、第１決定モジュールと、
前記テキストの第１人物インタラクティブグラフおよび前記少なくとも１つのビデオの第２人物インタラクティブグラフを決定することと、前記第１人物インタラクティブグラフと前記第２人物インタラクティブグラフとの間の第２類似度を決定することとを行うように構成されている第２決定モジュールと、
各ビデオの前記第１類似度および前記第２類似度に対して加重加算を行い、各ビデオの類似度値を得ることと、前記少なくとも１つのビデオから、類似度値が最も高いビデオを前記検索条件に合致するビデオとして決定することとを行うように構成されている処理モジュールと
を備える、検索装置。
メモリとプロセッサとを備えた検索装置であって、前記メモリには、前記プロセッサによって実行可能であるコンピュータプログラムが記憶されており、前記プロセッサは、前記コンピュータプログラムを実行することにより、請求項１～１１のうちいずれか一項に記載の検索方法を実行するように構成されている、検索装置。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項１～１１のうちいずれか一項に記載の検索方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムは、プロッセッサによって実行されると、請求項１～１１のうちいずれか一項に記載の検索方法を実行することを前記プロセッサに行わせる、コンピュータプログラム。