JP6991255B2 - メディア検索方法及び装置 - Google Patents

メディア検索方法及び装置 Download PDF

Info

Publication number
JP6991255B2
JP6991255B2 JP2019572507A JP2019572507A JP6991255B2 JP 6991255 B2 JP6991255 B2 JP 6991255B2 JP 2019572507 A JP2019572507 A JP 2019572507A JP 2019572507 A JP2019572507 A JP 2019572507A JP 6991255 B2 JP6991255 B2 JP 6991255B2
Authority
JP
Japan
Prior art keywords
media
feature
features
similarity
ranking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019572507A
Other languages
English (en)
Other versions
JP2020525949A (ja
Inventor
根 李
▲軼▼ 何
磊 李
亦▲タン▼ 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2020525949A publication Critical patent/JP2020525949A/ja
Application granted granted Critical
Publication of JP6991255B2 publication Critical patent/JP6991255B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願の取り込み
本出願は、出願号が201810272795.Xで、出願日が2018年3月29日の中国特許出願の優先権を請求している。そして、当該文献の全内容は、参照によって本文に組み込まれている。
本開示は、メディア処理技術分野に関し、特にメディア検索方法及び装置に関する。
ビデオ特徴、オーディオ特徴等のメディア特徴(又は、メディア指紋という)及びその特徴に基づくメディア検索は、現在の「マルチメディア情報社会」においては、広く適用されている。メディア検索は最初に、歌を聞いて曲を識別することに応用され、つまり、一節のオーディオを入力し、該節のオーディオの指紋特徴を抽出、検索することで、それに対応した歌を識別できるようにする。なお、メディア検索は、内容監視、例えばメディアの重複取り消し、検索に基づく音声広告監視、メディア著作権等にも適用されうる。
現有のメディア検索方法は、正確性が悪く、速度が遅い問題があり、これは、演算リソース及び記憶リソースのいずれに対しても、巨大な消耗が生じている。
本開示は、新たなメディア検索方法及び装置を提供することを目的とする。
本開示の目的は、以下の技術を採用して実現されるものである。本開示により提出されたメディア検索方法は、検索対象メディアのメディア特徴を、複数の第1のメディア特徴単体を含む第1のメディア特徴として取得するステップと、個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して第1のランキングを行い、前記第1のランキングの結果に基づいて、最初からk個(kは正の整数)の前記既知メディアを第1の候補メディア集合として抽出するステップと、複数の順次に並べた前記第1のメディア特徴単体に基づいて、前記第1の候補メディア集合に対して第2のランキングを行い、前記第2のランキングの結果に基づいて、最初からn個(nは正の整数)の前記第1の候補メディアを検索結果として抽出するステップとを含む。
本開示の目的は、さらに以下の技術措置を採用してさらに実現されるものである。
前述したメディア検索方法では、予め前記既知メディアのメディア特徴を、複数の第2のメディア特徴単体を含む第2のメディア特徴として取得することと、前記第2のメディア特徴にインデックスを付すことで、予め前記既知メディアの特徴インデックスを得ることとをさらに含む。
前述したメディア検索方法では、上述した個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して第1のランキングを行うことは、個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して単語頻度-逆ファイル頻度TF-IDFランキングを行うことを含む。
前述したメディア検索方法では、上述した個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して単語頻度-逆ファイル頻度TF-IDFランキングを行うことは、前記既知メディアの特徴インデックスを前記第1のメディア特徴単体とマッチングして、前記既知メディアに対して前記TF-IDFランキングを行うことを含む。
前述したメディア検索方法では、上述した予め前記既知メディアの特徴インデックスを得ることは、予め前記既知メディアの順引き特徴インデックス及び/又は逆引き特徴インデックスを得ることを含む。
前述したメディア検索方法では、上述した前記既知メディアの特徴インデックスを前記第1のメディア特徴単体とマッチングすることは、前記メディアの特徴インデックスを前記第1のメディア特徴単体と絶対マッチングすることを含む。
前述したメディア検索方法では、上述した複数の順次に並べた前記第1のメディア特徴単体に基づいて前記第1の候補メディア集合におけるメディアに対して第2のランキングを行うことは、前記既知メディアの特徴インデックスと前記第1のメディア特徴とに基づいて前記第1の候補メディア集合におけるメディアの類似度行列を得ること、並びに前記類似度行列内の直線に基づいて前記第1の候補メディア集合におけるメディアに対してランキングを行うことを含む。
前述したメディア検索方法では、上述した検索対象メディアのメディア特徴を第1のメディア特徴として取得することは、前記検索対象メディアの多種のタイプの第1のメディア特徴を取得することを含み、前述した予め前記既知メディアのメディア特徴を第2のメディア特徴として取得することは、前記既知メディアの多種のタイプの第2のメディア特徴を取得することを含み、上述した前記既知メディアの特徴インデックスと前記第1のメディア特徴とに基づいて前記第1の候補メディア集合におけるメディアの類似度行列を得ることは、前記多種のタイプの第2のメディア特徴及び前記多種のタイプの第1のメディア特徴に基づいて前記類似度行列を特定することを含む。
前述したメディア検索方法では、タイプ毎の前記第1のメディア特徴が複数の第1のメディア特徴単体を含み、タイプ毎の前記第2のメディア特徴が複数の第2のメディア特徴単体を含み、上述した前記多種のタイプの第2のメディア特徴及び前記多種のタイプの第1のメディア特徴に基づいて前記類似度行列を特定することは、同じタイプの前記第2のメディア特徴単体と前記第1のメディア特徴単体との間の単体類似度をそれぞれ特定して、多種の前記単体類似度を得ることを含み、前記多種の単体類似度の平均値又は最小値を特定し、前記多種の単体類似度の平均値又は最小値によって前記類似度行列を特定する。
前述したメディア検索方法では、予め検索対象メディアと既知メディアとを予め設定された時間長によってスライスし、複数の検索対象サブメディアと複数の既知サブメディアを取得し、前記複数の検索対象サブメディアと前記複数の既知サブメディアのそれぞれからメディア特徴を抽出して、長さが同様である複数の第1のサブメディア特徴と複数の第2のサブメディア特徴とを得ることをさらに含む。
前記第1のランキングを行う前に、取得した検索対象メディアの前記第1のメディア特徴と既知メディアの前記第2のメディア特徴を予め設定された長さによってスライスして、長さが同様である複数の第1のサブメディア特徴と複数の第2のサブメディア特徴とを得ることをさらに含む。
前述したメディア検索方法では、前記複数の第1のメディア特徴単体が前記第1のメディア特徴において時系列順に並べ、前記複数の第2のメディア特徴単体が前記第2のメディア特徴において時系列順次に並べた。
前述したメディア検索方法では、前述したメディア検索方法では、前記類似度行列内の直線によって前記検索対象メディアと前記検索結果内のメディアとの重複セグメントを特定することをさらに含む。
本開示の目的は、さらに以下の技術を採用して実現される。本開示により提出されたメディア検索装置は、検索対象メディアのメディア特徴を、複数の第1のメディア特徴単体を含む第1のメディア特徴として取得するためのメディア特徴取得モジュールと、個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して第1のランキングを行い、前記第1のランキングの結果に基づいて、最初からk個(kは正の整数)の前記既知メディアを第1の候補メディア集合として抽出するための第1のランキングモジュールと、複数の順次に並べた前記第1のメディア特徴単体に基づいて前記第1の候補メディア集合に対して第2のランキングを行い、前記第2のランキングの結果に基づいて、最初からn個(nは正の整数)の前記第1の候補メディアを検索結果として抽出するための第2のランキングモジュールとを備える。
本開示の目的も、以下の技術措置を採用してさらに実現されることができる。
前記メディア検索装置は、前述したいずれかのメディア検索方法ステップを実行するモジュールをさらに含む。
本開示の目的は、さらに以下の技術を採用して実現されることができる。本開示により提出されたメディア検索ハードウェア装置は、非一時的なコンピュータ読み取り可能な命令を記憶するためのメモリと、前記コンピュータ読み取り可能な命令を実行することで、プロセッサの実行時に前述したいずれかのメディア検索方法を実現するためのプロセッサとを備える。
本開示の目的は、さらに以下の技術を採用して実現される。本開示により提出されたコンピュータ読み取り可能な記憶媒体は、非一時的なコンピュータ読み取り可能な命令を記憶するために用いられ、前記非一時的なコンピュータ読み取り可能な命令がコンピュータによって実行される場合、前記コンピュータに前述したいずれかのメディア検索方法を実行させる。
本開示の目的は、さらに以下の技術を採用して実現される。本開示により提出された端末装置は、前述したいずれかのメディア検索装置を備える。
上述の説明は、単に本開示の技術の概述に過ぎず、本開示に係る技術的手段をさらに明らかにするために、明細書の内容に従って実施することができ、そして、本開示の上述した及びその他の目的、特徴、利点をさらに明らかに且つ理解しやすくするために、以下では、特に好ましい実施例を挙げ、図面を参照して以下のように説明する。
本開示の一実施例に係るメディア検索方法の模式フロー図である。 本開示の一実施例に係るメディア検索方法のブロックフロー図である。 本開示の一実施例に係る第1のランキングのブロックフロー図である。 本開示の一実施例に係る第2のランキングのブロックフロー図である。 本開示の一実施例に係る動的計画法によってシーケンス類似度スコアを特定するブロックフロー図である。 本開示の一実施例に係る等速メディア法によってシーケンス類似度スコアを特定するブロックフロー図である。 本開示の一実施例に係る多種のタイプの第1のメディア特徴、第2のメディア特徴に基づいて類似度行列を特定するブロックフロー図である。 本開示の一実施例に係るメディア検索装置の構成ブロック図である。 本開示の一実施例に係る第1のランキングモジュールの構成ブロック図である。 本開示の一実施例に係る第2のランキングモジュールの構成ブロック図である。 本開示の一実施例に係る多種のタイプの第1のメディア特徴、第2のメディア特徴に基づいて類似度行列を特定するメディア検索装置の構成ブロック図である。 本開示の一実施例に係るメディア検索ハードウェア装置のハードウェアブロック図である。 本開示の一実施例に係るコンピュータ読み取り可能な記憶媒体の模式図である。 本開示の一実施例に係る端末装置の構成ブロック図である。
本開示が所定の発明目的を達成するために採用した技術的手段及びその効果をさらに述べるために、以下では、図面及び好ましい実施例を参照して、本開示により提出されたメディア検索方法及び装置の具体的な実施形態、構成、特徴及びその役割を、次のように詳細に説明する。
図1は、本開示に係るメディア検索方法の一実施例の模式フローチャートであり、図2は、本開示に係るメディア検索方法の一実施例の模式ブロックフロー図である。図1と図2を参照して、本開示に示すメディア検索方法は、主として以下のステップを含む:
ステップS10:検索対象メディア(Query media)のメディア特徴を取得する。
具体的には、取得された当該メディア特徴は、1つ又は複数のメディア特徴単体を含む特徴シーケンスであり、各メディア特徴単体は、メディア特徴において先後の順に並べている。説明と理解の便宜上、検索対象メディアのメディア特徴を第1のメディア特徴と呼び、第1のメディア特徴に含まれたメディア特徴単体を第1のメディア特徴単体と呼んでもよい。その後、処理がステップS20に進む。
なお、本開示の各実施例に言及されたメディアは、オーディオ、ビデオ、連写された複数枚の写真等の各タイプのメディアであってよい。ここで、メディア特徴は、オーディオ特徴、ビデオ特徴又は画像特徴等であってよく、実際には、本開示に係る方法により、ビデオ対象のオーディオ特徴を取得することでビデオ対象の検索を行うことができる。
ステップS20:当該第1のメディア特徴に基づいて、複数の既知メディアに対して第1のランキングを行い、当該第1のランキングの結果に基づいて、最初からk個の既知メディアを第1の候補メディア集合として抽出する。ここで、kは正の整数であり、その具体的な値は設定されうる。具体的には、当該第1のランキングは、個別の第1のメディア特徴単体のそれぞれと既知メディアとのマッチング状況に基づいて行われるランキングである。さらに、当該第1のランキングは、各第1のメディア特徴単体によって既知メディアに対して行われた単語頻度-逆ファイル頻度ランキング(term frequency-inverse document frequency ranking、単にTF-IDFランキングという)であってよい。その後、処理がステップS30に進む。
ステップS30:当該第1のメディア特徴に基づいて、当該第1の候補メディア集合に対して第2のランキングを行い、当該第2のランキングの結果に基づいて、第1の候補メディア集合における最初からn個の第1の候補メディアを検索結果として抽出する。ここで、nは正の整数であるが、その具体的な値は設定されうる。具体的には、当該第2のランキングは、複数の順次に並べた第1のメディア特徴単体に基づいて、当該第1の候補メディア集合内のメディアに対して行われたランキングである。例えば、当該複数の順次に並べた第1のメディア特徴単体は、第1のメディア特徴における連続した一部を含み、当該第1のメディア特徴全体、及び/又は当該複数の順次に並べた第1のメディア特徴単体は、第1のメディア特徴における同様の間隔の番号を有する複数の第1のメディア特徴単体、例えば番号が1、3、5、7、...の複数の第1のメディア特徴単体を含む。
本開示の提出したメディア検索方法は、第1のランキングと第2のランキングとを行って検索結果を得ることで、メディア検索の正確度と効率を大幅に向上することができる。
以下、上述の各ステップについて、それぞれ詳細に説明する。
一、ステップS10について
ところで、メディア特徴の抽出方法及びメディア特徴のタイプは、限定されるものではない。本開示の一例においては、検索対象メディアの2値数メディア特徴を抽出し、又は予め得ておいたメディア特徴(具体的なタイプに限らない)を2値化することで、2値数メディア特徴を得ることができる。ここで、2値数メディア特徴におけるメディア特徴単体のそれぞれは、1つの0/1からなるビット列であり、これにより、当該2値数メディア特徴は、複数のビット列によって順次に並べたビット列シーケンスとなる。そして、別の例においては、検索対象メディアの浮動数メディア特徴を抽出することができ、浮動数メディア特徴内のメディア特徴単体のそれぞれは1つの浮動数であり、これにより、当該浮動数メディア特徴は、複数の浮動数によって順次に並べたシーケンスとなる。
ある実施例においては、ここでいう「順次に並べた」とは、メディア特徴において複数のメディア特徴単体が時系列順に並べている。例えば、予めメディア特徴を抽出する過程中において、まずメディア対象に対してフレーム抽出を行い、さらに1フレーム毎に1つのメディア特徴単体を生成して、各メディア特徴単体とメディア対象の各フレームとを対応させ、そして、各メディア特徴単体を各フレームのメディア対象における時系列順に並べてメディア特徴を得る。そのため、前述のメディア特徴単体をフレーム特徴と呼んでもよい。
二、ステップS20について
前述の既知メディアは、1つのメディアデータベース内のメディアであってもよい。当該メディアデータベースには、大量な既知メディアのメディア特徴が記憶されているとともに、記憶された既知メディアのメディア特徴には、第1のメディア特徴と同様の抽出方法によって得られた、第1のメディア特徴と同様のタイプのメディア特徴が含まれている。
本開示のある実施例においては、本開示に係るメディア検索方法は、以下のことを含む:予め複数の既知メディアのメディア特徴を取得する(説明と理解の便宜上、既知メディアのメディア特徴を第2のメディア特徴と呼び、第2のメディア特徴に含まれたメディア特徴単体を第2のメディア特徴単体と呼んでもよい);当該第2のメディア特徴に対してインデックスを付して、既知メディアの特徴インデックスを得ておく;当該特徴インデックスと第1のメディア特徴単体とをマッチングして、複数の既知メディアに対してTF-IDFランキングを行う。
具体的には、前述した既知メディアの特徴インデックスを得ておくことは、既知メディアのメディア特徴の順引き特徴インデックス(forward index)と逆引き特徴インデックス(inverted index)とを得ておくことで、メディア特徴に対する照合と検索を容易にすることをさらに含む。当該順引き特徴インデックスと逆引き特徴インデックスは、予めメディアデータベースに記憶することができる。ここで、順引き特徴インデックスは、各既知メディアのメディア特徴の記録のために用いられ、つまり、各既知メディアのメディア特徴が具体的にどのメディア特徴単体を含むか、及びこれらメディア特徴単体の順序を記録している。逆引き特徴インデックスは、各メディア特徴単体がどの既知メディアのメディア特徴に現れるかを記録するために用いられる。具体的には、キー値ペア(key-value pair)の形式によって当該順引き特徴インデックスと逆引き特徴インデックスを記憶する:順引き特徴インデックスにおいては、1つのキー(key)で1つのメディアの番号(又は、メディアIDという)を示すが、当該キーと対応した値(value)は、当該メディアがどのメディア特徴単体を含むか、及びこれらメディア特徴単体の順序を記録する。順引き特徴インデックスにおけるキー、値をそれぞれ順引きキー、順引き値と呼んでもよい。逆引き特徴インデックスにおいては、1つのキー(key)で1つのメディア特徴単体を示すが、当該キーと対応した値(value)は、当該メディア特徴単体を含むメディアの番号を記録する。逆引き特徴インデックスにおけるキー、値をそれぞれ逆引きキー、逆引き値と呼んでもよい。
ここでは、TF-IDFランキングは、情報に対して単語頻度及び逆ファイル頻度加重を行うことで、情報の重要さを判断してランキングを行う技術である。ここで、単語頻度とは、1つの単語(言い換えれば、1つの情報)がある文章(言い換えれば、あるファイル)に現れる頻度をいう。単語頻度が高いほど、当該単語が当該文章に対して重要度が高いことを反映している。ここで、ファイル頻度とは、1つの単語が文章ベースにおけるどれぐらいの文章に現れるかをいう。そして、逆ファイル頻度は、ファイル頻度の逆数(実際に算出する時に、逆ファイル頻度に対数を取り、又は逆ファイル頻度をファイル頻度の逆数の対数と定義してもよい)であり、逆ファイル頻度が高いほど、当該単語の区別度がよりよい。そのため、TF-IDFランキングは、単語頻度と逆ファイル頻度との積の大きさによってランキングを行う。実際には、1つのメディアのメディア特徴を1つの文章とし、メディア特徴単体のそれぞれを1つの単語とすることで、TF-IDF方式によって既知メディアに対してランキングを行うことができる。
なお、メディアデータベース内の全ての既知メディアに対して第1のランキングを行えば、検索効率に影響可能であるため、第1のランキングの前に、まずメディアデータベース内の既知メディアに対して絶対マッチング(exact match)を行うことができる。ここで、絶対マッチングは、含んだ第1のメディア特徴単体の数量が予め設定された数量又は予め設定された割合以上である既知メディアを第2の候補メディア集合として選出するために用いられる。そして、さらに当該第2の候補メディア集合に対して第1のランキングを行って第1の候補メディア集合を選出する。
図3は本開示の一実施例に係る第1のランキングの模式的ブロックフロー図である。図3を参照して、本開示の一実施例においては、第1のランキングは、具体的には以下のステップを含む:
ステップS21:逆引き特徴インデックスによって、各第1のメディア特徴単体がどの既知メディアの第2のメディア特徴に現れるかを統計することで、メディアデータベースから予め設定された数以上の第1のメディア特徴単体を含む既知メディアを第2の候補メディア集合としてマッチングして選出する。その後、処理がステップS22に進む。
なお、「予め設定された数以上の第1のメディア特徴単体」における「数量」は、第1のメディア特徴単体の種類をいう。具体的には、当該予め設定された数量は、1つであってもよく、これにより、マッチングして選出した第2の候補メディア集合は、第2のメディア特徴に少なくともいずれか1つの第1のメディア特徴単体が現れた既知メディアである。当該予め設定された数量は、複数であってもよく、例えば、p個(pは正の整数)であってもよい。これにより、マッチングして選出した第2の候補メディア集合は、第2のメディア特徴に少なくともp種類の第1のメディア特徴単体が現れた既知メディアである。
ステップS22:順引き特徴インデックスに基づいて、1つの第1のメディア特徴単体の、1つの第2の候補メディアの第2のメディア特徴における単語頻度を特定する。当該単語頻度は、1つの第1のメディア特徴単体の、1つの第2のメディア特徴が含む全てのメディア特徴単体において占める割合である。その後、処理がステップS23に進む。
ステップS23:逆引き特徴インデックスに基づいて、1つの第1のメディア特徴単体のファイル頻度を特定する。当該ファイル頻度は、複数の既知メディア(例えば、メディアデータベース内の全ての既知メディアであってもよい)において、第2のメディア特徴に当該第1のメディア特徴単体を含む既知メディアの数量が既知メディア総数に占める割合である。なお、各メディア特徴単体のファイル頻度を予め算出して記憶し、検索時に直接に当該予め算出されたファイル頻度データを読み取ることができる。その後、処理がステップS24に進む。
ステップS24:各第1のメディア特徴単体の、1つの第2の候補メディアの第2のメディア特徴における単語頻度及び各第1のメディア特徴単体のファイル頻度に基づいて、当該第2の候補メディアの単語頻度-逆ファイル頻度スコアを特定する。その後、処理がステップS25に進む。
ステップS25:得られた各第2の候補メディアの単語頻度-逆ファイル頻度スコアによって第2の候補メディア集合に対してランキングを行い、第1のランキングの結果を取得し、当該第1のランキングの結果から最初からk個の第2の候補メディアを第1の候補メディア集合として抽出する。同時に、各第1の候補メディアの第2のメディア特徴(順引き特徴インデックス)をリターンし、後のステップS30において当該第2のメディア特徴に基づいて第1の候補メディア集合に対してさらなる処理を行うことに備えてもよい。
本実施例においては、インデックスサーバによって検索対象メディアの第1のメディア特徴単体の集合をインデックス要求とし、前述した順引き特徴インデックスと逆引き特徴インデックスとによって、絶対マッチングとTF-IDFランキングを行うことで、第1の候補メディア集合をリコールするとともに、得られた各第1の候補メディアの順引き特徴インデックスをリターンすることができる。具体的には、オープンソースの弾性サーチ(Elasticsearch)検索エンジンによって上述の各ステップを行って高速検索の効果に達する。なお、インデックスサーバのインデックスリーコルの便利のために、予め第1のメディア特徴と第2のメディア特徴とを2値化処理することができる。
特に、絶対マッチングと第1のランキングは、各第1のメディア特徴単体がどの既知メディアに現れるか、及び第1のメディア特徴単体自身の検索状況に主眼があり、各第1のメディア特徴単体の第1のメディア特徴における順序による検索への影響を考えていない。言い換えれば、メディア特徴の全体、又は連続した複数のメディア特徴単体の検索状況を考えていない。
本開示の提出したメディア検索方法は、絶対マッチングと第1のランキングとを行うことで、メディア検索の正確度と効率を大幅に向上させることができる。
三、ステップS30について
本開示のある実施例においては、当該第2のランキングは、複数の順次に並べた第1のメディア特徴単体からなる先後があるシーケンスの、第1の候補メディアのメディア特徴に現れる状況に基づいて、当該第1の候補メディア集合内のメディアに対して行われるランキングである。具体的には、当該第2のランキングは、既知メディアの特徴インデックスと第1のメディア特徴とに基づいて当該第1の候補メディア集合内のメディアの類似度行列を得ることと、当該類似度行列に基づいて当該第1の候補メディア集合内のメディアに対してランキングを行うこととを含む。
図4は、本開示の一実施例に係る第2のランキングの模式的ブロックフロー図である。図4を参照して、本開示の一実施例においては、第2のランキングは、具体的には以下のステップを含む:
ステップS31:第1の候補メディア集合内の1つの第1の候補メディア(実際には、第1の候補メディアのそれぞれは既知メディアである)の第2のメディア特徴を取得する。具体的には、既知メディアの特徴インデックス(例えば、順引き特徴インデックス)に基づいて当該第2のメディア特徴を取得することができる。検索対象メディアの第1のメディア特徴が、M個の第1のメディア特徴単体を含み、当該第1の候補メディアの第2のメディア特徴が、M個の第2のメディア特徴単体を含むと想定されてもよく、ここで、MとMは正の整数である。なお、当該第1のメディア特徴と当該第2のメディア特徴とは、同じ種類のメディア特徴抽出方法によって得られた同じ種類のタイプのメディア特徴である。その後、処理がステップS32に進む。
ステップS32:当該第1の候補メディアの第2のメディア特徴が含む各第2のメディア特徴単体と各第1のメディア特徴単体との間の単体類似度を特定し、M×M個の単体類似度を得る。単体類似度のそれぞれは、1つの第1のメディア特徴単体と1つの第2のメディア特徴単体との間の類似程度を示している。具体的には、単体類似度が大きいほど、より類似することを示している。その後、処理がステップS33に進む。
本開示の実施例においては、メディア特徴のタイプによって、二つのメディア特徴単体の類似程度を判断可能な距離又はメトリックを当該単体類似度として選択することができる。
具体的には、第1のメディア特徴単体と、第2のメディア特徴単体とは同様に浮動数特徴である場合、第1のメディア特徴単体と第2のメディア特徴単体との間の余弦距離(余弦類似度)によって当該単体類似度を特定することができる。一般的に、当該余弦距離を直接に単体類似度として特定することができる。
そして、第1のメディア特徴単体と、第2のメディア特徴単体とは、同様に2値化特徴である場合、第1のメディア特徴単体と第2のメディア特徴単体との間のハミング距離(Hamming distance)によって当該単体類似度を特定することができる。具体的には、まず第1のメディア特徴単体と第2のメディア特徴単体との間のハミング距離を算出し、そして、メディア特徴単体の長さ(ビット数)と当該ハミング距離との差を算出し、当該差と当該メディア特徴単体の長さとの比の値を単体類似度として特定して、2つの2値化特徴における同じビットの占める割合を表すために用いる。ここで、ハミング距離は、情報論分野で常用されるメトリックであり、2つの等長文字列の間の的ハミング距離とは、2つの文字列の対応した位置の異なる文字の個数である。実際にハミング距離を算出する場合、2つの文字列に対して排他的論理和演算を行い、結果が1となる個数を統計し、そして、この個数がハミング距離となる。なお、同じ方法によって抽出して得られたメディア特徴単体は、同様の長さを持っている。
特に、余弦距離又はハミング距離によって当該単体類似度を表すことに限らず、2つのメディア特徴単体の類似程度を判断可能ないかなる距離或メトリックを利用することができる。
なお、各メディア特徴単体とメディア対象の各フレームとが対応していると、単体類似度をフレーム間類似度を呼んでもよい。
ステップS33:各単体類似度に基づいて当該第1の候補メディアと検索対象メディアとの間の類似度行列(similarity matrix)を特定する。
具体的には、当該類似度行列に1つの第1の候補メディアの各第2のメディア特徴単体と各第1のメディア特徴単体との間の単体類似度が記録されているように、当該類似度行列における点のそれぞれを1つの単体類似度と対応させる。そして、当該類似度行列の各点は、横方向では、検索対象メディアの各第1のメディア特徴単体の、第1のメディア特徴における先後の順に並べているとともに、縦方向では第1の候補メディアの各第2のメディア特徴単体の、第2のメディア特徴における先後の順に並べている。これにより、第i行第j列に位置する点は、検索対象メディアの第i個の第1のメディア特徴単体と第1の候補メディアの第j個の第2のメディア特徴単体との間の単体類似度を表し、さらに、当該類似度行列は、M×Mマトリックスとなる。その後、処理がステップS34に進む。
なお、実際の作業中、必ずしもステップS32の各単体類似度を算出してから、ステップS33の類似度行列の特定を行うことではなく、直接に類似度行列を特定し、かつ当該類似度行列の各点を特定する過程中において対応の単体類似度を算出することができる。
ステップS34:第1の候補メディアの類似度行列のそれぞれによって、当該第1の候補メディアのシーケンス類似度スコアを特定する。当該シーケンス類似度スコアは、当該第1の候補メディアと検索対象メディアとの間の類似程度を表すために用いられる。当該シーケンス類似度スコアは、0~1の間の点数であってもよく、その数字が大きいほど、2つのメディアがより類似していることを表す。その後、処理がステップS35に進む。
具体的には、類似度行列内の直線によって当該シーケンス類似度スコアを特定する。
特に、メディア特徴が一般的に有限な複数のメディア特徴単体を含むことで、類似度行列は有限なマトリックスである。そのため、実際には、いわゆる「直線」とは、類似度行列における複数の点からなる有限な長さを有する線分である。当該直線は傾きを有し、当該傾きは直線が含む複数の点を結ぶ線の傾きである。なお、当該直線の始点と終点は、類似度行列におけるいずれかの点であってもよく、必ずしも縁部に位置する点であることに限らない。
本開示でいう直線は、類似度行列における対角線と、当該対角線に平行な各線分である類似度行列において左上から右下までの傾きが1の直線を含み、さらに傾きが1でない直線を含む。例えば、メディア検索のロバスト性を高めるために、傾きが1に近似した直線であってもよく、変速を経たメディア対象の検索を対処するために、傾きが2、3、...又は1/2、1/3、...等の直線であってもよく、ひいては、逆再生処理を経たメディア対象の検索を対処するために、傾きが負の直線(類似度行列中で左下から右上までの直線)であってもよい。ここで、対角線は、(1,1)、(2,2)、(3,3)...に位置する点からなる線分(実際には、左上の点を始点とする傾きが1である直線)である。
実際には、類似度行列内の直線のそれぞれは、いずれも順次に並べた複数の単体類似度からなる。そのため、直線のそれぞれが複数の順次に並べたメディア特徴単体ペアの状況を同様に示すことで、検索対象メディア内の1つのメディアフラグメントと既知メディアにおける1つのメディアフラグメントとの類似程度を表すことができる。ここで、メディア特徴単体ペアのそれぞれは、1つの第1のメディア特徴単体と1つの第2のメディア特徴単体を含む(つまり、直線のそれぞれは、複数の順次に並べた第1のメディア特徴単体と複数の順次に並べた第2のメディア特徴単体との間の類似程度を表す)。そして、直線の傾き、始点、及び終点は、2つのメディアフラグメントの長さ、位置を表す。例えば、(1,1)、(2,3)、(3,5)、(4,7)からなる直線が、序数が1である第1のメディア特徴単体と序数が1である第2のメディア特徴単体との間の類似状況、序数が2である第1のメディア特徴単体と序数が3である第2のメディア特徴単体との間の類似状況、...を表していることで、当該直線は、序数が1、2、3、4である第1のメディア特徴単体の対応した1つの検索対象メディアフラグメントと序数が1、3、5、7である第2のメディア特徴単体の対応した1つの既知メディアフラグメントとの間の類似状況を反映することができる。
そのため、類似度行列内の直線によって1つの第1の候補メディアと検索対象メディアとの間の類似状況を特定することができる:1つの直線が含む各単体類似度の平均状況(又は総体状況)を当該直線の直線類似度として定義してもよい。当該直線類似度は、対応した複数の第1のメディア特徴単体と複数の第2のメディア特徴単体との間の類似状況を表すことができる;類似度行列においては、1つの直線類似度が最も高い直線を特定し、例えば、マッチング直線と呼ぶ;マッチング直線の直線類似度を第1の候補メディアのシーケンス類似度スコアとして特定する。
特にマッチング直線を特定する過程中、予め設定された複数の直線から1つの直線類似度が最も高い直線を特定してもよく、例えば、当該予め設定された複数の直線は、全ての傾きが予め設定された傾き設定値(例えば、傾きは1)である直線、又は、まず類似度行列から単体類似度の大きさのランクが前にある複数の点を選択してもよい。そして、これら点によって、1つの直線に適合して、直線類似度が相対に最も高くなる1つの直線を生成する。
ステップS35:各第1の候補メディアの当該シーケンス類似度スコアによって、第1の候補メディア集合に対してランキングを行い、第2のランキングの結果を取得し、当該第2のランキングの結果から最初からn個の第1の候補メディアを検索結果として抽出する。
本開示に係るメディア検索方法は、第2のランキングを行うことで、メディア検索の正確度と効率を大幅に向上させることができる。
本開示の一具体例においては、動的計画法を利用して類似度行列によってシーケンス類似度スコアを特定することができる。図5は、本開示の一実施例に係る動的計画法によってメディア検索を行う模式的ブロックフロー図。図5を参照して、一実施例においては、ステップS34は以下の具体的なステップを含む:
ステップS34-1a:類似度行列における傾きが予め設定された傾き設定値となる複数の直線を候補直線として定義し、候補直線のそれぞれが含む各単体類似度に基づいて当該候補直線の直線類似度を特定する。具体的には、1つの直線の直線類似度は、当該直線が含む各単体類似度の平均値に設定されてもよく、若しくは当該直線が含む各単体類似度の合計値にされてもよい。一具体例においては、傾き設定値を1として取ることができ、即ち、前述した候補直線は、類似度行列における対角線及び当該対角線に平行な直線である。その後、処理がステップS34-1bに進む。
特に、本開示の一実施例においては、ステップS34-1aは以下のことをさらに含む:まず候補直線からその含む単体類似度の数が予め設定された直線長さ設定値よりも少ない直線を排除し、そしてステップS34-1bに進む。言い換えれば、本実施例においては、候補直線は、その含む単体類似度の数が予め設定された直線長さ設定値に達したことを満たす必要がある。単体類似度が少なすぎる直線を排除することで、直線が含む単体類似度が少なく過ぎて最終に得られたシーケンス類似度スコアの正確度を影響するという問題を排除可能となる。
ステップS34-1b:当該複数の候補直線から、当該直線類似度が最も大きくなる1つの候補直線を特定し、それを第1のマッチング直線として定義する。その後、処理がステップS34-1cに進む。
ステップS34-1c:当該第1のマッチング直線の直線類似度をシーケンス類似度スコアとして特定する。
特に、本開示のある実施例においては、ステップS34-1aにおける予め設定された傾き設定値が複数であってもよい。即ち、候補直線は、傾きが複数の傾き設定値のいずれか1つと等しい直線である。例えば、候補直線は、傾きが1、-1、2、1/2等の直線であってよく、そして、ステップS34-1bにおいては、傾きが複数の傾き設定値のいずれか1つである複数の候補直線から1つの第1のマッチング直線を特定する。
本開示に係るメディア検索方法は、動的計画法を利用してシーケンス類似度スコアを特定することで、メディア検索の正確度及び効率を向上させることができる。
本開示の別の具体例においては、等速メディア法を利用して類似度行列に基づいてシーケンス類似度スコアを特定することができる。図6は、本開示の一実施例に係る等速メディア法によってメディア検索を行う模式的ブロックフロー図である。図6を参照して、一実施例においては、ステップS34は、以下の具体的なステップを含む:
ステップS34-2a:類似度行列から単体類似度が最も大きな複数の点を類似度極限値点として選択する。取られた類似度極限値点の具体的な数は、予め設定されることができる。その後、処理がステップS34-2bに進む。
ステップS34-2b:当該複数の類似度極限値点に基づいて、当該類似度行列において1つの直線を第2のマッチング直線として適合する。いくつかの具体例においては、当該複数の類似度極限値点に基づいて、予め設定された傾き設定値を有する、又は予め設定された傾き設定値に近い1つの直線を第2のマッチング直線として適合する。例えば、傾きが1に近い1つの直線に適合する。具体的には、RANSAC(Random Sample Consensus)法によって、当該類似度行列において傾きが傾き設定値に近い1つの直線に適合することができる。ここで、RANSAC法は、1組の異常データを含むサンプルデータセットによって、データの数理モデルパラメータを算出することで、有効サンプルデータを得る、常用の方法である。その後、処理がステップS34-2cに進む。
ステップS34-2c:当該第2のマッチング直線が含む複数の単体類似度に基づいてシーケンス類似度スコアを特定する。具体的には、当該第2のマッチング直線内の各単体類似度の平均値を当該シーケンス類似度スコアとして特定することができる。
本開示に係るメディア検索方法は、等速メディア法によってシーケンス類似度スコアを特定することで、メディア検索の正確度と効率を向上させることができる。
さらに、ここで類似度行列は、多種のメディア類似度から合わせて考えて得られるものであってよい。具体的には、本開示に係るメディア検索方法は、さらに以下のことを含む:検索対象メディアの多種のタイプの第1のメディア特徴を取得する;第1の候補メディア集合内のメディアの多種のタイプの第2のメディア特徴を取得する;多種のタイプの第2のメディア特徴及び多種のタイプの第1のメディア特徴に基づいて類似度行列を特定する。そして、多種のタイプメディア特徴に基づいた類似度行列によって第2のランキングを行う。
図7は、本開示の一実施例に係る多種のタイプの第1のメディア特徴と第2のメディア特徴とに基づいて類似度行列を特定してメディア検索を行う模式的ブロックフロー図である。図7を参照して、本開示の一実施例においては、本開示に係るメディア検索方法は、具体的には以下を含む:
ステップS41:検索対象メディアの多種のタイプの第1のメディア特徴を取得し、タイプ毎の第1のメディア特徴が複数の第1のメディア特徴単体を含む。その後、処理がステップS42に進む。
例えば、検索対象メディアの前述した浮動数特徴と2値化特徴とを同時に取得する。
ステップS42:1つの既知メディア(具体的には、前述した第1の候補メディア集合内のメディアであってよい)の多種のタイプの第2のメディア特徴を取得し、タイプ毎の第2のメディア特徴が複数の第2のメディア特徴単体を含む。多種のタイプの第2のメディア特徴にインデックスを付すことで、多種のメディア特徴に基づいた特徴インデックスを得る。その後、処理がステップS43に進む。
例えば、既知メディアの前述した浮動数特徴と2値化特徴とを同時に取得する。
ステップS43:同じタイプの当該第2のメディア特徴単体と当該第1のメディア特徴単体との間の単体類似度をそれぞれ特定する。これにより、多種のタイプのメディア特徴と対応して、多種の単体類似度を得ることができる。ここで、第2のメディア特徴単体は、特徴インデックスに基づいて得ることができる。その後、処理がステップS44に進む。
ステップS44:多種の単体類似度の平均値又は最小値を特定し、多種の単体類似度の当該平均値又は当該最小値に基づいて当該既知メディアの類似度行列を特定する。
その後、処理が前に例示するステップS34に進み、ステップS34においては、当該多種の単体類似度の平均値又は最小値に基づいた類似度行列によって、シーケンス類似度スコア及び第2のランキングの結果等を特定する。
多種の類似度の平均値又は最小値によって類似度行列を特定して得られる効果は、以下のことにある:一種類のメディア特徴による類似度を利用してメディア検索を行う時に誤マッチングする可能性があるが、多種のメディア特徴の類似度の平均値又は最小値を取ることで、当該誤マッチングの問題を減少又は排除することができる。これにより、メディア検索の正確度を向上させる。
なお、多種の単体類似度の平均値又は最小値を取る前に、各種の単体類似度が一致した取り得る値の範囲を有することを確保する必要がある。例えば、予め全てのタイプの単体類似度の取り得る値の範囲を、いずれも0~1に設定することができる。実際には、前述した余弦距離によって特定された単体類似度の例、及びハミング距離によって特定された単体類似度の例はいずれも、単体類似度の取り得る値の範囲を既に0~1に設定している。
本開示のある実施例においては、取得された検索対象メディアの第1のメディア特徴には、第1のメディア特徴単体の信頼できる程度を表すための第1の信頼度フィールドがさらに含まれている、及び/又は取得された既知メディアの第2のメディア特徴には、第2のメディア特徴単体の信頼できる程度を表すための第2の信頼度フィールドがさらに含まれている;さらに、当該メディア検索方法は、以下のことを備えても良い:単体類似度又はシーケンス類似度スコアを特定する場合、当該第1の信頼度フィールド及び/又は当該第2の信頼度フィールドによって加重を行い、信頼度の高い方に高い重みを与え、信頼度の低い方に低い重みを与え、そして、加重後に得られたシーケンス類似度スコアによって第2のランキングを行う。なお、当該信頼度フィールドは、メディア特徴に記録されてよく、若しくは、メディア特徴に含まれずに個別に記憶され、単にメディア特徴と信頼度フィールドとの対応関係を配置しておけばよい。
本開示のある実施例においては、当該メディア検索方法は、さらに以下のことを含む:第1のランキングを行う前に、得られた検索対象メディアの第1のメディア特徴及び既知メディアの第2のメディア特徴を予め設定された一定の長さによってスライスし、複数の長さが同様の(同じ数のメディア特徴単体を含む)第1のサブメディア特徴と第2のサブメディア特徴(例えば、第2のメディア特徴にインデックスを付すステップを含む実施例では、インデックスを付す前にスライスするのである)とを得る;及び/又は、メディア特徴を取得する前に、予め検索対象メディア及び既知メディアを予め設定された一定の時間長によってスライスし、複数の時間長が同様である検索対象メディアフラグメントと既知メディアフラグメントとを取得し、そして、各検索対象メディアフラグメントと既知メディアフラグメントのメディア特徴とをそれぞれ取得し、各検索対象メディアフラグメントの第1のサブメディア特徴と各既知メディアフラグメントの第2のサブメディア特徴とを得る。その後、第1のサブメディア特徴、第2のサブメディア特徴のそれぞれに基づいて、前述した第1のランキングと第2のランキングのステップを行い、各サブメディア特徴の検索結果を取得し、そして各サブメディア特徴の検索結果によって、元の検索対象メディアの検索結果を得る。
メディア又はメディア特徴を一定の長さによってスライスして得られる効果は、以下のことにある:1、TF-IDFランキングがより公平になる;2、求められた単体類似度、シーケンス類似度スコアがより正確になる;3、長さを統一することでメディア特徴及び特徴インデックスの記憶に寄与している。
本開示のある実施例においては、第1のメディア特徴内の複数の第1のメディア特徴単体及び第2のメディア特徴内の複数の第2のメディア特徴単体は、配列が時間的である。例えば、時間の先後の順に並べている。このとき、本開示に係るメディア検索方法は、以下のことをさらに含む:前述の類似度行列に基づいて検索対象メディアと既知メディア(具体的には、前述した検索結果内のメディアであってよい)との重複したセグメントを特定する。具体的には、類似度行列内の直線の始点と終点によって、両メディアにおける重複セグメントの開始・停止時間を得る。例えば、前述した第1のマッチング直線又は第2のマッチング直線の始点と終点によって、検索対象メディアと既知メディアにおける重複セグメントの開始・停止時間を得ることができる。
ここで、類似度行列内の直線(例えば、マッチング直線)に基づいて重複セグメントを特定する具体的な方法は、以下のことであってもよい:直線の始点に対応した第1のメディア特徴単体の序数(言い換えれば、類似度行列における横座標)によって検索対象メディアにおける重複セグメントの開始時間を特定する一方、当該始点に対応した第2のメディア特徴単体の序数(言い換えれば、類似度行列における縦座標)によって第1の候補メディアにおける重複セグメントの開始時間を特定する;同様に、直線の終点の横座標によって検索対象メディアにおける重複セグメントの終了時間を特定する一方、当該終点の縦座標によって第1の候補メディアにおける重複セグメントの終了時間を特定する。
本開示のある実施例(例えば前述した図5と図6に示す実施例)においては、ステップS34は、以下のことをさらに含む:得られた第1のマッチング直線又は第2のマッチング直線の最初の部分と最後の部分を検出し、当該第1のマッチング直線/第2のマッチング直線の最初の部分と最後の部分の点(単体類似度)が予め設定された単体類似度設定値に達しているかを判断し、第1のマッチング直線/第2のマッチング直線の最初の部分と最後の部分における当該単体類似度設定値に達していない(即ち、単体類似度が高くない)部分を除去し、その間の直線を保留して第3のマッチング直線として定義する;当該第3のマッチング直線の直線類似度に基づいてシーケンス類似度スコアを特定する、及び/又は当該第3のマッチング直線の始点と終点に基づいて既知メディアと検索対象メディアとの重複セグメントの開始・停止時間を特定する。マッチング直線の最初の部分と最後の部分における類似度の高くない部分を除去し、その間にある類似度の高い直線を保留した後に、さらに既知メディアと検索対象メディアとの類似状況を特定することで、メディア検索の正確度を向上させることができ、より正確な重複セグメントを得ることができる。
ここで、マッチング直線の最初/最後の部分における当該単体類似度設定値に達していない部分を除去する具体的な方法は、以下のことであってもよい:マッチング直線の始点/終点から中央に向かって順にチェックし、当該単体類似度設定値に達しているかを判断し、当該単体類似度設定値に達した第1個の点を見つけた後、当該点と始点/終点との間にある複数の点を除去する。
特に、当該単体類似度設定値は、単体類似度の具体的な数値であってもよく、チャックする際にある点が当該数値に達したかを判断する。当該単体類似度設定値は、割合であってもよく、チェックする際にある点と第1のマッチング直線/第2のマッチング直線が含む全ての点の平均値又は最大値とを比較して、当該割合に達したかを判断する。
図8は、本開示的メディア検索装置100の一実施例の模式的構成図である。図8を参照して、本開示に示すメディア検索装置100は、主として以下のモジュールを含む:
検索対象メディア(Query media)のメディア特徴を第1のメディア特徴として取得するためのメディア特徴取得モジュール110。当該第1のメディア特徴は、複数の第1のメディア特徴単体を含む。
当該第1のメディア特徴によって、複数の既知メディアに対して第1のランキングを行い、当該第1のランキングの結果に基づいて、最初からk個の既知メディアを第1の候補メディア集合として抽出するための第1のランキングモジュール120。ここで、kは正の整数であるが、kの具体的な取り得る値は設定可能である。具体的には、当該第1のランキングモジュール120は、個別の第1のメディア特徴単体と既知メディアとのそれぞれのマッチング状況に基づいてランキングを行うことに用いられる。さらに、当該第1のランキングモジュール120は、各第1のメディア特徴単体に基づいて既知メディアに対して単語頻度-逆ファイル頻度TF-IDFランキングを行うことに用いられることができる。
当該第1のメディア特徴によって、当該第1の候補メディア集合に対して第2のランキングを行い、当該第2のランキングの結果に基づいて、第1の候補メディア集合における最初からn個の第1の候補メディアを検索結果として抽出するための第2のランキングモジュール130。ここで、nは正の整数であるが、nの具体的な取り得る値は設定可能である。具体的には、当該第2のランキングモジュール130は、複数の順次に並べた第1のメディア特徴単体に基づいて第1の候補メディア集合におけるメディアに対してランキングを行うことに用いられる。
前述した既知メディアは、1つのメディアデータベース内のメディアであってもよい。当該メディアデータベースには、大量な既知メディアのメディア特徴が記憶されているとともに、記憶された既知メディアのメディア特徴には、第1のメディア特徴と同様の抽出方法によって得られた、第1のメディア特徴と同様のタイプの特徴を有するメディア特徴が含まれている。
本開示のある実施例においては、本開示に係るメディア検索装置100は、複数の既知メディアのメディア特徴を第2のメディア特徴として取得するための特徴インデックス取得モジュール(図示せず)をさらに含む。当該第2のメディア特徴は、複数の第2のメディア特徴単体を含み、当該第2のメディア特徴にインデックスを付すことで、既知メディアの特徴インデックスを得る。そして、第1のランキングモジュール120は具体的には、当該特徴インデックスを第1のメディア特徴単体とマッチングを行うことで複数の既知メディアに対してTF-IDFランキングを行うことに用いられる。
さらに、当該特徴インデックス取得モジュールは、既知メディアの順引き特徴インデックス(forward index)と逆引き特徴インデックス(inverted index)を得るために用いられる。
なお、メディアデータベース内のすべての既知メディアに対して第1のランキングを行うと、検索効率を影響する可能性があるため、本開示に係る第1のランキングモジュール120は、第1のランキングの前に、複数の既知メディアに対して絶対マッチング(exact match)を行っておくための絶対マッチングサブモジュール121を含めてもよい。ここで、絶対マッチングは、含んだ第1のメディア特徴単体の数が予め設定された数又は予め設定された割合以上である既知メディアを第2の候補メディア集合として選択するために用いられる。そして、当該第2の候補メディア集合に対して第1のランキングを行うことで、第1の候補メディア集合を選択する。
図9は、本開示の一実施例に係る第1のランキングモジュール120の模式的構成図である。図9を参照して、本開示の一実施例においては、当該第1のランキングモジュール120は、具体的には以下のモジュールを含む:
逆引き特徴インデックスに基づいて、各第1のメディア特徴単体がどの既知メディアの第2のメディア特徴に現れるかを統計して、メディアデータベースから予め設定された数以上の第1のメディア特徴単体を含む既知メディアを第2の候補メディア集合として選択するための絶対マッチングサブモジュール121。
順引き特徴インデックスに基づいて、1つの第1のメディア特徴単体の、1つの第2の候補メディアの第2のメディア特徴における単語頻度を特定するための単語頻度特定サブモジュール122。
逆引き特徴インデックスに基づいて、1つの第1のメディア特徴単体のファイル頻度を特定するためのファイル頻度特定サブモジュール123。
各第1のメディア特徴単体の、1つの第2の候補メディアの第2のメディア特徴における単語頻度及び各第1のメディア特徴単体のファイル頻度に基づいて、当該第2の候補メディアの単語頻度-逆ファイル頻度スコアを特定するための単語頻度-逆ファイル頻度スコアサブモジュール124。
得られた各第2の候補メディアの単語頻度-逆ファイル頻度スコアによって第2の候補メディア集合に対してランキングを行い、第1のランキングの結果を取得し、当該第1のランキング結果から、最初からk個の第2の候補メディアを第1の候補メディア集合として抽出するための第1のランキングサブモジュール125;当該第1のランキングサブモジュール125はさらに、各第1の候補メディアの第2のメディア特徴(順引き特徴インデックス)を第2のランキングモジュール130にリターンさせて、後続のさらなる処理に備えるために用いられる。
本開示のある実施例においては、当該第2のランキングは、複数の順次に並べた第1のメディア特徴単体からなる先後の順を有するシーケンスの、第1の候補メディアのメディア特徴に現れる状況に基づいて、当該第1の候補メディア集合内のメディアに対して行われるランキングである。具体的には、当該第2のランキングモジュール130は、既知メディアの特徴インデックスと第1のメディア特徴とに基づいて当該第1の候補メディア集合内のメディアの類似度行列を取得し、当該類似度行列に基づいて当該第1の候補メディア集合内のメディアに対してランキングを行うために用いられる。
図10は、本開示の一実施例に係る第2のランキングモジュール130の模式的構成図である。図10を参照して、本開示の一実施例においては、当該第2のランキングモジュール130は、具体的には以下のモジュールを含む:
第1の候補メディア集合内の1つの第1の候補メディア(実際には第1の候補メディアのそれぞれが既知メディアである)の第2のメディア特徴を取得するための第2のメディア特徴取得サブモジュール131。具体的には、既知メディアの特徴インデックス(例えば、順引き特徴インデックス)に基づいて当該第2のメディア特徴を取得することができる。
当該第1の候補メディアの第2のメディア特徴が含む各第2のメディア特徴単体と各第1のメディア特徴単体との間の単体類似度を特定するための単体類似度第一特定サブモジュール132。
各単体類似度に基づいて、当該第1の候補メディアと検索対象メディアとの間の類似度行列を特定するための類似度行列第一特定サブモジュール133。
第1の候補メディア毎の類似度行列に基づいて、当該第1の候補メディアのシーケンス類似度スコアを特定するためのシーケンス類似度スコア特定サブモジュール134。具体的には、シーケンス類似度スコア特定サブモジュール134は、類似度行列内の直線に基づいて当該シーケンス類似度スコアを特定するために用いられる。
各第1の候補メディアの当該シーケンス類似度スコアに基づいて第1の候補メディア集合に対してランキングを行い、第2のランキングの結果を取得し、当該第2のランキングの結果から、最初からn個の第1の候補メディアを検索結果として抽出するための第2のランキングサブモジュール135。
本開示の一実施例においては、当該シーケンス類似度スコア特定サブモジュール134は具体的には、前述した動的計画法のそれぞれの具体的なステップによって当該シーケンス類似度スコアを特定するために用いられる。
本開示の一実施例においては、当該シーケンス類似度スコア特定サブモジュール134は具体的には、前述した等速メディア法のそれぞれの具体的なステップによって当該シーケンス類似度スコアを特定するために用いられる。
さらに、ここで、類似度行列は、多種のメディア的類似度から合わせて考えて得られたものである。図11は、本開示の一実施例に係る多種のタイプの第1のメディア特徴と第2のメディア特徴に基づいて類似度行列を特定するメディア検索装置100の模式的構成図である。図11を参照して、本開示の一実施例においては、本開示に係るメディア検索装置100は、以下のモジュールをさらに含む:
検索対象メディアの多種のタイプの第1のメディア特徴を取得するために用いられ、タイプ毎の第1のメディア特徴が複数の第1のメディア特徴単体を含む多タイプ第一メディア特徴取得モジュール140。
1つの既知メディア(具体的には、前述した第1の候補メディア集合内のメディアであってもよい)の多種のタイプの第2のメディア特徴を取得するために用いられ、タイプ毎の第2のメディア特徴が複数の第2のメディア特徴単体を含む多タイプ第二メディア特徴取得モジュール150。いくつかの例においては、多種のタイプの第2のメディア特徴にインデックスを付すことで、多種のメディア特徴に基づいた特徴インデックスを得るために用いられる特徴インデックス取得モジュール(図示せず)を含めてもよい。
同じタイプの当該第2のメディア特徴単体と当該第1のメディア特徴単体との間の単体類似度をそれぞれ特定することで、多種の単体類似度を得るための単体類似度第二特定サブモジュール160。ここで、第2のメディア特徴単体は、特徴インデックスに基づいて得ることができる。
多種の単体類似度の平均値又は最小値を特定し、多種の単体類似度の当該平均値又は当該最小値に基づいて当該既知メディアの類似度行列を特定するための類似度行列第二特定サブモジュール170。
さらに、前述したシーケンス類似度スコア特定サブモジュール134は、当該多種の単体類似度の平均値又は最小値に基づいた類似度行列によってシーケンス類似度スコアを特定するために用いられる。
本開示のある実施例においては、得られた検索対象メディアの第1のメディア特徴には、第1のメディア特徴単体の信頼できる程度を表すための第1の信頼度フィールドがさらに含まれている、及び/又は、得られた既知メディアの第2のメディア特徴には、第2のメディア特徴単体の信頼できる程度を表すための第2の信頼度フィールドがさらに含まれている;当該第2のランキングモジュール130は、さらに、単体類似度又はシーケンス類似度スコアを特定する場合、当該第1の信頼度フィールド及び/又は当該第2の信頼度フィールドによって加重を行い、信頼度の高い方に高い重みを与え、信頼度の低い方に低い重みを与え、そして、加重後に得られたシーケンス類似度スコアに基づいて第2のランキングを行うために用いられる。
本開示のある実施例においては、当該メディア検索装置100は、さらにメディアスライシングモジュール(図示せず)を含む。当該メディアスライシングモジュールは、第1のランキングを行う前に、得られた検索対象メディアの第1のメディア特徴及び既知メディアの第2のメディア特徴を予め設定された一定の長さによってスライスし、複数の長さが同様の(同じ数のメディア特徴単体を含む)第1のサブメディア特徴と第2のサブメディア特徴を得るために用いられる、及び/又は、当該メディアスライシングモジュールは、メディア特徴を取得する前に、予め検索対象メディア及び既知メディアを予め設定された一定の時間長によってスライスし、複数の時間長が同様の検索対象メディアフラグメントと既知メディアフラグメントを取得するために用いられる。そして、各検索対象メディアフラグメントと既知メディアフラグメントのメディア特徴とをそれぞれ取得し、各検索対象メディアフラグメントの第1のサブメディア特徴、各既知メディアフラグメントの第2のサブメディア特徴を得るために用いられる。そして、前述した第1のランキングモジュール120と第2のランキングモジュール130とは、第1のサブメディア特徴及び第2のサブメディア特徴のそれぞれに基づいて前述した第1のランキングと第2のランキングのステップを行って、各サブメディア特徴の検索結果を取得し、そして、各サブメディア特徴の検索結果に基づいて元の検索対象メディアの検索結果を特定する。
本開示のある実施例においては、第1のメディア特徴内の第1のメディア特徴単体及び第2のメディア特徴内の第2のメディア特徴単体は、配列が時間的である。このとき、本開示に係るメディア検索装置100は、前述した類似度行列に基づいて検索対象メディアと既知メディアとの重複セグメントを特定するための重複メディアフラグメント特定モジュール(図示せず)をさらに含む。具体的には、当該重複メディアフラグメント特定モジュールは具体的に、類似度行列内の直線の始点と終点に基づいて両メディアにおける重複セグメントの開始・停止時間を得るために用いられる。
図12は、本開示の実施例に係るメディア検索ハードウェア装置を図示するハードウェアブロック図である。図12に示すように、本開示の実施例に係るメディア検索ハードウェア装置200は、メモリ201とプロセッサ202とを含む。メディア検索ハードウェア装置200内の各構成要素は、バスシステム及び/又はその他の形式の接続機構(図示せず)によって相互に接続されている。
当該メモリ201は、非一時的なコンピュータ読み取り可能な命令を記憶するために用いられる。具体的には、メモリ201は、1つ又は複数のコンピュータプログラム製品を含めてもよい。当該コンピュータプログラム製品は、各種の形式のコンピュータ読み取り可能な記憶媒体、例えば揮発性メモリ及び/又は不揮発性メモリを含めてもよい。当該揮発性メモリは、例えばランダムアクセスメモリ(RAM)及び/又はキャッシュ(cache)等を含めてもよい。当該不揮発性メモリは、例えば読み取り専用メモリ(ROM)、ハードディスク、フラッシュメモリ等を含めてもよい。
当該プロセッサ202は、中央処理ユニット(CPU)又はデータ処理能力及び/又は命令実行能力を有する別の形式の処理ユニットであってもよく、そしてメディア検索ハードウェア装置200におけるその他の構成要素を制御して所望の機能を実行することができる。本開示の一実施例においては、当該プロセッサ202は、当該メディア検索ハードウェア装置200が前述した本開示の各実施例に係るメディア検索方法の全て又は一部のステップを実行するように、当該メモリ201に記憶された当該コンピュータ読み取り可能な命令を実行するために用いられる。
図13は、本開示の実施例に係るコンピュータ読み取り可能な記憶媒体を図示する模式図である。図13に示すように、本開示の実施例に係るコンピュータ読み取り可能な記憶媒体300には、非一時的なコンピュータ読み取り可能な命令301が記憶されている。当該非一時的なコンピュータ読み取り可能な命令301がプロセッサによって実行される場合、前述した本開示の各実施例に係るメディア検索方法の全て又は一部のステップを実行する。
図14は、本開示の実施例に係る端末装置を図示するハードウェア構成模式図である。端末装置は、各種の形式で実施されることができる。本開示にかかる端末装置は、例えば携帯電話、スマートフォン、ノートパソコン、デジタル放送受信機、PDA(パーソナルディジタルアシスタント)、PAD(タブレットコンピュータ)、PMP(携帯型マルチメディアプレイヤー)、ナビゲーション装置、車載端末装置、車載表示端末、車載電子ミラー等の携帯端末装置、並びに例えばデジタルTV、デスクトップコンピュータ等の固定端末装置を含むが、それに限らない。
図14に示すように、端末装置1100は、無線通信ユニット1110、A/V(オーディオ/ビデオ)入力ユニット1120、ユーザ入力ユニット1130、センシングユニット1140、出力ユニット1150、メモリ1160、インターフェースユニット1170、コントローラー1180及び電源ユニット1190等を含めてもよい。図14は、各種のアセンブリを有する端末装置を示しているが、示された全てのアセンブリを実施することが要求されず、それに代わってより多い又はより少ないアセンブリを実施してもよいことが理解されるべきである。
ここで、無線通信ユニット1110により、端末装置1100と無線通信システム又はネットとの間の無線通信が可能となる。A/V入力ユニット1120は、オーディオ又はビデオ信号を受信するために用いられる。ユーザ入力ユニット1130は、ユーザの入力した命令によってキー入力データを生成して端末装置の各種の動作を制御することができる。センシングユニット1140は、端末装置1100の現在の状態、端末装置1100の位置、ユーザの端末装置1100に対するタッチ入力の有無、端末装置1100の配向、端末装置1100の加速又は減速の移動及び方向等を検出するとともに、端末装置1100の動作を制御するための命令又は信号を生成する。インターフェースユニット1170は、少なくとも1つの外部装置と端末装置1100との接続を可能にするインターフェースとして用いられる。出力ユニット1150は、視覚、オーディオ及び/又は触覚の方式で出力信号を提供するように構成される。メモリ1160は、コントローラー1180によって実行される処理及び動作を制御するソフトウェアプログラム等を記憶することができ、若しくは、既に出力された又は出力されるデータを一時的に記憶することができる。メモリ1160は、少なくとも一つのタイプの記憶媒体を含むことができる。そして、端末装置1100は、ネットワーク接続によってメモリ1160の記憶機能を実行するネット記憶装置と協働することができる。コントローラー1180は、通常、端末装置の全体的な動作を制御する。なお、コントローラー1180は、マルチメディアデータを再現、再生するためのマルチメディアモジュールを含めてもよい。コントローラー1180は、タッチスクリーンで実行された手書き入力又は画像描画入力を文字又は画像として識別するために、モード識別処理を実行することができる。電源ユニット1190は、コントローラー1180の制御によって、外部電力又は内部電力を受けるとともに、各素子及びアセンブリを動作させることに必要な適当な電力を提供する。
本開示に係るメディア検索方法の各実施形態は、例えばコンピュータソフトウェア、ハードウェア又はそれらのいかなる組み合わせを使用するコンピュータ可読媒体によって実施されることができる。ハードウェア実施に関しては、本開示に係るメディア検索方法の各種の実施形態は、特定用途集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラー、マイクロコントローラー、マイクロプロセッサ、ここで説明した機能を実行するように設計される電子ユニットのうち少なくとも1つを使用することで実施されることができる。ある場合においては、本開示に係るメディア検索方法の各種の実施形態は、コントローラー1180において実施可能である。ソフトウェア実施に関しては、本開示に係るメディア検索方法の各種の実施形態は、少なくとも一種類の機能又は動作を実行できる個別のソフトウェアモジュールによって実施されることができる。ソフトウェアコードは、いかなる適当なプログラミング言語で書かれたソフトウェアアプリケーション(又は、プログラム)によって実施され、メモリ1160に記憶されるとともに、コントローラー1180によって実行されることができる。
以上では、本開示の実施例に係るメディア検索方法、装置、ハードウェア装置、コンピュータ読み取り可能な記憶媒体及び端末装置は、検索対象メディアのメディア特徴における個別のメディア特徴単体それぞれに基づいた第1のランキング、及び検索対象メディアのメディア特徴における複数の順次に並べたメディア特徴単体に基づいた第2のランキングを行って検索結果を得ることで、メディア検索の正確度と効率を大幅に向上させることができる。
以上、具体的な実施例を参照しながら本開示の基本的なメカニズムを説明しており、しかし、本開示で言及された利点、優勢、効果などは制限ではなく、単なる例であり、これらの利点、優勢、効果などは本開示の各実施例に必要であると考えてはいけないことに留意すべきである。また、上記に開示の具体的な詳細は制限ではなく、例示および理解のためのものであり、上記詳細は、本開示が上記具体的な詳細によって実現しなければならないことを制限しない。
本開示で言及されたデバイス、装置、設備、システムのブロック図は、例示的な例に過ぎず、且つブロック図に示された方法に従って接続、レイアウト、配置しなければならないことを意図するものではない。当業者が理解されるように、任意の方法でこれらのデバイス、装置、設備、システムを接続、レイアウト、配置してもよい。「備える」、「含む」、「有する」などの用語は、オープン言葉であり、「を含むが、これらに制限されない」を意味し、且つ互いに交換可能に使用することができる。本明細書で使用された言葉「又は」と「及び」とは、言葉「及び/又は」を意味しており、且つ文脈からそうでないことが明確に示されていない限り、互いに交換可能に使用することができる。本明細書で使用された言葉「例えば」とは、フレーズ「例えば、であるが、これらに制限されない」を意味しており、且つ互いに交換可能に使用することができる。
また、ここで使用されたように、「少なくとも1つ」から始まる項目リスト内で使用される「又は」は、離接的リストを表しており、例えば、「A、B、又はCのうちの少なくとも1つ」のリストは、A又はB又はC、又はAB又はAC又はBC、又はABC(即ち、A及びB及びC)を意味する。さらに、「例示的な」という用語は、説明される例が好ましい又は他の例よりも好ましいことを意味しない。
なお、本開示のシステム及び方法において、各部材又は各ステップが分解及び/又は再結合され得る。これらの分解及び/又は再結合は本開示の均等技術と見なされるべきである。
ここで記載の技術への様々な変化、置換、及び変更を、添付の特許請求の範囲によって規定される教示の技術から逸脱せずに行うことができる。さらに、本開示のクレームの範囲は、上述した処理、機器、製造、イベントの構成、手段、方法、及び動作の特定の態様に限定されない。ここで記載の対応する態様とほぼ同じ機能を実行するか、又はほぼ同じ結果を達成する、現在に存在するか、又は後に開発される処理、機器、製造、イベントの構成、手段、方法又は動作を利用することができる。従って、添付のクレームは、その範囲内でのそのような処理、機器、製造、イベントの構成、手段、方法又は動作を含む。
いかなる当業者は本開示を成し得る又は使用することができるように、公開する態様の以上の説明を提供した。これらの態様に対する各種の修正は、当業者にとって明らかであって、そして、ここで定義した一般的な原理は、本開示の範囲を逸脱することなく、その他の態様に適用されることができる。そこで、本開示は、ここに示す態様に限られることを意図しなく、ここで開示した原理と新規的特徴とが一致となる最も広い範囲に準じる。
例示と説明のために、以上のように述べた。また、この説明は、本開示の実施例をここで開示された形式に限ることを意図しない。以上では複数の例示的な態様と実施例を説明したものの、当業者は、そのある変形、修正、変更、添加及び下位組み合わせを認識する。
100 メディア検索装置
110 メディア特徴取得モジュール
120 第1のランキングモジュール
121 絶対マッチングサブモジュール
122 単語頻度特定サブモジュール
123 ファイル頻度特定サブモジュール
124 単語頻度-逆ファイル頻度スコアサブモジュール
125 第1のランキングサブモジュール
130 第2のランキングモジュール
131 第2のメディア特徴取得サブモジュール
132 単体類似度第一特定サブモジュール
133 類似度行列第一特定サブモジュール
134 シーケンス類似度スコア特定サブモジュール
135 第2のランキングサブモジュール
140 多タイプ第一メディア特徴取得モジュール
150 多タイプ第二メディア特徴取得モジュール
160 単体類似度第二特定サブモジュール
170 類似度行列第二特定サブモジュール
200 メディア検索ハードウェア装置
201 メモリ
202 プロセッサ
300 記憶媒体
301 命令
1100 端末装置
1110 無線通信ユニット
1120 A/V入力ユニット
1130 ユーザ入力ユニット
1140 センシングユニット
1150 出力ユニット
1160 メモリ
1170 インターフェースユニット
1180 コントローラー
1190 電源ユニット

Claims (16)

  1. メディア検索装置が実行する方法であって、
    検索対象メディアのメディア特徴を、複数の第1のメディア特徴単体を含む第1のメディア特徴として取得することと、
    個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して第1のランキングを行い、前記第1のランキングの結果に基づいて最初から正の整数であるk個の前記既知メディアを第1の候補メディア集合として抽出することと、
    複数の順次に並べた前記第1のメディア特徴単体に基づいて前記第1の候補メディア集合に対して第2のランキングを行い、前記第2のランキングの結果に基づいて最初から正の整数であるn個の前記第1の候補メディアを検索結果として抽出することと
    を含み、
    予め前記既知メディアのメディア特徴を、複数の第2のメディア特徴単体を含む第2のメディア特徴として取得することと、
    前記第2のメディア特徴にインデックスを付すことで、前記既知メディアの特徴インデックスを得ておくことと
    をさらに含み、
    前述した複数の順次に並べた前記第1のメディア特徴単体に基づいて前記第1の候補メディア集合におけるメディアに対して第2のランキングを行うことは、前記既知メディアの特徴インデックスと前記第1のメディア特徴とに基づいて前記第1の候補メディア集合におけるメディアの類似度行列を取得し、所定の直線特定方法に従い前記類似度行列内から選択された複数類似度によって特定される直線類似度がもっとも大きくなる1つの直線をマッチング直線として特定し、該マッチング直線の直線類似度を前記第1の候補メディアのシーケンス類似度スコアとして特定し、各第1の候補メディアの前記シーケンス類似度スコアに基づいて前記第1の候補メディア集合におけるメディアに対してランキングを行うことを含むメディア検索方法。
  2. 前述した個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して第1のランキングを行うことは、個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して単語頻度-逆ファイル頻度TF-IDFランキングを行うことを含む
    請求項に記載のメディア検索方法。
  3. 前述した個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して単語頻度-逆ファイル頻度TF-IDFランキングを行うことは、前記既知メディアの特徴インデックスと前記第1のメディア特徴単体とをマッチングすることで、前記既知メディアに対して前記TF-IDFランキングを行うことを含む
    請求項に記載のメディア検索方法。
  4. 前述した前記既知メディアの特徴インデックスを得ておくことは、前記既知メディアの順引き特徴インデックス及び/又は逆引き特徴インデックスを得ておくことを含む
    請求項に記載のメディア検索方法。
  5. 前述した前記既知メディアの特徴インデックスと前記第1のメディア特徴単体とをマッチングすることは、前記メディアの特徴インデックスと前記第1のメディア特徴単体とを絶対マッチングすることを含む
    請求項に記載のメディア検索方法。
  6. 前述した検索対象メディアのメディア特徴を第1のメディア特徴として取得することは、前記検索対象メディアの多種のタイプの第1のメディア特徴を取得することを含み、
    前述した前記既知メディアのメディア特徴を第2のメディア特徴として取得しておくことは、前記既知メディアの多種のタイプの第2のメディア特徴を取得することを含み、
    前述した前記既知メディアの特徴インデックスと前記第1のメディア特徴とに基づいて前記第1の候補メディア集合におけるメディアの類似度行列を得ることは、前記多種のタイプの第2のメディア特徴及び前記多種のタイプの第1のメディア特徴に基づいて前記類似度行列を特定することを含む
    請求項に記載のメディア検索方法。
  7. タイプ毎の前記第1のメディア特徴は、複数の第1のメディア特徴単体を含み、タイプ毎の前記第2のメディア特徴は、複数の第2のメディア特徴単体を含み、
    前述した前記多種のタイプの第2のメディア特徴及び前記多種のタイプの第1のメディア特徴に基づいて前記類似度行列を特定することは、
    同じタイプの前記第2のメディア特徴単体と前記第1のメディア特徴単体との間の単体類似度をそれぞれ特定して多種の前記単体類似度を取得することと、
    前記多種の単体類似度の平均値又は最小値を特定し、前記多種の単体類似度の平均値又は最小値によって前記類似度行列を特定することと
    を含む請求項に記載のメディア検索方法。
  8. 予め検索対象メディアと既知メディアとを予め設定された時間長によってスライスし、複数の検索対象サブメディアと複数の既知サブメディアとを取得し、前記複数の検索対象サブメディアと前記複数の既知サブメディアとからそれぞれメディア特徴を抽出することで、長さが同様である複数の第1のサブメディア特徴と複数の第2のサブメディア特徴とを得ること
    をさらに含む請求項に記載のメディア検索方法。
  9. 前記第1のランキングを行う前に、得られた検索対象メディアの前記第1のメディア特徴と既知メディアの前記第2のメディア特徴とを予め設定された長さによってスライスすることで、長さが同様である複数の第1のサブメディア特徴と複数の第2のサブメディア特徴とを得ること
    をさらに含む請求項に記載のメディア検索方法。
  10. 前記複数の第1のメディア特徴単体が前記第1のメディア特徴において時系列順に並べており、前記複数の第2のメディア特徴単体が前記第2のメディア特徴において時系列順に並べている
    請求項に記載のメディア検索方法。
  11. 前記類似度行列内の前記マッチング直線によって前記検索対象メディアと前記検索結果内のメディアとの重複セグメントを特定するステップ
    をさらに含む請求項10に記載のメディア検索方法。
  12. 検索対象メディアのメディア特徴を、複数の第1のメディア特徴単体を含む第1のメディア特徴として取得するためのメディア特徴取得モジュールと、
    個別の前記第1のメディア特徴単体のそれぞれに基づいて複数の既知メディアに対して第1のランキングを行い、前記第1のランキングの結果に基づいて最初から正の整数であるk個の前記既知メディアを第1の候補メディア集合として抽出するための第1のランキングモジュールと、
    複数の順次に並べた前記第1のメディア特徴単体に基づいて前記第1の候補メディア集合に対して第2のランキングを行い、前記第2のランキングの結果に基づいて最初から正の整数であるn個の前記第1の候補メディアを検索結果として抽出するための第2のランキングモジュールと
    を備え
    前記メディア特徴取得モジュールは、予め前記既知メディアのメディア特徴を、複数の第2のメディア特徴単体を含む第2のメディア特徴として取得し、
    さらに、前記第2のメディア特徴にインデックスを付すことで、前記既知メディアの特徴インデックスを得ておく特徴インデックスモジュールを含み、
    さらに、前記既知メディアの特徴インデックスと前記第1のメディア特徴とに基づいて前記第1の候補メディア集合におけるメディアの類似度行列を取得する類似度行列特定モジュールを含み、
    さらに、所定の直線特定方法に従い前記類似度行列内から選択された複数類似度によって特定される直線類似度がもっとも大きくなる1つの直線をマッチング直線として特定し、該マッチング直線の直線類似度を前記第1の候補メディアのシーケンス類似度スコアとして特定するシーケンス類似度スコア特定モジュールを含み、
    前記第2のランキングモジュールは、各第1の候補メディアの前記シーケンス類似度スコアに基づいて前記第1の候補メディア集合におけるメディアに対してランキングを行うメディア検索装置。
  13. 請求項2~11のいずれか1つに記載のステップを実行するモジュール
    をさらに備える請求項12に記載のメディア検索装置。
  14. 非一時的なコンピュータ読み取り可能な命令を記憶するためのメモリと、
    前記コンピュータ読み取り可能な命令がプロセッサによって実行される時に請求項1~11のいずれか1つに記載のメディア検索方法を実現するように、前記コンピュータ読み取り可能な命令を実行するためのプロセッサと
    を備えるメディア検索ハードウェア装置。
  15. 非一時的なコンピュータ読み取り可能な命令を記憶するために用いられ、前記非一時的なコンピュータ読み取り可能な命令がコンピュータによって実行される場合、前記コンピュータに請求項1~11のいずれか1つに記載のメディア検索方法を実行させる
    コンピュータ読み取り可能な記憶媒体。
  16. 請求項12又は13に記載のメディア検索装置を備える端末装置。
JP2019572507A 2018-03-29 2018-12-29 メディア検索方法及び装置 Active JP6991255B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810272795.XA CN110555114A (zh) 2018-03-29 2018-03-29 一种媒体检索方法及装置
CN201810272795.X 2018-03-29
PCT/CN2018/125495 WO2019184519A1 (zh) 2018-03-29 2018-12-29 一种媒体检索方法及装置

Publications (2)

Publication Number Publication Date
JP2020525949A JP2020525949A (ja) 2020-08-27
JP6991255B2 true JP6991255B2 (ja) 2022-01-12

Family

ID=68062463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572507A Active JP6991255B2 (ja) 2018-03-29 2018-12-29 メディア検索方法及び装置

Country Status (5)

Country Link
US (1) US11874869B2 (ja)
JP (1) JP6991255B2 (ja)
CN (1) CN110555114A (ja)
SG (1) SG11201913922QA (ja)
WO (1) WO2019184519A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569373B (zh) * 2018-03-29 2022-05-13 北京字节跳动网络技术有限公司 一种媒体特征的比对方法及装置
CN112749334B (zh) * 2020-08-21 2023-12-12 深圳市雅阅科技有限公司 信息推荐方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134584A (ja) 1999-11-04 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> 類似データの検索方法,検索装置および類似データ検索プログラム記録媒体
JP2007519092A (ja) 2003-12-08 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ メロディデータベースの検索
JP2011128903A (ja) 2009-12-17 2011-06-30 Toyohashi Univ Of Technology 系列信号検索装置および系列信号検索方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571162B2 (ja) 1997-03-03 2004-09-29 日本電信電話株式会社 類似オブジェクト検索方法および装置
US7433895B2 (en) * 2005-06-24 2008-10-07 Microsoft Corporation Adding dominant media elements to search results
US20090112830A1 (en) 2007-10-25 2009-04-30 Fuji Xerox Co., Ltd. System and methods for searching images in presentations
US8861844B2 (en) * 2010-03-29 2014-10-14 Ebay Inc. Pre-computing digests for image similarity searching of image-based listings in a network-based publication system
US10331785B2 (en) * 2012-02-17 2019-06-25 Tivo Solutions Inc. Identifying multimedia asset similarity using blended semantic and latent feature analysis
US10187674B2 (en) * 2013-06-12 2019-01-22 Netflix, Inc. Targeted promotion of original titles
CN103440313B (zh) * 2013-08-27 2018-10-16 复旦大学 基于音频指纹特征的音乐检索系统
KR101627398B1 (ko) * 2013-12-27 2016-06-13 삼성전자주식회사 내용기반의 검색엔진을 이용한 개인 콘텐츠 저작권 관리 시스템 및 방법
US11392629B2 (en) 2014-11-18 2022-07-19 Oracle International Corporation Term selection from a document to find similar content
CN104778276A (zh) * 2015-04-29 2015-07-15 北京航空航天大学 一种基于改进tf-idf的多索引合并排序算法
CN107666638B (zh) * 2016-07-29 2019-02-05 腾讯科技(深圳)有限公司 一种估计录音延迟的方法及终端设备
CN106649440B (zh) 2016-09-13 2019-10-25 西安理工大学 融合全局r特征的近似重复视频检索方法
CN107402965B (zh) * 2017-06-22 2020-04-28 中国农业大学 一种音频检索方法
CN107577773A (zh) 2017-09-08 2018-01-12 科大讯飞股份有限公司 一种音频匹配方法与装置、电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134584A (ja) 1999-11-04 2001-05-18 Nippon Telegr & Teleph Corp <Ntt> 類似データの検索方法,検索装置および類似データ検索プログラム記録媒体
JP2007519092A (ja) 2003-12-08 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ メロディデータベースの検索
JP2011128903A (ja) 2009-12-17 2011-06-30 Toyohashi Univ Of Technology 系列信号検索装置および系列信号検索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SIVIC, Josef et al.,Video Google: A Text Retrieval Approach to Object Matching in Videos,Proceedings Ninth IEEE International Conference on Computer Vision,IEEE,2003年10月16日,pp.1-8,Internet<URL:https://ieeexplore.ieee.org/abstract/document/1238663>

Also Published As

Publication number Publication date
WO2019184519A1 (zh) 2019-10-03
CN110555114A (zh) 2019-12-10
US11874869B2 (en) 2024-01-16
JP2020525949A (ja) 2020-08-27
US20210073262A1 (en) 2021-03-11
SG11201913922QA (en) 2020-01-30

Similar Documents

Publication Publication Date Title
US11949964B2 (en) Generating action tags for digital videos
CN107330023B (zh) 基于关注点的文本内容推荐方法和装置
TWI486800B (zh) 用於使用編輯距離以及文件資訊的搜尋結果排序之系統與方法
US11265598B2 (en) Method and device for determining duplicate video
JP6906641B2 (ja) 音声検索・認識方法及び装置
US8577882B2 (en) Method and system for searching multilingual documents
CN110321537B (zh) 一种文案生成方法和装置
US20110252018A1 (en) System and method for creating search index on cloud database
US10945040B1 (en) Generating and providing topic visual elements based on audio content and video content of a digital video
JP2010086412A5 (ja)
CN108763244B (zh) 在图像内搜索和注释
US9507805B1 (en) Drawing based search queries
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
US9436891B2 (en) Discriminating synonymous expressions using images
JP2015225669A (ja) 注釈表示支援装置及び注釈表示支援方法
US20200159765A1 (en) Performing image search using content labels
JP6991255B2 (ja) メディア検索方法及び装置
US20160103915A1 (en) Linking thumbnail of image to web page
CN108702551B (zh) 用于提供视频的概要信息的方法和装置
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
US10289931B2 (en) Method and system for searching images
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN111602129B (zh) 针对注释和墨迹的智能搜索
JP6987987B2 (ja) メディア特徴の比較方法及び装置
US10025851B2 (en) Information processing apparatus, information processing method and non-transitory computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211207

R150 Certificate of patent or registration of utility model

Ref document number: 6991255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150