JP6785921B2 - ピクチャ検索方法、装置、サーバー及び記憶媒体 - Google Patents

ピクチャ検索方法、装置、サーバー及び記憶媒体 Download PDF

Info

Publication number
JP6785921B2
JP6785921B2 JP2019128968A JP2019128968A JP6785921B2 JP 6785921 B2 JP6785921 B2 JP 6785921B2 JP 2019128968 A JP2019128968 A JP 2019128968A JP 2019128968 A JP2019128968 A JP 2019128968A JP 6785921 B2 JP6785921 B2 JP 6785921B2
Authority
JP
Japan
Prior art keywords
picture
search
text description
group
inverted index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019128968A
Other languages
English (en)
Other versions
JP2020017272A (ja
Inventor
ゾウ、ホンジアン
ファン、ガオリン
リウ、ハイラン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020017272A publication Critical patent/JP2020017272A/ja
Application granted granted Critical
Publication of JP6785921B2 publication Critical patent/JP6785921B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願の実施例は、インターネット技術分野に関し、特に、ピクチャ検索方法、装置、サーバー及び記憶媒体に関する。
ネットワーク情報技術の発展に伴い、インターネット上のデータが爆発的に増えるので、インターネットのデータの中から自分の必要とするピクチャ情報を迅速で且つ正確的に検索するというニーズが益々多くなってきている。
従来技術においては、通常、ウェブページを解析し、ピクチャの周辺のテキストを取得し、テキストに対して単語分割し、正規化する等の操作により、ピクチャを記述するテキスト情報を取得し、当該テキスト情報に基づいてピクチャに対して転置インデックスを作成する。ユーザーがピクチャ検索システムを用いて自分の必要とするピクチャを検索する際に、ピクチャ検索システムは、ユーザーが入力した検索語に基づいて転置インデックスによりピクチャ検索を実現する。
ところで、従来技術においては、ピクチャが現れるページを基本単位とし、即ち、同一のページに現れるピクチャテキストのみを1つの独立した単位とし、これをベースにピクチャの関連テキストを確定し、当該関連テキストに基づいてピクチャの転置インデックスを作成している。しかしながら、クエリの検索語(query)が「AB」であり、即ち、対応するクエリ表現式が「A AND B」であり(即ち、AとBは、同時にヒットする必要がある)、しかも同一のピクチャのソースページには、f1とf2があり、f1は、単語「A」だけを含み、f2は、単語「B」だけを含む場合、上述のようなクエリ表現式では、そのクエリ要求を満たすことができず、当該ピクチャを呼び戻すことができない。
本願の実施例は、ピクチャ検索方法、装置、サーバー及び記憶媒体を提供し、ページを跨ってヒットするピクチャ検索結果を正確的に呼び戻すことを実現する。
第一の態様によれば、本願の実施例は、ピクチャ検索方法を提供し、当該方法は、
全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識することと、
それぞれのピクチャグループに対し、当該ピクチャグループにおける各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、当該ピクチャグループのテキスト記述を取得することと、
それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループにおける各ピクチャに対して転置インデックスを作成することであって、ここで、それぞれのテキスト記述について、前記転置インデックスは、当該テキスト記述の属するピクチャグループの中の、全てのテキスト記述と対応するソースウェブページを少なくとも含むことと、
入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行うこととを備える。
第二の態様によれば、本願の実施例は、ピクチャ検索装置を更に提供し、当該装置は、
全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識する認識モジュールと、
それぞれのピクチャグループにおける各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得する集約モジュールと、
それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループにおける各ピクチャに対して転置インデックスを作成する転置インデックス作成モジュールであって、ここで、それぞれのテキスト記述について、転置インデックスは、当該テキスト記述の属するピクチャグループの中の全てのテキスト記述と対応するソースウェブページを少なくとも含む転置インデックス作成モジュールと、
入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行う検索モジュールとを備える。
第三の態様によれば、本願の実施例は、サーバーを更に提供し、当該サーバーは、
1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶するためのメモリとを備え、
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに本願の何れか1つの実施例に記載のピクチャ検索方法を実現させる。
第四の態様によれば、本願の実施例は、コンピュータのプログラムを記憶しているコンピュータ読み取り可能な記憶媒体を更に提供し、当該プログラムがプロセッサにより実行される場合、本願の何れか1つの実施例に記載のピクチャ検索方法を実現する。
本願の実施例は、ピクチャ検索方法、装置、サーバー及び記憶媒体を提供する。同じ内容のピクチャを1つのピクチャグループに入れ、ピクチャグループの中の各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、当該ピクチャグループのテキスト記述を取得する。そして、前記テキスト記述に基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成する。ユーザーは、作成された転置インデックスに基づいてピクチャ検索を行うことができる。よって、ピクチャを基本単位として関連するソースウェブページを集約した後に転置インデックスを作成するピクチャテキスト記述情報とすることによって、ページを跨ってヒットする結果を正確的に呼び戻すことができ、長い検索語又は複数の限定語からなる検索語に対しても正確的に呼び戻すことができる。
本願の第一の実施例によるピクチャ検索方法のフローチャート図である。 本願の第二の実施例によるピクチャ検索方法のフローチャート図である。 本願の第三の実施例によるピクチャ検索方法のフローチャート図である。 本願の第四の実施例によるピクチャ検索方法のフローチャート図である。 本願の第五の実施例によるピクチャ検索装置の構造模式図である。 本願の第六の実施例によるサーバーの構造模式図である。
以下、図面及び実施例を参照しながら、本願を更に詳しく説明する。ここで記載される具体的な実施例は、本願を解釈するのみに用いられ、本願に対する限定ではないことは理解される。なお、説明の便宜上、図面には、全ての構造ではなく、本願に関わる部分のみを示す。
第一の実施例
図1は、本願の第一の実施例によるピクチャ検索方法のフローチャート図である。本実施例は、ピクチャ検索の場合に適用することができ、特に、長い検索語(query)又は複数の限定語からなる検索語(query)を用いてピクチャ検索を行う場合に適用することができる。当該方法は、ピクチャ検索装置により実行することができ、当該装置は、ソフトウェア及び/又はハードウェアを用いて実現することができ、サーバーに配置することができる。図1に示すように、当該方法は、具体的に、S110、S120、S130及びS140を備える。
S110においては、全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識する。
ネットワーク技術の絶え間ない発展に伴い、ピクチャは、情報の大切な表現方式として必然的に様々なネットワークに現れる。また、ネットワークデータの規模が常に大きくなることにつれ、複数の異なるウェブページに一枚又は複数枚の同じ内容のピクチャが同時に含まれることがよくある。なお、前記同じ内容のピクチャは、完全に同じピクチャを含んでも良く、例えば、複数のウェブページが同一のピクチャを共用しても良く、異なるサイズで同じ内容のピクチャを含んでも良く、すなわち、二枚の写真の中の情報は、完全に同じであり又は類似しても良い。よって、従来の任意の1つのピクチャ認識技術によりインターネット上の各ウェブページのピクチャを認識し、認識された同じ内容のピクチャを1つのピクチャグループに入れることによって、複数の同じ内容のピクチャグループを取得することができる。
S120においては、それぞれのピクチャグループの中の、各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得する。
本実施例においては、前記ピクチャ関連テキストとは、ピクチャのソースウェブページの中のピクチャの周囲の、当該ピクチャを記述するためのテキスト内容を指し、例えば、ピクチャ関連テキストは、ピクチャの下方の1つの段落のテキストであっても良い。それぞれのピクチャグループの中の複数のピクチャについて、各ピクチャのソースウェブページから各ピクチャと対応するピクチャ関連テキストをそれぞれ取得し、例えば、クローラプログラムにより取得し、取得された全てのピクチャ関連テキストを集約することができる。また、集約された後のピクチャ関連テキストに対して単語分割したり、テキスト認識したりする等のテキスト処理を行うことによって、それぞれのピクチャグループのテキスト記述を取得する。なお、前記テキスト記述とは、ピクチャグループの中の各ピクチャの内容を記述する複数のキーワード又はキーフレーズ等を指す。
S130においては、それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成する。なお、それぞれのテキスト記述に対して、前記転置インデックスは、当該テキスト記述の属するピクチャグループの中の、全てのテキスト記述と対応するソースウェブページを少なくとも含む。
具体的には、前記テキスト記述は、ピクチャグループの中の各ピクチャの全てのソースウェブページから来たものであり、それぞれのピクチャグループのテキスト記述に基づいて転置インデックスを作成することは、従来技術においてピクチャの属するソースウェブページを基本単位として転置インデックスを作成するという方法に代わり、ピクチャを基本単位として関連ソースウェブページを集約した後にそれを基本単位として索引を作成することになるので、ページを跨ってピクチャを呼び戻すことを実現するための基礎を築く。
例えば、任意の1つのピクチャグループについて、そのテキスト記述は、キーワードAとBを含み、さらに、キーワードAとBがそれぞれウェブページf1とf2に現れ、ピクチャ0がウェブページf1とf2に同時に現れ、即ち、ピクチャ0のソースウェブページは、f1とf2であるとする。ウェブページf1とf2を、1つのグループ(f1、f2)として集約すれば、Aをキーとして作成した転置インデックスのvalueは、「<0、<f1、f2>>」であり、即ち、作成した転置インデックスは、A:0<f1、f2>であり、Bをキーとして作成した転置インデックスのvalueは、「<0、<f1、f2>>」であり、作成した転置インデックスは、B:0<f1、f2>である。
S140においては、入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行う。
入力された検索語と作成された転置インデックスの中のピクチャのテキスト記述をマッチングし、マッチング結果に基づいて対応するピクチャを呼び戻す。例えば、入力された検索語の表現式は、「A and B」であれば、転置インデックスの基本原理に基づき、即ち、検索時に各検索語に従って転置インデックスのリンクが取得され、その後、共通集合が求められる。従って、Aの転置インデックスのリンクとBの転置インデックスのリンクの共通集合は、<f1、f2>であり、ウェブページf1、f2は、ピクチャ0のソースウェブページである。よって、ピクチャ0を呼び戻すことができるので、ページを跨ってヒットする結果を呼び戻すという技術効果を実現することができる。
なお、ピクチャ検索に関しては、候補ピクチャの関連テキストの品質は、検索の呼び戻しの効果に直接的な影響を与える。ピクチャの関連テキストに含まれるノイズが多ければ、即ち、テキストに含まれる単語とピクチャとは、関係がなければ、単語に基づいて呼び戻した結果に関係のないものも多くなる。関連テキストには、ピクチャを記述するための重要な単語が欠落していれば、これらの関連ピクチャを呼び戻すことができない。従来技術においてピクチャの属するソースウェブページを基本単位として転置インデックスを作成する方法によれば、ピクチャとウェブページは独立した単位として見なされ、ピクチャとピクチャとの間又はページとページとの間は、関係が存在しないので、ページを跨って呼び戻すことが実現できない。本願の実施例によるピクチャ検索方法によれば、ピクチャを基本単位として転置インデックスを作成し、同じ内容のピクチャの複数のソースウェブページを集約し、対応するピクチャテキスト記述に基づいて転置インデックスを作成するので、ページを跨って検索することが実現できる。よって、検索の精度が高まり、特に、長い検索語又は複数の特定検索語の検索状況の場合、正確的に呼び戻すことができる。
本実施例においては、同じ内容のピクチャを1つのピクチャグループに入れ、ピクチャグループの中の各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、当該ピクチャグループのテキスト記述を取得し、前記テキスト記述に基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成するので、ユーザーは、作成された転置インデックスに基づいてピクチャ検索を行うことができる。よって、ピクチャを基本単位として関連するソースウェブページを集約した後に転置インデックスを作成するピクチャテキスト記述情報とすることを実現することができるので、ページを跨ってヒットする結果を正確的に呼び戻し、長い検索語又は複数の限定語からなる検索語に対しても正確的に呼び戻すことができる。
第二の実施例
図2は、本願の第二の実施例によるピクチャ検索方法のフローチャート図である。本実施例は、上述した実施例に基づいて更に最適化したものである。図2に示すように、当該方法はS210、S220、S230、S240、S250及びS260を備える。
S210においては、全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識する。
S220においては、それぞれのピクチャグループの中の、各ピクチャの全てのソースウェブページに対して選別及び重複削除を行い、残ったソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得する。
同じピクチャが複数の異なるウェブページに現れるので、重複削除しないと、索引の内容に冗余(冗長性)が生じる。また、低品質のページから来たピクチャの周辺のテキストはピクチャと関係がないので、処理しないと呼び戻しの品質に影響を与える。好ましくは、全てのソースウェブページに対して選別及び重複削除を行い、サイトの権威性等の点数の最も高いソースウェブページを残し、予めトレーニングされたモデルを用いてカンニングページ等のような低品質のウェブページを認識して除去し、その後、残ったソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得する。
S230においては、それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成し、なお、それぞれのテキスト記述に対して、前記転置インデックスは、当該テキスト記述の属するピクチャグループの中の全てのテキスト記述と対応するソースウェブページを少なくとも含む。
本実施例においては、1つのテキスト記述は、複数のピクチャと同時に対応しても良い。例えば、1つのテキスト記述Tがピクチャo1のソースウェブページm1、m2に現れ、同時にテキスト記述Tがピクチャo2のソースウェブページm3にも現れ、o1とo2は、同じ内容のピクチャであれば、テキスト記述Tをキーとして作成した転置インデックスは、(m1、m2)及びm3を含み、テキスト記述Tは、ピクチャo1及びピクチャo2に対応する。
S240においては、入力された検索語を取得する。
ユーザーが入力した検索語を取得し、当該検索語の表現式を認識する。
S250においては、前記検索語と前記転置インデックスの中のピクチャのテキスト記述との相関性に基づき、少なくとも1つのピクチャを呼び戻す。
本実施例においては、前記検索語と前記転置インデックスの中のピクチャのテキスト記述との類似度を算出し、得られた類似度に基づいて相関性の指標を満たしているかどうかを確定することができる。前記検索語と前記転置インデックスの中のピクチャのテキスト記述との相関性が予め定められた相関性の指標を満たしていると判定された場合、前記テキスト記述に対応する少なくとも1つのピクチャを呼び戻す。例えば、S230において、検索語及びテキスト記述Tの類似度を算出し、検索語とテキスト記述Tが相関性の指標を満たしていることを確定することによって、テキスト記述Tに対応するo1及びo2を同時に呼び戻すことができる。
S260においては、前記相関性に基づいて前記少なくとも1つのピクチャに対して並べ替えをし、並べ替えされた後のピクチャ検索結果を表示する。
本実施例においては、前記検索語と前記転置インデックスの中のピクチャのテキスト記述との相関性の大きさに基づき、呼び戻した少なくとも1つのピクチャに対して並べ替えをすることができる。なお、複数のピクチャの対応する相関性が同じであることが生じれば、相応の係数を導入してペナルティを課すことによって相関性の大きさを確定し、どのように並べ替えをするかを確定する。例えば、ペナルティの式は、次の通りである:
Figure 0006785921
なお、θの値の範囲が(0、1)であり、即ち、相関性が同じである場合、係数∂を乗じることで相関性の大きさを更に確定することにより、対応するピクチャに対して並べ替えをする。ここでは、ページを跨らずにヒットするピクチャとページを跨ってヒットするピクチャを比較すると、ページを跨らずにヒットするピクチャは、ユーザーの検索ニーズとマッチングする可能性がより大きいので、ページを跨ってヒットする相関性は、ページを跨らずにヒットする相関性より小さく、相応の係数を導入してペナルティを課す必要がある。
呼び戻された少なくとも1つのピクチャは、第一のピクチャと第二のピクチャを含み、第一のピクチャと第二のピクチャに対応する相関性が同じであり、第一のピクチャに対応するテキスト記述が異なるソースウェブページから来たものであり、第二のピクチャに対応するテキスト記述が同じソースウェブページから来たものであれば、第二のピクチャは、第一のピクチャより前になるように並べ替えされる。具体的には、上述した呼び戻したピクチャo1及びピクチャo2を例とすると、ピクチャo1とピクチャo2に対応する相関性が同じで何れもwであり、ピクチャo1に対応するテキスト記述Tのソースウェブページは、m1及びm2であり、係数∂を乗じた後の相関性が(wθ)<wであり、ピクチャo2に対応するテキスト記述Tのソースウェブページは、m3であり、係数∂=1を乗じた後の相関性が相変わらずwであれば、ピクチャo2は、ピクチャo1より前になるように並べ替えされる。
従って、並べ替えされた後のピクチャ検索結果をユーザーに表示する。
本願の実施例においては、各ピクチャの全てのソースウェブページに対して選別及び重複削除を行い、残ったソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得し、テキスト記述に基づいて各ピクチャに対して転置インデックスを作成する。よって、索引における冗余問題を解決することができ、ピクチャのテキスト記述を豊かかつ包括的にし、ページを跨って呼び戻す正確性が高まる。ピクチャ検索を行う際に相関性に基づいて呼び戻された少なくとも1つのピクチャに対して並べ替えをし、並べ替えされた後のピクチャ検索結果をユーザーに表示することで、ニーズを最も満たすピクチャをユーザーに優先的に表示することができる。
第三の実施例
図3は、本願の第三の実施例によるピクチャ検索方法のフローチャート図である。本実施例は、上述した実施例に基づいて更に最適化したものである。図3に示すように、当該方法は、S310、S320、S330、S340、S350及びS360を備える。
S310においては、全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識する。
S320においては、それぞれのピクチャグループの中の各ピクチャの全てのソースウェブページに対して選別及び重複削除を行い、残ったソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得する。
S330においては、それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成し、なお、それぞれのテキスト記述に対して、前記転置インデックスは、当該テキスト記述の属するピクチャグループの中の全てのテキスト記述と対応するソースウェブページを少なくとも含む。
S340においては、入力された検索語を取得する。
S350においては、前記検索語と前記転置インデックスの中のピクチャのテキスト記述との相関性に基づき、少なくとも1つのピクチャを呼び戻す。
S360においては、前記相関性に基づいて前記少なくとも1つのピクチャに対して並べ替えをし、並べ替えされた後の少なくとも1つのピクチャ及び各ピクチャの要約及び/又は詳細ページを表示する。
本実施例においては、並べ替えされた後の少なくとも1つのピクチャを表示すると同時に、さらに各ピクチャに対して当該ピクチャの要約のリンクを表示する。好ましくは、当該ピクチャの要約のリンクは、当該ピクチャの少なくとも1つのソースウェブページの中の、最もウェブページの権威性の要求を満たすソースウェブページのリンクである。及び/または、
設定条件に従って当該ピクチャの詳細ページにおいて対応する少なくとも1つのソースウェブページのリンクを表示し、なお、前記設定条件は、ウェブページの権威性、ページ作成時間、ページ更新時間、ページのピクチャ記述テキストと検索語との相関性、ページのアクセス人気度又はユーザーが設定したページ選別のための条件を含む。具体的には、設定条件に従って当該ピクチャの詳細ページに対応する少なくとも1つのソースウェブページに対して並べ替えをし、順番が前にある複数のソースウェブページのリンクを、当該ピクチャの詳細ページに表示する。
更に、設定条件に従い、当該ピクチャの詳細ページにおいてウェブページ間の相関性に基づいて少なくとも1つのソースウェブページを関連付けて表示し、なお、前記相関性は、転載関係又は作成時間の前後関係を含み、例えば、オリジナルのソースウェブページを優先的に表示する。
本実施例においては、ピクチャ検索を行う際に前記相関性に基づいて前記少なくとも1つのピクチャに対して並べ替えをし、並べ替えされた後の少なくとも1つのピクチャ及び各ピクチャの要約及び/又は詳細ページを表示し、ページを跨って検索して呼び戻したピクチャについては、複数のソースウェブページを、要約情報又は詳細ページとしてユーザーに提供することもできる。よって、関連ピクチャの更なる豊かなソース情報をユーザーに提供することができる。
第四の実施例
図4は、本願の第四の実施例によるピクチャ検索方法のフローチャート図である。本実施例は、上述した実施例に基づいて更に最適化したものである。図4に示すように、当該方法は、S410、S420、S430、S440及びS450を備える。
S410においては、全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識する。
S420においては、それぞれのピクチャグループの中の各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得する。
S430においては、それぞれのピクチャグループの中の各ピクチャのテキスト記述の単語ベクトルに基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成し、なお、それぞれのテキスト記述に対しては、前記転置インデックスは、当該テキスト記述の属するピクチャグループの中の全てのテキスト記述と対応するソースウェブページを少なくとも含む。
予めトレーニングされた単語ベクトルモデルにより各ピクチャのテキスト記述を対応する単語ベクトルに変換し、各ピクチャのテキスト記述の単語ベクトルに基づいてそれぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成し、具体的な作成方法は、具体的な単語に対して転置インデックスを作成する方法と同じである。
S440においては、入力された検索語に対して予めトレーニングされた単語ベクトルモデルにより検索語の単語ベクトルを生成する。
転置インデックスは、各ピクチャのテキスト記述の単語ベクトルに基づいて作成されたので、ピクチャ検索を行う時に、入力された検索語を先に対応する単語ベクトルに変換する必要がある。
S450においては、前記検索語の単語ベクトル及び前記転置インデックスに基づいてピクチャ検索を行う。
入力された検索語の単語ベクトルと作成された転置インデックスの中のピクチャのテキスト記述の単語ベクトルをマッチングさせ、マッチング結果に基づいて対応するピクチャを呼び戻す。
本実施例においては、テキスト記述を、対応する単語ベクトルの形式に変換して転置インデックスを作成し、ピクチャ検索時に検索語も単語ベクトルの形式に表し、ピクチャのテキスト記述の単語ベクトルに対して問い合わせを行い、計算をして最も類似する結果を戻すことによって、検索の呼び戻しの効率及び正確率を高めることができる。
第五の実施例
図5は、本願の第五の実施例によるピクチャ検索装置の構造模式図である。図5に示すように、当該装置は、認識モジュール510、集約モジュール520、転置インデックス作成モジュール530及び検索モジュール540を備える。
認識モジュール510は、全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識するために用いられる。
集約モジュール520は、それぞれのピクチャグループの中の各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得するために用いられる。
転置インデックス作成モジュール530は、それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成するために用いられ、なお、それぞれのテキスト記述に対して、前記転置インデックスは、当該テキスト記述が属するピクチャグループの中の全てのテキスト記述と対応するソースウェブページを少なくとも含む。
検索モジュール540は、入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行うために用いられる。
本実施例においては、認識モジュールにより同じ内容のピクチャを認識してグループに分け、集約モジュールにより各ピクチャのテキスト記述を取得し、転置インデックス作成モジュールによりそれぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成し、ユーザーが検索を行う際に、検索モジュールは、入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行う。ピクチャを基本単位として関連するソースウェブページを集約した後に転置インデックスを作成するためのピクチャテキスト記述情報とすることを実現することができる。よって、ピクチャ索引の冗余情報が減り、ページを跨ってヒットする結果を正確的に呼び戻すことができ、長い検索語又は複数の限定語からなる検索語も正確的に呼び戻すことができる。
前記実施例に基づき、前記集約モジュールは、具体的には、次のように用いられる。
それぞれのピクチャグループの中の各ピクチャの全てのソースウェブページに対して選別及び重複削除を行い、残ったソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得する。
前記実施例に基づき、前記検索モジュールは、取得ユニット、呼び戻しユニット及び並べ替え表示ユニットを備える。
取得ユニットは、入力された検索語を取得するために用いられる。
呼び戻しユニットは、前記検索語と前記転置インデックスの中のピクチャのテキスト記述との相関性に基づいて少なくとも1つのピクチャを呼び戻すために用いられる。
並べ替え表示ユニットは、前記相関性に基づいて前記少なくとも1つのピクチャに対して並べ替えをし、並べ替えされたあとのピクチャ検索結果を表示するために用いられる。
前記実施例に基づき、前記並べ替え表示ユニットは、更に次のようにも用いられる。
前記少なくとも1つのピクチャにおいて、第一のピクチャと第二のピクチャの対応する相関性が同じであり、第一のピクチャに対応するテキスト記述が異なるソースウェブページから来たものであり、第二のピクチャに対応するテキスト記述が同じソースウェブページから来たものであれば、第二のピクチャは、第一のピクチャより前になるように並べ替えされる。
前記実施例に基づき、前記転置インデックス作成モジュールは、更に次のようにも用いられる。
それぞれのピクチャグループのテキスト記述の単語ベクトルに基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成する。
相応的には、前記検索モジュールは、更に次のようにも用いられる。
入力された検索語に対して予めトレーニングされた単語ベクトルモデルを用いて検索語の単語ベクトルを生成する。
前記検索語の単語ベクトル及び前記転置インデックスに基づいてピクチャ検索を行う。
前記実施例に基づき、前記並べ替え表示ユニットは、更に次のようにも用いられる。
並べ替えされた後の少なくとも1つのピクチャ及び各ピクチャの要約及び/又は詳細ページを表示する。
なお、各ピクチャの要約及び詳細ページの内容は、各ピクチャの少なくとも1つのソースウェブページから来たものである。
前記実施例に基づき、前記並べ替え表示ユニットは、更に次のようにも用いられる。
並べ替えされた後の少なくとも1つのピクチャを表示し、さらに各ピクチャに対して、当該ピクチャの少なくとも1つのソースウェブページの中の、ウェブページの権威性要求を満たすソースウェブページのリンクを、当該ピクチャの要約のリンクとして表示する。及び/または、
設定条件に従って当該ピクチャの詳細ページにおいて対応する少なくとも1つのソースウェブページのリンクを表示する。
なお、前記設定条件は、ウェブページの権威性、ページ作成時間、ページ更新時間、ページのピクチャ記述テキストと検索語との相関性、ページのアクセス人気度又はユーザーが設定したページ選別のための条件を含む。
前記実施例に基づき、前記並べ替え表示ユニットは、更に次のようにも用いられる。
設定条件に従い、当該ピクチャの詳細ページにおいてウェブページ間の相関性に基づいて前記少なくとも1つのソースウェブページを関連付けて表示し、なお、前記相関性は、転載関係又は作成時間の前後関係を含む。
本願の実施例によるピクチャ検索装置は、本願の何れかの実施例によるピクチャ検索方法を実行することができ、方法を実行するための相応の機能モジュール及び有益な効果を有する。
第六の実施例
図6は、本願の第六の実施例によるサーバーの構造模式図である。図6は、本願の実施形態を実現するために適する例示性のサーバー12のブロック図を示している。図6に示されているサーバー12は、1つの例に過ぎず、本願の実施例の機能及び使用範囲に対していかなる制限も与えるべきではない。
図6に示すように、サーバー12は、汎用計算設備の形式で表現される。サーバー12のコンポーネントは、1つ又は複数のプロセッサ又は処理ユニット16、メモリ28、及び異なるシステムコンポーネント(メモリ28及び処理ユニット16を含む)を接続するバス18を含んでも良いが、これらに限らない。
バス18は、数種類のバス構造のうちの1つまたは幾つかを表し、メモリバスまたはメモリコントローラ、周辺バス、グラフィックスアクセラレータポート、プロセッサ、または多数のバス構造のうちのいずれかを使用するローカルバスを含む。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、拡張ISA(EISA)バス、ビデオエレクトロニクス規格協会(VESA)ローカルバス、およびペリフェラルコンポーネントインターコネクト(PCI)バスを含むが、これらに限定されない。
サーバー12は、典型的に多数の種類のコンピュータシステム読み取り可能媒体を含む。これらの媒体は、サーバー12がアクセスできる如何なる使用可能な媒体であっても良く、揮発性と不揮発性の媒体、リムーバブルとノンリムーバブルの媒体を含む。
メモリ18は、揮発性メモリ形式のコンピュータシステム読み取り可能媒体を含んでも良く、例えば、ランダムアクセスメモリ(RAM)30及び/またはキャッシュメモリ32を含んでも良い。サーバー12は、その他のリムーバブル/ノンリムーバブルのコンピュータシステムの記憶媒体、揮発性/不揮発性のコンピュータシステムの記憶媒体をさらに含んでも良い。ほんの一例としてあげると、記憶システム34は、ノンリムーバブルで不揮発性の磁気媒体(図6には示されておらず、通常は"ハードディスクドライブ"と称される)をアクセスするために使用されても良い。図6には示されていないが、リムーバブルで非揮発性の磁気ディスク(例えば、"フロッピー(登録商標)ディスク")に対してアクセスするディスクドライブや、リムーバブルで非揮発性の光ディスク(例えば、CD−ROM、DVD−ROMまたはその他の光媒体)に対してアクセスする光ディスクドライブを提供しても良い。これらの場合において、各々のドライブは、1つまたは複数のデータ媒体インターフェースを通じてバス18と接続しても良い。メモリ28は、少なくとも1つのプログラム製品を含んでも良く、該プログラム製品は、一組(例えば、少なくとも1つ)のプログラムモジュールを有し、これらのプログラムモジュールは、本願の各実施例の機能を実行するように配置される。
一組(少なくとも1つ)のプログラムモジュール42を有するプログラム/ユーティリティ40は、例えばメモリ28の中に記憶されても良く、このようなプログラムモジュール42は、オペレーティングシステム、1つまたは複数のアプリケーションプログラム、その他のプログラムモジュール及びプログラムデータ、及びこれらの例の各々または幾つかの組み合わせにおけるネットワーク環境を含みうる実装を含むが、これらに限定されない。プログラムモジュール42は、通常、本願の記載された実施例の中の機能及び/または方法を実行する。
サーバー12は、1つまたは複数の周辺設備14(例えばキーボード、ポインティングディバイス、ディスプレイ24など)と通信しても良く、1つまたは複数の、ユーザーが当該サーバー12とインターアクティブできる設備と通信しても良く、及び/または当該サーバーを1つまたは複数のその他の計算設備と通信できるようにするような如何なる設備(例えば、ネットワークカード、モデムなど)と通信しても良い。このような通信は、入力/出力(I/O)インターフェース22を通じて行っても良い。さらに、サーバー12は、ネットワークアダプタ20を通じて1つまたは複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、および/またはインターネットなどのような公衆ネットワーク)と通信しても良い。図示のように、ネットワークアダプタ20は、バス18を介してサーバー12のその他のモジュールと通信する。図面には示されていないが、サーバー12に接続して、マイクロコード、デバイスドライバ、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライブ、データバックアップストレージシステムを含むがこれらに限定されない他のハードウェアおよび/またはソフトウェアモジュールを使用しても良い。
処理ユニット16は、メモリ28に記憶されているプログラムを実行することによって、様々な機能アプリケーション及びデータ処理を行い、例えば、本願の実施例によるピクチャ検索方法を実現する。当該方法は、次のステップを含む:
全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識する。
それぞれのピクチャグループの中の各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得する。
それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成し、なお、それぞれのテキスト記述に対して、転置インデックスは、当該テキスト記述の属するピクチャグループの中の全てのテキスト記述と対応するソースウェブページを少なくとも含む。
入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行う。
第七の実施例
本願の実施例は、コンピュータ実行可能な命令を含む記憶媒体を提供する。前記コンピュータ実行可能な命令がコンピュータに実行されると、ピクチャ検索方法を実行するように用いられる。当該方法は、
全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識することと、
それぞれのピクチャグループの中の各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、それぞれのピクチャグループのテキスト記述を取得することと、
それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループの中の各ピクチャに対して転置インデックスを作成し、なお、それぞれのテキスト記述に対して、転置インデックスは、当該テキスト記述の属するピクチャグループの中の全てのテキスト記述と対応するソースウェブページを少なくとも含むことと、
入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行うこととを含む。
当然ながら、本願の実施例によるコンピュータ実行可能な命令を含む記憶媒体については、そのコンピュータ実行可能な命令は、上述した方法と操作に限定されず、本願の何れかの実施例による、端末に用いられるテキスト放送方法の中の関連操作も行うことができる。
本願の実施例によるコンピュータ記憶媒体は、1つまたは複数のコンピュータの読み取り可能な記憶媒体の任意の組合せであっても良い。コンピュータの読み取り可能な記憶媒体は、例えば電、磁、光、電磁、赤外線、或いは半導体のシステム、装置またはデバイス、またはこれらの任意の組合せであっても良いが、これらに限定されない。コンピュータの読み取り可能な記憶媒体のより具体的例は、1つまたは複数のリード線を有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルROM(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスクリードオンリーメモリ(CD−ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。本願において、コンピュータの読み取り可能な記憶媒体は、命令実行システム、装置、デバイスまたはその組み合わせに使用されるプログラムを含むまたは記憶する如何なる有形媒体であっても良い。
コンピュータの読み取り可能な信号媒体は、ベースバンドの中または搬送波の一部分として伝播するデータ信号を含み、その中でコンピュータの読み取り可能なプログラムコードが記載されている。このような伝播するデータ信号は、多種類の形式を採用することができ、電磁信号、光信号またはその任意の適切な組み合わせを含むが、これらに限定されない。コンピュータの読み取り可能な信号媒体は、さらにコンピュータの読み取り可能な記憶媒体以外の任意のコンピュータの読み取り可能な媒体であっても良く、当該コンピュータの読み取り可能な媒体は、命令実行システム、装置、デバイスまたはその組み合わせに使用されるプログラムを送信し、伝播し、または転送することができる。
コンピュータの読み取り可能な媒体に含まれるプログラムコードは、あらゆる適切な媒体を使って転送することができ、無線、電線、光ファイバー、RF等またはその任意の適切な組み合わせを含むが、これらに限定されない。
1つまたは複数のプログラミング言語またはその組み合わせを使って、本願の操作の実行に用いられるコンピュータプログラムコードを作成しても良い。前記プログラミング言語は、例えばJava(登録商標)、Smalltalk、C++等のようなオブジェクト指向のプログラミング言語を含み、さらに例えば"C"言語または類似のプログラミング言語のような手続き型プログラミング言語を含む。プログラムコードは完全にユーザーコンピュータ上で実行されても良く、部分的にユーザーコンピュータ上で実行されても良く、1つの独立したソフトウェアパッケージとして実行されても良く、一部分がユーザーコンピュータ上で実行され一部分がリモートコンピュータ上で実行されても良く、或いは完全にリモートコンピュータまたはサーバー上で実行されても良い。リモートコンピュータに関わる場面において、リモートコンピュータはローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを通じてユーザーコンピュータに接続されても良いし、または外部コンピュータ(例えばインターネットサービスプロバイダーを利用してインターネットを通じて接続する)に接続されても良い。
上述した記述は、本願の望ましい実施例及び使用する技術原理に対する説明に過ぎない。当業者は、本願は、本明細書に記載された特定の実施例に限定されず、当業者による様々な明らかな変化、新たな調整及び代替を行うことが本願の保護範囲に属することを理解すべきである。よって、以上の実施例により本願を詳しく説明したが、本願は、以上の実施例に限らず、本願の精神から逸脱しない限り、他の等価実施例を更に多く含むことができ、本願の範囲は、添付する特許請求の範囲に決められる。

Claims (15)

  1. 全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識することと、
    それぞれのピクチャグループに対し、当該ピクチャグループにおける各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、当該ピクチャグループのテキスト記述を取得することと、
    それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループにおける各ピクチャに対して転置インデックスを作成することであって、ここで、それぞれのテキスト記述について、前記転置インデックスは、当該テキスト記述の属するピクチャグループの中の、全てのテキスト記述と対応するソースウェブページを少なくとも含むことと、
    入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行うこととを備えることを特徴とするピクチャ検索方法。
  2. 前記それぞれのピクチャグループに対し、当該ピクチャグループにおける各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、当該ピクチャグループのテキスト記述を取得することは、
    それぞれのピクチャグループに対し、当該ピクチャグループにおける各ピクチャの全てのソースウェブページに対して選別及び重複削除を行い、残ったソースウェブページのピクチャ関連テキストを集約することによって、当該ピクチャグループのテキスト記述を取得することを含む、ことを特徴とする請求項1に記載の方法。
  3. 前記の入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行うことは、
    入力された検索語を取得することと、
    前記検索語と前記転置インデックスの中のピクチャのテキスト記述との相関性に基づき、少なくとも1つのピクチャを呼び戻すことと、
    前記相関性に基づいて前記少なくとも1つのピクチャに対して並べ替えをし、並べ替えされた後のピクチャ検索結果を表示することとを含むことを特徴とする請求項1に記載の方法。
  4. 前記の前記相関性に基づいて前記少なくとも1つのピクチャに対して並べ替えをすることは、
    前記少なくとも1つのピクチャにおいて、第一のピクチャと第二のピクチャとの対応する相関性が同じであり、第一のピクチャの対応するテキスト記述が異なるソースウェブページからのものであり、第二のピクチャの対応するテキスト記述が同じソースウェブページからのものであれば、第二のピクチャは、第一のピクチャより前になるように並び替えされることを更に備える、ことを特徴とする請求項3に記載の方法。
  5. 前記のそれぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループにおける各ピクチャに対して転置インデックスを作成することは、
    それぞれのピクチャグループのテキスト記述の単語ベクトルに基づき、それぞれのピクチャグループにおける各ピクチャに対して転置インデックスを作成することを備え、
    前記の入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行うことは、
    入力された検索語に対して予めトレーニングされた単語ベクトルモデルを用いて検索語の単語ベクトルを生成することと、
    前記検索語の単語ベクトル及び前記転置インデックスに基づいてピクチャ検索を行うこととを備える、ことを特徴とする請求項1に記載の方法。
  6. 前記の並べ替えされた後のピクチャ検索結果を表示することは、
    並べ替えされた後の少なくとも1つのピクチャ及び各ピクチャの要約及び/又は詳細ページを表示することを備え、
    各ピクチャの要約及び詳細ページの内容は、各ピクチャの少なくとも1つのソースウェブページからであることを特徴とする請求項3に記載の方法。
  7. 前記の並べ替えされた後の少なくとも1つのピクチャ及び各ピクチャの要約及び/又は詳細ページを表示することは、
    並べ替えされた後の少なくとも1つのピクチャを表示することであって、ここで、各ピクチャについて、当該ピクチャの要約を表示するためのリンクは、当該ピクチャの少なくとも1つのソースウェブページの中の、ウェブページの権威性の要求を満たすソースウェブページのリンクであること、及び/又は、
    設定条件に従って、当該ピクチャの詳細ページにおいて、対応する少なくとも1つのソースウェブページのリンクを表示することとを備え、
    前記設定条件は、ウェブページの権威性、ページ作成時間、ページ更新時間、ページのピクチャ記述テキストと検索語との相関性、ページのアクセス人気度又はユーザーが設定したページ選別のための条件を含む、ことを特徴とする請求項6に記載の方法。
  8. 前記の設定条件に従って、当該ピクチャの詳細ページにおいて、対応する少なくとも1つのソースウェブページのリンクを表示することは、
    設定条件に従い、当該ピクチャの詳細ページにおいて、前記少なくとも1つのソースウェブページを、ウェブページ間の相関性に基づいて関連付けて表示することであって、前記相関性は、転載関係又は作成時間の前後関係を含むことを備えることを特徴とする請求項7に記載の方法。
  9. 全てのウェブページのピクチャの中から複数の同じ内容のピクチャグループを認識する認識モジュールと、
    それぞれのピクチャグループに対し、当該ピクチャグループにおける各ピクチャの全てのソースウェブページのピクチャ関連テキストを集約することによって、当該ピクチャグループのテキスト記述を取得する集約モジュールと、
    それぞれのピクチャグループのテキスト記述に基づき、それぞれのピクチャグループにおける各ピクチャに対して転置インデックスを作成する転置インデックス作成モジュールであって、それぞれのテキスト記述について、転置インデックスは、当該テキスト記述が属するピクチャグループの中の全てのテキスト記述と対応するソースウェブページを少なくとも含む転置インデックス作成モジュールと、
    入力された検索語及び前記転置インデックスに基づいてピクチャ検索を行う検索モジュールとを備える、ことを特徴とするピクチャ検索装置。
  10. 前記集約モジュールは、
    それぞれのピクチャグループに対し、当該ピクチャグループにおける各ピクチャの全てのソースウェブページに対して選別及び重複削除を行い、残ったソースウェブページのピクチャ関連テキストを集約することによって、当該ピクチャグループのテキスト記述を取得するために用いられる、ことを特徴とする請求項9に記載の装置。
  11. 前記検索モジュールは、
    入力された検索語を取得するための取得ユニットと、
    前記検索語と前記転置インデックスの中のピクチャのテキスト記述との相関性に基づいて少なくとも1つのピクチャを呼び戻すための呼び戻しユニットと、
    前記相関性に基づいて前記少なくとも1つのピクチャに対して並べ替えをし、並べ替えされた後のピクチャ検索結果を表示するための並べ替え表示ユニットとを備える、ことを特徴とする請求項9に記載の装置。
  12. 前記並べ替え表示ユニットは、さらに、
    前記少なくとも1つのピクチャにおいて、第一のピクチャと第二のピクチャとの対応する相関性が同じであり、第一のピクチャの対応するテキスト記述が異なるソースウェブページからのものであり、第二のピクチャの対応するテキスト記述が同じソースウェブページからのものであれば、第二のピクチャは、第一のピクチャより前になるように並べ替えされるために用いられる、ことを特徴とする請求項11に記載の装置。
  13. 前記転置インデックス作成モジュールは、さらに、
    それぞれのピクチャグループのテキスト記述の単語ベクトルに基づき、それぞれのピクチャグループにおける各ピクチャに対して転置インデックスを作成するために用いられ、
    前記検索モジュールは、さらに、
    入力された検索語に対して予めトレーニングされた単語ベクトルモデルを用いて検索語の単語ベクトルを生成し、前記検索語の単語ベクトル及び前記転置インデックスに基づいてピクチャ検索を行うために用いられる、
    ことを特徴とする請求項9に記載の装置。
  14. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶するためのメモリとを備え、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行される場合、前記1つ又は複数のプロセッサに請求項1〜8の何れか1つに記載のピクチャ検索方法を実現させることを特徴とするサーバー。
  15. コンピュータのプログラムを記憶しているコンピュータ読み取り可能な記憶媒体であって、
    当該プログラムがプロセッサにより実行された場合、請求項1〜8の何れか1つに記載のピクチャ検索方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2019128968A 2018-07-27 2019-07-11 ピクチャ検索方法、装置、サーバー及び記憶媒体 Active JP6785921B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810848059.4A CN109033385B (zh) 2018-07-27 2018-07-27 图片检索方法、装置、服务器及存储介质
CN201810848059.4 2018-07-27

Publications (2)

Publication Number Publication Date
JP2020017272A JP2020017272A (ja) 2020-01-30
JP6785921B2 true JP6785921B2 (ja) 2020-11-18

Family

ID=64646457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019128968A Active JP6785921B2 (ja) 2018-07-27 2019-07-11 ピクチャ検索方法、装置、サーバー及び記憶媒体

Country Status (3)

Country Link
US (1) US11210334B2 (ja)
JP (1) JP6785921B2 (ja)
CN (1) CN109033385B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516062B (zh) * 2019-08-26 2022-11-04 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置
CN110597955A (zh) * 2019-09-09 2019-12-20 北京计算机技术及应用研究所 一种基于tfidf的文档内图片搜索方法
CN111241313A (zh) * 2020-01-06 2020-06-05 郑红 支持图像录入的检索方法和装置
CN113590861A (zh) * 2020-04-30 2021-11-02 北京搜狗科技发展有限公司 一种图片信息的处理方法、装置及电子设备
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112819509B (zh) * 2021-01-18 2024-03-26 上海携程商务有限公司 自动筛选广告图片的方法、系统、电子设备和存储介质
CN113407749B (zh) * 2021-06-28 2024-04-30 北京百度网讯科技有限公司 图片索引构建方法、装置、电子设备以及存储介质
US20230352055A1 (en) * 2022-05-02 2023-11-02 Adobe Inc. Auto-generating video to illustrate a procedural document

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US7783135B2 (en) * 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
US20070266001A1 (en) * 2006-05-09 2007-11-15 Microsoft Corporation Presentation of duplicate and near duplicate search results
US20080097981A1 (en) * 2006-10-20 2008-04-24 Microsoft Corporation Ranking images for web image retrieval
US7555477B2 (en) * 2006-12-05 2009-06-30 Yahoo! Inc. Paid content based on visually illustrative concepts
CN100476830C (zh) * 2007-06-07 2009-04-08 北京金山软件有限公司 一种网络资源检索方法及系统
CN101414307A (zh) * 2008-11-26 2009-04-22 阿里巴巴集团控股有限公司 提供图片搜索的方法和服务器
US20100145923A1 (en) * 2008-12-04 2010-06-10 Microsoft Corporation Relaxed filter set
US8909625B1 (en) * 2011-06-02 2014-12-09 Google Inc. Image search
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎
CN102819556B (zh) * 2012-06-28 2015-06-17 优视科技有限公司 查看图片的方法及装置
US11250203B2 (en) * 2013-08-12 2022-02-15 Microsoft Technology Licensing, Llc Browsing images via mined hyperlinked text snippets
CN105630802A (zh) * 2014-10-30 2016-06-01 阿里巴巴集团控股有限公司 网页去重方法及装置
CN104504109B (zh) * 2014-12-30 2017-03-15 百度在线网络技术(北京)有限公司 图片搜索方法和装置
US11055335B2 (en) * 2016-07-15 2021-07-06 Google Llc Contextual based image search results
US10459995B2 (en) * 2016-12-22 2019-10-29 Shutterstock, Inc. Search engine for processing image search queries in multiple languages

Also Published As

Publication number Publication date
JP2020017272A (ja) 2020-01-30
CN109033385B (zh) 2021-08-27
US20200034384A1 (en) 2020-01-30
CN109033385A (zh) 2018-12-18
US11210334B2 (en) 2021-12-28

Similar Documents

Publication Publication Date Title
JP6785921B2 (ja) ピクチャ検索方法、装置、サーバー及び記憶媒体
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US10282419B2 (en) Multi-domain natural language processing architecture
US8577882B2 (en) Method and system for searching multilingual documents
US8868569B2 (en) Methods for detecting and removing duplicates in video search results
JP6047550B2 (ja) 検索方法、クライアント及びサーバ
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
CN107491518A (zh) 一种搜索召回方法和装置、服务器、存储介质
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
US8572087B1 (en) Content identification
JP2013541793A (ja) マルチモード検索クエリー入力手法
CN109241319B (zh) 一种图片检索方法、装置、服务器和存储介质
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
CN109325108B (zh) 查询处理方法、装置、服务器及存储介质
CN105637509A (zh) 在图像内搜索和注释
US20180276210A1 (en) Dynamic summary generator
JP7140913B2 (ja) 映像配信時効の決定方法及び装置
JP2017157193A (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN109952571A (zh) 基于上下文的图像搜索结果
JP5226241B2 (ja) タグを付与する方法
CN106372231A (zh) 一种搜索方法及装置
JP5121872B2 (ja) 画像検索装置
JP2022054389A (ja) 検索モデルの訓練方法、装置、デバイス、コンピュータ記憶媒体、及びコンピュータプログラム
WO2018205391A1 (zh) 信息检索准确性评估方法、系统、装置及计算机可读存储介质
CN108491423B (zh) 一种排序方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201027

R150 Certificate of patent or registration of utility model

Ref document number: 6785921

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250