JP2021163477A - 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム - Google Patents

画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2021163477A
JP2021163477A JP2021030712A JP2021030712A JP2021163477A JP 2021163477 A JP2021163477 A JP 2021163477A JP 2021030712 A JP2021030712 A JP 2021030712A JP 2021030712 A JP2021030712 A JP 2021030712A JP 2021163477 A JP2021163477 A JP 2021163477A
Authority
JP
Japan
Prior art keywords
image
information
entity
entities
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021030712A
Other languages
English (en)
Other versions
JP7121819B2 (ja
Inventor
ジャオ チャン
Zhou Cheng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021163477A publication Critical patent/JP2021163477A/ja
Application granted granted Critical
Publication of JP7121819B2 publication Critical patent/JP7121819B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/235Update request formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】絶えずに更新される画像及び情報ソースに基づいて正確な記述情報を十分に提供する画像処理方法及び装置を提供する。
【解決手段】方法200は、参照画像情報ライブラリから目標画像とマッチする参照画像の記述情報を取得する202ことと、参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定する204ことと、少なくとも1つの実体に基づいて目標画像の記述情報を生成する206ことと、を含む。
【効果】絶えずに更新される画像及び情報ソースに基づいて正確な記述情報を十分に提供することができ、それにより人的資源コストを効果的に節約し、且つユーザ体験を顕著に向上させる。
【選択図】図2

Description

本開示の実施形態は、主に人工知能の分野に関し、より詳細には、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関する。
ネットワーク閲覧により見られた画像又は生活中に見られた物事に対して、ユーザは画像を利用して検索して見られた画像情報又は物事の記述情報(例えば、名称)をさらに調査するニーズがある可能性がある。具体的には、ユーザが国を知らない国旗、名前を知らない建物、絵画作品、有名人などを発見した場合、既知の画像に基づいてその画像の記述情報を確定し、その記述情報を回答としてユーザにフィードバックする必要がある。従来の画像の記述情報を確定する方式は、一般的に画像及び/又は情報ソースの急速な発展変化(例えば、リアルタイム変化のインターネット知識更新)に対応することができず、固定又は特定の知識集合に限定され、画像の記述情報が十分ではない。
本開示の例示的な実施形態によれば、画像処理のための解決策が提供される。
本開示の第1態様において、画像処理方法を提供する。該方法は参照画像情報ライブラリから目標画像とマッチする参照画像の記述情報を取得することを含むことができる。該方法は、参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定することをさらに含む。かつ、該方法は、少なくとも1つの実体に基づいて目標画像の記述情報を生成することをさらに含むことができる。
本開示の第2態様において、参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュールと、前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定するように構成される実体確定モジュールと、前記少なくとも1つの実体に基づいて、前記目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュールと、を含む画像処理装置を提供する。
本開示の第3態様において、1つまたは複数のプロセッサと、
1つまたは複数のプログラムを格納するための記憶装置であって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに本開示の第1態様に記載の方法を実現させる記憶装置と、を備える電子機器を提供する。
本開示の第4態様において、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、本開示の第1態様に記載の方法を実現するコンピュータ可読記憶媒体を提供する。
本開示の第5態様において、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、本開示の第1態様に記載の方法を実現する、コンピュータプログラムを提供する。
発明の概要に記載された内容は、本開示の実施形態のかなめ又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本発明の他の特徴は、以下の説明によって容易に理解されるであろう。
図面を踏まえて以下の詳細な説明を参照すれば、本開示の各実施形態の上述したもの並びに他の特徴、利点及び態様は、より明らかになるであろう。添付図面において、同一又は類似の図面符号は、同一又は類似の要素を表す。
本開示のいくつかの実施形態が実現可能な例示的な環境を示す模式図である。 本開示の実施形態に係る画像処理のためのプロセスを示すフローチャートである。 本開示の実施形態に係る目標画像の記述情報を生成するためのプロセスを示すフローチャートである。 本開示の実施形態に係る目標画像の記述情報を生成するための他のプロセスを示すフローチャートである。 本開示の実施形態に係る目標画像を処理するための装置のブロック図である。 本開示の複数の実施形態を実施することができるコンピューティングデバイスを示すブロック図である。
以下、添付図面を参照しながら本開示の実施形態を更に詳しく説明する。本発明のいくつかの実施例が図面に示されているが、本発明は様々な形態で具現化されてもよく、本明細書に記載の実施例に限定されると解釈されるべきではなく、逆に、これらの実施例は、本発明をより明確かつ完全に理解するために提供されていることを理解されたい。なお、本開示の図面及び実施形態は例示的なものにすぎず、本開示の保護範囲を限定するものではない。
本開示の実施形態の説明では、用語「…を含む」およびそれに類似する用語は、「…を含むがそれらに限定されない」という非限定の表現として理解されるべきである。「…に基づいて」という用語は、「…に少なくとも部分的に基づいて」と理解されるべきである。「1つの実施形態」または「該実施形態」という用語は、「少なくとも1つの実施形態」と理解されるべきである。なお、「第1」、「第2」等の用語は、異なるオブジェクトまたは同一のオブジェクトを意味することができる。以下では、他の明確か暗黙的な定義がさらに含まれ得る。
画像に基づいて該画像の記述情報を確定する過程において、一般的に分類モデルを訓練する方式により、訓練された分類モデルを利用してユーザが検索しようとする画像の記述情報を確定することができる。しかしながら、インターネットの知識更新はリアルタイムに変化して発展するため、絶えず新しい知識に基づいて分類モデルを訓練する必要があり、これは一般的に大きな人的資源コストを必要とする。
また、さらに簡単な検索の方式により、シソーラス及びそれに対応する画像を収集することができ、そのうちの1つの画像がユーザが検索したい画像とマッチする場合、該画像に対応するシソーラスが回答として選択されてユーザにフィードバックされる。しかしながら、大きな人的資源コストをかけないと、この方式は依然としてリアルタイムに更新されたインターネット知識に対応することができない。また、シソーラスは一般的に比較的統一的な実体名詞に関連するため、確定された記述情報が不十分である可能性もある。
本開示の実施形態によれば、画像処理の改良方案が提案される。この方案では、ユーザが入力した目標画像とマッチする参照画像が存在するウェブページのテキスト情報抽出に関する実体を用いて目標画像を記述する。具体的には、まず画像ソース及び/又は情報ソースに基づいて構築された参照画像情報ライブラリを取得することができ、参照画像情報ライブラリには少なくとも参照画像及びその記述情報が含まれる。目標画像と参照画像情報ライブラリにおける参照画像を比較することにより、目標画像とマッチする参照画像を見つけることができ、さらに該参照画像の記述情報を確定することができる。次に、確定された記述情報から少なくとも1つの実体を取得し、少なくとも1つの実体に基づいて目標画像の記述情報を確定することができる。このようにすると、絶えずに更新される画像及び情報ソースに基づいて正確な記述情報を十分に提供することができ、それにより人的資源コストを効果的に節約し、且つユーザ体験を顕著に向上することができる。
図1は、本開示のいくつかの実施形態が実現可能な例示的な環境100を示す模式図である。この例示的な環境100において、目標画像110はユーザが入力した検索しようとする画像であってもよく、例えばユーザがネットワーク上の画像をコピー又はスナップショットして得られた画像であってもよく、又はユーザがある被写体を撮影した写真であってもよい。別の例として、目標画像110は、後続の記述情報の生成のための、ある画像処理システムによって自動的に取得されたネットワーク画像または外部記憶装置内の画像であってもよい。上記の実施形態は本開示を説明するためのものであり、本開示を具体的に限定するものではない。
図1に示すように、目標画像110の記述情報を確定するために、目標画像110はコンピューティングデバイス120に入力される。いくつかの実施形態では、コンピューティングデバイス120は、パーソナルコンピュータ、サーバコンピュータ、携帯型またはノート型の装置、モバイルデバイス(例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、メディアプレーヤ等)、マルチプロセッサシステム、消費電子製品、小型コンピュータ、大型コンピュータ、またはこれらのシステムまたは装置のいずれかを含む分散計算環境などが挙げられるが、これらに限られない。
いくつかの実施形態では、コンピューティングデバイス120は、通信接続された参照画像情報ライブラリ130から目標画像110とマッチする参照画像の記述情報を取得し、該参照画像の記述情報に基づいて目標画像110の記述情報140を確定するために、クラウド側に位置してもよい。参照画像情報ライブラリ130には、複数の参照画像とそれに対応する記述情報が含まれる。図1に示すように、参照画像情報ライブラリ130には、一例として、複数の情報集合132、134および136が含まれており、各情報集合には、1つの参照画像とそれに対応する記述情報が格納されている。参照画像の記述情報は、参照画像のテキスト情報および構造化情報の少なくとも一方を含み得る。
一例として、図1に示すように、コンピューティングデバイス120が、複数の情報集合132、134、および136から目標画像110とマッチする参照画像151を見つけると、対応する情報集合から参照画像151の記述情報を取得し、その記述情報から複数の実体、例えば実体1、実体2、実体3などを抽出することができる。さらに、コンピューティングデバイス120は、これらの実体から、それらのそれぞれの複数の特徴パラメータ、例えば、特徴パラメータA、特徴パラメータB、特徴パラメータCなどを統計する。
コンピューティングデバイス120の処理を経て、上記実体及び特徴パラメータに基づいて目標画像110の記述情報140を確定し、且つそれを処理結果としてユーザにフィードバックすることができる。一例として、記述情報140は、ユーザが目標画像110の関連知識情報を知りたいという要求を満たすように、目標画像110に関連するオブジェクトの特定の名称を記述するために使用されてもよい。
図1に示される環境は、例示的なものに過ぎず、本開示を特定的に限定するものではないことを理解されたい。
図2は、本開示の実施形態に係る画像処理のためのプロセス200を示すフローチャートである。いくつかの実施形態では、方法200は、図6に示す装置において実現されてもよい。以下、図1を参照して、本開示の実施形態に係る目標画像110の処理プロセス200について説明する。理解を容易にするために、以下の説明に言及する特定のデータはいずれも例示的なものであり、本開示の保護範囲を限定するものではない。
ステップ202において、コンピューティングデバイス120は、参照画像情報ライブラリ130から目標画像110にマッチする参照画像の記述情報を取得することができる。一例として、図1に示すように、情報集合134内の参照画像が目標画像110とマッチしていると確定された場合、情報集合134から対応する記述情報を取得する。本開示の実施形態によれば、参照画像の記述情報は、参照画像のテキスト情報および構造化情報のうちの少なくとも一方を含み得る。これにより、参照画像とその全ての関連テキスト情報を関連づけることができ、後続の実体ワードの抽出プロセスに役立つ。一例として、インターネット上のすべてのコンテンツをネットワーククローラなどの知識獲得技術を介してスクレイピングし、ウェブページ内の画像、画像周辺のテキスト情報、およびウェブページの構造化情報、例えば<title>tagのテキストコンテンツ、特定のウェブサイトの可視タイトルなどを抽出することができる。画像周辺のテキスト情報とウェブページの構造化情報は、参照画像の記述情報を構成する。これらの情報は、参照画像情報ライブラリ130に対応して格納され、ネットワーククローラなどの知識獲得技術に基づいてリアルタイムまたは定期的に更新される。参照画像情報ライブラリ130の画像は参照画像と呼ばれ、該画像が位置するウェブページは画像ソース(又は「ソースファイル」)と呼ばれる。
いくつかの実施形態では、目標画像110が受信された後、コンピューティングデバイス120は、目標画像110の特徴ベクトルを抽出し、抽出された特徴ベクトルを参照画像リポジトリ130内の各画像の特徴ベクトルと照合することができる。参照画像情報ライブラリ130では一致度が所定の閾値よりも大きい画像が見つかった場合には、その画像を参照画像とし、その参照画像に対応する記述情報を取得する。参照画像を確定する上述の方法は、例示的なものに過ぎず、本開示を具体的に限定するものではないことを理解されたい。例えば、参照画像の記述情報に加えて、該画像が位置する画像ソースを取得することもできる。このようにすることで、目標画像110とマッチする参照画像とその記述情報を迅速に確定することができ、該参照画像の記述情報への次の処理プロセスに役立つ。
ステップ204において、コンピューティングデバイス120は、上述の参照画像の記述情報から、参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定することができる。一例として、固有表現識別(NER)技術を用いて参照画像の記述情報から少なくとも1つの実体を取得することができる。一例として、参照画像の記述情報は、参照画像のテキスト情報および構造化情報である。NER技術によってこれらの情報から複数の実体、例えば複数の実体名詞を抽出して、候補の実体名詞集合を形成することができる。このようにして、目標画像110に関連する実体ワードを、人手を介さずに候補として取得することができる。
好ましくは、これらの実体名詞は上記ウェブページのスクレイピング記憶を行う時にNERを用いて抽出して記憶することができる。代替的に、または追加的に、これらの実体名詞は、参照画像の実体として確定された後にNERを使用して、抽出されてもよい。
ステップ206において、コンピューティングデバイス120は、上記少なくとも1つの実体に基づいて、目標画像110の記述情報140を生成することができる。なお、生成された記述情報140は、上記参照画像の記述情報とは全く異なる。上記参照画像の記述情報は画像周辺のテキスト情報及びウェブページの構造化情報を含み、記述情報140は、目標画像110を簡単に記述するための1つ又は複数の実体ワードのみを含み得る。コンピューティングデバイス120は、目標画像110の記述情報140を様々な方法で確定することができることも理解されるべきである。例えば、図3は、本開示の実施形態による、目標画像110の記述情報140を生成するためのプロセス300のフローチャートを示す。理解を容易にするために、以下の説明に言及する具体的なプロセスはいずれも例示的であり、本開示の保護範囲を限定するものではない。
ステップ302において、複数の実体があると判定されると、コンピューティングデバイス120は、参照画像情報ライブラリ130に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、及び画像ソースのコンテンツにおけるこれらの実体の位置に対応する重みのうちの少なくとも1つのパラメータを含むことができる。
ステップ304において、コンピューティングデバイス120は、上記複数の実体から、同じ実体である少なくとも1組の実体を確定することができる。一例として、複数の参照画像及びその記述情報が確定された後、これらの記述情報から複数の実体を確定することができる。各参照画像の相関関係により、確定された複数の実体の中に同じ実体が存在する。したがって、同じ実体を1組の実体として確定することができる。
ステップ306において、コンピューティングデバイス120は、上記少なくとも1組の実体の対応する特徴パラメータの統計結果を確定することができる。一例として、コンピューティングデバイス120は、上記1組の実体の対応する特徴パラメータの統計結果、例えば、合計値、平均値などの統計情報を確定することができる。例えば、該1組の実体が位置する画像ソースのコンテンツに表示された回数の和、これらの実体が画像ソースのコンテンツにおける出現回数の和、及びこれらの実体がその画像ソースのコンテンツにおける位置に対応する重みの平均値等を計算することができる。当然のことながら、上記計算方法は例示的なものに過ぎず、本開示を限定するものではない。
その後、コンピューティングデバイス120は、上記統計結果に基づいて目標画像110の記述情報140を生成することができる。このように、人工マーキングの作業を主に記述情報生成モデルの訓練部分のみに集中することができ、それにより人的資源コストを低減できる。記述情報140は、様々な方法で生成することができることを理解されたい。一例として、ステップ308において、上記少なくとも1組の実体の、目標画像110内のオブジェクトを識別する正確度を確定する。正確度とは、上記少なくとも1組の実体と目標画像110内のオブジェクトとのマッチング度を示すために使用されてもよいし、上記少なくとも1組の実体が目標画像110内のオブジェクトを正確に識別する確率を示すために使用されてもよいことを理解されたい。一例として、このプロセスは、スコアリングモデルを訓練することによって実現され得る。例えば、該特徴訓練に基づく勾配ブースティング決定木(GBDT,Gradient Boosting Decision Tree)アルゴリズムを使用して、各実体が目標画像110内のオブジェクトと関連しているかどうかをスコア化する。スコアが高いほど、実体が目標画像110内のオブジェクトとのマッチング度合いが高いか、または実体が目標画像110内のオブジェクトを正しく識別する確率が高いと示される。
その後、ステップ310において、コンピューティングデバイス120は、上記少なくとも1組の実体から、対応する正確度が閾値よりも高い1組の目標実体を選択することができる。一例として、各実体のスコアに基づいて、より高いまたは最も高いスコアの実体を選択することができる。最も高いスコアを有する実体ワードのスコアが設定された閾値よりも低ければ、今回の検索において正しい実体がないと判定し、そうでなければより高い又は最も高いスコアを有する実体を出力する。さらに、ステップ312において、コンピューティングデバイス120は、該組の目標実体に基づいて、目標画像110の記述情報140を生成することができる。
このようにして、訓練されたスコアリングモデルに基づいて、複数の参照画像に関連する記述情報の中から、目標画像110に最も関連する実体ワードを確定することができ、それによって、目標画像110の最も正確な記述情報140をユーザに提供することができる。また、人工マーキングの作業を主にスコアリングモデルの訓練部分に集中するため、それにより人的資源コストを低減できる。
さらに、コンピューティングデバイス120は、以下のようにして、目標画像110の記述情報140を確定することもできる。図4は、本開示の実施形態による、目標画像110の記述情報140を生成するための別のプロセス400のフローチャートを示す。理解を容易にするために、以下の説明に言及する具体的なプロセスはいずれも例示的であり、本開示の保護範囲を限定するものではない。
ステップ402において、複数の実体があると判定された場合、コンピューティングデバイス120は、参照画像情報ライブラリ130に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、及び画像ソースのコンテンツにおけるこれらの実体の位置に対応する重みのうちの少なくとも1つのパラメータを含むことができる。
ステップ404において、コンピューティングデバイス120は、上記特徴パラメータに基づいて、これらの実体の各々が目標画像110内のオブジェクトを識別する正確度を確定することができる。一例として、このプロセスは、深層学習モデルを訓練することによって実現され得る。例えば、長短期記憶ネットワーク(LSTM)またはTransformerモデルなどのシーケンスモデルを使用して、各実体の特徴パラメータに基づいて、各実体が目標画像110内のオブジェクトにヒットする確率を予測する。
ステップ406において、コンピューティングデバイス120は、上記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択することができる。一例として、ヒット確率がより高いまたは最も高い実体を選択することができる。高い又は最も高いヒット確率が設定された閾値未満であれば、今回の検索に正しい実体がないと判定し、そうでなければ高い又は最も高いヒット確率を有する実体を出力する。さらに、ステップ408において、コンピューティングデバイス120は、該目標実体に基づいて、目標画像110の記述情報140を生成することができる。
以上のようにして、訓練された学習モデルに基づいて、複数の参照画像に関連付けられた記述情報の中から、目標画像110に最も関連する実体ワードを確定することができ、目標画像110の最も正確な記述情報140をユーザに提供することができる。また、人工マーキングの作業を主に学習モデルの訓練部分に集中するため、それにより人的資源コストを低減できる。
さらに、いくつかの実施形態では、コンピューティングデバイス120は、参照画像情報ライブラリ130を更新することもできる。この更新プロセスは、種々の方式で実現することができる。一実施形態では、コンピューティングデバイス120は、ネットワーク画像、ユーザ入力画像、および外部記憶装置内の画像などの様々な補足画像情報を取得し、そのような補足画像情報に基づいて参照画像情報ライブラリ130を更新することができる。ネットワーク画像は、例えば、インターネットまたは他のネットワークを介して取得されネットワークデバイスに記憶された画像であってもよい。ユーザ入力画像は、例えば、ユーザが携帯電話、カメラなどの端末装置を介して撮影しコンピューティングデバイス120に送信した画像であってもよい。外部記憶装置内の画像は、例えば、リムーバブル記憶装置、クラウド記憶装置等に記憶された画像であってもよい。具体的には、参照画像情報ライブラリは、定期的にまたは随時に更新してもよい。例えば、参照画像情報ライブラリは、ネットワーク画像、ユーザ入力画像、および外部記憶装置内の画像に基づいて更新されてもよい。参照画像情報ライブラリの作成および更新プロセスは、記述情報を確定するプロセス全体にわたって、ネットワーククローラなどの知識獲得技術によって自動的かつ定期的に実現されてもよい。確定された実体に基づいて目標画像の記述情報を生成するプロセスは人工訓練のモデルによって実現することができる。このようにして、参照画像情報ライブラリは、絶えず変化し、迅速に更新されるインターネットの知識集合に基づいて、不要な手動介入なしに更新され得る。
いくつかの実施形態では、特徴パラメータは、以下のように確定することができる。まず、コンピューティングデバイス120は、参照画像情報ライブラリ130から参照画像の画像ソースに関する情報を確定することができる。その後、コンピューティングデバイス120は、該参照画像の画像ソースに関する情報に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、これらの実体の画像ソースのコンテンツにおける位置に対応する重み、実体と目標画像とのマッチング度、実体が所在する画像ソースのコンテンツと目標画像とのマッチング度のうちの少なくとも1つのパラメータを含むことができる。このようにして、個々の実体と目標画像110との関連性を異なる次元で検出することができ、それによって正確な記述情報140を確定するためのより包括的な評価体系を提供する。特徴パラメータを確定する上記の方法は、単なる例示であり、本開示の範囲を限定するものではないことを理解されたい。
理解されるように、本開示の画像処理方式の従来の画像認識方式に対する利点は、ネットワークに新たな実体情報(例えば、新スター、新建築、新製品等)が現れるたびに、本開示の画像処理方式は従来の画像認識方式のように画像認識モデルを手動で訓練する必要がない。なぜならば、本開示は、ネットワーククローラなどの知識獲得技術を用いて参照画像情報ライブラリ130を更新し、訓練されたモデルを用いて参照画像の記述情報から実体を抽出し、訓練されたモデルを用いて実体の統計結果に基づいて目標画像110の記述情報140を生成するからである。本開示の全てのモデルは、新しい実体情報が現れるたびに再訓練する必要はない。それにより、多くの人工介入を行わない前提で絶えず更新されたインターネットの知識集合を十分にカバーすることによりユーザーに正確な記述情報を確定することができ、それにより人的資源コストを節約し、且つユーザー体験を向上させる。
図5は、本開示の実施形態に係る目標画像110を処理するための装置500のブロック図を示す。図5に示すように、装置500は、参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュール502と、参照画像の記述情報から、参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定するように構成される実体確定モジュール504と、少なくとも1つの実体に基づいて、目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュール506と、を含む。
いくつかの実施形態において、装置500は、ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも1つの画像の記述情報を含む補足画像情報を取得するように構成される補足画像情報取得モジュール(図示せず)と、補足画像情報に基づいて参照画像情報ライブラリを更新するように構成される参照画像情報ライブラリ更新モジュール(図示せず)と、を含み得る。
いくつかの実施形態において、実体確定モジュール504は、
固有表現識別技術を用いて参照画像の記述情報から少なくとも1つの実体を取得するように構成される実体取得モジュール(図示せず)を含み得る。
いくつかの実施形態において、少なくとも1つの実体は、複数の実体を含み、目標画像記述情報生成モジュール506は、前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュール(図示せず前記複数の実体から、同じ実体である少なくとも1組の実体を確定するように構成される実体組確定モジュール(図示せず)と)と、前記少なくとも1組の実体の対応する特徴パラメータの統計結果を確定するように構成される統計結果確定モジュール(図示せず)と、前記統計結果に基づいて、前記少なくとも1組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュール(図示せず)と、前記少なくとも1組の実体から、対応する正確度が閾値よりも高い1組の目標実体を選択するように構成される目標実体組選択モジュール(図示せず)と、前記1組の目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュール(図示せず)とを含み得る。
いくつかの実施形態において、少なくとも1つの実体は、複数の実体を含み、目標画像記述情報生成モジュール506は、前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュール(図示せず)と、
前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュール(図示せず)と、前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択するように構成される目標実体選択モジュール(図示せず)と、前記目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュール(図示せず)と、を含み得る。
いくつかの実施形態において、特徴パラメータ確定モジュールは、前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定するように構成される画像ソース関連情報確定モジュール(図示せず)と、前記参照画像の画像ソースに関連する情報に基づいて、前記少なくとも1つの実体が位置する前記画像ソースのコンテンツが表示された回数と、前記画像ソースのコンテンツの閲覧回数と、前記画像ソースのコンテンツのクリック回数と、前記少なくとも1つの実体の、前記画像ソースのコンテンツにおける出現回数と、前記少なくとも1つの実体の前記画像ソースのコンテンツにおける位置に対応する重みと、前記少なくとも1つの実体と前記目標画像とのマッチング度と、前記少なくとも1つの実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、の少なくとも1つを確定するように構成される特徴パラメータ情報確定モジュール(図示せず)と、を含み得る。
いくつかの実施形態において、記述情報は、参照画像のテキスト情報および構造化情報の少なくとも一方を含む。
図6は、本開示の複数の実施形態を実施することができるコンピューティングデバイス600を示すブロック図である。装置600は、図1のコンピューティングデバイス120を実施するために使用可能である。図に示すように、装置600は、読み出し専用メモリ(ROM)602に記憶されているコンピュータプログラム命令又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラム命令によって様々な適当な動作及び処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、装置600の動作に必要な様々なプログラム及びデータが更に格納されることが可能である。CPU601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス504に接続されている。
装置600において、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット609とを含む複数のコンポーネントは、I/Oインターフェース605に接続されている。通信ユニット609は、装置600がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の装置と情報又はデータの交換を可能にする。
処理ユニット601は、上述した各方法並びにプロセス200、300および400のような処理を実行する。例えば、いくつかの実施形態では、プロセス200、300および400は、記憶ユニット608などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介して装置600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされ、CPU601によって実行されると、上述したプロセス200、300および400の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、CPU601は、他の任意の適切な手段によって(例えば、ファームウェアによって)プロセス200、300および400を実行するように構成され得る。
本明細書で説明した機能は、少なくとも部分的に1つまたは複数のハードウェアロジックコンポーネントによって実行され得る。例えば、非限定的に、採用できる汎用型のハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)などが含まれる。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置またはデバイスが使用するため、または命令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置またはデバイス、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD−ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
また、各動作は、特定の順序で示されているが、所望の結果を得られるために、このような動作は示された特定の順序にてまたは順を追って実行されることを要求するか、または、図に示されたすべての動作が実行されることを要求するものと理解されるべきである。特定の環境では、マルチタスクと並列処理が有利である可能性がある。同様に、上記ではいくつかの具体的な実施詳細を説明したが、これらは本開示の範囲への制限と解釈されるべきではない。個別の実施形態のコンテキストで説明された、いくつかの特徴は、単一の実施において組み合わせて実施されることもできる。逆に、単一の実施のコンテキストで説明された様々な特徴は、複数の実施において、個別にまたは任意の適切なサブセットで実施されることもできる。
本主題は、構造特徴および/または方法のロジック動作に特定された言語で記述されたが、特許請求の範囲内に限定される主題が、必ずしも上記に記載された特定の特徴または動作に限定されるものではないことを理解されたい。逆に、上述した特定の特徴および動作は、特許請求の範囲を実施するための例示的な形態にすぎない。

Claims (19)

  1. 参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得することと、
    前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定することと、
    前記少なくとも1つの実体に基づいて、前記目標画像の記述情報を生成することと、を含む画像処理方法。
  2. 前記方法は、
    ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも1つの画像の記述情報を含む補足画像情報を取得することと、
    前記補足画像情報に基づいて前記参照画像情報ライブラリを更新することと、
    を含む請求項1に記載の方法。
  3. 前記少なくとも1つの実体を確定することは、
    固有表現識別技術を用いて前記参照画像の記述情報から前記少なくとも1つの実体を取得することを含む請求項1に記載の方法。
  4. 前記少なくとも1つの実体は、複数の実体を含み、
    前記目標画像の記述情報を生成することは、
    前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定することと、
    前記複数の実体から、同じ実体である少なくとも1組の実体を確定することと、
    前記少なくとも1組の実体の対応する特徴パラメータの統計結果を確定することと、
    前記統計結果に基づいて前記目標画像の記述情報を生成することと、を含む請求項1に記載の方法。
  5. 前記統計結果に基づいて前記目標画像の記述情報を生成することは、
    前記統計結果に基づいて、前記少なくとも1組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定することと、
    前記少なくとも1組の実体から、対応する正確度が閾値よりも高い1組の目標実体を選択することと、
    前記1組の目標実体に基づいて、前記目標画像の記述情報を生成することと、を含む請求項4に記載の方法。
  6. 少なくとも1つの実体は、複数の実体を含み、
    前記目標画像の記述情報を生成することは、
    前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定することと、
    前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定することと、
    前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択することと、
    前記目標実体に基づいて、前記目標画像の記述情報を生成することと、を含む請求項1に記載の方法。
  7. 前記特徴パラメータを確定することは、
    前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定することと、
    前記参照画像の画像ソースに関連する情報に基づいて、
    前記少なくとも1つの実体が位置する前記画像ソースのコンテンツが表示された回数と、
    前記画像ソースのコンテンツの閲覧回数と、
    前記画像ソースのコンテンツのクリック回数と、
    前記少なくとも1つの実体の、前記画像ソースのコンテンツにおける出現回数と、
    前記少なくとも1つの実体の前記画像ソースのコンテンツにおける位置に対応する重みと、
    前記少なくとも1つの実体と前記目標画像とのマッチング度と、
    前記少なくとも1つの実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、のうちの少なくとも1つを確定することと、を含む請求項4〜6のいずれか1項に記載の方法。
  8. 前記記述情報は、前記参照画像のテキスト情報および構造化情報の少なくとも一方を含む請求項1に記載の方法。
  9. 参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュールと、
    前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも1つの実体を確定するように構成される実体確定モジュールと、
    前記少なくとも1つの実体に基づいて、前記目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュールと、を含む画像処理装置。
  10. ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも1つの画像の記述情報を含む補足画像情報を取得するように構成される補足画像情報取得モジュールと、
    前記補足画像情報に基づいて前記参照画像情報ライブラリを更新するように構成される参照画像情報ライブラリ更新モジュールと、
    をさらに含む請求項9に記載の装置。
  11. 前記実体確定モジュールは、
    固有表現識別技術を用いて前記参照画像の記述情報から前記少なくとも1つの実体を取得するように構成される実体取得モジュールを含む請求項9に記載の装置。
  12. 前記少なくとも1つの実体は、複数の実体を含み、
    前記目標画像記述情報生成モジュールは、
    前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュールと、
    前記複数の実体から、同じ実体である少なくとも1組の実体を確定するように構成される実体組確定モジュールと、
    前記少なくとも1組の実体の対応する特徴パラメータの統計結果を確定するように構成される統計結果確定モジュールと、
    前記統計結果に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュールと、を含む請求項9に記載の装置。
  13. 前記記述情報生成モジュールは、
    前記統計結果に基づいて、前記少なくとも1組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュールと、
    前記少なくとも1組の実体から、対応する正確度が閾値よりも高い1組の目標実体を選択するように構成される目標実体組選択モジュールと、
    前記1組の目標実体に基づいて、前記目標画像の記述情報を生成するように構成される情報生成モジュールと、を含む請求項12に記載の装置。
  14. 少なくとも1つの実体は、複数の実体を含み、
    前記目標画像記述情報生成モジュールは、
    前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュールと、
    前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュールと、
    前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択するように構成される目標実体選択モジュールと、
    前記目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュールと、を含む請求項9に記載の装置。
  15. 前記特徴パラメータ確定モジュールは、
    前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定するように構成される画像ソース関連情報確定モジュールと、
    前記参照画像の画像ソースに関連する情報に基づいて、
    前記少なくとも1つの実体が位置する前記画像ソースのコンテンツが表示された回数と、
    前記画像ソースのコンテンツの閲覧回数と、
    前記画像ソースのコンテンツのクリック回数と、
    前記少なくとも1つの実体の、前記画像ソースのコンテンツにおける出現回数と、
    前記少なくとも1つの実体の前記画像ソースのコンテンツにおける位置に対応する重みと、
    前記少なくとも1つの実体と前記目標画像とのマッチング度と、
    前記少なくとも1つの実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、のうちの少なくとも1つを確定するように構成される特徴パラメータ情報確定モジュールと、
    を含む請求項12〜14のいずれか1項に記載の装置。
  16. 前記記述情報は、前記参照画像のテキスト情報および構造化情報の少なくとも一方を含む請求項9に記載の装置。
  17. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを格納するための記憶装置であって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1〜8のいずれか1項に記載の方法を実現させる記憶装置と、を備える電子機器。
  18. コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、
    前記プログラムがプロセッサによって実行されると、請求項1〜8のいずれか1項に記載の方法を実現する、コンピュータ可読記憶媒体。
  19. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜8のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2021030712A 2020-04-03 2021-02-26 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム Active JP7121819B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010260503.8 2020-04-03
CN202010260503.8A CN111460206B (zh) 2020-04-03 2020-04-03 图像处理方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021163477A true JP2021163477A (ja) 2021-10-11
JP7121819B2 JP7121819B2 (ja) 2022-08-18

Family

ID=71683614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021030712A Active JP7121819B2 (ja) 2020-04-03 2021-02-26 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210311985A1 (ja)
EP (1) EP3889802A1 (ja)
JP (1) JP7121819B2 (ja)
KR (1) KR102609616B1 (ja)
CN (1) CN111460206B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117357928B (zh) * 2023-12-08 2024-04-12 广州泽力医药科技有限公司 一种基于物联网的植物提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287670A (ja) * 2003-03-20 2004-10-14 Dainippon Printing Co Ltd 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
WO2008152805A1 (ja) * 2007-06-14 2008-12-18 Panasonic Corporation 画像認識装置及び画像認識方法
JP2016167236A (ja) * 2015-03-10 2016-09-15 富士ゼロックス株式会社 画像処理装置及びプログラム
US20190294705A1 (en) * 2018-03-26 2019-09-26 Microsoft Technology Licensing, Llc Image annotation

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5215B2 (ja) * 1971-09-06 1977-01-05
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
US9171018B2 (en) * 2012-01-17 2015-10-27 Google Inc. System and method for associating images with semantic entities
CN102902821B (zh) * 2012-11-01 2015-08-12 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
US9489401B1 (en) * 2015-06-16 2016-11-08 My EyeSpy PTY Ltd. Methods and systems for object recognition
CN110892677A (zh) * 2017-05-05 2020-03-17 万事达技术加拿大无限责任公司 区分人类用户与软件机器人的系统和方法
CN108229578B (zh) * 2018-01-25 2019-10-11 海南大学 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
CN108921894B (zh) * 2018-06-08 2021-06-29 百度在线网络技术(北京)有限公司 对象定位方法、装置、设备和计算机可读存储介质
US20200004815A1 (en) * 2018-06-29 2020-01-02 Microsoft Technology Licensing, Llc Text entity detection and recognition from images
CN109635277B (zh) * 2018-11-13 2023-05-26 北京合享智慧科技有限公司 一种获取实体信息的方法及相关装置
CN109933647A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 确定描述信息的方法、装置、电子设备和计算机存储介质
CN110188230A (zh) * 2019-05-30 2019-08-30 中煤航测遥感集团有限公司 基于语义的图像检索方法及装置
CN110728724A (zh) * 2019-10-21 2020-01-24 深圳创维-Rgb电子有限公司 一种图像显示方法、装置、终端及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287670A (ja) * 2003-03-20 2004-10-14 Dainippon Printing Co Ltd 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体
WO2008152805A1 (ja) * 2007-06-14 2008-12-18 Panasonic Corporation 画像認識装置及び画像認識方法
JP2016167236A (ja) * 2015-03-10 2016-09-15 富士ゼロックス株式会社 画像処理装置及びプログラム
US20190294705A1 (en) * 2018-03-26 2019-09-26 Microsoft Technology Licensing, Llc Image annotation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KRAISAK KESORN, 外1名: ""Semantic representation of text captions to aid sport image retrieval"", 2008 INTERNATIONAL SYMPOSIUM ON INTELLIGENT SIGNAL PROCESSING AND COMMUNICATIONS SYSTEMS, JPN6022011071, 11 February 2009 (2009-02-11), US, ISSN: 0004732094 *
服部峻, 外2名: ""文書中の地物画像を言語的記述で代替するための地物の外観情報のWebからの抽出"", 情報処理学会論文誌, vol. 第48巻, 第SIG 11(TOD 34)号, JPN6022011070, 15 June 2007 (2007-06-15), JP, pages 69 - 82, ISSN: 0004732095 *

Also Published As

Publication number Publication date
CN111460206A (zh) 2020-07-28
CN111460206B (zh) 2023-06-23
EP3889802A1 (en) 2021-10-06
US20210311985A1 (en) 2021-10-07
KR102609616B1 (ko) 2023-12-04
JP7121819B2 (ja) 2022-08-18
KR20210124033A (ko) 2021-10-14

Similar Documents

Publication Publication Date Title
CN107491534B (zh) 信息处理方法和装置
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
US10430255B2 (en) Application program interface mashup generation
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN110019732B (zh) 一种智能问答方法以及相关装置
CN110737758A (zh) 用于生成模型的方法和装置
US20220083874A1 (en) Method and device for training search model, method for searching for target object, and storage medium
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
KR20160124742A (ko) 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
CN106708929B (zh) 视频节目的搜索方法和装置
CN109783812B (zh) 基于自注意力机制的中文命名实体识别方法、系统、装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN110334271B (zh) 一种搜索结果优化方法、系统、电子设备及存储介质
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN111666766A (zh) 数据处理方法、装置和设备
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN110737824A (zh) 内容查询方法和装置
JP2013003663A (ja) 情報処理装置、情報処理方法、およびプログラム
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220805

R150 Certificate of patent or registration of utility model

Ref document number: 7121819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150