JP2020149686A - 画像処理方法、装置、サーバ及び記憶媒体 - Google Patents

画像処理方法、装置、サーバ及び記憶媒体 Download PDF

Info

Publication number
JP2020149686A
JP2020149686A JP2020042089A JP2020042089A JP2020149686A JP 2020149686 A JP2020149686 A JP 2020149686A JP 2020042089 A JP2020042089 A JP 2020042089A JP 2020042089 A JP2020042089 A JP 2020042089A JP 2020149686 A JP2020149686 A JP 2020149686A
Authority
JP
Japan
Prior art keywords
image
entity
processed
processing target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020042089A
Other languages
English (en)
Other versions
JP7132962B2 (ja
Inventor
シャオハン ヂャン,
Xiaohan Zhang
シャオハン ヂャン,
イェ シュ,
Ye Xu
イェ シュ,
レン,ガシン
Kexin Ren
ジーファン フェン,
Zhifan Feng
ジーファン フェン,
ヤン ヂャン,
Yang Zhang
ヤン ヂャン,
ヨン ヂュ,
Yong Zhu
ヨン ヂュ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020149686A publication Critical patent/JP2020149686A/ja
Application granted granted Critical
Publication of JP7132962B2 publication Critical patent/JP7132962B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】知識グラフを利用して画像を深く理解し、画像の構造化した語義ラベルを取得する画像処理方法、装置、サーバ及び記憶媒体を提供する。【解決手段】画像処理方法は、処理対象画像に含まれる物体のタイプにより、処理対象画像における物体の特徴表現を決定するステップと、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するステップと、を含む。【選択図】図1

Description

本願の実施例は、画像処理分野に関し、特に、画像処理方法、装置、サーバ及び記憶媒体に関する。
インターネット上の画像、映像類のデータの激増により、画像処理技術の需要も日々増加し、画像処理技術を用いて写真または映像の内容を迅速に理解し、写真または映像に対応なラベルを作成し、ユーザに推薦する。
従来、画像処理技術により画像のラベル結果を取得する技術は、主に物体ラベルの設置及び相関動作について分析していたが、この方法では表面の内容しか分析できず、深層を分析することでさらに深い階層の結果を取得することができず、ラベル結果を語義化できないため、分析結果が不精確である。また、外部の知識グラフ(ナレッジグラフ)データを用いてラベル結果を取得する方法は、ラベルの識別効果を向上するが、ラベルを語義化することができず、写真の内容を深く理解することができない。
本願実施例は知識グラフを利用して画像を深く理解し、画像の構造化した語義ラベルを取得する画像処理方法、装置、サーバ及び記憶媒体を提供している。
第1態様において、本発明実施例は、画像処理方法を提供している。前記方法は、処理対象画像に含まれる物体のタイプにより、処理対象画像における物体の特徴表現を決定するステップと、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するステップと、を含む。
第2態様において、本発明実施例は、画像処理装置を提供している。前記画像処理装置は、処理対象画像における物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定するための特徴表現決定モジュールと、処理対象画像における物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するための関連エンティティ決定モジュールと、を含む。
第3態様において、本発明実施例は、サーバを提供している。前記サーバは、一つまたは複数のプロセッサと、一つまたは複数のプログラムを記憶するためのメモリとを含み、前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行される場合に、前記一つまたは複数のプロセッサが本発明実施例のいずれかの画像処理方法を実現する。
第4態様において、本発明実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供している。前記プログラムがプロセッサにより実行される場合に、本発明実施例のいずれかの画像処理方法が実現される。
本発明実施例は処理対象画像の物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定し、処理対象画像の物体特定表示と知識グラフのエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定する。物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて、更に処理対象画像において物体に関連付けられたエンティティを決定することで、画像に対する深い画像理解が可能となり、画像に関連付けられたエンティティに対する拡張及び確認を行い、構造化した語義ラベルの決定を実現することができる。
本願の実施例1の画像処理方法のフローチャートである。 本願の実施例2の画像処理方法のフローチャートである。 本願の実施例2の画像関連エンティティ決定の概略図である。 本願の実施例3の画像処理装置の構造概略図である。 本願の実施例4のサーバの構造概略図である。
以下、図面と実施例を参照しながら、本発明を詳細に説明する。ここで、具体的な実施態様は、本発明を説明するために過ぎず、本発明を限定するものではないことを理解されたい。また、説明の便宜上のため、図面には、全ての構造ではなく、本発明の関連付けられる部分のみを示している。
実施例1
図1は、本願の実施例1の画像処理方法のフローチャートである。本実施例が提供する画像処理方法は、画像に対して深層を理解して画像ラベルを決定する場合に適用される。該方法は画像処理装置で実行でき、該装置はソフトウェア及び/またはハードウェアの方式で実現でき、またサーバに集合することができる。図1を参照して、本実施態様の方法には、S110〜S120を含んでいる。
S110では、処理対象画像に含まれる物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定する。
具体的には、処理対象画像は写真または映像におけるシングルフレーム画像であってもよく、物体の特徴は処理対象画像における各エンティティを含む。選択可能には、処理対象画像に含まれる物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定することは、処理対象画像に含まれる物体のタイプと物体の画像領域に基づいて、処理対象画像における物体の特徴表現を決定することもできる。例示的には、処理対象画像の目標を識別し、処理対象画像に現れる複数の物体を識別し、複数の物体に分類して描写(delineation)を行い、各物体のタイプと物体の画像領域を取得する。処理対象画像のピクセルデータを分類モデルに入力して、各物体のタイプを取得し、さらにピクセルデータをタイプ対応な深層学習モデルに入力して、処理対象画像に対して特徴を抽出し、特徴表現結果を取得する。選択可能には、ピクセルデータをCNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)モデルに入力して特徴を抽出し、各物体に対応する特徴表現を取得することとしてもよい。その他、選択可能には、各タイプの物体をタイプ対応な深層学習モデルに入力して特徴データを抽出し、さらに該物体の特徴表現を取得することとしてもよい。例えば、タイプが人の顔である画像をDeepID、DeepFaceまたはFaceNet顔識別モデルに入力して、人の顔の特徴を抽出し、人の顔の特徴表現を取得する。
S120では、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定する。
具体的には、物体の特徴表現は処理対象画像に示される物体の特徴であってもよく、例えば物体の形状、色、模様などの特徴である。処理対象画像における物体の特徴表現と知識グラフにおける特徴表現に対してマッチング計算を行い、処理対象画像における物体の特徴表現にマッチングする知識グラフにおけるエンティティを、処理対象画像における物体に関連付けられたエンティティとする。選択可能には、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定することは、処理対象画像における物体の特徴表現、処理対象画像の特徴表現と処理対象画像に関連付けられるテキスト特徴表現、及び知識グラフにおけるエンティティの特徴表現とエンティティ属性情報に基づいて、処理対象画像における物体に関連付けられたエンティティを決定することを含んでもよい。例示的には、実際の応用において、インターネット上の画像は通常、画像に関連付けられるテキストには、例えば画像におけるセリフ、画像由来のタイトル、画像に対応する文章のタイトルなどのテキスト情報があるので、これらの情報を処理対象画像に関連付け、テキストの特徴表現を取得し、テキストの特徴表現と組み合わせることでさらに関連付けられたエンティティを決定することができる。知識グラフにおけるエンティティのエンティティ属性情報は、物体の本質的な属性、例えば処理対象画像における人の年齢、性別、職業などの属性情報を含む。処理対象画像における物体の特徴表現、処理対象画像や処理対象画像の関連付けられるテキスト特徴表現と知識グラフにおける特徴表現に対してマッチング計算を行い、それらの特徴表現を対比して、処理対象画像の物体に関連付けられたエンティティを決定する。
選択可能には、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定した後、処理対象画像が属する文章に含まれたエンティティに基づいて、文章の特徴表現を決定し、前記文章の特徴表現と処理対象画像における物体に関連付けられたエンティティに基づいて、画像と文章の関連度を決定することを含むこととしてもよい。具体的には、処理対象画像が属する文章が処理対象画像と高い関連度があるとは言えず、画像または文章に対する識別誤差による画像と文章の組み合わせとなる可能性が高いため、関連度に基づいて処理対象画像が文章と関連するか否かを決定することができる。例示的には、処理対象画像における文章の特徴表現を決定し、さらに文章の特徴表現及び前記決定した処理画像における物体に関連付けられたエンティティに基づいて、文章と処理対象画像の関連度を決定する。
本発明実施例が提供する技術案は、処理対象画像における物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定し、処理対象画像における物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定する。物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて、更に処理対象画像における物体に関連付けられたエンティティを決定することで、画像に対する深い画像理解が可能となり、画像に関連付けられたエンティティに対する拡張及び確認を行い、構造化した語義ラベルの決定を実現することができる。
実施例2
図2は、本願の実施例2の画像処理方法のフローチャートである。本実施例では、前記実施例に基づいて最適化し、本実施例において詳細に説明していない内容は上述の実施例を参照する。図2を参照して、本実施例が提供する画像処理方法は、S210〜S270を含んでいる。
S210では、処理対象画像に含まれた物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定する。
S220では、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定する。
S230では、第1のリコール方式を決定したエンティティのリコール方式とする。
具体的には、第1のリコール方式はS220における決定したエンティティリコール方式であってもよく、すなわち、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて、処理対象画像における物体に関連付けられたエンティティを決定する。
S240では、少なくとも1つの補助リコール方式で、処理対象画像における物体に関連付けられたエンティティを決定する。
具体的には、前記補助リコール方式は、すなわちS220におけるリコール方式を除く他のリコール方式である。例示的には、インターネット上の画像は通常、画像に関連付けられるテキスト、例えば画像におけるセリフ、画像由来のタイトル、画像に対応する文章のタイトルなどのテキスト情報があるので、テキストの特徴表現によってテキストエンティティを取得できるが、テキストと画像との関連度が低い可能性があるため、テキスト情報に基づいて画像関連結果を決定する方法を補助方法とし、処理対象画像相関のテキスト情報により関連エンティティをリコールし、補助リコール方式とする。
選択可能には、少なくとも1つの補助リコール方式によって、処理対象画像における物体相関のエンティティを決定し、処理対象画像と候補エンティティの画像とをマッチングし、処理対象画像に関連付けられたエンティティを決定する、及び/または、処理対象画像が属するテキストと知識グラフとをマッチングし、処理対象画像に関連付けられたエンティティを決定することとしてもよい。例示的には、処理対象画像と候補エンティティの画像とをマッチング計算し、マッチング結果が条件を満たす場合、該候補エンティティと処理対象画像とが関連付けられると決定する。及び/または、処理対象画像が属する文章テキストと知識グラフとをマッチング計算し、マッチング結果が条件を満たす場合、マッチングするエンティティを処理対象画像に関連付けられたエンティティと決定する。
例示的には、処理対象画像と候補エンティティの画像とをマッチングすることにより、処理対象画像における俳優エンティティを決定することができる。及び/または、画像が属する文章テキストと知識グラフとをマッチングするとことにより、文章におけるテキストに関連付けられる俳優エンティティを取得することができる。
S250では、各エンティティのリコール方式とリコール頻度とに基づいて、処理対象画像における物体に関連付けられたエンティティを再決定する。
例示的には、リコール方式及びリコール方式のリコール頻度の特徴をエンティティ特徴表現に加え、処理対象画像における物体に関連付けられたエンティティを決定し、処理対象画像における物体に関連付けられたエンティティを再決定する。例示的には、再決定した俳優エンティティに基づいて、知識グラフによりキャラクターのエンティティを決定し、キャラクターのエンティティを処理対象画像における物体関連エンティティの結果に追加する。
S260では、知識グラフから物体に関連付けられたエンティティとエッジ関係を持つ新しいエンティティを引き出す。
具体的には、知識グラフに存在する物体に関連付けられたエンティティとエッジ関係を持つエンティティに基づいて、物体に関連付けられたエンティティを検証する。例えば、知識グラフにおけるエンティティ、ドラマ「永遠の桃花〜三生三世」と、それとエッジ関係を持つエンティティは、キャラクター「白浅」であり、キャラクターである「白浅」は、ドラマ「永遠の桃花〜三生三世」とエッジ関係を持つ。物体に関連付けられたエンティティとエッジ関係を持つ新たなエンティティを引き出すことにより、より深い階層でエンティティの属性を理解することができる。
S270では、引き出された新たなエンティティ間の相互関係に基づいて、新たなエンティティで画像に関連付けられる新たなエンティティを選択する。
具体的には、引き出された新たなエンティティ間の関係を取得する。例えば新たなエンティティとの共通点を画像に関連付けられる新たなエンティティとする。例えば、一つの図面に3つのエンティティが関連付けられ、それぞれ知識グラフから3つのエンティティとエッジ関係を持つ新たなエンティティ集合を引き出し、また3つのエンティティの新たなエンティティ集合の共通点を、画像に関連付けられる新たなエンティティとする。例示的には、画像における各俳優エンティティの出演したドラマを取得し、ドラマとの共通点で、共通の部分を画像に関連付けられる新たなエンティティとする。
選択可能には、図3は本願の実施例2の画像関連エンティティ決定の概略図である。図3に示すように、処理対象画像における物体に関連付けられたエンティティを決定し、画像識別分類と特徴抽出により画像における物体に対応するエンティティを取得する。例えば画像におけるエンティティを俳優と識別し、それぞれのキャラクター「劉備」、「関羽」、「張飛」と、知識グラフにおける「劉備」、「関羽」と「張飛」とエッジ関係を持つエンティティに基づいて、各キャラクターが対応するドラマが「三国志演義」であると確認し、さらにドラマ及び3つのキャラクターに基づいて、写真のシナリオが「桃園の誓い」であると決定する。さらに選択可能には、画像識別分類と特徴抽出により画像における物体に対応なエンティティを取得したときに、例えば画像におけるエンティティが俳優であると識別され、それぞれのキャラクターが「劉備」、「関羽」、「張飛」であると識別され、また処理対象画像における動作を識別することによって、拝礼動作であることが理解でき、処理対象画像におけるシナリオが「桃園の誓い」であると決定することとしてもよい。なお、図3で示される物体と背景画像を区別するため、物体の画像領域では白いフレームが用いられるが、これに限定されない。
本発明の実施例は、第1のリコール方式をエンティティのリコール方式とし、少なくとも1つの補助リコール方式により、処理対象画像における物体に関連付けられたエンティティを決定し、各エンティティのリコール方式とリコール頻度とに基づいて、処理対象画像における物体に関連付けられたエンティティを再決定する。知識グラフから物体に関連付けられたエンティティがエッジ関係を持つ新たなエンティティを引き出し、引き出された新たなエンティティ間の相互関係に基づいて、新たなエンティティから画像に関連付けられる新たなエンティティを選択する。補助リコール方式によって、画像に対して深層を理解し、画像に関連付けられたエンティティを拡張し、エンティティのエッジ関係によって画像に関連付けられる新たなエンティティを決定し、深層推理と確認を実現でき、画像の語義化のラベルを正確に取得することができる。
実施例3
図4は、本願の実施例3の画像処理装置の構造概略図である。この装置は、画像を深層理解し、さらに画像ラベルを決定する場合に適用される。この装置は、ソフトウェア及び/またはハードウェアの方式で実現でき、またサーバに集合することができる。図4を参照して、この装置は、処理対象画像に含まれた物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定するための特徴表現決定モジュール310と、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するための関連エンティティ決定モジュール320と、を含む。
選択可能には、前記特徴表現決定モジュール310は、具体的には、処理対象画像に含まれた物体のタイプと物体の画像領域に基づいて、処理対象画像における物体の特徴表現を決定することとしてもよい。
選択可能には、前記関連エンティティ決定モジュール320は、具体的には、処理対象画像における物体の特徴表現、処理対象画像の特徴表現、処理対象画像に関連付けられるテキスト特徴表現、及び知識グラフにおけるエンティティの特徴表現とエンティティ属性情報に基づいて、処理対象画像における物体に関連付けられたエンティティを決定することとしてもよい。
選択可能には、処理対象画像が属する文章に含まれたエンティティに基づいて、文章の特徴表現を決定するための文章の特徴表現決定モジュールと、前記文章の特徴表現と処理対象画像における物体に関連付けられたエンティティに基づいて、画像と文章との関連度を決定するための関連度決定モジュールと、を含むこととしてもよい。
選択可能には、第1のリコール方式を決定したエンティティのリコール方式とするためのリコール方式決定モジュールと、少なくとも1つの補助リコール方式により、処理対象画像における物体に関連付けられたエンティティを決定するための補助リコール方式と、各エンティティのリコール方式とリコール頻度とに基づいて、処理対象画像における物体に関連付けられたエンティティを再決定するための関連エンティティ再決定モジュールと、を含むこととしてもよい。
選択可能には、前記補助リコールモジュールは、具体的に、処理対象画像と候補エンティティの画像とをマッチングさせ、処理対象画像に関連付けられたエンティティを決定する、及び/または、処理対象画像が属するテキストと知識グラフとをマッチングさせ、処理対象画像に関連付けられたエンティティを決定することとしてもよい。
選択可能には、知識グラフから、物体に関連付けられたエンティティとエッジ関係を持つ新たなエンティティを引き出すための引き出しモジュールと、引き出された新たなエンティティ間の相互関係に基づいて、新たなエンティティから画像に関連付けられる新たなエンティティを選択するための新たなエンティティ選択モジュールと、を含むこととしてもよい。
上述した実施例の前記画像処理装置は、上述実施例の前記画像処理方法のいずれかの実行に用いられ、その技術原理と生成した技術効果は類似するため、ここでは詳しく説明しない。
実施例4
図5は、本願の実施例4のサーバの構造概略図である。図5は本発明の実施態様を実現する例示的なサーバ412のブロック図を示す。図5に示すサーバ412は一の例に過ぎず、本発明の実施例の機能と使用範囲を制限するものではない。
図5に示すように、サーバ412は、汎用コンピューティングデバイスの形式で実現される。サーバ412のコンポーネントは一つまたは複数のプロセッサまたはプロセッサ416と、システムメモリ428と、それぞれのシステムコンポーネント(システムメモリ428とプロセッサ416とを含む)を接続するバス418とを含むが、これらに限られるものではない。
バス418は、いくつのバス構造における一つまたは複数を示しており、メモリバスまたはメモリコントローラ、外部バス、グラフィックスアクセラレーションポート、プロセッサまたは複数のバス構造における任意のバス構造を利用するローカルバスを含む。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MAC)バス、増強型ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(VESA)ローカルバス及びペリフェラルコンポーネントインターコネクト(PCI)バスを含むが、これらに限られない。
サーバ412は、典型的には複数のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、サーバ412にアクセス可能な任意の読み取り可能な媒体であり、揮発性と不揮発性メモリ、移動可能と移動不可能の媒体を含む。
システムメモリ428は揮発性メモリ形式のコンピュータシステム読み取り可能な媒体を含んでもよく、例えばランダムアクセスメモリ(RAM)430及び/またはキャッシュメモリ432である。サーバ412はさらに他の移動可能/移動不可能、揮発性/不揮発性コンピュータメモリを含んでもよい。例示として、メモリシステム434は移動不可能、不揮発性磁気媒体(図5に示されず、通常「ハードドライブ」と称する)の読み取りに用いることができる。図5には示していないが、移動可能な不揮発性ディスク(例えば「フロッピーディスク」)を読み取り可能なハードドライブ、及び移動可能な不揮発性CD(CD−ROM、DVD−ROMまたは他の光学媒体)を読み取り可能な光学ドライブを提供することができる。これらの状況において、各ドライバは、1つまたは複数のデータ媒体インタフェースを介してバス418に接続することができる。メモリ428は少なくとも1つのプログラムプロダクトを含むことができ、該プログラムプロダクトは、一組(例えば少なくとも1つ)のプログラムモジュールを有し、これらのプログラムモジュールは本発明の各実施例の機能を実行するように構成される。
一組(少なくとも1つ)のプログラムモジュール442のプログラム/実用ツール440を有し、例えばメモリ428に記憶することができ、このようなプログラムモジュール442は、操作システム、一つまたは複数のアプリケーション、他のプログラムモジュール及びプログラムデータを含むが、これらに限られるものではなく、これらの例示されたそれぞれ、または組み合わせによりインターネット環境を実現することができる。プログラムモジュール442は通常、本発明に記載された実施例における機能及び/または方法を実行する。
サーバ412は、一つまたは複数の外部設備414(例えばキーボード、指向設備、ディスプレイ424など)と通信することができ、また、ユーザが該サーバ412と交互に一つまたは複数の装置と通信することもでき、及び/またはサーバ412が、一つまたは複数の他のコンピューティングデバイスと通信できるようにする任意のデバイス(例えばネットワークカード、モデムなど)と通信することもできる。このような通信は、入力/出力(I/O)インタフェース422で行うことができる。また、サーバ412はネットワークアダプター420を介して一つまたは複数のインターネット(ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及び/またはパブリックネットワーク、例えばインターネット)と通信することができる。図示されるように、ネットワークアダプター420はバス418を介してサーバ412の他のモジュールと通信する。図示されていないが、サーバ412に合わせて他のハードウェア及び/またはソフトウェアモジュールを使用することができ、マイクロコード、デバイスドライバー、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライブ及びデータバックアップ記憶システムなどを含むが、これらに限定されない。
プロセッサ416はシステムメモリ428に記憶される複数のプログラムの少なくとも1つを実行させることにより、各機能応用及びデータ処理を実行し、例えば本発明実施例が提供する画像処理方法を実現する。
実施例5
本発明実施例5は、コンピュータの実行可能な指令を含む記憶媒体を提供する。前記コンピュータ実行可能な指令は、コンピュータプロセッサによって実行される場合に、画像処理方法を実行する。
本発明実施例のコンピュータ記憶媒体は、一つまたは複数のコンピュータ読み取り可能な媒体の任意の組み合わせを採用してもよい。コンピュータ読み取り可能な媒体はコンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば電気、磁気、光、電磁、赤外線、または半導体のシステム、装置または機器、または任意の以上の組み合わせであってもよいが、これらに限られるものではない。コンピュータ読み取り可能な記憶媒体の具体的な例示(非網羅リスト)として、一つまたは複数の導線を有する電接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、書き換え可能な読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、コンパクトディスクリードオンリーメモリ(CD−ROM)、光記憶装置、磁気記憶装置、または前記任意の適宜の組み合わせを含む。本出願で、コンピュータ読み取り可能な記憶媒体はプログラムを含むか、または記憶する任意の有形媒体であり、該プログラムは指令でシステム、装置または機器に使用され、またはそれを組み合わせて使用することもされる。
コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードを載せるベースバンドに含まれるか、または搬送波の一部として搬送されるデータ信号を含んでもよい。このような搬送されるデータ信号は、複数の形式を採用してもよく、電磁信号、光信号または前記任意の適宜な組み合わせを含むが、これらに限られるものではない。コンピュータ読み取り可能な信号媒体はコンピュータ読み取り可能な記憶媒体以外のいずれかのコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な媒体は指令実行システム、装置または機器、またはそれと組み合わせて使用するプログラムの実行を発送、搬送または転送できる。
コンピュータ読み取り可能な媒体に含まれたプログラムコードは、任意の適当な媒体で転送でき、ワイヤレス、電線、光ファイバー、RFなど、または前記任意の適当な組み合わせを含むが、これらに限られるものではない。
本発明の動作を実行するためのコンピュータプログラムコードは、1つまたは複数のプログラム設計言語またはその組み合わせで作成されてもよく、前記プログラム設計言語はオブジェクト指向プログラミング、例えばJava、Smalltalk、C++を含み、また、手続き指向プログラム設計言語、例えば「C」言語または類似のプログラミング言語を含む。プログラムコードは完全にユーザのコンピュータで実行でき、部分的にユーザのコンピュータで実行し、一つの独立なソフトウェアパッケージとして実行し、一部はユーザのコンピュータで一部はリモートコンピュータで実行し、または完全にリモートコンピュータまたはサーバで実行することもできる。リモートコンピュータに関する場合には、リモートコンピュータは任意のネットワークを通してローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)を含み、ユーザのコンピュータに接続し、または外部のコンピュータ(例えば、インターネットサービスプロバイダーを利用してインターネットを介して接続する)に接続することができる。
前記内容は、本発明のより良い実施例及び技術原理に過ぎない。ここで説明する特定の実施例に限られるものではなく、当業者にとって本発明の保護範囲を逸脱することなく、様々な変化、再調整および変更を行うことができる。よって、以上の実施例を介して本発明を詳しく説明したが、本発明は上記の実施例に限定されるものではなく、本発明の思想を逸脱しない限り、他の均等な実施例をさらに含むことができ、本発明の範囲は、請求項の範囲によって決定される。

Claims (10)

  1. 処理対象画像に含まれる物体のタイプにより、処理対象画像における物体の特徴表現を決定するステップと、
    処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するステップと、を含むことを特徴とする、画像処理方法。
  2. 処理対象画像に含まれる物体のタイプにより、処理対象画像における物体の特徴表現を決定するステップは、
    処理対象画像に含まれる物体のタイプと物体の画像領域とに基づいて、処理対象画像における物体の特徴表現を決定するステップを含むことを特徴とする、請求項1に記載の方法。
  3. 処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するステップは、
    処理対象画像における物体の特徴表現、処理対象画像の特徴表現、処理対象画像に関連付けられたテキスト特徴表現、及び知識グラフにおけるエンティティの特徴表現とエンティティ属性情報に基づいて、処理対象画像における物体に関連付けられたエンティティを決定するステップを含むことを特徴とする、請求項1に記載の方法。
  4. 処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定した後、
    処理対象画像が属する文章に含まれたエンティティに基づいて、文章の特徴表現を決定するステップと、
    前記文章の特徴表現と処理対象画像における物体に関連付けられたエンティティとに基づいて、画像と文章との関連度を決定するステップと、をさらに含むことを特徴とする、請求項1に記載の方法。
  5. 処理対象画像における物体に関連付けられたエンティティを決定した後、
    第1のリコール方式をエンティティのリコール方式として決定するステップと、
    少なくとも1つの補助リコール方式により、処理対象画像における物体に関連付けられたエンティティを決定するステップと、
    各エンティティのリコール方式とリコール頻度とに基づいて、処理対象画像における物体に関連付けられたエンティティを再決定するステップと、をさらに含むことを特徴とする、請求項1から4のいずれかに記載の方法。
  6. 少なくとも1つの補助リコール方式により、処理対象画像における物体に関連付けられたエンティティを決定するステップは、
    処理対象画像と候補エンティティの画像とをマッチングさせ、処理対象画像に関連付けられたエンティティを決定するステップ、及び/または、
    処理対象画像が属するテキストと知識グラフとをマッチングさせ、処理対象画像に関連付けられたエンティティを決定するステップと、を含むことを特徴とする、請求項5に記載の方法。
  7. 処理対象画像における物体に関連付けられたエンティティを決定した後、
    知識グラフから、物体に関連付けられたエンティティとエッジ関係を持つ新たなエンティティを引き出すステップと、
    引き出された新たなエンティティ間の相互関係に基づいて、新たなエンティティから画像に関連付けられた新たなエンティティを選択するステップと、をさらに含むことを特徴とする、請求項6に記載の装置。
  8. 処理対象画像における物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定するための特徴表現決定モジュールと、
    処理対象画像における物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するための関連エンティティ決定モジュールと、を含むことを特徴とする、画像処理装置。
  9. 一つまたは複数のプロセッサと、
    一つまたは複数のプログラムを記憶するためのメモリと、を含み、
    前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行される場合に、前記一つまたは複数のプロセッサが請求項1から7のいずれかに記載の画像処理方法を実現することを特徴とする、サーバ。
  10. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記プログラムがプロセッサにより実行される場合に、請求項1から7のいずれかに記載の画像処理方法が実現されることを特徴とする、コンピュータ読み取り可能な記憶媒体。
JP2020042089A 2019-03-12 2020-03-11 画像処理方法、装置、サーバ及び記憶媒体 Active JP7132962B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910184113.4 2019-03-12
CN201910184113.4A CN109918513B (zh) 2019-03-12 2019-03-12 图像处理方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
JP2020149686A true JP2020149686A (ja) 2020-09-17
JP7132962B2 JP7132962B2 (ja) 2022-09-07

Family

ID=66964354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020042089A Active JP7132962B2 (ja) 2019-03-12 2020-03-11 画像処理方法、装置、サーバ及び記憶媒体

Country Status (5)

Country Link
US (1) US11475588B2 (ja)
EP (1) EP3709212A1 (ja)
JP (1) JP7132962B2 (ja)
KR (1) KR102459123B1 (ja)
CN (1) CN109918513B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704650B (zh) * 2019-09-29 2023-04-25 携程计算机技术(上海)有限公司 Ota图片标签的识别方法、电子设备和介质
US11127135B1 (en) * 2020-03-23 2021-09-21 Caterpillar Paving Products Inc. System and method for correcting paving mat defects
WO2021237731A1 (zh) * 2020-05-29 2021-12-02 西门子股份公司 一种目标检测方法、装置和计算机可读介质
CN111949814A (zh) * 2020-06-24 2020-11-17 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备和存储介质
CN111930964B (zh) * 2020-09-17 2021-02-12 腾讯科技(深圳)有限公司 内容处理方法、装置、设备及存储介质
US20220147843A1 (en) * 2020-11-12 2022-05-12 Samsung Electronics Co., Ltd. On-device knowledge extraction from visually rich documents
CN112883735B (zh) * 2021-02-10 2024-01-12 卡奥斯数字科技(上海)有限公司 一种表单图像的结构化处理方法、装置、设备及存储介质
CN113486195A (zh) * 2021-08-17 2021-10-08 深圳华声医疗技术股份有限公司 超声图像处理方法、装置、超声设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331466B (zh) 2015-06-30 2019-06-07 芋头科技(杭州)有限公司 一种通过语音指令快速定位拍照的方法及拍照系统
US20170076222A1 (en) * 2015-09-14 2017-03-16 International Business Machines Corporation System and method to cognitively process and answer questions regarding content in images
US20170185670A1 (en) * 2015-12-28 2017-06-29 Google Inc. Generating labels for images associated with a user
CN107169535B (zh) * 2017-07-06 2023-11-03 谈宜勇 生物多光谱图像的深度学习分类方法及装置
CN107833082B (zh) * 2017-09-15 2022-04-12 唯品会(海南)电子商务有限公司 一种商品图片的推荐方法和装置
CN108256307B (zh) * 2018-01-12 2021-04-02 重庆邮电大学 一种智能商务旅居房车的混合增强智能认知方法
US10157226B1 (en) * 2018-01-16 2018-12-18 Accenture Global Solutions Limited Predicting links in knowledge graphs using ontological knowledge
CN108171213A (zh) * 2018-01-22 2018-06-15 北京邮电大学 一种适用图文知识图谱的关系抽取方法
CN109271542A (zh) * 2018-09-28 2019-01-25 百度在线网络技术(北京)有限公司 封面确定方法、装置、设备及可读存储介质
US10949718B2 (en) * 2019-05-08 2021-03-16 Accenture Global Solutions Limited Multi-modal visual question answering system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FANG YUAN, ZHE WANG, JIE LIN, LUIS FERNANDO D’HARO, KIM JUNG JAE, ZENG ZENG, VIJAY CHANDRASEKHAR: "End-to-End Video Classification with Knowledge Graphs", ARXIVLABS [ONLINE], vol. arXiv:1711.01714v1, JPN6021051117, 6 November 2017 (2017-11-06), US, ISSN: 0004671452 *
S ADITYA, Y YANG, C BARAL, Y ALOIMONOS, C FERMULLER: "Image understanding using vision and reasoning through scene description graph", COMPUTER VISION AND IMAGE UNDERSTANDING, vol. 173, JPN6021018031, 2017, US, pages 33 - 45, ISSN: 0004671453 *

Also Published As

Publication number Publication date
KR102459123B1 (ko) 2022-10-26
CN109918513B (zh) 2023-04-28
JP7132962B2 (ja) 2022-09-07
KR20200109239A (ko) 2020-09-22
US20200294267A1 (en) 2020-09-17
CN109918513A (zh) 2019-06-21
EP3709212A1 (en) 2020-09-16
US11475588B2 (en) 2022-10-18

Similar Documents

Publication Publication Date Title
JP2020149686A (ja) 画像処理方法、装置、サーバ及び記憶媒体
US10977486B2 (en) Blockwise extraction of document metadata
US20190197119A1 (en) Language-agnostic understanding
CN111666766B (zh) 数据处理方法、装置和设备
US20150339616A1 (en) System for real-time suggestion of a subject matter expert in an authoring environment
US11436446B2 (en) Image analysis enhanced related item decision
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN112703495A (zh) 利用实体链接和本体数据推断主题
US11423219B2 (en) Generation and population of new application document utilizing historical application documents
US20150339310A1 (en) System for recommending related-content analysis in an authoring environment
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN111738009B (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
US10229156B2 (en) Using priority scores for iterative precision reduction in structured lookups for questions
CN117011581A (zh) 图像识别方法、介质、装置和计算设备
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质
US20210342642A1 (en) Machine learning training dataset optimization
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
CN108092875B (zh) 一种表情提供方法、介质、装置和计算设备
US20180307669A1 (en) Information processing apparatus
CN115392389B (zh) 跨模态信息匹配、处理方法、装置、电子设备及存储介质
US20220156529A1 (en) Anomaly detection by ranking from algorithm
US20240111951A1 (en) Generating a personal corpus
US20240152494A1 (en) Optimizing metadata enrichment of data assets
US11688193B2 (en) Interactive structure annotation with artificial intelligence

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220826

R150 Certificate of patent or registration of utility model

Ref document number: 7132962

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150