JP2020149686A

JP2020149686A - 画像処理方法、装置、サーバ及び記憶媒体

Info

Publication number: JP2020149686A
Application number: JP2020042089A
Authority: JP
Inventors: シャオハンヂャン，; Xiaohan Zhang; イェシュ，; Ye Xu; レン，ガシン; Kexin Ren; ジーファンフェン，; Zhifan Feng; ヤンヂャン，; Yang Zhang; ヨンヂュ，; Yong Zhu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-12
Filing date: 2020-03-11
Publication date: 2020-09-17
Anticipated expiration: 2040-03-11
Also published as: KR102459123B1; CN109918513B; JP7132962B2; KR20200109239A; US20200294267A1; CN109918513A; EP3709212A1; US11475588B2

Abstract

【課題】知識グラフを利用して画像を深く理解し、画像の構造化した語義ラベルを取得する画像処理方法、装置、サーバ及び記憶媒体を提供する。【解決手段】画像処理方法は、処理対象画像に含まれる物体のタイプにより、処理対象画像における物体の特徴表現を決定するステップと、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するステップと、を含む。【選択図】図１

Description

本願の実施例は、画像処理分野に関し、特に、画像処理方法、装置、サーバ及び記憶媒体に関する。

インターネット上の画像、映像類のデータの激増により、画像処理技術の需要も日々増加し、画像処理技術を用いて写真または映像の内容を迅速に理解し、写真または映像に対応なラベルを作成し、ユーザに推薦する。

従来、画像処理技術により画像のラベル結果を取得する技術は、主に物体ラベルの設置及び相関動作について分析していたが、この方法では表面の内容しか分析できず、深層を分析することでさらに深い階層の結果を取得することができず、ラベル結果を語義化できないため、分析結果が不精確である。また、外部の知識グラフ（ナレッジグラフ）データを用いてラベル結果を取得する方法は、ラベルの識別効果を向上するが、ラベルを語義化することができず、写真の内容を深く理解することができない。

本願実施例は知識グラフを利用して画像を深く理解し、画像の構造化した語義ラベルを取得する画像処理方法、装置、サーバ及び記憶媒体を提供している。

第１態様において、本発明実施例は、画像処理方法を提供している。前記方法は、処理対象画像に含まれる物体のタイプにより、処理対象画像における物体の特徴表現を決定するステップと、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するステップと、を含む。

第２態様において、本発明実施例は、画像処理装置を提供している。前記画像処理装置は、処理対象画像における物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定するための特徴表現決定モジュールと、処理対象画像における物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するための関連エンティティ決定モジュールと、を含む。

第３態様において、本発明実施例は、サーバを提供している。前記サーバは、一つまたは複数のプロセッサと、一つまたは複数のプログラムを記憶するためのメモリとを含み、前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行される場合に、前記一つまたは複数のプロセッサが本発明実施例のいずれかの画像処理方法を実現する。

第４態様において、本発明実施例は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を提供している。前記プログラムがプロセッサにより実行される場合に、本発明実施例のいずれかの画像処理方法が実現される。

本発明実施例は処理対象画像の物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定し、処理対象画像の物体特定表示と知識グラフのエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定する。物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて、更に処理対象画像において物体に関連付けられたエンティティを決定することで、画像に対する深い画像理解が可能となり、画像に関連付けられたエンティティに対する拡張及び確認を行い、構造化した語義ラベルの決定を実現することができる。

本願の実施例１の画像処理方法のフローチャートである。本願の実施例２の画像処理方法のフローチャートである。本願の実施例２の画像関連エンティティ決定の概略図である。本願の実施例３の画像処理装置の構造概略図である。本願の実施例４のサーバの構造概略図である。

以下、図面と実施例を参照しながら、本発明を詳細に説明する。ここで、具体的な実施態様は、本発明を説明するために過ぎず、本発明を限定するものではないことを理解されたい。また、説明の便宜上のため、図面には、全ての構造ではなく、本発明の関連付けられる部分のみを示している。

実施例１
図１は、本願の実施例１の画像処理方法のフローチャートである。本実施例が提供する画像処理方法は、画像に対して深層を理解して画像ラベルを決定する場合に適用される。該方法は画像処理装置で実行でき、該装置はソフトウェア及び／またはハードウェアの方式で実現でき、またサーバに集合することができる。図１を参照して、本実施態様の方法には、Ｓ１１０〜Ｓ１２０を含んでいる。
Ｓ１１０では、処理対象画像に含まれる物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定する。

具体的には、処理対象画像は写真または映像におけるシングルフレーム画像であってもよく、物体の特徴は処理対象画像における各エンティティを含む。選択可能には、処理対象画像に含まれる物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定することは、処理対象画像に含まれる物体のタイプと物体の画像領域に基づいて、処理対象画像における物体の特徴表現を決定することもできる。例示的には、処理対象画像の目標を識別し、処理対象画像に現れる複数の物体を識別し、複数の物体に分類して描写（ｄｅｌｉｎｅａｔｉｏｎ）を行い、各物体のタイプと物体の画像領域を取得する。処理対象画像のピクセルデータを分類モデルに入力して、各物体のタイプを取得し、さらにピクセルデータをタイプ対応な深層学習モデルに入力して、処理対象画像に対して特徴を抽出し、特徴表現結果を取得する。選択可能には、ピクセルデータをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、畳み込みニューラルネットワーク）モデルに入力して特徴を抽出し、各物体に対応する特徴表現を取得することとしてもよい。その他、選択可能には、各タイプの物体をタイプ対応な深層学習モデルに入力して特徴データを抽出し、さらに該物体の特徴表現を取得することとしてもよい。例えば、タイプが人の顔である画像をＤｅｅｐＩＤ、ＤｅｅｐＦａｃｅまたはＦａｃｅＮｅｔ顔識別モデルに入力して、人の顔の特徴を抽出し、人の顔の特徴表現を取得する。

Ｓ１２０では、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定する。

具体的には、物体の特徴表現は処理対象画像に示される物体の特徴であってもよく、例えば物体の形状、色、模様などの特徴である。処理対象画像における物体の特徴表現と知識グラフにおける特徴表現に対してマッチング計算を行い、処理対象画像における物体の特徴表現にマッチングする知識グラフにおけるエンティティを、処理対象画像における物体に関連付けられたエンティティとする。選択可能には、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定することは、処理対象画像における物体の特徴表現、処理対象画像の特徴表現と処理対象画像に関連付けられるテキスト特徴表現、及び知識グラフにおけるエンティティの特徴表現とエンティティ属性情報に基づいて、処理対象画像における物体に関連付けられたエンティティを決定することを含んでもよい。例示的には、実際の応用において、インターネット上の画像は通常、画像に関連付けられるテキストには、例えば画像におけるセリフ、画像由来のタイトル、画像に対応する文章のタイトルなどのテキスト情報があるので、これらの情報を処理対象画像に関連付け、テキストの特徴表現を取得し、テキストの特徴表現と組み合わせることでさらに関連付けられたエンティティを決定することができる。知識グラフにおけるエンティティのエンティティ属性情報は、物体の本質的な属性、例えば処理対象画像における人の年齢、性別、職業などの属性情報を含む。処理対象画像における物体の特徴表現、処理対象画像や処理対象画像の関連付けられるテキスト特徴表現と知識グラフにおける特徴表現に対してマッチング計算を行い、それらの特徴表現を対比して、処理対象画像の物体に関連付けられたエンティティを決定する。

選択可能には、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定した後、処理対象画像が属する文章に含まれたエンティティに基づいて、文章の特徴表現を決定し、前記文章の特徴表現と処理対象画像における物体に関連付けられたエンティティに基づいて、画像と文章の関連度を決定することを含むこととしてもよい。具体的には、処理対象画像が属する文章が処理対象画像と高い関連度があるとは言えず、画像または文章に対する識別誤差による画像と文章の組み合わせとなる可能性が高いため、関連度に基づいて処理対象画像が文章と関連するか否かを決定することができる。例示的には、処理対象画像における文章の特徴表現を決定し、さらに文章の特徴表現及び前記決定した処理画像における物体に関連付けられたエンティティに基づいて、文章と処理対象画像の関連度を決定する。

本発明実施例が提供する技術案は、処理対象画像における物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定し、処理対象画像における物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定する。物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて、更に処理対象画像における物体に関連付けられたエンティティを決定することで、画像に対する深い画像理解が可能となり、画像に関連付けられたエンティティに対する拡張及び確認を行い、構造化した語義ラベルの決定を実現することができる。

実施例２
図２は、本願の実施例２の画像処理方法のフローチャートである。本実施例では、前記実施例に基づいて最適化し、本実施例において詳細に説明していない内容は上述の実施例を参照する。図２を参照して、本実施例が提供する画像処理方法は、Ｓ２１０〜Ｓ２７０を含んでいる。

Ｓ２１０では、処理対象画像に含まれた物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定する。

Ｓ２２０では、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定する。

Ｓ２３０では、第１のリコール方式を決定したエンティティのリコール方式とする。

具体的には、第１のリコール方式はＳ２２０における決定したエンティティリコール方式であってもよく、すなわち、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて、処理対象画像における物体に関連付けられたエンティティを決定する。

Ｓ２４０では、少なくとも１つの補助リコール方式で、処理対象画像における物体に関連付けられたエンティティを決定する。

具体的には、前記補助リコール方式は、すなわちＳ２２０におけるリコール方式を除く他のリコール方式である。例示的には、インターネット上の画像は通常、画像に関連付けられるテキスト、例えば画像におけるセリフ、画像由来のタイトル、画像に対応する文章のタイトルなどのテキスト情報があるので、テキストの特徴表現によってテキストエンティティを取得できるが、テキストと画像との関連度が低い可能性があるため、テキスト情報に基づいて画像関連結果を決定する方法を補助方法とし、処理対象画像相関のテキスト情報により関連エンティティをリコールし、補助リコール方式とする。

選択可能には、少なくとも１つの補助リコール方式によって、処理対象画像における物体相関のエンティティを決定し、処理対象画像と候補エンティティの画像とをマッチングし、処理対象画像に関連付けられたエンティティを決定する、及び／または、処理対象画像が属するテキストと知識グラフとをマッチングし、処理対象画像に関連付けられたエンティティを決定することとしてもよい。例示的には、処理対象画像と候補エンティティの画像とをマッチング計算し、マッチング結果が条件を満たす場合、該候補エンティティと処理対象画像とが関連付けられると決定する。及び／または、処理対象画像が属する文章テキストと知識グラフとをマッチング計算し、マッチング結果が条件を満たす場合、マッチングするエンティティを処理対象画像に関連付けられたエンティティと決定する。

例示的には、処理対象画像と候補エンティティの画像とをマッチングすることにより、処理対象画像における俳優エンティティを決定することができる。及び／または、画像が属する文章テキストと知識グラフとをマッチングするとことにより、文章におけるテキストに関連付けられる俳優エンティティを取得することができる。

Ｓ２５０では、各エンティティのリコール方式とリコール頻度とに基づいて、処理対象画像における物体に関連付けられたエンティティを再決定する。

例示的には、リコール方式及びリコール方式のリコール頻度の特徴をエンティティ特徴表現に加え、処理対象画像における物体に関連付けられたエンティティを決定し、処理対象画像における物体に関連付けられたエンティティを再決定する。例示的には、再決定した俳優エンティティに基づいて、知識グラフによりキャラクターのエンティティを決定し、キャラクターのエンティティを処理対象画像における物体関連エンティティの結果に追加する。

Ｓ２６０では、知識グラフから物体に関連付けられたエンティティとエッジ関係を持つ新しいエンティティを引き出す。

具体的には、知識グラフに存在する物体に関連付けられたエンティティとエッジ関係を持つエンティティに基づいて、物体に関連付けられたエンティティを検証する。例えば、知識グラフにおけるエンティティ、ドラマ「永遠の桃花〜三生三世」と、それとエッジ関係を持つエンティティは、キャラクター「白浅」であり、キャラクターである「白浅」は、ドラマ「永遠の桃花〜三生三世」とエッジ関係を持つ。物体に関連付けられたエンティティとエッジ関係を持つ新たなエンティティを引き出すことにより、より深い階層でエンティティの属性を理解することができる。

Ｓ２７０では、引き出された新たなエンティティ間の相互関係に基づいて、新たなエンティティで画像に関連付けられる新たなエンティティを選択する。

具体的には、引き出された新たなエンティティ間の関係を取得する。例えば新たなエンティティとの共通点を画像に関連付けられる新たなエンティティとする。例えば、一つの図面に３つのエンティティが関連付けられ、それぞれ知識グラフから３つのエンティティとエッジ関係を持つ新たなエンティティ集合を引き出し、また３つのエンティティの新たなエンティティ集合の共通点を、画像に関連付けられる新たなエンティティとする。例示的には、画像における各俳優エンティティの出演したドラマを取得し、ドラマとの共通点で、共通の部分を画像に関連付けられる新たなエンティティとする。

選択可能には、図３は本願の実施例２の画像関連エンティティ決定の概略図である。図３に示すように、処理対象画像における物体に関連付けられたエンティティを決定し、画像識別分類と特徴抽出により画像における物体に対応するエンティティを取得する。例えば画像におけるエンティティを俳優と識別し、それぞれのキャラクター「劉備」、「関羽」、「張飛」と、知識グラフにおける「劉備」、「関羽」と「張飛」とエッジ関係を持つエンティティに基づいて、各キャラクターが対応するドラマが「三国志演義」であると確認し、さらにドラマ及び３つのキャラクターに基づいて、写真のシナリオが「桃園の誓い」であると決定する。さらに選択可能には、画像識別分類と特徴抽出により画像における物体に対応なエンティティを取得したときに、例えば画像におけるエンティティが俳優であると識別され、それぞれのキャラクターが「劉備」、「関羽」、「張飛」であると識別され、また処理対象画像における動作を識別することによって、拝礼動作であることが理解でき、処理対象画像におけるシナリオが「桃園の誓い」であると決定することとしてもよい。なお、図３で示される物体と背景画像を区別するため、物体の画像領域では白いフレームが用いられるが、これに限定されない。

本発明の実施例は、第１のリコール方式をエンティティのリコール方式とし、少なくとも１つの補助リコール方式により、処理対象画像における物体に関連付けられたエンティティを決定し、各エンティティのリコール方式とリコール頻度とに基づいて、処理対象画像における物体に関連付けられたエンティティを再決定する。知識グラフから物体に関連付けられたエンティティがエッジ関係を持つ新たなエンティティを引き出し、引き出された新たなエンティティ間の相互関係に基づいて、新たなエンティティから画像に関連付けられる新たなエンティティを選択する。補助リコール方式によって、画像に対して深層を理解し、画像に関連付けられたエンティティを拡張し、エンティティのエッジ関係によって画像に関連付けられる新たなエンティティを決定し、深層推理と確認を実現でき、画像の語義化のラベルを正確に取得することができる。

実施例３
図４は、本願の実施例３の画像処理装置の構造概略図である。この装置は、画像を深層理解し、さらに画像ラベルを決定する場合に適用される。この装置は、ソフトウェア及び／またはハードウェアの方式で実現でき、またサーバに集合することができる。図４を参照して、この装置は、処理対象画像に含まれた物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定するための特徴表現決定モジュール３１０と、処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するための関連エンティティ決定モジュール３２０と、を含む。

選択可能には、前記特徴表現決定モジュール３１０は、具体的には、処理対象画像に含まれた物体のタイプと物体の画像領域に基づいて、処理対象画像における物体の特徴表現を決定することとしてもよい。

選択可能には、前記関連エンティティ決定モジュール３２０は、具体的には、処理対象画像における物体の特徴表現、処理対象画像の特徴表現、処理対象画像に関連付けられるテキスト特徴表現、及び知識グラフにおけるエンティティの特徴表現とエンティティ属性情報に基づいて、処理対象画像における物体に関連付けられたエンティティを決定することとしてもよい。

選択可能には、処理対象画像が属する文章に含まれたエンティティに基づいて、文章の特徴表現を決定するための文章の特徴表現決定モジュールと、前記文章の特徴表現と処理対象画像における物体に関連付けられたエンティティに基づいて、画像と文章との関連度を決定するための関連度決定モジュールと、を含むこととしてもよい。

選択可能には、第１のリコール方式を決定したエンティティのリコール方式とするためのリコール方式決定モジュールと、少なくとも１つの補助リコール方式により、処理対象画像における物体に関連付けられたエンティティを決定するための補助リコール方式と、各エンティティのリコール方式とリコール頻度とに基づいて、処理対象画像における物体に関連付けられたエンティティを再決定するための関連エンティティ再決定モジュールと、を含むこととしてもよい。

選択可能には、前記補助リコールモジュールは、具体的に、処理対象画像と候補エンティティの画像とをマッチングさせ、処理対象画像に関連付けられたエンティティを決定する、及び／または、処理対象画像が属するテキストと知識グラフとをマッチングさせ、処理対象画像に関連付けられたエンティティを決定することとしてもよい。

選択可能には、知識グラフから、物体に関連付けられたエンティティとエッジ関係を持つ新たなエンティティを引き出すための引き出しモジュールと、引き出された新たなエンティティ間の相互関係に基づいて、新たなエンティティから画像に関連付けられる新たなエンティティを選択するための新たなエンティティ選択モジュールと、を含むこととしてもよい。

上述した実施例の前記画像処理装置は、上述実施例の前記画像処理方法のいずれかの実行に用いられ、その技術原理と生成した技術効果は類似するため、ここでは詳しく説明しない。

実施例４
図５は、本願の実施例４のサーバの構造概略図である。図５は本発明の実施態様を実現する例示的なサーバ４１２のブロック図を示す。図５に示すサーバ４１２は一の例に過ぎず、本発明の実施例の機能と使用範囲を制限するものではない。

図５に示すように、サーバ４１２は、汎用コンピューティングデバイスの形式で実現される。サーバ４１２のコンポーネントは一つまたは複数のプロセッサまたはプロセッサ４１６と、システムメモリ４２８と、それぞれのシステムコンポーネント（システムメモリ４２８とプロセッサ４１６とを含む）を接続するバス４１８とを含むが、これらに限られるものではない。

バス４１８は、いくつのバス構造における一つまたは複数を示しており、メモリバスまたはメモリコントローラ、外部バス、グラフィックスアクセラレーションポート、プロセッサまたは複数のバス構造における任意のバス構造を利用するローカルバスを含む。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＡＣ）バス、増強型ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶＥＳＡ）ローカルバス及びペリフェラルコンポーネントインターコネクト（ＰＣＩ）バスを含むが、これらに限られない。

サーバ４１２は、典型的には複数のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、サーバ４１２にアクセス可能な任意の読み取り可能な媒体であり、揮発性と不揮発性メモリ、移動可能と移動不可能の媒体を含む。

システムメモリ４２８は揮発性メモリ形式のコンピュータシステム読み取り可能な媒体を含んでもよく、例えばランダムアクセスメモリ（ＲＡＭ）４３０及び／またはキャッシュメモリ４３２である。サーバ４１２はさらに他の移動可能／移動不可能、揮発性／不揮発性コンピュータメモリを含んでもよい。例示として、メモリシステム４３４は移動不可能、不揮発性磁気媒体（図５に示されず、通常「ハードドライブ」と称する）の読み取りに用いることができる。図５には示していないが、移動可能な不揮発性ディスク（例えば「フロッピーディスク」）を読み取り可能なハードドライブ、及び移動可能な不揮発性ＣＤ（ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭまたは他の光学媒体）を読み取り可能な光学ドライブを提供することができる。これらの状況において、各ドライバは、１つまたは複数のデータ媒体インタフェースを介してバス４１８に接続することができる。メモリ４２８は少なくとも１つのプログラムプロダクトを含むことができ、該プログラムプロダクトは、一組（例えば少なくとも１つ）のプログラムモジュールを有し、これらのプログラムモジュールは本発明の各実施例の機能を実行するように構成される。

一組（少なくとも１つ）のプログラムモジュール４４２のプログラム／実用ツール４４０を有し、例えばメモリ４２８に記憶することができ、このようなプログラムモジュール４４２は、操作システム、一つまたは複数のアプリケーション、他のプログラムモジュール及びプログラムデータを含むが、これらに限られるものではなく、これらの例示されたそれぞれ、または組み合わせによりインターネット環境を実現することができる。プログラムモジュール４４２は通常、本発明に記載された実施例における機能及び／または方法を実行する。

サーバ４１２は、一つまたは複数の外部設備４１４（例えばキーボード、指向設備、ディスプレイ４２４など）と通信することができ、また、ユーザが該サーバ４１２と交互に一つまたは複数の装置と通信することもでき、及び／またはサーバ４１２が、一つまたは複数の他のコンピューティングデバイスと通信できるようにする任意のデバイス（例えばネットワークカード、モデムなど）と通信することもできる。このような通信は、入力／出力（Ｉ／Ｏ）インタフェース４２２で行うことができる。また、サーバ４１２はネットワークアダプター４２０を介して一つまたは複数のインターネット（ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及び／またはパブリックネットワーク、例えばインターネット）と通信することができる。図示されるように、ネットワークアダプター４２０はバス４１８を介してサーバ４１２の他のモジュールと通信する。図示されていないが、サーバ４１２に合わせて他のハードウェア及び／またはソフトウェアモジュールを使用することができ、マイクロコード、デバイスドライバー、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ及びデータバックアップ記憶システムなどを含むが、これらに限定されない。

プロセッサ４１６はシステムメモリ４２８に記憶される複数のプログラムの少なくとも１つを実行させることにより、各機能応用及びデータ処理を実行し、例えば本発明実施例が提供する画像処理方法を実現する。

実施例５
本発明実施例５は、コンピュータの実行可能な指令を含む記憶媒体を提供する。前記コンピュータ実行可能な指令は、コンピュータプロセッサによって実行される場合に、画像処理方法を実行する。

本発明実施例のコンピュータ記憶媒体は、一つまたは複数のコンピュータ読み取り可能な媒体の任意の組み合わせを採用してもよい。コンピュータ読み取り可能な媒体はコンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば電気、磁気、光、電磁、赤外線、または半導体のシステム、装置または機器、または任意の以上の組み合わせであってもよいが、これらに限られるものではない。コンピュータ読み取り可能な記憶媒体の具体的な例示（非網羅リスト）として、一つまたは複数の導線を有する電接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、書き換え可能な読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、コンパクトディスクリードオンリーメモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、または前記任意の適宜の組み合わせを含む。本出願で、コンピュータ読み取り可能な記憶媒体はプログラムを含むか、または記憶する任意の有形媒体であり、該プログラムは指令でシステム、装置または機器に使用され、またはそれを組み合わせて使用することもされる。

コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能なプログラムコードを載せるベースバンドに含まれるか、または搬送波の一部として搬送されるデータ信号を含んでもよい。このような搬送されるデータ信号は、複数の形式を採用してもよく、電磁信号、光信号または前記任意の適宜な組み合わせを含むが、これらに限られるものではない。コンピュータ読み取り可能な信号媒体はコンピュータ読み取り可能な記憶媒体以外のいずれかのコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な媒体は指令実行システム、装置または機器、またはそれと組み合わせて使用するプログラムの実行を発送、搬送または転送できる。

コンピュータ読み取り可能な媒体に含まれたプログラムコードは、任意の適当な媒体で転送でき、ワイヤレス、電線、光ファイバー、ＲＦなど、または前記任意の適当な組み合わせを含むが、これらに限られるものではない。

本発明の動作を実行するためのコンピュータプログラムコードは、１つまたは複数のプログラム設計言語またはその組み合わせで作成されてもよく、前記プログラム設計言語はオブジェクト指向プログラミング、例えばＪａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋を含み、また、手続き指向プログラム設計言語、例えば「Ｃ」言語または類似のプログラミング言語を含む。プログラムコードは完全にユーザのコンピュータで実行でき、部分的にユーザのコンピュータで実行し、一つの独立なソフトウェアパッケージとして実行し、一部はユーザのコンピュータで一部はリモートコンピュータで実行し、または完全にリモートコンピュータまたはサーバで実行することもできる。リモートコンピュータに関する場合には、リモートコンピュータは任意のネットワークを通してローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）を含み、ユーザのコンピュータに接続し、または外部のコンピュータ（例えば、インターネットサービスプロバイダーを利用してインターネットを介して接続する）に接続することができる。

前記内容は、本発明のより良い実施例及び技術原理に過ぎない。ここで説明する特定の実施例に限られるものではなく、当業者にとって本発明の保護範囲を逸脱することなく、様々な変化、再調整および変更を行うことができる。よって、以上の実施例を介して本発明を詳しく説明したが、本発明は上記の実施例に限定されるものではなく、本発明の思想を逸脱しない限り、他の均等な実施例をさらに含むことができ、本発明の範囲は、請求項の範囲によって決定される。

Claims

処理対象画像に含まれる物体のタイプにより、処理対象画像における物体の特徴表現を決定するステップと、
処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するステップと、を含むことを特徴とする、画像処理方法。
処理対象画像に含まれる物体のタイプにより、処理対象画像における物体の特徴表現を決定するステップは、
処理対象画像に含まれる物体のタイプと物体の画像領域とに基づいて、処理対象画像における物体の特徴表現を決定するステップを含むことを特徴とする、請求項１に記載の方法。
処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するステップは、
処理対象画像における物体の特徴表現、処理対象画像の特徴表現、処理対象画像に関連付けられたテキスト特徴表現、及び知識グラフにおけるエンティティの特徴表現とエンティティ属性情報に基づいて、処理対象画像における物体に関連付けられたエンティティを決定するステップを含むことを特徴とする、請求項１に記載の方法。
処理対象画像における物体の特徴表現と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定した後、
処理対象画像が属する文章に含まれたエンティティに基づいて、文章の特徴表現を決定するステップと、
前記文章の特徴表現と処理対象画像における物体に関連付けられたエンティティとに基づいて、画像と文章との関連度を決定するステップと、をさらに含むことを特徴とする、請求項１に記載の方法。
処理対象画像における物体に関連付けられたエンティティを決定した後、
第１のリコール方式をエンティティのリコール方式として決定するステップと、
少なくとも１つの補助リコール方式により、処理対象画像における物体に関連付けられたエンティティを決定するステップと、
各エンティティのリコール方式とリコール頻度とに基づいて、処理対象画像における物体に関連付けられたエンティティを再決定するステップと、をさらに含むことを特徴とする、請求項１から４のいずれかに記載の方法。
少なくとも１つの補助リコール方式により、処理対象画像における物体に関連付けられたエンティティを決定するステップは、
処理対象画像と候補エンティティの画像とをマッチングさせ、処理対象画像に関連付けられたエンティティを決定するステップ、及び／または、
処理対象画像が属するテキストと知識グラフとをマッチングさせ、処理対象画像に関連付けられたエンティティを決定するステップと、を含むことを特徴とする、請求項５に記載の方法。
処理対象画像における物体に関連付けられたエンティティを決定した後、
知識グラフから、物体に関連付けられたエンティティとエッジ関係を持つ新たなエンティティを引き出すステップと、
引き出された新たなエンティティ間の相互関係に基づいて、新たなエンティティから画像に関連付けられた新たなエンティティを選択するステップと、をさらに含むことを特徴とする、請求項６に記載の装置。
処理対象画像における物体のタイプに基づいて、処理対象画像における物体の特徴表現を決定するための特徴表現決定モジュールと、
処理対象画像における物体特定表示と知識グラフにおけるエンティティの特徴表現とに基づいて処理を行い、処理対象画像における物体に関連付けられたエンティティを決定するための関連エンティティ決定モジュールと、を含むことを特徴とする、画像処理装置。
一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶するためのメモリと、を含み、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行される場合に、前記一つまたは複数のプロセッサが請求項１から７のいずれかに記載の画像処理方法を実現することを特徴とする、サーバ。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサにより実行される場合に、請求項１から７のいずれかに記載の画像処理方法が実現されることを特徴とする、コンピュータ読み取り可能な記憶媒体。