JP2021163477A

JP2021163477A - 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Info

Publication number: JP2021163477A
Application number: JP2021030712A
Authority: JP
Inventors: ジャオチャン; Zhou Cheng
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2020-04-03
Filing date: 2021-02-26
Publication date: 2021-10-11
Anticipated expiration: 2041-02-26
Also published as: JP7121819B2; CN111460206A; US12056184B2; EP3889802A1; KR102609616B1; US20210311985A1; KR20210124033A; CN111460206B

Abstract

【課題】絶えずに更新される画像及び情報ソースに基づいて正確な記述情報を十分に提供する画像処理方法及び装置を提供する。
【解決手段】方法２００は、参照画像情報ライブラリから目標画像とマッチする参照画像の記述情報を取得する２０２ことと、参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも１つの実体を確定する２０４ことと、少なくとも１つの実体に基づいて目標画像の記述情報を生成する２０６ことと、を含む。
【効果】絶えずに更新される画像及び情報ソースに基づいて正確な記述情報を十分に提供することができ、それにより人的資源コストを効果的に節約し、且つユーザ体験を顕著に向上させる。
【選択図】図２

Description

本開示の実施形態は、主に人工知能の分野に関し、より詳細には、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関する。

ネットワーク閲覧により見られた画像又は生活中に見られた物事に対して、ユーザは画像を利用して検索して見られた画像情報又は物事の記述情報（例えば、名称）をさらに調査するニーズがある可能性がある。具体的には、ユーザが国を知らない国旗、名前を知らない建物、絵画作品、有名人などを発見した場合、既知の画像に基づいてその画像の記述情報を確定し、その記述情報を回答としてユーザにフィードバックする必要がある。従来の画像の記述情報を確定する方式は、一般的に画像及び／又は情報ソースの急速な発展変化（例えば、リアルタイム変化のインターネット知識更新）に対応することができず、固定又は特定の知識集合に限定され、画像の記述情報が十分ではない。

本開示の例示的な実施形態によれば、画像処理のための解決策が提供される。

本開示の第１態様において、画像処理方法を提供する。該方法は参照画像情報ライブラリから目標画像とマッチする参照画像の記述情報を取得することを含むことができる。該方法は、参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも１つの実体を確定することをさらに含む。かつ、該方法は、少なくとも１つの実体に基づいて目標画像の記述情報を生成することをさらに含むことができる。

本開示の第２態様において、参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュールと、前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも１つの実体を確定するように構成される実体確定モジュールと、前記少なくとも１つの実体に基づいて、前記目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュールと、を含む画像処理装置を提供する。

本開示の第３態様において、１つまたは複数のプロセッサと、
１つまたは複数のプログラムを格納するための記憶装置であって、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに本開示の第１態様に記載の方法を実現させる記憶装置と、を備える電子機器を提供する。

本開示の第４態様において、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行されると、本開示の第１態様に記載の方法を実現するコンピュータ可読記憶媒体を提供する。

本開示の第５態様において、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、本開示の第１態様に記載の方法を実現する、コンピュータプログラムを提供する。

発明の概要に記載された内容は、本開示の実施形態のかなめ又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本発明の他の特徴は、以下の説明によって容易に理解されるであろう。

図面を踏まえて以下の詳細な説明を参照すれば、本開示の各実施形態の上述したもの並びに他の特徴、利点及び態様は、より明らかになるであろう。添付図面において、同一又は類似の図面符号は、同一又は類似の要素を表す。
本開示のいくつかの実施形態が実現可能な例示的な環境を示す模式図である。本開示の実施形態に係る画像処理のためのプロセスを示すフローチャートである。本開示の実施形態に係る目標画像の記述情報を生成するためのプロセスを示すフローチャートである。本開示の実施形態に係る目標画像の記述情報を生成するための他のプロセスを示すフローチャートである。本開示の実施形態に係る目標画像を処理するための装置のブロック図である。本開示の複数の実施形態を実施することができるコンピューティングデバイスを示すブロック図である。

以下、添付図面を参照しながら本開示の実施形態を更に詳しく説明する。本発明のいくつかの実施例が図面に示されているが、本発明は様々な形態で具現化されてもよく、本明細書に記載の実施例に限定されると解釈されるべきではなく、逆に、これらの実施例は、本発明をより明確かつ完全に理解するために提供されていることを理解されたい。なお、本開示の図面及び実施形態は例示的なものにすぎず、本開示の保護範囲を限定するものではない。

本開示の実施形態の説明では、用語「…を含む」およびそれに類似する用語は、「…を含むがそれらに限定されない」という非限定の表現として理解されるべきである。「…に基づいて」という用語は、「…に少なくとも部分的に基づいて」と理解されるべきである。「１つの実施形態」または「該実施形態」という用語は、「少なくとも１つの実施形態」と理解されるべきである。なお、「第１」、「第２」等の用語は、異なるオブジェクトまたは同一のオブジェクトを意味することができる。以下では、他の明確か暗黙的な定義がさらに含まれ得る。

画像に基づいて該画像の記述情報を確定する過程において、一般的に分類モデルを訓練する方式により、訓練された分類モデルを利用してユーザが検索しようとする画像の記述情報を確定することができる。しかしながら、インターネットの知識更新はリアルタイムに変化して発展するため、絶えず新しい知識に基づいて分類モデルを訓練する必要があり、これは一般的に大きな人的資源コストを必要とする。

また、さらに簡単な検索の方式により、シソーラス及びそれに対応する画像を収集することができ、そのうちの１つの画像がユーザが検索したい画像とマッチする場合、該画像に対応するシソーラスが回答として選択されてユーザにフィードバックされる。しかしながら、大きな人的資源コストをかけないと、この方式は依然としてリアルタイムに更新されたインターネット知識に対応することができない。また、シソーラスは一般的に比較的統一的な実体名詞に関連するため、確定された記述情報が不十分である可能性もある。

本開示の実施形態によれば、画像処理の改良方案が提案される。この方案では、ユーザが入力した目標画像とマッチする参照画像が存在するウェブページのテキスト情報抽出に関する実体を用いて目標画像を記述する。具体的には、まず画像ソース及び／又は情報ソースに基づいて構築された参照画像情報ライブラリを取得することができ、参照画像情報ライブラリには少なくとも参照画像及びその記述情報が含まれる。目標画像と参照画像情報ライブラリにおける参照画像を比較することにより、目標画像とマッチする参照画像を見つけることができ、さらに該参照画像の記述情報を確定することができる。次に、確定された記述情報から少なくとも１つの実体を取得し、少なくとも１つの実体に基づいて目標画像の記述情報を確定することができる。このようにすると、絶えずに更新される画像及び情報ソースに基づいて正確な記述情報を十分に提供することができ、それにより人的資源コストを効果的に節約し、且つユーザ体験を顕著に向上することができる。

図１は、本開示のいくつかの実施形態が実現可能な例示的な環境１００を示す模式図である。この例示的な環境１００において、目標画像１１０はユーザが入力した検索しようとする画像であってもよく、例えばユーザがネットワーク上の画像をコピー又はスナップショットして得られた画像であってもよく、又はユーザがある被写体を撮影した写真であってもよい。別の例として、目標画像１１０は、後続の記述情報の生成のための、ある画像処理システムによって自動的に取得されたネットワーク画像または外部記憶装置内の画像であってもよい。上記の実施形態は本開示を説明するためのものであり、本開示を具体的に限定するものではない。

図１に示すように、目標画像１１０の記述情報を確定するために、目標画像１１０はコンピューティングデバイス１２０に入力される。いくつかの実施形態では、コンピューティングデバイス１２０は、パーソナルコンピュータ、サーバコンピュータ、携帯型またはノート型の装置、モバイルデバイス（例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、メディアプレーヤ等）、マルチプロセッサシステム、消費電子製品、小型コンピュータ、大型コンピュータ、またはこれらのシステムまたは装置のいずれかを含む分散計算環境などが挙げられるが、これらに限られない。

いくつかの実施形態では、コンピューティングデバイス１２０は、通信接続された参照画像情報ライブラリ１３０から目標画像１１０とマッチする参照画像の記述情報を取得し、該参照画像の記述情報に基づいて目標画像１１０の記述情報１４０を確定するために、クラウド側に位置してもよい。参照画像情報ライブラリ１３０には、複数の参照画像とそれに対応する記述情報が含まれる。図１に示すように、参照画像情報ライブラリ１３０には、一例として、複数の情報集合１３２、１３４および１３６が含まれており、各情報集合には、１つの参照画像とそれに対応する記述情報が格納されている。参照画像の記述情報は、参照画像のテキスト情報および構造化情報の少なくとも一方を含み得る。

一例として、図１に示すように、コンピューティングデバイス１２０が、複数の情報集合１３２、１３４、および１３６から目標画像１１０とマッチする参照画像１５１を見つけると、対応する情報集合から参照画像１５１の記述情報を取得し、その記述情報から複数の実体、例えば実体１、実体２、実体３などを抽出することができる。さらに、コンピューティングデバイス１２０は、これらの実体から、それらのそれぞれの複数の特徴パラメータ、例えば、特徴パラメータＡ、特徴パラメータＢ、特徴パラメータＣなどを統計する。

コンピューティングデバイス１２０の処理を経て、上記実体及び特徴パラメータに基づいて目標画像１１０の記述情報１４０を確定し、且つそれを処理結果としてユーザにフィードバックすることができる。一例として、記述情報１４０は、ユーザが目標画像１１０の関連知識情報を知りたいという要求を満たすように、目標画像１１０に関連するオブジェクトの特定の名称を記述するために使用されてもよい。

図１に示される環境は、例示的なものに過ぎず、本開示を特定的に限定するものではないことを理解されたい。

図２は、本開示の実施形態に係る画像処理のためのプロセス２００を示すフローチャートである。いくつかの実施形態では、方法２００は、図６に示す装置において実現されてもよい。以下、図１を参照して、本開示の実施形態に係る目標画像１１０の処理プロセス２００について説明する。理解を容易にするために、以下の説明に言及する特定のデータはいずれも例示的なものであり、本開示の保護範囲を限定するものではない。

ステップ２０２において、コンピューティングデバイス１２０は、参照画像情報ライブラリ１３０から目標画像１１０にマッチする参照画像の記述情報を取得することができる。一例として、図１に示すように、情報集合１３４内の参照画像が目標画像１１０とマッチしていると確定された場合、情報集合１３４から対応する記述情報を取得する。本開示の実施形態によれば、参照画像の記述情報は、参照画像のテキスト情報および構造化情報のうちの少なくとも一方を含み得る。これにより、参照画像とその全ての関連テキスト情報を関連づけることができ、後続の実体ワードの抽出プロセスに役立つ。一例として、インターネット上のすべてのコンテンツをネットワーククローラなどの知識獲得技術を介してスクレイピングし、ウェブページ内の画像、画像周辺のテキスト情報、およびウェブページの構造化情報、例えば＜ｔｉｔｌｅ＞ｔａｇのテキストコンテンツ、特定のウェブサイトの可視タイトルなどを抽出することができる。画像周辺のテキスト情報とウェブページの構造化情報は、参照画像の記述情報を構成する。これらの情報は、参照画像情報ライブラリ１３０に対応して格納され、ネットワーククローラなどの知識獲得技術に基づいてリアルタイムまたは定期的に更新される。参照画像情報ライブラリ１３０の画像は参照画像と呼ばれ、該画像が位置するウェブページは画像ソース（又は「ソースファイル」）と呼ばれる。

いくつかの実施形態では、目標画像１１０が受信された後、コンピューティングデバイス１２０は、目標画像１１０の特徴ベクトルを抽出し、抽出された特徴ベクトルを参照画像リポジトリ１３０内の各画像の特徴ベクトルと照合することができる。参照画像情報ライブラリ１３０では一致度が所定の閾値よりも大きい画像が見つかった場合には、その画像を参照画像とし、その参照画像に対応する記述情報を取得する。参照画像を確定する上述の方法は、例示的なものに過ぎず、本開示を具体的に限定するものではないことを理解されたい。例えば、参照画像の記述情報に加えて、該画像が位置する画像ソースを取得することもできる。このようにすることで、目標画像１１０とマッチする参照画像とその記述情報を迅速に確定することができ、該参照画像の記述情報への次の処理プロセスに役立つ。

ステップ２０４において、コンピューティングデバイス１２０は、上述の参照画像の記述情報から、参照画像に関連付けられたオブジェクトを識別する少なくとも１つの実体を確定することができる。一例として、固有表現識別（ＮＥＲ）技術を用いて参照画像の記述情報から少なくとも１つの実体を取得することができる。一例として、参照画像の記述情報は、参照画像のテキスト情報および構造化情報である。ＮＥＲ技術によってこれらの情報から複数の実体、例えば複数の実体名詞を抽出して、候補の実体名詞集合を形成することができる。このようにして、目標画像１１０に関連する実体ワードを、人手を介さずに候補として取得することができる。

好ましくは、これらの実体名詞は上記ウェブページのスクレイピング記憶を行う時にＮＥＲを用いて抽出して記憶することができる。代替的に、または追加的に、これらの実体名詞は、参照画像の実体として確定された後にＮＥＲを使用して、抽出されてもよい。

ステップ２０６において、コンピューティングデバイス１２０は、上記少なくとも１つの実体に基づいて、目標画像１１０の記述情報１４０を生成することができる。なお、生成された記述情報１４０は、上記参照画像の記述情報とは全く異なる。上記参照画像の記述情報は画像周辺のテキスト情報及びウェブページの構造化情報を含み、記述情報１４０は、目標画像１１０を簡単に記述するための１つ又は複数の実体ワードのみを含み得る。コンピューティングデバイス１２０は、目標画像１１０の記述情報１４０を様々な方法で確定することができることも理解されるべきである。例えば、図３は、本開示の実施形態による、目標画像１１０の記述情報１４０を生成するためのプロセス３００のフローチャートを示す。理解を容易にするために、以下の説明に言及する具体的なプロセスはいずれも例示的であり、本開示の保護範囲を限定するものではない。

ステップ３０２において、複数の実体があると判定されると、コンピューティングデバイス１２０は、参照画像情報ライブラリ１３０に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、及び画像ソースのコンテンツにおけるこれらの実体の位置に対応する重みのうちの少なくとも１つのパラメータを含むことができる。

ステップ３０４において、コンピューティングデバイス１２０は、上記複数の実体から、同じ実体である少なくとも１組の実体を確定することができる。一例として、複数の参照画像及びその記述情報が確定された後、これらの記述情報から複数の実体を確定することができる。各参照画像の相関関係により、確定された複数の実体の中に同じ実体が存在する。したがって、同じ実体を１組の実体として確定することができる。

ステップ３０６において、コンピューティングデバイス１２０は、上記少なくとも１組の実体の対応する特徴パラメータの統計結果を確定することができる。一例として、コンピューティングデバイス１２０は、上記１組の実体の対応する特徴パラメータの統計結果、例えば、合計値、平均値などの統計情報を確定することができる。例えば、該１組の実体が位置する画像ソースのコンテンツに表示された回数の和、これらの実体が画像ソースのコンテンツにおける出現回数の和、及びこれらの実体がその画像ソースのコンテンツにおける位置に対応する重みの平均値等を計算することができる。当然のことながら、上記計算方法は例示的なものに過ぎず、本開示を限定するものではない。

その後、コンピューティングデバイス１２０は、上記統計結果に基づいて目標画像１１０の記述情報１４０を生成することができる。このように、人工マーキングの作業を主に記述情報生成モデルの訓練部分のみに集中することができ、それにより人的資源コストを低減できる。記述情報１４０は、様々な方法で生成することができることを理解されたい。一例として、ステップ３０８において、上記少なくとも１組の実体の、目標画像１１０内のオブジェクトを識別する正確度を確定する。正確度とは、上記少なくとも１組の実体と目標画像１１０内のオブジェクトとのマッチング度を示すために使用されてもよいし、上記少なくとも１組の実体が目標画像１１０内のオブジェクトを正確に識別する確率を示すために使用されてもよいことを理解されたい。一例として、このプロセスは、スコアリングモデルを訓練することによって実現され得る。例えば、該特徴訓練に基づく勾配ブースティング決定木（ＧＢＤＴ，ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＤｅｃｉｓｉｏｎＴｒｅｅ）アルゴリズムを使用して、各実体が目標画像１１０内のオブジェクトと関連しているかどうかをスコア化する。スコアが高いほど、実体が目標画像１１０内のオブジェクトとのマッチング度合いが高いか、または実体が目標画像１１０内のオブジェクトを正しく識別する確率が高いと示される。

その後、ステップ３１０において、コンピューティングデバイス１２０は、上記少なくとも１組の実体から、対応する正確度が閾値よりも高い１組の目標実体を選択することができる。一例として、各実体のスコアに基づいて、より高いまたは最も高いスコアの実体を選択することができる。最も高いスコアを有する実体ワードのスコアが設定された閾値よりも低ければ、今回の検索において正しい実体がないと判定し、そうでなければより高い又は最も高いスコアを有する実体を出力する。さらに、ステップ３１２において、コンピューティングデバイス１２０は、該組の目標実体に基づいて、目標画像１１０の記述情報１４０を生成することができる。

このようにして、訓練されたスコアリングモデルに基づいて、複数の参照画像に関連する記述情報の中から、目標画像１１０に最も関連する実体ワードを確定することができ、それによって、目標画像１１０の最も正確な記述情報１４０をユーザに提供することができる。また、人工マーキングの作業を主にスコアリングモデルの訓練部分に集中するため、それにより人的資源コストを低減できる。

さらに、コンピューティングデバイス１２０は、以下のようにして、目標画像１１０の記述情報１４０を確定することもできる。図４は、本開示の実施形態による、目標画像１１０の記述情報１４０を生成するための別のプロセス４００のフローチャートを示す。理解を容易にするために、以下の説明に言及する具体的なプロセスはいずれも例示的であり、本開示の保護範囲を限定するものではない。

ステップ４０２において、複数の実体があると判定された場合、コンピューティングデバイス１２０は、参照画像情報ライブラリ１３０に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、及び画像ソースのコンテンツにおけるこれらの実体の位置に対応する重みのうちの少なくとも１つのパラメータを含むことができる。

ステップ４０４において、コンピューティングデバイス１２０は、上記特徴パラメータに基づいて、これらの実体の各々が目標画像１１０内のオブジェクトを識別する正確度を確定することができる。一例として、このプロセスは、深層学習モデルを訓練することによって実現され得る。例えば、長短期記憶ネットワーク（ＬＳＴＭ）またはＴｒａｎｓｆｏｒｍｅｒモデルなどのシーケンスモデルを使用して、各実体の特徴パラメータに基づいて、各実体が目標画像１１０内のオブジェクトにヒットする確率を予測する。

ステップ４０６において、コンピューティングデバイス１２０は、上記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択することができる。一例として、ヒット確率がより高いまたは最も高い実体を選択することができる。高い又は最も高いヒット確率が設定された閾値未満であれば、今回の検索に正しい実体がないと判定し、そうでなければ高い又は最も高いヒット確率を有する実体を出力する。さらに、ステップ４０８において、コンピューティングデバイス１２０は、該目標実体に基づいて、目標画像１１０の記述情報１４０を生成することができる。

以上のようにして、訓練された学習モデルに基づいて、複数の参照画像に関連付けられた記述情報の中から、目標画像１１０に最も関連する実体ワードを確定することができ、目標画像１１０の最も正確な記述情報１４０をユーザに提供することができる。また、人工マーキングの作業を主に学習モデルの訓練部分に集中するため、それにより人的資源コストを低減できる。

さらに、いくつかの実施形態では、コンピューティングデバイス１２０は、参照画像情報ライブラリ１３０を更新することもできる。この更新プロセスは、種々の方式で実現することができる。一実施形態では、コンピューティングデバイス１２０は、ネットワーク画像、ユーザ入力画像、および外部記憶装置内の画像などの様々な補足画像情報を取得し、そのような補足画像情報に基づいて参照画像情報ライブラリ１３０を更新することができる。ネットワーク画像は、例えば、インターネットまたは他のネットワークを介して取得されネットワークデバイスに記憶された画像であってもよい。ユーザ入力画像は、例えば、ユーザが携帯電話、カメラなどの端末装置を介して撮影しコンピューティングデバイス１２０に送信した画像であってもよい。外部記憶装置内の画像は、例えば、リムーバブル記憶装置、クラウド記憶装置等に記憶された画像であってもよい。具体的には、参照画像情報ライブラリは、定期的にまたは随時に更新してもよい。例えば、参照画像情報ライブラリは、ネットワーク画像、ユーザ入力画像、および外部記憶装置内の画像に基づいて更新されてもよい。参照画像情報ライブラリの作成および更新プロセスは、記述情報を確定するプロセス全体にわたって、ネットワーククローラなどの知識獲得技術によって自動的かつ定期的に実現されてもよい。確定された実体に基づいて目標画像の記述情報を生成するプロセスは人工訓練のモデルによって実現することができる。このようにして、参照画像情報ライブラリは、絶えず変化し、迅速に更新されるインターネットの知識集合に基づいて、不要な手動介入なしに更新され得る。

いくつかの実施形態では、特徴パラメータは、以下のように確定することができる。まず、コンピューティングデバイス１２０は、参照画像情報ライブラリ１３０から参照画像の画像ソースに関する情報を確定することができる。その後、コンピューティングデバイス１２０は、該参照画像の画像ソースに関する情報に基づいて、これらの実体の特徴パラメータを確定することができる。これらの実体の特徴パラメータは、それらが存在する画像ソースのコンテンツに表示された回数、該画像ソースのコンテンツの閲覧回数、該画像ソースのコンテンツのクリック回数、画像ソースのコンテンツにおけるこれらの実体の出現回数、これらの実体の画像ソースのコンテンツにおける位置に対応する重み、実体と目標画像とのマッチング度、実体が所在する画像ソースのコンテンツと目標画像とのマッチング度のうちの少なくとも１つのパラメータを含むことができる。このようにして、個々の実体と目標画像１１０との関連性を異なる次元で検出することができ、それによって正確な記述情報１４０を確定するためのより包括的な評価体系を提供する。特徴パラメータを確定する上記の方法は、単なる例示であり、本開示の範囲を限定するものではないことを理解されたい。

理解されるように、本開示の画像処理方式の従来の画像認識方式に対する利点は、ネットワークに新たな実体情報（例えば、新スター、新建築、新製品等）が現れるたびに、本開示の画像処理方式は従来の画像認識方式のように画像認識モデルを手動で訓練する必要がない。なぜならば、本開示は、ネットワーククローラなどの知識獲得技術を用いて参照画像情報ライブラリ１３０を更新し、訓練されたモデルを用いて参照画像の記述情報から実体を抽出し、訓練されたモデルを用いて実体の統計結果に基づいて目標画像１１０の記述情報１４０を生成するからである。本開示の全てのモデルは、新しい実体情報が現れるたびに再訓練する必要はない。それにより、多くの人工介入を行わない前提で絶えず更新されたインターネットの知識集合を十分にカバーすることによりユーザーに正確な記述情報を確定することができ、それにより人的資源コストを節約し、且つユーザー体験を向上させる。

図５は、本開示の実施形態に係る目標画像１１０を処理するための装置５００のブロック図を示す。図５に示すように、装置５００は、参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュール５０２と、参照画像の記述情報から、参照画像に関連付けられたオブジェクトを識別する少なくとも１つの実体を確定するように構成される実体確定モジュール５０４と、少なくとも１つの実体に基づいて、目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュール５０６と、を含む。

いくつかの実施形態において、装置５００は、ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも１つの画像の記述情報を含む補足画像情報を取得するように構成される補足画像情報取得モジュール（図示せず）と、補足画像情報に基づいて参照画像情報ライブラリを更新するように構成される参照画像情報ライブラリ更新モジュール（図示せず）と、を含み得る。

いくつかの実施形態において、実体確定モジュール５０４は、
固有表現識別技術を用いて参照画像の記述情報から少なくとも１つの実体を取得するように構成される実体取得モジュール（図示せず）を含み得る。

いくつかの実施形態において、少なくとも１つの実体は、複数の実体を含み、目標画像記述情報生成モジュール５０６は、前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュール（図示せず前記複数の実体から、同じ実体である少なくとも１組の実体を確定するように構成される実体組確定モジュール（図示せず）と）と、前記少なくとも１組の実体の対応する特徴パラメータの統計結果を確定するように構成される統計結果確定モジュール（図示せず）と、前記統計結果に基づいて、前記少なくとも１組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュール（図示せず）と、前記少なくとも１組の実体から、対応する正確度が閾値よりも高い１組の目標実体を選択するように構成される目標実体組選択モジュール（図示せず）と、前記１組の目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュール（図示せず）とを含み得る。

いくつかの実施形態において、少なくとも１つの実体は、複数の実体を含み、目標画像記述情報生成モジュール５０６は、前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュール（図示せず）と、
前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュール（図示せず）と、前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択するように構成される目標実体選択モジュール（図示せず）と、前記目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュール（図示せず）と、を含み得る。

いくつかの実施形態において、特徴パラメータ確定モジュールは、前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定するように構成される画像ソース関連情報確定モジュール（図示せず）と、前記参照画像の画像ソースに関連する情報に基づいて、前記少なくとも１つの実体が位置する前記画像ソースのコンテンツが表示された回数と、前記画像ソースのコンテンツの閲覧回数と、前記画像ソースのコンテンツのクリック回数と、前記少なくとも１つの実体の、前記画像ソースのコンテンツにおける出現回数と、前記少なくとも１つの実体の前記画像ソースのコンテンツにおける位置に対応する重みと、前記少なくとも１つの実体と前記目標画像とのマッチング度と、前記少なくとも１つの実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、の少なくとも１つを確定するように構成される特徴パラメータ情報確定モジュール（図示せず）と、を含み得る。

いくつかの実施形態において、記述情報は、参照画像のテキスト情報および構造化情報の少なくとも一方を含む。

図６は、本開示の複数の実施形態を実施することができるコンピューティングデバイス６００を示すブロック図である。装置６００は、図１のコンピューティングデバイス１２０を実施するために使用可能である。図に示すように、装置６００は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているコンピュータプログラム命令又は記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラム命令によって様々な適当な動作及び処理を実行することができる中央処理装置（ＣＰＵ）６０１を備える。ＲＡＭ６０３には、装置６００の動作に必要な様々なプログラム及びデータが更に格納されることが可能である。ＣＰＵ６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス５０４に接続されている。

装置６００において、キーボード、マウスなどの入力ユニット６０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット６０９とを含む複数のコンポーネントは、Ｉ／Ｏインターフェース６０５に接続されている。通信ユニット６０９は、装置６００がインターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の装置と情報又はデータの交換を可能にする。

処理ユニット６０１は、上述した各方法並びにプロセス２００、３００および４００のような処理を実行する。例えば、いくつかの実施形態では、プロセス２００、３００および４００は、記憶ユニット６０８などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部又は全部は、ＲＯＭ６０２及び／又は通信ユニット６０９を介して装置６００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、ＣＰＵ６０１によって実行されると、上述したプロセス２００、３００および４００の１つまたは複数のステップを実行可能である。あるいは、他の実施形態では、ＣＰＵ６０１は、他の任意の適切な手段によって（例えば、ファームウェアによって）プロセス２００、３００および４００を実行するように構成され得る。

本明細書で説明した機能は、少なくとも部分的に１つまたは複数のハードウェアロジックコンポーネントによって実行され得る。例えば、非限定的に、採用できる汎用型のハードウェアロジックコンポーネントには、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）などが含まれる。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置またはデバイスが使用するため、または命令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置またはデバイス、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。

また、各動作は、特定の順序で示されているが、所望の結果を得られるために、このような動作は示された特定の順序にてまたは順を追って実行されることを要求するか、または、図に示されたすべての動作が実行されることを要求するものと理解されるべきである。特定の環境では、マルチタスクと並列処理が有利である可能性がある。同様に、上記ではいくつかの具体的な実施詳細を説明したが、これらは本開示の範囲への制限と解釈されるべきではない。個別の実施形態のコンテキストで説明された、いくつかの特徴は、単一の実施において組み合わせて実施されることもできる。逆に、単一の実施のコンテキストで説明された様々な特徴は、複数の実施において、個別にまたは任意の適切なサブセットで実施されることもできる。

本主題は、構造特徴および／または方法のロジック動作に特定された言語で記述されたが、特許請求の範囲内に限定される主題が、必ずしも上記に記載された特定の特徴または動作に限定されるものではないことを理解されたい。逆に、上述した特定の特徴および動作は、特許請求の範囲を実施するための例示的な形態にすぎない。

Claims

参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得することと、
前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも１つの実体を確定することと、
前記少なくとも１つの実体に基づいて、前記目標画像の記述情報を生成することと、を含む画像処理方法。
前記方法は、
ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも１つの画像の記述情報を含む補足画像情報を取得することと、
前記補足画像情報に基づいて前記参照画像情報ライブラリを更新することと、
を含む請求項１に記載の方法。
前記少なくとも１つの実体を確定することは、
固有表現識別技術を用いて前記参照画像の記述情報から前記少なくとも１つの実体を取得することを含む請求項１に記載の方法。
前記少なくとも１つの実体は、複数の実体を含み、
前記目標画像の記述情報を生成することは、
前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定することと、
前記複数の実体から、同じ実体である少なくとも１組の実体を確定することと、
前記少なくとも１組の実体の対応する特徴パラメータの統計結果を確定することと、
前記統計結果に基づいて前記目標画像の記述情報を生成することと、を含む請求項１に記載の方法。
前記統計結果に基づいて前記目標画像の記述情報を生成することは、
前記統計結果に基づいて、前記少なくとも１組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定することと、
前記少なくとも１組の実体から、対応する正確度が閾値よりも高い１組の目標実体を選択することと、
前記１組の目標実体に基づいて、前記目標画像の記述情報を生成することと、を含む請求項４に記載の方法。
少なくとも１つの実体は、複数の実体を含み、
前記目標画像の記述情報を生成することは、
前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定することと、
前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定することと、
前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択することと、
前記目標実体に基づいて、前記目標画像の記述情報を生成することと、を含む請求項１に記載の方法。
前記特徴パラメータを確定することは、
前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定することと、
前記参照画像の画像ソースに関連する情報に基づいて、
前記少なくとも１つの実体が位置する前記画像ソースのコンテンツが表示された回数と、
前記画像ソースのコンテンツの閲覧回数と、
前記画像ソースのコンテンツのクリック回数と、
前記少なくとも１つの実体の、前記画像ソースのコンテンツにおける出現回数と、
前記少なくとも１つの実体の前記画像ソースのコンテンツにおける位置に対応する重みと、
前記少なくとも１つの実体と前記目標画像とのマッチング度と、
前記少なくとも１つの実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、のうちの少なくとも１つを確定することと、を含む請求項４〜６のいずれか１項に記載の方法。
前記記述情報は、前記参照画像のテキスト情報および構造化情報の少なくとも一方を含む請求項１に記載の方法。
参照画像情報ライブラリから目標画像にマッチする参照画像の記述情報を取得するように構成される参照画像記述情報取得モジュールと、
前記参照画像の記述情報から、前記参照画像に関連付けられたオブジェクトを識別する少なくとも１つの実体を確定するように構成される実体確定モジュールと、
前記少なくとも１つの実体に基づいて、前記目標画像の記述情報を生成するように構成される目標画像記述情報生成モジュールと、を含む画像処理装置。
ネットワーク画像、ユーザ入力画像、及び外部記憶装置内の画像のうちの少なくとも１つの画像の記述情報を含む補足画像情報を取得するように構成される補足画像情報取得モジュールと、
前記補足画像情報に基づいて前記参照画像情報ライブラリを更新するように構成される参照画像情報ライブラリ更新モジュールと、
をさらに含む請求項９に記載の装置。
前記実体確定モジュールは、
固有表現識別技術を用いて前記参照画像の記述情報から前記少なくとも１つの実体を取得するように構成される実体取得モジュールを含む請求項９に記載の装置。
前記少なくとも１つの実体は、複数の実体を含み、
前記目標画像記述情報生成モジュールは、
前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュールと、
前記複数の実体から、同じ実体である少なくとも１組の実体を確定するように構成される実体組確定モジュールと、
前記少なくとも１組の実体の対応する特徴パラメータの統計結果を確定するように構成される統計結果確定モジュールと、
前記統計結果に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュールと、を含む請求項９に記載の装置。
前記記述情報生成モジュールは、
前記統計結果に基づいて、前記少なくとも１組の実体が前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュールと、
前記少なくとも１組の実体から、対応する正確度が閾値よりも高い１組の目標実体を選択するように構成される目標実体組選択モジュールと、
前記１組の目標実体に基づいて、前記目標画像の記述情報を生成するように構成される情報生成モジュールと、を含む請求項１２に記載の装置。
少なくとも１つの実体は、複数の実体を含み、
前記目標画像記述情報生成モジュールは、
前記参照画像情報ライブラリに基づいて、前記複数の実体の特徴パラメータを確定するように構成される特徴パラメータ確定モジュールと、
前記特徴パラメータに基づいて、前記複数の実体のそれぞれが前記目標画像におけるオブジェクトを識別する正確度を確定するように構成される正確度確定モジュールと、
前記複数の実体から、対応する正確度が閾値よりも高い目標実体を選択するように構成される目標実体選択モジュールと、
前記目標実体に基づいて、前記目標画像の記述情報を生成するように構成される記述情報生成モジュールと、を含む請求項９に記載の装置。
前記特徴パラメータ確定モジュールは、
前記参照画像情報ライブラリから前記参照画像の画像ソースに関連する情報を確定するように構成される画像ソース関連情報確定モジュールと、
前記参照画像の画像ソースに関連する情報に基づいて、
前記少なくとも１つの実体が位置する前記画像ソースのコンテンツが表示された回数と、
前記画像ソースのコンテンツの閲覧回数と、
前記画像ソースのコンテンツのクリック回数と、
前記少なくとも１つの実体の、前記画像ソースのコンテンツにおける出現回数と、
前記少なくとも１つの実体の前記画像ソースのコンテンツにおける位置に対応する重みと、
前記少なくとも１つの実体と前記目標画像とのマッチング度と、
前記少なくとも１つの実体が位置する前記画像ソースのコンテンツと前記目標画像とのマッチング度と、のうちの少なくとも１つを確定するように構成される特徴パラメータ情報確定モジュールと、
を含む請求項１２〜１４のいずれか１項に記載の装置。
前記記述情報は、前記参照画像のテキスト情報および構造化情報の少なくとも一方を含む請求項９に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを格納するための記憶装置であって、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１〜８のいずれか１項に記載の方法を実現させる記憶装置と、を備える電子機器。
コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、
前記プログラムがプロセッサによって実行されると、請求項１〜８のいずれか１項に記載の方法を実現する、コンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜８のいずれか一項に記載の方法を実現する、コンピュータプログラム。