JP7096444B2

JP7096444B2 - 画像領域位置決め方法、モデル訓練方法及び関連装置

Info

Publication number: JP7096444B2
Application number: JP2021546041A
Authority: JP
Inventors: 林 ▲馬▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-13
Filing date: 2020-03-10
Publication date: 2022-07-05
Anticipated expiration: 2040-03-10
Also published as: US20210264227A1; EP3940638A4; KR102646667B1; KR20210076110A; WO2020182112A1; EP3940638A1; EP3940638B1; JP2022508790A; CN109903314A

Description

（関連出願の相互参照）
本願は、２０１９年０３月１３日に提出された出願番号が２０１９１０１９０２０７．２であり、発明名称が「画像領域位置決め方法、モデル訓練方法及び関連装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願の実施例は、画像領域位置決め方法、モデル訓練方法及び関連装置に関する。

人工知能の継続的な成長に伴い、画像において自然文に対応する領域を位置決めすることは、機械学習の重要なタスクになっていた。大量の画像が存在する場合、自然文に関わる領域を手動方式で抽出するために、一般的に、かなりの時間がかかり、また、エラーが発生しやすい。従って、画像領域の位置決めを機械により実現させることは、非常に必要である。

現在、画像領域位置決めを実現する方法は、オブジェクト提案の方式で画像における複数の候補領域を抽出し、続いて、マッチングモデルを用いて、各オブジェクト提案と自然言語とのマッチング関係を判定し、更に、自然言語と最もマッチングした局所領域をターゲット画像領域として選択することにより、対応する自然文画像位置決めタスクを完了する。

本願の第１態様は、画像領域位置決め方法を提供する。該方法は、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む。

本願の第２態様は、モデル訓練方法を提供する。該方法は、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含む。

本願の第３態様は、画像領域位置決め装置を提供する。該装置は、生成モジュールと、取得モジュールと、決定モジュールと、を備え、
生成モジュールは、位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するように構成され、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応し、
取得モジュールは、グラフ畳み込みネットワークによって、前記生成モジュールが生成した前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するように構成され、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられ、
前記取得モジュールは更に、画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するように構成され、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応し、
決定モジュールは、前記取得モジュールが取得した前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するように構成される。

本願の第４態様は、モデル訓練装置を提供する。該装置は、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するように構成される取得モジュールであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、取得モジュールと、
前記取得モジュールが取得した前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するように構成される決定モジュールと、
前記決定モジュールが決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るように構成される訓練モジュールであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、訓練モジュールと、を備える。

本願の第５態様は、端末機器を提供する。前記端末機器は、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。

可能な設計において、本願の実施例の第５態様の１つの可能な実現形態において、前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記Ｎ個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Ｎは、１より大きいか等しい整数である、ステップと、を含む。

可能な設計において、本願の実施例の第５態様の１つの可能な実現形態において、前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
前記領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得するステップであって、前記第１領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、前記第２領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報である、ステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を含む。

可能な設計において、本願の実施例の第５態様の１つの可能な実現形態において、前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を含む。

可能な設計において、本願の実施例の第５態様の１つの可能な実現形態において、前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
式

を用いて、前記拡張セマンティック情報集合を算出するステップを含み、
ここで、前記ｎ_i ^ｋは、第ｋ層のグラフ畳み込みネットワークに対応するｉ番目の拡張セマンティック情報を表し、前記ｎ_ｊ ^ｋ－１は、第（ｋ－１）層のグラフ畳み込みネットワークに対応するｊ番目の拡張セマンティック情報を表し、前記ｗ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第１ネットワークパラメータを表し、前記ｂ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第２ネットワークパラメータを表し、前記ｊ∈ｎｅｉｇｈｂｏｒｉｎｇ（ｉ）は、ｊ番目のノードがｉ番目のノードの近隣ノードに属することを表し、前記Ｅ_ｉｊは、ターゲット接続行列における要素を表す。

可能な設計において、本願の実施例の第５態様の１つの可能な実現形態において、前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、Ｔ個の単語ベクトルを含み、各単語ベクトルは、１つの単語に対応し、前記Ｔは、１より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
Ｔ個の単語ベクトルに対応するテキスト特徴を取得した場合、前記Ｔ個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を含む。

を用いて、前記テキスト特徴を取得するステップを含み、
ここで、前記ｈ_ｔは、前記テキスト特徴集合におけるｔ番目のテキスト特徴を表し、前記ＬＳＴＭ（）は、長短期記憶（ＬＳＴＭ）ネットワークを用いて符号化を行うことを表し、前記ｗ_ｔは、前記テキストベクトルシーケンスにおけるｔ番目の単語ベクトルを表し、前記ｈ_ｔ－１は、前記テキスト特徴集合における（ｔ－１）番目のテキスト特徴を表す。

本願の第６態様は、サーバを提供する。前記サーバは、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。

本願の第７態様は、サーバを提供する。前記サーバは、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。

可能な設計において、本願の実施例の第７態様の１つの可能な実現形態において、前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
式

を用いて、前記ターゲット損失関数を決定するステップを含み、
ここで、前記Ｌは、前記ターゲット損失関数を表し、前記ｎ_ｉ ^＋は、第１訓練対象の画像候補領域を表し、前記ｈ_ｉ ^＋は、前記第１訓練対象のテキストを表し、前記ｎ_ｊ ^－は、前記第２訓練対象の画像候補領域を表し、前記ｈ_ｋ ^－は、前記第２訓練対象のテキストを表し、前記ｄ（）は、訓練対象のデータペアを表し、前記ｍａｘ（）は、最大値を取ることを表し、前記λ_１は、第１パラメータ制御重みを表し、前記λ_２は、第２パラメータ制御重みを表し、前記ｕ_１は、第１プリセット閾値を表し、前記ｕ_２は、第２プリセット閾値を表す。

本願の第８態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に命令が記憶されており、該命令がコンピュータで実行される時、コンピュータに、上記各態様に記載の方法を実行させる。

本願の第９態様は、画像領域位置決め方法を提供する。前記方法は、
画像位置決め命令を受信するステップと、
前記画像位置決め命令に応答して、前記画像位置決め命令に基づいて、位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、Ｎ個の画像候補領域が含まれ、前記Ｎは、１より大きいか等しい整数である、ステップと、
前記画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合に、Ｎ個の領域セマンティック情報が含まれ、各領域セマンティック情報は、１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、Ｎ個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、Ｔ個の単語を含み、前記テキスト特徴集合は、Ｔ個の単語特徴を含み、各単語は、１つの単語特徴に対応し、前記Ｔは、１より大きいか等しい整数である、ステップと、
画像領域位置決めネットワークモデルによって、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、
クライアントに画像生成命令を送信し、前記クライアントに、前記画像生成命令に基づいて前記ターゲット画像候補領域を展示させるステップと、を含む。

本願の実施例による画像領域位置決めシステムのアーキテクチャを示す概略図である。本願の実施例による画像領域位置決めの全体的なフレームワークを示す概略図である。本願の実施例による画像領域位置決め方法の一実施例を示す概略図である。本願の実施例によるモデル訓練方法の一実施例を示す概略図である。本願の実施例による画像領域位置決め装置の一実施例を示す概略図である。本願の実施例によるモデル訓練装置の一実施例を示す概略図である。本願の実施例による端末機器の構造を示す概略図である。本願の実施例によるサーバの構造を示す概略図である。

関連技術において、画像において、自然言語に最もマッチングした画像領域を位置決めすることができるが、各局所領域間の空間的関係が考慮されておらず、且つ局所領域間のセマンティック情報が無視されたため、ターゲット画像領域の位置決めが不正確になることを招き、画像に対する理解能力を低下させる。

本願の実施例は、画像領域位置決め方法、モデル訓練方法及び関連装置を提供する。グラフ畳み込みネットワークによって、画像候補領域間の表現を効果的に拡張し、且つ、各画像候補領域間の空間的関係を考慮したため、画像領域位置決めの正確性の向上に寄与し、更に、画像に対する理解能力を向上させる。

本願の明細書、特許請求の範囲及び上記図面に言及された「第１」、「第２」、「第３」、「第４」等の用語（存在すれば）は、類似した対象を区別するためのものであり、特定の順番又は前後順序を説明するためのものではない。ここで説明した本願の実施例をここで示した又は説明した順番以外の順番で実施可能なものにするために、このように使用されたデータは適した場合であれば互いに取り替え可能なことは、理解されるべきである。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明記されたステップ又はユニットに限定されず、明記されていないか又はこれらのプロセス、方法、製品又は機器固有の他のステップ又はユニットを含んでもよい。

本願で提供される画像領域位置決め方法は、画像処理及びモード認識などの分野に適用され、画像において、関心のあるターゲットを位置決めし、更に、ターゲットの具体的なカテゴリを判定し、該ターゲットの境界枠を特定することができる。画像領域位置決め方法は、顔認識、医用画像、インテリジェントビデオモニタリング、ロボットナビゲーション、コンテンツに基づく画像検索、画像に基づく描画技術、画像編集及び拡張現実などの分野に広く適用されている。例えば、コンテンツに基づく画像検索シーンにおいて、画像Ａが存在し、画像Ａから複数の候補領域を抽出し、ユーザにより入力されたセンテンスが「ａｂｏｙｈｏｌｄａｎａｐｐｌｅ（一人の男の子は１つのリンゴを持っている）」であると仮定すれば、センテンスと各候補領域をマッチングし、マッチング結果に基づいて、複数の候補領域からターゲット候補領域を選択する。本願は、主に、グラフ畳み込みネットワークを用いて自然文の画像位置決めを完了する。自然文は、単語、フレーズ又はセンテンスであってもよい。自然文に対応する画像のターゲット候補領域を見付け、該ターゲット候補領域を１つの矩形枠と定義することができる。

実際の適用において、画像領域の位置決めは、３つのレベルに分けられてもよい。第１レベルは、画像レベルであり、つまり、画像に関連ターゲット対象が存在するかどうかを決定する。画像分類又は画像アノテーション技術において、例えば、単語「ａｐｐｌｅ」（リンゴ）について言えば、画像において、リンゴという対象を丸で囲むことができる。

第２レベルは、領域レベルであり、つまり、画像における１つの領域に１つのカテゴリのターゲットが含まれることを決定する。画像ターゲットカテゴリ検出において、例えば、センテンス「ａｂｏｙｈｏｌｄａｎａｐｐｌｅ（男の子は１つのリンゴを持っている）」について言えば、画像において、１つの領域を枠によって選択することができる。該領域は、一人の男の子及び１つのリンゴを含む。

第３レベルは、領域レベルであり、つまり、画像における各画素がどのようなターゲット対象に属するかを決定する。画素レベルのセグメンテーションもカテゴリレベルのターゲットセグメンテーション及びセマンティックセグメンテーションという２種類に分けられる。カテゴリレベルのターゲットセグメンテーションとセマンティックセグメンテーションとの主な相違点は、セマンティックセグメンテーションにおいて画像における背景を含む全てのターゲットをセグメンテーションしてそのカテゴリを決定することが求められているが、ターゲットセグメンテーションにおいて、関心のあるターゲットをセグメンテーションして分類することのみが求められていることである。

理解しやすくするために、本願は、画像領域位置決め方法を提供する。該方法は、図１に示す画像領域位置決めシステムに適用される。図１を参照すると、図１は、本願の実施例による画像領域位置決めシステムのアーキテクチャを示す概略図である。図面に示すように、本願で提供される画像領域位置決め方法は、サーバに適用可能であり、クライアントにも適用可能である。サーバに適用される場合、サーバは、位置決め結果を決定した後、位置決め結果をクライアントに送信し、クライアントにより、対応するターゲット画像候補領域を展示することができる。クライアントに適用される場合、クライアントは、位置決め結果を決定した後、対応するターゲット画像候補領域を直接的に展示することができる。具体的には、１つの画像に対して、まず、画像検出方法で、複数の画像候補領域（即ち、画像の局所領域）を得る。複数の画像候補領域に対して、それらの空間的関係により、グラフ（ｇｒａｐｈ）を更に構築する。続いて、画像候補領域に対して、畳み込みニューラルネットワークを用いて、対応するセマンティック特徴を抽出することができる。得られたセマンティック特徴及び構築したグラフに基づいて、グラフ畳み込みネットワーク（ｇｒａｐｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ：ＧＣＮと略称）を用いて、画像候補領域の表示を更に学習する。ＧＣＮにより得られた画像候補領域表示に基づいて、セマンティックマッチングの方式で、これらの画像候補領域と所定の自然文とのセマンティック相関性を評価し、相関性が最も高い画像候補領域を自然文画像位置決めの最終的結果として選択し、つまり、ターゲット画像候補領域を得る。

クライアントは、端末機器に配置される。ここで、端末機器は、タブレット、ノートパソコン、パーソナルテジタルアシスタント、携帯電話、音声対話端末及びパーソナルコンピュータ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ：ＰＣと略称）を含むが、これに限定されないことに留意されたい。ここで、音声対話端末は、スマートスピーカ及びスマート家電を含むが、これに限定されない。

本願で提供される画像領域位置決め方法は、自然文画像位置決めサービスを提供することができる。該サービスは、サーバ側に配置されて実行されてもよく、端末機器側に配置されて実行されてもよい。サービス側で該画像領域位置決め方法を適用すると、画像に対するより深い理解を実現させ、更に、画像に対してより詳しい細粒度アノテーションを行うことができ、これにおり、ユーザが検索及びマッチングを迅速かつ正確に行うことを補助し、画像文字情報のパーソナライズされた推奨にも適用可能であることは、理解されるべきである。該画像領域位置決め方法は、携帯電話側又はロボットなどのような端末機器に適用されてもよい。ロボットのカメラにより、対応する画像信号を取得し、ユーザは、自然言語により、対応するロボットと対話する。例えば、ユーザは、音声又はキーボード入力により対応する自然言語テキストを得て、更に、画像領域位置決めネットワークモデルによって、対応する自然言語テキストに対して画像の局所領域を位置決めする。このような方式で、端末機器に、ユーザとより好適にインタラクションさせることができる。

一例示的なシーンにおいて、ユーザは、高精度検索を容易に行うことができる。ユーザは、音声又はキーボードにより、端末機器に自然言語テキストを入力する。端末機器は、本願の実施例の画像領域位置決め方法で、位置決め対象の画像において、自然言語テキストとのマッチング度が最も高い領域を決定し、画像に対する高精度検索を実現させる。これは、犯罪捜査分野、教育分野において、高い実用的意義を有する。例えば、犯罪捜査分野において、監視映像画像において、１つの特徴を有する容疑者を位置決めすることができる。又は、教育分野において、授業映像画像において、いずれか１名の学生を位置決めすることができる。煩わしい手動スクリーニングを必要とせず、ユーザは自然言語テキストを入力すればよい。

一例示的なシーンにおいて、サーバ側は、ユーザに対応する端末機器に対してパーソナライズされた推奨を容易に行うことができる。サーバ側は、ユーザから入力された、十分に認可された自然言語テキストを収集する。サーバ側は、本願の実施例の画像領域位置決め方法で、位置決め対象の画像において、自然言語テキストとのマッチング度が最も高い領域を決定する。これにより、選択された領域に対して、類似した画像リソース、ビデオリソース、ウェブページリソースなどをプッシュすることができ、正確度がより高いパーソナライズされた推奨を実現させることができ、リソース推奨プロセスの正確度を向上させることができる。

理解しやすくするために、図２を参照する。図２は、本願の実施例による画像領域位置決めの全体的なフレームワークを示す概略図である。図面に示すように、１つの自然画像に対して、オブジェクト提案（ｏｂｊｅｃｔｐｒｏｐｏｓａｌ）方法で、対応する画像候補領域を得る。対応する画像候補領域を抽出した後、我々は、対応する畳み込みニューラルネットワークを用いて、対応する画像候補領域のセマンティック表現を抽出し、各候補領域を１つの特徴ベクトルで表す。更に、対応する候補領域に対応するセマンティック表現｛Ｉ_１,Ｉ_２,Ｉ_３,Ｉ_４,...,Ｉ_ｎ｝を得る。ここで、ｎは、画像における抽出された画像候補領域の総数を表す。後続で、ＧＣＮを用いて、抽出した画像候補領域セマンティックに対して拡張を行い、拡張した画像候補領域セマンティック表現｛Ｖ_１,Ｖ_２,Ｖ_３,Ｖ_４,...,Ｖ_ｎ｝を得る。グラフ畳み込みネットワークを構築する過程において、画像候補領域間のセマンティック類似度を考慮する必要がある。これにより、対応するグラフを構築し、更に、対応する接続エッジ情報を定義し、接続エッジ情報により、対応する画像候補領域のセマンティックに対して拡張を行う。

入力された自然文（例えば、「左側で野球している白い洋服を着た人」）に対して、我々は、リカレントニューラルネットワークを用いて自然文に対して符号化を行い、それに対応するセマンティック表現を得る。自然文のセマンティック表現及び対応する拡張した画像候補領域セマンティック表現に対して、マッチング学習方法で、自然文と対応する画像候補領域とのセマンティック関係を学習する。最後に、両者間のセマンティック類似度により、セマンティック相関性が最も高い画像候補領域をターゲット画像候補領域として選択する。

上記説明を参照しながら、以下、本願における画像領域位置決め方法を説明する。図３を参照すると、画像領域位置決め装置への適用を例として説明する。画像領域位置決め装置は、サーバに配置されてもよく、端末機器に配置されてもよい。本願の実施例における画像領域位置決め方法の一実施例は、以下を含む。

ステップ１０１において、画像領域位置決め装置は、位置決め対象の画像における画像候補領域集合を取得し、画像候補領域集合に、Ｎ個の画像候補領域が含まれ、Ｎは、１より大きいか等しい整数である。

本実施例において、画像領域位置決め装置は、まず、位置決め対象の画像を取得する。ここで、位置決め対象の画像は、サーバのバックエンドに記憶された画像であってもよく、クライアントによりアップロードされた画像であってもよく、クライアントのローカル画像であってもよい。画像領域位置決め装置は、サーバに配置されてもよく、端末機器に配置されてもよく、ここで限定しないことが理解されるべきである。

画像領域位置決め装置は、位置決め対象の画像を取得した後、物品候補提案の方法で、位置決め対象の画像における画像候補領域集合を抽出することができる。ここで、該画像候補領域集合に、Ｎ個の画像候補領域が含まれ、Ｎは、１より大きいか等しい整数である。Ｎは１である場合、位置決め対象の画像に１つのみの画像候補領域が存在し、該画像候補領域を直接的にターゲット画像候補領域とすればよいことを表す。

オブジェクト提案方法により、画像における画像候補領域を抽出することができる。具体的には、画像候補領域は、予め見付けた、画像における、ターゲットが出現し得る位置である。画像におけるテクスチャ、縁及び色などの情報を利用して、少ないウィンドウの選択を確保する上で、高い重なり度合い（Ｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ：ＩｏＵ）を保持することができる。ここで、オブジェクト提案方法は、領域に基づく畳み込みニューラルネットワーク（Ｒｅｇｉｏｎ－ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：Ｒ－ＣＮＮ）、高速領域に基づく畳み込みニューラルネットワーク（ＦａｓｔＲｅｇｉｏｎ－ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＦａｓｔＲ－ＣＮＮ）及びより高速な領域に基づく畳み込みニューラルネットワーク（ＦａｓｔｅｒＲｅｇｉｏｎ－ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＦａｓｔｅｒＲ－ＣＮＮ）等を含むが、これらに限定されず、ここで、限定しない。

ステップ１０２において、画像領域位置決め装置は、画像候補領域集合に基づいて、領域セマンティック情報集合を生成し、領域セマンティック情報集合にＮ個の領域セマンティック情報が含まれ、各領域セマンティック情報は、１つの画像候補領域に対応する。

本実施例において、画像領域位置決め装置は、画像候補領域集合を取得した後、ニューラルネットワークによって、対応する画像候補領域セマンティック表現を生成し、つまり、領域セマンティック情報集合を得る。ここで、領域セマンティック情報集合は、Ｎ個の領域セマンティック情報を含み、各領域セマンティック情報は、１つの画像候補領域に対応する。

該ニューラルネットワークは、具体的には、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）であってもよく、実際の適用において、他のタイプのニューラルネットワークであってもよく、ここで、一例だけであり、本願を限定するものと理解されるべきではないことに留意されたい。

上記プロセスにおいて、つまり、画像領域位置決め装置は、位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成する。ここで、該領域セマンティック情報集合における各領域セマンティック情報は、該画像候補領域集合における１つの画像候補領域に対応する。

ステップ１０３において、画像領域位置決め装置は、グラフ畳み込みネットワークによって、領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得し、拡張セマンティック情報集合に、Ｎ個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し、グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる。

つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における１つの領域セマンティック情報に対応する。

本実施例において、画像領域位置決め装置は、ＧＣＮにより、領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得する。つまり、ＧＣＮを利用して、画像候補領域のセマンティック表現を拡張することができる。ここで、拡張セマンティック情報集合に、Ｎ個の拡張セマンティック情報が含まれる。つまり、各画像候補領域は、１つの領域セマンティック情報に対応し、且つ、各画像候補領域は、１つの領域セマンティック拡張セマンティック情報に対応する。ＧＣＮは、ノード間の関連関係を構築することができる。本願において、各領域セマンティック情報間の関連関係を構築することができる。

ＧＣＮは、畳み込み可能なネットワークモデルである。ＧＮＣについて言えば、その目的は、グラフＧ＝（Ｖ，Ｅ）における信号又は特徴の１つのマッピングを学習することである。グラフ構築プロセスは、画像候補領域を得た後に実行されたものである。グラフは、画像候補領域間の空間的情報に基づいて構築されたものであり、データ及びデータ間の関係に含まれる情報を利用して、画像候補領域に対するセマンティック表現を増加し、拡張セマンティック情報を得る。

ステップ１０４において、画像領域位置決め装置は、位置決め対象のテキストに対応するテキスト特徴集合を取得し、位置決め対象のテキストは、Ｔ個の単語を含み、テキスト特徴集合は、Ｔ個の単語特徴を含み、各単語は、１つの単語特徴に対応し、Ｔは、１より大きいか等しい整数である。

本実施例において、画像領域位置決め装置は、位置決め対象のテキストを取得する。ステップ１０４は、ステップ１０１の前に実行されてもよく、ステップ１０３の後に実行されてもよく、ステップ１０１と同時に実行されてもよく、ここで、ステップ１０４の実行順番を限定しないことが理解されるべきである。位置決め対象のテキストは具体的には、ユーザにより入力されたテキストであってもよく、ユーザにより入力された音声に対して認識を行った後に得られたテキストであってもよい。位置決め対象のテキストは単語、フレーズ、センテンス又は段落などの形態で表され、また、位置決め対象のテキストは、中国語、英語、日本語、フランス語、ドイツ語又はロシア語などであってもよく、ここで限定しない。

位置決め対象のテキストを取得した後、位置決め対象のテキストにおける各単語に対して特徴抽出及び符号化処理を行い、最後に、テキスト特徴集合を得る。例えば、位置決め対象のテキスト「ｂｏｙｈｏｌｄａｎａｐｐｌｅ」に４つの単語が含まれ、該４つの単語は、それぞれ「ｂｏｙ」、「ｈｏｌｄ」、「ａｎ」及び「ａｐｐｌｅ」である。該４つの単語の特徴を抽出した後に符号化処理を行い、更にテキスト特徴集合を得る。ここで、位置決め対象のテキストは、Ｔ個の単語を含み、テキスト特徴集合は、Ｔ個の単語特徴を含み、各単語は、１つの単語特徴に対応し、Ｔは、１より大きいか等しい整数である。

位置決め対象のテキスト「ｂｏｙｈｏｌｄａｎａｐｐｌｅ」は、具現化した記述である。従って、位置決め対象の画像において、「ｂｏｙ」を含むだけでなく、「ａｐｐｌｅ」も含む画像候補領域を得ることができる。

ステップ１０５において、画像領域位置決め装置は、画像領域位置決めネットワークモデルによって、テキスト特徴集合と各拡張セマンティック情報とのマッチング度を取得し、画像領域位置決めネットワークモデルは、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられる。

本実施例において、画像領域位置決め装置は、各拡張セマンティック情報とテキスト特徴集合をそれぞれ画像領域位置決めネットワークモデルに入力し、画像領域位置決めネットワークモデルによって、対応するマッチング度を出力する。ここで、画像領域位置決めネットワークモデルは、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられる。つまり、マッチング度は高いほど、マッチング関係が強くなる。

マッチング度は、マッチングスコア又はマッチング識別子で表されてもよく、他のタイプのマッチング関係で表されてもよい。

上記プロセスにおいて、つまり、画像領域位置決め装置は、画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と各拡張セマンティック情報とのマッチング度を取得する。ここで、該位置決め対象のテキストにおける各単語は、該テキスト特徴集合における１つの単語特徴に対応する。

ステップ１０６において、画像領域位置決め装置は、テキスト特徴集合と各拡張セマンティック情報とのマッチング度に基づいて、画像候補領域集合から、ターゲット画像候補領域を決定する。

本実施例において、画像領域位置決め装置は、テキスト特徴集合と各拡張セマンティック情報とのマッチング度に基づいて、画像候補領域集合から、マッチング度が最も高い画像候補領域をターゲット画像候補領域として選択することができる。説明しやすくするために、表１を参照する。表１は、テキスト特徴集合と拡張セマンティック情報とのマッチング度を示す。

上記表１から分かるように、「テキスト特徴集合＋拡張セマンティック情報Ｄ」について言えば、それに対応するマッチング度は最も高いため、画像領域位置決め装置は、画像候補領域Ｄをターゲット画像候補領域とする。

本願の実施例において、画像領域位置決め方法を提供する。まず、位置決め対象の画像における画像候補領域集合を取得し、画像候補領域集合に、Ｎ個の画像候補領域が含まれる。続いて、画像候補領域集合に基づいて、領域セマンティック情報集合を生成し、各領域セマンティック情報は、１つの画像候補領域に対応する。更に、グラフ畳み込みネットワークによって、領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得し、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し、グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる。また、位置決め対象のテキストに対応するテキスト特徴集合を取得する。続いて、画像領域位置決めネットワークモデルによって、テキスト特徴集合と各拡張セマンティック情報とのマッチング度を取得する。最後に、テキスト特徴集合と各拡張セマンティック情報とのマッチング度に基づいて、画像候補領域集合から、ターゲット画像候補領域を決定する。上記方式で、グラフ畳み込みネットワークを用いて、画像候補領域間のセマンティック表現を効果的に拡張することができ、且つ、各画像候補領域間の空間的関係を考慮したため、画像領域位置決めの正確性の向上に寄与し、更に、画像に対する理解能力を向上させる。

任意選択的に、上記図３に対応する実施例を基に、本願の実施例で提供される画像領域位置決め方法の第１選択可能な実施例において、画像領域位置決め装置が画像候補領域集合に基づいて領域セマンティック情報集合を生成するステップは、

画像領域位置決め装置が畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、画像候補領域は、領域情報を含み、領域情報は、位置決め対象の画像における、画像候補領域の位置情報と、画像候補領域の寸法情報と、を含む、ステップと、

Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、画像領域位置決め装置がＮ個の領域セマンティック情報に基づいて、領域セマンティック情報集合を生成するステップと、を含んでもよい。

本実施例において、画像領域位置決め装置は、画像候補領域集合を取得した後、ＣＮＮにより、各画像候補領域の領域セマンティック情報を生成することができる。ここで、領域セマンティック情報は、画像候補領域に対するセマンティック表現である。具体的には、画像候補領域集合を｛ｂ_１,ｂ_２,ｂ_３,ｂ_４,...,ｂ_ｎ｝と定義すると仮定する。ここで、各画像候補領域は、領域情報ｂ_ｉ＝｛ｘ_１,ｙ_１,ｗ_１,ｈ_１｝を含み、画像候補領域ｂ_ｉは、画像候補領域集合における１つの画像候補領域を表し、ｘ_１及びｙ_１は、位置決め対象の画像における、画像候補領域の位置情報を表す。具体的には、ｘ_１は、位置決め対象の画像における、画像候補領域の最頂点の横座標位置情報を表し、ｙ_１は、位置決め対象の画像における、画像候補領域の最頂点の縦座標位置情報を表し、ｗ_１及びｈ_１は、画像候補領域の寸法情報を表し、該寸法情報は、位置決め対象の画像に対する画像候補領域の比例寸法であり、ｗ_１は、位置決め対象の画像における、画像候補領域の幅情報を表し、ｈ_１は、位置決め対象の画像における、画像候補領域の高さ情報を表す。
画像候補領域ｂ_ｉをＣＮＮに入力した後、以下を得る。

これにより、対応する領域セマンティック情報Ｉ_ｉを得る。上記方式で、画像候補領域集合｛ｂ_１,ｂ_２,ｂ_３,ｂ_４,...,ｂ_ｎ｝に対応する領域セマンティック情報集合｛Ｉ_１,Ｉ_２,Ｉ_３,Ｉ_４,...,Ｉ_ｎ｝を得る。ｎは、１以上であってＮ以下である整数である。

理解しやすくするために、ＣＮＮは一般的には、下記数層を含む。

畳み込み層（Ｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）：畳み込みニューラルネットワークにおける各畳み込み層は、若干の畳み込みユニットからなる。各畳み込みユニットのパラメータはいずれも、逆伝搬アルゴリズムで最適化されたものである。畳み込み演算の目的は、入力した様々な特徴を抽出することである。各畳み込み層は、縁、線及び隅角などの低レベルの特徴のみを抽出できる。より多くの層を有するネットワークは、低レベルの特徴から、より複雑な特徴を反復抽出することができる。

整流線形ユニット層（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔｓｌａｙｅｒ：ＲｅＬＵｌａｙｅｒと略称）：該層のニューラル活性化関数（Ａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎ）として整流線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔｓ：ＲｅＬＵと略称）を用いる。

プーリング層（Ｐｏｏｌｉｎｇｌａｙｅｒ）：一般的には、畳み込み層の後に、次元が大きい特徴を得る。特徴を複数の領域に分割し、その最大値又は平均値を取り、次元が小さい新たな特徴を得る。

全結合層（Ｆｕｌｌｙ－Ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）：全ての局所的特徴を結合して全体的特徴を得て、各カテゴリの最終的スコアを算出する。

次に、本願の実施例において、領域セマンティック情報集合の生成方式を提供する。まず、畳み込みニューラルネットワークによって、画像候補領域に対応する領域セマンティック情報を取得し、画像候補領域は、領域情報を含み、領域情報は、位置決め対象の画像における、画像候補領域の位置情報と、画像候補領域の寸法情報と、を含む。Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、Ｎ個の領域セマンティック情報に基づいて、領域セマンティック情報集合を生成する。上記方式により、ＣＮＮを利用して、各画像候補領域の領域セマンティック情報を抽出することができる。ＣＮＮは、フィードフォワードニューラルネットワークであり、その人工ニューロンは、一部のカバレッジ内の周辺ユニットに応答することができる。従って、大型画像処理に対して優れた性能を示し、情報抽出の正確性を向上させる。

任意選択的に、上記図３に対応する実施例を基に、本願の実施例で提供される画像領域位置決め方法の第２選択可能な実施例において、画像領域位置決め装置がグラフ畳み込みネットワークによって領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップは、

画像領域位置決め装置が領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得するステップであって、第１領域セマンティック情報は、領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、第２領域セマンティック情報は、領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報である、ステップと、
画像領域位置決め装置が第１領域セマンティック情報と第２領域セマンティック情報との間の接続エッジ強度を取得するステップと、
画像領域位置決め装置が第１領域セマンティック情報と第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
画像領域位置決め装置が領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
画像領域位置決め装置がグラフ畳み込みネットワークによって、ターゲット接続行列に対応する拡張セマンティック情報集合を決定するステップと、を含んでもよい。

本実施例において、画像領域位置決め装置は、１つのＧＣＮを用いて、画像候補領域のセマンティック表現を拡張する。まず、我々は、１つのグラフを構築する必要がある。該グラフにおける各ノードは、画像候補領域の領域セマンティック情報に対応する。各ノード間にいずれも対応する接続エッジが存在する。その接続情報の強度は、１つのディープネットワークによって予測される。

ここで、ｎ_ｉ ^ｋは、第１領域セマンティック情報を表し、ｎ_ｊ ^ｋは、第２領域セマンティック情報を表し、ｆ_ｅｄｇｅ（）は、１つのディープネットワークを表し、具体的には、多層パーセプトロン（ｍｕｌｔｉ－ｌａｙｅｒｐｅｒｃｅｐｔｒｏｎ）、ベクトル内積又はコサイン類似度により実現してもよい。ｅ_ｉｊは、第１領域セマンティック情報と第２領域セマンティック情報との間の接続エッジ強度を表す。続いて、ｅ_ｉｊに対して正規化処理を行い、正規化強化を得る。続いて、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定する。最後に、ＧＣＮを用いて、ターゲット接続行列に対応する拡張セマンティック情報集合を生成する。

グラフは、１つのデータフォーマットであり、ソーシャルネットワーク、通信ネットワーク及びタンパク質分子ネットワーク等を表すために用いられる。グラフにおけるノードは、ネットワークにおける個体を表し、接続エッジは、個体間の接続関係を表す。多数の機械学習タスクは、グラフ構造データを用いる必要がある。従って、ＧＣＮの出現は、これらの問題の解決のために、新たな発想を提供する。３つのステップで、畳み込みスライスを構築することができる。ステップ１において、グラフから、１つの固定長のノードシーケンスを選択する。ステップ２において、シーケンスにおける各ノードに対して、固定サイズの近隣領域集合を収集する。ステップ３において、現在ノード及びそれに対応する近隣領域からなるサブグラフを正規化して畳み込み構造の入力とする。上記３つのステップにより、全ての畳み込みスライスを構築した後、畳み込み構造を利用して各スライスに対して操作を行う。

次に、本願の実施例において、ＧＣＮにより拡張セマンティック情報集合を取得する方式を提供する。まず、領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得する。次に、第１領域セマンティック情報と第２領域セマンティック情報との間の接続エッジ強度を取得する。続いて、第１領域セマンティック情報と第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行い、正規化強度を得て、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定する。最後に、グラフ畳み込みネットワークによって、ターゲット接続行列に対応する拡張セマンティック情報集合を決定する。上記方式により、ＧＣＮを用いて、画像候補領域間のセマンティック関係を構築する。これにより、空間情報及びセマンティック関係を十分に考慮して、画像に基づく位置決め性能を向上させる。

任意選択的に、上記図３に対応する第２実施例を基に、本願の実施例で提供される画像領域位置決め方法の第３選択可能な実施例において、画像領域位置決め装置が領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップは、
画像領域位置決め装置が領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
画像領域位置決め装置が接続行列及び単位行列に基づいて、ターゲット接続行列を生成するステップと、を含んでもよい。

本実施例において、画像領域位置決め装置は、まず、第１領域セマンティック情報と第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得ることができる。ここで、上記実施例によれば、第１領域セマンティック情報と第２領域セマンティック情報との間の接続エッジ強度は、具体的には、

で表され、
ここで、ｎ_ｉ ^ｋは、第１領域セマンティック情報を表し、ｎ_ｊ ^ｋは、第２領域セマンティック情報を表し、ｂ_１、ｂ_２、ｗ_１及びｗ_２はいずれもＧＣＮのモデルパラメータであり、ｅ_ｉｊは、第１領域セマンティック情報と第２領域セマンティック情報との間の接続エッジ強度を表す。

対応する辺情報に対して更に正規化処理を行って、正規化強度を得ることができる。

ここで、

は、第１領域セマンティック情報と第２領域セマンティック情報との間の正規化強度を表す。各領域セマンティック情報に対してトラバースを行うことで、対応する領域セマンティック情報の接続情報を得て、完全な接続行列を更に構築することができる。

自体の情報を更に拡張するために、対応する完全な接続行列に１つの単位行列を更に追加し、ターゲット接続行列を得る。

また、本願の実施例において、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定する方式を提供する。つまり、まず、領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成する。続いて、接続行列及び単位行列に基づいて、ターゲット接続行列を生成する。上記方式により、正規化処理を用いて、物理系数値の絶対値を相対値関係に変換し、演算を簡素化し、数値を小さくすることができる。なお、自体の情報を更に拡張するために、対応する接続行列に１つの単位行列を更に追加し、ターゲット接続行列を形成する。

任意選択的に、上記図３に対応する第２又は第３実施例を基に、本願の実施例で提供される画像領域位置決め方法の第４選択可能な実施例において、画像領域位置決め装置がグラフ畳み込みネットワークによって、ターゲット接続行列に対応する拡張セマンティック情報集合を決定するステップは、
画像領域位置決め装置が式

を用いて、拡張セマンティック情報集合を算出するステップを含んでもよく、
ここで、ｎ_ｉ ^ｋは、第ｋ層のグラフ畳み込みネットワークに対応するｉ番目の拡張セマンティック情報を表し、ｎ_ｊ ^ｋ－１は、第（ｋ－１）層のグラフ畳み込みネットワークに対応するｊ番目の拡張セマンティック情報を表し、ｗ_ｊ ^ｋは、第ｋ層のグラフ畳み込みネットワークの第１ネットワークパラメータを表し、ｂ_ｊ ^ｋは、第ｋ層のグラフ畳み込みネットワークの第２ネットワークパラメータを表し、ｊ∈ｎｅｉｇｈｂｏｒｉｎｇ（ｉ）は、ｊ番目のノードがｉ番目のノードの近隣ノードに属することを表し、Ｅ_ｉｊは、ターゲット接続行列における要素を表す。

本実施例において、画像領域位置決め装置は、ターゲット接続行列に基づいて、ＧＣＮを用いて、画像候補領域のセマンティック表現を拡張することは、下記式に示すとおりであってもよい。

ここで、ｗ_ｊ ^ｋは、第ｋ層のＧＣＮの第１ネットワークパラメータを表し、ｂ_ｊ ^ｋは、第ｋ層のＧＣＮの第２ネットワークパラメータを表す。ＧＣＮのネットワークパラメータは、グラフ畳み込み層間で共有されないが、１つの固定の畳み込み層において、そのネットワークパラメータは共有されてもよく、共有されなくてもよいことが理解されるべきである。Ｊノードとして、ノードｉに対応する近隣ノードが選択される。ノードのセマンティック類似度により、ノード間の類似度を評価できるため、全結合グラフ構造を構築した。これに対応して、各ノードはいずれも他のノードに接続される。最後に、構築されたターゲット接続行列に基づいて、対応する各ノードのセマンティック表現を更新する。

ＧＣＮにおいて、多層グラフ畳み込み処理を行うことができる。上記式に対して複数回実行することができる。式におけるパラメータとして、同一のネットワークパラメータを共有してもよく、ネットワークパラメータを共有しなくてもよい。

更に、本願の実施例において、ＧＣＮにより、ターゲット接続行列に対応する拡張セマンティック情報集合を決定する具体的な方式を提供する。上記方式によれば、ＧＣＮに基づく演算のために具体的な演算方式を提供し、解決手段の実行可能性及び操作可能性を向上させる。

任意選択的に、上記図３に対応する実施例を基に、本願の実施例で提供される画像領域位置決め方法の第５選択可能な実施例において、画像領域位置決め装置が位置決め対象のテキストに対応するテキスト特徴集合を取得するステップは、
画像領域位置決め装置が位置決め対象のテキストを取得するステップと、
画像領域位置決め装置が位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、テキストベクトルシーケンスは、Ｔ個の単語ベクトルを含み、各単語ベクトルは、１つの単語に対応する、ステップと、
画像領域位置決め装置がテキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
Ｔ個の単語ベクトルに対応するテキスト特徴を取得した場合、画像領域位置決め装置がＴ個のテキスト特徴に基づいて、テキスト特徴集合を生成するステップと、を含んでもよい。

本実施例において、画像領域位置決め装置は、まず、位置決め対象のテキストを取得する。位置決め対象のテキストは、ユーザにより入力されたテキストであってもよく、ユーザにより入力された音声であってもよい。該音声は、テキストに変換される。バックエンドにより抽出されたテキストであってもよい。位置決め対象のテキストを取得した後、該位置決め対象のテキストにおける各単語を抽出し、続いて、各単語に対して単語ベクトルを構築する。位置決め対象のテキストにＴ個の単語が含まれると仮定すれば、Ｔ個の単語ベクトルを得ることができる。該Ｔ個の単語ベクトルは、テキストベクトルシーケンスを構成する。画像領域位置決め装置は、長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ：ＬＳＴＭ）構造を用いて、テキストベクトルシーケンスを符号化する。具体的には、ＬＳＴＭ構造を用いて、各単語ベクトルに対して符号化処理を行い、Ｔ个個のテキスト特徴を得て、テキスト特徴集合を生成する。

自然言語処理タスクにおいて、まず、コンピュータにおいて単語を如何に表現するかを考慮する必要がある。一般的には、離散型表現（ｏｎｅ－ｈｏｔｒｅｐｒｅｓｅｎｔａｔｉｏｎ）及び分散型表現（ｄｉｓｔｒｉｂｕｔｉｏｎｒｅｐｒｅｓｅｎｔａｔｉｏｎ）という２つの表現方式がある。ｏｎｅ－ｈｏｔｒｅｐｒｅｓｅｎｔａｔｉｏｎは、各単語を１つの長ベクトルで表現する。ベクトルにおいて、１つのみの次元の値は、１であり、他の次元は、０である。該次元は、現在の単語を代表する。本願における単語ベクトル次元は、３００次元であってもよい。単語埋め込み（ｗｏｒｄｅｍｂｅｄｄｉｎｇ）は、単語を分散型表現に変換することであり、単語ベクトルとも呼ばれる。単語ベクトルを生成する方法は多い。これらの方法は、いずれも同一の構想に従うものである。いずれか１つの単語の意味は、その周辺単語で表されてもよい。単語ベクトルを生成する方法は、統計に基づく方法と言語モデルに基づく方法に分けられてもよい。

次に、本願の実施例において、テキスト特徴集合の取得方法を提供する。つまり、まず、位置決め対象のテキストを取得し、続いて、位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得する。ここで、テキストベクトルシーケンスは、Ｔ個の単語ベクトルを含み、各単語ベクトルは、１つの単語に対応する。続いて、テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得る。Ｔ個の単語ベクトルに対応するテキスト特徴を取得した場合、Ｔ個のテキスト特徴に基づいて、テキスト特徴集合を生成する。上記方式により、位置決め対象のテキストを特徴形態で表すことができる。更に、後続のモデル予測の実行に寄与し、解決手段の実行可能性及び操作可能性を向上させる。

任意選択的に、上記図３に対応する第５実施例を基に、本願の実施例で提供される画像領域位置決め方法の第６選択可能な実施例において、画像領域位置決め装置がテキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップは、
画像領域位置決め装置が式

を用いて、テキスト特徴を取得するステップを含んでもよく、
ここで、ｈ_ｔは、テキスト特徴集合におけるｔ番目のテキスト特徴を表し、ＬＳＴＭ（）は、長短期記憶（ＬＳＴＭ）ネットワークを用いて符号化を行うことを表し、ｗ_ｔは、テキストベクトルシーケンスにおけるｔ番目の単語ベクトルを表し、ｈ_ｔ－１は、テキスト特徴集合における（ｔ－１）番目のテキスト特徴を表す。

本実施例において、画像領域位置決め装置は、ＬＳＴＭ構造により、各単語ベクトルに対して符号化処理を行って、テキスト特徴を得ることができる。入力された位置決め対象のテキストＥ＝｛ｅ_１,ｅ_２,...,ｅ_Ｔ｝について、ここで、Ｔは、位置決め対象のテキストにおいてＴ個の単語があることを表し、ｅ_ｔは、位置決め対象のテキストにおけるｔ番目の単語を表す。まず、各単語の単語ベクトル表現により、位置決め対象のテキストの単語ベクトル表現を得ることができる。つまり、テキストベクトルシーケンス｛ｗ_１,ｗ_２,...,ｗ_Ｔ｝を得る。ここで、各単語ベクトルの次元は、３００であってもよい。位置決め対象のテキストについて、ＬＳＴＭ構造のリカレントニューラルネットワークを用いて符号化を行う。

ＬＳＴＭにおける隠れ状態の次元は、５１２としてもよい。処理により、位置決め対象のテキストの特徴表現を得る。つまり、テキスト特徴集合ｈ＝｛ｈ_１,ｈ_２,...,ｈ_Ｔ｝を得る。ここで、ＬＳＴＭ処理の具体的な方式は、以下のとおりである。

ここで、ｗ_ｔは、テキストベクトルシーケンスにおけるｔ番目の単語ベクトルを表し、ｈ_ｔ－１は、テキスト特徴集合における（ｔ－１）番目のテキスト特徴を表し、ｉ_ｔは、入力ゲートを表し、ｆ_ｔは、忘却ゲートを表し、ｏ_ｔは、出力ゲートを表し、ｈ_ｔは、隠れ状態を表し、σは、ｓｉｇｍｏｉｄ関数であり、ｔａｎｈ（）は、双曲線関数を表し、ｇ_ｔは、記憶情報を表し、ｃ_ｔは、ＬＳＴＭパラメータを表し、

は、点乗算を表し、Ｔは、変換マッピング行列を表す。

ＬＳＴＭは、入力を長期間にわたって保存することである。記憶細胞と呼ばれる特殊ユニットは、累算器及びゲーティングニューロンと類似する。これは、次のタイムステップで、１つの重み値を持って自己に連結し、自己の状態の真実値及び累積した外部信号をコピーする。このような自己連結は、もう１つのユニットにより学習され、記憶内容を何時クリアするかを決定する乗算ゲートにより制御される。

また、本願の実施例において、テキスト特徴の取得方式を提供する。つまり、ＬＳＴＭ構造のリカレントニューラルネットワークを用いて単語ベクトルに対して符号化を行う。上記方式によれば、ＬＳＴＭ構造のネットワークを用いて、勾配逆転プロセスにおける段階的な縮小による勾配消失の問題を解決することができる。具体的に、言語処理タスクにおいて、ＬＳＴＭは、例えば、機械翻訳、対話生成、符号化及び復号化などのような、タイムシーケンスとの相関性が高い問題に適用される。

上記説明を参照しながら、以下、本願におけるモデル訓練方法を説明する。図４を参照すると、モデル訓練装置への適用を例として説明する。ここで、モデル訓練装置は、サーバに配置されてもよい。本願の実施例におけるモデル訓練方法の一実施例は以下を含む。

ステップ２０１において、モデル訓練装置は、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、第１訓練対象のテキストと第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、第１訓練対象のテキストと第２訓練対象の画像候補領域とは、マッチング関係を有せず、第２訓練対象のテキストと第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、第２訓練対象のテキストと第１訓練対象の画像候補領域とは、マッチング関係を有しない。

本実施例において、モデル訓練装置は、まず、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含む。この場合、マッチング関係を有する第１訓練対象のテキストと第１訓練対象の画像候補領域をポジティプサンプルとし、マッチング関係を有する第２訓練対象のテキストと第２訓練対象の画像候補領域をポジティプサンプルとし、マッチング関係を有しない第１訓練対象のテキストと第２訓練対象の画像候補領域をネガティブサンプルとし、マッチング関係を有しない第２訓練対象のテキストと第１訓練対象の画像候補領域をネガティブサンプルとする。

モデル訓練装置は、サーバに配置されることが理解されるべきである。

ステップ２０２において、モデル訓練装置は、第１訓練対象のテキスト、第２訓練対象のテキスト、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する。

本実施例において、モデル訓練装置は、ポジティプサンプル及びネガティブサンプルに基づいて、自然文と画像候補領域とのマッチング関係を学習し、ターゲット損失関数を構築する。ターゲット損失関数は主に、候補画像領域と自然文との類似度を評価するために用いられる。

ステップ２０３において、モデル訓練装置は、ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行い、画像領域位置決めネットワークモデルを得て、画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、拡張セマンティック情報と画像候補領域とは、対応関係を有し、テキスト特徴集合と位置決め対象のテキストとは、対応関係を有する。

本実施例において、モデル訓練装置は、構築されたターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行い、更に、画像領域位置決めネットワークモデルを得る。画像領域位置決めネットワークモデルを用いて、画像候補領域と位置決め対象のテキストとのマッチング度を予測することができる。マッチング度が高いほど、関連程度が高くなる。

本願の実施例において、モデル訓練方法を提供する。まず、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含む。続いて、第１訓練対象のテキスト、第２訓練対象のテキスト、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する。最後に、ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得る。上記方式によれば、画像候補領域とテキストとのマッチング関係を決定するための画像領域位置決めネットワークモデルを訓練により得ることができる。また、用いられるターゲット関数は、画像候補領域とテキストに対して類似度評価を行い、テキストと画像候補領域とのマッチング関係を学習することができる。これにより、解決手段の実行可能性及び操作可能性を向上させる。

任意選択的に、上記図４に対応する実施例を基に、本願の実施例で提供されるモデル訓練方法の第１選択可能な実施例において、モデル訓練装置が第１訓練対象のテキスト、第２訓練対象のテキスト、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップは、
モデル訓練装置が、式

を用いて、ターゲット損失関数を決定するステップを含んでもよく、
ここで、Ｌは、ターゲット損失関数を表し、ｎ_ｉ ^＋は、第１訓練対象の画像候補領域を表し、ｈ_ｉ ^＋は、第１訓練対象のテキストを表し、ｎ_ｊ ^－は、第２訓練対象の画像候補領域を表し、ｈ_ｋ ^－は、第２訓練対象のテキストを表し、ｄ（）は、訓練対象のデータペアを表し、ｍａｘ（）は、最大値を取ることを表し、λ_１は、第１パラメータ制御重みを表し、λ_２は、第２パラメータ制御重みを表し、ｕ_１は、第１プリセット閾値を表し、ｕ_２は、第２プリセット閾値を表す。

本実施例において、モデル訓練装置により構築されたターゲット損失関数を説明する。ポジティプサンプル及びネガティブサンプルに基づいて、構築されたターゲット損失関数は、

で表され、
ここで、（ｎ_ｉ ^＋，ｈ_ｉ ^＋）は、ポジティプサンプルを表し、つまり、セマンティック関係を有する画像候補領域と自然言語ペアを表し、（ｎ_ｉ ^＋，ｈ_ｋ ^－）及び（ｎ_ｊ ^－，ｈ_ｉ ^＋）は、ネガティブサンプルを表し、つまり、相関していない画像候補領域と自然言語ペアを表す。（ｎ_ｉ ^＋，ｈ_ｉ ^＋）は、ポジティプサンプルであり、ｎ_ｉ ^＋に対して、１つの対応するネガティブサンプル（ｎ_ｉ ^＋，ｈ_ｋ ^－）を取る。該マッチング関数の学習により、ポジティプサンプルのマッチング関係をネガティブサンプルのマッチング関係よりも高くする。（ｎ_ｉ ^＋，ｈ_ｉ ^＋）は、ポジティプサンプルであり、ｈ_ｉ ^＋に対して、１つの対応するネガティブサンプル（ｎ_ｊ ^－，ｈ_ｉ ^＋）を取る。該マッチング関数の学習により、ポジティプサンプルのマッチング関係をネガティブサンプルのマッチング関係よりも高くする。

次に、本願の実施例において、第１訓練対象のテキスト、第２訓練対象のテキスト、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する方式を提供する。上記方式によれば、定義されたターゲット関数は、２つの異なる方向で、画像と自然言語とのマッチング関係を記述する。ここで、１つの方向は、画像候補領域を自然言語と関連づけることである。もう１つの方向は、自然言語を画像候補領域と関連付けることである。該ターゲット損失関数の設計の主な目的は、セマンティック関連した画像候補領域と自然言語ペアとの類似度を、セマンティック関連していない画像候補領域と自然言語ペアとの類似度よりも高くすることである。これにより、モデル訓練の正確度を向上させる。

以下、本願における画像領域位置決め装置を詳しく説明する。図５を参照すると、図５は、本願の実施例による画像領域位置決め装置の一実施例を示す概略図である。画像領域位置決め装置３０は、取得モジュール３０１と、生成モジュール３０２と、決定モジュール３０３と、を備え、
取得モジュール３０１は、位置決め対象の画像における画像候補領域集合を取得するように構成され、前記画像候補領域集合に、Ｎ個の画像候補領域が含まれ、前記Ｎは、１より大きいか等しい整数であり、
生成モジュール３０２は、前記取得モジュール３０１が取得した前記画像候補領域集合（即ち、位置決め対象の画像における画像候補領域集合）に基づいて、領域セマンティック情報集合を生成するように構成され、前記領域セマンティック情報集合にＮ個の領域セマンティック情報が含まれ、各領域セマンティック情報は、１つの画像候補領域に対応し（つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における１つの画像候補領域に対応する）、
前記取得モジュール３０１は更に、グラフ畳み込みネットワークによって、前記生成モジュール３０２が生成した前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するように構成され、前記拡張セマンティック情報集合に、Ｎ個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し（つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における１つの領域セマンティック情報に対応する）、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられ、
前記取得モジュール３０１は更に、位置決め対象のテキストに対応するテキスト特徴集合を取得するように構成され、前記位置決め対象のテキストは、Ｔ個の単語を含み、前記テキスト特徴集合は、Ｔ個の単語特徴を含み、各単語は、１つの単語特徴に対応し、前記Ｔは、１より大きいか等しい整数であり（つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における１つの単語特徴に対応する）、
前記取得モジュール３０１は更に、画像領域位置決めネットワークモデルによって、前記テキスト特徴集合（即ち、位置決め対象のテキストに対応するテキスト特徴集合）と前記各拡張セマンティック情報とのマッチング度を取得するように構成され、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、
決定モジュール３０３は、前記取得モジュール３０１が取得した、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するように構成される。

本実施例において、取得モジュール３０１は、位置決め対象の画像における画像候補領域集合を取得し、前記画像候補領域集合に、Ｎ個の画像候補領域が含まれる。前記Ｎは、１より大きいか等しい整数である。生成モジュール３０２は、前記取得モジュール３０１が取得した前記画像候補領域集合に基づいて、領域セマンティック情報集合を生成し、前記領域セマンティック情報集合に、Ｎ個の領域セマンティック情報が含まれ、各領域セマンティック情報は、１つの画像候補領域に対応する。前記取得モジュール３０１は、グラフ畳み込みネットワークによって、前記生成モジュール３０２が生成した領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得し、前記拡張セマンティック情報集合に、Ｎ個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる。前記取得モジュール３０１は、位置決め対象のテキストに対応するテキスト特徴集合を取得する。前記位置決め対象のテキストは、Ｔ個の単語を含み、前記テキスト特徴集合は、Ｔ個の単語特徴を含み、各単語は、１つの単語特徴に対応し、前記Ｔは、１より大きいか等しい整数である。前記取得モジュール３０１は、画像領域位置決めネットワークモデルによって、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得し、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる。決定モジュール３０３は、前記取得モジュール３０１が取得した、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定する。

本願の実施例において、画像領域位置決め装置を提供する。まず、位置決め対象の画像における画像候補領域集合を取得し、画像候補領域集合に、Ｎ個の画像候補領域が含まれる。続いて、画像候補領域集合に基づいて、領域セマンティック情報集合を生成し、各領域セマンティック情報は、１つの画像候補領域に対応する。更に、グラフ畳み込みネットワークによって、領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得し、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し、グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる。また、位置決め対象のテキストに対応するテキスト特徴集合を取得する。続いて、画像領域位置決めネットワークモデルによって、テキスト特徴集合と各拡張セマンティック情報とのマッチング度を取得する。最後に、テキスト特徴集合と各拡張セマンティック情報とのマッチング度に基づいて、画像候補領域集合から、ターゲット画像候補領域を決定する。上記方式で、グラフ畳み込みネットワークを用いて、画像候補領域間のセマンティック表現を効果的に拡張することができ、且つ、各画像候補領域間の空間的関係を考慮したため、画像領域位置決めの正確性の向上に寄与し、更に、画像に対する理解能力を向上させる。

任意選択的に、上記図５に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置３０のもう１つの実施例において、
前記生成モジュール３０２は具体的には、畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するように構成され、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含み、
前記生成モジュール３０２は具体的には、Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記Ｎ個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するように構成される。

任意選択的に、上記図５に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置３０のもう１つの実施例において、
前記取得モジュール３０１は具体的には、前記領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得するように構成され、前記第１領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、前記第２領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、
前記取得モジュール３０１は具体的には、前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度を取得し、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行い、正規化強度を得て、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定し、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するように構成される。

任意選択的に、上記図５に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置３０のもう１つの実施例において、
前記取得モジュール３０１は具体的には、前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成し、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するように構成される。

任意選択的に、上記図５に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置３０のもう１つの実施例において、
前記取得モジュール３０１は具体的には、
式

を用いて、前記拡張セマンティック情報集合を算出するように構成され、
ここで、前記ｎ_ｉ ^ｋは、第ｋ層のグラフ畳み込みネットワークに対応するｉ番目の拡張セマンティック情報を表し、前記ｎ_ｊ ^ｋ－１は、第（ｋ－１）層のグラフ畳み込みネットワークに対応するｊ番目の拡張セマンティック情報を表し、前記ｗ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第１ネットワークパラメータを表し、前記ｂ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第２ネットワークパラメータを表し、前記ｊ∈ｎｅｉｇｈｂｏｒｉｎｇ（ｉ）は、ｊ番目のノードがｉ番目のノードの近隣ノードに属することを表し、前記Ｅ_ｉｊは、ターゲット接続行列における要素を表す

任意選択的に、上記図５に対応する実施例を基に、本願の実施例で提供される画像領域位置決め装置３０のもう１つの実施例において、
前記取得モジュール３０１は具体的には、前記位置決め対象のテキストを取得し、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するように構成され、前記テキストベクトルシーケンスは、Ｔ個の単語ベクトルを含み、各単語ベクトルは、１つの単語に対応し、前記Ｔは、１より大きいか等しい正数であり、
前記取得モジュール３０１は具体的には、前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行い、テキスト特徴を得て、
Ｔ個の単語ベクトルに対応するテキスト特徴を取得した場合、前記Ｔ個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するように構成される。

を用いて、前記テキスト特徴を取得するように構成され、
ここで、前記ｈ_ｔは、前記テキスト特徴集合におけるｔ番目のテキスト特徴を表し、前記ＬＳＴＭ（）は、長短期記憶（ＬＳＴＭ）ネットワークを用いて符号化を行うことを表し、前記ｗ_ｔは、前記テキストベクトルシーケンスにおけるｔ番目の単語ベクトルを表し、前記ｈ_ｔ－１は、前記テキスト特徴集合における（ｔ－１）番目のテキスト特徴を表す。

以下、本願におけるモデル訓練装置を詳しく説明する。図６を参照すると、図６は、本願の実施例によるモデル訓練装置の一実施例を示す概略図である。モデル訓練装置４０は、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するように構成される取得モジュールであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、取得モジュール４０１と、
前記取得モジュール４０１が取得した前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するように構成される決定モジュール４０２と、
前記決定モジュール４０２が決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るように構成される訓練モジュールであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、訓練モジュール４０３と、を備える。

本実施例において、取得モジュール４０１は、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない。決定モジュール４０２は、前記取得モジュール４０１が取得した前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する。訓練モジュール４０３は、前記決定モジュール４０２が決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行い、画像領域位置決めネットワークモデルを得て、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する。

本願の実施例において、モデル訓練装置を提供する。まず、該モデル訓練装置は、訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得し、訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含む。続いて、第１訓練対象のテキスト、第２訓練対象のテキスト、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定する。最後に、ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得る。上記方式によれば、画像候補領域とテキストとのマッチング関係を決定するための画像領域位置決めネットワークモデルを訓練により得ることができる。また、用いられるターゲット関数は、画像候補領域とテキストに対して類似度評価を行い、テキストと画像候補領域とのマッチング関係を学習することができる。これにより、解決手段の実行可能性及び操作可能性を向上させる。

任意選択的に、上記図６に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置４０のもう１つの実施例において、
前記決定モジュール４０２は具体的には、
式

を用いて、前記ターゲット損失関数を決定するように構成され、
ここで、前記Ｌは、前記ターゲット損失関数を表し、前記ｎ_ｉ ^＋は、第１訓練対象の画像候補領域を表し、前記ｈ_ｉ ^＋は、前記第１訓練対象のテキストを表し、前記ｎ_ｊ ^－は、前記第２訓練対象の画像候補領域を表し、前記ｈ_ｋ ^－は、前記第２訓練対象のテキストを表し、前記ｄ（）は、訓練対象のデータペアを表し、前記ｍａｘ（）は、最大値を取ることを表し、前記λ_１は、第１パラメータ制御重みを表し、前記λ_２は、第２パラメータ制御重みを表し、前記ｕ_１は、第１プリセット閾値を表し、前記ｕ_２は、第２プリセット閾値を表す。

本願の実施例は、もう１つの画像領域位置決め装置を更に提供する。図７に示すように、説明しやすくするために、本願の実施例に係わる部分のみを示す。開示されていない具体的な技術的細部は、本願の実施例の方法を参照されたい。該端末機器は、携帯電話、タブレット、パーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ：ＰＤＡと略称）、ポイントオブセールス機器（ｐｏｉｎｔｏｆｓａｌｅｓ：ＰＯＳと略称）、車載コンピュータなどの任意の端末機器であってもよい。端末機器が携帯電話であることを例とする。

図７は、本願の実施例による端末機器に関わる携帯電話の一部の構造を示すブロック図である。図７を参照すると、携帯電話は、無線周波数（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ：ＲＦと略称）回路５１０と、メモリ５２０、入力ユニット５３０、表示ユニット５４０、センサ５５０、オーディオ回路５６０、ワイヤレスフィデリティ（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ：ＷｉＦｉと略称）モジュール５７０、プロセッサ５８０、電源５９０などの部材を備える。図７に示す携帯電話構造は、携帯電話を限定するものではなく、図示されているものよりも多いまたは少ない部材を備えてもよく、又は、幾つかの部材を組み合わせてもよく、又は、異なる部材配置を行ってもよいことは、当業者であれば、理解すべきである。

以下、図７を参照しながら、携帯電話の各構成部材を具体的に説明する。

ＲＦ回路５１０は、情報送受信又は通話過程で信号を送受信するように構成される。特に、基地局の下り情報を受信した後に、プロセッサ５８０に送信し、なお、設計された上りデータを基地局に送信するように構成される。一般的には、ＲＦ回路５１０は、アンテナ、少なくとも１つの増幅器、トランシーバ、結合機、低雑音増幅器（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ：ＬＮＡと略称）、デュプレクサなどを含んでもよく、これらに限定されない。なお、ＲＦ回路５１０は更に、無線通信を介してネットワーク及び他の機器と通信できる。上記無線通信は、いずれか１つの通信規格又はプロトコルを用いることができる。通信規格又はプロトコルは、グローバルモバイル通信システム（ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ：ＧＳＭと略称）、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ：ＧＰＲＳと略称）、符号分割多重アクセス（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ：ＣＤＭＡと略称）、広帯域符号分割多重アクセス（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ：ＷＣＤＭＡ（登録商標）と略称）、長期的進化（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ：ＬＴＥと略称）、電子メール、ショートメッセージサービス（ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ：ＳＭＳと略称）等を含むが、これらに限定されない。

メモリ５２０は、ソフトウェアプログラム及びモジュールを記憶するように構成され、プロセッサ５８０は、メモリ５２０に記憶されたソフトウェアプログラム及びモジュールを実行することで、携帯電話の種々の機能適用及びデータ処理を実行する。メモリ５２０は、プログラム記憶エリア及びデータ記憶エリアを含んでもよく、プログラム記憶エリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラム（例えば、音声再生機能、画像再生機能など）などを記憶することができる。データ記憶エリアは、携帯電話の使用に作成されたデータ（例えば、オーディオデータ、電話帳など）などを記憶することができる。なお、メモリ５２０は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリを含んでもよい。例えば、少なくとも磁気ディスクメモリデバイス、フラッシュメモリデバイス又は他の揮発性ソリッドステートメモリデバイスを含む。

入力ユニット５３０は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関わるキー信号入力を生成するように構成される。具体的には、入力ユニット５３０は、タッチパネル５３１及び他の入力機器５３２を備えてもよい。タッチパネル５３１は、タッチスクリーンとも呼ばれ、その上又はその近傍でのユーザのタッチ操作（例えば、ユーザが指、スタイラスなどの如何なる適切な物体又はアセンブリを用いてタッチパネル５３１又はタッチパネル５３１の近傍で行う操作）を収集し、事前設定されたプログラムに基づいて、対応する接続装置に駆動するために用いられる。任意選択的に、タッチパネル５３１は、タッチ検出装置及びタッチコントローラという２つの部分を含んでもよい。ここで、タッチ検出装置は、ユーザのタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに伝送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチポイント座標に変換し、プロセッサ５８０に伝送し、プロセッサ５８０からの命令を受信して実行することができる。なお、抵抗式、容量式、赤外線、及び弾性表面波等の多種のタイプを用いて、タッチパネル５３１を実現してもよい。タッチパネル５３１に加えて、入力ユニット５３０は、他の入力装置５３２を備えてもよい。具体的には、他の入力装置５３２は、物理的キーボード、機能キー（例えば、音量制御キー、スイッチキーなど）、トラックボール、マウス、操作レバーなどのうちの１つ又は複数を含んでもよいが、これらに限定されない。

表示ユニット５４０は、ユーザから入力された情報又はユーザに提供された情報及び携帯電話の種々のメニューを表示するように構成される。表示ユニット５４０は、表示パネル５４１を備えてもよい。任意選択的に、液晶ディスプレイ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ：ＬＣＤ）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ：ＯＬＥＤ）等の形態で表示パネル５４１を構成することができる。更に、タッチパネル５３１は、表示パネル５４１を被覆してもよい。タッチパネル５３１は、その上又はその近傍でのタッチ操作を検出した後、プロセッサ５８０に伝送してタッチイベントのタイプを決定する。続いて、プロセッサ５８０は、タッチイベントのタイプに基づいて、表示パネル５４１において、対応するビジョン出力を提供する。図７において、タッチパネル５３１と表示パネル５４１は、２つの独立した部材として携帯電話の入力及び出力機能を実現するが、幾つかの実施例において、タッチパネル５３１と表示パネル５４１を集積することで、携帯電話の入力及び出力機能を実現させることができる。

携帯電話は、例えば、光センサ、動きセンサ及び他のセンサのような、少なくとも１つのセンサ５５０を更に備えてもよい。具体的には、光センサは、環境光センサ及び近接センサを含んでもよい。環境光センサは、環境光の明暗に基づいて表示パネル５４１の輝度を調整することができる。近接センサは、携帯電話が耳の傍に移された場合、表示パネル５４１及び／又はバックライトを閉じることができる。動きセンサの１つとして、加速度センサは、各方向での（一般的には、３軸）加速度の大きさを検出することができる。静止時に、重力の大きさ及び方向を検出でき、携帯電話の姿勢の適用（例えば、横縦表示の切り替え、関連ゲーム、磁力計の姿勢の補正）、振動認識に関わる機能（例えば、歩数計、タッピング）などに用いられる。携帯電話に、ジャイロスコープ、気圧計、湿度計、温度計、赤外センサなどの他のセンサを配置してもよく、ここで、詳細な説明を省略する。

オーディオ回路５６０、スピーカー５６１、マイクロホン５６２は、ユーザと携帯電話とのオーディオインタフェースを提供することができる。オーディオ回路５６０は、受信したオーディオデータを変換することで得られた電気信号をスピーカー５６１に伝送し、マイクロホン５６２により音声信号に変換して出力することができる。一方で、マイクロホン５６２は、収集した音声信号を電気信号に変換し、オーディオ回路５６０により受信した後に、オーディオデータに変換し、更にオーディオデータをプロセッサ５８０に出力して処理した後、ＲＦ回路５１０を介して、もう１つの携帯電話に送信するか又はオーディオデータをメモリ５２０に出力して更に処理する。

ＷｉＦｉは、近距離無線伝送技術に属する。携帯電話は、ＷｉＦｉモジュール５７０により、ユーザが電子メールを送受信して、ウェブページを閲覧して、ストリームメディアなどにアクセスすることを補助することができる。これは、ユーザに、無線のブロードバンドインターネットアクセスを提供する。図７は、ＷｉＦｉモジュール５７０を示すが、これが携帯電話の不可欠な構造ではなく、本発明の本質を変更することなくこれを省略されてもよいことは、理解されるべきである。

プロセッサ５８０は、携帯電話の制御センターである。これは、種々のインタフェース及び回路を利用して携帯電話全体の各部分を接続する。メモリ５２０に記憶されたソフトウェアプログラム及び／又はモジュールを行うか又は実行し、メモリ５２０に記憶されたデータを呼び出すことで、携帯電話の種々の機能を実行してデータを処理し、携帯電話全体に対してモニタリングする。任意選択的に、プロセッサ５８０は、１つ又は複数の処理ユニットを含んでもよい。任意選択的に、プロセッサ５８０は、プロセッサとモデムプロセッサを集積したものであってもよい。ここで、アプリケーションプロセッサは、オペレーティングシステム、ユーザインタフェース及びアプリケーションプログラムを処理することができる。モデムプロセッサは、無線通信を処理することができる。上記モデムプロセッサは、プロセッサ５８０に集積されなくてもよいことが理解されるべきである。

携帯電話は、各部材に給電する電源５９０（例えば、バッテリ）を更に備える。任意選択的に、電源は、電源管理システムを介してプロセッサ５８０に論理的に接続されて、電源管理システムにより、充電及び放電の管理、エネルギー消費管理などの機能を実現させることができる。

図示されていないが、携帯電話は、カメラ、ブルートゥース（登録商標）モジュールなどを更に備えてもよく、ここで、詳細な説明を省略する。

本発明の実施例において、該端末機器に含まれるプロセッサ５８０は、
位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、Ｎ個の画像候補領域が含まれ、前記Ｎは、１より大きいか等しい整数である、ステップと、
前記画像候補領域集合（即ち、位置決め対象の画像における画像候補領域集合）に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合にＮ個の領域セマンティック情報が含まれ、各領域セマンティック情報は、１つの画像候補領域に対応する（つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における１つの画像候補領域に対応する）、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、Ｎ個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し（つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における１つの領域セマンティック情報に対応する）、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、Ｔ個の単語を含み、前記テキスト特徴集合は、Ｔ個の単語特徴を含み、各単語は、１つの単語特徴に対応し、前記Ｔは、１より大きいか等しい整数である（つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における１つの単語特徴に対応する）、ステップと、
画像領域位置決めネットワークモデルによって、前記テキスト特徴集合（即ち、位置決め対象のテキストに対応するテキスト特徴集合）と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む機能を更に有する。

任意選択的に、プロセッサ５８０は具体的には、
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記Ｎ個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Ｎは、１より大きいか等しい整数である、ステップと、を実行するように構成される。

任意選択的に、プロセッサ５８０は具体的には、
前記領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得するステップであって、前記第１領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、前記第２領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報である、ステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。

任意選択的に、プロセッサ５８０は具体的には、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、ターゲット接続行列を生成するステップと、を実行するように構成される。

任意選択的に、プロセッサ５８０は具体的には、
式

を用いて、前記拡張セマンティック情報集合を算出するステップを実行するように構成され、
ここで、前記ｎ_ｉ ^ｋは、第ｋ層のグラフ畳み込みネットワークに対応するｉ番目の拡張セマンティック情報を表し、前記ｎ_ｊ ^ｋ－１は、第（ｋ－１）層のグラフ畳み込みネットワークに対応するｊ番目の拡張セマンティック情報を表し、前記ｗ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第１ネットワークパラメータを表し、前記ｂ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第２ネットワークパラメータを表し、前記ｊ∈ｎｅｉｇｈｂｏｒｉｎｇ（ｉ）は、ｊ番目のノードがｉ番目のノードの近隣ノードに属することを表し、前記Ｅ_ｉｊは、ターゲット接続行列における要素を表す。

任意選択的に、プロセッサ５８０は具体的には、
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、Ｔ個の単語ベクトルを含み、各単語ベクトルは、１つの単語に対応し、前記Ｔは、１より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
Ｔ個の単語ベクトルに対応するテキスト特徴を取得した場合、前記Ｔ個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。

任意選択的に、プロセッサ５８０は具体的には、
式

図８は、本願の実施例によるサーバ構造を示す概略図である。該サーバ６００は、構成又は性能によって大きく異なることがあり、１つ又は１つ以上の中央演算処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ：ＣＰＵ）６２２（例えば、１つ又は１つ以上のプロセッサ）と、メモリ６３２と、アプリケーションプログラム６４２又はデータ６４４を記憶するための記憶媒体６３０（例えば１つ又は１つ以上の大容量記憶媒体）と、を備えてもよい。ここで、メモリ６３２及び記憶媒体６３０は一時的媒体又は永久的記憶媒体であってもよい。記憶媒体６３０に記憶されたプログラムは、１つ又は１つ以上のモジュール（図示されず）を含んでもよい。各モジュールは、サーバにおける一連の指令操作を含んでもよい。更に、中央演算処理装置６２２は、記憶媒体６３０と通信して、サーバ６００で記憶媒体５３０における一連の命令操作を実行するように設定されてもよい。

サーバ６００は、１つ又は１つ以上の電源６２６、１つ又は１つ以上の有線又は無線ネットワークインタフェース６５０、１つ又は１つ以上の入力出力インタフェース５５８、及び／又は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ，Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭ等のような１つ又は１つ以上のオペレーティングシステム６４１を更に含んでもよい。

上記実施例におけるサーバにより実行されたステップは、該図８に示すサーバ構造に基づいたものであってもよい。

本発明の実施例において、該サーバに含まれるＣＰＵ６２２は、
位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、Ｎ個の画像候補領域が含まれ、前記Ｎは、１より大きいか等しい整数である、ステップと、
前記画像候補領域集合（即ち、位置決め対象の画像における画像候補領域集合）に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合にＮ個の領域セマンティック情報が含まれ、各領域セマンティック情報は、１つの画像候補領域に対応する（つまり、領域セマンティック情報集合における各領域セマンティック情報は、画像候補領域集合における１つの画像候補領域に対応する）、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、Ｎ個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し（つまり、拡張セマンティック情報集合における各拡張セマンティック情報は、領域セマンティック情報集合における１つの領域セマンティック情報に対応する）、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、Ｔ個の単語を含み、前記テキスト特徴集合は、Ｔ個の単語特徴を含み、各単語は、１つの単語特徴に対応し、前記Ｔは、１より大きいか等しい整数である（つまり、位置決め対象のテキストにおける各単語は、テキスト特徴集合における１つの単語特徴に対応する）、ステップと、
画像領域位置決めネットワークモデルによって、前記テキスト特徴集合（即ち、位置決め対象のテキストに対応するテキスト特徴集合）と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む機能を更に有する。

任意選択的に、ＣＰＵ６２２は具体的には、
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記Ｎ個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Ｎは、１より大きいか等しい整数である、ステップと、を実行するように構成される。

任意選択的に、ＣＰＵ６２２は具体的には、
前記領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得するステップであって、前記第１領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、前記第２領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報である、ステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。

任意選択的に、ＣＰＵ６２２は具体的には、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を実行するように構成される。

任意選択的に、ＣＰＵ６２２は具体的には、
式

任意選択的に、ＣＰＵ６２２は具体的には、
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、Ｔ個の単語ベクトルを含み、各単語ベクトルは、１つの単語に対応し、前記Ｔは、１より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
Ｔ個の単語ベクトルに対応するテキスト特徴を取得した場合、前記Ｔ個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。

任意選択的に、ＣＰＵ６２２は具体的には、
式

本発明の実施例において、該サーバに備えられるＣＰＵ６２２は、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含む機能を更に有する。

任意選択的に、ＣＰＵ６２２は具体的には、
式

を用いて、前記ターゲット損失関数を決定するステップを実行するように構成され、
ここで、前記Ｌは、前記ターゲット損失関数を表し、前記ｎ_ｉ ^＋は、第１訓練対象の画像候補領域を表し、前記ｈ_ｉ ^＋は、前記第１訓練対象のテキストを表し、前記ｎ_ｊ ^－は、前記第２訓練対象の画像候補領域を表し、前記ｈ_ｋ ^－は、前記第２訓練対象のテキストを表し、前記ｄ（）は、訓練対象のデータペアを表し、前記ｍａｘ（）は、最大値を取ることを表し、前記λ_１は、第１パラメータ制御重みを表し、前記λ_２は、第２パラメータ制御重みを表し、前記ｕ_１は、第１プリセット閾値を表し、前記ｕ_２は、第２プリセット閾値を表す。

説明上の便宜及び簡素化を図るために、上記説明されたシステム、装置及びユニットの具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。

本願で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した前記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形態で実現してもよく、ソフトウェア機能ユニットの形態で実現してもよい。

前記集積したユニットはソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備（パソコン、サーバ、又はネットワーク装置など）に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ｏｎｌｙＭｅｍｏｒｙ：ＲＯＭと略称）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭと略称）、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体に、命令が記憶されており、該命令は、コンピュータで実行される時、コンピュータに、前記各実施例で提供される画像領域位置決め方法のいずれか１つの可能な実現形態を実行させる。

任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する強化セマンティック情報集合を取得するステップであって、前記強化セマンティック情報集合における各強化セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各強化セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各強化セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を実行するように構成される。

任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記Ｎ個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Ｎは、１より大きいか等しい整数である、ステップと、を実行するように構成される。

任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
前記領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得するステップであって、前記第１領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、前記第２領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報である、ステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を実行するように構成される。

任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を実行するように構成される。

任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
式

任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、Ｔ個の単語ベクトルを含み、各単語ベクトルは、１つの単語に対応し、前記Ｔは、１より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
Ｔ個の単語ベクトルに対応するテキスト特徴を取得した場合、前記Ｔ個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を実行するように構成される。

本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体に、命令が記憶されており、該命令は、コンピュータで実行される時、コンピュータに、前記各実施例で提供されるモデル訓練方法のいずれか１つの可能な実現形態を実行させる。

任意選択的に、該コンピュータ可読記憶媒体に記憶された命令は、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を実行するように構成される。

本願の実施例は、命令を含むコンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、コンピュータで実行される時、コンピュータに、前記各実施例で提供される画像領域位置決め方法のいずれか１つの可能な実現形態を実行させるか、又は、前記実施例で提供されるモデル訓練方法のいずれか１つの可能な実現形態を実行させる。

なお、上記実施例は本願の技術的解決手段を説明するためのものだけであり、これを限定するものではない。前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、前記実施例に記載の技術的解決手段に対して修正を行うことができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の精神及び範囲を離脱させるものではないことは、理解すべきである。

30 画像領域位置決め装置
40 モデル訓練装置
301 取得モジュール
302 生成モジュール
303 決定モジュール
401 取得モジュール
402 決定モジュール
403 訓練モジュール
510 ＲＦ回路
520 メモリ
530 入力ユニット
531 タッチパネル
532 他の入力装置
540 表示ユニット
541 表示パネル
550 センサ
560 オーディオ回路
561 スピーカー
562 マイクロホン
570 ＷｉＦｉモジュール
580 プロセッサ
590 電源
600 サーバ
622 中央演算処理装置
626 電源
630 記憶媒体
632 メモリ
641 オペレーティングシステム
642 アプリケーションプログラム
644 データ
650 有線又は無線ネットワークインタフェース
658 入力／出力インタフェース

Claims

画像領域位置決め方法であって、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する強化セマンティック情報集合を取得するステップであって、前記強化セマンティック情報集合における各強化セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各強化セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各強化セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含む、画像領域位置決め方法。
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成する前記ステップは、
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記Ｎ個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Ｎは、１より大きいか等しい整数である、ステップと、を含むことを特徴とする
請求項１に記載の画像領域位置決め方法。
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する強化セマンティック情報集合を取得する前記ステップは、
前記領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得するステップであって、前記第１領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、前記第２領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報である、ステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する拡張セマンティック情報集合を決定するステップと、を含むことを特徴とする
請求項１又は２に記載の画像領域位置決め方法。
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップは、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を含むことを特徴とする
請求項３に記載の画像領域位置決め方法。
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップは、
式

を用いて、前記拡張セマンティック情報集合を算出するステップを含み、
前記ｎ_ｉ ^ｋは、第ｋ層のグラフ畳み込みネットワークに対応するｉ番目の拡張セマンティック情報を表し、前記ｎ_ｊ ^ｋ－１は、第（ｋ－１）層のグラフ畳み込みネットワークに対応するｊ番目の拡張セマンティック情報を表し、前記ｗ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第１ネットワークパラメータを表し、前記ｂ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第２ネットワークパラメータを表し、前記ｊ∈ｎｅｉｇｈｂｏｒｉｎｇ（ｉ）は、ｊ番目のノードがｉ番目のノードの近隣ノードに属することを表し、前記Ｅ_ｉｊは、ターゲット接続行列における要素を表すことを特徴とする
請求項３又は４に記載の画像領域位置決め方法。
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各強化セマンティック情報とのマッチング度を取得する前に、前記方法は、
前記位置決め対象のテキストを取得するステップと、
前記位置決め対象のテキストに基づいて、テキストベクトルシーケンスを取得するステップであって、前記テキストベクトルシーケンスは、Ｔ個の単語ベクトルを含み、各単語ベクトルは、１つの単語に対応し、前記Ｔは、１より大きいか等しい正数である、ステップと、
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップと、
Ｔ個の単語ベクトルに対応するテキスト特徴を取得した場合、前記Ｔ個のテキスト特徴に基づいて、前記テキスト特徴集合を生成するステップと、を更に含むことを特徴とする
請求項１ないし５のうちいずれか一項に記載の画像領域位置決め方法。
前記テキストベクトルシーケンスにおける各単語ベクトルに対して符号化処理を行って、テキスト特徴を得るステップは、
式

を用いて、前記テキスト特徴を取得するステップを含み、
前記ｈ_ｔは、前記テキスト特徴集合におけるｔ番目のテキスト特徴を表し、前記ＬＳＴＭ（）は、長短期記憶（ＬＳＴＭ）ネットワークを用いて符号化を行うことを表し、前記ｗ_ｔは、前記テキストベクトルシーケンスにおけるｔ番目の単語ベクトルを表し、前記ｈ_ｔ－１は、前記テキスト特徴集合における（ｔ－１）番目のテキスト特徴を表すことを特徴とする
請求項６に記載の画像領域位置決め方法。
モデル訓練方法であって、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含む、モデル訓練方法。
前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップは、
式

を用いて、前記ターゲット損失関数を決定するステップを含み、
前記Ｌは、前記ターゲット損失関数を表し、前記ｎ_ｉ ^＋は、第１訓練対象の画像候補領域を表し、前記ｈ_ｉ ^＋は、前記第１訓練対象のテキストを表し、前記ｎ_ｊ ^－は、前記第２訓練対象の画像候補領域を表し、前記ｈ_ｋ ^－は、前記第２訓練対象のテキストを表し、前記ｄ（）は、訓練対象のデータペアを表し、前記ｍａｘ（）は、最大値を取ることを表し、前記λ_１は、第１パラメータ制御重みを表し、前記λ_２は、第２パラメータ制御重みを表し、前記ｕ_１は、第１プリセット閾値を表し、前記ｕ_２は、第２プリセット閾値を表すことを特徴とする
請求項８に記載のモデル訓練方法。
画像領域位置決め装置であって、生成モジュールと、取得モジュールと、決定モジュールと、を備え、
前記生成モジュールは、位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するように構成され、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応し、
前記取得モジュールは、グラフ畳み込みネットワークによって、前記生成モジュールが生成した前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するように構成され、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられ、
前記取得モジュールは更に、画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するように構成され、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応し、
前記決定モジュールは、前記取得モジュールが取得した前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するように構成される、画像領域位置決め装置。
モデル訓練装置であって、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するように構成される取得モジュールであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、取得モジュールと、
前記取得モジュールが取得した前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するように構成される決定モジュールと、
前記決定モジュールが決定した前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るように構成される訓練モジュールであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、訓練モジュールと、を備える、モデル訓練装置。
端末機器であって、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、端末機器。
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
畳み込みニューラルネットワークによって、各画像候補領域に対応する領域セマンティック情報を取得するステップであって、前記画像候補領域は、領域情報を含み、前記領域情報は、前記位置決め対象の画像における、前記画像候補領域の位置情報と、前記画像候補領域の寸法情報と、を含む、ステップと、
Ｎ個の画像候補領域に対応する領域セマンティック情報を取得した場合、前記Ｎ個の領域セマンティック情報に基づいて、前記領域セマンティック情報集合を生成するステップであって、前記Ｎは、１より大きいか等しい整数である、ステップと、を含むことを特徴とする
請求項１２に記載の端末機器。
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
前記領域セマンティック情報集合から、第１領域セマンティック情報及び第２領域セマンティック情報を取得するステップであって、前記第１領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報であり、前記第２領域セマンティック情報は、前記領域セマンティック情報集合のうちのいずれか１つの領域セマンティック情報である、ステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度を取得するステップと、
前記第１領域セマンティック情報と前記第２領域セマンティック情報との間の接続エッジ強度に対して正規化処理を行って、正規化強度を得るステップと、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、ターゲット接続行列を決定するステップと、
前記グラフ畳み込みネットワークによって、前記ターゲット接続行列に対応する前記拡張セマンティック情報集合を決定するステップと、を含むことを特徴とする
請求項１２又は１３に記載の端末機器。
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
前記領域セマンティック情報集合における各領域セマンティック情報間の正規化強度に基づいて、接続行列を生成するステップと、
前記接続行列及び単位行列に基づいて、前記ターゲット接続行列を生成するステップと、を含むことを特徴とする
請求項１４に記載の端末機器。
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
式

を用いて、前記拡張セマンティック情報集合を算出するステップを含み、
前記ｎ_ｉ ^ｋは、第ｋ層のグラフ畳み込みネットワークに対応するｉ番目の拡張セマンティック情報を表し、前記ｎ_ｊ ^ｋ－１は、第（ｋ－１）層のグラフ畳み込みネットワークに対応するｊ番目の拡張セマンティック情報を表し、前記ｗ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第１ネットワークパラメータを表し、前記ｂ_ｊ ^ｋは、前記第ｋ層のグラフ畳み込みネットワークの第２ネットワークパラメータを表し、前記ｊ∈ｎｅｉｇｈｂｏｒｉｎｇ（ｉ）は、ｊ番目のノードがｉ番目のノードの近隣ノードに属することを表し、前記Ｅ_ｉｊは、ターゲット接続行列における要素を表すことを特徴とする
請求項１４又は１５に記載の端末機器。
サーバであって、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
位置決め対象の画像における画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合における各領域セマンティック情報は、前記画像候補領域集合における１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合における各拡張セマンティック情報は、前記領域セマンティック情報集合における１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
画像領域位置決めネットワークモデルによって、位置決め対象のテキストに対応するテキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記位置決め対象のテキストにおける各単語は、前記テキスト特徴集合における１つの単語特徴に対応する、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、サーバ。
サーバであって、メモリと、トランシーバと、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリ内のプログラムを実行するように構成され、前記プログラムは、
訓練対象のテキスト集合及び訓練対象の画像候補領域集合を取得するステップであって、前記訓練対象のテキスト集合は、第１訓練対象のテキスト及び第２訓練対象のテキストを含み、前記訓練対象の画像候補領域集合は、第１訓練対象の画像候補領域及び第２訓練対象の画像候補領域を含み、前記第１訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第１訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有せず、前記第２訓練対象のテキストと前記第２訓練対象の画像候補領域とは、マッチング関係を有し、且つ、前記第２訓練対象のテキストと前記第１訓練対象の画像候補領域とは、マッチング関係を有しない、ステップと、
前記第１訓練対象のテキスト、前記第２訓練対象のテキスト、前記第１訓練対象の画像候補領域及び前記第２訓練対象の画像候補領域に基づいて、ターゲット損失関数を決定するステップと、
前記ターゲット損失関数を用いて、訓練対象の画像領域位置決めネットワークモデルに対して訓練を行って、画像領域位置決めネットワークモデルを得るステップであって、前記画像領域位置決めネットワークモデルは、テキスト特徴集合及び拡張セマンティック情報に基づいて、画像候補領域と位置決め対象のテキストとのマッチング関係を決定するために用いられ、前記拡張セマンティック情報と前記画像候補領域とは、対応関係を有し、前記テキスト特徴集合と前記位置決め対象のテキストとは、対応関係を有する、ステップと、を含み、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される、サーバ。
画像領域位置決め方法であって、
画像位置決め命令を受信するステップと、
前記画像位置決め命令に応答して、前記画像位置決め命令に基づいて、位置決め対象の画像における画像候補領域集合を取得するステップであって、前記画像候補領域集合に、Ｎ個の画像候補領域が含まれ、前記Ｎは、１より大きいか等しい整数である、ステップと、
前記画像候補領域集合に基づいて、領域セマンティック情報集合を生成するステップであって、前記領域セマンティック情報集合に、Ｎ個の領域セマンティック情報が含まれ、各領域セマンティック情報は、１つの画像候補領域に対応する、ステップと、
グラフ畳み込みネットワークによって、前記領域セマンティック情報集合に対応する拡張セマンティック情報集合を取得するステップであって、前記拡張セマンティック情報集合に、Ｎ個の拡張セマンティック情報が含まれ、各拡張セマンティック情報は、１つの領域セマンティック情報に対応し、前記グラフ畳み込みネットワークは、各領域セマンティック情報間の関連関係を構築するために用いられる、ステップと、
位置決め対象のテキストに対応するテキスト特徴集合を取得するステップであって、前記位置決め対象のテキストは、Ｔ個の単語を含み、前記テキスト特徴集合は、Ｔ個の単語特徴を含み、各単語は、１つの単語特徴に対応し、前記Ｔは、１より大きいか等しい整数である、ステップと、
画像領域位置決めネットワークモデルによって、前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度を取得するステップであって、前記画像領域位置決めネットワークモデルは、前記画像候補領域と前記位置決め対象のテキストとのマッチング関係を決定するために用いられる、ステップと、
前記テキスト特徴集合と前記各拡張セマンティック情報とのマッチング度に基づいて、前記画像候補領域集合から、ターゲット画像候補領域を決定するステップと、
クライアントに画像生成命令を送信し、前記クライアントに、前記画像生成命令に基づいて前記ターゲット画像候補領域を展示させるステップと、を含む、画像領域位置決め方法。
コンピュータプログラムであって、
コンピュータに、請求項１ないし７のいずれか一項に記載の画像領域位置決め方法、または請求項８又は９に記載のモデル訓練方法を実行させる、コンピュータプログラム。