JP7320570B2

JP7320570B2 - 画像を処理するための方法、装置、機器、媒体およびプログラム

Info

Publication number: JP7320570B2
Application number: JP2021131699A
Authority: JP
Inventors: 宇寧杜; ▲イェ▼華楊; 勝禹魏; 若愚郭; 其文劉; 喬趙; 然畢; 暁光胡; 佃海於; 艷軍馬
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2021-08-12
Publication date: 2023-08-03
Anticipated expiration: 2041-08-12
Also published as: JP2021182441A; CN112839185B; CN112839185A; KR20210116371A; US20210374490A1; EP3913533A3; EP3913533A2

Description

本開示の実施例は、主に人工知能分野に関し、且つより具体的には、深層学習および画像処理分野の画像を処理するための方法、装置、機器および媒体に関する。

画像処理は、所望の結果を得るためにコンピュータを使用して画像を分析することである。人工知能の発展と伴って、画像は、コンピュータが情報を取得するための重要な手段になっている。画像をより良く処理するために、機器学習の分野で各種の画像を処理する方法が急速に開発されている。

深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ、ＤＬ）は、機器学習の分野における新しい研究方向である。深層学習は機器学習の一種であり、各種の画像を処理することに用いられる。深層学習技術が画像を処理して各種のタスクを実行する場合、優れたアルゴリズムモデルだけでなく、高品質の画像データも必要である。

本開示は、画像を処理するための方法、装置、機器、媒体およびプログラムを提供する。

本開示の第１の局面によれば、画像を処理するための方法を提供する。この方法は、画像内のキャラクタに対する背景を記述した画像の背景画像を決定することを含む。この方法は、画像内の選択されたキャラクタ部分に対応するキャラクタの属性を決定することをさらに含む。この方法は、選択されたキャラクタ部分を背景画像中の対応部分に置き換えて、調整された画像を取得することをさらに含む。この方法は、属性に基づいて、取得された対象キャラクタを調整された画像に結合することをさらに含む。

本開示の第２の局面によれば、画像を処理するための装置を提供する。この装置は、画像内のキャラクタに対する背景を記述した画像の背景画像を決定するように配置される背景画像決定モジュールと、画像内の選択されたキャラクタ部分に対応するキャラクタの属性を決定するように配置される第１の属性決定モジュールと、選択されたキャラクタ部分を背景画像中の対応部分に置き換えて、調整された画像を取得するように配置される第１の置換モジュールと、属性に基づいて、取得された対象キャラクタを調整された画像に結合するように配置される結合モジュールと、を含む。

本開示の第３の局面によれば、電子デバイスを提供する。この電子デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されたメモリとを含み、メモリは、少なくとも１つのプロセッサに本開示の第１の局面の方法を実行させるように、少なくとも１つのプロセッサによって実行される命令を記憶する。

本開示の第４の局面によれば、コンピュータに本開示の第１の局面の方法を実行させるコンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

本開示の第５の局面によれば、プロセッサによって実行される際に、本開示の第１の局面の方法のステップを実現するコンピュータプログラムを提供する。

本願の技術により、画像の取得を解決し、サンプル画像を取得する効率が向上する。

なお、この部分で説明した内容は、本開示の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本開示の範囲を限定するためのものでもない。本開示の他の特徴は、以下の明細書によって理解し易くなるであろう。

図面は、本案がよりよく理解されるためのものであり、本願を限定するものではない。

本開示の複数の実施例が実現される環境１００の概略図を示している。本開示のいくつかの実施例による画像を処理するための方法２００のフローチャートを示している。本開示のいくつかの実施例で使用される画像３００の例を示している。本開示のいくつかの実施例で使用される対象キャラクタを含む画像３００の例を示している。本開示のいくつかの実施例による、キャラクタ部分を置き換えるための方法４００のフローチャートを示している。本開示のいくつかの実施例による画像を処理するためのプロセス５００のフローチャートを示している。本開示のいくつかの実施例による画像を処理するための装置６００のブロック図を示している。本開示の複数の実施例を実施することができるデバイス７００のブロック図を示している。

以下、本願の例示的な実施例について図面を参照しながら説明する。その中、理解の便宜上、本願の実施例の詳細を含み、これらは、あくまで例示的なものであることを理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や修正を行うことができることを理解すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明が省略される。

本開示の実施例の説明には、「含む」という用語および類似の用語は、制限のない包含、すなわち「含むがこれに限定されない」と理解されるべきである。「に基づく」という用語は、「少なくとも部分的に基づく」と理解されるべきである。「一つの実施例」または「当該実施例」という用語は、「少なくとも１つの実施例」として理解されるべきである。「第１」、「第２」などの用語は、異なるまたは同じオブジェクトを指すことができる。以下には、他の明示的および暗黙的な定義も含まれる場合がある。

画像タスクに対する深層学習技術の効果は、優れたアルゴリズムモデルだけでなく、高品質の画像データにも依存している。現在の主流の教師あり深層学習アルゴリズムでは、画像の数と品質が最終的な深層学習技術に大きな影響を与えている。

現在、データを取得する主流の一つの方法は、人工的にデータを収集してラベリングすることである。このプロセスでは、ビジネスシナリオに応じて多数の画像を収集し、データラベリングチームに送信して人工でラベリングする必要がある。例えば光学式キャラクタ認識（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ，ＯＣＲ）のようなキャラクタ認識タスクラベリングについて、ラベリングプロセスには２つのステップが必要である。第一のステップは、検出フレームで画像上の文字を１つずつマークすることであり、第二のステップは、検出フレーム内の文字を認識し、それをキャラクタ列としてマークする必要がある。

ただし、画像内に大量のキャラクタ列が含まれるドキュメントの場合、検出フレームのラベリングと文字の認識には、大量の時間と人件費がかかっている。さらに、キャラクタ認識に必要なデータは非常に多く、人工ラベリングがプロジェクトの進行を制限するボトルネックになることがよくある。また、人工ラベリングの過程で、データ量が多すぎると、複数の人が協力して分担する必要がある。この場合、ラベルフレームのエッジ、あいまいな文字の判断、およびフィールドのセグメンテーションについて、異なるラベリングする人には主観的な違いがあり、最終なラベリング結果が不一致になっている。人工ラベリングの過程では、ワークロードが比較的大きいため、間違う可能性も高くなる。これらの間違いは、その後のモデルトレーニングにも大きな影響を与えている。

データを取得する別の方法は、純粋なデータ合成である。これは、まず背景画像を収集し、キャラクタが付いた画像ブロックを直接除去して、新しいキャラクタが付いた画像ブロックに置き換えることである。その結果、合成画像は比較的単一であり、画像の組み合わせのエッジは滑らかではなく、合成画像は見やすい。新しいキャラクタを有する画像ブロックの背景とキャラクタスタイルは、元のキャラクタまたは画像の背景とは異なるため、効果は「歪んで」おり、実際の画像スタイルとはかなり異なる。

少なくとも上記の問題を解決するために、本開示の実施例によれば、改善技術案が提案される。この技術案では、コンピューティングデバイスは、画像の背景画像と、画像内の選択されたキャラクタ部分に対応するキャラクタの属性を決定する。次に、コンピューティングデバイスは、選択されたキャラクタ部分を背景画像内の対応部分と置き換えて、調整された画像を取得する。コンピューティングデバイスは、決定された属性をさらに利用して、取得された対象キャラクタを調整された画像に結合する。この方法により、異なるシーンに対して画像が不足する問題を大幅に改善し、使用可能な画像の数を増やし、画像にラベリングする時間とコストを節約できる。

図１は、本開示の複数の実施例が実現される環境１００の概略図を示している。この例示的な環境１００は、コンピューティングデバイス１０８を含む。コンピューティングデバイス１０８は、画像１０２内のキャラクタを対象キャラクタ１０６に置き換えて、結合された画像１１４を取得することができる。

コンピューティングデバイス１０８は、画像１０２を処理することに用いられており、例えば、画像１０２の背景画像１１０および画像１０２内のキャラクタの属性１１２を取得して、画像１０２内のキャラクタを置き換えることができる。コンピューティングデバイス１０８は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、モバイルデバイス（携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、メディアプレーヤーなど）、マルチプロセッサシステム、消費者向け電子製品、小型コンピュータ、大型コンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などのような任意のタイプのコンピューティングデバイスとして実現されるが、これらに限定されない。

画像１０２は、機器学習モデルをトレーニングするための画像サンプルとして使用することができる。例えば、画像１０２は、列車の切符、バスの切符、カード、免許状、金属面、宅配便のメモ、文書などの画像である。画像１０２の画像フォーマットは、ＪＰＥＧ、ＴＩＦＦ、ＲＡＷおよび他の任意の適切な画像フォーマットであり得る。図１は、コンピューティングデバイス１０８が１つの画像１０２を処理することを示すだけであり、これは単なる例であり、本開示に対する具体的な制限ではない。いくつかの実施例では、コンピューティングデバイス１０８は、任意の数の画像を処理することができる。

画像１０２は、キャラクタ部分１０４またはキャラクタ画像を含む。いくつかの実施例では、キャラクタ部分１０４に含まれるキャラクタは漢字である。いくつかの実施例では、キャラクタ部分１０４に含まれるキャラクタは、中国語のピンインである。いくつかの実施例では、キャラクタ部分１０４に含まれるキャラクタは英語の単語である。いくつかの実施例では、キャラクタ部分１０４は、漢字とピンインまたは英語の単語との組み合わせを含む。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。キャラクタ部分１０４は、任意の言語のキャラクタまたは異なる言語のキャラクタの組み合わせを含むことができる。

いくつかの実施例では、キャラクタ部分１０４のキャラクタは単一のキャラクタである。いくつかの実施例では、キャラクタ部分１０４のキャラクタは複数のキャラクタである。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。図１に示す画像１０２は１つのキャラクタ部分１０４を含み、一例だけであり、画像１０２は任意の数のキャラクタ部分を含み得る。

コンピューティングデバイス１０８は、画像１０２を取得した後、画像１０２の背景画像１１０を決定し、当該背景画像１１０は、画像１０２内のキャラクタに対する背景を説明する。

例えば、画像１０２が切符の画像であり、切符上の文字に対する背景が青色である場合、背景画像１１０は、切符上の文字が除去された青色画像であり得る。文字画像に対応する背景画像１１０の対応部分は、予測される青色の背景を含む。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

コンピューティングデバイス１０８はまた、画像１０２内の選択された対象領域内の選択されたキャラクタの属性１１２を決定することができる。例えば、選択された対象領域がキャラクタ部分１０４を含む領域である場合、例えばキャラクタのフォント、サイズ、太字付けか否か、色、下線などのキャラクタ部分１０４内のキャラクタの属性１１２を決定することができる。一例では、当該対象領域は、ユーザによって画像１０２上で選択された領域である。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

コンピューティングデバイス１０８は、取得された背景画像１１０を使用して、選択されたキャラクタ部分を背景画像１１０の対応部分に置き換えることができる。コンピューティングデバイス１０８はまた、選択されたキャラクタを置き換えるための対象キャラクタ１０６を取得することができる。いくつかの実施例では、当該対象キャラクタ１０６は漢字である。いくつかの実施例では、当該対象キャラクタ１０６は中国語のピンインである。いくつかの実施例では、対象キャラクタ１０６は英字である。いくつかの実施例では、対象キャラクタ１０６は、任意の適切な言語の文字である。いくつかの実施例では、対象キャラクタ１０６は、２つ以上のキャラクタの組み合わせである。いくつかの実施例では、対象キャラクタ１０６は、１つまたは複数のキャラクタを含む。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

図１は、コンピューティングデバイス１０８が一つの対象キャラクタ１０６を受信することを示しており、これは単なる例であり、本開示に対する具体的な制限ではない。コンピューティングデバイス１０８は、選択されたキャラクタを置き換えるための複数の対象キャラクタを受信することができる。例えば、画像１０２が切符であり、選択された対象部分に含まれるキャラクタが駅名である場合、１つまたは複数の他の駅名を受信して選択された駅名を置き換えることができる。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

コンピューティングデバイス１０８は、対象キャラクタ１０６が選択されたキャラクタ部分のキャラクタと同じ属性を有するように決定されたキャラクタの属性１１２を使用して、対象キャラクタ１０６を設定する。次に、設定された対象キャラクタ１０６は、背景画像１１０を使用して調整された画像の対象領域に配置されて、結合された画像１１４を生成する。結合された画像１１４は、機器学習モデルをトレーニングするためのサンプル画像として使用することができる。

この方法により、異なるシーンの画像数が不足するという問題が大幅に改善され、使用可能な画像の数が増加し、画像にラベリングするための時間とコストを節約できる。

上記の図１は、本開示の複数の実施例が実現できる環境１００の概略図を示している。以下は、図２を参照して、本開示のいくつかの実施例による画像を処理するための方法２００のフローチャートを説明する。図２の方法２００は、図１のコンピューティングデバイス１０８または任意の適切なコンピューティングデバイスによって実行される。

フレーム２０２で、画像の背景画像を決定する。これは、画像内のキャラクタに対する背景を記述する。例えば、コンピューティングデバイス１０８は、画像１０２のキャラクタの背景を記述する画像１０２の背景画像１１０を決定する。

いくつかの実施例では、コンピューティングデバイス１０８は、画像１０２を画像内のキャラクタの背景画像を決定するための機器学習モデルである背景決定モデルに入力して、背景画像１１０を取得する。代替的または追加的に、当該背景決定モデルは、サンプル画像を入力とし、サンプル画像の背景を出力としてトレーニングすることによって得られるニューラルネットワークモデルである。上記の方法により、画像の背景画像を迅速かつ正確に決定することができ、データ処理の効率を向上させることができる。

いくつかの実施例では、コンピューティングデバイス１０８は、任意の適切な画像背景認識方法を使用して、画像内のキャラクタの背景画像を決定することができる。いくつかの実施例では、背景画像１１０は、画像１０２内のピクセルに対応するピクセル値のセットによって表される。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

いくつかの実施例では、コンピューティングデバイス１０８は、画像１０２を取得する。一例では、コンピューティングデバイス１０８は、他のコンピューティングデバイス１０８から画像１０２を受信する。別の例では、コンピューティングデバイス１０８は、外部ストレージ装置またはローカルストレージから画像１０２を取得する。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

次に、コンピューティングデバイス１０８は、画像１０２において置き換えられるキャラクタの対象領域を決定する。例えば、ユーザは、コンピューティングデバイス１０８によって画像の対象領域を選択する。その後、コンピューティングデバイス１０８は、画像１０２内の対象領域から選択されたキャラクタ部分を決定する。このようにして、処理する対象領域を迅速に決定することができ、データ処理の効率を向上させることができる。

図３Ａに示されるように、例示的な画像３００は、バス切符画像である。このタイプの画像の数を増やすために、ユーザは、選択されたキャラクタ領域におけるキャラクタを置き換えることにより、より多くの画像を生成できる。図３Ａでは、ユーザは、キャラクタ「北京」を含む画像領域３０２を対象領域として選択し、画像領域３０２内の「北京」を置き換えることによって画像の数を増やす。

図２に戻ると、フレーム２０４において、画像内の選択されたキャラクタ部分に対応するキャラクタの属性を決定する。例えば、コンピューティングデバイス１０８は、画像１０２内の選択されたキャラクタ部分に対応するキャラクタの属性１１２を決定する。

いくつかの実施例では、コンピューティングデバイス１０８は、画像１０２の選択されたキャラクタを含む部分をキャラクタ属性決定モデルに入力して、キャラクタの属性１１２を決定する。当該キャラクタ属性決定モデルは、キャラクタの属性を決定するための機器学習モデルである。代替的または追加的に、このキャラクタ属性決定モデルはニューラルネットワークモデルであり、キャラクタ画像を入力とし、キャラクタ属性を出力としてトレーニングすることによって取得される。いくつかの実施例では、任意の適切なキャラクタ認識方法を使用して、対象領域内のキャラクタの属性を決定することができる。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。上記の方法により、キャラクタの属性を迅速かつ正確に決定することができる。

いくつかの実施例では、キャラクタの属性１１２は、フォント、サイズ、太さ、色、または下線などのうちの少なくとも１つを含む。代替的または追加的に、属性はまた、フォント、効果、間隔などを含み得る。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。上記の方法により、対応する属性を迅速に取得でき、データ取得の精度が向上する。

図３Ａに示すように、対象領域３０２内のキャラクタ「北京」の属性が決定され、例えば、フォントは楷体であり、サイズは１１ポイントである。

図２に戻ると、フレーム２０６で、選択されたキャラクタ部分を背景画像内の対応部分に置き換えて、調整された画像を取得する。例えば、コンピューティングデバイス１０８は、選択されたキャラクタ部分を背景画像１１０内の対応部分で置き換えて、調整された画像を取得する。このプロセスは、図４を組み合わせて以下に具体的に説明される。
フレーム２０８で、属性に基づいて、取得された対象キャラクタが調整された画像に結合される。例えば、コンピューティングデバイス１０８は、属性に基づいて、取得された対象キャラクタ１０６を調整された画像に結合する。

いくつかの実施例では、コンピューティングデバイス１０８は、対象キャラクタ１０６を取得することができる。例えば、ユーザがアップロードした置換キャラクタを受信する。次に、コンピューティングデバイス１０８は、決定された画像１０２内のキャラクタの属性１１２を使用して、対象キャラクタ１０６の属性を設定する。このようにして、対象のキャラクタと画像内で置き換えられるキャラクタの属性を同じにすることができ、合成された画像をよりリアルにすることができる。

いくつかの実施例では、コンピューティングデバイス１０８は、設定された対象キャラクタ１０６を画像１０２内の対象領域に結合して、結合された画像１１４を生成する。図３Ｂに示すように、対象キャラクタ１０６が「武漢」である場合、「武漢」の属性を「北京」から決定される属性に設定し、例えば、フォントは「楷体」であり、サイズは１１ポイントである。次に、属性が設定されたキャラクタ「武漢」を、調整された画像の対象領域に配置する。このようにして、「武漢」から「上海」への新しいバス切符が形成される。さらに、対象キャラクタ１０６はまた、「無錫」、「杭州」、「南京」などの任意の適切なキャラクタでもよく、いずれも属性を設定することによって画像の対象領域と結合して合成画像を生成することができる。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

この方法により、異なるシーンの画像数が不足するという問題が大幅に改善され、使用可能な画像の数が増加し、画像にラベリングするための大量の時間と人件費を節約することができる。

本開示のいくつかの実施例による画像を処理するための方法２００のフローチャートは、図２および図３を結合して上記で説明されている。キャラクタ部分を背景画像の対応部分に置き換えるプロセスは、図４を参照して以下で詳細に説明される。図４は、本開示のいくつかの実施例による、キャラクタ部分を置き換えるための方法４００のフローチャートを示す。図４の方法４００は、図１のコンピューティングデバイス１０８または任意の適切なコンピューティングデバイスによって実行される。

フレーム４０２において、選択されたキャラクタ部分が決定される。例えば、コンピューティングデバイス１０８は、選択されたキャラクタに対応するキャラクタ部分またはキャラクタ画像を決定する。例えば、キャラクタ「北京」に対応するキャラクタ部分は、図３Ａで決定される。

フレーム４０４において、選択されたキャラクタ部分に対応する背景画像の対応部分が決定される。例えば、コンピューティングデバイス１０８は、選択されたキャラクタ部分に対応する背景画像１１０内の対応部分を決定する。いくつかの実施例では、コンピューティングデバイス１０８は、選択されたキャラクタ部分の画像内の位置を決定し、次に、画像内の選択されたキャラクタ部分の位置を使用して、背景内の対応部分の位置を決定する。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

フレーム４０６で、対応部分を使用して選択されたキャラクタ部分を置き換える。例えば、コンピューティングデバイス１０８は、対応部分を使用してキャラクタ部分を置き換える。コンピューティングデバイス１０８は、対象領域が背景のみを有するように背景画像１１０内の対応部分を使用して画像１０２の選択されたキャラクタ部分を置き換える。いくつかの実施例では、コンピューティングデバイス１０８は、まず、対象領域内のキャラクタ部分を除去する。次に、背景画像１１０の対応部分が、除去されたキャラクタ部分に埋められる。例えば、キャラクタ部分に対応するピクセルのピクセル値が除去され、次に、背景画像１１０内の対応部分のピクセルのピクセル値が埋められてキャラクタ部分を対応する背景にする。いくつかの実施例では、コンピューティングデバイス１０８は、背景画像１１０内の対応部分を直接的に使用して画像内の対象領域内のキャラクタ部分を置き換える。上記の例は、本開示を具体的に限定することではなく、本開示を説明するためにのみ使用される。

上記の方法により、キャラクタを快速的に除去し、背景を画像に正確に追加できるため、画像処理の効率が向上し、処理時間が節約される。

キャラクタ部分を交換するための方法４００は、図４を結合して上記で説明されている。画像を処理するためのプロセス５００の例を、図５を結合して以下に説明する。

図５に示されるように、プロセス５００は、フレーム５０２で開始する。次に、フレーム５０４で、コンピューティングデバイス１０８は、画像を処理するためのソフトウェアを起動する。フレーム５０６で、コンピューティングデバイス１０８は、デフォルトパラメータを調整するかどうかを決定する。ここでのデフォルトパラメータは、例えばモデルによって処理される画像のサイズや、処理された画像の背景がどの種類の背景との相関度のようなロードされるモデルの使用条件を記述するために使用され、例えば金属ストライプの背景とより関連するか、木質ストライプとより関連するかに設定するパラメータに設定される。デフォルトパラメータを調整する必要がある場合、配置パラメータはフレーム５０８で処理される。デフォルトパラメータまたは配置パラメータを調整しないことを決定した後、フレーム５１０で、コンピューティングデバイス１０８は、前トレーニングモデルを導入する。当該前トレーニングモデルには、背景決定モデルとキャラクタ属性決定モデルの少なくとも２つのサブモデルが含まれる。

次に、フレーム５１２で、画像がコンピューティングデバイス１０８に導入される。フレーム５１４で、画像上にキャラクタを置き換える対象領域をラベリングする。フレーム５１６で、コンピューティングデバイス１０８は、対象キャラクタを受信し、すなわち、対象領域内のキャラクタを置き換えるための置換キャラクタを受信する。コンピューティングデバイス１０８は、フレーム５２０で画像背景学習を開始する。次に、フレーム５１８で、画像の背景画像が生成される。フレーム５２２において、コンピューティングデバイス１０８はまた、キャラクタ属性学習を開始して、例えばフォント、サイズ、太さなどの対象領域内の選択されたキャラクタの属性を決定する。フレーム５２６で、コンピューティングデバイス１０８は、元の画像のキャラクタを消去する。このプロセスでは、フレーム５１８で生成された背景画像を使用して、消去されたキャラクタ部分を埋める。ただし、対象エリアには背景の画像のみが含まれるように形成する。フレーム５２４において、コンピューティングデバイス１０８は、受信した対象キャラクタとフレーム５２２で決定されたキャラクタとの属性を属性融合する。すなわち、取得された属性を使用して対象キャラクタの属性を設定する。次に、フレーム５２８で、設定された対象キャラクタが画像の対象領域と結合して、合成画像キャラクタの書き込みを実現する。フレーム５３０で、合成された画像が保存される。次に、フレーム５３２で、当該プロセスは終了する。

上記の方法により、異なるシーンでの画像不足の問題が大幅に改善され、使用可能な画像の数が増加し、画像にラベリングするための大量の時間と人件費を節約できる。

図６は、本開示の実施例による画像を処理するための装置６００の概略ブロック図を示す。図６に示すように、装置６００は、画像の背景画像を決定するように配置される背景画像決定モジュール６０２を含み、背景画像は、画像内のキャラクタに対する背景を説明する。装置６００はまた、画像内の選択されたキャラクタ部分に対応するキャラクタの属性を決定するように配置される第１の属性決定モジュール６０４を含む。装置６００はまた、調整された画像を得るために、選択されたキャラクタ部分を背景画像内の対応部分と置き換えるように配置される第１の置換モジュール６０６を含む。装置６００はまた、属性に基づいて、取得された対象キャラクタを調整された画像に結合するように配置される結合モジュール６０８を含む。

いくつかの実施例では、背景画像決定モジュール６０２は、画像を背景決定モデルに入力して背景画像を取得するように配置される背景画像取得モジュールを含み、背景決定モデルは、画像内のキャラクタの背景画像を決定するための機器学習モデルである。

いくつかの実施例では、第１の属性決定モジュール６０４は、画像の選択されたキャラクタ部分をキャラクタ属性決定モデルに入力してキャラクタの属性を決定するように配置される第２の属性決定モジュールを含み、キャラクタ属性決定モデルは、キャラクタの属性を決定するための機器学習モデルである。

いくつかの実施例では、第１の置換モジュール６０６は、選択されたキャラクタ部分を決定するように配置されるキャラクタ部分決定モジュールと、背景画像中の選択されたキャラクタ部分に対応する対応部分を決定するように配置される対応部分決定モジュールと、対応部分を使用して選択されたキャラクタ部分を置き換えるように配置される第２の置換モジュール６０６とを含む。

いくつかの実施例では、結合モジュール６０８は、対象キャラクタを取得するように配置される対象キャラクタ取得モジュールと、属性に基づいて対象キャラクタの属性を決定するように配置される対象キャラクタ属性決定モジュールとを含む。

いくつかの実施例では、属性は、フォント、サイズ、太さ、色、または下線のうちの少なくとも１つを含む。

いくつかの実施例では、装置６００は、画像を取得するように配置される画像取得モジュール、および画像内の対象領域から選択されたキャラクタ部分を決定するように配置される選択されたキャラクタ部分決定モジュールをさらに含む。

本願の実施例によれば、本願は、電子デバイスおよび読み取り可能な記憶媒体をさらに提供する。

図７は、本開示の実施例を実施するために使用することができる電子デバイス７００の概略ブロック図を示す。デバイス７００は、図１のコンピューティングデバイス１０８を実現するために使用され得る。図に示すように、デバイス７００は、リードオンリーメモリ（ＲＯＭ）７０２に格納されたコンピュータプログラム命令または記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラム命令に従って各種の適切な動作と処理を実行することができるコンピューティングユニット７０１を含む。ＲＡＭ７０３には、デバイス７００の操作に必要な様々なプログラムおよびデータも格納することができる。計算ユニット７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インターフェース７０５もまた、バス７０４に接続されている。

デバイス７００内の複数の素子は、Ｉ／Ｏインターフェース７０５に接続されており、例えばキーボード、マウスなどの入力ユニット７０６と、例えば様々なタイプのディスプレイ、スピーカーなどの出力ユニット７０７と、例えば磁気ディスク、光ディスクなどの記憶ユニット７０８と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット７０９とを含む。通信ユニット７０９は、デバイス７００が、インターネットのコンピューターネットワークおよび／または様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを許す。

コンピューティングユニット７０１は、処理およびコンピューティング機能を備えた様々な汎用および／または専用の処理コンポーネントであり得る。コンピューティングユニット７０１のいくつかの例には、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）コンピューティングチップ、機器学習モデルアルゴリズムを実行する様々なコンピューティングユニット、デジタル信号処理ＤＳＰ、および適切なプロセッサ、コントローラ、マイクロコンピュータなどが含まれるが、これらに限定されない。計算ユニット７０１は、例えば方法２００および４００などの上記の様々な方法およびプロセスを実行する。例えば、いくつかの実施例では、方法２００および４００は、例えば記憶ユニット７０８の機器読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実現され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ７０２および／または通信ユニット７０９を介してデバイス７００にロードおよび／またはインストールされ得る。コンピュータプログラムがＲＡＭ７０３にロードされ、コンピューティングユニット７０１によって実行されるとき、上記の方法２００および４００の１つまたは複数のステップを実行することができる。代替的に、他の実施例では、コンピューティングユニット７０１は、他の任意の適切な方法で（例えば、ファームウェアによって）方法２００および４００を実行するように配置され得る。

本明細書で上記に説明された機能は、少なくとも部分的に、１つまたは複数のハードウェアロジック素子によって実行され得る。例えば、使用できる例示的なタイプのハードウェアロジック素子は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）などを含むが、これらに限定されていない。

本開示の方法を実施するために使用されるプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャート及び／又はブロック図で所定された機能及び／又は操作が実施されるように、これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、またはその他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供できる。プログラムコードは、完全にマシンで実行するか、一部をマシンで実行するか、独立したソフトウェアパッケージとして一部をマシンで実行し、一部をリモートマシンで実行するか、または完全にリモートマシンまたはサーバで実行することができる。

本開示の文脈において、機器読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用、或いは命令実行システム、装置、またはデバイスと組み合わせて使用するプログラムを含むまたは格納することができる有形媒体であり得る。機器読み取り可能な媒体は、機器読み取り可能な信号媒体または機器読み取り可能な記憶媒体であり得る。機器読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置、またはデバイス、或いは前述の任意の適切な組み合わせを含み得るが、これらに限定されない。機器読み取り可能な記憶媒体のより具体的な例には、１つまたは複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラム可能リードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、または前述の任意の適切な組み合わせを含む。

また、各操作は特定の順序で示されているが、これは、そのような操作が示される特定の順序または順番に実行されることを要求するか、または図示されたすべての操作が所望の結果を達成するために実行されることを要求することとして理解されるべきである。特定の状況下では、マルチタスクと並列処理が有利である。同様に、いくつかの具体的な実現詳細が上記の議論に含まれているが、これらは、本開示の範囲を制限するものとして解釈されるべきではない。別個の実施例の文脈で説明されるある特徴はまた、単一の実現に組み合わせて実現することができる。逆に、単一の実現のコン文字で説明されているさまざまな特徴は、複数の実現で個別に、または任意の適切なサブコンビネーションで実現することもできる。

本主題は、構造的特徴および／または方法論理動作に特定する言語で説明されてきたが、添付の特許請求の範囲で限定される主題は、必ずしも上記説明した特定の特徴または動作に限定されないことを理解されたい。逆に、上記の特定の特徴および動作は、特許請求の範囲を実施するための単なる例示的な形態である。

Claims

モデルのデフォルトパラメータを調整するかどうかを決定することと、
前記デフォルトパラメータを調整する必要があると決定した場合、前記モデルのデフォルトパラメータを調整することと、
画像内のキャラクタに対する背景を記述した前記画像の背景画像を決定することと、
前記画像内の選択されたキャラクタ部分に対応するキャラクタの属性を決定することと、
前記選択されたキャラクタ部分を前記背景画像中の対応部分に置き換えて、調整された前記画像を取得することと、
前記属性に基づいて、取得された対象キャラクタを調整された前記画像に結合することと、を含み、
前記選択されたキャラクタ部分を前記背景画像中の前記対応部分に置き換えることは、
前記選択されたキャラクタ部分を決定することと、
前記背景画像中の前記選択されたキャラクタ部分に対応する前記対応部分を決定することと、
前記キャラクタ部分に対応するピクセルのピクセル値が除去され、前記背景画像内の対応部分のピクセルのピクセル値が埋められることと、を含み、
前記背景画像中の前記選択されたキャラクタ部分に対応する前記対応部分を決定することは、
前記選択されたキャラクタ部分の画像内の位置を決定し、次に、画像内の前記選択されたキャラクタ部分の位置を使用して、前記対応部分の位置を決定することを含み、
前記デフォルトパラメータは、前記処理される画像のサイズ及び画像の背景と所定の種類の背景との相関度を含む前記モデルの使用条件を記述するために使用されるパラメータである、
画像を処理するための方法。
前記背景画像を決定することは、
前記画像を、画像内のキャラクタの背景画像を決定するための機器学習モデルである背景決定モデルに入力して、前記背景画像を取得することを含む
請求項１に記載の方法。
前記属性を決定することは、
前記画像の前記選択されたキャラクタ部分を、キャラクタの属性を決定するための機器学習モジュールであるキャラクタ属性決定モジュールに入力して、前記キャラクタの前記属性を決定することを含む
請求項１に記載の方法。
取得された対象キャラクタを調整された前記画像に結合することは、
前記対象キャラクタを取得することと、
前記属性に基づいて前記対象キャラクタの属性を決定することと、を含む
請求項１に記載の方法。
前記属性は、フォント、サイズ、太さ、色、または下線のうちの少なくとも１つを含む
請求項１に記載の方法。
前記画像を取得することと、
前記画像の対象領域から前記選択されたキャラクタ部分を決定することと、をさらに含む
請求項１に記載の方法。
モデルのデフォルトパラメータを調整するかどうかを決定するモジュールと、
前記デフォルトパラメータを調整する必要があると決定した場合、前記モデルのデフォルトパラメータを調整するモジュールと、
画像内のキャラクタに対する背景を記述した前記画像の背景画像を決定するように配置される背景画像決定モジュールと、
前記画像内の選択されたキャラクタ部分に対応するキャラクタの属性を決定するように配置される第１の属性決定モジュールと、
前記選択されたキャラクタ部分を前記背景画像中の対応部分に置き換えて、調整された画像を取得するように配置される第１の置換モジュールと、
前記属性に基づいて、取得された対象キャラクタを調整された前記画像に結合するように配置される結合モジュールと、を含み、
前記第１の置換モジュールは、
前記選択されたキャラクタ部分を決定するように配置されるキャラクタ部分決定モジュールと、
前記背景画像中の前記選択されたキャラクタ部分に対応する前記対応部分を決定するように配置される対応部分決定モジュールと、
前記キャラクタ部分に対応するピクセルのピクセル値が除去され、前記背景画像内の対応部分のピクセルのピクセル位置が埋められるモジュールと、を含み、
前記対応部分決定モジュールは、
前記選択されたキャラクタ部分の画像内の位置を決定し、次に、画像内の前記選択されたキャラクタ部分の位置を使用して、前記対応部分の位置を決定するモジュールを含み、
前記デフォルトパラメータは、前記処理される画像のサイズ及び画像の背景と所定の種類の背景との相関度を含む前記モデルの使用条件を記述するために使用されるパラメータである、
画像を処理するための装置。
前記背景画像決定モジュールは、
前記画像を、画像内のキャラクタの背景画像を決定するための機器学習モジュールである背景決定モジュールに入力して、前記背景画像を取得するように配置される背景画像取得モジュールを含む
請求項７に記載の装置。
前記第１の属性決定モジュールは、
前記画像の前記選択されたキャラクタ部分を、キャラクタの属性を決定するための機器学習モジュールであるキャラクタ属性決定モジュールに入力して、前記キャラクタの前記属性を決定するように配置される第２の属性決定モジュールを含む
請求項７に記載の装置。
前記結合モジュールは、
前記対象キャラクタを取得するように配置される対象キャラクタ取得モジュールと、
前記属性に基づいて前記対象キャラクタの属性を決定するように配置される対象キャラクタ属性決定モジュールと、を含む
請求項７に記載の装置。
前記属性は、フォント、サイズ、太さ、色、または下線のうちの少なくとも１つを含む
請求項７に記載の装置。
前記画像を取得するように配置される画像取得モジュールと、
前記画像の対象領域から前記選択されたキャラクタ部分を決定するように配置される選択キャラクタ部分決定モジュールと、をさらに含む
請求項７に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～６のいずれか一項に記載の方法を実行させる命令を記憶する、
電子デバイス。
コンピュータに請求項１～６のいずれか一項に記載の方法を実行させるコンピュータ命令を記憶する
非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される際に、請求項１～６のいずれか一項に記載の方法のステップを実現する
コンピュータプログラム。