JP2022172292A

JP2022172292A - テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP2022172292A
Application number: JP2022140728A
Authority: JP
Inventors: ポンユェンリュウ; Pengyuan Lyu; スンファン; Son Pham; シャオイェンワン; Shaoyan Wang; ユエチェンユー; Yuechen Yu; チョンチュエンジャン; Chengquan Zhang; クンヤオ; Kun Yao; ジュンユーハン; Junyu Han
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-06
Filing date: 2022-09-05
Publication date: 2022-11-15
Anticipated expiration: 2042-09-05
Also published as: US20230010031A1; JP7418517B2; KR20220155948A; CN114359905B; CN114359905A

Abstract

【課題】テキスト認識の精度を向上させる方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。【解決手段】方法は、認識対象画像の多次元の第１の特徴マップを取得し、第１の特徴マップにおける各特徴量に基づいて、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行い、強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。【選択図】図１

Description

本開示は、人工知能技術分野に関し、具体的には、深層学習、コンピュータビジョンの技術分野に関する。

教育、医療、金融など多くの分野で用いられる画像にはテキストが含まれる。上述の画像に基づいて、正確に情報処理を行うためには、上述の画像に対してテキストの認識を行い、認識の結果に基づいて情報処理を行う必要がある。

本開示は、テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。

本開示の一態様によれば、テキスト認識の方法テキスト認識の方法であって、
認識対象画像の多次元の第１の特徴マップを取得するステップと、
前記第１の特徴マップにおける各特徴量に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップと、
強化処理後の第１の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うステップと、を含む方法を提供する。

本開示の別の態様によれば、テキスト認識の装置であって、
認識対象画像の多次元の第１の特徴マップを取得するように構成される特徴取得モジュールと、
前記第１の特徴マップにおける各特徴量に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成される特徴強化モジュールと、
強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュールと、
を備える装置を提供する。

本開示の別の態様によれば、電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続され、前記少なくとも１つのプロセッサによって実行可能な指令を記憶したメモリと、を備え、
前記指令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、上述のテキスト認識の方法を実行させる、電子機器を提供する。

本開示の別の態様によれば、上述のテキスト認識の方法をコンピュータに実行させるためのコンピュータ指令を記憶した非一時的なコンピュータ可読記憶媒体を提供する。

本開示の別の態様によれば、プロセッサによって実行されると、上述のテキスト認識の方法を実現させるコンピュータプログラムを提供する。

以上から分かるように、本開示の実施形態に係る方法によるテキスト認識において、まず、認識対象画像の多次元の第１の特徴マップを得、その後、第１の特徴マップにおける各特徴量に基づいて、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行い、強化処理後の第１の特徴マップに基づいてテキスト認識を行うことにより、認識対象画像に対するテキスト認識を実現することができる。

また、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行う際に、特徴量毎に対して、第１の特徴マップにおける各特徴量に基づいて処理を行うようにする。このようにして強化処理後の第１の特徴マップにおけるそれぞれの特徴量は、いずれも画像のグローバル情報を考慮したものとなるので、強化処理後の第１の特徴マップは、上述の認識対象画像のグローバル情報を特徴付けることができ、これにより、強化処理後の第１の特徴マップに基づいて認識対象画像に対してテキスト認識を行うことにより、テキスト認識の精度を向上させることができる。

なお、発明の概要に記載の内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解される。

図面は本出願をよりよく理解するために用いられ、本出願に対する限定ではない。
本開示の実施形態による第１のテキスト認識の方法のフローチャートである。本開示の実施形態による第２のテキスト認識の方法のフローチャートである。本開示の実施形態による第３のテキスト認識の方法のフローチャートである。本開示の実施形態による第４のテキスト認識の方法のフローチャートである。本開示の実施形態による第５のテキスト認識の方法のフローチャートである。本開示の実施形態による第１のテキスト認識の装置のフローチャートである。本開示の実施形態による第２のテキスト認識の装置のフローチャートである。本開示の実施形態による第３のテキスト認識の装置のフローチャートである。本開示の実施形態による第４のテキスト認識の装置のフローチャートである。本開示の実施形態による第５のテキスト認識の装置のフローチャートである。本開示の実施形態によるテキスト認識の方法を実装する電子機器のブロック図である。

以下は図面を参照して本出願の例示的な実施形態を説明し、ここでは理解に役立つため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更や修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

本開示の実施形態による第１のテキスト認識の方法のフローチャートである図１を参照すると、図１は、上述の方法は、以下のステップＳ１０１～Ｓ１０３を含む。

ステップＳ１０１では、認識対象画像の多次元の第１の特徴マップを得る。

上述の第１の特徴マップは、認識対象画像の複数の次元の特徴量を含む画像である。第１の特徴マップの次元は、特定のシーンに依存する。例えば、上述の第１の特徴マップは、３次元の特徴マップであり、この場合、３つの次元は、幅次元、高さ次元、および奥行き次元であり、奥行き次元の次元値は、認識対象画像のチャネル数によって決定されるようにしてもよい。例えば、認識対象画像がＲＧＢフォーマットの画像であると仮定すると、認識対象画像は、Ｒチャネル、ＧチャネルおよびＢチャネルの３つのチャネルを有し、認識対象画像の深さ次元における次元値は、それぞれ１、２、３である。

具体的には、第１の特徴マップは、以下の２つの異なる方法により得るようにしてもよい。

一実施形態では、まず、認識対象画像を取得し、認識対象画像に対して特徴抽出を行って、上述の第１の特徴マップを得るようにしてもよい。

別の実施形態では、まず、特徴抽出の機能を有する他の機器を用いて認識対象画像に対して特徴抽出を行い、その後、上述の機器が認識対象画像に対して特徴抽出を行って得た特徴マップを第１の特徴マップとするようにしてもよい。

認識対象画像に対する特徴抽出は、従来技術の特徴抽出用ネットワークモデルまたは特徴抽出用アルゴリズムに基づいて実施されてもよい。例えば、上述の特徴抽出用ネットワークモデルは、例えば、ｖｇｇネットワークモデル、ｒｅｎｓｅｔネットワークモデル、ｍｏｂｉｌｅｎｅｔネットワークモデルなどの畳み込みニューラルネットワークモデルであってもよく、または、ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ：特徴ピラミッドネットワーク）、ＰＡＮ（ＰｉｘｅｌＡｇｇｒｅｇａｔｉｏｎＮｅｔｗｏｒｋ：画素集約ネットワーク）などのネットワークモデルであってもよい。上述の特徴抽出アルゴリズムは、ｄｅｆｏｒｍｃｏｎｖ、ｓｅ、ｄｉｌａｔｉｏｎｃｏｎｖ、ｉｎｃｅｐｔｉｏｎなどの演算子であってもよい。

ステップＳ１０２では、第１の特徴マップにおける特徴量のそれぞれに基づいて、第１の特徴マップにおける特徴量毎に対して、特徴強化処理を行う。

画像特徴は、画像内に受容野を有する。この受容野は、画像特徴が由来するものと理解されるものであってもよいし、画像内の、画像特徴が特徴付ける部分的な領域であってもよい。異なる画像特徴は、その受容野が異なっていてもよい。画像特徴の受容野が変わると、当該画像特徴も変わる。このように、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うことにより、第１の特徴マップにおける各特徴量の受容野を拡大することができ、上述の認識対象画像に対する第１の特徴マップの表現力を改善することができる。

第１の特徴マップにおける特徴量毎に特徴強化処理する際に、いずれも第１の特徴マップにおける各特徴量を考慮するので、上述の特徴強化処理は、グローバルアテンションメカニズムに基づいた特徴強化処理であると考えられる。

第１の特徴マップにおける特徴量毎に対する特徴強化処理の具体的な実施態様については、後述の図２に示される実施形態におけるステップＳ２０２～Ｓ２０５および図５に示される実施形態におけるステップＳ５０２～Ｓ５０４を参照できるので、ここで、詳細に説明しない。

ステップＳ１０３では、強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。

一実施形態では、強化処理後の第１の特徴マップを得た後、当該特徴マップに基づいて、認識対象画像内のテキストボックスを予測し、それから、テキストボックス内のコンテンツに対して、テキストの認識を行って、認識対象画像内に含まれるテキストを得るようにしてもよい。

具体的には、テキスト認識は、既存の様々な復号技術によって実施することができ、ここでは、詳細に説明しない。

また、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行う際に、特徴量毎に対して、第１の特徴マップにおける各特徴量に基づいて処理を行うようにする。このようにして強化処理後の第１の特徴マップにおけるそれぞれの特徴量は、いずれも画像のグローバル情報を考慮したものとなるので、強化処理後の第１の特徴マップは、上述の認識対象画像のグローバル情報を特徴付けることができ、これにより、強化処理後の第１の特徴マップに基づいて認識対象画像をテキスト認識することにより、テキスト認識の精度を向上させることができる。

次に、上述の実施形態における第１の次元、第２の次元および第３の次元の具体的な呈示形態について説明する。

本開示の一実施形態では、上述の第１の次元は深さ次元、上述の第２の次元は幅次元、上述の第３の次元は高さ次元である。

認識対象画像の特徴抽出の際に、以下の２つの態様が考えられる。

１つの態様において、上述認識対象画像がＲＧＢなどのフォーマットのマルチチャネル画像である場合、認識対象画像に対する特徴抽出は、チャネル毎に画像の特徴抽出を行う必要があり、このようにして得られた特徴マップは、複数枚の２次元の特徴マップから形成された３次元の特徴マップであり、この場合、上述の深さ次元は、画像のチャネルに対応し、深さ次元の最大次元値が、画像のチャネル数となる。

もう一つの態様において、特徴付け力の強い特徴マップを得るために、通常、認識対象画像に対して複数回の特徴抽出を行う必要があり、１回の特徴抽出につき１枚の２次元の特徴マップを得ることができ、複数回の特徴抽出につき複数枚の２次元の特徴マップを得ることができ、これら複数枚の２次元の特徴マップから、３次元の特徴マップを形成することができ、この場合、上述の深さ次元は、画像特徴抽出の回数に対応し、深さ次元の最大次元値が、画像特徴抽出の回数となる。

上述２つの態様に基づいて、第１の次元が深さ次元、第２の次元が幅次元、第３の次元が高さ次元であると、第１の特徴マップにおける第１の次元の１つの次元値での第２の次元および第３の次元の対応する特徴量は、高さ次元および幅次元として２次元の特徴マップを形成することができ、これにより、第２の次元および第３の次元に対応する特徴量を再構成することは、２次元の特徴マップにおける特徴量を再構成することに相当し、単一の２次元の特徴マップの特徴量を再構成することにより、他の２次元の特徴マップによる干渉を回避することができ、それにより、上述の１次元の特徴データを得るのに有利である。

次に、上述ステップＳ１０２において第１の特徴マップにおける特徴量毎に対する特徴強化処理について説明する。

本開示の一実施形態では、図２を参照すると、第２のテキスト認識の方法のフローチャート概略図が提供され、本実施形態では、上述の第１の特徴マップは、３次元の特徴マップであり、上述のテキスト認識の方法は、以下のステップＳ２０１～Ｓ２０６を含む。

ステップＳ２０１では、認識対象画像の多次元の第１の特徴マップを得る。

上述のステップＳ２０１は、上述のステップＳ１０１と同じであり、ここでは説明を省略する。

ステップＳ２０２では、３つの次元のうちの第１の次元の次元値毎に対して、第１の特徴マップにおいて、当該次元値での第２の次元および第３の次元の対応する特徴量を再構成して、当該次元値に対応する１次元の特徴データを得る。

一実施形態では、上述の第１の特徴マップにおける３つの次元は、深さ次元、幅次元、高さ次元であってもよい。

例えば、上述の第１の特徴マップは、Ｃ＊Ｈ＊Ｗの特徴マップとして表すことができ、ただし、Ｃは、第１の特徴マップの深さ次元を表し、その次元値が、１以上、且つ、認識対象画像のチャネル数以下となり得、Ｈは、第１の特徴マップの高さ次元を表し、その次元値が、１以上、且つ、第１の特徴マップの列の最大画素数以下となり得、Ｗは、第１の特徴マップの幅次元を表し、その次元値が、１以上、且つ、第１の特徴マップの行の最大画素数以下となり得る。

第１の特徴マップの高さ次元Ｈを例にとると、第１の特徴マップの列の最大画素数が２０である場合、第１の特徴マップの高さ次元の次元値が、１、２、３、４……１８、１９、２０となり得る。

上述の第１の特徴マップにおける各特徴量は、上述３つの次元の何れにおいても、対応する次元値を有する。

例えば、ある特徴量は、３つの次元における座標が（ｃ１、ｈ１、ｗ１）であるとは、当該特徴量が、第１の特徴マップの深さ次元における次元値がｃ１であり、高さ次元における次元値がｈ１であり、幅次元における次元値がｗ１であるということを意味する。

第１の次元の次元値（説明の便宜上、当該次元値をＶと表記する）毎について、当該次元値Ｖでは、第２の次元および第３の次元に対応する特徴量は、上述の第１の特徴マップに含まれる各特徴量のうち、第１の次元における次元値が上述の次元値Ｖとなる各特徴量を示す。

具体的には、第１の次元の１つの次元値では、第２の次元および第３の次元の対応する特徴量は、２次元データとなり、これらの２次元データは、１枚の２次元の特徴マップを形成するので、第１の次元の次元値毎について、当該次元値での第２の次元および第３の次元の対応する特徴量は、当該次元値での２次元の特徴マップに含まれる特徴量と理解される。これにより、上述の対応する特徴量を再構成して１次元の特徴データを得ることは、上述の２次元の特徴マップに対して次元変換を行って、２次元の特徴マップにおける各特徴量が含まれた１次元の特徴データを得ると理解され得る。

例えば、２次元の特徴マップにおける特徴量に対して、各行の首尾を接続することで、２次元の特徴マップを１次元の特徴データに変換するようにしてもよいし、２次元の特徴マップにおける特徴量に対して、各列の首尾を接続することで、２次元の特徴マップを１次元の特徴データに変換するようにしてもよいが、本開示の実施形態はこれに限定されるものではない。

ステップＳ２０３では、第１の次元の各次元値に対応する１次元の特徴データを含む２次元の第２の特徴マップを取得する。

上述の第２の特徴マップは、２つの次元を有する２次元画像であり、そのうち、１つの次元（説明の便宜上、次元Ｘという）は、第１の次元に対応し、その次元値が第１の次元の次元値と同じであり、他の一つの次元（説明の便宜上、Ｙ次元という）は、第２の次元および第３の次元に対応し、その次元値が１からマージング次元値であり、マージング次元値は、第２の次元の最大次元値と第３の次元の最大次元値との積に等しい。

例えば、上述の次元Ｘは、第２の特徴マップにおける画素行次元に対応し、次元Ｙは、第２の特徴マップにおける画素列次元に対応するとされてもよい。この場合、Ｘの値が固定されると、画素行は固定されることになり、その画素行には、次元ＹにおけるＹの各値の対応する特性量が含まれ、即ち、それぞれの画素行は、第１の次元の１つの次元値に対応し、当該画素行における各画素値は、それぞれ、当該画素行の対応する次元値に対応する１次元の特性データにおける特性値である。

以上の事情に鑑み、本開示の一実施形態では、第１の次元の各次元値に対応する１次元の特徴データを、第１の次元の各次元値の順に配列して、各１次元の特徴データを含む２次元の特徴データを、２次元の第２の特徴マップとして形成するようにしてもよい。

具体的には、１次元の特徴データの配列の際に、１次元の特徴データを行として配列してもよいし、１次元の特徴データを列として配列してもよい。

例えば、第１の次元の次元値１が１次元の特徴データ［ｍ_１１，ｍ_１２，…，ｍ_１ｎ］に対応し、第１の次元の次元値２は、１次元の特徴データ［ｍ_２１，ｍ_２２，…，ｍ_２ｎ］に対応し、第１の次元の次元値３は、１次元の特徴データ［ｍ_３１，ｍ_３２，…，ｍ_３ｎ］に対応すると、１次元の特徴データを行とし、第１の次元の各次元値が小から大の順で配列して得られた第２の特徴マップに含まれるデータは、以下のように表される。

上述の第２の特徴マップから分かるように、次元Ｘの次元値１は、１次元の特徴データ［ｍ_１１，ｍ_１２，…，ｍ_１ｎ］に対応し、次元Ｘの次元値２は、１次元の特徴データ［ｍ_２１，ｍ_２２，…，ｍ_２ｎ］に対応し、次元Ｘの次元値３は、［ｍ_３１，ｍ_３２，…，ｍ_３ｎ］に対応する。

ステップＳ２０４では、第２の特徴マップにおいて、各次元における各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得る。

第２の特徴マップは、２次元画像であるため、１の次元から見ると、第２の特徴マップは、複数の１次元の特徴データを含んでいると考えられる。そこで、第２の特徴マップにおける１次元の特徴データは、次元によって、二種の特徴データに区分されることができる。

第１種の特徴データは、第２の特徴マップにおいて、次元Ｘにおける各次元値に対応する１次元の特徴データであり、この場合、各１次元の特徴データに当該次元値での次元Ｙの各次元値に対応する特徴量が含まれ、含まれる特徴量の数が次元Ｙの次元値の数に等しい。

第２種の特徴データは、第２の特徴マップにおいて、次元Ｙにおける各次元値に対応する１次元の特徴データであり、この場合、各１次元の特徴データに、当該次元値での次元Ｘの各次元値に対応する特徴量が含まれ、含まれる特徴量の数が次元Ｘの次元値の数に等しい。

以上から明らかなように、第２の特徴マップにおいて、１次元の特徴データ毎に複数の特徴量が含まれ、正規化処理の際に、各１次元の特徴データを単位とし、各１次元の特徴データにおける各特徴量に対して正規化処理を行う。

次に、正規化処理について説明する。

本開示の一実施形態では、第２の特徴マップは、次元Ｘと次元Ｙとの２つの次元を有する２次元画像であり、この場合、正規化処理の際に、上述２つの次元のうちの１つの次元に対応する各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、得られた正規化処理の結果の上で、他の１つの次元に対応する各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得るようにしてもよい。

一実施形態では、次元Ｘに対応する各１次元の特徴データに含まれる特徴量に対して正規化処理を行い、得られた正規化処理の結果の上で、次元Ｙに対応する各１次元の特徴データに含まれる特徴量に対して正規化処理を行うようにしてもよい。即ち、先ず、各第１種の特徴データに対して正規化処理を行い、得られた処理の結果の上で、各第２種の特徴データに対して正規化処理を行う。

別の実施形態では、次元Ｙに対応する各１次元の特徴データに含まれる特徴量に対して正規化処理を行い、得られた正規化処理の結果の上で、次元Ｘに対応する各１次元の特徴データに含まれる特徴量に対して正規化処理を行うようにしてもよい。即ち、各第２種の特徴データに対して正規化処理を行い、得られた処理の結果の上で、各第１種の特徴データに対して正規化処理を行う。

正規化処理を行うための具体的な実施形態は、図３に示す実施形態におけるステップＳ３０４～Ｓ３０５を参照できるので、ここでは、詳細に説明しない。

正規化処理は、画像の大きさを変えず、特徴量の取り得る値のみを変えるので、正規化処理後に得られた第３の特徴マップは、上述の第２の特徴マップと次元が同じであり、サイズも同じである。第２の特徴マップがＣ＊（Ｈ＊Ｗ）の特徴マップである場合、第３の特徴マップも同じようにＣ＊（Ｈ＊Ｗ）の特徴マップである。

ステップＳ２０５では、第３の特徴マップに基づいて、第１の特徴マップの特徴量毎に対して特徴強化処理を行う。

第３の特徴マップは、２次元画像であり、第１の特徴マップは、３次元画像である。例えば、第３の特徴マップは、Ｃ＊（Ｈ＊Ｗ）の２次元画像として表されてもよく、第１の特徴マップは、Ｃ＊Ｈ＊Ｗの３次元画像として表されてもよい。このようにして、第３の特徴マップについては、その２つの次元が、それぞれ、ＣおよびＨ＊Ｗに対応しており、第１の特徴マップについては、その３つの次元が、それぞれ、Ｃ、ＨおよびＷに対応する。その為、まず、これらの２つの特徴マップの次元を統一し、それから、第１の特徴マップおよび第３の特徴マップの次元が統一された上、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うようにしてもよい。

第１の特徴マップと第３の特徴マップの次元を統一し、第１の特徴マップの特徴量毎に対して特徴強化処理を行うための具体的な実施形態については、図４に示す実施形態におけるステップＳ４０５～Ｓ４０６の説明を参照できるので、ここでは、詳細に説明しない。

ステップＳ２０６では、強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。

上述ステップＳ２０６は、前述のステップＳ１０３と同じであり、ここでは説明を省略する。

以上のように、本開示の実施形態による方法を適用してテキスト認識を行う場合、１次元の特徴データに含まれる特徴量を正規化するには、当該１次元の特徴データに含まれる全ての特徴量を用いて正規化を行う必要があるため、正規化処理後の１次元の特徴データにおける各特徴量は、当該１次元の特徴データにおける全ての特徴量による影響を受けることになる。その上で、第２の特徴マップにおいて、次元毎における各１次元の特徴データに含まれるそれぞれの特徴量に対して全て正規化処理を行うことで、第３の特徴マップにおけるそれぞれの特徴量は、いずれも第１の特徴マップの全ての特徴量による影響を受けることになり、これにより、第３の特徴マップは、認識対象画像をグローバル特徴の角度で表すことができる。このように、第３の特徴マップに基づいて、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うことにより、認識対象画像全体を受容野とした特徴マップを得ることができ、テキスト認識に用いられる特徴マップの受容野を大きくすることができるので、認識対象画像のテキスト認識の精度を向上させることができる。

次に、上述のステップＳ２０４の、第２の特徴マップにおいて各次元における各１次元の特徴データに含まれる特徴量を正規化して第３の特徴マップを得ることについて説明する。

本開示の一実施形態では、図３を参照すると、第３のテキスト認識の方法のフローチャートが提供され、本実施形態では、上述のテキスト認識の方法は、以下のステップＳ３０１～Ｓ３０７を含む。

ステップＳ３０１では、認識対象画像の多次元の第１の特徴マップを取得する。

ステップＳ３０２では、３つの次元のうちの第１の次元の次元値毎に対して、第１の特徴マップにおいて当該次元値での第２の次元および第３の次元に対応する特徴量を再構成して、当該次元値に対応する１次元の特徴データを得る。

ステップＳ３０３では、第１の次元の各次元値に対応する１次元の特徴データを含む２次元の第２の特徴マップを取得する。

上述のステップＳ３０１は、前述のステップＳ１０１と同じであり、上述のステップＳ３０２～Ｓ３０３は、それぞれ、前述のステップＳ２０２～Ｓ２０３と同じであるので、ここでは、説明を省略する。

ステップＳ３０４では、第２の特徴マップにおける各第１の特徴データに含まれる特徴量に対して正規化処理を行う。

ここで、第１の特徴データは、第１の次元の各次元値に対応する１次元の特徴データである。

以上の記述から分かるように、上述の第２の特徴マップは、次元Ｘと次元Ｙの２つの次元を有し、次元Ｘは、第１の次元に対応し、次元Ｙは、第２の次元および第３の次元に対応する。そこで、上述の第１の特徴データは、第２の特徴マップの次元Ｘにおける各次元値に対応する１次元の特徴データ、即ち、前述のステップＳ２０４で述べた第１種の特徴データである。

各第１の特徴データに含まれる特徴量に対する正規化処理の際に、第１の特徴データを単位で正規化処理を行う。このようにして、ある第１の特徴データについて、当該第１の特徴データに含まれる特徴量を用いて、当該第１の特徴データに含まれる各特徴量に対して正規化処理を行う。

本開示の一実施形態では、第１の特徴データに含まれる特徴量の正規化処理は、ｓｏｆｔｍａｘアルゴリズムにより行われてもよい。本開示の他の実施形態では、正規化処理は、Ｌ１Ｎｏｒｍａｌｉｚｅアルゴリズム、Ｌ２Ｎｏｒｍａｌｉｚｅアルゴリズムなどの正規化アルゴリズムにより行われてもよい。ここでは詳細に説明しない。

ステップＳ３０５では、正規化処理後の第２の特徴マップにおける各第２の特徴データに含まれる特徴量に対して正規化処理を行う。

ここで、第２の特徴データは、マージング次元の各次元値に対応する１次元の特徴データであり、マージング次元は、第２の特徴マップにおいて第２の次元および第３の次元に対応する次元である。前述から明らかなように、上述のマージング次元は、上述の次元Ｙであり、よって、上述の第２の特徴データは、第２の特徴マップにおいて次元Ｙの各次元値に対応する１次元の特徴データ、即ち、前述のステップＳ２０４で述べた第２種の特徴データである。

各第２の特徴データに含まれる特徴量に対する正規化処理の際に、第２の特徴データを単位で正規化処理を行う。このようにして、ある第２の特徴データについて、当該第２の特徴データに含まれる特徴量を用いて、当該第２の特徴データに含まれる各特徴量に対して正規化処理を行う。

第２の特徴データに含まれる特徴量の正規化処理は、同様に、ｓｏｆｔｍａｘアルゴリズム、Ｌ１Ｎｏｒｍａｌｉｚｅアルゴリズム、Ｌ２Ｎｏｒｍａｌｉｚｅアルゴリズム等の正規化アルゴリズムにより行われてもよい。

ステップＳ３０６では、第３の特徴マップに基づいて、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行う。

ステップＳ３０７では、強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。

上述のステップＳ３０６は、前述のステップＳ２０５と同じであり、上述ステップＳ３０７は、前述のステップＳ１０３と同じであるので、ここでは説明を省略する。

以上から明らかなように、本開示の一実施形態による方法では、各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得る際に、まず、第１の次元の各次元値に対応する第１の特徴データに対して正規化処理を行い、正規化処理を行った上で、マージング次元の各次元値に対応する第２の特徴データに対して正規化処理を行う。第１の特徴データに含まれる特徴量の数がマージング次元の次元値の数と等しく、そして、マージング次元の次元値の数が往々に第１の次元の次元値の数よりも大きいため、まず、第１の特徴データに対して正規化処理を行うことにより、その後に行われる正規化処理にいっそう豊富な参照データを提供することができ、得られた第３の特徴マップの精度を向上させるのに有利である。

本開示の他の実施形態では、上述の図３に示される実施形態と同様に、上上述のステップＳ３０３を実行した後、まず、上述のステップＳ３０５を実行して、各第２の特徴データに含まれる特徴量に対して正規化処理を行い、その後、正規化処理の結果の上で、上述のステップＳ３０４を実行して、各第１の特徴データに含まれる特徴量に対して正規化処理を行うようにしてもよい。

次に、上述のステップＳ２０５における第１の特徴マップの特徴量毎に対する特徴強化処理について説明する。

本開示の一実施形態では、図４を参照すると、第４のテキスト認識の方法のフローチャート概略図が提供され、本実施形態では、上述テキスト認識の方法は、以下のステップＳ４０１～Ｓ４０７を含む。

ステップＳ４０１では、認識対象画像の多次元の第１の特徴マップを取得する。

ステップＳ４０２では、３つの次元のうちの第１の次元の次元値毎に対して、第１の特徴マップにおいて当該次元値での第２の次元および第３の次元の対応する特徴量を再構成し、当該次元値に対応する１次元の特徴データを得る。

ステップＳ４０３では、第１の次元の各次元値に対応する１次元の特徴データを含む２次元の第２の特徴マップを取得する。

ステップＳ４０４では、第２の特徴マップにおいて、各次元における各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得る。

上述のステップＳ４０１は、前述のステップＳ１０１と同じであり、上述のステップＳ４０２～Ｓ４０４は、前述のステップＳ２０２～Ｓ２０４と同じであるので、ここでは説明を省略する。

ステップＳ４０５では、第１の処理対象マップに対して次元変換を行って、第２の処理対象マップと同じ次元の第３の処理対象マップを得る。

ここで、第１の処理対象マップは、第３の特徴マップまたは第１の特徴マップであり、第２の処理対象マップは、第３の特徴マップおよび第１の特徴マップのうちの第１の処理対象マップ以外の画像である。

本開示の一実施形態では、上述の第１の処理対象マップは、第３の特徴マップであり、上述の第２の処理対象マップは、第１の特徴マップである。

上述の第３の特徴マップが２次元画像であり、上述の第１の特徴マップが３次元画像であるため、２次元の第３の特徴マップを３次元の特徴マップに変換し、変換して得た３次元の特徴マップを上述の第３の処理対象マップとするようにしてもよい。

第３の特徴マップを３次元の特徴マップに変換する具体的な実施態様は、後の実施形態で説明し、ここでは詳細に説明しない。

本開示の他の実施形態では、上述の第１の処理対象マップは、第１の特徴マップであり、上述の第２の処理対象マップは、第３の特徴マップである。

この場合、３次元の第１の特徴マップを２次元の特徴マップに変換し、変換後に得られた２次元の特徴マップを上述の第３の処理対象マップとするようにしてもよい。

３次元の第１の特徴マップを２次元の特徴マップに変換することは、上述ステップＳ２０２～Ｓ２０３を実行することで行われてもよいので、上述の２次元の第２の特徴マップをそのまま上述の第３の処理対象マップとするようにしてもよい。

ステップＳ４０６では、第２の処理対象マップと第３の処理対象マップにおける同じ位置の特徴量を加算し、演算して得た画像を、強化処理後の第１の特徴マップとする。

第２の処理対象マップと第３の処理対象マップとは、次元が同じであり、且つ、サイズが同じであってもよいので、第２の処理対象マップと第３の処理対象マップにおいて同じ位置の２つの特徴量の組を複数決定し、各組の２つの特徴量を加算して、演算後の画像を得るようにしてもよい。

以下では、第１の処理対象マップおよび第２の処理対象マップのそれぞれの具体的な態様を参照して説明する。

態様１では、上述の第１の処理対象マップが第３の特徴マップであり、上述の第２の処理対象マップが第１の特徴マップである場合、上述の第３の処理対象マップは、３次元画像となる。第２の処理対象マップと第３の処理対象マップにおける同じ位置の特徴量を加算し、加算して得た３次元画像を強化処理後の第１の特徴マップとするようにしてもよい。

態様２では、上述の第１の処理対象マップが第１の特徴マップであり、上述の第２の処理対象マップが第３の特徴マップである場合、上述の第３の処理対象マップは、２次元画像となる。第２の処理対象マップと第３の処理対象マップにおける同じ位置の特徴量を加算し、加算して得た２次元画像を強化処理後の第１の特徴マップとするようにしてもよい。

ステップＳ４０７では、強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。

上述のステップＳ４０７は、前述のステップＳ１０３と同じであるので、ここでは説明を省略する。

以上から分かるように、本開示の実施形態に係る方法によるテキスト認識の際に、第１の特徴マップと第３の特徴マップのうちの１つの特徴マップに対して次元変換を行うことにより、同じ次元の２つの特徴マップを得、それから、これら２つの特徴マップで同じ位置の特徴量を加算し、加算して得た画像を強化処理後の第１の特徴マップとする。第３の特徴マップは、グローバル画像情報を含むので、上述の同じ次元の２つの特徴マップで同じ位置の特徴量を加算することにより、第１の特徴マップに対する特徴強化処理を正確に実現することができ、さらにテキスト認識を実現することができる。

次に、上述した図４の実施形態におけるステップＳ４０５の、第３の特徴マップを３次元の特徴マップに変換する実現プロセスについて説明する。

本開示の一実施形態では、以下のステップ１およびステップ２により２次元の第３の特徴マップを３次元の特徴マップに変換するようにしてもよい。

ステップ１では、第２の次元と第３の次元の次元値に応じて、第３の特徴マップにおける第１の次元の各次元値に対応する１次元の特徴データを再構成して、第１の次元の各次元値に対応する２次元の特徴マップを得る。

上述の図２に示す実施形態のステップＳ２０２の記述によると、第１の特徴マップにおいて第１の次元の各次元値での第２の次元および第３の次元に対応する特徴量は、１つの２次元の特徴マップに含まれる特徴量と見なされ、上述の特徴量を再構成して１次元の特徴データを得ることは、上述の２次元の特徴マップに対して次元変換を行って１次元の特徴データを得ると理解され得るので、上述のステップＳ２０２は、２次元の特徴マップを１次元の特徴データに変換するステップと見なされ得る。本ステップは、上述のプロセスと逆となり、１次元の特徴データを２次元の特徴マップとして再構成することが望まれるので、本ステップは、上述のステップＳ２０２の逆のプロセスと見なされ得る。

具体的には、再構成されるべき２次元の特徴マップが１つの２次元画像であるため、第２の次元の最大次元値および第３の次元の最大次元値に応じて、２次元の特徴マップの列方向における画素点の個数および行方向における画素点の個数を決定し、決定された列方向における画素点の個数および行方向における画素点の個数を、それぞれ、第１の個数および第２の個数とし、その後、上述の第１の個数および第２の個数に基づいて、１次元の特徴データを分割して２次元の特徴マップを再構成するようにしてもよい。

一実施態様では、１次元の特徴データを分割する際に、構築されるべき２次元の特徴マップにおける１行の画素点の画素値として、１次元の特徴データから第２の個数の特徴量を順次読み出すプロセスを、第１の個数回の読み出しを完了するまで繰り返すようにしてもよい。

例えば、上述の１次元の特徴データが６００個の特徴量を含み、第２の次元の最大次元値が２０であり、第３の次元の最大次元値が３０である場合、上述の第１の個数は２０となり、第２の個数は３０となり、構築されるべき２次元の特徴マップは、２０×３０の特徴マップとなる。このようにして、２次元の特徴マップを構築する際に、２次元の特徴マップの１行の画素点の画素値として、１次元の特徴データから３０個の特徴量を読み出すプロセスを、２０回繰り返して、２次元の特徴マップの構築を完了するようにしてもよい。

ステップ２では、第１の次元の各次元値に対応する２次元の特徴マップを含む３次元画像を第３の処理対象マップとして取得する。

具体的には、３次元画像において、各２次元の特徴マップが、第１の次元の各次元値に応じて配列されてもよい。例えば、次元値が小から大の順で配列されてもよい。

以上から分かるように、本実施形態による方法では、３次元画像を構築する際に、まず、２つの次元に基づいて、２次元画像を構築し、構築された画像を第３の次元に基づいて統合して３次元画像を得るようにする。このようにして、３次元画像の構築の際に３つの次元の情報を十分に考慮することで、構築された３次元画像の精度を向上させた。

本開示の一実施形態では、上述の第３の特徴マップに基づいて第１の特徴マップの特徴量毎に対して特徴強化処理を行うステップＳ２０５を実行する前に、第１の特徴マップに対して非線形変換を行うようにしてもよい。

非線形変換により、データの間の差異の程度を増大することができるため、第１の特徴マップに非線形変換を行うことにより、第１の特徴マップにおける表現力の強い特徴量と表現力の弱い特徴量との間の差異を増大することができ、そして、表現力の強い特徴量の特性値が後続の特徴強化処理に与える影響が比較的に大きいため、第１の特徴マップに非線形変換を行って、特徴量の間の差異の程度を増大するようにし、このようにして、後続の特徴強化処理の際に、表現力の強い特徴量を正確に決定することができ、これにより、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行い、テキスト認識の精度を向上させるのに有利である。

具体的には、第１の特徴マップの非線形変換は、既存の非線形変換技術により実現することができ、ここでは詳細に説明しない。

同様に、上述の、第３の特徴マップに基づいて第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップＳ２０５を実行する前に、第３の特徴マップに対して非線形変換を行うようにしてもよい。

以上から分かるように、本開示の実施形態による方法によりテキスト認識を行う際に、第１の特徴マップに対して非線形変換を行うことにより、第１の特徴マップにおける特徴量の間の差異の程度を増大させることができる。第３の特徴マップに非線形変換を行うことにより、第３の特徴マップにおける特徴量の間の差異の程度を増大させることができる。第１の特徴マップおよび／または第３の特徴マップに対して非線形変換を行うことにより、後続の特徴強化処理の際に表現力の強い特徴量を決定するのに有利であり、これにより、特徴強化処理、テキスト認識精度の向上に有利である。

また、上述のステップＳ２０５を実行する前に、第１の特徴マップおよび第３の特徴マップに対して非線形変換を行うようにしてもよいし、第１の特徴マップと第３の特徴マップのうちの一方に対して非線形変換を行うようにしてもよい。これにより、第１の特徴マップと第３の特徴マップとに非線形変換する必要があるか否かを実際に応じて判断することができ、本開示の実施形態によるテキスト認識の方法の柔軟性を高める。

また、本開示の一実施形態では、上述のステップＳ１０１を実行して認識対象画像の多次元の第１の特徴マップを得た後、上述ステップＳ１０２を実行する前に第１の特徴マップに非線形変換を行うようにしてもよい。

第１の特徴マップに非線形変換を行う上述の実施形態と同様に、第１の特徴マップに非線形変換を行うことは、後続の第１の特徴マップにおける特徴量毎に対する特徴強化処理に有利であり、テキスト認識の精度を向上させる。

また、テキスト認識の際に、上述実施形態で述べた３回の非線形変換をすべて本開示の実施形態によるテキスト認識の方法に適用してもよいし、３回の非線形変換のうちの１回または２回を適用してもよいし、３回の非線形変換のいずれも適用しなくてもよい。

なお、上述の第１の特徴マップにおける特徴量毎に対して特徴量強化処理を行うステップＳ１０２を実行する際に、上述の実施形態で述べた実施態様の他に、以下の実施形態におけるステップＳ５０２～Ｓ５０４により特徴強化処理を行うようにしてもよい。

本開示の一実施形態では、図５を参照すると、第５のテキスト認識の方法のフローチャート概略図が提供される。本実施形態では、第１の特徴マップが３次元の特徴マップであり、上述のテキスト認識の方法は、以下のステップＳ５０１～Ｓ５０５を含む。

ステップＳ５０１では、認識対象画像の多次元の第１の特徴マップを取得する。

上述のステップＳ５０１は、前述のステップＳ１０１と同じであるので、ここでは説明を省略する。

ステップＳ５０２では、第１の特徴マップにおける各第３の特徴データ間の類似度を算出する。

ここで、第３の特徴データは、３つの次元のうちの第２の次元および第３の次元の各次元値の組み合わせに対応する第１の次元の特徴量を含む。

第２の次元の１つの次元値と第３の次元の１つの次元値とは、次元値の組み合わせを１つ構成することができ、このようにして、第２の次元の各次元値と第３の次元の各次元値とは、次元値の組み合わせを複数構成することができる。

それぞれの次元値の組み合わせについて、第２の次元および第３の次元の次元値が既に決められたものであり、当該次元値の組み合わせは、第１の次元の次元値毎と結合して、第１の特徴マップにおける、結合後の情報に対応する特徴量を決定することができる。このような状況に鑑み、それぞれの第３の特徴データに、第１の次元の最大次元値と同数の特徴量が含まれている。

一実施形態では、上述の類似度を算出する際に、第３の特徴データを所定のベクトル空間内の特徴ベクトルに変換し、各特徴ベクトル間の類似度を算出することにより、特徴ベクトルに対応する第３の特徴データ間の類似度を求めるようにしてもよい。

ステップＳ５０３では、算出した全ての類似度に基づいて、算出した類似度毎に対して正規化処理を行う。

類似度の正規化処理は、ｓｏｆｔｍａｘアルゴリズム、Ｌ１Ｎｏｒｍａｌｉｚｅアルゴリズム、Ｌ２Ｎｏｒｍａｌｉｚｅアルゴリズム等の正規化アルゴリズムにより実現することができる。

ステップＳ５０４では、正規化処理後の類似度に基づいて、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行う。

具体的には、特徴を強化するために、正規化処理後の類似度を用いて、第１の特徴マップにおける特徴量毎に対して線形重み付けを行うようにしてもよい。なお、正規化処理後の類似度は、線形重み付けの重み係数とする。

ステップＳ５０５では、強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。

上述ステップＳ５０５は、前述のステップＳ１０３と同じであるので、ここで説明を省略する。

以上から分かるように、本開示の実施形態による方法を適用してテキスト認識を行う際に、第１の特徴マップにおける各第３の特徴データ間の類似度を算出し、算出した類似度毎に対して、算出した全ての類似度を用いて正規化処理を行うことにより、正規化処理後の類似度は、グローバル特徴を統合した各第３の特徴データ間の類似度を反映することができるので、正規化処理後の類似度は、グローバル画像情報を含むことになる。このようにして、正規化処理後の類似度に基づいて、第１の特徴マップにおけるそれぞれの特徴量に対しても、グローバル画像情報を考慮して特徴強化処理を行うことで、特徴強化後の第１の特徴マップはグローバル受容野を有するようになる。グローバル受容野を有する第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うことにより、テキスト認識の精度を高めることができる。

本開示は、上述のテキスト認識の方法に対応して、テキスト認識の装置を提供する。

図６を参照する。図６は、本開示の実施形態に係る第１のテキスト認識の装置の構造概略図であり、認識対象画像の多次元の第１の特徴マップを取得するように構成される特徴取得モジュール６０１と、前記第１の特徴マップにおける各特徴量に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成される特徴強化モジュール６０２と、強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール６０３とを備える。

以上から分かるように、本開示の実施形態に係る方法によるテキスト認識の際に、まず、認識対象画像の多次元の第１の特徴マップを得、その後、第１の特徴マップにおける各特徴量に基づいて、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行い、強化処理後の第１の特徴マップに基づいてテキスト認識を行うことにより、認識対象画像に対するテキスト認識を実現することができる。

本開示の一実施形態では、図７を参照すると、第２のテキスト認識の装置の構造概略図が提供され、本実施形態において、前記テキスト認識の装置は、認識対象画像の多次元の第１の特徴マップを取得するように構成される特徴取得モジュール７０１と、３つの次元のうちの第１の次元の次元値毎に対して、前記第１の特徴マップにおいて、当該次元値での第２の次元および第３の次元の対応する特徴量を再構成して、当該次元値に対応する１次元の特徴データを得るように構成される特徴再構成サブモジュール７０２と、前記第１の次元の各次元値に対応する１次元の特徴データを含む２次元の第２の特徴マップを取得するように構成される特徴取得サブモジュール７０３と、前記第２の特徴マップにおいて、次元毎における各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得るように構成される正規化処理サブモジュール７０４と、前記第３の特徴マップに基づいて、前記第１の特徴マップの特徴量毎に対して特徴強化処理を行うように構成される特徴強化サブモジュール７０５と、強化処理後の第１の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール７０６と、を備える。

以上のように、本開示の実施形態による方法を適用してテキスト認識を行う場合、１次元の特徴データに含まれる特徴量を正規化するには、当該１次元の特徴データに含まれる全ての特徴量を用いて正規化を行う必要があるため、正規化処理後の１次元の特徴データにおける各特徴量は、当該１次元の特徴データにおける全ての特徴量による影響を受けることになる。その上で、第２の特徴マップにおいて、次元毎における各１次元の特徴データに含まれる特徴量に対して正規化処理を行うことで、第３の特徴マップにおけるそれぞれの特徴量は、いずれも第１の特徴マップの全ての特徴量による影響を受けることになり、これにより、第３の特徴マップは、認識対象画像をグローバル特徴量の角度で特徴付けることができる。このように、第３の特徴マップに基づいて、第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うことにより、認識対象画像全体を受容野とした特徴マップを得ることができ、テキスト認識に用いられる特徴マップの受容野を大きくすることができるので、認識対象画像に対するテキスト認識の精度を向上させることができる。

本開示の一実施形態では、図８を参照すると、第３のテキスト認識の装置の構造概略図が提供され、本実施形態では、前記テキスト認識の装置は、認識対象画像の多次元の第１の特徴マップを取得するように構成される特徴取得モジュール８０１と、３つの次元のうちの第１の次元の次元値毎に対して、前記第１の特徴マップにおいて当該次元値での第２の次元および第３の次元に対応する特徴量を再構成し、当該次元値に対応する１次元の特徴データを得るように構成される特徴再構成サブモジュール８０２と、前記第１の次元の各次元値に対応する１次元の特徴データを含む２次元の第２の特徴マップを取得するように構成される特徴取得サブモジュール８０３と、前記第２の特徴マップにおいて、次元毎における各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得るように構成される正規化処理サブモジュール８０４と、第１の処理対象マップに対して次元変換を行って、第２の処理対象マップと同じ次元の第３の処理対象マップを得る次元変換ユニット８０５であって、前記第１の処理対象マップは、前記第３の特徴マップまたは前記第１の特徴マップであり、前記第２の処理対象マップは、前記第３の特徴マップおよび前記第１の特徴マップのうちの前記第１の処理対象マップ以外の画像である次元変換ユニット８０５と、前記第２の処理対象マップと第３の処理対象マップにおける同じ位置の特徴量を加算し、演算して得た画像を、強化処理後の第１の特徴マップとするように構成される特徴量演算ユニット８０６と、強化処理後の第１の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール８０７と、を備える。

以上から分かるように、本開示の実施形態に係る方法によるテキスト認識の際に、第１の特徴マップと第３の特徴マップのうちの１つの特徴マップに対して次元変換を行うことにより、同じ次元の２つの特徴マップを得、それから、これら２つの特徴マップにおける同じ位置の特徴量を加算し、演算して得た画像を強化処理後の第１の特徴マップとする。第３の特徴マップは、グローバル画像情報を含むので、上述の同じ次元の２つの特徴マップにおける同じ位置の特徴量を加算することにより、第１の特徴マップに対する特徴強化処理を正確に実現することができ、さらにテキスト認識を実現することができる。

本開示の一実施形態では、前記第１の特徴マップは、前記第３の特徴マップであり、前記第２の特徴マップは、前記第１の特徴マップである。前記次元変換ユニット８０５は、具体的に、前記第２の次元と第３の次元の次元値に応じて、前記第３の特徴マップにおける前記第１の次元の各次元値に対応する１次元の特徴データを再構成して、前記第１の次元の各次元値に対応する２次元の特徴マップを得、前記第１の次元の各次元値に対応する２次元の特徴マップを含む３次元画像を第３の処理対象マップとして取得するように構成される。

以上から分かるように、本開示の実施形態による方法でテキスト認識を行う場合、３次元画像を構築する際に、まず、２つの次元に基づいて２次元画像を構築し、構築した画像を第３の次元に基づいて統合して３次元画像を得るようにする。このようにして、３次元画像の構築の際に３つの次元の情報を十分に考慮することで、構築した３次元画像の精度を向上させる。

本開示の一実施形態では、前記正規化処理サブモジュール７０４は、具体的には、前記第２の特徴マップにおける各第１の特徴データに含まれる特徴量に対して正規化処理を行い、正規化処理後の第２の特徴マップにおける各第２の特徴データに含まれる特徴量に対して正規化処理を行うように構成され、ここで、前記第１の特徴データは、前記第１の次元の各次元値に対応する１次元の特徴データであり、前記第２の特徴データは、マージング次元の各次元値に対応する１次元の特徴データであり、前記マージング次元は、前記第２の特徴マップにおいて前記第２の次元および第３の次元に対応する次元である。

以上から明らかなように、本開示の一実施形態による方法では、各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得る際に、まず、第１の次元の各次元値に対応する第１の特徴データに対して正規化処理を行い、正規化処理を行った上、マージング次元の各次元値に対応する第２の特徴データに対して正規化処理を行う。第１の特徴データに含まれる特徴量の数は、マージング次元の次元値の数と等しく、そして、マージング次元の次元値の数は、往々に第１の次元の次元値の数よりも大きいため、まず、第１の特徴データに対して正規化処理を行うことにより、後続の正規化処理にいっそう豊富な参照データを提供することができ、得られた第３の特徴マップの精度を向上させるのに有利である。

本開示の一実施形態では、第１の次元は深さ次元であり、第２の次元は幅次元であり、第３の次元は高さ次元である。

以上から分かるように、本開示の一実施形態による方法を適用してテキスト認識を行う際に、第１の特徴マップにおける第１の次元の１つの次元値で、第２の次元および第３の次元に対応する特徴量は、高さ次元および幅次元として２次元の特徴マップを形成することができ、これにより、第２の次元および第３の次元に対応する特徴量を再構成することは、２次元の特徴マップにおける特徴量を再構成することに相当し、単一の２次元の特徴マップの特徴量を再構成することにより、他の２次元の特徴マップによる干渉を回避することができ、それにより、上述の１次元の特徴データを得るのに有利である。

本開示の一実施形態では、図９を参照すると、第４のテキスト認識の装置の構造概略図が提供され、本実施形態では、前記テキスト認識の装置は、認識対象画像の多次元の第１の特徴マップを取得するように構成される特徴取得モジュール９０１と、３つの次元のうちの第１の次元の次元値毎に対して、前記第１の特徴マップにおいて当該次元値での第２の次元および第３の次元に対応する特徴量を再構成して、当該次元値に対応する１次元の特徴データを得るように構成される特徴再構成サブモジュール９０２と、前記第１の次元の各次元値に対応する１次元の特徴データを含む２次元の第２の特徴マップを取得するように構成される特徴取得サブモジュール９０３と、前記第２の特徴マップにおいて、各次元における各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得るように構成される正規化処理サブモジュール９０４と、前記第３の特徴マップに基づいて前記第１の特徴マップの特徴量毎に対して特徴強化処理を行う前に、前記第１の特徴マップおよび／または第３の特徴マップに対して非線形変換を行うように構成される非線形変換サブモジュール９０５と、前記第３の特徴マップに基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成される特徴強化サブモジュール９０６と、強化処理後の第１の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール９０７と、を備える。

以上から分非線形変換サブモジュールかるように、本開示の実施形態による方法によるテキスト認識の際に、第１の特徴マップに非線形変換を行うことにより、第１の特徴マップにおける特徴量の間の差異の程度を増大させることができる。第３の特徴マップに非線形変換を行うことにより、第３の特徴マップにおける特徴量の間の差異の程度を増大させることができる。第１の特徴マップおよび／または第３の特徴マップに非線形変換を行うことにより、後続の特徴強化処理の際に表現力の強い特徴量を決定するのに有利であり、これにより、特徴強化処理、テキスト認識の精度の向上に有利である。

本開示の一実施形態では、図１０を参照すると、第５のテキスト認識の装置の概略構成図が提供され、本実施形態では、前記装置は、認識対象画像の多次元の第１の特徴マップを取得するように構成される特徴取得モジュール１００１と、認識対象画像の多次元の第１の特徴マップを取得した後に、前記第１の特徴マップに対して非線形変換するように構成される非線形変換モジュール１００２と、前記第１の特徴マップにおける特徴量毎に対して、前記第１の特徴マップにおける各特徴量に基づいて、当該特性値に対して特徴強化処理を行うように構成される特徴強化モジュール１００３と、強化処理後の第１の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール１００４と、を備える。

以上から分かるように、本開示の実施形態による方法を適用してテキスト認識を行う際に、第１の特徴マップに対して非線形変換を行うことは、後続の第１の特徴マップにおける特徴量毎に対する特徴強化処理、テキスト認識の精度の向上に有利である。

本開示の一実施形態では、前記第１の特徴マップは３次元の特徴マップであり、前記特徴強化モジュール６０２は、具体的には、前記第１の特徴マップにおける各第３の特徴データ間の類似度を算出し、算出した全ての類似度に基づいて、算出した類似度毎に対して正規化処理を行い、正規化処理後の類似度を用いて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成され、ここで、前記第３の特徴データは、３つの次元のうちの第２の次元および第３の次元の各次元値の組み合わせに対応する第１の次元の特徴量を含む。

以上から分かるように、本開示の実施形態による方法を適用してテキスト認識を行う際に、第１の特徴マップにおける各第３の特徴データ間の類似度を算出し、算出した全ての類似度を用いて、算出した類似度毎を正規化処理を行うことにより、正規化処理後の類似度は、グローバル特徴を統合した各第３の特徴データ間の類似度を反映することができるので、正規化処理後の類似度は、グローバル画像情報を含むことになる。このようにして、正規化処理後の類似度に基づいて、第１の特徴マップにおける特徴量毎に対してグローバル画像情報を考慮して特徴強化処理を行うことで、特徴強化後の第１の特徴マップはグローバル受容野を有する。グローバル受容野を有する第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うことにより、テキスト認識の精度を高めることができる。

本開示の実施形態によれば、本開示は、さらに、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提供する。

本開示の一実施形態では、電子機器であって、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続され、前記少なくとも１つのプロセッサによって実行可能な指令を記憶したメモリとを備え、前記指令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、前記方法の実施形態に記載の何れかのテキスト認識の方法を実行させる電子機器が提供される。

本開示の一実施形態では、前記方法の実施形態に記載のいずれのテキスト認識の方法をコンピュータに実行させるためのコンピュータ指令を記憶した非一時的なコンピュータ可読記憶媒体が提供される。

本開示の一実施形態では、プロセッサによって実行されると前記方法の実施形態に記載の何れかのテキスト認識の方法を実現させるコンピュータプログラムが提供される。

図１１は、本開示の実施形態を実施するために使用できる例示的な電子機器１１００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および／または要求した本開示の実施形態を限定することを意図するものではない。

図１１に示すように、電子機器１１００は、読み出し専用メモリ（ＲＯＭ）１１０２に記憶されているコンピュータプログラムまたは記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット１１０１を備える。ＲＡＭ１１０３には、機器１１００の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット１１０１、ＲＯＭ１１０２およびＲＡＭ１１０３は、バス１１０４を介して互いに接続されている。入／出力（Ｉ／Ｏ）インタフェース１１０５もバス１１０４に接続されている。

電子機器１１００において、キーボード、マウスなどの入力ユニット１１０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット１１０７と、磁気ディスク、光ディスクなどの記憶ユニット１１０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット１１０９とを備える複数のコンポーネントは、Ｉ／Ｏインタフェース１１０５に接続されている。通信ユニット１１０９は、機器１１００がインターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。

計算ユニット１１０１は、処理および計算機能を有する様々な汎用および／または専用処理コンポーネントであってもよい。計算ユニット１１０１のいくつかの例示としては、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１１０１は、上述したオーディオ／ビデオの処理方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、オーディオ／ビデオの処理方法は、記憶ユニット１１０８などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ１１０２および／または通信ユニット１１０９を介して機器１１００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ１１０３にロードされ、計算ユニット１１０１によって実行されると、上述のオーディオ／ビデオの処理方法の１つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット１１０１は、他の任意の適切な方式によって（例えば、ファームウェアを介して）オーディオ／ビデオの処理方法を実行するように構成されていてもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、当該１つまたは複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置および少なくとも１つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも１つの入力装置および当該少なくとも１つの出力装置に伝送することを含み得る。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置またはデバイスが使用するため、または指令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが当該キーボードおよび当該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく）、且つ音入力、オーディオ入力または、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは当該グラフィカルユーザインタフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバ、またはブロックチェーンを組み合わせたサーバであってもよい。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。

前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

テキスト認識の方法であって、
認識対象画像の多次元の第１の特徴マップを取得するステップと、
前記第１の特徴マップにおける各特徴量に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップと、
強化処理後の第１の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うステップと、を含む方法。
前記第１の特徴マップは、３次元の特徴マップであり、
前記第１の特徴マップにおける各特徴量に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップは、
３つの次元のうちの第１の次元の次元値毎に対して、前記第１の特徴マップにおいて、当該次元値での第２の次元および第３の次元の対応する特徴量を再構成して、当該次元値に対応する１次元の特徴データを得るステップと、
前記第１の次元の各次元値に対応する１次元の特徴データを含む２次元の第２の特徴マップを取得するステップと、
前記第２の特徴マップにおいて、各次元における各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得るステップと、
前記第３の特徴マップに基づいて、前記第１の特徴マップの特徴量毎に対して特徴強化処理を行うステップと、を含む、
請求項１に記載の方法。
前記第３の特徴マップに基づいて、前記第１の特徴マップの特徴量毎に対して特徴強化処理を行うステップは、
第１の処理対象マップに対して次元変換を行って、第２の処理対象マップと同じ次元の第３の処理対象マップを得るステップであって、前記第１の処理対象マップは、前記第３の特徴マップまたは前記第１の特徴マップであり、前記第２の処理対象マップは、前記第３の特徴マップおよび前記第１の特徴マップにおける前記第１の処理対象マップ以外の画像である、ステップと、
前記第２の処理対象マップと第３の処理対象マップにおける同じ位置の特徴量を加算し、演算して得た画像を、強化処理後の第１の特徴マップとするステップと、を含む、
請求項２に記載の方法。
前記第１の処理対象マップは、前記第３の特徴マップであり、
前記第２の処理対象マップは、前記第１の特徴マップであり、
第１の処理対象マップに対して次元変換を行って、第２の処理対象マップと同じ次元の第３の処理対象マップを得るステップは、
前記第２の次元と第３の次元の次元値に応じて、前記第３の特徴マップにおける前記第１の次元の各次元値に対応する１次元の特徴データを再構成して、前記第１の次元の各次元値に対応する２次元の特徴マップを得るステップと、
前記第１の次元の各次元値に対応する２次元の特徴マップを含む３次元画像を第３の処理対象マップとして取得するステップと、を含む
請求項３に記載の方法。
前記第２の特徴マップにおいて、各次元における各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得るステップは、
前記第２の特徴マップにおける各第１の特徴データに含まれる特徴量に対して正規化処理を行うステップであって、前記第１の特徴データは、前記第１の次元の各次元値に対応する１次元の特徴データであるステップと、
正規化処理後の第２の特徴マップにおける各第２の特徴データに含まれる特徴量に対して正規化処理を行うステップであって、前記第２の特徴データは、マージング次元の各次元値に対応する１次元の特徴データであり、前記マージング次元は、前記第２の特徴マップにおいて前記第２の次元および第３の次元に対応する次元であるステップと、を含む、
請求項２に記載の方法。
前記第１の次元が深さ次元であり、前記第２の次元が幅次元であり、前記第３の次元が高さ次元である、請求項２に記載の方法。
前記第３の特徴マップに基づいて、前記第１の特徴マップの特徴量毎に対して特徴強化処理を行う前に、
前記第１の特徴マップおよび／または第３の特徴マップに対して非線形変換を行うステップをさらに含む、
請求項２に記載の方法。
前記認識対象画像の多次元の第１の特徴マップを取得した後に、
前記第１の特徴マップに対して非線形変換を行うステップをさらに含む、
請求項１に記載の方法。
前記第１の特徴マップは、３次元の特徴マップであり、
前記第１の特徴マップにおける各特徴量に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップは、
前記第１の特徴マップにおける各第３の特徴データ間の類似度を算出するステップであって、前記第３の特徴データは、３つの次元のうちの第２の次元および第３の次元の各次元値の組み合わせに対応する第１の次元の特徴量を含む、ステップと、
算出した全ての類似度に基づいて、算出した類似度毎に対して正規化処理を行うステップと、
正規化処理後の類似度に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップと、を含む、
請求項１に記載の方法。
テキスト認識の装置であって、
認識対象画像の多次元の第１の特徴マップを取得するように構成される特徴取得モジュールと、
前記第１の特徴マップにおける各特徴量に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成される特徴強化モジュールと、
強化処理後の第１の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュールと、
を備える、装置。
前記第１の特徴マップは、３次元の特徴マップであり、
前記特徴強化モジュールは、
３つの次元のうちの第１の次元の次元値毎に対して、前記第１の特徴マップにおいて、当該次元値での第２の次元および第３の次元の対応する特徴量を再構成して、当該次元値に対応する１次元の特徴データを得るように構成される特徴再構成サブモジュールと、
前記第１の次元の各次元値に対応する１次元の特徴データを含む２次元の第２の特徴マップを取得するように構成される特徴取得サブモジュールと、
前記第２の特徴マップにおいて、各次元における各１次元の特徴データに含まれる特徴量に対して正規化処理を行って、第３の特徴マップを得るように構成される正規化処理サブモジュールと、
前記第３の特徴マップに基づいて、前記第１の特徴マップの特徴量毎に対して特徴強化処理を行うように構成される特徴強化サブモジュールと、を備える、
請求項１０に記載の装置。
特徴強化サブモジュールは、
第１の処理対象マップに対して次元変換を行って、第２の処理対象マップと同じ次元の第３の処理対象マップを得るように構成される次元変換ユニットであって、前記第１の処理対象マップは、前記第３の特徴マップまたは前記第１の特徴マップであり、前記第２の処理対象マップは、前記第３の特徴マップおよび前記第１の特徴マップにおける前記第１の処理対象マップ以外の画像である、ユニットと、
前記第２の処理対象マップと第３の処理対象マップにおける同じ位置の特徴量を加算し、演算して得た画像を、強化処理後の第１の特徴マップとするように構成される特徴量演算ユニットと、を備える、
請求項１１に記載の装置。
前記第１の処理対象マップは、前記第３の特徴マップであり、
前記第２の処理対象マップは、前記第１の特徴マップであり、
前記次元変換ユニットは、
前記第２の次元と第３の次元の次元値に応じて、前記第３の特徴マップにおける前記第１の次元の各次元値に対応する１次元の特徴データを再構成して、前記第１の次元の各次元値に対応する２次元の特徴マップを得、
前記第１の次元の各次元値に対応する２次元の特徴マップを含む３次元画像を第３の処理対象マップとして取得するように構成される、
請求項１２に記載の装置。
前記正規化処理サブモジュールは、
前記第２の特徴マップにおける各第１の特徴データに含まれる特徴量に対して正規化処理を行い、
正規化処理後の第２の特徴マップにおける各第２の特徴データに含まれる特徴量に対して正規化処理を行うように構成され、
前記第１の特徴データは、前記第１の次元の各次元値に対応する１次元の特徴データであり、
前記第２の特徴データは、マージング次元の各次元値に対応する１次元の特徴データであり、前記マージング次元は、前記第２の特徴マップにおいて前記第２の次元および第３の次元に対応する次元である、
請求項１１に記載の装置。
前記第１の次元が深さ次元であり、前記第２の次元が幅次元であり、前記第３の次元が高さ次元である、請求項１１乃至１４のいずれか一項に記載の装置。
前記特徴強化モジュールは、
前記第３の特徴マップに基づいて、前記第１の特徴マップの特徴量毎に対して特徴強化処理を行う前に、前記第１の特徴マップおよび／または第３の特徴マップに対して非線形変換を行うように構成される非線形変換サブモジュールをさらに備える、
請求項１１乃至１４のいずれか一項に記載の装置。
前記認識対象画像の多次元の第１の特徴マップを取得した後に、前記第１の特徴マップに対して非線形変換を行うように構成される非線形変換モジュールをさらに備える、
請求項１０乃至１４のいずれか一項に記載の装置。
前記第１の特徴マップは、３次元の特徴マップであり、
前記特徴強化モジュールは、
前記第１の特徴マップにおける各第３の特徴データ間の類似度を算出し、
算出した全ての類似度に基づいて、算出した類似度毎に対して正規化処理を行い、
正規化処理後の類似度に基づいて、前記第１の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成され、
前記第３の特徴データは、３つの次元のうちの第２の次元および第３の次元の各次元値の組み合わせに対応する第１の次元の特徴量を含む、
請求項１０に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続され、前記少なくとも１つのプロセッサによって実行可能な指令を記憶したメモリと、を備え、
前記指令は、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、請求項１乃至９の何れか一項に記載のテキスト認識の方法を実行させる、電子機器。
請求項１乃至９の何れか一項に記載のテキスト認識の方法をコンピュータに実行させるためのコンピュータ指令を記憶した非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１乃至９のいずれか一項に記載のテキスト認識の方法を実現させるコンピュータプログラム。