JP2022172292A - テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2022172292A
JP2022172292A JP2022140728A JP2022140728A JP2022172292A JP 2022172292 A JP2022172292 A JP 2022172292A JP 2022140728 A JP2022140728 A JP 2022140728A JP 2022140728 A JP2022140728 A JP 2022140728A JP 2022172292 A JP2022172292 A JP 2022172292A
Authority
JP
Japan
Prior art keywords
feature
dimension
map
feature map
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022140728A
Other languages
English (en)
Other versions
JP7418517B2 (ja
Inventor
ポンユェン リュウ
Pengyuan Lyu
スン ファン
Son Pham
シャオイェン ワン
Shaoyan Wang
ユエチェン ユー
Yuechen Yu
チョンチュエン ジャン
Chengquan Zhang
クン ヤオ
Kun Yao
ジュンユー ハン
Junyu Han
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022172292A publication Critical patent/JP2022172292A/ja
Application granted granted Critical
Publication of JP7418517B2 publication Critical patent/JP7418517B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】テキスト認識の精度を向上させる方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。【解決手段】方法は、認識対象画像の多次元の第1の特徴マップを取得し、第1の特徴マップにおける各特徴量に基づいて、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行い、強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。【選択図】図1

Description

本開示は、人工知能技術分野に関し、具体的には、深層学習、コンピュータビジョンの技術分野に関する。
教育、医療、金融など多くの分野で用いられる画像にはテキストが含まれる。上述の画像に基づいて、正確に情報処理を行うためには、上述の画像に対してテキストの認識を行い、認識の結果に基づいて情報処理を行う必要がある。
本開示は、テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
本開示の一態様によれば、テキスト認識の方法テキスト認識の方法であって、
認識対象画像の多次元の第1の特徴マップを取得するステップと、
前記第1の特徴マップにおける各特徴量に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップと、
強化処理後の第1の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うステップと、を含む方法を提供する。
本開示の別の態様によれば、テキスト認識の装置であって、
認識対象画像の多次元の第1の特徴マップを取得するように構成される特徴取得モジュールと、
前記第1の特徴マップにおける各特徴量に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成される特徴強化モジュールと、
強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュールと、
を備える装置を提供する。
本開示の別の態様によれば、電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続され、前記少なくとも1つのプロセッサによって実行可能な指令を記憶したメモリと、を備え、
前記指令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、上述のテキスト認識の方法を実行させる、電子機器を提供する。
本開示の別の態様によれば、上述のテキスト認識の方法をコンピュータに実行させるためのコンピュータ指令を記憶した非一時的なコンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、プロセッサによって実行されると、上述のテキスト認識の方法を実現させるコンピュータプログラムを提供する。
以上から分かるように、本開示の実施形態に係る方法によるテキスト認識において、まず、認識対象画像の多次元の第1の特徴マップを得、その後、第1の特徴マップにおける各特徴量に基づいて、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行い、強化処理後の第1の特徴マップに基づいてテキスト認識を行うことにより、認識対象画像に対するテキスト認識を実現することができる。
また、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行う際に、特徴量毎に対して、第1の特徴マップにおける各特徴量に基づいて処理を行うようにする。このようにして強化処理後の第1の特徴マップにおけるそれぞれの特徴量は、いずれも画像のグローバル情報を考慮したものとなるので、強化処理後の第1の特徴マップは、上述の認識対象画像のグローバル情報を特徴付けることができ、これにより、強化処理後の第1の特徴マップに基づいて認識対象画像に対してテキスト認識を行うことにより、テキスト認識の精度を向上させることができる。
なお、発明の概要に記載の内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解される。
図面は本出願をよりよく理解するために用いられ、本出願に対する限定ではない。
本開示の実施形態による第1のテキスト認識の方法のフローチャートである。 本開示の実施形態による第2のテキスト認識の方法のフローチャートである。 本開示の実施形態による第3のテキスト認識の方法のフローチャートである。 本開示の実施形態による第4のテキスト認識の方法のフローチャートである。 本開示の実施形態による第5のテキスト認識の方法のフローチャートである。 本開示の実施形態による第1のテキスト認識の装置のフローチャートである。 本開示の実施形態による第2のテキスト認識の装置のフローチャートである。 本開示の実施形態による第3のテキスト認識の装置のフローチャートである。 本開示の実施形態による第4のテキスト認識の装置のフローチャートである。 本開示の実施形態による第5のテキスト認識の装置のフローチャートである。 本開示の実施形態によるテキスト認識の方法を実装する電子機器のブロック図である。
以下は図面を参照して本出願の例示的な実施形態を説明し、ここでは理解に役立つため、本出願の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更や修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
本開示の実施形態による第1のテキスト認識の方法のフローチャートである図1を参照すると、図1は、上述の方法は、以下のステップS101~S103を含む。
ステップS101では、認識対象画像の多次元の第1の特徴マップを得る。
上述の第1の特徴マップは、認識対象画像の複数の次元の特徴量を含む画像である。第1の特徴マップの次元は、特定のシーンに依存する。例えば、上述の第1の特徴マップは、3次元の特徴マップであり、この場合、3つの次元は、幅次元、高さ次元、および奥行き次元であり、奥行き次元の次元値は、認識対象画像のチャネル数によって決定されるようにしてもよい。例えば、認識対象画像がRGBフォーマットの画像であると仮定すると、認識対象画像は、Rチャネル、GチャネルおよびBチャネルの3つのチャネルを有し、認識対象画像の深さ次元における次元値は、それぞれ1、2、3である。
具体的には、第1の特徴マップは、以下の2つの異なる方法により得るようにしてもよい。
一実施形態では、まず、認識対象画像を取得し、認識対象画像に対して特徴抽出を行って、上述の第1の特徴マップを得るようにしてもよい。
別の実施形態では、まず、特徴抽出の機能を有する他の機器を用いて認識対象画像に対して特徴抽出を行い、その後、上述の機器が認識対象画像に対して特徴抽出を行って得た特徴マップを第1の特徴マップとするようにしてもよい。
認識対象画像に対する特徴抽出は、従来技術の特徴抽出用ネットワークモデルまたは特徴抽出用アルゴリズムに基づいて実施されてもよい。例えば、上述の特徴抽出用ネットワークモデルは、例えば、vggネットワークモデル、rensetネットワークモデル、mobilenetネットワークモデルなどの畳み込みニューラルネットワークモデルであってもよく、または、FPN(Feature Pyramid Networks:特徴ピラミッドネットワーク)、PAN(Pixel Aggregation Network:画素集約ネットワーク)などのネットワークモデルであってもよい。上述の特徴抽出アルゴリズムは、deformconv、se、dilationconv、inceptionなどの演算子であってもよい。
ステップS102では、第1の特徴マップにおける特徴量のそれぞれに基づいて、第1の特徴マップにおける特徴量毎に対して、特徴強化処理を行う。
画像特徴は、画像内に受容野を有する。この受容野は、画像特徴が由来するものと理解されるものであってもよいし、画像内の、画像特徴が特徴付ける部分的な領域であってもよい。異なる画像特徴は、その受容野が異なっていてもよい。画像特徴の受容野が変わると、当該画像特徴も変わる。このように、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うことにより、第1の特徴マップにおける各特徴量の受容野を拡大することができ、上述の認識対象画像に対する第1の特徴マップの表現力を改善することができる。
第1の特徴マップにおける特徴量毎に特徴強化処理する際に、いずれも第1の特徴マップにおける各特徴量を考慮するので、上述の特徴強化処理は、グローバルアテンションメカニズムに基づいた特徴強化処理であると考えられる。
第1の特徴マップにおける特徴量毎に対する特徴強化処理の具体的な実施態様については、後述の図2に示される実施形態におけるステップS202~S205および図5に示される実施形態におけるステップS502~S504を参照できるので、ここで、詳細に説明しない。
ステップS103では、強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。
一実施形態では、強化処理後の第1の特徴マップを得た後、当該特徴マップに基づいて、認識対象画像内のテキストボックスを予測し、それから、テキストボックス内のコンテンツに対して、テキストの認識を行って、認識対象画像内に含まれるテキストを得るようにしてもよい。
具体的には、テキスト認識は、既存の様々な復号技術によって実施することができ、ここでは、詳細に説明しない。
以上から分かるように、本開示の実施形態に係る方法によるテキスト認識において、まず、認識対象画像の多次元の第1の特徴マップを得、その後、第1の特徴マップにおける各特徴量に基づいて、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行い、強化処理後の第1の特徴マップに基づいてテキスト認識を行うことにより、認識対象画像に対するテキスト認識を実現することができる。
また、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行う際に、特徴量毎に対して、第1の特徴マップにおける各特徴量に基づいて処理を行うようにする。このようにして強化処理後の第1の特徴マップにおけるそれぞれの特徴量は、いずれも画像のグローバル情報を考慮したものとなるので、強化処理後の第1の特徴マップは、上述の認識対象画像のグローバル情報を特徴付けることができ、これにより、強化処理後の第1の特徴マップに基づいて認識対象画像をテキスト認識することにより、テキスト認識の精度を向上させることができる。
次に、上述の実施形態における第1の次元、第2の次元および第3の次元の具体的な呈示形態について説明する。
本開示の一実施形態では、上述の第1の次元は深さ次元、上述の第2の次元は幅次元、上述の第3の次元は高さ次元である。
認識対象画像の特徴抽出の際に、以下の2つの態様が考えられる。
1つの態様において、上述認識対象画像がRGBなどのフォーマットのマルチチャネル画像である場合、認識対象画像に対する特徴抽出は、チャネル毎に画像の特徴抽出を行う必要があり、このようにして得られた特徴マップは、複数枚の2次元の特徴マップから形成された3次元の特徴マップであり、この場合、上述の深さ次元は、画像のチャネルに対応し、深さ次元の最大次元値が、画像のチャネル数となる。
もう一つの態様において、特徴付け力の強い特徴マップを得るために、通常、認識対象画像に対して複数回の特徴抽出を行う必要があり、1回の特徴抽出につき1枚の2次元の特徴マップを得ることができ、複数回の特徴抽出につき複数枚の2次元の特徴マップを得ることができ、これら複数枚の2次元の特徴マップから、3次元の特徴マップを形成することができ、この場合、上述の深さ次元は、画像特徴抽出の回数に対応し、深さ次元の最大次元値が、画像特徴抽出の回数となる。
上述2つの態様に基づいて、第1の次元が深さ次元、第2の次元が幅次元、第3の次元が高さ次元であると、第1の特徴マップにおける第1の次元の1つの次元値での第2の次元および第3の次元の対応する特徴量は、高さ次元および幅次元として2次元の特徴マップを形成することができ、これにより、第2の次元および第3の次元に対応する特徴量を再構成することは、2次元の特徴マップにおける特徴量を再構成することに相当し、単一の2次元の特徴マップの特徴量を再構成することにより、他の2次元の特徴マップによる干渉を回避することができ、それにより、上述の1次元の特徴データを得るのに有利である。
次に、上述ステップS102において第1の特徴マップにおける特徴量毎に対する特徴強化処理について説明する。
本開示の一実施形態では、図2を参照すると、第2のテキスト認識の方法のフローチャート概略図が提供され、本実施形態では、上述の第1の特徴マップは、3次元の特徴マップであり、上述のテキスト認識の方法は、以下のステップS201~S206を含む。
ステップS201では、認識対象画像の多次元の第1の特徴マップを得る。
上述のステップS201は、上述のステップS101と同じであり、ここでは説明を省略する。
ステップS202では、3つの次元のうちの第1の次元の次元値毎に対して、第1の特徴マップにおいて、当該次元値での第2の次元および第3の次元の対応する特徴量を再構成して、当該次元値に対応する1次元の特徴データを得る。
一実施形態では、上述の第1の特徴マップにおける3つの次元は、深さ次元、幅次元、高さ次元であってもよい。
例えば、上述の第1の特徴マップは、C*H*Wの特徴マップとして表すことができ、ただし、Cは、第1の特徴マップの深さ次元を表し、その次元値が、1以上、且つ、認識対象画像のチャネル数以下となり得、Hは、第1の特徴マップの高さ次元を表し、その次元値が、1以上、且つ、第1の特徴マップの列の最大画素数以下となり得、Wは、第1の特徴マップの幅次元を表し、その次元値が、1以上、且つ、第1の特徴マップの行の最大画素数以下となり得る。
第1の特徴マップの高さ次元Hを例にとると、第1の特徴マップの列の最大画素数が20である場合、第1の特徴マップの高さ次元の次元値が、1、2、3、4……18、19、20となり得る。
上述の第1の特徴マップにおける各特徴量は、上述3つの次元の何れにおいても、対応する次元値を有する。
例えば、ある特徴量は、3つの次元における座標が(c1、h1、w1)であるとは、当該特徴量が、第1の特徴マップの深さ次元における次元値がc1であり、高さ次元における次元値がh1であり、幅次元における次元値がw1であるということを意味する。
第1の次元の次元値(説明の便宜上、当該次元値をVと表記する)毎について、当該次元値Vでは、第2の次元および第3の次元に対応する特徴量は、上述の第1の特徴マップに含まれる各特徴量のうち、第1の次元における次元値が上述の次元値Vとなる各特徴量を示す。
具体的には、第1の次元の1つの次元値では、第2の次元および第3の次元の対応する特徴量は、2次元データとなり、これらの2次元データは、1枚の2次元の特徴マップを形成するので、第1の次元の次元値毎について、当該次元値での第2の次元および第3の次元の対応する特徴量は、当該次元値での2次元の特徴マップに含まれる特徴量と理解される。これにより、上述の対応する特徴量を再構成して1次元の特徴データを得ることは、上述の2次元の特徴マップに対して次元変換を行って、2次元の特徴マップにおける各特徴量が含まれた1次元の特徴データを得ると理解され得る。
例えば、2次元の特徴マップにおける特徴量に対して、各行の首尾を接続することで、2次元の特徴マップを1次元の特徴データに変換するようにしてもよいし、2次元の特徴マップにおける特徴量に対して、各列の首尾を接続することで、2次元の特徴マップを1次元の特徴データに変換するようにしてもよいが、本開示の実施形態はこれに限定されるものではない。
ステップS203では、第1の次元の各次元値に対応する1次元の特徴データを含む2次元の第2の特徴マップを取得する。
上述の第2の特徴マップは、2つの次元を有する2次元画像であり、そのうち、1つの次元(説明の便宜上、次元Xという)は、第1の次元に対応し、その次元値が第1の次元の次元値と同じであり、他の一つの次元(説明の便宜上、Y次元という)は、第2の次元および第3の次元に対応し、その次元値が1からマージング次元値であり、マージング次元値は、第2の次元の最大次元値と第3の次元の最大次元値との積に等しい。
例えば、上述の次元Xは、第2の特徴マップにおける画素行次元に対応し、次元Yは、第2の特徴マップにおける画素列次元に対応するとされてもよい。この場合、Xの値が固定されると、画素行は固定されることになり、その画素行には、次元YにおけるYの各値の対応する特性量が含まれ、即ち、それぞれの画素行は、第1の次元の1つの次元値に対応し、当該画素行における各画素値は、それぞれ、当該画素行の対応する次元値に対応する1次元の特性データにおける特性値である。
以上の事情に鑑み、本開示の一実施形態では、第1の次元の各次元値に対応する1次元の特徴データを、第1の次元の各次元値の順に配列して、各1次元の特徴データを含む2次元の特徴データを、2次元の第2の特徴マップとして形成するようにしてもよい。
具体的には、1次元の特徴データの配列の際に、1次元の特徴データを行として配列してもよいし、1次元の特徴データを列として配列してもよい。
例えば、第1の次元の次元値1が1次元の特徴データ[m11,m12,…,m1n]に対応し、第1の次元の次元値2は、1次元の特徴データ[m21,m22,…,m2n]に対応し、第1の次元の次元値3は、1次元の特徴データ[m31,m32,…,m3n]に対応すると、1次元の特徴データを行とし、第1の次元の各次元値が小から大の順で配列して得られた第2の特徴マップに含まれるデータは、以下のように表される。
Figure 2022172292000002
上述の第2の特徴マップから分かるように、次元Xの次元値1は、1次元の特徴データ[m11,m12,…,m1n]に対応し、次元Xの次元値2は、1次元の特徴データ[m21,m22,…,m2n]に対応し、次元Xの次元値3は、[m31,m32,…,m3n]に対応する。
ステップS204では、第2の特徴マップにおいて、各次元における各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得る。
第2の特徴マップは、2次元画像であるため、1の次元から見ると、第2の特徴マップは、複数の1次元の特徴データを含んでいると考えられる。そこで、第2の特徴マップにおける1次元の特徴データは、次元によって、二種の特徴データに区分されることができる。
第1種の特徴データは、第2の特徴マップにおいて、次元Xにおける各次元値に対応する1次元の特徴データであり、この場合、各1次元の特徴データに当該次元値での次元Yの各次元値に対応する特徴量が含まれ、含まれる特徴量の数が次元Yの次元値の数に等しい。
第2種の特徴データは、第2の特徴マップにおいて、次元Yにおける各次元値に対応する1次元の特徴データであり、この場合、各1次元の特徴データに、当該次元値での次元Xの各次元値に対応する特徴量が含まれ、含まれる特徴量の数が次元Xの次元値の数に等しい。
以上から明らかなように、第2の特徴マップにおいて、1次元の特徴データ毎に複数の特徴量が含まれ、正規化処理の際に、各1次元の特徴データを単位とし、各1次元の特徴データにおける各特徴量に対して正規化処理を行う。
次に、正規化処理について説明する。
本開示の一実施形態では、第2の特徴マップは、次元Xと次元Yとの2つの次元を有する2次元画像であり、この場合、正規化処理の際に、上述2つの次元のうちの1つの次元に対応する各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、得られた正規化処理の結果の上で、他の1つの次元に対応する各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得るようにしてもよい。
一実施形態では、次元Xに対応する各1次元の特徴データに含まれる特徴量に対して正規化処理を行い、得られた正規化処理の結果の上で、次元Yに対応する各1次元の特徴データに含まれる特徴量に対して正規化処理を行うようにしてもよい。即ち、先ず、各第1種の特徴データに対して正規化処理を行い、得られた処理の結果の上で、各第2種の特徴データに対して正規化処理を行う。
別の実施形態では、次元Yに対応する各1次元の特徴データに含まれる特徴量に対して正規化処理を行い、得られた正規化処理の結果の上で、次元Xに対応する各1次元の特徴データに含まれる特徴量に対して正規化処理を行うようにしてもよい。即ち、各第2種の特徴データに対して正規化処理を行い、得られた処理の結果の上で、各第1種の特徴データに対して正規化処理を行う。
正規化処理を行うための具体的な実施形態は、図3に示す実施形態におけるステップS304~S305を参照できるので、ここでは、詳細に説明しない。
正規化処理は、画像の大きさを変えず、特徴量の取り得る値のみを変えるので、正規化処理後に得られた第3の特徴マップは、上述の第2の特徴マップと次元が同じであり、サイズも同じである。第2の特徴マップがC*(H*W)の特徴マップである場合、第3の特徴マップも同じようにC*(H*W)の特徴マップである。
ステップS205では、第3の特徴マップに基づいて、第1の特徴マップの特徴量毎に対して特徴強化処理を行う。
第3の特徴マップは、2次元画像であり、第1の特徴マップは、3次元画像である。例えば、第3の特徴マップは、C*(H*W)の2次元画像として表されてもよく、第1の特徴マップは、C*H*Wの3次元画像として表されてもよい。このようにして、第3の特徴マップについては、その2つの次元が、それぞれ、CおよびH*Wに対応しており、第1の特徴マップについては、その3つの次元が、それぞれ、C、HおよびWに対応する。その為、まず、これらの2つの特徴マップの次元を統一し、それから、第1の特徴マップおよび第3の特徴マップの次元が統一された上、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うようにしてもよい。
第1の特徴マップと第3の特徴マップの次元を統一し、第1の特徴マップの特徴量毎に対して特徴強化処理を行うための具体的な実施形態については、図4に示す実施形態におけるステップS405~S406の説明を参照できるので、ここでは、詳細に説明しない。
ステップS206では、強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。
上述ステップS206は、前述のステップS103と同じであり、ここでは説明を省略する。
以上のように、本開示の実施形態による方法を適用してテキスト認識を行う場合、1次元の特徴データに含まれる特徴量を正規化するには、当該1次元の特徴データに含まれる全ての特徴量を用いて正規化を行う必要があるため、正規化処理後の1次元の特徴データにおける各特徴量は、当該1次元の特徴データにおける全ての特徴量による影響を受けることになる。その上で、第2の特徴マップにおいて、次元毎における各1次元の特徴データに含まれるそれぞれの特徴量に対して全て正規化処理を行うことで、第3の特徴マップにおけるそれぞれの特徴量は、いずれも第1の特徴マップの全ての特徴量による影響を受けることになり、これにより、第3の特徴マップは、認識対象画像をグローバル特徴の角度で表すことができる。このように、第3の特徴マップに基づいて、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うことにより、認識対象画像全体を受容野とした特徴マップを得ることができ、テキスト認識に用いられる特徴マップの受容野を大きくすることができるので、認識対象画像のテキスト認識の精度を向上させることができる。
次に、上述のステップS204の、第2の特徴マップにおいて各次元における各1次元の特徴データに含まれる特徴量を正規化して第3の特徴マップを得ることについて説明する。
本開示の一実施形態では、図3を参照すると、第3のテキスト認識の方法のフローチャートが提供され、本実施形態では、上述のテキスト認識の方法は、以下のステップS301~S307を含む。
ステップS301では、認識対象画像の多次元の第1の特徴マップを取得する。
ステップS302では、3つの次元のうちの第1の次元の次元値毎に対して、第1の特徴マップにおいて当該次元値での第2の次元および第3の次元に対応する特徴量を再構成して、当該次元値に対応する1次元の特徴データを得る。
ステップS303では、第1の次元の各次元値に対応する1次元の特徴データを含む2次元の第2の特徴マップを取得する。
上述のステップS301は、前述のステップS101と同じであり、上述のステップS302~S303は、それぞれ、前述のステップS202~S203と同じであるので、ここでは、説明を省略する。
ステップS304では、第2の特徴マップにおける各第1の特徴データに含まれる特徴量に対して正規化処理を行う。
ここで、第1の特徴データは、第1の次元の各次元値に対応する1次元の特徴データである。
以上の記述から分かるように、上述の第2の特徴マップは、次元Xと次元Yの2つの次元を有し、次元Xは、第1の次元に対応し、次元Yは、第2の次元および第3の次元に対応する。そこで、上述の第1の特徴データは、第2の特徴マップの次元Xにおける各次元値に対応する1次元の特徴データ、即ち、前述のステップS204で述べた第1種の特徴データである。
各第1の特徴データに含まれる特徴量に対する正規化処理の際に、第1の特徴データを単位で正規化処理を行う。このようにして、ある第1の特徴データについて、当該第1の特徴データに含まれる特徴量を用いて、当該第1の特徴データに含まれる各特徴量に対して正規化処理を行う。
本開示の一実施形態では、第1の特徴データに含まれる特徴量の正規化処理は、softmaxアルゴリズムにより行われてもよい。本開示の他の実施形態では、正規化処理は、L1Normalizeアルゴリズム、L2Normalizeアルゴリズムなどの正規化アルゴリズムにより行われてもよい。ここでは詳細に説明しない。
ステップS305では、正規化処理後の第2の特徴マップにおける各第2の特徴データに含まれる特徴量に対して正規化処理を行う。
ここで、第2の特徴データは、マージング次元の各次元値に対応する1次元の特徴データであり、マージング次元は、第2の特徴マップにおいて第2の次元および第3の次元に対応する次元である。前述から明らかなように、上述のマージング次元は、上述の次元Yであり、よって、上述の第2の特徴データは、第2の特徴マップにおいて次元Yの各次元値に対応する1次元の特徴データ、即ち、前述のステップS204で述べた第2種の特徴データである。
各第2の特徴データに含まれる特徴量に対する正規化処理の際に、第2の特徴データを単位で正規化処理を行う。このようにして、ある第2の特徴データについて、当該第2の特徴データに含まれる特徴量を用いて、当該第2の特徴データに含まれる各特徴量に対して正規化処理を行う。
第2の特徴データに含まれる特徴量の正規化処理は、同様に、softmaxアルゴリズム、L1Normalizeアルゴリズム、L2Normalizeアルゴリズム等の正規化アルゴリズムにより行われてもよい。
ステップS306では、第3の特徴マップに基づいて、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行う。
ステップS307では、強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。
上述のステップS306は、前述のステップS205と同じであり、上述ステップS307は、前述のステップS103と同じであるので、ここでは説明を省略する。
以上から明らかなように、本開示の一実施形態による方法では、各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得る際に、まず、第1の次元の各次元値に対応する第1の特徴データに対して正規化処理を行い、正規化処理を行った上で、マージング次元の各次元値に対応する第2の特徴データに対して正規化処理を行う。第1の特徴データに含まれる特徴量の数がマージング次元の次元値の数と等しく、そして、マージング次元の次元値の数が往々に第1の次元の次元値の数よりも大きいため、まず、第1の特徴データに対して正規化処理を行うことにより、その後に行われる正規化処理にいっそう豊富な参照データを提供することができ、得られた第3の特徴マップの精度を向上させるのに有利である。
本開示の他の実施形態では、上述の図3に示される実施形態と同様に、上上述のステップS303を実行した後、まず、上述のステップS305を実行して、各第2の特徴データに含まれる特徴量に対して正規化処理を行い、その後、正規化処理の結果の上で、上述のステップS304を実行して、各第1の特徴データに含まれる特徴量に対して正規化処理を行うようにしてもよい。
次に、上述のステップS205における第1の特徴マップの特徴量毎に対する特徴強化処理について説明する。
本開示の一実施形態では、図4を参照すると、第4のテキスト認識の方法のフローチャート概略図が提供され、本実施形態では、上述テキスト認識の方法は、以下のステップS401~S407を含む。
ステップS401では、認識対象画像の多次元の第1の特徴マップを取得する。
ステップS402では、3つの次元のうちの第1の次元の次元値毎に対して、第1の特徴マップにおいて当該次元値での第2の次元および第3の次元の対応する特徴量を再構成し、当該次元値に対応する1次元の特徴データを得る。
ステップS403では、第1の次元の各次元値に対応する1次元の特徴データを含む2次元の第2の特徴マップを取得する。
ステップS404では、第2の特徴マップにおいて、各次元における各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得る。
上述のステップS401は、前述のステップS101と同じであり、上述のステップS402~S404は、前述のステップS202~S204と同じであるので、ここでは説明を省略する。
ステップS405では、第1の処理対象マップに対して次元変換を行って、第2の処理対象マップと同じ次元の第3の処理対象マップを得る。
ここで、第1の処理対象マップは、第3の特徴マップまたは第1の特徴マップであり、第2の処理対象マップは、第3の特徴マップおよび第1の特徴マップのうちの第1の処理対象マップ以外の画像である。
本開示の一実施形態では、上述の第1の処理対象マップは、第3の特徴マップであり、上述の第2の処理対象マップは、第1の特徴マップである。
上述の第3の特徴マップが2次元画像であり、上述の第1の特徴マップが3次元画像であるため、2次元の第3の特徴マップを3次元の特徴マップに変換し、変換して得た3次元の特徴マップを上述の第3の処理対象マップとするようにしてもよい。
第3の特徴マップを3次元の特徴マップに変換する具体的な実施態様は、後の実施形態で説明し、ここでは詳細に説明しない。
本開示の他の実施形態では、上述の第1の処理対象マップは、第1の特徴マップであり、上述の第2の処理対象マップは、第3の特徴マップである。
この場合、3次元の第1の特徴マップを2次元の特徴マップに変換し、変換後に得られた2次元の特徴マップを上述の第3の処理対象マップとするようにしてもよい。
3次元の第1の特徴マップを2次元の特徴マップに変換することは、上述ステップS202~S203を実行することで行われてもよいので、上述の2次元の第2の特徴マップをそのまま上述の第3の処理対象マップとするようにしてもよい。
ステップS406では、第2の処理対象マップと第3の処理対象マップにおける同じ位置の特徴量を加算し、演算して得た画像を、強化処理後の第1の特徴マップとする。
第2の処理対象マップと第3の処理対象マップとは、次元が同じであり、且つ、サイズが同じであってもよいので、第2の処理対象マップと第3の処理対象マップにおいて同じ位置の2つの特徴量の組を複数決定し、各組の2つの特徴量を加算して、演算後の画像を得るようにしてもよい。
以下では、第1の処理対象マップおよび第2の処理対象マップのそれぞれの具体的な態様を参照して説明する。
態様1では、上述の第1の処理対象マップが第3の特徴マップであり、上述の第2の処理対象マップが第1の特徴マップである場合、上述の第3の処理対象マップは、3次元画像となる。第2の処理対象マップと第3の処理対象マップにおける同じ位置の特徴量を加算し、加算して得た3次元画像を強化処理後の第1の特徴マップとするようにしてもよい。
態様2では、上述の第1の処理対象マップが第1の特徴マップであり、上述の第2の処理対象マップが第3の特徴マップである場合、上述の第3の処理対象マップは、2次元画像となる。第2の処理対象マップと第3の処理対象マップにおける同じ位置の特徴量を加算し、加算して得た2次元画像を強化処理後の第1の特徴マップとするようにしてもよい。
ステップS407では、強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。
上述のステップS407は、前述のステップS103と同じであるので、ここでは説明を省略する。
以上から分かるように、本開示の実施形態に係る方法によるテキスト認識の際に、第1の特徴マップと第3の特徴マップのうちの1つの特徴マップに対して次元変換を行うことにより、同じ次元の2つの特徴マップを得、それから、これら2つの特徴マップで同じ位置の特徴量を加算し、加算して得た画像を強化処理後の第1の特徴マップとする。第3の特徴マップは、グローバル画像情報を含むので、上述の同じ次元の2つの特徴マップで同じ位置の特徴量を加算することにより、第1の特徴マップに対する特徴強化処理を正確に実現することができ、さらにテキスト認識を実現することができる。
次に、上述した図4の実施形態におけるステップS405の、第3の特徴マップを3次元の特徴マップに変換する実現プロセスについて説明する。
本開示の一実施形態では、以下のステップ1およびステップ2により2次元の第3の特徴マップを3次元の特徴マップに変換するようにしてもよい。
ステップ1では、第2の次元と第3の次元の次元値に応じて、第3の特徴マップにおける第1の次元の各次元値に対応する1次元の特徴データを再構成して、第1の次元の各次元値に対応する2次元の特徴マップを得る。
上述の図2に示す実施形態のステップS202の記述によると、第1の特徴マップにおいて第1の次元の各次元値での第2の次元および第3の次元に対応する特徴量は、1つの2次元の特徴マップに含まれる特徴量と見なされ、上述の特徴量を再構成して1次元の特徴データを得ることは、上述の2次元の特徴マップに対して次元変換を行って1次元の特徴データを得ると理解され得るので、上述のステップS202は、2次元の特徴マップを1次元の特徴データに変換するステップと見なされ得る。本ステップは、上述のプロセスと逆となり、1次元の特徴データを2次元の特徴マップとして再構成することが望まれるので、本ステップは、上述のステップS202の逆のプロセスと見なされ得る。
具体的には、再構成されるべき2次元の特徴マップが1つの2次元画像であるため、第2の次元の最大次元値および第3の次元の最大次元値に応じて、2次元の特徴マップの列方向における画素点の個数および行方向における画素点の個数を決定し、決定された列方向における画素点の個数および行方向における画素点の個数を、それぞれ、第1の個数および第2の個数とし、その後、上述の第1の個数および第2の個数に基づいて、1次元の特徴データを分割して2次元の特徴マップを再構成するようにしてもよい。
一実施態様では、1次元の特徴データを分割する際に、構築されるべき2次元の特徴マップにおける1行の画素点の画素値として、1次元の特徴データから第2の個数の特徴量を順次読み出すプロセスを、第1の個数回の読み出しを完了するまで繰り返すようにしてもよい。
例えば、上述の1次元の特徴データが600個の特徴量を含み、第2の次元の最大次元値が20であり、第3の次元の最大次元値が30である場合、上述の第1の個数は20となり、第2の個数は30となり、構築されるべき2次元の特徴マップは、20×30の特徴マップとなる。このようにして、2次元の特徴マップを構築する際に、2次元の特徴マップの1行の画素点の画素値として、1次元の特徴データから30個の特徴量を読み出すプロセスを、20回繰り返して、2次元の特徴マップの構築を完了するようにしてもよい。
ステップ2では、第1の次元の各次元値に対応する2次元の特徴マップを含む3次元画像を第3の処理対象マップとして取得する。
具体的には、3次元画像において、各2次元の特徴マップが、第1の次元の各次元値に応じて配列されてもよい。例えば、次元値が小から大の順で配列されてもよい。
以上から分かるように、本実施形態による方法では、3次元画像を構築する際に、まず、2つの次元に基づいて、2次元画像を構築し、構築された画像を第3の次元に基づいて統合して3次元画像を得るようにする。このようにして、3次元画像の構築の際に3つの次元の情報を十分に考慮することで、構築された3次元画像の精度を向上させた。
本開示の一実施形態では、上述の第3の特徴マップに基づいて第1の特徴マップの特徴量毎に対して特徴強化処理を行うステップS205を実行する前に、第1の特徴マップに対して非線形変換を行うようにしてもよい。
非線形変換により、データの間の差異の程度を増大することができるため、第1の特徴マップに非線形変換を行うことにより、第1の特徴マップにおける表現力の強い特徴量と表現力の弱い特徴量との間の差異を増大することができ、そして、表現力の強い特徴量の特性値が後続の特徴強化処理に与える影響が比較的に大きいため、第1の特徴マップに非線形変換を行って、特徴量の間の差異の程度を増大するようにし、このようにして、後続の特徴強化処理の際に、表現力の強い特徴量を正確に決定することができ、これにより、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行い、テキスト認識の精度を向上させるのに有利である。
具体的には、第1の特徴マップの非線形変換は、既存の非線形変換技術により実現することができ、ここでは詳細に説明しない。
同様に、上述の、第3の特徴マップに基づいて第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップS205を実行する前に、第3の特徴マップに対して非線形変換を行うようにしてもよい。
以上から分かるように、本開示の実施形態による方法によりテキスト認識を行う際に、第1の特徴マップに対して非線形変換を行うことにより、第1の特徴マップにおける特徴量の間の差異の程度を増大させることができる。第3の特徴マップに非線形変換を行うことにより、第3の特徴マップにおける特徴量の間の差異の程度を増大させることができる。第1の特徴マップおよび/または第3の特徴マップに対して非線形変換を行うことにより、後続の特徴強化処理の際に表現力の強い特徴量を決定するのに有利であり、これにより、特徴強化処理、テキスト認識精度の向上に有利である。
また、上述のステップS205を実行する前に、第1の特徴マップおよび第3の特徴マップに対して非線形変換を行うようにしてもよいし、第1の特徴マップと第3の特徴マップのうちの一方に対して非線形変換を行うようにしてもよい。これにより、第1の特徴マップと第3の特徴マップとに非線形変換する必要があるか否かを実際に応じて判断することができ、本開示の実施形態によるテキスト認識の方法の柔軟性を高める。
また、本開示の一実施形態では、上述のステップS101を実行して認識対象画像の多次元の第1の特徴マップを得た後、上述ステップS102を実行する前に第1の特徴マップに非線形変換を行うようにしてもよい。
第1の特徴マップに非線形変換を行う上述の実施形態と同様に、第1の特徴マップに非線形変換を行うことは、後続の第1の特徴マップにおける特徴量毎に対する特徴強化処理に有利であり、テキスト認識の精度を向上させる。
また、テキスト認識の際に、上述実施形態で述べた3回の非線形変換をすべて本開示の実施形態によるテキスト認識の方法に適用してもよいし、3回の非線形変換のうちの1回または2回を適用してもよいし、3回の非線形変換のいずれも適用しなくてもよい。
なお、上述の第1の特徴マップにおける特徴量毎に対して特徴量強化処理を行うステップS102を実行する際に、上述の実施形態で述べた実施態様の他に、以下の実施形態におけるステップS502~S504により特徴強化処理を行うようにしてもよい。
本開示の一実施形態では、図5を参照すると、第5のテキスト認識の方法のフローチャート概略図が提供される。本実施形態では、第1の特徴マップが3次元の特徴マップであり、上述のテキスト認識の方法は、以下のステップS501~S505を含む。
ステップS501では、認識対象画像の多次元の第1の特徴マップを取得する。
上述のステップS501は、前述のステップS101と同じであるので、ここでは説明を省略する。
ステップS502では、第1の特徴マップにおける各第3の特徴データ間の類似度を算出する。
ここで、第3の特徴データは、3つの次元のうちの第2の次元および第3の次元の各次元値の組み合わせに対応する第1の次元の特徴量を含む。
第2の次元の1つの次元値と第3の次元の1つの次元値とは、次元値の組み合わせを1つ構成することができ、このようにして、第2の次元の各次元値と第3の次元の各次元値とは、次元値の組み合わせを複数構成することができる。
それぞれの次元値の組み合わせについて、第2の次元および第3の次元の次元値が既に決められたものであり、当該次元値の組み合わせは、第1の次元の次元値毎と結合して、第1の特徴マップにおける、結合後の情報に対応する特徴量を決定することができる。このような状況に鑑み、それぞれの第3の特徴データに、第1の次元の最大次元値と同数の特徴量が含まれている。
一実施形態では、上述の類似度を算出する際に、第3の特徴データを所定のベクトル空間内の特徴ベクトルに変換し、各特徴ベクトル間の類似度を算出することにより、特徴ベクトルに対応する第3の特徴データ間の類似度を求めるようにしてもよい。
ステップS503では、算出した全ての類似度に基づいて、算出した類似度毎に対して正規化処理を行う。
類似度の正規化処理は、softmaxアルゴリズム、L1Normalizeアルゴリズム、L2Normalizeアルゴリズム等の正規化アルゴリズムにより実現することができる。
ステップS504では、正規化処理後の類似度に基づいて、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行う。
具体的には、特徴を強化するために、正規化処理後の類似度を用いて、第1の特徴マップにおける特徴量毎に対して線形重み付けを行うようにしてもよい。なお、正規化処理後の類似度は、線形重み付けの重み係数とする。
ステップS505では、強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行う。
上述ステップS505は、前述のステップS103と同じであるので、ここで説明を省略する。
以上から分かるように、本開示の実施形態による方法を適用してテキスト認識を行う際に、第1の特徴マップにおける各第3の特徴データ間の類似度を算出し、算出した類似度毎に対して、算出した全ての類似度を用いて正規化処理を行うことにより、正規化処理後の類似度は、グローバル特徴を統合した各第3の特徴データ間の類似度を反映することができるので、正規化処理後の類似度は、グローバル画像情報を含むことになる。このようにして、正規化処理後の類似度に基づいて、第1の特徴マップにおけるそれぞれの特徴量に対しても、グローバル画像情報を考慮して特徴強化処理を行うことで、特徴強化後の第1の特徴マップはグローバル受容野を有するようになる。グローバル受容野を有する第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うことにより、テキスト認識の精度を高めることができる。
本開示は、上述のテキスト認識の方法に対応して、テキスト認識の装置を提供する。
図6を参照する。図6は、本開示の実施形態に係る第1のテキスト認識の装置の構造概略図であり、認識対象画像の多次元の第1の特徴マップを取得するように構成される特徴取得モジュール601と、前記第1の特徴マップにおける各特徴量に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成される特徴強化モジュール602と、強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール603とを備える。
以上から分かるように、本開示の実施形態に係る方法によるテキスト認識の際に、まず、認識対象画像の多次元の第1の特徴マップを得、その後、第1の特徴マップにおける各特徴量に基づいて、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行い、強化処理後の第1の特徴マップに基づいてテキスト認識を行うことにより、認識対象画像に対するテキスト認識を実現することができる。
また、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行う際に、特徴量毎に対して、第1の特徴マップにおける各特徴量に基づいて処理を行うようにする。このようにして強化処理後の第1の特徴マップにおけるそれぞれの特徴量は、いずれも画像のグローバル情報を考慮したものとなるので、強化処理後の第1の特徴マップは、上述の認識対象画像のグローバル情報を特徴付けることができ、これにより、強化処理後の第1の特徴マップに基づいて認識対象画像をテキスト認識することにより、テキスト認識の精度を向上させることができる。
本開示の一実施形態では、図7を参照すると、第2のテキスト認識の装置の構造概略図が提供され、本実施形態において、前記テキスト認識の装置は、認識対象画像の多次元の第1の特徴マップを取得するように構成される特徴取得モジュール701と、3つの次元のうちの第1の次元の次元値毎に対して、前記第1の特徴マップにおいて、当該次元値での第2の次元および第3の次元の対応する特徴量を再構成して、当該次元値に対応する1次元の特徴データを得るように構成される特徴再構成サブモジュール702と、前記第1の次元の各次元値に対応する1次元の特徴データを含む2次元の第2の特徴マップを取得するように構成される特徴取得サブモジュール703と、前記第2の特徴マップにおいて、次元毎における各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得るように構成される正規化処理サブモジュール704と、前記第3の特徴マップに基づいて、前記第1の特徴マップの特徴量毎に対して特徴強化処理を行うように構成される特徴強化サブモジュール705と、強化処理後の第1の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール706と、を備える。
以上のように、本開示の実施形態による方法を適用してテキスト認識を行う場合、1次元の特徴データに含まれる特徴量を正規化するには、当該1次元の特徴データに含まれる全ての特徴量を用いて正規化を行う必要があるため、正規化処理後の1次元の特徴データにおける各特徴量は、当該1次元の特徴データにおける全ての特徴量による影響を受けることになる。その上で、第2の特徴マップにおいて、次元毎における各1次元の特徴データに含まれる特徴量に対して正規化処理を行うことで、第3の特徴マップにおけるそれぞれの特徴量は、いずれも第1の特徴マップの全ての特徴量による影響を受けることになり、これにより、第3の特徴マップは、認識対象画像をグローバル特徴量の角度で特徴付けることができる。このように、第3の特徴マップに基づいて、第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うことにより、認識対象画像全体を受容野とした特徴マップを得ることができ、テキスト認識に用いられる特徴マップの受容野を大きくすることができるので、認識対象画像に対するテキスト認識の精度を向上させることができる。
本開示の一実施形態では、図8を参照すると、第3のテキスト認識の装置の構造概略図が提供され、本実施形態では、前記テキスト認識の装置は、認識対象画像の多次元の第1の特徴マップを取得するように構成される特徴取得モジュール801と、3つの次元のうちの第1の次元の次元値毎に対して、前記第1の特徴マップにおいて当該次元値での第2の次元および第3の次元に対応する特徴量を再構成し、当該次元値に対応する1次元の特徴データを得るように構成される特徴再構成サブモジュール802と、前記第1の次元の各次元値に対応する1次元の特徴データを含む2次元の第2の特徴マップを取得するように構成される特徴取得サブモジュール803と、前記第2の特徴マップにおいて、次元毎における各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得るように構成される正規化処理サブモジュール804と、第1の処理対象マップに対して次元変換を行って、第2の処理対象マップと同じ次元の第3の処理対象マップを得る次元変換ユニット805であって、前記第1の処理対象マップは、前記第3の特徴マップまたは前記第1の特徴マップであり、前記第2の処理対象マップは、前記第3の特徴マップおよび前記第1の特徴マップのうちの前記第1の処理対象マップ以外の画像である次元変換ユニット805と、前記第2の処理対象マップと第3の処理対象マップにおける同じ位置の特徴量を加算し、演算して得た画像を、強化処理後の第1の特徴マップとするように構成される特徴量演算ユニット806と、強化処理後の第1の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール807と、を備える。
以上から分かるように、本開示の実施形態に係る方法によるテキスト認識の際に、第1の特徴マップと第3の特徴マップのうちの1つの特徴マップに対して次元変換を行うことにより、同じ次元の2つの特徴マップを得、それから、これら2つの特徴マップにおける同じ位置の特徴量を加算し、演算して得た画像を強化処理後の第1の特徴マップとする。第3の特徴マップは、グローバル画像情報を含むので、上述の同じ次元の2つの特徴マップにおける同じ位置の特徴量を加算することにより、第1の特徴マップに対する特徴強化処理を正確に実現することができ、さらにテキスト認識を実現することができる。
本開示の一実施形態では、前記第1の特徴マップは、前記第3の特徴マップであり、前記第2の特徴マップは、前記第1の特徴マップである。前記次元変換ユニット805は、具体的に、前記第2の次元と第3の次元の次元値に応じて、前記第3の特徴マップにおける前記第1の次元の各次元値に対応する1次元の特徴データを再構成して、前記第1の次元の各次元値に対応する2次元の特徴マップを得、前記第1の次元の各次元値に対応する2次元の特徴マップを含む3次元画像を第3の処理対象マップとして取得するように構成される。
以上から分かるように、本開示の実施形態による方法でテキスト認識を行う場合、3次元画像を構築する際に、まず、2つの次元に基づいて2次元画像を構築し、構築した画像を第3の次元に基づいて統合して3次元画像を得るようにする。このようにして、3次元画像の構築の際に3つの次元の情報を十分に考慮することで、構築した3次元画像の精度を向上させる。
本開示の一実施形態では、前記正規化処理サブモジュール704は、具体的には、前記第2の特徴マップにおける各第1の特徴データに含まれる特徴量に対して正規化処理を行い、正規化処理後の第2の特徴マップにおける各第2の特徴データに含まれる特徴量に対して正規化処理を行うように構成され、ここで、前記第1の特徴データは、前記第1の次元の各次元値に対応する1次元の特徴データであり、前記第2の特徴データは、マージング次元の各次元値に対応する1次元の特徴データであり、前記マージング次元は、前記第2の特徴マップにおいて前記第2の次元および第3の次元に対応する次元である。
以上から明らかなように、本開示の一実施形態による方法では、各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得る際に、まず、第1の次元の各次元値に対応する第1の特徴データに対して正規化処理を行い、正規化処理を行った上、マージング次元の各次元値に対応する第2の特徴データに対して正規化処理を行う。第1の特徴データに含まれる特徴量の数は、マージング次元の次元値の数と等しく、そして、マージング次元の次元値の数は、往々に第1の次元の次元値の数よりも大きいため、まず、第1の特徴データに対して正規化処理を行うことにより、後続の正規化処理にいっそう豊富な参照データを提供することができ、得られた第3の特徴マップの精度を向上させるのに有利である。
本開示の一実施形態では、第1の次元は深さ次元であり、第2の次元は幅次元であり、第3の次元は高さ次元である。
以上から分かるように、本開示の一実施形態による方法を適用してテキスト認識を行う際に、第1の特徴マップにおける第1の次元の1つの次元値で、第2の次元および第3の次元に対応する特徴量は、高さ次元および幅次元として2次元の特徴マップを形成することができ、これにより、第2の次元および第3の次元に対応する特徴量を再構成することは、2次元の特徴マップにおける特徴量を再構成することに相当し、単一の2次元の特徴マップの特徴量を再構成することにより、他の2次元の特徴マップによる干渉を回避することができ、それにより、上述の1次元の特徴データを得るのに有利である。
本開示の一実施形態では、図9を参照すると、第4のテキスト認識の装置の構造概略図が提供され、本実施形態では、前記テキスト認識の装置は、認識対象画像の多次元の第1の特徴マップを取得するように構成される特徴取得モジュール901と、3つの次元のうちの第1の次元の次元値毎に対して、前記第1の特徴マップにおいて当該次元値での第2の次元および第3の次元に対応する特徴量を再構成して、当該次元値に対応する1次元の特徴データを得るように構成される特徴再構成サブモジュール902と、前記第1の次元の各次元値に対応する1次元の特徴データを含む2次元の第2の特徴マップを取得するように構成される特徴取得サブモジュール903と、前記第2の特徴マップにおいて、各次元における各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得るように構成される正規化処理サブモジュール904と、前記第3の特徴マップに基づいて前記第1の特徴マップの特徴量毎に対して特徴強化処理を行う前に、前記第1の特徴マップおよび/または第3の特徴マップに対して非線形変換を行うように構成される非線形変換サブモジュール905と、前記第3の特徴マップに基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成される特徴強化サブモジュール906と、強化処理後の第1の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール907と、を備える。
以上から分非線形変換サブモジュールかるように、本開示の実施形態による方法によるテキスト認識の際に、第1の特徴マップに非線形変換を行うことにより、第1の特徴マップにおける特徴量の間の差異の程度を増大させることができる。第3の特徴マップに非線形変換を行うことにより、第3の特徴マップにおける特徴量の間の差異の程度を増大させることができる。第1の特徴マップおよび/または第3の特徴マップに非線形変換を行うことにより、後続の特徴強化処理の際に表現力の強い特徴量を決定するのに有利であり、これにより、特徴強化処理、テキスト認識の精度の向上に有利である。
本開示の一実施形態では、図10を参照すると、第5のテキスト認識の装置の概略構成図が提供され、本実施形態では、前記装置は、認識対象画像の多次元の第1の特徴マップを取得するように構成される特徴取得モジュール1001と、認識対象画像の多次元の第1の特徴マップを取得した後に、前記第1の特徴マップに対して非線形変換するように構成される非線形変換モジュール1002と、前記第1の特徴マップにおける特徴量毎に対して、前記第1の特徴マップにおける各特徴量に基づいて、当該特性値に対して特徴強化処理を行うように構成される特徴強化モジュール1003と、強化処理後の第1の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュール1004と、を備える。
以上から分かるように、本開示の実施形態による方法を適用してテキスト認識を行う際に、第1の特徴マップに対して非線形変換を行うことは、後続の第1の特徴マップにおける特徴量毎に対する特徴強化処理、テキスト認識の精度の向上に有利である。
本開示の一実施形態では、前記第1の特徴マップは3次元の特徴マップであり、前記特徴強化モジュール602は、具体的には、前記第1の特徴マップにおける各第3の特徴データ間の類似度を算出し、算出した全ての類似度に基づいて、算出した類似度毎に対して正規化処理を行い、正規化処理後の類似度を用いて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成され、ここで、前記第3の特徴データは、3つの次元のうちの第2の次元および第3の次元の各次元値の組み合わせに対応する第1の次元の特徴量を含む。
以上から分かるように、本開示の実施形態による方法を適用してテキスト認識を行う際に、第1の特徴マップにおける各第3の特徴データ間の類似度を算出し、算出した全ての類似度を用いて、算出した類似度毎を正規化処理を行うことにより、正規化処理後の類似度は、グローバル特徴を統合した各第3の特徴データ間の類似度を反映することができるので、正規化処理後の類似度は、グローバル画像情報を含むことになる。このようにして、正規化処理後の類似度に基づいて、第1の特徴マップにおける特徴量毎に対してグローバル画像情報を考慮して特徴強化処理を行うことで、特徴強化後の第1の特徴マップはグローバル受容野を有する。グローバル受容野を有する第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うことにより、テキスト認識の精度を高めることができる。
本開示の実施形態によれば、本開示は、さらに、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提供する。
本開示の一実施形態では、電子機器であって、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続され、前記少なくとも1つのプロセッサによって実行可能な指令を記憶したメモリとを備え、前記指令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、前記方法の実施形態に記載の何れかのテキスト認識の方法を実行させる電子機器が提供される。
本開示の一実施形態では、前記方法の実施形態に記載のいずれのテキスト認識の方法をコンピュータに実行させるためのコンピュータ指令を記憶した非一時的なコンピュータ可読記憶媒体が提供される。
本開示の一実施形態では、プロセッサによって実行されると前記方法の実施形態に記載の何れかのテキスト認識の方法を実現させるコンピュータプログラムが提供される。
図11は、本開示の実施形態を実施するために使用できる例示的な電子機器1100の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
図11に示すように、電子機器1100は、読み出し専用メモリ(ROM)1102に記憶されているコンピュータプログラムまたは記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット1101を備える。RAM1103には、機器1100の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット1101、ROM1102およびRAM1103は、バス1104を介して互いに接続されている。入/出力(I/O)インタフェース1105もバス1104に接続されている。
電子機器1100において、キーボード、マウスなどの入力ユニット1106と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1107と、磁気ディスク、光ディスクなどの記憶ユニット1108と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット1109とを備える複数のコンポーネントは、I/Oインタフェース1105に接続されている。通信ユニット1109は、機器1100がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
計算ユニット1101は、処理および計算機能を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット1101のいくつかの例示としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1101は、上述したオーディオ/ビデオの処理方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、オーディオ/ビデオの処理方法は、記憶ユニット1108などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM1102および/または通信ユニット1109を介して機器1100にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM1103にロードされ、計算ユニット1101によって実行されると、上述のオーディオ/ビデオの処理方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット1101は、他の任意の適切な方式によって(例えば、ファームウェアを介して)オーディオ/ビデオの処理方法を実行するように構成されていてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置またはデバイスが使用するため、または指令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが当該キーボードおよび当該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく)、且つ音入力、オーディオ入力または、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは当該グラフィカルユーザインタフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバ、またはブロックチェーンを組み合わせたサーバであってもよい。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (21)

  1. テキスト認識の方法であって、
    認識対象画像の多次元の第1の特徴マップを取得するステップと、
    前記第1の特徴マップにおける各特徴量に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップと、
    強化処理後の第1の特徴マップに基づいて、前記認識対象画像に対してテキスト認識を行うステップと、を含む方法。
  2. 前記第1の特徴マップは、3次元の特徴マップであり、
    前記第1の特徴マップにおける各特徴量に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップは、
    3つの次元のうちの第1の次元の次元値毎に対して、前記第1の特徴マップにおいて、当該次元値での第2の次元および第3の次元の対応する特徴量を再構成して、当該次元値に対応する1次元の特徴データを得るステップと、
    前記第1の次元の各次元値に対応する1次元の特徴データを含む2次元の第2の特徴マップを取得するステップと、
    前記第2の特徴マップにおいて、各次元における各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得るステップと、
    前記第3の特徴マップに基づいて、前記第1の特徴マップの特徴量毎に対して特徴強化処理を行うステップと、を含む、
    請求項1に記載の方法。
  3. 前記第3の特徴マップに基づいて、前記第1の特徴マップの特徴量毎に対して特徴強化処理を行うステップは、
    第1の処理対象マップに対して次元変換を行って、第2の処理対象マップと同じ次元の第3の処理対象マップを得るステップであって、前記第1の処理対象マップは、前記第3の特徴マップまたは前記第1の特徴マップであり、前記第2の処理対象マップは、前記第3の特徴マップおよび前記第1の特徴マップにおける前記第1の処理対象マップ以外の画像である、ステップと、
    前記第2の処理対象マップと第3の処理対象マップにおける同じ位置の特徴量を加算し、演算して得た画像を、強化処理後の第1の特徴マップとするステップと、を含む、
    請求項2に記載の方法。
  4. 前記第1の処理対象マップは、前記第3の特徴マップであり、
    前記第2の処理対象マップは、前記第1の特徴マップであり、
    第1の処理対象マップに対して次元変換を行って、第2の処理対象マップと同じ次元の第3の処理対象マップを得るステップは、
    前記第2の次元と第3の次元の次元値に応じて、前記第3の特徴マップにおける前記第1の次元の各次元値に対応する1次元の特徴データを再構成して、前記第1の次元の各次元値に対応する2次元の特徴マップを得るステップと、
    前記第1の次元の各次元値に対応する2次元の特徴マップを含む3次元画像を第3の処理対象マップとして取得するステップと、を含む
    請求項3に記載の方法。
  5. 前記第2の特徴マップにおいて、各次元における各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得るステップは、
    前記第2の特徴マップにおける各第1の特徴データに含まれる特徴量に対して正規化処理を行うステップであって、前記第1の特徴データは、前記第1の次元の各次元値に対応する1次元の特徴データであるステップと、
    正規化処理後の第2の特徴マップにおける各第2の特徴データに含まれる特徴量に対して正規化処理を行うステップであって、前記第2の特徴データは、マージング次元の各次元値に対応する1次元の特徴データであり、前記マージング次元は、前記第2の特徴マップにおいて前記第2の次元および第3の次元に対応する次元であるステップと、を含む、
    請求項2に記載の方法。
  6. 前記第1の次元が深さ次元であり、前記第2の次元が幅次元であり、前記第3の次元が高さ次元である、請求項2に記載の方法。
  7. 前記第3の特徴マップに基づいて、前記第1の特徴マップの特徴量毎に対して特徴強化処理を行う前に、
    前記第1の特徴マップおよび/または第3の特徴マップに対して非線形変換を行うステップをさらに含む、
    請求項2に記載の方法。
  8. 前記認識対象画像の多次元の第1の特徴マップを取得した後に、
    前記第1の特徴マップに対して非線形変換を行うステップをさらに含む、
    請求項1に記載の方法。
  9. 前記第1の特徴マップは、3次元の特徴マップであり、
    前記第1の特徴マップにおける各特徴量に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップは、
    前記第1の特徴マップにおける各第3の特徴データ間の類似度を算出するステップであって、前記第3の特徴データは、3つの次元のうちの第2の次元および第3の次元の各次元値の組み合わせに対応する第1の次元の特徴量を含む、ステップと、
    算出した全ての類似度に基づいて、算出した類似度毎に対して正規化処理を行うステップと、
    正規化処理後の類似度に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うステップと、を含む、
    請求項1に記載の方法。
  10. テキスト認識の装置であって、
    認識対象画像の多次元の第1の特徴マップを取得するように構成される特徴取得モジュールと、
    前記第1の特徴マップにおける各特徴量に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成される特徴強化モジュールと、
    強化処理後の第1の特徴マップに基づいて、認識対象画像に対してテキスト認識を行うように構成されるテキスト認識モジュールと、
    を備える、装置。
  11. 前記第1の特徴マップは、3次元の特徴マップであり、
    前記特徴強化モジュールは、
    3つの次元のうちの第1の次元の次元値毎に対して、前記第1の特徴マップにおいて、当該次元値での第2の次元および第3の次元の対応する特徴量を再構成して、当該次元値に対応する1次元の特徴データを得るように構成される特徴再構成サブモジュールと、
    前記第1の次元の各次元値に対応する1次元の特徴データを含む2次元の第2の特徴マップを取得するように構成される特徴取得サブモジュールと、
    前記第2の特徴マップにおいて、各次元における各1次元の特徴データに含まれる特徴量に対して正規化処理を行って、第3の特徴マップを得るように構成される正規化処理サブモジュールと、
    前記第3の特徴マップに基づいて、前記第1の特徴マップの特徴量毎に対して特徴強化処理を行うように構成される特徴強化サブモジュールと、を備える、
    請求項10に記載の装置。
  12. 特徴強化サブモジュールは、
    第1の処理対象マップに対して次元変換を行って、第2の処理対象マップと同じ次元の第3の処理対象マップを得るように構成される次元変換ユニットであって、前記第1の処理対象マップは、前記第3の特徴マップまたは前記第1の特徴マップであり、前記第2の処理対象マップは、前記第3の特徴マップおよび前記第1の特徴マップにおける前記第1の処理対象マップ以外の画像である、ユニットと、
    前記第2の処理対象マップと第3の処理対象マップにおける同じ位置の特徴量を加算し、演算して得た画像を、強化処理後の第1の特徴マップとするように構成される特徴量演算ユニットと、を備える、
    請求項11に記載の装置。
  13. 前記第1の処理対象マップは、前記第3の特徴マップであり、
    前記第2の処理対象マップは、前記第1の特徴マップであり、
    前記次元変換ユニットは、
    前記第2の次元と第3の次元の次元値に応じて、前記第3の特徴マップにおける前記第1の次元の各次元値に対応する1次元の特徴データを再構成して、前記第1の次元の各次元値に対応する2次元の特徴マップを得、
    前記第1の次元の各次元値に対応する2次元の特徴マップを含む3次元画像を第3の処理対象マップとして取得するように構成される、
    請求項12に記載の装置。
  14. 前記正規化処理サブモジュールは、
    前記第2の特徴マップにおける各第1の特徴データに含まれる特徴量に対して正規化処理を行い、
    正規化処理後の第2の特徴マップにおける各第2の特徴データに含まれる特徴量に対して正規化処理を行うように構成され、
    前記第1の特徴データは、前記第1の次元の各次元値に対応する1次元の特徴データであり、
    前記第2の特徴データは、マージング次元の各次元値に対応する1次元の特徴データであり、前記マージング次元は、前記第2の特徴マップにおいて前記第2の次元および第3の次元に対応する次元である、
    請求項11に記載の装置。
  15. 前記第1の次元が深さ次元であり、前記第2の次元が幅次元であり、前記第3の次元が高さ次元である、請求項11乃至14のいずれか一項に記載の装置。
  16. 前記特徴強化モジュールは、
    前記第3の特徴マップに基づいて、前記第1の特徴マップの特徴量毎に対して特徴強化処理を行う前に、前記第1の特徴マップおよび/または第3の特徴マップに対して非線形変換を行うように構成される非線形変換サブモジュールをさらに備える、
    請求項11乃至14のいずれか一項に記載の装置。
  17. 前記認識対象画像の多次元の第1の特徴マップを取得した後に、前記第1の特徴マップに対して非線形変換を行うように構成される非線形変換モジュールをさらに備える、
    請求項10乃至14のいずれか一項に記載の装置。
  18. 前記第1の特徴マップは、3次元の特徴マップであり、
    前記特徴強化モジュールは、
    前記第1の特徴マップにおける各第3の特徴データ間の類似度を算出し、
    算出した全ての類似度に基づいて、算出した類似度毎に対して正規化処理を行い、
    正規化処理後の類似度に基づいて、前記第1の特徴マップにおける特徴量毎に対して特徴強化処理を行うように構成され、
    前記第3の特徴データは、3つの次元のうちの第2の次元および第3の次元の各次元値の組み合わせに対応する第1の次元の特徴量を含む、
    請求項10に記載の装置。
  19. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続され、前記少なくとも1つのプロセッサによって実行可能な指令を記憶したメモリと、を備え、
    前記指令は、前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、請求項1乃至9の何れか一項に記載のテキスト認識の方法を実行させる、電子機器。
  20. 請求項1乃至9の何れか一項に記載のテキスト認識の方法をコンピュータに実行させるためのコンピュータ指令を記憶した非一時的なコンピュータ可読記憶媒体。
  21. プロセッサによって実行されると、請求項1乃至9のいずれか一項に記載のテキスト認識の方法を実現させるコンピュータプログラム。
JP2022140728A 2022-01-06 2022-09-05 テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム Active JP7418517B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210013631.1A CN114359905B (zh) 2022-01-06 2022-01-06 一种文本识别方法、装置、电子设备及存储介质
CN202210013631.1 2022-01-06

Publications (2)

Publication Number Publication Date
JP2022172292A true JP2022172292A (ja) 2022-11-15
JP7418517B2 JP7418517B2 (ja) 2024-01-19

Family

ID=81107773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022140728A Active JP7418517B2 (ja) 2022-01-06 2022-09-05 テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (4)

Country Link
US (1) US20230010031A1 (ja)
JP (1) JP7418517B2 (ja)
KR (1) KR20220155948A (ja)
CN (1) CN114359905B (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081731A (zh) * 2009-11-26 2011-06-01 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN111126410A (zh) * 2019-12-31 2020-05-08 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
CN111914843A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、系统、设备及存储介质
CN112801103A (zh) * 2021-01-19 2021-05-14 网易(杭州)网络有限公司 文本方向识别及文本方向识别模型训练方法、装置
CN113591862A (zh) * 2021-07-09 2021-11-02 上海智臻智能网络科技股份有限公司 文本识别的方法及装置
JP2021179848A (ja) * 2020-05-14 2021-11-18 キヤノン株式会社 画像処理システム、画像処理方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599773B (zh) * 2016-10-31 2019-12-24 清华大学 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN113435210A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 社交图片文本识别方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081731A (zh) * 2009-11-26 2011-06-01 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN111126410A (zh) * 2019-12-31 2020-05-08 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
JP2021179848A (ja) * 2020-05-14 2021-11-18 キヤノン株式会社 画像処理システム、画像処理方法、及びプログラム
CN111914843A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、系统、设备及存储介质
CN112801103A (zh) * 2021-01-19 2021-05-14 网易(杭州)网络有限公司 文本方向识别及文本方向识别模型训练方法、装置
CN113591862A (zh) * 2021-07-09 2021-11-02 上海智臻智能网络科技股份有限公司 文本识别的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINGYU SHANG ET AL.: "CHARACTER REGION AWARENESS NETWORK FOR SCENE TEXT RECOGNITION", 2020 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME), JPN6023031137, 10 July 2020 (2020-07-10), ISSN: 0005119931 *
QIN TANG ET AL.: "Scene Text Detection with Feature Aggregation and Receptive Field Enhancement", 2021 IEEE 5TH ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC), JPN6023031138, 14 March 2021 (2021-03-14), ISSN: 0005119932 *

Also Published As

Publication number Publication date
JP7418517B2 (ja) 2024-01-19
US20230010031A1 (en) 2023-01-12
CN114359905B (zh) 2023-05-26
CN114359905A (zh) 2022-04-15
KR20220155948A (ko) 2022-11-24

Similar Documents

Publication Publication Date Title
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
US20210027526A1 (en) Lighting estimation
US20220415072A1 (en) Image processing method, text recognition method and apparatus
US20230206578A1 (en) Method for generating virtual character, electronic device and storage medium
CN108921801B (zh) 用于生成图像的方法和装置
CN114792355B (zh) 虚拟形象生成方法、装置、电子设备和存储介质
US20230135109A1 (en) Method for processing signal, electronic device, and storage medium
US20220292795A1 (en) Face image processing method, electronic device, and storage medium
JP2022122989A (ja) 画像認識モデルを構築するための方法及び装置、画像認識方法及び装置、電子デバイス、コンピュータ可読記憶媒体、並びにコンピュータプログラム
CN112734910A (zh) 基于rgb单图实时人脸三维图像重建方法、装置及电子设备
CN114065915A (zh) 网络模型的构建方法、数据处理方法、装置、介质及设备
JP7418517B2 (ja) テキスト認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
CN113781653B (zh) 对象模型生成方法、装置、电子设备及存储介质
CN114723796A (zh) 一种三维点云生成方法、装置及电子设备
CN113344213A (zh) 知识蒸馏方法、装置、电子设备及计算机可读存储介质
US8810572B2 (en) Tessellation cache for object rendering
JP7427120B2 (ja) 特徴画像の処理方法、装置及び記憶媒体
CN117058380B (zh) 基于自注意力的多尺度轻量化三维点云分割方法及装置
US11676358B2 (en) Method and apparatus for digitizing paper data, electronic device and storage medium
CN114998600B (zh) 图像处理方法、模型的训练方法、装置、设备及介质
US20230004557A1 (en) Systems and Methods for Network Explainability
KR20230008672A (ko) 텍스트 인식 방법, 장치, 기기 및 저장 매체
Mi et al. Semantics recalibration and detail enhancement network for real‐time semantic segmentation
CN113239898A (zh) 用于处理图像的方法、路侧设备和云控平台

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240109

R150 Certificate of patent or registration of utility model

Ref document number: 7418517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150