JP7142121B2

JP7142121B2 - 文字認識の方法、装置、電子設備、コンピュータ可読記憶媒体、及びプログラム

Info

Publication number: JP7142121B2
Application number: JP2021051576A
Authority: JP
Inventors: チャン，シャオチャン; チャン，チェンクァン; リウ，シャンシャン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2021-03-25
Publication date: 2022-09-26
Anticipated expiration: 2041-03-25
Also published as: KR20210040306A; EP3816858A3; EP3816858A2; US11775845B2; JP2021103573A; CN111783760A; US20210209401A1; CN111783760B

Description

本発明はコンピュータ技術分野に関し、特に人工知能、ディープラーニング、コンピュータビジョン分野に関する。

自然なシーンにおけるエンドツーエンドの文字測定認識技術は、例えば、教育、医療、金融などの社会の各業界に広く応用することができる。文字測定認識技術から派生したよく見られるカード手形の認識、文書の自動入力、写真による問題文検索などの技術は、伝統的な業界のスマート化程度と生産効率を大幅に高め、人々の日常学習と生活を便利にした。自然なシーンにおけるエンドツーエンドの文字測定認識技術は迅速に発展をしているが、画像における文字を正確に認識できず、文字認識間違いまたは未認識が現れるなどの問題が依然として存在している。

本発明は、文字認識の方法、装置、電子設備およびコンピュータ可読記憶媒体を提供する。

本発明の１つの態様は、文字認識の方法を提供し、当該方法は、
画像より認識された各単文字の語義情報と第１位置情報とを決定することと、
各単文字の語義情報と第１位置情報により、グラフネットワークを構築することと、
グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定することと、を含む。

本発明の他の態様は、文字認識の装置を提供し、当該装置は、
画像より認識された各単文字の語義情報と第１位置情報とを決定するための第１決定モジュールと、
各単文字の語義情報と第１位置情報により、グラフネットワークを構築するための構築モジュールと、
グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定するための第２決定モジュール、を備える。

本発明の他の態様は、電子設備をさらに提供し、当該電子設備は、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
メモリには、少なくとも１つのプロセッサにより実行可能な命令が記憶されており、
命令は、少なくとも１つのプロセッサにより実行される場合、本発明の実施形態における任意の文字認識の方法を実行させることを特徴とする。

１つの可能な設計において、電子設備の構造において上記文字認識の方法を実行するための電子設備をサポートするプログラムを記憶するプロセッサおよびメモリを含み、プロセッサは、メモリに記憶されたプログラムを実行するように構成される。電子設備は、他のデバイスまたは通信ネットワークと通信するための通信インターフェースをさらに含むことができる。

本発明の他の態様は、コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体をさらに提供し、当該コンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体は、
本発明の実施形態の任意の文字認識の方法をコンピュータに実行させる。

本発明の実施形態は、以下のメリットまたは有益な効果を有する。

本発明の実施形態によるグラフネットワークは、各単文字の語義情報と第１位置情報に対して復号計算を行うため、２つの次元の情報を通して画像における文字をより正確に認識することができる。画像における文字認識の不正確さを解決し、画像における文字認識の精度を向上する。

ここに記載された内容は、本発明の実施形態のキーポイントまたは重要な特徴を標識することを意図せず、また、本発明の範囲を制限することにも用いられないことを理解すべきである。本発明の他の特徴については、下記の明細書を通して説明を促す。

添付図面は、本方案をより良く理解するためのものであり、本発明を限定するものではない。
本発明の実施形態による文字認識の方法の模式図である。本発明の実施形態による他の文字認識の方法の模式図である。本発明の実施形態による他の文字認識の方法の模式図である。本発明の実施形態による他の文字認識の方法の模式図である。本発明の実施形態による他の文字認識の方法の模式図である。本発明の実施形態による他の文字認識の方法の模式図である。本発明の実施形態による文字認識の装置の模式図である。本発明の実施形態による他の文字認識の装置の模式図である。本発明の実施形態による他の文字認識の装置の模式図である。本発明の実施形態による他の文字認識の装置の模式図である。本発明の実施形態による他の文字認識の装置の模式図である。本発明の実施形態による文字認識の方法を実現するための電子設備のブロック図である。

以下のおいて、本発明の例示的な実施形態を、理解を容易にするために本発明の実施形態の様々な詳細を含む添付の図面に関連して説明するが、これらは単に例示的なものであると考えるべきである。したがって、当業者は、本発明の範囲および精神を逸脱することなく、本発明に記載された実施形態に様々な変更および修正を加えることができることを認識すべきである。同様に、以下の説明では、周知の機能および構成については、明確化および簡明化のために説明を省略する。

本発明の実施形態によれば、図１に示すように、本発明は、文字認識の方法を提供し、下記ステップを含む。

Ｓ１０：画像より認識された各単文字の語義情報と第１位置情報とを決定する。

画像は、ビデオにおけるフレーム画像、撮影された写真、描画された画像、スキャンされた画像などを含むことができる。画像には、１つまたは複数の単文字を含むことができる。単文字には、様々な言語の文字、キャラクター、数字および符号などを含むことができる。例えば、１つの漢字は１つの単文字であってもよく、１つのアルファベットは１つの単文字であってもよく、１つの数字は１つの単文字であってもよく、１つのカンマも１つの単文字であってもよい。画像より認識された各単文字は、画像において実際に表示される単文字であってもよく、画像において実際に表示される単文字でなくともよい。即ち、認識された単文字は正確な認識結果である可能性もあり、間違った認識結果である可能性もある。

語義情報は、認識された単文字の意味に関する任意の情報を含むことができる。例えば、該単文字が具体的にどの字の関連特徴情報であるかを表すことができる。各単文字の語義情報は、該単文字が画像において対応する各画素点の語義情報を含んでもよく、該単文字が対応する各特徴点の語義情報を含んでもよく、さらに、該単文字の周囲一定の画像領域内に含まれる特徴点または画素点の語義情報を含んでもよい。取得する必要がある各単文字の語義情報に具体的に含まれる情報は、必要に応じて選択または調整することができ、具体的に限定はしない。

第１位置情報は、認識された単文字の画像における位置とに関する任意の情報を含むことができる。例えば、該単文字と隣接単文字間の距離、画像境界までの距離、画像中心までの距離の関連特徴情報を表すことができる。各単文字の第１位置情報は、該単文字の画像における対応する各画素点の第１位置情報を含んでもよく、該単文字の対応する各特徴点の第１位置情報を含んでもよく、さらに、該単文字の周囲一定の画像領域内に含まれる特徴点または画素点の第１位置情報を含んでもよい。取得する必要のある各単文字の第１位置情報に具体的に含まれる情報は、必要に応じて選択または調整することができ、具体的には限定しない。

なお、本発明において言及されている特徴点と画素点との間には変換関係があり、相互変換を行うことができる。即ち、本発明において言及されている特徴点の語義情報および／または第１位置情報により、対応する画素点の語義情報および／または第１位置情報を取得することができる。本発明において言及されている画素点の語義情報及び／または第１位置情報により、対応する特徴点の語義情報及び／または第１位置情報を取得することもできる。

例えば、認識された単文字は「一」である場合、「一」は原画像において１０個の画素点に対応する。原画像をニューラルネットワークモデルに入力して処理した後、原画像は特徴画像となり、特徴画像における各点は特徴点となる。特徴点は、原画像における画素点が演算を経て得られるものであるため、特徴点と画素点との間には変換関係があり、必要に応じて相応の変換を行うことができる。

Ｓ２０：認識された各単文字、および各単文字の語義情報と第１位置情報とにより、グラフネットワークを構築する。

グラフネットワークのネットワーク構造は、従来技術における任意のグラフネットワークの構造を用いることができる。具体的なネットワーク構造は、必要に応じて選択および調整を行うことができる。グラフネットワークは、グラフニューラルネットワークまたはグラフ畳み込みニューラルネットワークなどを含むことができる。

認識された各単文字、および各単文字の語義情報と第１位置情報とにより、グラフネットワークを構築することは、具体的に以下を含む。各単文字をグラフネットワークのノードとし、かつ、各単文字の語義情報および／または位置情報を用いて、グラフネットワークにおける各ノード間のエッジ関係を決定し、エッジ関係は、任意の２つのノードが関連関係を有するか否か、即ち、接続を行う必要があるか否かをに用いられる。即ち、グラフネットワークには、各単文字の語義情報に基づき構築されたグラフネットワークと、各単文字の位置情報に基づき構築されたグラフネットワークとを含んでもよい。

例えば、単文字はａ、ｂ、ｃを含むと認識する。ａ、ｂ、ｃをそれぞれ語義グラフネットワークの３つのノードとし、ａ、ｂ、ｃのそれぞれの語義情報を通して、ａ、ｂ、ｃ間のエッジ関係を決定する。即ち、ａ、ｂ、ｃという３つのノード間が如何に接続されるかを決定する。ａとｂにエッジ関係を有する場合、ａとｂを接続する。ｂとｃ間にエッジ関係があるかどうか決定できない場合、ｂとｃを破線で接続する。ａとｃ間にエッジ関係がないと決定した場合、ａとｃを接続しない。

グラフネットワークは、各単文字の語義情報および／または第１位置情報を復号するために用いることで、各ノード（各単文字）の特徴を計算し、計算した特徴は、ノードの対応する単文字の関連内容を表すために用いられ、各ノードの特徴は、該ノードと関連するいくつかの特徴を含むことができる。グラフネットワークにおける各ノードの特徴および／またはノード間のエッジ関係は、計算時に時間ステップ（ｔｉｍｅ－ｓｔｅｐ）により更新される。更新方法は、同期と非同期の２つを含むことができ、同期更新である場合、１つの時間ステップにおけるすべてのノードの特徴が更新される。非同期更新である場合、１つの時間ステップにおいて一部のノードの特徴のみが更新される。グラフネットワークの計算プロセスにおいてどのような更新方法を用いたとしても、最終的にグラフネットワークにおける各ノードの特徴およびエッジ関係はすべて更新される。

Ｓ３０：グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定する。

画像の文字認識結果は、画像における単文字レベルの認識結果、単語レベルの認識結果、または文書行レベルの認識結果を含むことができる。単文字レベルの認識結果は、最終的に画像にどのような文字が含まれているかを認識したと理解することができ、文字には、漢字、アラビア数字、アルファベットまたは句読点などを含んでもよい。単語レベルの認識結果は、最終的に画像にどのような単語が含まれているかを認識したと理解することができ、単語には、中国語のフレーズ、英単語などを含んでもよい。文書行レベルの認識結果は、行に含まれる単語、フレーズを含むことができる。または、行における一言である。

本実施形態のグラフネットワークは、各単文字の語義情報と第１位置情報とに対して復号計算を行うため、２つの次元の情報を通して画像における文字をより正確に認識することができる。

１つの実施形態において、図２に示すように、文字認識の方法は、上記実施形態におけるステップＳ１０～Ｓ３０を含むが、各ステップの具体的な内容は、上記実施形態の説明を参照してもよく、本実施形態では繰り返し述べない。ここで、ステップＳ２０は、認識された各単文字、および各単文字の語義情報と第１位置情報とにより、グラフネットワークを構築することは、さらに以下を含む。

Ｓ２１：各単文字の第１位置情報により、各単文字からなる各第１ノード間のエッジ関係を決定する。

各第１ノード間のエッジ関係は、各単文字の第１位置情報を用いて距離計算を行うことで得ることができる。具体的に、各単文字の第１位置情報に含まれる特徴ベクトルにより計算することができる。

Ｓ２２：各第１ノード間のエッジ関係により、ビジョングラフネットワークを構築する。

なお、該ステップにおいて決定される各第１ノード間のエッジ関係は、初期エッジ関係であることができる。即ち、各第１ノード間のエッジ関係は、正確な場合もあれば、間違いの場合もある。ビジュアルネットワークが初期構築された後、ビジュアルネットワークが各単文字の第１位置情報を用いて計算を行う際に、さらに各第１ノード間のエッジ関係に対して最適化調整を行う。同時に、ビジュアルネットワークの計算プロセスにおいて、さらに各第１ノードの対応する単文字の特徴ベクトルに対して調整を行う。各第１ノードの特徴ベクトルは、対応する単文字の位置関連の情報を表すことに用いられる。

Ｓ２３：各単文字の語義情報により、各単文字からなる各第２ノード間のエッジ関係を決定する。

各第２ノード間のエッジ関係は、各単文字の語義情報を用いて距離計算を行うことにより得ることができる。具体的に、各単文字の第１位置情報に含まれる特徴ベクトルにより計算することができる。

Ｓ２４：各第２ノード間のエッジ関係により、語義グラフネットワークを構築する。

なお、該ステップにおいて決定される各第２ノード間のエッジ関係は、初期エッジ関係であることができる。即ち、各第２ノード間のエッジ関係は、正確な場合もあれば、間違いの場合もある。語義ネットワークが初期構築された後、語義ネットワークが各単文字の語義情報を用いて計算を行う際に、さらに各第２ノード間のエッジ関係に対して最適化調整を行う。同時に、語義グラフネットワークの計算プロセスにおいて、さらに各第２ノードの対応する単文字の特徴ベクトルに対して調整を行う。各第２ノードの特徴ベクトルは、対応する単文字の語義関連の情報を表すことに用いられる。

また、ステップＳ３０において、グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定することは、さらに以下を含む。

Ｓ３１：各単文字の第１位置情報および語義グラフネットワークにおける任意の１層の出力結果により、ビジョングラフネットワークを通して各単文字の第１特徴を計算する。

ビジュアルネットワークが各単文字の第１特徴を計算する際に、語義グラフネットワークにおける任意の１層の出力結果を、ビジュアルネットワークにおける任意の１層の入力とすることができ、これにより、ビジュアルネットワークが計算を行う際に、各単文字のより正確な第１特徴を得ることができる。

Ｓ３２：各単文字の語義情報およびビジョングラフネットワークにおける任意の１層の出力結果により、語義グラフネットワークを通して各単文字の第２特徴を計算する。

語義ネットワークが各単文字の第２特徴を計算する際に、ビジョングラフネットワークにおける任意の１層の出力結果を、語義ネットワークにおける任意の１層の入力とすることができ、これにより、語義ネットワークが計算を行う際に、各単文字のより正確な第２特徴を得ることができる。

Ｓ３３：各単文字の第１特徴と第２特徴により、画像の文字認識結果を決定する。

各単文字の第１特徴と第２特徴とを組み合わせることにより、各単文字の画像における異なる次元の特徴を得ることができる。これにより、各単文字の第１特徴と第２特徴とを用いることにより、画像からより正確な文字認識結果を得ることができる。

説明が必要なのは、本実施形態におけるステップＳ２１とテップＳ２２は、実行順序の前後を有しておらず、ステップ番号は、ステップの実行ロジック順序に対して限定するものではないことを理解すべきである。即ち、本実施形態において、ステップＳ２１を先に実行し、ステップＳ２２を次に実行してもよい。ステップＳ２２を先に実行し、ステップＳ２１を次に実行してもよく、ステップＳ２１とステップＳ２２とを同時に実行してもよい。

本実施形態において、構造化されたデータを効率的に処理し、構造化された特徴を抽出するグラフネットワーク技術を用いるため、構築されたビジュアルグラフネットワークと語義グラフネットワークは、単文字からなるノードの特徴とノード間のエッジ関係とに対して効率的に正確に予測を行うことことができる。

１つの実施形態において、図３に示すように、文字認識の方法は、上記実施形態におけるステップＳ１０～Ｓ３０を含むが、各ステップの具体的な内容は、上記実施形態の説明を参照してもよく、本実施形態では繰り返し述べない。ここで、ステップＳ１０において、画像より認識された各単文字の語義情報と第１位置情報とを決定することは、さらに以下を含む。

Ｓ１１：画像の畳み込み特徴と各単文字の文字カテゴリ情報により、各単文字の語義情報を決定する。

各単文字の語義情報には、少なくとも各単文字の文字カテゴリ情報、および認識された各単文字の周囲一定の画像領域内の畳み込み特徴が含まれることができる。単文字の周囲一定の画像領域内の畳み込み特徴は、領域特徴抽出技術を用いて取得することができる。

Ｓ１２：画像の畳み込み特徴と各単文字の第２位置情報により、各単文字の第１位置情報を決定する。

各単文字の第１位置情報には、少なくとも各単文字の第２位置情報、および認識された各単文字の周囲一定の画像領域内の畳み込み特徴が含まれることができる。単文字の周囲一定の画像領域内の畳み込み特徴は、領域特徴抽出技術を用いて取得することができる。第２位置情報は、各単文字の対応する画素点または特徴点の座標情報（ｘ、ｙ、ｗ、ｈ）と角度情報（θ）とを含むことができる。

説明が必要なのは、本実施形態におけるステップＳ１１とテップＳ１２は、実行順序の前後を有しておらず、ステップ番号は、ステップの実行ロジック順序に対して限定するものではないことを理解すべきである。即ち、本実施形態において、ステップＳ１１を先に実行し、ステップＳ１２を次に実行してもよい。ステップＳ１２を先に実行し、ステップＳ１１を次に実行してもよく、ステップＳ１１とステップＳ１２とを同時に実行してもよい。

本実施形態において、画像の畳み込み特徴と各単文字の文字カテゴリ情報を用いることで、多次元の特徴ベクトルを通して各単文字のより正確で関連度のより高い語義情報を取得することができる。画像の畳み込み特徴と各単文字の第２位置情報を用いることで、多次元の特徴ベクトルを通して各単文字のより正確で関連度のより高い第１位置情報を取得することができる。

１つの実施形態において、図４に示すように、文字認識の方法は、上記実施形態におけるステップＳ１１、Ｓ１２、Ｓ２０およびＳ３０を含むが、各ステップの具体的な内容は、上記実施形態の説明を参照してもよく、本実施形態では繰り返し述べない。これを基に、ステップＳ１１において、画像の畳み込み特徴と各単文字の文字カテゴリ情報により、各単文字の語義情報を決定する前に、さらに以下のステップを含む。

Ｓ４０：第１プリセットニューラルネットワークと画像の畳み込み特徴を用いて、各単文字の文字カテゴリ情報を決定する。

ここで、文字カテゴリ情報は、各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含む。

文字カテゴリ情報は、各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含むことは、該特徴点が漢字である確率が９０％、アルファベットである確率が５％、句読点である確率が５％と捉えることができる。さらに例えば、該特徴点がアルファベットａである確率は９５％、アルファベットｏである確率は５％である。

画像の畳み込み特徴は、畳み込みニューラルネットワークを通して画像に対して計算を行うことにより得られる特徴を含むことができる。具体的に用いられる畳み込みニューラルネットワークは、必要に応じて選択および調整することができる。例えば、ＡｌｅｘＮｅｔ、ＧｏｏｇｌｅＮｅｔ、ＲｅｓＮｅｔなどを用いることができる。画像の畳み込み特徴は、色、テクスチャ、形状、空間関係などを表す特徴ベクトルを含んでもよく、色、模様、形状、空間関係などを表す特徴ベクトルに基づき畳み込みを行った後に得られるより高次の特徴ベクトルを含んでもよい。

第１プリセットニューラルネットワークは、複数の畳み込み層からなるニューラルネットワークを含むことができる。第１プリセットニューラルネットワークの入力は、画像の畳み込み特徴を含むことができる。第１プリセットニューラルネットワークは、画像の畳み込み特徴に対して計算を行うことを通して、画像の特徴マップを出力する。特徴マップにおける各特徴点は、少なくともそれがあるカテゴリの文字である確率情報を含む。

本実施形態において、第１プリセットニューラルネットワークを通して画像の畳み込み特徴に対して計算を行うことで、各単文字の関連する文字カテゴリ情報を効率的に取得することができる。

１つの例において、出力される特性マップには、少なくとも文字カテゴリ数を表すチャネルと、画像背景クラスを表すチャネルとが含まれる。

１つの例において、画像の畳み込み特徴を抽出するネットワークと、第１プリセットニューラルネットワークとを、１つの完全畳み込みニューラルネットワークに含めることができる。即ち、ターゲット特徴画像の畳み込み特徴を抽出するネットワークと、第１プリセットニューラルネットワークとは、完全畳み込みニューラルネットワークにおける２つの層構造である。

１つの実施形態において、図５に示すように、文字認識の方法は、上記実施形態におけるステップＳ１１、Ｓ１２、Ｓ２０およびＳ３０を含むが、各ステップの具体的な内容は、上記実施形態の説明を参照してもよく、本実施形態では繰り返し述べない。これを基に、ステップＳ１２において、画像の畳み込み特徴と各単文字の第２位置情報により、単文字の第１位置情報を決定する前に、さらに以下のステップを含む。

Ｓ５０：第２プリセットニューラルネットワークと画像の畳み込み特徴を用いて、各単文字の第２位置情報を決定する。

ここで、第２位置情報は、各単文字の対応する各特徴点の座標情報と角度情報とを少なくとも含む。

画像の畳み込み特徴は、畳み込みニューラルネットワークを通して画像に対して計算を行うことにより得られる特徴を含むことができる。具体的に用いられる畳み込みニューラルネットワークは、必要に応じて選択および調整することができる。例えば、ＡｌｅｘＮｅｔ、ＧｏｏｇｌｅＮｅｔ、ＲｅｓＮｅｔなどの畳み込みニューラルネットワークを用いることができる。画像の畳み込み特徴は、色、模様、形状、空間関係などを表す特徴ベクトルを含んでもよく、色、模様、形状、空間関係などを表す特徴ベクトルに基づき畳み込みを行った後に得られるより高次の特徴ベクトルを含んでもよい。

第２プリセットニューラルネットワークは、複数の畳み込み層からなるニューラルネットワークを含むことができる。第２プリセットニューラルネットワークの入力は、画像の畳み込み特徴を含むことができる。第２プリセットニューラルネットワークは、画像の畳み込み特徴に対して計算を行うことで、各単文字の画像における大体の位置領域を決定し、かつ、決定した大体の位置領域に基づき、大体の位置領域における各単文字の対応する各特徴点の座標情報と角度情報とを決定する。

本実施形態において、第２プリセットニューラルネットワークを通して画像の畳み込み特徴に対して計算を行うことにより、各単文字と関連する第２位置情報を効率的に取得することができる。

１つの例において、第２プリセットニューラルネットワークは、入力された画像の畳み込み特徴に基づき、２つの計算結果を出力する。１つの計算結果は、画像の前景と背景（前景は１であり、背景は０である）の分割を表すために用いられる単一チャンネルの０／１分割マップである。もう１つの計算結果は、単文字の対応する特徴点または画素点の座標情報（ｘ、ｙ、ｗ、ｈ）と角度情報（θ）を含む。２つの計算結果を、１つの融合した特徴マップにおいて表すことができる。

１つの例において、第１プリセットニューラルネットワーク、第２プリセットニューラルネットワーク、および画像の畳み込み特徴を抽出するニューラルネットワークは、１つの完全畳み込みニューラルネットワークを構成することができ、即ち、３者は１つの完全畳み込みニューラルネットワークを構成してもよく、即ち、３者がそれぞれ完全畳み込みニューラルネットワークである３つの層の構造である。

１つの例において、上述ステップＳ４０およびＳ５０は、単文字測定認識モジュールを通して実行することができる。該モジュールは、文字の単文字の位置測定と認識を行う。単文字測定認識モジュールをの入力は画像である。まず、１つのアンダーレイネットワーク（例えば、Ｒｅｓｎｅｔ５０）を通して画像の畳み込み特徴を抽出する。次に、並列した測定と認識を通して、単文字の位置とカテゴリ結果とを分岐して出力する。単文字検出認識モジュールは、単文字レベルの位置とカテゴリアノテーションを必要とし、実際の訓練において、単文字の位置アノテーションを含む大量の合成データを通して事前訓練を行い、少量のリアルデータを通して改善を行うことによって実現することができる。

ここで、測定分岐は単文字の第２位置情報の出力をする。検出分岐は、いくつかの畳み込み層により構成される。検出分岐の入力は、アンダーレイネットワークの出力した畳み込み特徴であり、出力は２つの部分を含み、１つの部分は前景と背景（前景は１、背景は０）の分割を表すための単一チャネルの０／１分割マップであり、検出分岐のネットワークモデルはｄｉｃｅ損失関数を通して教師あり学習する。もう１つの部分は単文字の位置の幾何情報であり、座標情報（ｘ、ｙ、ｗ、ｈ）と角度情報（θ）の計５つのチャネルを含む。ｓｍｏｏｔｈｌ１損失関数を通して教師あり学習する。

認識分岐は、単文字のカテゴリをし、いくつかの畳み込み層により構成される。認識分岐の入力は、アンダーレイネットワークの出力した畳み込み特徴であり、出力はカテゴリ数＋１個のチャネルの分割マップを含み、カテゴリ数は認識されるべき文字カテゴリの数であり、１は背景クラスであり、これらの特徴マップは、該画素点がある文字カテゴリに属する確率を表す。交差エントロピー損失関数により教師あり学習する。

１つの例において、上記ステップＳ１０～Ｓ３０は、単文字レベル文字測定認識モジュールにより実行されてもよい。単文字測定認識モジュールの出力結果は、文字それぞれの特徴情報のみを考慮するため、位置とカテゴリ結果に不正確さまたは間違いが生じる可能性があり、単語レベル文字測定認識モジュールの目的は、単文字情報を入力とし、文字のビジョンと語義情報を総合的に考慮し、グラフネットワークを用いて並行して文字の位置と認識結果を復号し、前のモジュールにて生じた間違いに対して修正を行い、より良いエンドツーエンド認識効果を達することである。

ここで、単語レベル文字測定認識モジュールは、第１位置情報と語義情報の抽出を行う必要がある。各単文字からすると、対応する畳み込み特徴は領域特徴抽出操作を通して取得することができ、座標情報（ｘ、ｙ、ｗ、ｈ）と角度情報（θ）とを規定外の幾何情報と畳み込み特徴として、単文字の第１位置情報として合成する。語義情報は、領域特徴抽出操作を通して単文字測定認識モジュールにおける認識分岐出力層の特徴を抽出し、語義として符号化する。

単語レベル文字測定認識モジュールは、グラフネットワークの第１位置情報と語義情報とに基づいて復号を行い、単文字の融合特徴を得る必要がある。具体的に、該モジュールは単文字をノードとして、ビジョングラフネットワークと語義グラフネットワークとをそれぞれ構築し、グラフのエッジの初期化接続関係は単文字の第１位置情報と語義情報との距離により決定される。多層のグラフネットワーク構造を構築することを通して、特徴の学習を強化する。また、接続関係を共有することにより、第１位置情報と語義情報とが相互に流通し、相互に促進することを保証する。最後に、第１位置情報と語義情報とを融合し、測定と認識の２つの出力分岐を並列接続し、測定分岐はノードカテゴリ（文字であるか否か）と予測エッジの接続関係を通して単語レベルの実例を得、交差エントロピー損失関数を用いて教師あり学習を行う。認識分岐は単語レベルの認識結果を予測し、訓練段階ではアノテーションを用いて実例を決定し、予測段階では測定分岐の予測結果を用いて、ＣＴＣ（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）損失関数を用いて教師あり学習を行う。

１つの例において、図６に示すように、文字認識方法は、単文字測定認識プロセスと単語レベル測定認識プロセスとを含む。

単文字測定認識プロセスは、以下を含む。

画像を完全畳み込みニューラルネットワークに入力し、完全畳み込みニューラルネットワークは、まず、アンダーレイネットワーク１００を通して画像の畳み込み特徴を取得する。次に、完全畳み込みニューラルネットワークの第１プリセットニューラルネットワーク２００は、入力された画像の畳み込み特徴を通して、各単文字の文字カテゴリ情報を決定する。完全畳み込みニューラルネットワークの第２プリセットニューラルネットワーク３００は、入力された画像の畳み込み特徴を通して、各単文字の第２位置情報を決定する。各単文字の文字カテゴリ情報と各単文字の第２位置情報とに基づいて、画像に含まれる単文字が「Ｂ」、「Ｉ」、「Ｋ」、「Ｆ」、「Ｓ」、「Ｄ」、「Ｉ」、「Ｂ」、「Ｅ」、「Ｃ」、「Ｔ」であると決定する。

単語レベル測定認識プロセスは、以下を含む。

各単文字の文字カテゴリ情報と第２位置情報とに基づき、各単文字の第１位置情報と語義情報とを決定する。各単文字をビジョングラフネットワークの第１ノードとし、各単文字の第１位置情報に基づき、各第１ノード間のエッジ関係を決定することで、ビジョングラフネットワーク４００の構築をする。各単文字を語義グラフネットワークの第２ノードとし、各単文字の語義情報に基づき、各第２ノード間のエッジ関係を決定することで、語義グラフネットワーク５００の構築をする。ビジョングラフネットワークの任意の１層と語義グラフネットワークの任意の１層とを接続することで、ビジョングラフネットワークのある層の出力結果が語義グラフネットワークのある層の入力となるように、語義グラフネットワークのある層の出力結果がビジョングラフネットワークのある層の入力となるようにする。共有接続後のビジョングラフネットワークと語義グラフネットワークとに基づき、ビジョングラフネットワークは、各第１ノードのエッジ関係を更新し、各第１ノードの第１特徴を計算し、語義グラフネットワークは、各第２ノードのエッジ関係を更新し、各第２ノードの第２特徴ベクトルを計算する。各ノードの第１特徴と第２特徴とを融合し、画像における認識結果が単語「ＢＩＫＥＳ」と「ＤＩＲＥＣＴ」を含むものと計算する。

本実施例によれば、グラフネットワーク計算を用いることで、単文字測定認識プロセスにおける間違った認識結果に対して有効的に修正を行い、単文字レベルの認識結果を直接出力する。

本発明の実施形態によれば、図７に示されるように、以下を備える文字認識の装置１００を提供する。

画像より認識された各単文字の語義情報と第１位置情報とを決定するための第１決定モジュール１０。

各単文字の語義情報と第１位置情報により、グラフネットワークを構築するための構築モジュール２０。

グラフネットワークの計算した各単文字の特徴により、画像の文字認識結果を決定するための第２決定モジュール３０。

１つの実施形態において、図８に示されるように、文字認識の装置１００は、上記実施形態の第１決定モジュール１０と、構築モジュール２０と、第２決定モジュール３０とを備え、ここで構築モジュール２０は、さらに以下を備える。

各単文字の第１位置情報により、各単文字からなる各第１ノード間のエッジ関係を決定するための第１決定サブモジュール２１。

各第１ノード間のエッジ関係により、ビジョングラフネットワークを構築するための第１構築サブモジュール２２。

各単文字の語義情報により、各単文字からなる各第２ノード間のエッジ関係を決定するための第２決定サブモジュール２３。

各第２ノード間のエッジ関係により、語義グラフネットワークを構築するための第２構築サブモジュール２４。

さらに、第２決定モジュール３０は、さらに以下を備える。

各単文字の第１位置情報および語義グラフネットワークにおける任意の１層の出力結果により、ビジョングラフネットワークを通して各単文字の第１特徴を計算するための第１計算サブモジュール３１。

各単文字の語義情報およびビジョングラフネットワークにおける任意の１層の出力結果により、語義グラフネットワークを通して各単文字の第２特徴を計算するための第２計算サブモジュール３２。

各単文字の第１特徴と第２特徴により、画像の文字認識結果を決定するための第３決定サブモジュール３３。

１つの実施形態において、図９に示すように、文字認識の装置１００は、上記実施形態の第１決定モジュール１０と、構築モジュール２０と、第２決定モジュール３０とを備え、ここで第１決定モジュール１０は、さらに以下を備える。

画像の畳み込み特徴と各単文字の文字カテゴリ情報により、各単文字の語義情報を決定するための語義決定サブモジュール１１。

画像の畳み込み特徴と各単文字の第２位置情報により、各単文字の第１位置情報を決定するための位置決定サブモジュール１２。

１つの実施形態において、図１０に示すように、文字認識の装置１００は、上記実施形態の第１決定モジュール１０と、構築モジュール２０と、第２決定モジュール３０とを備える。文字認識の装置１００は、さらに以下を備える。

第１プリセットニューラルネットワークと画像の畳み込み特徴を用いて、各単文字の文字カテゴリ情報を決定するための第３決定モジュール４０。

１つの実施形態において、図１１に示すように、文字認識の装置１００は、上記実施形態の第１決定モジュール１０と、構築モジュール２０と、第２決定モジュール３０とを備える。文字認識の装置１００は、さらに以下を備える。

第２プリセットニューラルネットワークと画像の畳み込み特徴を用いて、各単文字の第２位置情報を決定するための第４決定モジュール５０。

本発明の実施形態によれば、本発明は、電子設備および可読記憶媒体をさらに提供する。

図１２に示すよう、本発明の実施形態による文字認識の方法を実現する電子設備のブロック図である。電子設備は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことができる。また、電子設備は携帯情報端末、携帯電話、スマートフォン、装着可能デバイス、およびその他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことができる。ここで示した構成要素、それらの接続と関係、およびそれらの機能は例示的なものに過ぎず、本発明で説明されたものおよび／または要求される本発明の実施を制限することは意図されない。

図１２に示すよう、当該電子設備は、１つまたは複数のプロセッサ１２０１と、メモリ１２０２と、高速インターフェースと低速インターフェースとを含む各構成要素を接続するためのインターフェースとを含む。各構成要素は、異なるバスを利用して互いに接続し、共通のマザーボードに取り付けられてもよいし、必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子設備内で実行される命令を処理してもよく、また、外部入出力デバイス（例えば、インターフェースに接続された表示デバイス）にグラフィックユーザインターフェース（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ、ＧＵＩ）を表示するための、メモリまたはメモリ上に記憶されたグラフィカル情報の命令を含む。他の実施形態において、必要に応じて、複数のプロセッサおよび／または複数のバスを複数のメモリおよび複数のメモリとともに使用することができる。同様に、複数の電子設備を接続してもよく、各デバイスは、部分的に必要な動作、例えば、サーバアレイ、ブレードサーバの集合、またはマルチプロセッサシステムとして、提供する。図１２においてプロセッサ１２０１を例とする。

メモリ１２０２は、本発明にて提供された非一過性のコンピュータ可読記憶媒体である。メモリは、本発明で提供される文字認識の方法を少なくとも１つのプロセッサに実行させるように、少なくとも１つのプロセッサによって実行されることができる命令を記憶する。本発明における非一過性のコンピュータ可読記憶媒体は、本発明で提供された文字認識の方法をコンピュータに実行させるためのコンピュータ命令を記憶する。

メモリ１２０２は、非一過性のコンピュータ可読記憶媒体として、非一過性のソフトウェアプログラム、非一過性のコンピュータ実行可能なプログラムおよびモジュールを記憶するために使用されてもよく、本発明の実施形態における文字認識の方法に対応するプログラム命令／モジュール、（例えば、図７に示される、第１決定モジュール１０、構築モジュール２０、第２決定モジュール３０）である。プロセッサ１２０１は、メモリ１２０２に記憶されている非一過性のソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理、即ち上述した方法に関する実施形態に係る文字認識の方法を実行する。

メモリ１２０２は、オペレーティングシステムや少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラムの記憶領域と、文字認識の方法に係る電子設備の使用によって生成されたデータなどを記憶することができるデータの記憶領域と、を含むことができる。さらに、メモリ１２０２は、高速ランダムアクセスメモリを含んでもよく、非一過性の固体記憶装置を含んでもよい。例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリ装置、または他の非一過性の固体記憶装置を含むことができる。いくつかの実施形態において、メモリ１２０２はオプションとして、プロセッサ１２０１に対して遠隔的に設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して文字認識の方法に係る電子設備に接続されてもよい。上記のネットワークの例は、インターネット、企業内ネットワーク、ローカルネットワーク、モバイル通信ネットワークおよびその組み合わせを含むが、これらに限定されない。

本発明の実施形態の文字認識の方法に対応する電子設備は、入力装置１２０３と出力装置１２０４とをさらに含むことができる。プロセッサ１２０１、メモリ１２０２、入力装置１２０３、および出力装置１２０４は、バスまたは他の方法で接続されてもよく、図１２ではバスを介して接続されている。

入力装置１２０３は、入力された数字または文字を受信し、文字認識の方法に係る電子設備のユーザ設定および機能制御に関するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックボード、タッチパッド、指示棒、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどを含むことができる。出力装置１２０４は、表示装置、補助照明装置（例えばＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）などを含むことができる。この表示装置は、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、発光ダイオード（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ、ＬＥＤ）ディスプレイおよびプラズマディスプレイを含むことができるがこれらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本発明におけるシステムおよび技術に係る様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせによって実現されることができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実装されてもよく、この１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行されてもよく、および／または解釈されてもよく、このプログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置より、データと命令を受信し、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置に、データと命令を送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードともいう）は、プログラマブルプロセッサのマシン命令を含み、過程指向および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／マシン言語を用いてこれらの計算プログラムを実施することができる。本発明で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、編集可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＰＬＤ）を意味し、機械読み取り可能な信号としてのマシン命令を受信する機械可読媒体を含む。「機械読み取り可能な信号」という用語は、マシン命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのイントラクションを提供するために、本発明で説明されているシステムや技術は、コンピュータ上で実施されてもよく、また、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ブラウン管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、入力をコンピュータに提供するためのキーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えてもよい。他の種類の装置も、ユーザとのイントラクションを提供するために使用され得る。例えば、ユーザに提供されたフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、いかなる形式（音響入力、音声入力、または触覚入力を含む）で受信されてもよい。

本発明で説明されているシステムおよび技術は、バックグラウンド構成要素を含む計算システム（例えば、データサーバとして）、または中間部構成要素を含む計算システム（例えば、アプリケーションサーバ）、または、フロントエンド構成要素を含む計算システム（例えば、グラフィカルユーザインタフェースまたはネットワークブラウザを備えたユーザコンピュータであって、ユーザがこのグラフィカルユーザインタフェースまたはネットワークブラウザを介して本発明で説明されたシステムおよび技術に係る実施形態とインタラクションを行うことができるユーザコンピュータ）に実行されてもよく、または、このようなバックグラウンド構成要素、中間部構成要素、またはフロントエンド構成要素の任意の組合せを含む計算システムにおいて実行されてもよい。システムの構成要素は、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されてもよい。通信ネットワークの例えとして、ローカルネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮ）およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは一般的に相互に離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係を持つコンピュータプログラムがそれぞれのコンピュータ上で実行されることによって、クライアントとサーバとの関係は構築される。

本発明の実施形態による技術方案は、少なくとも以下の技術的効果を有する。

１．第１位置情報に基づいて構築されたビジョングラフネットワークと、語義情報に基づいて構築された語義グラフネットワークとに接続関係を構築するため、異なる次元の情報間の相補性を十分に発揮することができ、ビジョングラフネットワーク計算において、語義グラフネットワークの中間データを用いて補助計算を行うことができ、語義グラフネットワーク計算においてビジョングラフネットワークの中間データを用いて補助計算を行うことができる。これにより、語義グラフネットワークとビジョングラフネットワークによる単文字の特徴マイニング効果を向上し、最終的に計算された単文字の特徴がより正確となる。

２．単文字の第１位置情報と語義情報とを用いて計算を行うため、より多くのシーンの文字認識に適応できるようになる。本方法により、文字認識の応用により良い拡張性を有し、カード手形の認識、文書の自動入力、写真による問題文検索、さらには文書の構造化解析の任務に応用することができる。

３．ビジョン情報（位置情報）と語義情報を組み合わせることにより、エンドツーエンドの測定認識問題をより良く解决することができる。多くのＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学文字認識）タスクにおいて、より迅速かつ正確に文字の位置を特定し、文字の内容を認識することができる。ＯＣＲ技術を革新し、高次タスクの拡張を容易にし、クラウドおよび移動端末のＯＣＲ応用においてより多くのトラフィックを増やし、ユーザー体験を向上することができる。

上記の様々な態様のフローを使用して、ステップを新たに順序付け、追加、または削除することが可能であることを理解すべきである。例えば、本発明で記載された各ステップは、並列に実行しても良いし、順次に実行しても良いし、異なる順序で実行しても良い。本発明で開示された技術案が所望する結果を実現することができる限り、本発明ではこれに限定されない。

上記具体的な実施形態は、本発明の保護範囲に対する限定を構成するものではない。当業者は、設計事項やその他の要因によって、様々な修正、組み合わせ、サブ組み合わせ、および代替が可能であることを理解するべきである。本発明の要旨および原則内における変更、均等な置換および改善等は、いずれも本発明の保護範囲に含まれるべきである。

Claims

画像より認識された各単文字の語義情報と第１位置情報とを決定することと、
前記各単文字の語義情報と第１位置情報により、グラフネットワークを構築することと、
前記グラフネットワークの計算した前記各単文字の特徴により、前記画像の文字認識結果を決定することと、を含み、
前記語義情報には、少なくとも文字カテゴリ情報および前記画像の畳み込み特徴が含まれる
ことを特徴とする文字認識の方法。
前記各単文字の語義情報と第１位置情報により、グラフネットワークを構築することは、
前記各単文字の第１位置情報により、前記各単文字からなる各第１ノード間のエッジ関係を決定することと、
前記各第１ノード間のエッジ関係により、ビジョングラフネットワークを構築することと、
前記各単文字の語義情報により、前記各単文字からなる各第２ノード間のエッジ関係を決定することと、
前記各第２ノード間のエッジ関係により、語義グラフネットワークを構築することと、を含み、
前記グラフネットワークの計算した前記各単文字の特徴により、前記画像の文字認識結果を決定することは、
前記各単文字の第１位置情報および前記語義グラフネットワークにおける任意の１層の出力結果により、前記ビジョングラフネットワークを通して前記各単文字の第１特徴を計算することと、
前記各単文字の語義情報および前記ビジョングラフネットワークにおける任意の１層の出力結果により、前記語義グラフネットワークを通して前記各単文字の第２特徴を計算することと、
前記各単文字の第１特徴と第２特徴により、前記画像の文字認識結果を決定することと、を含む
ことを特徴とする請求項１に記載の文字認識の方法。
前記画像より認識された各単文字の語義情報と第１位置情報とを決定することは、
前記画像の畳み込み特徴と前記各単文字の文字カテゴリ情報により、前記各単文字の語義情報を決定することと、
前記画像の畳み込み特徴と前記各単文字の第２位置情報により、前記各単文字の第１位置情報を決定することと、を含む
ことを特徴とする請求項１に記載の文字認識の方法。
前記画像の畳み込み特徴と前記各単文字の文字カテゴリ情報により、前記各単文字の語義情報を決定する前に、
第１プリセットニューラルネットワークと前記画像の畳み込み特徴を用いて、前記各単文字の文字カテゴリ情報を決定すること、をさらに含み、
前記文字カテゴリ情報は、前記各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含む
ことを特徴とする請求項３に記載の文字認識の方法。
前記画像の畳み込み特徴と前記各単文字の第２位置情報により、前記各単文字の第１位置情報を決定する前に、
第２プリセットニューラルネットワークと前記画像の畳み込み特徴を用いて、前記各単文字の第２位置情報を決定すること、をさらに含み、
前記第２位置情報は、前記各単文字の対応する各特徴点の座標情報と角度情報とを少なくとも含む
ことを特徴とする請求項３に記載の文字認識の方法。
画像より認識された各単文字の語義情報と第１位置情報とを決定する第１決定モジュールと、
前記各単文字の語義情報と第１位置情報により、グラフネットワークを構築する構築モジュールと、
前記グラフネットワークの計算した前記各単文字の特徴により、前記画像の文字認識結果を決定する第２決定モジュールと、を備え、
前記語義情報には、少なくとも文字カテゴリ情報および前記画像の畳み込み特徴が含まれる
ことを特徴とする文字認識の装置。
前記構築モジュールは、
前記各単文字の第１位置情報により、前記各単文字からなる各第１ノード間のエッジ関係を決定する第１決定サブモジュールと、
前記各第１ノード間のエッジ関係により、ビジョングラフネットワークを構築する第１構築サブモジュールと、
前記各単文字の語義情報により、前記各単文字からなる各第２ノード間のエッジ関係を決定する第２決定サブモジュールと、
前記各第２ノード間のエッジ関係により、語義グラフネットワークを構築する第２構築サブモジュールと、を備え、
前記第２決定モジュールは、
前記各単文字の第１位置情報および語義グラフネットワークにおける任意の１層の出力結果により、ビジョングラフネットワークを通して前記各単文字の第１特徴を計算する第１計算サブモジュールと、
前記各単文字の語義情報および前記ビジョングラフネットワークにおける任意の１層の出力結果により、前記語義グラフネットワークを通して前記各単文字の第２特徴を計算する第２計算サブモジュールと、
前記各単文字の第１特徴と第２特徴により、前記画像の文字認識結果を決定する第３決定サブモジュールと、を備える
ことを特徴とする請求項６に記載の文字認識の装置。
前記第１決定モジュールは、
前記画像の畳み込み特徴と前記各単文字の文字カテゴリ情報により、前記各単文字の語義情報を決定する語義決定サブモジュールと、
前記画像の畳み込み特徴と前記各単文字の第２位置情報により、前記各単文字の第１位置情報を決定する位置決定サブモジュールと、を備える
ことを特徴とする請求項６に記載の文字認識の装置。
第１プリセットニューラルネットワークと前記画像の畳み込み特徴を用いて、前記各単文字の文字カテゴリ情報を決定する第３決定モジュールをさらに備え、
前記文字カテゴリ情報は、前記各単文字の対応する各特徴点がどのカテゴリ文字に属するかの確率を含む
ことを特徴とする請求項８に記載の文字認識の装置。
第２プリセットニューラルネットワークと前記画像の畳み込み特徴を用いて、前記各単文字の第２位置情報を決定する第４決定モジュールをさらに備え、
前記第２位置情報は、前記各単文字の対応する各特徴点の座標情報と角度情報とを少なくとも含む
ことを特徴とする請求項８に記載の文字認識の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、
前記命令は、前記少なくとも１つのプロセッサにより実行される場合、請求項１～５のいずれか一項に記載の文字認識の方法を実行させることを特徴とする電子設備。
請求項１～５のいずれか一項に記載の文字認識の方法をコンピュータに実行させるためのコンピュータ命令を記憶した非一過性のコンピュータ可読記憶媒体。
コンピュータにおいて、プロセッサにより実行される場合、請求項１～５いずれか一項に記載の文字認識の方法を実現することを特徴とするプログラム。