JP7066007B2

JP7066007B2 - テキスト認識

Info

Publication number: JP7066007B2
Application number: JP2020560179A
Authority: JP
Inventors: シュエボーリウ
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2019-04-03
Filing date: 2020-01-07
Publication date: 2022-05-12
Anticipated expiration: 2040-01-07
Also published as: TW202038183A; JP2021520561A; WO2020199704A1; SG11202010525PA; CN111783756A; CN111783756B; US20210042567A1; TWI771645B

Description

本出願は、画像処理技術に関し、特にテキスト認識に関する。

画像内のテキストを認識する時に、認識対象の画像内のテキストの分布が不均一である場合が多い。例えば、画像の水平方向に複数の文字が分布しており、垂直方向に単一の文字が分布している場合があり、そのため、テキスト分布の不均一性を引き起こしてしまう。一般的なテキスト認識方法が、このような画像を好適に処理することができない。

本出願は、テキスト認識の技術的解決手段を提供する。

本出願の一態様によれば、テキスト認識方法を提供する。該方法は、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることと、前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得することとを含み、ここで、前記テキスト画像に少なくとも２つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものである。

１つの可能な実現形態において、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、少なくとも１つの第１畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得、ここで、前記第１畳み込み層の畳み込みカーネルのサイズは、Ｐ×Ｑであり、Ｐ、Ｑは整数であり、且つＱ＞Ｐ≧１であることを含む。

１つの可能な実現形態において、前記特徴情報にテキスト構造特徴が更に含まれ、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、少なくとも１つの第２畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得、ここで、前記第２畳み込み層の畳み込みカーネルのサイズは、Ｎ×Ｎであり、Ｎは１を超える整数であることを含む。

１つの可能な実現形態において、前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得することは、前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることと、前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することとを含む。

１つの可能な実現形態において、前記方法は、ニューラルネットワークにより実現され、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがＰ×Ｑである第１畳み込み層と、畳み込みカーネルのサイズがＮ×Ｎである第２畳み込み層とを含み、ここで、前記第１畳み込み層及び前記第２畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続される。

１つの可能な実現形態において、前記テキスト関連特徴と前記テキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることは、前記複数のネットワークブロックのうちの第１ネットワークブロックの第１畳み込み層から出力されたテキスト関連特徴を、前記第１ネットワークブロックの第２畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記第１ネットワークブロックのフュージョン特徴を得ることを含む。

前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することは、前記第１ネットワークブロックのフュージョン特徴と前記第１ネットワークブロックの入力情報とに対して残差処理を行い、前記第１ネットワークブロックの出力情報を得ることと、前記第１ネットワークブロックの出力情報に基づいて、前記テキスト認識結果を得ることとを含む。

１つの可能な実現形態において、前記ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含み、ここで、各階層の特徴抽出ネットワークは、少なくとも１つの前記ネットワークブロックと、前記少なくとも１つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含む。

１つの可能な実現形態において、前記ニューラルネットワークは、畳み込みニューラルネットワークである。

１つの可能な実現形態において、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、前記テキスト画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果を得ることと、前記ダウンサンプリング結果に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることとを含む。

本出願のもう１つの態様によれば、テキスト認識装置を提供する。該装置は、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るように構成される特徴抽出モジュールと、前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得モジュールとを備え、ここで、前記テキスト画像に少なくとも２つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものである。

本出願のもう１つの態様によれば、電子機器を提供する。該電子機器は、プロセッサと、プロセッサでの実行可能な命令を記憶するための記憶媒体とを備え、前記プロセッサは、前記記憶媒体に記憶された命令を呼び出し、上記テキスト認識方法を実行するように構成される。

本出願のもう１つの態様によれば、機器可読記憶媒体を提供する。該機器可読記憶媒体には、機器での実行可能な命令が記憶されており、前記機器での実行可能な命令は、プロセッサにより実行される時、上記テキスト認識方法を実現させる。

本出願の実施例のテキスト認識方法によれば、画像内の文字同士間の関連性を表すテキスト関連特徴を抽出し、テキスト関連特徴を含む特徴情報に基づいて、画像のテキスト認識結果を取得することで、テキスト認識の正確性を向上させる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。

本出願の実施例によるテキスト認識方法を示すフローチャートである。本出願の実施例によるネットワークブロックを示す概略図である。本出願の実施例による符号化ネットワークを示す概略図である。本出願の実施例によるテキスト認識装置を示すブロック図である。本出願の実施例による電子機器を示すブロック図である。本出願の実施例による電子機器を示すブロック図である。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。

以下、図面を参照しながら本出願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。

ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。

本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、多種の関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

なお、本出願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。

図１は、本出願の実施例によるテキスト認識方法を示すフローチャートである。該テキスト認識方法は、端末装置又は他の装置により実行されてもよい。ここで、端末装置は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。

図１に示すように、前記方法は、
テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るステップＳ１１と、
前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得するステップＳ１２とを含み、
ここで、前記テキスト画像に少なくとも２つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものである。

例えば、テキスト画像は、画像採集装置（例えば、カメラ）により採集された、文字を含む画像であってもよい。例えば、オンライン本人検証シーンで撮影された、文字を含む証明書画像である。テキスト画像は、インターネットからダウンロードされた文字を含む画像、ユーザによりアップロードされた文字を含む画像、又は他の方式で取得された文字を含む画像であってもよい。本出願は、テキスト画像の出所及びタイプを限定するものではない。

なお、本明細書で言及した「文字」は、例えば文字、アルファベット、数字、符号などのような任意のテキスト文字を含んでもよい。本出願は、「文字」のタイプを限定するものではない。

幾つかの実施例において、ステップＳ１１で、テキスト画像に対して特徴抽出を行い、テキスト画像の特徴情報を得る。該特徴情報は、例えば各文字の分布の順序、幾つかの文字が同時に出現する確率などのような、テキスト画像内のテキスト文字同士間の関連性を表すためのテキスト関連特徴を含んでもよい。

幾つかの実施例において、ステップＳ１１は、少なくとも１つの第１畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得、ここで、前記第１畳み込み層の畳み込みカーネルのサイズは、Ｐ×Ｑであり、Ｐ、Ｑは整数であり、且つＱ＞Ｐ≧１であることを含む。

例えば、テキスト画像に少なくとも２つの文字が含まれてもよい。異なる方向における文字の分布は、不均一であることがある。例えば、水平方向に複数の文字が分布されており、垂直方向に単一の文字が分布されている。この場合、特徴抽出を行う畳み込み層は、異なる方向においてサイズが対称されていない畳み込みカーネルを利用することで、文字の多い方向におけるテキスト関連特徴をより好適に抽出することができる。

幾つかの実施例において、畳み込みカーネルのサイズがＰ×Ｑである少なくとも１つの第１畳み込み層により、テキスト画像に対して特徴抽出を行うことで、文字の分布が不均一である画像に適応させる。テキスト画像において、水平方向の文字数が垂直方向の文字数を超える場合、Ｑ＞Ｐ≧１とすることが可能であり、それによって、水平方向（横方向）のセマンティック情報（テキスト関連特徴）をより好適に抽出する。幾つかの実施例において、ＱとＰとの差が閾値を超える。例えば、テキスト画像内の文字が横方向に並ばれる（例えば、単一列）複数の文字である場合、第１畳み込み層は、サイズが１×５、１×７、１×９等である畳み込みカーネルを用いることができる。

幾つかの実施例において、テキスト画像において、水平方向の文字数が垂直方向の文字数より少ない場合、Ｐ＞Ｑ≧１とすることで、垂直方向（縦方向）のセマンティック情報（テキスト関連特徴）をより好適に抽出することができる。例えば、テキスト画像内の文字が縦方向に並ばれる（例えば、単一列）複数の文字である場合、第１畳み込み層は、サイズが５×１、７×１、９×１等である畳み込みカーネルを用いることができる。本出願は、第１畳み込み層の層数及び畳み込みカーネルの具体的なサイズを限定するものではない。

このようにして、テキスト画像内の文字の多い方向におけるテキスト関連特徴をより好適に抽出することができ、テキスト認識の正確性を向上させることができる。

幾つかの実施例において、前記特徴情報にテキスト構造特徴が更に含まれ、ステップＳ１１は、少なくとも１つの第２畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得、ここで、前記第２畳み込み層の畳み込みカーネルのサイズは、Ｎ×Ｎであり、Ｎは１を超える整数であることを含む。

例えば、テキスト画像の特徴情報は、文字の構造、形状、筆画の太さ、フォントタイプ又はフォント角度などのような、テキストの空間的構造情報を表すためのテキスト構造特徴を更に含む。この場合、特徴抽出を行う畳み込み層は、異なる方向においてサイズが対称している畳み込みカーネルを用いることで、テキスト画像内の各文字の空間的構造情報をより好適に抽出してテキスト画像のテキスト構造特徴を得ることができる。

幾つかの実施例において、畳み込みカーネルの寸法がＮ×Ｎである少なくとも１つの第２畳み込み層により、テキスト画像に対して特徴抽出処理を行い、テキスト画像のテキスト構造特徴を得る。Ｎは、１を超える整数である。ここで、Ｎは、２、３、５などであってもよい。つまり、第２畳み込み層は、サイズが２×２、３×３、５×５などである畳み込みカーネルを用いることができる。本出願は、第２畳み込み層の層数及び畳み込みカーネルの具体的なサイズを限定するものではない。このようにして、テキスト画像内の文字のテキスト構造特徴を抽出することができ、テキスト認識の正確性を向上させることができる。

幾つかの実施例において、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、
前記テキスト画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果を得ることと、
前記ダウンサンプリング結果に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることとを含む。

例えば、テキスト画像に対して特徴抽出を行う前に、まず、ダウンサンプリングネットワークにより、テキスト画像に対してダウンサンプリング処理を行う。該ダウンサンプリングネットワークは、少なくとも１つの畳み込み層を含み、該畳み込み層の畳み込みカーネルのサイズは、例えば３×３である。ダウンサンプリング結果を少なくとも１つの第１畳み込み層及び少なくとも１つの第２畳み込み層にそれぞれ入力して特徴抽出を行い、テキスト画像のテキスト関連特徴及びテキスト構造特徴を得る。ダウンサンプリング処理により、特徴抽出の演算量を更に低下させ、ネットワークの実行速度を向上させると共に、データ分布のバラツキによる特徴抽出への影響を避けることができる。

幾つかの実施例において、ステップＳ１１で得られた特徴情報に基づいて、ステップＳ１２で前記テキスト画像のテキスト認識結果を取得することができる。

幾つかの実施例において、テキスト認識結果は、特徴情報に対して分類処理を行って得られた結果である。テキスト認識結果は、例えばテキスト画像内の各文字の予測確率が最も多い予測結果文字である。例えば、テキスト画像上の位置が１、２、３、４である文字を「很多文字」として予測される。テキスト認識結果は更に、例えばテキスト画像内の各文字の予測確率である。例えば、テキスト画像における位置が１、２、３、４である「很多文字」という４つの漢字である場合、それに対応するテキスト認識結果は、以下を含む。位置１の文字が「根」であると予測される確率が８５％であり、「很」であると予測される確率が９８％である。位置２での文字が「夕」であると予測される確率が６０％であり、「多」であると予測される確率が９０％である。位置３での文字が「紋」であると予測される確率が６５％であり、「文」であると予測される確率が９４％である。位置４での文字が「写」であると予測される確率が７０％であり、「字」であると予測される確率が９０％である。本出願は、テキスト認識結果の表現形態を限定するものではない。

幾つかの実施例において、テキスト関連特徴のみに基づいてテキスト認識結果を取得してもよいし、テキスト関連特徴及びテキスト構造特徴に基づいてテキスト認識結果を取得してもよい。本出願は、これを限定するものではない。

幾つかの実施例において、ステップＳ１２は、
前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることと、
前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することと、を含む。

本出願の実施例において、異なる畳み込みカーネルのサイズを有する異なる畳み込み層により、テキスト画像を畳み込み処理して、テキスト画像のテキスト関連特徴及びテキスト構造特徴を取得することができる。続いて、得られたテキスト関連特徴をテキスト構造特徴とフュージョンし、フュージョン特徴を得る。該「フュージョン」処理は、例えば、該異なる畳み込み層から出力された結果を画素ずつ加算する操作であってもよい。更に、フュージョン特徴に基づいて、テキスト画像のテキスト認識結果を取得する。取得したフュージョン特徴は、テキスト情報をより全面的に反映することができ、テキスト認識の正確性を向上させることができる。

幾つかの実施例において、前記テキスト認識方法は、ニューラルネットワークにより実現され、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがＰ×Ｑである第１畳み込み層と、畳み込みカーネルのサイズがＮ×Ｎである第２畳み込み層とを含み、ここで、前記第１畳み込み層及び前記第２畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続される。

幾つかの実施例において、前記ニューラルネットワークは例えば畳み込みニューラルネットワークである。本出願は、ニューラルネットワークの具体的なタイプを限定するものではない。

例えば、該ニューラルネットワークは、符号化ネットワークを含んでもよい。符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがＰ×Ｑである第１畳み込み層と、畳み込みカーネルのサイズがＮ×Ｎである第２畳み込み層とを含み、それらはそれぞれテキスト画像のテキスト関連特徴及びテキスト構造特徴の抽出に用いられる。ここで、前記第１畳み込み層及び前記第２畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続される。それにより、ネットワークブロックの入力情報は、それぞれ第１畳み込み層及び第２畳み込み層に入力されて特徴抽出される。

幾つかの実施例において、第１畳み込み層及び第２畳み込み層の前に、畳み込みカーネルのサイズが例えば１×１である第３畳み込み層をそれぞれ設けて、ネットワークブロックの入力情報を次元削減処理することができ、次元削減された入力情報を第１畳み込み層及び第２畳み込み層にそれぞれ入力して特徴抽出を行うことで、特徴抽出の演算量を効果的に低減させる。

幾つかの実施例において、前記テキスト関連特徴と前記テキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得るステップは、前記ネットワークブロックの第１畳み込み層から出力されたテキスト関連特徴を、前記ネットワークブロックの第２畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記ネットワークブロックのフュージョン特徴を得ることを含む。

前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得するステップは、前記ネットワークブロックのフュージョン特徴及び前記ネットワークブロックの入力情報に対して残差処理を行い、前記ネットワークブロックの出力情報を得ることと、前記第１ネットワークブロックの出力情報に基づいて、前記テキスト認識結果を得ることとを含む。

例えば、いずれか１つのネットワークブロックに対して、ネットワークブロックの第１畳み込み層から出力されたテキスト関連特徴を、ネットワークブロックの第２畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記ネットワークブロックのフュージョン特徴を得ることができる。取得したフュージョン特徴は、テキスト情報をより全面的に反映することができる。

幾つかの実施例において、ネットワークブロックのフュージョン特徴と前記第１ネットワークブロックの入力情報とに対して残差処理を行い、ネットワークブロックの出力情報を得る。更に、ネットワークブロックの出力情報に基づいて、テキスト認識結果を得る。ここの「残差処理」は、ＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）における残差学習と類似した技術を利用した。残差接続により、各ネットワークブロックは、全ての特徴を学習する必要がなく、出力されたフュージョン特徴と入力情報との差（ネットワークブロックの出力情報）のみを学習すればよい。学習の収束をより容易にすることで、ネットワークブロックの演算量を低減させ、ネットワークブロックの訓練をより容易にする。

図２は、本出願の実施例によるネットワークブロックを示す概略図である。図２に示すように、該ネットワークブロックは、畳み込みカーネルのサイズが１×１である第３畳み込み層２１と、畳み込みカーネルのサイズが１×７である第１畳み込み層２２と、畳み込みカーネルのサイズが３×３である第２畳み込み層２３とを含む。ネットワークブロックの入力情報２４を２つの第３畳み込み層２１にそれぞれ入力して次元削減処理することで、特徴抽出の演算量を低減させる。次元削減された入力情報を第１畳み込み層２２及び第２畳み込み層２３にそれぞれ入力して特徴抽出し、ネットワークブロックのテキスト関連特徴及びテキスト構造特徴を得る。

幾つかの実施例において、ネットワークブロックのうちの第１ネットワークブロックの第１畳み込み層から出力されたテキスト関連特徴を、ネットワークブロックの第２畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記第１ネットワークブロックのフュージョン特徴を得ることで、テキスト情報をより全面的に反映する。ネットワークブロックのフュージョン特徴及びネットワークブロックの入力情報に対して残差処理を行い、ネットワークブロックの出力情報２５を得る。ネットワークブロックの出力情報に基づいて、テキスト画像のテキスト認識結果を取得することができる。

幾つかの実施例において、前記ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含み、ここで、各階層の特徴抽出ネットワークは、少なくとも１つの前記ネットワークブロックと、前記少なくとも１つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含む。

例えば、多階層の特徴抽出ネットワークにより、テキスト画像に対して特徴抽出を行うことができる。この場合、ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含む。テキスト画像をダウンサンプリングネットワーク（少なくとも１つの畳み込み層を含む）に入力してダウンサンプリング処理し、ダウンサンプリング結果を出力する。ダウンサンプリング結果を多階層の特徴抽出ネットワークに入力して特徴抽出し、テキスト画像の特徴情報を得ることができる。

幾つかの実施例において、テキスト画像のダウンサンプリング結果を第１階層の特徴抽出ネットワークに入力して特徴抽出し、第１階層の特徴抽出ネットワークの出力情報を出力する。続いて、第１階層の特徴抽出ネットワークの出力情報を第２階層の特徴抽出ネットワークに入力し、第２階層の特徴抽出ネットワークの出力情報を出力する。このように類推すると、最終階層の特徴抽出ネットワークの出力情報を符号化ネットワークの最終的出力情報とすることができる。

ここで、各階層の特徴抽出ネットワークは、少なくとも１つの前記ネットワークブロックと、前記少なくとも１つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含む。該ダウンサンプリングモジュールは、少なくとも１つの畳み込み層を含み、各ネットワークブロックの出力端でダウンサンプリングモジュールに接続されることが可能であり、各階層の特徴抽出ネットワークの最後の１つのネットワークブロックの出力端でダウンサンプリングモジュールに接続されることも可能である。従って、各階層の特徴抽出ネットワークの出力情報は、ダウンサンプリングされてから次の階層の特徴抽出ネットワークに入力される。従って、特徴寸法を低減させ、演算量を低減させる。

図３は、本出願の実施例による符号化ネットワークを示す概略図である。図３に示すように、符号化ネットワークは、ダウンサンプリングネットワーク３１と、ダウンサンプリングネットワークの出力端に接続される５階層の特徴抽出ネットワーク３２、３３、３４、３５、３６とを含む。ここで、第１階層の特徴抽出ネットワーク３２から第５階層の特徴抽出ネットワーク３６はそれぞれ１、３、３、３、２個のネットワークブロックを含み、各階層の特徴抽出ネットワークの最後の１つのネットワークブロックの出力端にダウンサンプリングモジュールが接続される。

幾つかの実施例において、テキスト画像をダウンサンプリングネットワーク３１に入力してダウンサンプリング処理し、ダウンサンプリング結果を出力する。ダウンサンプリング結果を第１階層の特徴抽出ネットワーク３２（ネットワークブロック＋ダウンサンプリングモジュール）に入力して特徴抽出し、第１階層の特徴抽出ネットワーク３２の出力情報を出力する。第１階層の特徴抽出ネットワーク３２の出力情報を第２階層の特徴抽出ネットワーク３３に入力し、順に３つのネットワークブロック及びダウンサンプリングモジュールにより処理し、第２階層の特徴抽出ネットワーク３３の出力情報を出力する。このように類推すると、第５階層の特徴抽出ネットワーク３６の出力情報を符号化ネットワークの最終的出力情報とする。

ダウンサンプリングネットワーク及び多階層の特徴抽出ネットワークによって、特徴抽出を行って、ボトルネック（ｂｏｔｔｌｅｎｅｃｋ）構造を形成することができる。従って、文字の認識効果を向上させ、演算量を著しく低減させ、ネットワーク訓練過程において収束がより容易になり、訓練の難度を低下させることができる。

幾つかの１つの可能な実現形態において、前記方法は、前記テキスト画像を前処理し、前処理されたテキスト画像を得ることを更に含む。

本出願の実現形態において、前記テキスト画像は、複数行または複数列を含むテキスト画像であってもよい。前処理操作は、複数行または複数列を含むテキスト画像を単一行または単一列のテキスト画像に分割し、認識を開始するという操作であってもよい。

幾つかの１つの可能な実現形態において、前記前処理操作は、正規化処理、幾何変換処理及び画像強調処理などの操作であってもよい。

幾つかの実施例において、所定の訓練集合に基づいて、ニューラルネットワークにおける符号化ネットワークを訓練することができる。訓練過程において、ＣＴＣＬｏｓｓを用いて符号化ネットワークに対して教師あり学習を行い、画像の各部分の予測結果を分類する。分類結果は、実の結果に近いほど、損失が小さくなる。訓練要件を満たした場合、訓練後の符号化ネットワークを得ることができる。本出願は、符号化ネットワークの損失関数の選択及び具体的な訓練形態を限定するものではない。

本出願の実施例のテキスト認識方法によれば、畳み込みカーネルのサイズが対称ではない畳み込み層によって、画像内の文字同士間の関連性を表すテキスト関連特徴を抽出することができ、特徴抽出の効果を向上させ、不必要な演算量を低減させることができる。テキスト関連特徴及び文字のテキスト構造特徴をそれぞれ抽出することができ、深層ニューラルネットワークの並列化を実現させ、演算時間を著しく低減させる。

本出願の実施例のテキスト認識方法によれば、残差接続及びボトルネット構造を利用した多階層の特徴抽出ネットワークによるネットワーク構造を用いるため、再帰型ニューラルネットワークを必要とせず、画像内のテキスト情報を好適に捕捉し、優れた認識結果を得て、演算量を大幅に低減させることができる。また、該ネットワーク構造は、訓練しやすく、訓練過程を迅速に完了することができる。

本出願の実施例によるテキスト認識方法は、本人認証、コンテンツ審査、画像検査、画像翻訳などの適用シーンに用いられ、テキスト認識を実現させることができる。例えば、本人認証の適用シーンにおいて、該方法により、身分証明書、キャッシュカード、運転免許証などのような様々なタイプの証明書画像内の文字コンテンツを抽出することで、本人認証を行う。コンテンツ審査の適用シーンにおいて、該方法により、ソーシャルネットワークにおけるユーザによりアップロードされた画像内の文字コンテンツを抽出し、画像に暴力関連のテキストなどのような不正情報が含まれているかを判定する。

本出願に言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数の都合で、本出願において逐一説明しないことが理解されるべきである。具体的な実施形態の上記方法において、各ステップの記述順番は、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。

なお、本出願は、テキスト認識装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記は、いずれも、本出願で提供されるいずれか１つのテキスト認識方法を実現させるために用いられる。関連する技術的解決手段及び説明は、方法に関わる説明を参照されたい。ここで詳しく説明しないようにする。

図４は、本出願の実施例によるテキスト認識装置を示すブロック図である。図４に示すように、前記テキスト認識装置は、
テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るように構成される特徴抽出モジュール４１と、前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得モジュール４２とを備え、ここで、前記テキスト画像に少なくとも２つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものである。

幾つかの実施例において、前記特徴抽出モジュールは、少なくとも１つの第１畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得るように構成される第１抽出サブモジュールを備え、ここで、前記第１畳み込み層の畳み込みカーネルのサイズは、Ｐ×Ｑであり、Ｐ、Ｑは整数であり、且つＱ＞Ｐ≧１である。

幾つかの実施例において、前記特徴情報にテキスト構造特徴が更に含まれ、前記特徴抽出モジュールは、少なくとも１つの第２畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得るように構成される第２抽出サブモジュールを更に備え、ここで、前記第２畳み込み層の畳み込みカーネルのサイズは、Ｎ×Ｎであり、Ｎは１を超える整数である。

幾つかの実施例において、前記結果取得モジュールは、前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得るように構成されるフュージョンサブモジュールと、前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得サブモジュールとを備える。

幾つかの実施例において、前記装置は、ニューラルネットワークに適用され、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがＰ×Ｑである第１畳み込み層と、畳み込みカーネルのサイズがＮ×Ｎである第２畳み込み層とを含み、ここで、前記第１畳み込み層及び前記第２畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続される。

幾つかの実施例において、前記装置は、ニューラルネットワークに適用され、前記ニューラルネットワークにおける符号化ネットワークは、複数のネットワークブロックを含み、前記フュージョンサブモジュールは、前記複数のネットワークブロックのうちの第１ネットワークブロックの第１畳み込み層から出力されたテキスト関連特徴を、前記第１ネットワークブロックの第２畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記第１ネットワークブロックのフュージョン特徴を得るように構成される。

前記結果取得サブモジュールは、前記第１ネットワークブロックのフュージョン特徴と前記第１ネットワークブロックの入力情報とに対して残差処理を行い、前記第１ネットワークブロックの出力情報を得て、前記第１ネットワークブロックの出力情報に基づいて、前記テキスト認識結果を得るように構成される。

幾つかの実施例において、前記ニューラルネットワークは、畳み込みニューラルネットワークである。

幾つかの実施例において、前記特徴抽出モジュールは、前記テキスト画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果を得るように構成されるダウンサンプリングサブモジュールと、前記ダウンサンプリング結果に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るように構成される第３抽出サブモジュールとを備える。

幾つかの実施例において、本出願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。

本出願の実施例は機器可読記憶媒体を更に提供する。該機器可読記憶媒体には、機器での実行可能な命令が記憶されており、前記機器での実行可能な命令がプロセッサにより実行される時、上記方法を実現させる。機器可読記憶媒体は不揮発性機器可読記憶媒体であってもよい。

本出願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサでの実行可能な命令を記憶するための記憶媒体とを備え、前記プロセッサは、前記記憶媒体に記憶されている命令を呼び出し、上記方法を実行するように構成される。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図５は本出願の実施例による電子機器８００を示すブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。

図５を参照すると、電子機器８００は、処理ユニット８０２、記憶媒体８０４、電源ユニット８０６、マルチメディアユニット８０８、オーディオユニット８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサユニット８１４及び通信ユニット８１６のうちの１つ又は複数を備えてもよい。

処理ユニット８０２は一般的には、電子機器８００の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット８０２は、指令を実行するための１つ又は複数のプロセッサ８２０を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット８０２は、他のユニットとのインタラクションのために、１つ又は複数のモジュールを備えてもよい。例えば、処理ユニット８０２はマルチメディアモジュールを備えることで、マルチメディアユニット８０８と処理ユニット８０２とのインタラクションに寄与する。

記憶媒体８０４は、各種のデータを記憶することで電子機器８００における操作をサポートするように構成される。これらのデータの例として、電子機器８００上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。記憶媒体８０４は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、電気的に消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、読出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。

電源ユニット８０６は電子機器８００の様々なユニットに電力を提供する。電源ユニット８０６は、電源管理システム、１つ又は複数の電源、及び電子機器８００のための電力生成、管理、分配に関連する他のユニットを備えてもよい。

マルチメディアユニット８０８は、上記電子機器８００とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する１つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット８０８は、フロントカメラ及び／又はリアカメラを備える。電子機器８００が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。

オーディオユニット８１０は、オーディオ信号を出力／入力するように構成される。例えば、オーディオユニット８１０は、マイクロホン（ＭＩＣ）を備える。電子機器８００が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ８０４に記憶するか、又は通信ユニット８１６を経由して送信することができる。幾つかの実施例において、オーディオユニット８１０は、オーディオ信号を出力するように構成されるスピーカーを更に備える。

Ｉ／Ｏインタフェース８１２は、処理ユニット８０２と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。

センサユニット８１４は、１つ又は複数のセンサを備え、電子機器８００のために様々な状態の評価を行うように構成される。例えば、センサユニット８１４は、電子機器８００のオン／オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器８００のディスプレイ及びキーパッドである。センサユニット８１４は電子機器８００又は電子機器８００における１つのユニットの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位又は加速／減速及び電子機器８００の温度の変動を検出することもできる。センサユニット８１４は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット８１４は、ＣＭＯＳ又はＣＣＤ画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット８１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。

通信ユニット８１６は、電子機器８００と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器８００は、ＷｉＦｉ、２Ｇ又は３Ｇ又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット８１６は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット８１６は、近接場通信（ＮＦＣ）モジュールを更に備えることで近距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及び他の技術に基づいて実現される。

例示的な実施例において、電子機器８００は、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。

例示的な実施例において、機器での実行可能な命令を記憶した記憶媒体８０４のような非一時的コンピュータ可読記憶媒体を更に提供する。上記機器での実行可能な命令は、電子機器８００のプロセッサ８２０により実行され上記方法を完了する。

図６は、本出願の実施例による電子機器１９００を示すブロック図である。例えば、電子機器１９００は、サーバとして提供されてもよい。図６を参照すると、電子機器１９００は、処理ユニット１９２２を備える。ぞれは1つ又は複数のプロセッサと、メモリ１９３２で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット１９２２により実行される命令を記憶するためのものである。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する１つ又は1つ以上のモジュールを含んでもよい。なお、処理ユニット１９２２は、命令を実行して、上記方法を実行するように構成される。

電子機器１９００は、電子機器１９００の電源管理を実行するように構成される電源ユニット１９２６と、電子機器１９００をネットワークに接続するように構成される有線又は無線ネットワークインタフェース１９５０と、入力出力（Ｉ／Ｏ）インタフェース１９５８を更に備えてもよい。電子機器１９００は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ，ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭ又は類似したものような、メモリ１９３２に記憶されているオペレーティングシステムを実行することができる。

例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ１９３２のような不揮発性機器可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器１９００の処理ユニット１９２２により実行されて上記方法を完了する。

本出願は、システム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。

コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。

ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング／処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング／処理装置におけるコンピュータ可読記憶媒体に記憶する。

本出願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）やワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる（例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する）。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブル論理アレイ（ＰＬＡ）のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本出願の各態様を実現させることができる。

ここで、本出願の実施例の方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら、本出願の各態様を説明する。フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における１つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び／又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図おける１つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。

コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能/操作を実現させる。

図面におけるフローチャート及びブック図は、本出願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、、プログラムセグメント又は命令の一部は、１つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。

以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術への改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。

Claims

テキスト認識方法であって、前記テキスト認識方法は、ニューラルネットワークにより実現され、
前記ニューラルネットワークによって、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることであって、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがＰ×Ｑである少なくとも１つの第１畳み込み層を含み、Ｐ、Ｑは整数であり、且つＱ＞Ｐ≧１である、ことと、
前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得することと、を含み、
ここで、前記テキスト画像に少なくとも２つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものであり、
前記ニューラルネットワークによって、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、
前記少なくとも１つの第１畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得ることを含むことを特徴とする
テキスト認識方法。
前記ニューラルネットワークにおける各ネットワークブロックは、畳み込みカーネルのサイズがＮ×Ｎである少なくとも１つの第２畳み込み層を更に含み、Ｎは１を超える整数であり、前記特徴情報にテキスト構造特徴が更に含まれ、
前記ニューラルネットワークによって、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、
前記少なくとも１つの第２畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得ることを含むことを特徴とする
請求項１に記載の方法。
前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得することは、
前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることと、
前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することと、を含むことを特徴とする
請求項１又は２に記載の方法。
前記第１畳み込み層及び前記第２畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続されることを特徴とする
請求項１－３のいずれか一項に記載の方法。
前記方法は、ニューラルネットワークにより実現され、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、
前記テキスト関連特徴と前記テキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることは、
前記複数のネットワークブロックのうちの第１ネットワークブロックの第１畳み込み層から出力されたテキスト関連特徴を、前記第１ネットワークブロックの第２畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記第１ネットワークブロックのフュージョン特徴を得ることを含み、
前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することは、
前記第１ネットワークブロックのフュージョン特徴と前記第１ネットワークブロックの入力情報とに対して残差処理を行い、前記第１ネットワークブロックの出力情報を得ることと、
前記第１ネットワークブロックの出力情報に基づいて、前記テキスト認識結果を得ることと、を含むことを特徴とする
請求項３に記載の方法。
前記ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含み、ここで、各階層の特徴抽出ネットワークは、少なくとも１つの前記ネットワークブロックと、前記少なくとも１つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含むことを特徴とする
請求項４又は５に記載の方法。
前記ニューラルネットワークは、畳み込みニューラルネットワークであることを特徴とする
請求項４－６のいずれか一項に記載の方法。
テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、
前記テキスト画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果を得ることと、
前記ダウンサンプリング結果に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることと、を含むことを特徴とする
請求項１－７のいずれか一項に記載の方法。
テキスト認識装置であって、前記テキスト認識装置は、ニューラルネットワークにより実現され、
前記ニューラルネットワークによって、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るように構成される特徴抽出モジュールであって、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがＰ×Ｑである少なくとも１つの第１畳み込み層を含み、Ｐ、Ｑは整数であり、且つＱ＞Ｐ≧１である、特徴抽出モジュールと、
前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得モジュールと、を備え、
ここで、前記テキスト画像に少なくとも２つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものであり、
前記特徴抽出モジュールは、
前記少なくとも１つの第１畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得るように構成される第１抽出サブモジュールを備えることを特徴とする
テキスト認識装置。
前記ニューラルネットワークにおける各ネットワークブロックは、畳み込みカーネルのサイズがＮ×Ｎである少なくとも１つの第２畳み込み層を更に含み、Ｎは１を超える整数であり、前記特徴情報にテキスト構造特徴が更に含まれ、
前記特徴抽出モジュールは、
前記少なくとも１つの第２畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得るように構成される第２抽出サブモジュールを更に備えることを特徴とする
請求項９に記載の装置。
前記結果取得モジュールは、
前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得るように構成されるフュージョンサブモジュールと、
前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得サブモジュールと、を備えることを特徴とする
請求項９又は１０に記載の装置。
電子機器であって、
プロセッサと、
プロセッサでの実行可能な命令を記憶するための記憶媒体とを備え、
前記プロセッサは、前記記憶媒体に記憶されている命令を呼び出し、請求項１から８のいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。
機器での実行可能な命令が記憶されている機器可読記憶媒体であって、前記機器での実行可能な命令がプロセッサにより実行される時、請求項１から８のいずれか一項に記載の方法を実現させることを特徴とする、前記機器可読記憶媒体。