JP6961802B2

JP6961802B2 - 文字画像処理方法、装置、機器及び記憶媒体

Info

Publication number: JP6961802B2
Application number: JP2020511273A
Authority: JP
Inventors: 王▲權▼; 梁鼎; ▲錢▼晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-12-22
Filing date: 2018-10-26
Publication date: 2021-11-05
Anticipated expiration: 2038-10-26
Also published as: JP2020532001A; US20200089985A1; CN108229470A; WO2019119966A1; US11275961B2; CN108229470B

Description

（関連出願の相互参照）
本願は、出願番号が２０１７１１４０７５３５．０で、出願日が２０１７年１２月２２日である中国特許出願に基づいて出願され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。

本願は、コンピュータビジョン技術に関し、特に、文字画像処理方法、ニューラルネットワークの訓練方法、文字画像処理装置、ニューラルネットワークの訓練装置、電子機器、コンピュータ読取可能記憶媒体及びコンピュータプログラムに関する。

文字画像は、文字（例えば、漢字又は英文又は他の語種のキャラクターや数字等）を含む画像である。場合によっては、画像における文字認識率が所望の正確率を達成できないことがある。如何に文字認識の正確率を向上させるかは、注目される技術問題である。

本願の実施形態は、文字画像処理の技術案を提供する。

本願の実施形態の一態様によれば、被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得する工程と、形態変換ラベリング情報を有する画像ブロックサンプルによって訓練して得られたニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得する工程と、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程と、形態変換後の被処理文字画像に対して文字認識を行う工程と、を含む文字画像処理方法を提供する。

本願の実施形態の別の態様によれば、訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得する工程と、被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得する工程と、前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程と、を含むニューラルネットワークの訓練方法を提供する。

本願の実施形態のもう一つの態様によれば、被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得するように構成される画像ブロック取得モジュールと、形態変換ラベリング情報を有する画像ブロックサンプルによって訓練して得られたニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得するように構成される変換情報取得モジュールと、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うように構成される変換処理モジュールと、形態変換後の被処理文字画像に対して文字認識を行うように構成される文字認識モジュールと、を含む文字画像処理装置を提供する。

本願の実施形態のもう一つの態様によれば、訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得するように構成されるサンプル取得モジュールと、被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得するように構成されるサンプル変換情報取得モジュールと、前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行うように構成される教師あり学習モジュールと、を含むニューラルネットワークの訓練装置を提供する。

本願の実施形態のもう一つの態様によれば、コンピュータプログラムを記憶するための記憶器と、前記記憶器に記憶されるコンピュータプログラムを実行することに用いられ、且つ前記コンピュータプログラムが実行される場合、本願の何れの文字画像処理方法の実施形態における工程を実現し、又は本願の何れのニューラルネットワークの訓練方法の実施形態における工程を実現するプロセッサと、を含む電子機器を提供する。

本願の実施形態のまた１つの態様によれば、コンピュータプログラムが記憶されるコンピュータ読取可能記憶媒体において、前記コンピュータプログラムがプロセッサにより実行される場合、本願の何れの文字画像処理方法の実施形態における工程を実現し、又は、本願の何れのニューラルネットワークの訓練方法の実施形態における工程を実現するコンピュータ読取可能記憶媒体を提供する。

本願の実施形態のまた１つの態様によれば、コンピュータ命令を含むコンピュータプログラムにおいて、前記コンピュータ命令が機器のプロセッサにおいて運行される場合、本願の何れの文字画像処理方法の実施形態における工程を実現し、又は、本願の何れのニューラルネットワークの訓練方法の実施形態における工程を実現するコンピュータプログラムを提供する。

本願の提供する文字画像処理方法、文字画像処理装置、機器、記憶媒体及びコンピュータプログラムに基づいて、本願は、ニューラルネットワークによって画像ブロックにおける文字方向を所定方向に転換するための画像ブロック形態変換情報を取得することで、ニューラルネットワークの出力した画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を便利で快速に行って、形態変換処理後の被処理文字画像における文字方向を所定方向（例えば、水平方向）にすることができ、これにより、本願によれば、文字方向が傾斜することで文字画像の文字認識の正確率に影響を与える現象を効果的に避けることができることが判明され、最終的に、本願の提供する文字画像処理の技術案は、文字認識の正確率の向上に有利である。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
文字画像処理方法であって、
被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得する工程と、
ニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得する工程と、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程と、
形態変換後の被処理文字画像に対して文字認識を行う工程と、
を含む文字画像処理方法。
（項目２）
前記画像ブロックは、所定の大きさを有する正方形の画像ブロックである項目１に記載の文字画像処理方法。
（項目３）
前記被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得する工程は、
前記被処理文字画像に対して切断処理を行って、被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得する工程、又は、
前記被処理文字画像に対して補填処理を行って、被処理文字画像全体を含む少なくとも１つの画像ブロックを取得する工程を含む項目１又は２に記載の文字画像処理方法。
（項目４）
前記被処理文字画像に対して切断処理を行って、被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得する工程は、
前記被処理文字画像の中心位置を中心とし、前記被処理文字画像の短辺を辺長として、前記被処理文字画像から１つの画像ブロックを切断する工程を含む項目３に記載の文字画像処理方法。
（項目５）
前記画像ブロック形態変換情報は、
画像ブロックの透視変換情報と、
９０度の整数倍を表す画像ブロック回転情報と、
の少なくとも１つを含む項目１〜４の何れか１項に記載の文字画像処理方法。
（項目６）
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程は、
前記９０度の整数倍を表す画像ブロック回転情報に基づいて前記被処理文字画像に対して９０度の整数倍の回転処理を行う工程と、
前記画像ブロックの透視変換情報に基づいて透視変換行列を確定して、前記透視変換行列によって前記回転処理後の被処理文字画像に対して透視変換を行う工程と、
を含む項目５に記載の文字画像処理方法。
（項目７）
前記少なくとも１つの画像ブロックが複数の画像ブロックである場合、前記９０度の整数倍を表す画像ブロック回転情報に基づいて前記被処理文字画像に対して９０度の整数倍の回転処理を行う工程は、
前記複数の画像ブロックにおける画像ブロックの各々の９０度の整数倍を表す画像ブロック回転情報の確率値を取得する工程と、
前記複数の画像ブロックの９０度の整数倍を表す画像ブロック回転情報から前記確率値が最大となる９０度の整数倍を表す画像ブロック回転情報を選用する工程と、
選用された前記確率値が最大となる９０度の整数倍を表す画像ブロック回転情報に基づいて、前記複数の画像ブロックに対して９０度の整数倍の回転処理を行う工程と、
を含む項目６に記載の文字画像処理方法。
（項目８）
前記少なくとも１つの画像ブロックが複数の画像ブロックである場合、前記画像ブロックの透視変換情報に基づいて透視変換行列を確定して、前記透視変換行列によって回転処理後の被処理文字画像に対して透視変換を行う工程は、
前記複数の画像ブロックにおける画像ブロックの各々の透視変換情報に基づいて、前記画像ブロックの各々の透視変換行列を確定する工程と、
前記複数の画像ブロックにおける画像ブロックの各々の透視変換行列に基づいて、透視変換平均行列を確定する工程と、
前記透視変換平均行列によって、前記回転処理後の前記複数の画像ブロックに対して透視変換を行う工程と、
を含む項目６又は７に記載の文字画像処理方法。
（項目９）
前記文字画像処理方法は、文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程を更に含み、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程は、
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を含む項目１〜８の何れか１項に記載の文字画像処理方法。
（項目１０）
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を実行しない項目９に記載の文字画像処理方法。
（項目１１）
前記文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程は、
ニューラルネットワークに基づいて文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程を含む項目９に記載の文字画像処理方法。
（項目１２）
前記文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得する工程は、
前記少なくとも１つの画像ブロックが複数の画像ブロックである場合、画像ブロックの各々における文字の前記画像ブロックに占める面積が所定の要求を満たしているかを確定する工程と、
前記少なくとも複数の画像ブロックに文字の占める面積が所定の要求を満たしている画像ブロックの比率を確定する工程と、
前記比率が所定の比率よりも大きい場合、文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する指示情報を生成する工程と、
を含む項目１０に記載の文字画像処理方法。
（項目１３）
前記文字画像処理方法は、
前記比率が前記所定の比率以下である場合、文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する指示情報を生成する工程を更に含む項目１２に記載の文字画像処理方法。
（項目１４）
前記ニューラルネットワークは、画像特徴を提出するための共有ニューラルネットワーク、画像ブロックの透視変換情報を出力するための第１ブランチ及び９０度の整数倍を表す画像ブロック回転情報を出力するための第２ブランチを含み、前記共有ニューラルネットワークの出力端がそれぞれ前記第１ブランチ及び前記第２ブランチの入力端に接続される項目１〜１３の何れか１項に記載の文字画像処理方法。
（項目１５）
前記ニューラルネットワークの訓練過程は、
訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得する工程と、
被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得する工程と、
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程と、
を含む項目１４に記載の文字画像処理方法。
（項目１６）
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程は、
前記第１ブランチの出力した画像ブロックサンプルの透視変換情報と前記画像ブロックサンプルの透視変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報における透視変換ラベリング情報をガイド情報として、前記ニューラルネットワークにおける画像特徴を提出するための共有ニューラルネットワーク及び画像ブロックサンプルの透視変換情報を出力するための第１ブランチに対して教師あり学習を行う工程と、
前記第２ブランチの出力した９０度の整数倍を表す画像ブロックサンプル回転情報と前記９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワーク及び前記第１ブランチの訓練が終了した後で、前記共有ニューラルネットワーク及び前記第１ブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として、前記ニューラルネットワークにおける９０度の整数倍を表す画像ブロックサンプル回転情報を出力するための第２ブランチに対して教師あり学習を行う工程と、
を含む項目１５に記載の文字画像処理方法。
（項目１７）
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行う工程は、
前記第３ブランチの出力した指示情報と画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワーク及び前記第１ブランチの訓練が終了した後で、前記共有ニューラルネットワーク及び前記第１ブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを表すラベリング情報をガイド情報として、前記ニューラルネットワークにおける画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報を出力するための第３ブランチに対して教師あり学習を行う工程を更に含む項目１６に記載の文字画像処理方法。
（項目１８）
形態変換ラベリング情報を有する画像ブロックサンプルを取得することは、
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定する工程を含む項目１４〜１７の何れか１項に記載の文字画像処理方法。
（項目１９）
前記文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定する工程は、
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して透視変換処理を行って、透視変換処理後の領域から文字の占める面積が所定の要求を満たしている画像サンプルブロックを切り出し、前記画像サンプルブロックに対してランダムな９０度の整数倍の回転を行う工程と、
前記透視変換処理に用いられる透視変換行列に基づいて前記画像サンプルブロックの透視変換ラベリング情報を確定して、前記ランダムな９０度の整数倍の回転に基づいて９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報を確定する工程と、
を含む項目１８に記載の文字画像処理方法。
（項目２０）
文字画像処理装置であって、
被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得するように構成される画像ブロック取得モジュールと、
ニューラルネットワークに基づいて、前記画像ブロックにおける文字方向を所定方向に転換させるための、前記画像ブロックの画像ブロック形態変換情報を取得するように構成される変換情報取得モジュールと、
前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うように構成される変換処理モジュールと、
形態変換後の被処理文字画像に対して文字認識を行うように構成される文字認識モジュールと、
を含む文字画像処理装置。
（項目２１）
ニューラルネットワークに基づいて、文字の画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得するように構成される占有情報取得モジュールと、
前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うように構成される前記変換処理モジュールと、
を更に含む項目２０に記載の文字画像処理装置。
（項目２２）
前記変換処理モジュールは、前記指示情報が文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する場合、前記画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行う工程を実行しないように構成される項目２１に記載の文字画像処理装置。
（項目２３）
訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得するように構成されるサンプル取得モジュールと、
被訓練のニューラルネットワークに基づいて、前記画像ブロックサンプルにおける文字方向を所定方向に転換させるための、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得するように構成されるサンプル変換情報取得モジュールと、
前記被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、前記被訓練のニューラルネットワークに対して教師あり学習を行うように構成される教師あり学習モジュールと、
を更に含む項目２０〜２２の何れか１項に記載の文字画像処理装置。
（項目２４）
文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、前記形態変換処理に基づいて形態変換ラベリング情報を確定するように構成されるラベリングモジュールを更に含む項目２０〜２３の何れか１項に記載の文字画像処理装置。
（項目２５）
電子機器であって、
コンピュータプログラムを記憶するように構成される記憶器と、
前記記憶器に記憶されるコンピュータプログラムを実行するように配置され、且つ前記コンピュータプログラムが実行される場合、上記項目１〜１９の何れか１項に記載の文字画像処理方法における工程を実現するプロセッサと、
を含む電子機器。
（項目２６）
コンピュータプログラムが記憶されるコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムがプロセッサにより実行される場合、上記項目１〜１９の何れか１項に記載の文字画像処理方法における工程を実現するコンピュータ読取可能記憶媒体。
（項目２７）
コンピュータ命令を含むコンピュータプログラム製品であって、前記コンピュータ命令が機器のプロセッサにおいて運行される場合、上記項目１〜１９の何れか１項に記載の文字画像処理方法における工程を実現するコンピュータプログラム製品。

明細書の一部を構成する図面は、本願の実施形態を説明し、その説明と共に本願の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
本願の実施例で提供される文字画像処理方法のフローチャートである。本願の実施例で提供されるニューラルネットワークのいくつかの実施形態の模式図である。本願の実施例で提供されるニューラルネットワークの幾つかの別の実施形態の模式図である。本願の実施例で提供されるニューラルネットワークの訓練方法のフローチャートである。本願の実施例で提供される訓練データの形成のフローチャートである。本願の実施例で提供される文字画像処理装置の構造模式図である。本願の実施例で提供されるニューラルネットワークの訓練装置の構造模式図である。本願を実現する例示的な機器のブロック図である。

ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施形態で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。

なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願の実施例は端末装置、コンピュータシステム及びサーバなどの電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末装置、コンピュータシステム及びサーバなどの電子機器との併用に適する公知の端末装置、計算システム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

端末装置、コンピュータシステム及びサーバなどの電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド（例えば、プログラムモジュール）の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック及びデータ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム／サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。

図１は、本願の実施例で提供される文字画像処理方法の模式的なフローチャートである。図１に示すように、前記文字画像処理方法は、工程Ｓ１００において、工程Ｓ１１０、工程Ｓ１２０及び工程Ｓ１３０を含む。以下、図１における各工程を詳しく説明する。

Ｓ１００において、被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得する。

いくつかの実現形態において、本願における被処理文字画像は、ＲＧＢ（赤、緑、青）に基づいた画像又はＹＵＶ（輝度、色度、濃度）に基づいた画像であってよい。本願における被処理文字画像は、静的状態であるピクチャ又は写真等の画像であってもよいし、動的状態であるビデオにおけるビデオフレーム等であってもよい。前記被処理文字画像は、複数の文字により形成される１つ又は複数の文字の段落を含んでもよいし、例えば、表の形態で現れる文字等のような、段落ではない形態で現れる文字を含んでもよい。本願における文字は、特定の意味を表現するためのキャラクター（例えば、漢字又は英文又は他の語種のキャラクター）や数字等を含んでよい。本願は、被処理文字画像における文字の具体的な表現形態を制限しない。

いくつかの実現形態において、前記被処理文字画像における文字は、
例えば、中国語の文字、英文の単語、ラテン文字等の様々なタイプのキャラクター又は数字や、
例えば、コンマ、省略記号、括弧、プラス記号等の様々なタイプのセパレータ、句読符号又は数学演算子の中の少なくとも１つを含むが、それらに限定されない。

Ｓ１００において、文字を含む長方形又は正方形又は他の形状である少なくとも１つの画像ブロックを取得し、また、前記少なくとも１つの画像ブロックが複数の画像ブロックである場合、複数の画像ブロックにおける異なる画像ブロックの大きさは同じ又は異なり、例えば、全ての画像ブロックが同じ大きさを有し、前記大きさは所定のサイズであり、又は被処理文字画像の少なくとも一部のサイズに依存してよい。別の例として、複数の画像ブロックにおいて、縁部に位置する画像ブロックのサイズが中間の画像ブロック（つまり縁部に位置しない画像ブロック）と異なること等がある。いくつかの実施形態において、画像ブロックは、所定の大きさを有する正方形の画像ブロックであり、その形状や大きさがニューラルネットワークの画像ブロックに対する要求に関わっている。本願は、画像ブロックの形状や大きさ等を制限しない。

選択的に、画像ブロックは、被処理文字画像全体又は被処理文字画像における一部の画像を含む。いくつかの実現形態において、被処理文字画像に対して文字検出を行って、被処理文字画像における文字領域を得て、被処理文字画像における文字領域を少なくとも１つの画像ブロックに分け、例えば、被処理文字画像を文字検出ニューラルネットワークに入力して処理して、被処理文字画像における文字領域の情報を得るように、様々な形態によって被処理文字画像における文字領域を確定することができるが、それに限定されない。この場合、文字領域を分けて得られた少なくとも１つの画像ブロックを、文字を含む少なくとも１つの画像ブロックと称する。

別のいくつかの実現形態において、被処理文字画像を複数の画像ブロックに分けて、複数の画像ブロックにおける画像ブロックの各々に対して文字検出処理を行って、文字を含む少なくとも１つの画像ブロックを得るが、本開示の実施例はこれを限定しない。

別のいくつかの実施形態において、被処理文字画像に対して切断処理を行って、被処理文字画像における文字を含む画像ブロックを取得する。前記切断処理の取得する少なくとも１つの画像ブロックの数は１つ又は複数であり、また切断処理の規則としては、例えば、最大面積又は最小アスペクト比又は最大長辺又は短辺等によるように、予め設定されてよいが、本開示の実施例はこれを限定しない。

一例において、少なくとも１つの画像ブロックは、１つの画像ブロックである。このような場合、選択的に、被処理文字画像の中心位置を中心とし、被処理文字画像の短辺を辺長として、被処理文字画像から正方形の画像ブロックを切断し、前記正方形の画像ブロックは被処理文字画像から切断可能な最大面積の画像ブロックである。

選択的に、上記切断過程において、被処理文字画像の中心位置を中心とし、被処理文字画像の短辺より小さい長さを辺長として、被処理文字画像から正方形の画像ブロックを切断し、又は、被処理文字画像の短辺と長辺との長さの間の長さを長辺とし、被処理文字画像の短辺を短辺として、被処理文字画像から１つの長方形画像ブロックを切断してもよい。

別の例において、少なくとも１つの画像ブロックは、２つの画像ブロックである。このような場合、選択的に、被処理文字画像の２つの短辺をそれぞれ正方形の辺長として、被処理文字画像から２つの正方形の画像ブロックを切断し、この２つの正方形の画像ブロックの何れも被処理文字画像から切断可能な最大面積の画像ブロックである。

上記は単に例として説明されることが理解されるべきであるが、本願は、被処理文字画像から切断される画像ブロックの数や切断位置等の具体的な切断形態を制限しない。

いくつかの実現形態において、本願における画像ブロッは、被処理文字画像全体を含む。画像ブロックは、被処理文字画像自体或いは被処理文字画像に対して１つ又は複数の処理を行ったものであってよい。例えば、被処理文字画像に対して補填処理を行って、被処理文字画像全体を含む少なくとも１つの正方形の画像ブロックを取得する。

一例において、被処理文字画像の形状が長方形である場合、前記被処理文字画像の短辺方向において、ブランクコンテンツを補填して、被処理文字画像の長辺を正方形の辺長とする画像ブロックを形成してよい。又は、上記補填処理過程において、前記被処理文字画像の短辺方向及び長辺方向においてそれぞれブランクコンテンツを補填して、形成される正方形の画像ブロックの辺長が被処理文字画像の長辺より若干長くしてもよい。

Ｓ１１０において、ニューラルネットワークに基づいて、画像ブロックの画像ブロック形態変換情報を取得する。

いくつかの実現形態において、画像ブロックを直接例えば形態変換ニューラルネットワークのようなニューラルネットワークに提供して、前記ニューラルネットワークの入力された画像ブロックに対して出力した情報に基づいて、画像ブロック形態変換情報を取得する。

別のいくつかの実現形態において、画像ブロックに対して、１つ又は複数の処理をした後でニューラルネットワークに提供する。例えば、上記工程Ｓ１００において、被処理文字画像に基づいて発生した画像ブロックの大きさや形状等がニューラルネットワークの入力される画像ブロックに対する要求に合致しなければ、本工程Ｓ１１０において、まず前記画像ブロックの大きさや形状等を調整して、調整された画像ブロックがニューラルネットワークの入力される画像ブロックに対する要求に合致するようにし、その後、また調整された画像ブロックをニューラルネットワークに提供する。

画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定方向に転換することに用いられる。いくつかの実現形態において、ニューラルネットワークの入力される画像ブロックに対して出力した画像ブロック形態変換情報は、画像ブロックの透視変換情報及び９０度の整数倍を表す画像ブロック回転情報の少なくとも１つを含む。画像ブロックの透視変換情報は、画像ブロックが透視変換に基づいて回転するようにすることに用いられ、選択的に、透視変換に基づいた前記回転の角度が９０度より小さい。画像ブロックの透視変換情報は、例えば画像ブロックの４つの頂点の座標透視変換情報のような、画像ブロックの頂点の透視座標変換情報を含むが、それらに限定されない。９０度の整数倍を表す画像ブロック回転情報は、画像ブロックに対して９０度の整数倍の回転処理を行うことに用いられ、９０度の整数倍の回転処理を行うための回転角度を指示するための指示情報を含むが、それらに限定されなく、例えば、０、１、２又は３等を含み、０は回転しないことを、１は時計回り／反時計回りに９０度回転することを、２は時計回り／反時計回りに１８０度回転することを、３は時計回り／反時計回りに２７０度回転すること表し、等々となるが、本開示の実施例はこれを限定しない。

いくつかの適用状況において、画像の撮影角度等の問題により、そもそも標準サイズのテキストに一端が大きく一端が小さい現象が生じ、このような現象により認識率が低いという問題がある。本開示の実施例において、画像ブロックに対して透視座標変化を行い、撮影角度による文字画像における文字の一端が大きく一端が小さいという問題を矯正して、文字画像の認識正確率を向上させる。

他のいくつかの場合、文字の向きが変わり、例えば被処理文字画像又は画像ブロックがニューラルネットワークに入力される前に回転処理されたことがあり、本開示の実施例において、画像ブロックに対して回転処理又は逆回転処理を行うことで、文字を所定方向に向かせ、例えば文字の行方向を水平方向に回転させる。例えば、回転角度は、上記９０度の整数倍以外、６０度、３０度又は任意の角度であってもよい。

いくつかの実現形態において、ニューラルネットワークの画像ブロックに対して出力した画像ブロック形態変換情報が画像ブロックの透視変換情報及び９０度の整数倍を表す画像ブロック回転情報を含む場合、選択的に、ニューラルネットワークは、画像ブロックの画像特徴を提出するための共有ニューラルネットワーク、画像ブロックの透視変換情報を出力するための第１ブランチ及び９０度の整数倍を表す画像ブロック回転情報を出力するための第２ブランチを含み、その中の共有ニューラルネットワークの画像ブロックから提出する画像特徴がそれぞれ第１ブランチ及び第２ブランチに提供される。

いくつかの実現形態において、画像ブロック形態変換情報は、更に、被処理文字画像又は少なくとも１つの画像ブロックに対して形態変換処理を行うかを確定することに用いられる。いくつかの例において、画像ブロック形態変換情報は、被処理文字画像に対して形態変換処理を行うかを確定するための指示情報を更に含み、選択的に、前記指示情報は、画像ブロックにおける文字数が所定の要求を満たしているかを指示し、又は画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示し、等々となる。選択的に、前記所定の要求は、画像ブロックにおける文字の面積又は数又は面積の占める比率が既定の比率を達成することを含み、前記既定の比率は０．３左右又は他の数値であってよく、その具体的な数値が実際の適用状況に依存するが、本開示の実施例はこれを限定しない。例えば、ニューラルネットワークは、入力される画像ブロックに対して、更に、画像ブロックにおける文字の数又は文字の占める面積が所定の要求を満たしているかを指示する指示情報を出力する。例えば、ニューラルネットワークは、画像ブロックの文字の画像ブロックに占める面積比率又は文字数が所定の要求を満たしているかを指示する指示子を出力し、指示子は例えば、０及び１を含むが、それらに限定されなく、０が所定の要求を満たしていないことを指示し、１が所定の要求を満たしていることを指示し、等々となる。別の例として、ニューラルネットワークは、入力される画像ブロックに対して、画像ブロックにおける文字の占める面積又は数を出力し、又は画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率を出力する。別の例として、ニューラルネットワークは、入力される画像ブロックに対して、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達する確率値を出力し、それに応じて、確率値が既定の確率値よりも低い場合、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達していないと考えられるが、確率値が既定の確率値を下回っていない場合、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達すると考えられる。又は、指示情報は、他の形態で実現されてもよいが、本開示の実施例はこれを限定しない。

いくつかの実現形態において、文字を含む少なくとも１つの画像ブロックが複数の画像ブロックである場合、画像ブロックの各々における文字の前記画像ブロックに占める面積が所定の要求を満たしているかを確定し、更に複数の画像ブロックにおいて、文字の画像ブロックに占める面積が所定の要求を満たしている画像ブロックの比率を確定する。前記比率が所定の比率よりも大きい場合、文字の画像ブロックに占める面積が所定の要求を満たしていることを指示する指示情報を生成して、複数の画像ブロックに対して回転処理を行う。別のいくつかの実施形態において、前記比率が前記所定の比率以下である場合、文字の画像ブロックに占める面積が所定の要求を満たしていないことを指示する指示情報を生成する。

異なるタイプのテキストの占める面積が異なり、例えば、句読符号の占める面積が一般的にキャラクターの占める面積よりも小さいので、単一の画像ブロックにおける文字の占める面積が所定の要求を満たしているかのみに基づくと、正確な判断を行えないことがあり、被処理文字画像の対応する全ての画像ブロックにおいて文字の対応する画像ブロックに占める面積が所定の要求を満たしている状況を統計して、画像ブロックに対して形態変換処理を行うかを確定することで、正確率を更に向上させることができる。

別のいくつかの実現形態において、文字の対応する画像ブロックに占める面積が所定の要求を満たしているかは、文字の対応する画像ブロックに占める面積が所定の面積閾値を満たしていること等を含むが、本開示の実施例はその具体的な実現を限定しない。

いくつかの実現形態において、ニューラルネットワークが入力される画像ブロックに対して画像ブロックの透視変換情報、９０度の整数倍を表す画像ブロック回転情報及び画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達するかを指示する指示情報を出力する場合、ニューラルネットワークの一例として図２に示すように、図２におけるニューラルネットワークは、入力される画像ブロックの画像特徴を提出するように構成される共有ニューラルネットワーク２００と、画像ブロックの透視変換情報を出力するための第１ブランチ２１０と、９０度の整数倍を表す画像ブロック回転情報を出力するように構成される第２ブランチ２２０と、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達するかを指示する指示情報を出力するための第３ブランチ２３０と、を含み、その中の共有ニューラルネットワーク２００が画像ブロックから提出した画像特徴は、それぞれ第１ブランチ２１０、第２ブランチ２２０及び第３ブランチ２３０に提供される。

本開示の実施例におけるニューラルネットワークは、様々な形態で実現されてよい。いくつかの実現形態において、上記ニューラルネットワークは、畳み込みニューラルネットワークであってよいが、本願では前記畳み込みニューラルネットワークの具体的なネットワーク構造が制限されない。例えば、前記畳み込みニューラルネットワークは、畳み込み層、非線形Ｒｅｌｕ層、プーリング層及び全結合層等を含むが、それらに限定されなく、それに含まれる層数が多いほど、ネットワークが深い。別の例として、前記畳み込みニューラルネットワークのネットワーク構造は、ＡＬｅｘＮｅｔ、デプスレジデュアルネットワーク（ＤｅｅｐＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、ＲｅｓＮｅｔ）又はＶＧＧｎｅｔ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐＮｅｔｗｏｒｋ、視覚幾何学グループネットワーク）等のニューラルネットワークに用いられるネットワーク構造を採用してよいが、それらに限定されない。

畳み込みニューラルネットワークの一例として図３に示すように、図３におけるニューラルネットワークは、共有ニューラルネットワークに属する第１畳み込み層（即ち図３におけるｃｏｎｖ１）、第１畳み込み層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ１）、第１プーリング層（即ち図３におけるｐｏｏｌ１）、第２畳み込み層（即ち図３におけるｃｏｎｖ２）、第２畳み込み層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ２）、第２プーリング層（即ち図３におけるｐｏｏｌ２）、第３畳み込み層（即ち図３におけるｃｏｎｖ３）、第３畳み込み層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ３）、第４畳み込み層（即ち図３におけるｃｏｎｖ４）及び第４畳み込み層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ４）と、第１ブランチに属する第５畳み込み層（即ち図３におけるｃｏｎｖ５）、第５畳み込み層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ５）、第６全結合層（即ち図３におけるｆｃ６）、第６全結合層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ６）、第７全結合層（即ち図３におけるｆｃ７）及び第７全結合層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ７）と、第２ブランチに属する第５畳み込み層（即ち図３におけるｃｏｎｖ５＿ｒｏｔ）、第５畳み込み層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ＿ｃｏｎｖ５＿ｒｏｔ）、第６全結合層（即ち図３におけるｆｃ６＿ｒｏｔ）、第６全結合層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ＿ｆｃ６＿ｒｏｔ）、第７全結合層（即ち図３におけるｆｃ７＿ｒｏｔ）及び第７全結合層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ＿ｆｃ７＿ｒｏｔ）と、第３ブランチに属する第５畳み込み層（即ち図３におけるｃｏｎｖ５＿ｃｌｓ）、第５畳み込み層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ＿ｃｏｎｖ５＿ｃｌｓ）、第６全結合層（即ち図３におけるｆｃ６＿ｃｌｓ）、第６全結合層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ＿ｆｃ６＿ｃｌｓ）、第７全結合層（即ち図３におけるｆｃ７＿ｃｌｓ）及び第７全結合層のＲｅｌｕ層（即ち図３におけるｒｅｌｕ＿ｆｃ７＿ｃｌｓ）を含む。

本願の実施例におけるニューラルネットワークは、複数の訓練データを含む訓練データセットによって首尾よく訓練されたニューラルネットワークである。訓練データセットにおける訓練データは、画像ブロックサンプル及び画像ブロックサンプルの形態変換ラベリング情報を含み、いくつかの実現形態において、画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報を更に含む。例えば、訓練データは、画像ブロックサンプルの透視変換ラベリング情報、９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報及び画像ブロックサンプルにおける文字の占める面積と前記画像ブロックサンプルの面積との比率が既定の比率に達するかを指示するラベリング情報を含む。訓練データセットによってニューラルネットワークを訓練する過程については、下記図４についての記述を参照されたい。ここで、詳しく説明しない。

Ｓ１２０において、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う。

いくつかの実現形態において、画像ブロック形態変換情報が画像ブロックの透視変換情報及び９０度の整数倍を表す画像ブロック回転情報を含み、且つ被処理文字画像に基づいて発生した文字を含む少なくとも１つの画像ブロックが１つの画像ブロックである場合、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う１つの実現形態は、下記のことを含む。

まず、９０度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して９０度の整数倍の回転処理（例えば、逆回転処理）を行って、回転処理後の被処理文字画像を得る。

その後、画像ブロックの透視変換情報に基づいて透視変換行列を確定する。例示的に、画像ブロックの透視変換情報は頂点座標の変位量を含んでよく、透視変換行列は前記変位量に基づいて得られるものであり、画像における各点の位置を変化させることができる。

最後、前記透視変換行列によって回転処理後の被処理文字画像に対して透視変換を行い、形態変換処理後の文字画像を得る。例えば、透視変換のされた文字画像は、被処理文字画像の対応する形態変換処理後の文字画像である。

別のいくつかの実現形態において、画像ブロック形態変換情報が画像ブロックの透視変換情報及び９０度の整数倍を表す画像ブロック回転情報を含み、且つ被処理文字画像に基づいて発生した文字を含む少なくとも１つの画像ブロックが複数の画像ブロックである場合、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う１つの実現形態は、下記のことを含む。

まず、画像ブロック形態変換情報は複数の画像ブロックにおける一部を含み又は画像ブロックの各々の対応する９０度の整数倍を表す画像ブロック回転情報は確率値を含み、前記確率値がニューラルネットワークにより出力され、或いは他の形態で得られたものであるが、本開示の実施例はこれを限定しない。選択的に、前記確率値は、画像ブロックが対応角度の回転処理のされた確率、又は画像ブロックが対応角度の回転処理のされた信頼性等を表す。複数の画像ブロックの画像ブロック回転情報から確率値が最大となる９０度の整数倍を表す画像ブロック回転情報を確定し、例えば、１番目の画像ブロックの時計回り／反時計回りに１８０度回転することを表す確率値が０．６であり、２番目の画像ブロックの時計回り／反時計回りに９０度回転することを表す確率値が０．６５である場合、２番目の画像ブロックの９０度の整数倍を表す画像ブロック回転情報を選用する。

その後、上記確定された確率値が最大となる９０度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して９０度の整数倍の回転処理を行う（例えば、対応角度の正向又は逆回転処理を行う）。

次に、画像ブロック形態変換情報は、更に、複数の画像ブロックにおける一部を含み又は画像ブロックの各々の対応する画像ブロックの透視変換情報を含む。画像ブロックの各々の透視変換情報に対してそれぞれ透視変換行列を計算して、複数の画像ブロックの対応する透視変換行列に基づいて透視変換平均行列を計算し、前記透視変換平均行列は、画像ブロックが透視変換に基づいて回転するようにすることに用いられ、且つ透視変換に基づいた前記回転の角度が一般的に９０度よりも小さい。

最後、計算された透視変換平均行列によって上記回転処理後の被処理文字画像に対して透視変換を行い、被処理文字画像の対応する形態変換処理後の文字画像を得る。

別のいくつかの実現形態において、画像ブロック形態変換情報が画像ブロックの透視変換情報、９０度の整数倍を表す画像ブロック回転情報及び画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報を含み、且つ被処理文字画像に基づいて発生した文字を含む少なくとも１つの画像ブロックが１つの画像ブロックである場合、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う１つの実現形態は、下記のことを含む。

まず、画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報に基づいて、画像ブロックにおける文字の占める面積が所定の要求を満たしているかを確定し、いくつかの実現形態において、前記指示情報がニューラルネットワークにより出力され又は他の形態で得られたものであるが、本開示の実施例はこれに限定されない。例えば、指示情報が画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率に達するかを指示すると仮定し、指示情報が画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が既定の比率を超えることを指示するかを判断し、画像ブロックにおける文字の占める面積が所定の要求を満たしているという判断結果となる場合、９０度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して９０度の整数倍の回転処理を行い、その後、画像ブロックの透視変換情報に基づいて透視変換行列を確定して、前記透視変換行列によって回転処理後の被処理文字画像に対して透視変換を行う。選択的に、画像ブロックにおける文字の占める面積が所定の要求を満たしていない判断結果となる場合、画像ブロックの透視変換情報及び９０度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して形態変換処理を行う工程を実行しない。

別のいくつかの実現形態において、画像ブロック形態変換情報が画像ブロックの透視変換情報、９０度の整数倍を表す画像ブロック回転情報及び画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報を含み、且つ被処理文字画像に基づいて発生した文字を含む少なくとも１つの画像ブロックが複数の画像ブロックである場合、画像ブロック形態変換情報は、複数の画像ブロックにおける画像ブロックの全て又は一部の対応する指示情報を含む。画像ブロック形態変換情報が複数の画像ブロックにおける画像ブロックの各々の対応する指示情報を含むと仮定し、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う１つの実現形態は、下記のことを含む。

まず、画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する全ての指示情報において、つまり複数の画像ブロックの対応する指示情報において、画像ブロックにおける文字の占める面積が所定の要求を満たしていることを指示する指示情報が存在するか、つまり対応する画像ブロックにおける文字が前記対応する画像ブロックに占める面積が所定の要求を満たしていることを指示する第１指示情報が存在するかを判断し、例えば、指示情報が画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が０．３に等しい既定の比率に達するかを指示する場合、ニューラルネットワークの出力した全ての指示情報において、画像ブロックにおける文字の占める面積と前記画像ブロックの面積との比率が０．３を超えることを指示する指示情報が存在するかを判断する。

選択的に、画像ブロックにおける文字の前記画像ブロックに占める面積が所定の要求を満たしていることを指示する指示情報（つまり第１指示情報）が存在する判断結果となる場合、ニューラルネットワークの画像ブロックの各々に対して出力した９０度の整数倍を表す画像ブロック回転情報の対応する確率値から、確率値が最大となる９０度の整数倍を表す画像ブロック回転情報を確定する。例えば、１番目の画像ブロックの時計回り／反時計回りに１８０度回転することを表す確率値が０．６であり、２番目の画像ブロックの時計回り／反時計回りに９０度回転することを表す確率値が０．６５である場合、２番目の画像ブロックの９０度の整数倍を表す画像ブロック回転情報の確率値が最大であると確定する。また、ニューラルネットワークの画像ブロックの各々に対して出力した画像ブロックの透視変換情報に基づいて透視変換行列を計算して、全ての透視変換行列に基づいて透視変換平均行列を計算する。確率値が最大となる９０度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して９０度の整数倍の回転処理を行い、選択的に、確率値が対応角度の回転処理のされたことを表す場合、被処理文字画像に対して対応角度の逆回転処理を行うことができるが、本開示の実施例はこれに限定されなく、また計算された透視変換平均行列によって上記回転処理後の被処理文字画像に対して透視変換を行い、被処理文字画像の対応する形態変換処理後の文字画像を得る。

選択的に、画像ブロックにおける文字の前記画像ブロックに占める面積が所定の要求を満たしていることを指示する第１指示情報が存在しない判断結果となる場合、画像ブロックの透視変換情報及び９０度の整数倍を表す画像ブロック回転情報に基づいて被処理文字画像に対して形態変換処理を行う工程を実行しない。

Ｓ１３０において、形態変換後の被処理文字画像に対して文字認識を行う。

いくつかの実現形態において、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学的キャラクター認識）技術等によって、上記形態変換後の被処理文字画像に対して文字認識処理を行ってよいが、本願の実施例は文字認識の具体的な実現形態を制限しない。

選択的に、Ｓ１３０における文字認識は、被処理文字画像における文字内容を確定すること、又は被処理文字画像に対してテキスト検出を行ってテキスト検出結果に基づいて被処理文字画像における文字内容を確定することを含んでよいが、本開示の実施例はこれを限定しない。

本開示の実施例において、画像ブロックの文字方向の所定方向への調整によって、転倒又は傾斜した文字を正すことができる。ファクシミリ、手持型機器で撮影した画像又は写真の画像における文字に対しては、傾斜又は転倒する現象が現れる可能性がある。傾斜又は転倒した文字を直接認識すれば、誤り率が低いという問題につながる。本開示の実施例において、画像ブロックにおける文字の方向を矯正して、テキストを規定される所定の方向に向かせることで、文字の向きの問題による低認識率の問題を低減し、画像における文字の認識率を向上する。

本願は、ニューラルネットワークによって画像ブロックにおける文字方向を所定方向に転換するための画像ブロック形態変換情報を取得することで、ニューラルネットワークの出力した画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を便利で快速に行って、形態変換処理後の被処理文字画像における文字方向を所定方向（例えば、水平方向）にすることができ、これにより、文字方向が傾斜することで文字画像の文字認識の正確率に影響を与える現象を効果的に避けることができる。

本願の文字画像処理の技術案は、文字認識の正確率の向上に有利である。待処理画像から認識された文字は、情報検索、画像分類及び読取り支援等の適用に用いられることができ、本願は具体的な適用状況を制限しない。

図４は、本願の実施例におけるニューラルネットワークに対する訓練方法のフローチャートである。図４に示すように、前記文字画像処理方法は、工程Ｓ４００、工程Ｓ４１０及び工程Ｓ４２０を含む。以下、図４における各工程を詳しく説明する。

Ｓ４００において、訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得する。

いくつかの実現形態において、訓練データセットには、ニューラルネットワークを訓練するための複数の訓練データを含み、選択的に、訓練データが画像ブロックサンプル及び画像ブロックサンプルの形態変換ラベリング情報等を含む。本願の実施例において、ランダムに読み取るように、又は訓練データの配列順序によって順次に読み取るように、毎回ごとに訓練データセットから１つ又は複数の訓練データを読み取る。訓練データセットにおける訓練データの生成形態としては、図５についての下記記述通りであってよいが、それに限定されなく、ここで、詳しく説明しない。

いくつかの実現形態において、訓練データにおける画像ブロックサンプルの形態変化ラベリング情報は、画像ブロックサンプルの透視変換ラベリング情報及び／又は９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報を含み、例えば、画像ブロックサンプルの少なくとも１つの頂点（例えば、４つの頂点）の透視座標変換ラベリング情報及び９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報を含む。

Ｓ４１０において、被訓練のニューラルネットワークに基づいて、画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得する。

いくつかの実現形態において、上記取得した画像ブロックサンプルをニューラルネットワークに提供して、ニューラルネットワークの出力した情報に基づいて、画像ブロックサンプル形態変換情報を取得する。前記画像ブロックサンプル形態変換情報は、画像ブロックサンプルにおける文字方向を所定方向（例えば、水平方向等）に転換させることに用いられる。選択的に、ニューラルネットワークは、共有ニューラルネットワーク、第１ブランチ及び第２ブランチを含み、又は、共有ニューラルネットワーク、第１ブランチ、第２ブランチ及び第３ブランチを含む。又は、前記ニューラルネットワークは、共有ニューラルネットワーク及び第１ブランチを含み、又は、共有ニューラルネットワーク及び第２ブランチを含む。

Ｓ４２０において、被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と形態変換ラベリング情報との間の誤差を小さくするように、画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、被訓練のニューラルネットワークに対して教師あり学習を行う。

いくつかの実現形態において、訓練データにおける画像ブロックサンプルの形態変化ラベリング情報が画像ブロックサンプルの透視変換ラベリング情報及び９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報を含む（つまりニューラルネットワークが少なくとも共有ニューラルネットワーク、第１ブランチ及び第２ブランチを含む）場合、選択的に、まず、画像ブロックサンプルの透視変換ラベリング情報をガイド情報として、ニューラルネットワークの共有ニューラルネットワーク及び第１ブランチに対して教師あり学習を行い、第１ブランチの訓練が終了した後で、共有ニューラルネットワーク及び第１ブランチのネットワークパラメータ（例えば、加重値等）を固定して、９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として、ニューラルネットワークの第２ブランチに対して教師あり学習を行い、第２ブランチの訓練が終了した後で、前記被訓練のニューラルネットワークの訓練は終了する。訓練が終了したニューラルネットワークは、上記被処理文字画像の形態変換処理を行う適用に用いられることができる。

別のいくつかの実現形態において、訓練データにおける画像ブロックサンプルの形態変化ラベリング情報が画像ブロックサンプルの透視変換ラベリング情報、９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報及び画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報を含む（つまりニューラルネットワークが共有ニューラルネットワーク、第１ブランチ、第２ブランチ及び第３ブランチを含む）場合、選択的に、まず、画像ブロックサンプルの透視変換ラベリング情報をガイド情報として、ニューラルネットワークの共有ニューラルネットワーク及び第１ブランチに対して教師あり学習を行い、第１ブランチの訓練が終了した後で、共有ニューラルネットワーク及び第１ブランチのネットワークパラメータ（例えば、加重値等）を固定して、９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として、ニューラルネットワークの第２ブランチに対して教師あり学習を行い、第２ブランチの訓練が終了した後で、画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報をガイド情報として、ニューラルネットワークの第３ブランチに対して教師あり学習を行い、第３ブランチの訓練が終了した後で、前記ニューラルネットワークの訓練は終了する。訓練して得られたニューラルネットワークは、上記被処理文字画像に対して形態変換処理を行う適用に用いられることができる。

特に説明すべきなのは、上記選択可能な一例において、第２ブランチ及び第３ブランチの訓練過程の前後順次については、特に限定されなく、つまり第１ブランチの訓練が終了した後で、第２ブランチを訓練してから第３ブランチを訓練してもよいし、第３ブランチを訓練してから第２ブランチを訓練してもよいことである。また、本願の実施例は、第１ブランチ及び第２ブランチに対して訓練を行う場合、用いられる訓練データにおける画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしているかを指示するラベリング情報は第１ラベリング情報であり、第１ラベリング情報は画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしていることを指示するが、第３ブランチに対して訓練を行う場合、画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしていることを指示するラベリング情報を含む訓練データ、及び画像ブロックサンプルにおける文字の占める面積が所定の要求を満たしていないことを指示するラベリング情報を含む訓練データを採用する。

選択的に、本願の実施例におけるニューラルネットワークの共有ニューラルネットワーク、第１ブランチ及び第２ブランチに対して訓練を行うための訓練データの取得は、文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、形態変換処理によって形態変換ラベリング情報を確定して、形態変換ラベリング情報によって訓練データを形成して、訓練データセットに添加することを含む。図５は、本願の実施例における訓練データセットにおける訓練データを形成するフローチャートである。図５に示すように、前記文字画像処理方法は、工程Ｓ５００、工程Ｓ５１０及び工程Ｓ５２０を備える。以下、図５における各工程を詳しく説明する。

Ｓ５００において、文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して透視変換処理を行う。

いくつかの実現形態において、文字画像サンプルにおける文字方向は水平方向であり、例えば、文字画像サンプルは基本的に水平方向である複数の文字段落を含む。本願の実施例において、選択的に、ランダムに発生した透視変換行列に基づいて、文字画像サンプル全体に対して透視変換処理を行ってもよいし、文字画像サンプルの一部の領域に対して透視変換処理を行ってもよく、例えば、透視変換処理を行う領域の辺長が文字画像サンプルの長辺の５分の１を超えない。これにより、前記領域に対して透視変換処理を行うことで、透視変換処理後の領域における文字を水平方向との夾角が既定度数（例えば、３０度等）より小さい非水平方向にする。

Ｓ５１０において、透視変換処理後の領域から文字の占める面積が所定の要求を満たしている画像サンプルブロック（例えば正方形の画像ブロックサンプル）を切り出して、画像サンプルブロックに対してランダムな９０度の整数倍の回転を行う。

いくつかの実現形態において、透視変換処理後の領域から切り出された画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率は既定の比率に達するべきであり、例えば、比率は０．３を超えるべきである。一例において、透視変換処理後の領域の中心を画像サンプルブロックの中心として、辺長が前記領域の辺長よりも小さい正方形の画像サンプルブロックを切り出す。本開示の実施例において、一定の回転方向に従って画像サンプルブロックに対してランダムな９０度の整数倍の回転を行い、例えば、時計回り／反時計回りの回転方向に従って画像サンプルブロックに対してランダムな９０度の整数倍の回転を行う。また、選択的に、文字画像サンプルの二値行列によって、切り出された画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率が既定の比率に達するかを確定することができ、既定の比率に達していない場合、切り出された画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率が既定の比率に達するようにするために、切り出し位置を調整してよい。上記二値行列は、文字画像サンプルにおける文字領域及び非文字領域を区別することに用いられる。

Ｓ５２０において、透視変換処理に用いられる透視変換行列に基づいて画像サンプルブロックの頂点の透視座標変換ラベリング情報を確定して、ランダムな９０度の整数倍の回転に基づいて９０度の整数倍を表す画像ブロック回転ラベリング情報を確定する。

いくつかの実現形態において、透視変換処理に用いられる透視変換行列に基づいて画像サンプルブロックの４つの頂点の透視座標変換ラベリング情報を確定し、選択的に、画像サンプルブロック、画像サンプルブロックの４つの頂点の透視座標変換ラベリング情報及び９０度の整数倍を表す画像ブロック回転ラベリング情報を１つの訓練データとして訓練データセットに添加してよい。又は、画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率を訓練データの一部としてもよい。

いくつかの実現形態において、第３ブランチに対して訓練を行う過程において、用いられる全て訓練データには、画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率が既定の比率に達する訓練データも含まれるし、画像サンプルブロックにおける文字の占める面積と画像サンプルブロックの面積との比率が既定の比率に達していない訓練データも含まれる。

選択的に、上記訓練方法で訓練して得られたニューラルネットワークは、文字画像処理方法における画像ブロックに対して処理を行って、画像ブロックの画像ブロック形態変換情報を得ることに用いられる。

図６は、本願の実施例で提供される文字画像処理装置の構造模式図である。図６に示すように、前記文字画像処理装置は、画像ブロック取得モジュール６００、変換情報取得モジュール６１０、変換処理モジュール６２０及び文字認識モジュール６３０を含む。いくつかの実現形態において、前記文字画像処理装置は、占有情報取得モジュール６４０、サンプル取得モジュール６５０、サンプル変換情報取得モジュール６６０、教師あり学習モジュール６７０及びラベリングモジュール６８０を更に含む。

画像ブロック取得モジュール６００は、被処理文字画像における文字を含む少なくとも１つの画像ブロックを取得するように構成される。画像ブロック取得モジュール６００の実行する具体的な操作については、Ｓ１００についての上記記述を参照してよいので、ここで繰り返して説明しない。

変換情報取得モジュール６１０は、ニューラルネットワークに基づいて、画像ブロックの画像ブロック形態変換情報を取得するように構成される。画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定方向（例えば、水平方向）に転換することに用いられ、且つ本願におけるニューラルネットワークは、下記ニューラルネットワークの訓練装置が形態変換ラベリング情報を有する画像ブロックサンプルによって訓練して得られたものである。変換情報取得モジュール６１０の実行する具体的な操作については、Ｓ１１０についての上記記述を参照してよいので、ここで繰り返して説明しない。

変換処理モジュール６２０は、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行うように構成される。いくつかの実現形態において、本願の装置が占有情報取得モジュール６４０を含む場合、前記変換処理モジュール６２０は、画像ブロックにおける文字の占める面積が所定の要求を満たしているかを指示する指示情報が文字の対応する画像ブロックに占める面積が所定の要求を満たしている状況で、画像ブロック形態変換情報に基づいて前記被処理文字画像に対して形態変換処理を行うが、そうでなければ、画像ブロック形態変換情報に基づいて被処理文字画像に対して形態変換処理を行う工程を実行しないように構成される。変換処理モジュール６２０の実行する具体的な操作については、上記Ｓ１２０における関連記述を参照してよいので、ここで繰り返して説明しない。

文字認識モジュール６３０は、形態変換後の被処理文字画像に対して文字認識を行うように構成される。文字認識モジュール６３０は、ＯＣＲ技術等によって、上記形態変換後の被処理文字画像に対して文字認識処理を行うことができる。

占有情報取得モジュール６４０は、ニューラルネットワークに基づいて、文字の対応する画像ブロックに占める面積が所定の要求を満たしているかを指示する指示情報を取得するように構成される。占有情報取得モジュール６４０の実行する具体的な操作については、上記Ｓ１２０における関連記述を参照してよいので、ここで繰り返して説明しない。

サンプル取得モジュール６５０は、訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得するように構成される。サンプル取得モジュール６５０の実行する具体的な操作については、上記Ｓ４００における関連記述を参照してよいので、ここで繰り返して説明しない。

サンプル変換情報取得モジュール６６０は、被訓練のニューラルネットワークに基づいて、画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得することに用いられ、その中の画像ブロックサンプル形態変換情報は、画像ブロックサンプルにおける文字方向を所定方向（例えば、水平方向）に転換させることに用いられる。サンプル変換情報取得モジュール６６０の実行する具体的な操作については、上記Ｓ４１０における関連記述を参照してよいので、ここで繰り返して説明しない。

教師あり学習モジュール６７０は、主に、被訓練のニューラルネットワークの出力した画像ブロックサンプル形態変換情報と形態変換ラベリング情報との間の誤差を小さくするように、画像ブロックサンプルの形態変換ラベリング情報をガイド情報として、被訓練のニューラルネットワークに対して教師あり学習を行うことに用いられる。教師あり学習モジュール６７０の実行する具体的な操作については、上記Ｓ４２０における関連記述を参照してよいので、ここで繰り返して説明しない。

ラベリングモジュール６８０は、文字方向が所定方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行って、形態変換処理に基づいて形態変換ラベリング情報を確定することに用いられる。ラベリングモジュール６８０の実行する具体的な操作については、上記図５についての記述を参照してよいので、ここで繰り返して説明しない。

図７は、本願の実施例で提供されるニューラルネットワークの訓練装置の構造模式図である。図７に示すように、前記文字画像処理装置は、主に、サンプル取得モジュール６５０と、サンプル変換情報取得モジュール６６０と、教師あり学習モジュール６７０と、を含み、いくつかの実現形態において、ラベリングモジュール６８０を更に含む。前記装置における各モジュールの実行する操作については、上記文字画像処理装置及び方法の実施形態における記述を参照してよいので、ここで繰り返して説明しない。

図８は本願の技術的手段を実現するのに適する例示的装置８００を示し、装置８００は自動車に配置されるコントロールシステム／電子システム、携帯端末（例えば、スマートフォン等）、パーソナルコンピュータ（ＰＣ；例えば、デスクトップコンピュータ又はノートパソコン等）、タブレット型コンピュータ及びサーバ等であってよい。図８において装置８００は１つ又は複数のプロセッサ、通信部などを含み、前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）８０１、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）８１３などであり、プロセッサは、読み取り専用メモリ（ＲＯＭ）８０２に記憶された実行可能コマンド又は記憶部８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部８１２はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでよいが、それに限定されない。プロセッサは読み取り専用メモリ８０２及び／又はランダムアクセスメモリ８０３と通信して実行可能コマンドを実行し、通信バス８０４を介して通信部８１２に接続され、通信部８１２を介して他のターゲットデバイスと通信してよく、それにより本願の方法の実施形態における対応のステップを完成する。

また、ＲＡＭ８０３には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。ＣＰＵ８０１、ＲＯＭ８０２及びＲＡＭ８０３は、通信バス８０４を介して相互に接続される。ＲＡＭ８０３を有する場合に、ＲＯＭ８０２は選択可能なモジュールである。ＲＡＭ８０３は実行可能コマンドを格納するか、または動作時に実行可能コマンドをＲＯＭ８０２に書き込み、実行可能コマンドによって中央処理ユニット８０１に上記物体分割方法に含まれるステップを実行させる。入力／出力（Ｉ／Ｏ）インタフェース８０５も通信バス８０４に接続される。通信部８１２は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、それぞれバスに接続されるように設置されてもよい。

キーボード、マウスなどを含む入力部８０６と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部８０７と、ハードディスクなどを含む記憶部８０８と、ＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部８０９とがＩ／Ｏインタフェース８０５に接続されている。通信部８０９は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ８１０も必要に応じてＩ／Ｏインタフェース８０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体８１１は、必要に応じてドライブ８１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部８０８にインストールする。

なお、図８に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図８の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてよく、通信部は分離設置するか、またはＣＰＵやＧＰＵに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

特に、本願の実施形態によれば、以下フローチャートを参照しながら記載するプロセスはコンピュータソフトウェアプログラムとして実現でき、例えば、本願の実施形態はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示すステップを実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願により提供されるステップを対応して実行する対応のコマンドを含んでよい。

このような実施形態では、該コンピュータプログラムは通信部８０９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体８１１からインストールされ得る。中央処理ユニット（ＣＰＵ）８０１によって該コンピュータプログラムを実行する時に、本願に記載された上記コマンドを実行する。

本願の方法及び装置、電子機器並びにコンピュータ読取可能記憶媒体は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置、電子機器並びにコンピュータ読取可能記憶媒体を実現することができる。方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施形態では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。

本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施形態は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施形態を設計可能にするように選択され説明されたものである。

Claims

文字画像処理方法であって、
処理対象の文字画像における文字を含む少なくとも１つの画像ブロックを取得することと、
ニューラルネットワークに基づいて、前記少なくとも１つの画像ブロックの各々の画像ブロック形態変換情報を取得することであって、前記画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定の方向に転換させるために用いられ、前記ニューラルネットワークは、画像特徴を抽出するように構成されている共有ニューラルネットワークと、前記画像ブロックの透視変換情報を出力するように構成されている第１のブランチと、９０度の整数倍を表す画像ブロック回転情報を出力するように構成されている第２のブランチとを含み、前記共有ニューラルネットワークの出力端は、前記第１のブランチの入力端および前記第２のブランチの入力端にそれぞれ接続されている、ことと、
前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うことと、
前記形態変換が行われた処理対象の前記文字画像に対して文字認識を行うことと
を含む文字画像処理方法。
前記画像ブロックは、所定の大きさを有する正方形の画像ブロックである、請求項１に記載の文字画像処理方法。
処理対象の文字画像における文字を含む少なくとも１つの画像ブロックを取得することは、
処理対象の前記文字画像に対して切断処理を行うことにより、処理対象の前記文字画像における前記文字を含む前記少なくとも１つの画像ブロックを取得すること、または、
処理対象の前記文字画像に対して補填処理を行うことにより、処理対象の前記文字画像の全体を含む前記少なくとも１つの画像ブロックを取得すること
を含む、請求項１または請求項２に記載の文字画像処理方法。
処理対象の前記文字画像に対して切断処理を行うことにより、処理対象の前記文字画像における前記文字を含む前記少なくとも１つの画像ブロックを取得することは、
処理対象の前記文字画像の中心位置を中心とし、処理対象の前記文字画像の短辺を辺長として、処理対象の前記文字画像から１つの画像ブロックを切断することを含む、請求項３に記載の文字画像処理方法。
前記画像ブロック形態変換情報は、
前記画像ブロックの透視変換情報、
９０度の整数倍を表す画像ブロック回転情報、
のうちの少なくとも１つを含む、請求項１〜４の何れか１項に記載の文字画像処理方法。
前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことは、
前記画像ブロック回転情報に従って、処理対象の前記文字画像に対して９０度の整数倍の回転処理を行うことと、
前記透視変換情報に従って、透視変換行列を決定することと、
前記透視変換行列を用いることによって、回転された文字画像に対して透視変換を行うことと
を含む、請求項５に記載の文字画像処理方法。
前記少なくとも１つの画像ブロックが複数の画像ブロックである場合において、
前記画像ブロック回転情報に従って、処理対象の前記文字画像に対して９０度の整数倍の回転処理を行うことは、
前記複数の画像ブロックにおける各画像ブロックの前記画像ブロック回転情報の確率値を取得することと、
前記複数の画像ブロックの複数の画像ブロック回転情報の中から、最大の確率値を有する画像ブロック回転情報を選択することと、
前記選択された画像ブロック回転情報に従って、前記複数の画像ブロックに対して９０度の整数倍の回転処理を行うことと
を含む、請求項６に記載の文字画像処理方法。
前記少なくとも１つの画像ブロックが複数の画像ブロックである場合において、
前記透視変換情報に従って、透視変換行列を決定すること、および、前記透視変換行列を用いることによって、処理対象の回転された文字画像に対して透視変換を行うことは、
前記複数の画像ブロックにおける各画像ブロックの前記透視変換情報に従って、各画像ブロックの透視変換行列を決定することと、
各画像ブロックの前記透視変換行列に従って、透視変換平均行列を決定することと、
前記透視変換平均行列を用いることによって、前記複数の回転された画像ブロックに対して透視変換を行うことと
を含む、請求項６または請求項７に記載の文字画像処理方法。
前記文字画像処理方法は、前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することを更に含み、
前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うことは、
前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていることを前記指示情報が示す場合において、前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことを含む、請求項１〜８の何れか１項に記載の文字画像処理方法。
前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていないことを前記指示情報が示す場合において、前記画像ブロック形態変換情報に従って、処理対象の前記文字画像に対して形態変換処理を行うことが実行されない、請求項９に記載の文字画像処理方法。
前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することは、
前記ニューラルネットワークに基づいて、前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することを含む、請求項９に記載の文字画像処理方法。
前記画像ブロックにおける前記文字によって占められる面積が所定の要求を満たしているかを示す指示情報を取得することは、
前記少なくとも１つの画像ブロックが複数の画像ブロックである場合において、前記複数の画像ブロックの各々における前記文字によって占められる面積が所定の要求を満たしているかを決定することと、
前記複数の画像ブロックにおいて前記文字によって占められる面積が前記所定の要求を満たしている画像ブロックの比率を決定することと、
前記比率が所定の比率よりも大きい場合、前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていることを示す指示情報を生成することと
を含む、請求項１０に記載の文字画像処理方法。
前記文字画像処理方法は、
前記比率が前記所定の比率以下である場合、前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしていないことを示す指示情報を生成することを更に含む、請求項１２に記載の文字画像処理方法。
ニューラルネットワーク訓練過程は、
訓練データセットから形態変換ラベリング情報を有する画像ブロックサンプルを取得することと、
訓練対象のニューラルネットワークに基づいて、前記画像ブロックサンプルの画像ブロックサンプル形態変換情報を取得することであって、前記画像ブロックサンプル形態変換情報は、前記画像ブロックサンプルにおける文字方向を所定の方向に転換させるために用いられる、ことと、
訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことと
を含む、請求項１に記載の文字画像処理方法。
訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことは、
前記第１のブランチによって出力された前記画像ブロックサンプルの透視変換情報と前記画像ブロックサンプルの透視変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報における透視変換ラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける画像特徴を抽出するように構成されている前記共有ニューラルネットワークおよび前記画像ブロックサンプルの透視変換情報を出力するように構成されている前記第１のブランチに対して教師あり学習を行うことと、
前記第２のブランチによって出力された９０度の整数倍を表す前記画像ブロックサンプル回転情報と９０度の整数倍を表す前記画像ブロックサンプル回転ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワークの訓練および前記第１のブランチの訓練が終了した後で、前記共有ニューラルネットワークのネットワークパラメータおよび前記第１のブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける９０度の整数倍を表す画像ブロックサンプル回転情報を出力するように構成されている前記第２のブランチに対して教師あり学習を行うことと
を含む、請求項１４に記載の文字画像処理方法。
訓練対象の前記ニューラルネットワークによって出力された前記画像ブロックサンプル形態変換情報と前記形態変換ラベリング情報との間の誤差を小さくするように、前記画像ブロックサンプルの形態変換ラベリング情報をガイド情報として用いることによって、訓練対象の前記ニューラルネットワークに対して教師あり学習を行うことは、
第３のブランチによって出力された前記指示情報と前記画像ブロックサンプルにおける前記文字によって占められる面積が前記所定の要求を満たしているかを示す前記ラベリング情報との間の誤差を小さくするように、前記共有ニューラルネットワークの訓練および前記第１のブランチの訓練が終了した後で、前記共有ニューラルネットワークのネットワークパラメータおよび前記第１のブランチのネットワークパラメータをそのまま保持する状況で、前記形態変換ラベリング情報における前記画像ブロックサンプルにおける前記文字によって占められる面積が前記所定の要求を満たしているかを表すラベリング情報をガイド情報として用いることによって、前記ニューラルネットワークにおける前記画像ブロックにおける前記文字によって占められる面積が前記所定の要求を満たしているかを示す指示情報を出力するように構成されている前記第３のブランチに対して教師あり学習を行うことを更に含む、請求項１５に記載の文字画像処理方法。
形態変換ラベリング情報を有する画像ブロックサンプルを取得することは、
文字方向が所定の方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行うことと、
前記形態変換処理に従って、前記形態変換ラベリング情報を決定することと
を含む、請求項１〜１６の何れか１項に記載の文字画像処理方法。
前記文字方向が所定の方向である文字画像サンプルにおける少なくとも一部の領域に対して形態変換処理を行うこと、および、前記形態変換処理に従って、前記形態変換ラベリング情報を決定することは、
前記文字方向が前記所定の方向である前記文字画像サンプルにおける前記少なくとも一部の領域に対して透視変換処理を行うことと、
透視変換処理が行われた前記領域から、前記文字によって占められる面積が所定の要求を満たしている画像サンプルブロックを捕捉することと、
９０度のランダムな整数倍だけ前記画像サンプルブロックを回転させることと、
前記透視変換処理に用いられる透視変換行列に従って、前記画像サンプルブロックの透視変換ラベリング情報を決定することと、
９０度の前記ランダムな整数倍の回転に従って、９０度の整数倍を表す画像ブロックサンプル回転ラベリング情報を決定することと
を含む、請求項１７に記載の文字画像処理方法。
文字画像処理装置であって、
処理対象の文字画像における文字を含む少なくとも１つの画像ブロックを取得するように構成されている画像ブロック取得モジュールと、
ニューラルネットワークに基づいて、前記少なくとも１つの画像ブロックの各々の画像ブロック形態変換情報を取得するように構成されている変換情報取得モジュールであって、前記画像ブロック形態変換情報は、画像ブロックにおける文字方向を所定の方向に転換させるために用いられ、前記ニューラルネットワークは、画像特徴を抽出するように構成されている共有ニューラルネットワークと、前記画像ブロックの透視変換情報を出力するように構成されている第１のブランチと、９０度の整数倍を表す画像ブロック回転情報を出力するように構成されている第２のブランチとを含み、前記共有ニューラルネットワークの出力端は、前記第１のブランチの入力端および前記第２のブランチの入力端にそれぞれ接続されている、変換情報取得モジュールと、
前記画像ブロック形態変換情報に従って、前記文字画像に対して形態変換処理を行うように構成されている変換処理モジュールと、
前記形態変換が行われた処理対象の前記文字画像に対して文字認識を行うように構成されている文字認識モジュールと
を含む文字画像処理装置。
電子機器であって、
コンピュータプログラムを記憶するように構成されている記憶器と、
前記記憶器に記憶されている前記コンピュータプログラムを実行するように構成されているプロセッサであって、前記コンピュータプログラムが実行されると、請求項１〜１８の何れか１項に記載の文字画像処理方法における処理が実現される、プロセッサと
を含む電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項１〜１８の何れか１項に記載の文字画像処理方法における処理が実現される、コンピュータ読み取り可能な記憶媒体。
コンピュータ命令を含むコンピュータプログラムであって、前記コンピュータ命令が機器のプロセッサにおいて実行されると、請求項１〜１８の何れか１項に記載の文字画像処理方法における処理が実現される、コンピュータプログラム。