JP2021197190A

JP2021197190A - 光学文字識別方法、装置、電子デバイス及び記憶媒体

Info

Publication number: JP2021197190A
Application number: JP2021099856A
Authority: JP
Inventors: エン，メンイ; Mengyi En; リウ，シャンシャン; Shanshan Liu; リ，スアン; Xuan Li; チャン，チェンクァン; Chengquan Zhang; スー，ハイルン; Hailun Xu; チャン，シャオチャン; Xiaoqiang Zhang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2021-06-16
Publication date: 2021-12-27
Anticipated expiration: 2041-06-16
Also published as: US20210390296A1; EP3926526A3; EP3926526A2; JP7217313B2; CN111860479A; CN111860479B; KR20210156228A; US11694461B2

Abstract

【課題】人工知能の分野およびディープラーニングの分野において識別速度等を向上させる光学文字識別方法、装置、電子デバイス及び記憶媒体を提供する。【解決手段】方法は、識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、囲み枠に基づいて識別すべきピクチャからテキスト領域ピクチャを抽出し、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、囲み枠に基づいてテキスト領域ピクチャからテキスト行ピクチャを抽出し、テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る。【選択図】図１

Description

本開示は、コンピュータ応用技術に関し、特に人工知能及びディープラーニング分野における光学文字識別方法、装置、電子デバイス及び記憶媒体に関する。

光学文字識別（OCR、Optical Character Recognition）技術は、証明書識別などの産業界で広く利用されている。現在のOCRの実現方法は一般的に複雑であり、識別速度が遅いなどの原因となっている。

本開示は、光学文字識別方法、装置、電子デバイス、及び記憶媒体を提供する。

識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、前記囲み枠に従って前記識別すべきピクチャからテキスト領域ピクチャを抽出し、
前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、前記囲み枠に基づいて前記テキスト領域ピクチャからテキスト行ピクチャを抽出し、
前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る、ことを含む光学文字識別方法を提供する。

第1ピクチャ処理モジュール、第2ピクチャ処理モジュール及びテキスト識別モジュールとを備え、前記第1ピクチャ処理モジュールは、識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、前記囲み枠に基づいて前記識別すべきピクチャからテキスト領域ピクチャを抽出し、前記第2ピクチャ処理モジュールは、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、前記囲みに基づいて前記テキスト領域ピクチャからテキスト行ピクチャを抽出し、前記テキスト識別モジュールは、前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る光学文字識別装置を提供する。

少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記の方法を実行させる電子デバイスを提供する。

コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

前述の開示の一実施形態は、以下の利点または有益な効果を有する。即ち、まず識別すべきピクチャに対してテキスト領域の抽出を行い、その後にテキスト領域からさらにテキスト行を抽出し、さらにテキスト行に対してテキストシーケンス識別を行って識別結果を得ることにより、高い識別精度を保証する前提で、論理が簡単で、計算量が小さいなどの特徴があるため、識別速度を向上させ、GPUやCPUなどの各種計算環境下で動作することができ、広範な適用性を有する。理解すべきなのは、この部分で説明される内容は、本開示の実施形態の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本発明をよりよく理解するためのものであり、本開示を限定するものではない。ここで、
本開示に記載の光学文字識別方法の一実施形態のフローチャートである。本開示に記載の光学文字識別方法の全体的な実現プロセスの概略図である。本開示に記載の光学文字識別装置の実施形態30の構造の概略図である。本発明の実施形態に記載の方法による電子デバイスのブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

また、理解すべきなのは、本願中の専門語である「及び/又は」は、関連対象を描画する関連関係に過ぎず、三つの関係がある可能性を示す。例えば、A及び/又はBは、Aだけが存在すること、AとBが同時に存在すること、Bだけが存在する、という三つの状況を示すことができる。また、本願中の文字である「/」は、一般的に、前後の関連対象が「又は」の関係を有すると示す。

図1は、本開示に記載の光学文字識別方法の実施形態のフローチャートである。図1に示すように、以下の具体的な実現形態を含む。

101では、識別すべきピクチャに対してテキスト領域の囲み枠を確定し、囲み枠に基づいて識別すべきピクチャからテキスト領域ピクチャを抽出する。

102では、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、囲みに基づいてテキスト領域ピクチャからテキスト行ピクチャを抽出する。

103では、テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る。

前記方法は、論理が簡単で計算量が少ないなどの特徴があり、識別速度を向上させると共に、グラフィックスプロセッサ（GPU、Graphics Processing Unit）や中央処理装置（CPU、Central Processing U nit）などの様々な計算環境で動作することができ、広範な適用性がある。

テキスト領域ピクチャにおけるテキスト行の囲み枠を確定する前に、テキスト領域ピクチャの調整方式を確定し、確定された調整方式に従ってテキスト領域ピクチャをサイズ調整してもよい。

実際の応用では、識別すべきピクチャから1つのテキスト領域を確定することもあり、複数のテキスト領域を確定することもある。複数のテキスト領域である場合に、各テキスト領域を同様に処理してもよい。

同一のピクチャにおいて、テキストのサイズが非常に大きく変化する可能性がある。サイズが大きすぎたり小さすぎたりするテキストについて、単一モデルや単一スケールの検出では、テキスト行全体を正確に検出することが困難になることが多い。従来の処理方式では、1枚の入力ピクチャに対して、まずそれをいくつかの異なるサイズに比例してスケーリングし、スケーリングされたピクチャをそれぞれテキスト検出器に入力して検出し、最後に非極大値抑制（NMS、Non Maximum Suppression）などの後処理メカニズムにより、異なる入力サイズでの検出結果を統合して最終的な検出結果を得る。この方法は、異なるサイズのスケーリングを経て、各テキスト行が少なくとも1回、テキスト検出器で検出するのに適したサイズにスケーリングされるという仮定に基づいている。しかし、この処理方法には少なくとも次のような問題がある。即ち、1）複数の異なるサイズの入力全体図を処理する必要があり、全体図レベルの計算量はかなり多いであるため、効率が低いであり、且つスケーリングサイズの選択が適切でない場合、テキスト行は適切なサイズにスケーリングされておらず、計算リソースの浪費を招くことになる。2）同一のテキスト行に対して、複数のサイズでテキスト検出器に検出された場合、どの結果を残すかを一定の事前規則で選択する必要があるが、このような人工で設計された事前規則はロバスト性が悪く、精度の損失などを招くことが多い。

上記の問題に対して、本実施形態では、識別すべきピクチャを事前に訓練された軽量テキストスケールの事前判定モデルに入力して出力されたシングルチャネルのテキスト領域マスク（TM、Text Mask）グラフおよびテキストスケール（TS、Text Scale）グラフを得ることができる。ここで、テキスト領域マスクグラフにおける各画素点の値は、それぞれ対応する画素点がテキスト領域に属する確率を表し、テキストスケールグラフにおける各画素点の値は、それぞれ対応する画素点が属するテキスト行の最短辺のサイズと、予め設定された最適サイズとの比を表し、テキスト行の辺は幅と高さを含む。一般的に、幅よりも高さの方がサイズが小さい。従って、テキスト領域マスクグラフから識別すべきピクチャにおけるテキスト領域の囲み枠を確定し、テキストスケールグラフからテキスト領域ピクチャの調整方法を確定して良い。

軽量テキストスケールの事前判定モデルは、入力されたピクチャに対して特徴抽出を行う第1特徴抽出モジュールと、特徴抽出結果に基づいてテキスト領域マスクグラフを生成する第1予測モジュールと、特徴抽出結果に基づいてテキストスケールグラフを生成する第2予測モジュールとを備えて良い。

軽量テキストスケールの事前判定モデルは、フル畳み込みネットワークであって良い。第1特徴抽出モジュールは、小型の畳み込みニューラルネットワーク（CNN、Convolutional Neural Network）であってよい。第1特徴抽出モジュールの特徴抽出結果に基づいて、第1予測モジュールはピクチャ内のテキスト領域を分割し、第2予測モジュールは各テキスト領域におけるテキスト行の最短辺のサイズと予め設定された最適サイズとの比（スケール）を予測することができる。第1予測モジュールおよび第2予測モジュールには、それぞれ3つの畳み込み層が含まれてよい。したがって、軽量テキストスケールの事前判定モデルの最終的な出力は、テキスト領域マスクグラフとテキストスケールグラフという2つの単一チャネルの分割グラフである。テキスト領域マスクグラフでは、各画素点の値は、対応する画素点がテキスト領域に属する確率をそれぞれ表し、前記確率は0〜1の間の値であって良い。テキストスケールグラフでは、各画素点の値は、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比をそれぞれ表す。

訓練段階では、テキスト領域マスクグラフについては、背景領域である非テキスト領域における各画素点の値を0とし、テキスト領域における各画素点の値を1として良い。テキストスケールグラフについては、各画素点の値を、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比とする。最適サイズは、スーパーパラメータであって良いが、実際の必要に応じて具体的な値を指定することができる。損失関数の選択に関して、第1予測モジュールは、dice-lossを選択し、第2予測モジュールは、smooth-L1 lossを選択することができる。

予測段階において、識別すべきピクチャを軽量テキストスケールの事前判定モデルに入力して出力されたテキスト領域マスクグラフとテキストスケールグラフが得られる。その後、連続領域分析により、テキスト領域マスクグラフ内のすべてのテキスト連続領域を確定することができる。各テキスト連続領域はそれぞれ単独のテキスト領域を表す。いずれかのテキスト連続領域について、すなわち、テキスト連続領域毎に、識別すべきピクチャにおいて当該テキスト連続領域を含む最小の矩形を、当該テキスト連続領域に対応するテキスト領域の囲み枠としてそれぞれ確定し、さらに、前記囲み枠に基づいて識別すべきピクチャからテキスト領域ピクチャを抽出することができる。

テキスト領域ピクチャ毎に、このテキスト領域ピクチャの中の各画素点のテキストスケールグラブにおける値をそれぞれ確定することができる。このテキスト領域ピクチャにおける各画素点は、テキストスケールグラフにおける値が同じであり、すなわち、本実施形態では、同じテキスト領域における各テキスト行のサイズが同じであると仮定し、同じテキスト領域における各テキスト行の高さのサイズが同じであるように、高さのサイズは、一般的に幅よりも小さい。そこで、各テキスト領域ピクチャに応じた調整方法は、調整後のテキスト行の最短辺のサイズが前記最適サイズに等しくなるように、当該テキスト領域ピクチャの縦横比を保持したまま、当該テキスト領域ピクチャの幅および高さのサイズを調整することであって良い。

上記の処理方法により、軽量テキストスケール事前判定モデルから出力されたテキスト領域マスクグラフとテキストスケールグラフに基づいて、識別すべきピクチャにおけるテキスト領域を迅速かつ正確に確定し、且つテキスト領域のピクチャのサイズを適切なサイズに直接調整することができるため、後続の処理が容易になり、後続の処理結果の正確性が向上し、従来の方法でピクチャを複数の異なるサイズに拡大/縮小することによる非効率や精度の損失などの問題を回避することができる。

テキスト領域ピクチャ毎に、当該テキスト領域ピクチャにおける各テキスト行の囲み枠をそれぞれ確定し、前記囲み枠に基づいてテキスト領域ピクチャから各テキスト行ピクチャを抽出することができる。

テキスト領域ピクチャを予め訓練して得られた軽量テキスト検出モデルに入力し、出力されたシングルチャネルのテキスト中心線（TCL、Text Center Line）応答グラフおよび4チャネルのテキスト境界領域オフセット（TBO、Text Border Offset）グラフを得ることができる。ここで、テキスト中心線応答グラフにおける各画素点の値は、それぞれ対応する画素点がテキスト行中心線領域に属する確率を表し、テキスト境界領域オフセットグラフにおける各画素点の値は、水平方向および垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離と、所属するテキスト行の下境界までの距離をそれぞれ表す。

軽量テキスト検出モデルは、入力されたピクチャに対して特徴抽出を行う第2特徴抽出モジュールと、特徴抽出結果に基づいてテキスト中心線応答グラフを生成する第3予測モジュールと、特徴抽出結果に基づいてテキスト境界領域オフセットグラフを生成する第4予測モジュールとを備えて良い。

軽量テキスト検出モデルは、既存の単発任意形状テキスト（SAST、Single-Shot Arbitrarily-Shaped Text）モデルに基づいて適切に簡略化されたものであってもよい。そのうち、第2特徴抽出モジュールは、Resnet-18のような軽量なディープ残差ネットワークを採用することにより、特徴抽出の計算量をできるだけ低減すると共に、SASTの4つの予測ブランチを2つのブランチ、すなわち上記の第3予測モジュールと第4予測モジュールに簡略化することができる。第3予測モジュールと第4予測モジュールはそれぞれ4つの畳み込み層を含むことができる。したがって、軽量テキスト検出モデルはフル畳み込みネットワークであり、最終的な出力にテキスト中心線応答グラフとテキスト境界領域オフセットグラフが含まれる。テキスト中心線応答グラフは、シングルチャンネルであり、そのうちの各画素点の値がそれぞれ対応する画素点がテキスト行の中心線領域に属する確率を表す。前記確率は、0から1の間の値であって良い。テキスト境界領域オフセットグラフは4チャンネルであり、そのうちの各画素点の値が水平方向および垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離と、所属するテキスト行の下境界までの距離をそれぞれ表す。つまり、いずれかの画素点の値について、対応する画素点から所属するテキスト行の上境界までの水平距離、所属するテキスト行の上境界までの垂直距離、所属するテキスト行の下境界までの水平距離、及び所属するテキスト行の下境界までの垂直距離をそれぞれ表す。

訓練段階では、SASTの構成を踏襲することができる。テキスト中心線応答グラフはdice-lossを用いて監視し、テキスト境界領域オフセットグラフはsmooth-L1 lossを用いて監視することができる。

予測段階では、テキスト領域ピクチャを軽量テキスト検出モデルに入力し、出力されたテキスト中心線応答グラフおよびテキスト境界領域オフセットグラフを得た後、テキスト中心線応答グラフおよびテキスト境界領域オフセットグラフと組み合わせて、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することができる。好ましくは、テキスト中心線応答グラフに対して連続領域の分析を行うことにより、各テキスト行の中心線を確定し、各中心線について、中心線上の画素点のテキスト境界領域オフセットグラフにおける値等と組み合わせて、その中心線に対応するテキスト行の囲み枠をそれぞれ確定し、前記囲み枠をテキスト領域ピクチャに対応付け、更に前記囲み枠に基づいてテキスト領域ピクチャからテキスト行ピクチャを抽出することができる。

以上の処理方式により、軽量テキスト検出モデルが出力するテキスト中心線応答グラフおよびテキスト境界領域オフセットグラフに基づいて、テキスト領域ピクチャにおけるテキスト行を迅速かつ正確に確定することができ、しかも、取得した各テキスト領域ピクチャに対して並列に処理を行うことにより、処理速度をさらに向上させることができる。

取得された各テキスト行ピクチャについて、それぞれテキストシーケンス識別を行って識別結果を得ることができる。好ましくは、テキスト行ピクチャを予め訓練された軽量テキストシーケンス識別モデルに入力して出力された識別結果を得ることができる。具体的には、入力されたテキスト行ピクチャに対して、軽量テキストシーケンス識別モデルは、まず特徴抽出畳み込みネットワークを経てテキスト行ピクチャの特徴を得、さらに、この特徴をいくつかのフレームにシーケンス化した後、双方向ゲーティングループユニット（GRU、Gated Recurrent Unit）に入力して各フレームに対してそれぞれ分類予測などを行うことができる。具体的な実現は従来技術である。訓練段階では、典型的なctc lossを用いてテキストシーケンス識別を監視することができる。

軽量テキストシーケンス識別モデルの上記構成に対して、特徴抽出の部分に関する畳み込みネットワークの計算量はモデル全体の計算量の大部分を占めるため、モデルの計算オーバヘッドを低くするために、より軽量な特徴抽出畳み込みネットワーク構成を採用することができる。

本実施形態では、従来の人工によるネットワーク構造の設計を放棄し、自動機械学習（AutoML、Automated Machine Learning）技術を用い、自動探索の方式でネットワーク構造を得ることができる。すなわち、軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造を自動機械学習のモデル探索方式を用いて確定することができる。

具体的に、ネットワーク探索タスク全体を、ネットワーク構成を予測可能な循環型ニューラルネットワーク（RNN、Recurrent Neural Network）コントローラにより制御することができ、強化学習によりモデル精度と予測時間を共に訓練目標として当該コントローラを最適化し、当該コントローラにより最適なネットワーク構造を選択する。探索空間では、特徴抽出畳み込みネットワーク全体をいくつかのサブモジュールに分割することができ、モデルの軽量化を考慮してサブモジュールの数を3とすることができる。各サブモジュールの構造は同じであり、各サブモジュールはいくつかの層から構成され、各層は畳み込み、プール化、ショートカット（shortcut）接続などの複数の演算子から構成されることができる。これにより、このネットワーク探索タスクの探索空間には、各サブモジュールで使用される層の具体的な構成（演算子の選択や接続方法など）、及び各サブモジュールに含まれる層の数などが含まれる。

上記の方式は、人工によるネットワーク構造の設計方法よりも、人的コストを大幅に削減することができ、しかも、より高い精度を有する。また、精度が保証されているため、テキストシーケンス識別を行う際に、簡単な時系列分類（CTC、Connectionist Temporal Classification）復号論理を用いてテキスト識別復号を行うことにより、実現の複雑度を低減し、さらに処理速度などを向上させることができる。

上述の説明に基づいて、図2は本開示に記載された光学文字識別方法の全体的な実現過程の概略図であり、具体的な実現は前述の関連説明を参照でき、ここで詳しく説明しない。

以上から、本実施形態では、軽量テキストスケール事前判定モデル+軽量テキスト検出モデル+軽量テキストシーケンス識別モデル等からなる軽量汎用光学文字識別方法を提案し、高い識別精度を保証する前提で、論理が簡単で、計算量が小さいなどの特徴があるため、識別速度を高め、GPU及びCPUなどの各種の計算環境において動作することができ、広範な適用性があるなどの特徴がある。

説明すべきなのは、前記の方法実施例について、説明を簡単にするために、一連の動作の組合せとして記述された。しかし、当業者であればわかるように、本願により幾つかのステップが他の順番を採用し、或いは同時に実行可能であるため、本願は説明された動作の順番に限定されない。次に、当業者であればわかるように、明細書に説明された実施例は何れも好適な実施例であり、関わる動作とモジュールが必ずしも本願に必要なものではない。

以上は、方法の実施形態に関する説明であり、以下で装置の実施形態により本開示に記載された態様をさらに説明する。

図3は、本開示に記載の光学文字識別装置の実施形態30の構成の概略図である。図3に示すように、第1ピクチャ処理モジュール301と、第2ピクチャ処理モジュール302と、テキスト識別モジュール303とが備えられる。

第1ピクチャ処理モジュール301は、識別すべきピクチャに対してテキスト領域の囲み枠を確定し、囲み枠に基づいて識別すべきピクチャからテキスト領域ピクチャを抽出する。

第2ピクチャ処理モジュール302は、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、囲み枠に基づいてテキスト領域ピクチャからテキスト行ピクチャを抽出する。

テキスト識別モジュール303は、テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る。

第1ピクチャ処理モジュール301は、抽出されたテキスト領域ピクチャに対して、更にテキスト領域ピクチャの調整方式を確定し、確定された調整方式に従ってテキスト領域ピクチャに対してサイズ調整を行っても良い。

第1ピクチャ処理モジュール301は、識別すべきピクチャを事前に訓練された軽量テキストスケール事前判定モデルに入力して、出力されたシングルチャネルのテキスト領域マスクグラフおよびテキストスケールグラフを得ることができる。ここで、テキスト領域マスクグラフにおける各画素点の値は、対応する画素点がテキスト領域に属する確率をそれぞれ表し、テキストスケールグラフにおける各画素点の値は、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比をそれぞれ表す。さらに、第1ピクチャ処理モジュール301は、テキスト領域マスクグラフから識別すべきピクチャにおけるテキスト領域の囲み枠を確定し、テキストスケールグラフからテキスト領域ピクチャの調整方法を確定してもよい。

具体的には、第1ピクチャ処理モジュール301は、連続領域分析によりテキスト領域マスクグラフにおけるテキスト連続領域を確定し、いずれかのテキスト連続領域について、識別すべきピクチャにおける当該テキスト連続領域を含む最小の矩形を、当該テキスト連続領域に対応するテキスト領域の囲み枠としてそれぞれ確定してもよい。

第1ピクチャ処理モジュール301は、更に、いずれのテキスト領域ピクチャについて、そのテキスト領域ピクチャにおける各画素点のテキストスケールグラフにおける値をそれぞれ確定しても良い。そのテキスト領域ピクチャにおける各画素点のテキストスケールグラフにおける値は、同じである。それに応じて、確定された当該テキスト領域ピクチャの調整方法は、当該テキスト領域ピクチャの縦横比を保持したまま、調整後のテキスト行の最短辺のサイズが最適サイズに等しくなるように、当該テキスト領域ピクチャの幅及び高さのサイズを調整することを含むことができる。

軽量テキストスケール事前判定モデルは、入力されたピクチャに対して特徴抽出を行う第1特徴抽出モジュールと、特徴抽出結果に基づいてテキスト領域マスクグラフを生成する第1予測モジュールと、特徴抽出結果に基づいてテキストスケールグラフを生成する第2予測モジュールとを備えて良い。

第2ピクチャ処理モジュール302は、テキスト領域ピクチャを事前に訓練された軽量テキスト検出モデルに入力して、出力されたシングルチャネルのテキスト中心線応答グラフおよび4チャネルのテキスト境界領域オフセットグラフを得ることができる。ここで、テキスト中心線応答グラフにおける各画素点の値は、対応する画素点がテキスト行中心線領域に属する確率をそれぞれ表し、テキスト境界領域オフセットグラフにおける各画素点の値は、水平方向および垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離と、所属するテキスト行の下境界までの距離をそれぞれ表す。それに応じて、第2ピクチャ処理モジュール302は、テキスト中心線応答グラフおよびテキスト境界領域オフセットグラフを組み合わせて、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することができる。

具体的には、第2ピクチャ処理モジュール302は、テキスト中心線応答グラフに対して連続領域分析を行うことにより、各テキスト行の中心線を確定し、いずれかの中心線について、その中心線上の画素点のテキスト境界領域オフセットグラフにおける値をそれぞれ組み合わせてその中心線に対応するテキスト行の囲み枠を確定し、前記囲み枠をテキスト領域ピクチャに対応付けて良い。

テキスト識別モジュール303は、テキスト行ピクチャを予め訓練された軽量テキストシーケンス識別モデルに入力して、出力された識別結果を得ることができる。ここで、軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造は、自動機械学習のモデル探索方式を用いて確定することができる。

図3に示された装置の実施形態の具体的なワークフローは、前述の方法の実施形態の関連説明を参照でき、これ以上言及されない。

要約すると、本発明の装置の実施形態に記載の態様によれば、軽量テキストスケール事前判定モデル+軽量テキスト検出モデル+軽量テキストシーケンス識別モデルなどからなる軽量汎用光学文字識別方式を用いて光学文字識別を行うことができ、高い識別精度を保証する前提で、論理が簡単で、計算量が小さいなどの特徴があるため、識別速度を高め、GPUとCPUなどの各種の計算環境において動作することができ、広範な適用性などがある。また、軽量テキストスケール事前判定モデルに基づいて出力されるテキスト領域マスクグラフおよびテキストスケールグラフに基づいて、識別すべきピクチャにおけるテキスト領域を迅速かつ正確に確定し、更にテキスト領域ピクチャのサイズを適切なサイズに直接調整することができるので、後続の処理を便利にし、後続の処理結果の正確性を高め、従来の方式でピクチャを複数の異なるサイズに拡大/縮小することによる非効率及び精度の損失などの問題を回避することができる。また、軽量テキスト検出モデルから出力されたテキスト中心線応答グラフ及びテキスト境界領域オフセットグラフに基づいて、テキスト領域ピクチャにおけるテキスト行を迅速かつ正確に確定することができ、しかも、取得された各テキスト領域ピクチャに対して並列に処理を行うことができるので、処理速度をさらに向上させることができる。また、自動機械学習のモデル探索方式を用いて軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造を確定することができ、従来の人工によるネットワーク構造の設計方式を放棄するため、人的コストを大幅に低減し、より高い精度などを有する。

本発明の実施形態によれば、本発明は更に電子デバイスおよび可読記憶媒体を提供する。

図4は、本発明の実施形態に記載の方法による電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本開示の実現を限定することが意図されない。

図4に示すように、この電子デバイスは、一つ又は複数のプロセッサY01、メモリY02、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図4において、一つのプロセッサY01を例とする。

メモリY02は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供された方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供された方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリY02は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例における方法に対応するプログラムコマンド/ユニットを記憶するために用いられる。プロセッサY01は、メモリY02に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における方法を実現する。

メモリY02は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリY02は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリY02は、プロセッサY01に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

電子デバイスは、更に、入力装置Y03と出力装置Y04とを備えても良い。プロセッサY01、メモリY02、入力装置Y03及び出力装置Y04は、バス又は他の手段により接続されても良く、図4においてバスによる接続を例とする。

入力装置Y03は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置Y04は、表示装置、補助照明装置、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ、発光ダイオードディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ブラウン管又は液晶ディスプレイモニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク、ワイド・エリア・ネットワーク、ブロックチェーンネットワーク、インターネットを含む。

コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとVPSサービスに存在する管理の難易度が高く、ビジネスの拡張性が弱いという欠点を解決した。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

光学文字識別方法であって、
識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、前記囲み枠に基づいて前記識別すべきピクチャからテキスト領域ピクチャを抽出し、
前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、前記囲み枠に基づいて前記テキスト領域ピクチャからテキスト行ピクチャを抽出し、
前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る、
ことを含む方法。
前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定する前に、前記テキスト領域ピクチャの調整方法を確定し、確定された調整方法に従って前記テキスト領域ピクチャに対してサイズ調整を行うことをさらに含む、
請求項1に記載の方法。
前記識別すべきピクチャを事前に訓練された軽量テキストスケール事前判定モデルに入力し、出力されたシングルチャネルのテキスト領域マスクグラフおよびテキストスケールグラフを得ることを更に含み、
前記テキスト領域マスクグラフにおける各画素点の値は、対応する画素点がテキスト領域に属する確率をそれぞれ表し、前記テキストスケールグラフにおける各画素点の値は、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比をそれぞれ表し、
前記テキスト領域の囲み枠を確定することは、前記テキスト領域マスクグラフから前記識別すべきピクチャにおけるテキスト領域の囲み枠を確定することを含み、
前記テキスト領域ピクチャの調整方法を確定することは、前記テキストスケールグラフから前記テキスト領域ピクチャの調整方法を確定することを含む、
請求項2に記載の方法。
前記テキスト領域マスクグラフから前記識別すべきピクチャにおけるテキスト領域の囲み枠を確定することは、
連続領域分析により前記テキスト領域マスクグラフにおけるテキスト連続領域を確定し、
いずれかのテキスト連続領域について、前記識別すべきピクチャにおける前記テキスト連続領域を含む最小の矩形を、前記テキスト連続領域に対応するテキスト領域の囲み枠としてそれぞれ確定する、
ことを含む請求項3に記載の方法。
前記テキストスケールグラフから前記テキスト領域ピクチャの調整方法を確定することは、
いずれかのテキスト領域ピクチャについて、前記テキスト領域ピクチャにおける各画素点の前記テキストスケールグラフにおける値をそれぞれ確定し、前記テキスト領域ピクチャにおける各画素点の前記テキストスケールグラフにおける値が同一であることを含み、
前記テキスト領域ピクチャの調整方法は、前記テキスト領域ピクチャの縦横比を保持した前提で、調整後のテキスト行の最短辺のサイズが前記最適サイズとなるように、前記テキスト領域ピクチャの縦横のサイズを調整することを含む、
請求項3に記載の方法。
前記軽量テキストスケール事前判定モデルは、入力されたピクチャに対して特徴抽出を行う第1特徴抽出モジュールと、特徴抽出結果に基づいて前記テキスト領域マスクグラフを生成する第1予測モジュールと、特徴抽出結果に基づいて前記テキストスケールグラフを生成する第2予測モジュールと、を備える、
請求項3に記載の方法。
前記テキスト領域ピクチャを事前に訓練された軽量テキスト検出モデルに入力し、出力されたシングルチャネルのテキスト中心線応答グラフおよび4チャネルのテキスト境界領域オフセットグラフを得ることを更に含み、
前記テキスト中心線応答グラフにおける各画素点の値は、対応する画素点がテキスト行中心線領域に属する確率をそれぞれ表し、前記テキスト境界領域オフセットグラフにおける各画素点の値は、水平方向及び垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離、及び所属するテキスト行の下境界までの距離をそれぞれ表し、
前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することは、前記テキスト中心線応答グラフと前記テキスト境界領域オフセットグラフとを組み合わせて、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することを含む、
請求項1に記載の方法。
前記テキスト中心線応答グラフおよび前記テキスト境界領域オフセットグラフとを組み合わせて、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することは、
前記テキスト中心線応答グラフに対して連続領域分析を行うことにより各テキスト行の中心線を確定し、
いずれかの中心線について、前記中心線上の画素点の前記テキスト境界領域オフセットグラフにおける値をそれぞれ組み合わせて前記中心線に対応するテキスト行の囲み枠を確定し、前記囲み枠を前記テキスト領域ピクチャに対応させる、
ことを含む請求項7に記載の方法。
前記軽量テキスト検出モデルは、入力されたピクチャに対して特徴抽出を行う第2特徴抽出モジュールと、特徴抽出結果に基づいて前記テキスト中心線応答グラフを生成する第3予測モジュールと、特徴抽出結果に基づいて前記テキスト境界領域オフセットグラフを生成する第4予測モジュールと、を備える、
請求項7に記載の方法。
前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得ることは、前記テキスト行ピクチャを事前に訓練された軽量テキストシーケンス識別モデルに入力して出力された識別結果を得ることを含み、前記軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造は、自動機械学習のモデル探索方式を用いて確定される、
請求項1に記載の方法。
第1ピクチャ処理モジュールと、第2ピクチャ処理モジュールと、テキスト識別モジュールとを備える光学文字識別装置であって、
前記第1ピクチャ処理モジュールは、識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、前記囲み枠に基づいて前記識別すべきピクチャからテキスト領域ピクチャを抽出し、
前記第2ピクチャ処理モジュールは、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、前記囲み枠に基づいて前記テキスト領域ピクチャからテキスト行ピクチャを抽出し、
前記テキスト識別モジュールは、前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る、
装置。
前記第1ピクチャ処理モジュールは、さらに、前記テキスト領域ピクチャの調整方法を確定し、確定された調整方法に従って前記テキスト領域ピクチャに対してサイズ調整を行う、
請求項11に記載の装置。
前記第1ピクチャ処理モジュールは、さらに、前記識別すべきピクチャを事前に訓練された軽量テキストスケール事前判定モデルに入力し、出力されたシングルチャネルのテキスト領域マスクグラフおよびテキストスケールグラフを得、
前記テキスト領域マスクグラフにおける各画素点の値は、対応する画素点がテキスト領域に属する確率をそれぞれ表し、前記テキストスケールグラフにおける各画素点の値は、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比をそれぞれ表し、
前記第1ピクチャ処理モジュールは、前記テキスト領域マスクグラフから前記識別すべきピクチャにおけるテキスト領域の囲み枠を確定し、前記テキストスケールグラフから前記テキスト領域ピクチャの調整方法を確定する、
請求項12に記載の装置。
前記第1ピクチャ処理モジュールは、連続領域分析により前記テキスト領域マスクグラフにおけるテキスト連続領域を確定し、いずれかのテキスト連続領域について、前記識別すべきピクチャにおける前記テキスト連続領域を含む最小の矩形を、前記テキスト連続領域に対応するテキスト領域の囲み枠としてそれぞれ確定する、
請求項13に記載の装置。
前記第1ピクチャ処理モジュールは、いずれかのテキスト領域ピクチャについて、前記テキスト領域ピクチャにおける各画素点の前記テキストスケールグラフにおける値をそれぞれ確定し、前記テキスト領域ピクチャにおける各画素点の前記テキストスケールグラフにおける値は同じであり、
前記テキスト領域ピクチャの調整方法は、前記テキスト領域ピクチャの縦横比を保持した前提で、調整後のテキスト行の最短辺のサイズが前記最適サイズとなるように、前記テキスト領域ピクチャの縦横のサイズを調整することを含む、
請求項13に記載の装置。
前記軽量テキストスケール事前判定モデルは、入力されたピクチャに対して特徴抽出を行う第1特徴抽出モジュールと、特徴抽出結果に基づいて前記テキスト領域マスクグラフを生成する第1予測モジュールと、特徴抽出結果に基づいて前記テキストスケールグラフを生成する第2予測モジュールと、を備える、
請求項13に記載の装置。
前記第2ピクチャ処理モジュールは、さらに、前記テキスト領域ピクチャを事前に訓練された軽量テキスト検出モデルに入力し、出力されたシングルチャネルのテキスト中心線応答グラフおよび4チャネルのテキスト境界領域オフセットグラフを得、
前記テキスト中心線応答グラフにおける各画素点の値は、対応する画素点がテキスト行中心線領域に属する確率をそれぞれ表し、前記テキスト境界領域オフセットグラフにおける各画素点の値は、水平方向及び垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離、及び所属するテキスト行の下境界までの距離をそれぞれ表し、
前記第2ピクチャ処理モジュールは、前記テキスト中心線応答グラフと前記テキスト境界領域オフセットグラフとを組み合わせて、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定する、
請求項11に記載の装置。
前記第2ピクチャ処理モジュールは、前記テキスト中心線応答グラフに対して連続領域分析を行うことにより、各テキスト行の中心線を確定し、いずれかの中心線について、前記中心線上の画素点の前記テキスト境界領域オフセットグラフにおける値をそれぞれ組み合わせて前記中心線に対応するテキスト行の囲み枠を確定し、前記囲み枠を前記テキスト領域ピクチャに対応させる、
請求項17に記載の装置。
前記軽量テキスト検出モデルは、入力されたピクチャに対して特徴抽出を行う第2特徴抽出モジュールと、特徴抽出結果に基づいて前記テキスト中心線応答グラフを生成する第3予測モジュールと、特徴抽出結果に基づいて前記テキスト境界領域オフセットグラフを生成する第4予測モジュールと、を備える、
請求項17に記載の装置。
前記テキスト識別モジュールは、前記テキスト行ピクチャを事前に訓練された軽量テキストシーケンス識別モデルに入力して出力された識別結果を得、
前記軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造は、自動機械学習のモデル探索方式を用いて確定される、
請求項11に記載の装置。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1〜10のいずれか１項に記載の方法を実行させる電子デバイス。
コンピュータに請求項1〜10のいずれか1項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項1〜10のいずれか1項に記載の方法を実行させるためのプログラム。