JP2021197190A - 光学文字識別方法、装置、電子デバイス及び記憶媒体 - Google Patents

光学文字識別方法、装置、電子デバイス及び記憶媒体 Download PDF

Info

Publication number
JP2021197190A
JP2021197190A JP2021099856A JP2021099856A JP2021197190A JP 2021197190 A JP2021197190 A JP 2021197190A JP 2021099856 A JP2021099856 A JP 2021099856A JP 2021099856 A JP2021099856 A JP 2021099856A JP 2021197190 A JP2021197190 A JP 2021197190A
Authority
JP
Japan
Prior art keywords
text
picture
area
graph
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021099856A
Other languages
English (en)
Other versions
JP7217313B2 (ja
Inventor
エン,メンイ
Mengyi En
リウ,シャンシャン
Shanshan Liu
リ,スアン
Xuan Li
チャン,チェンクァン
Chengquan Zhang
スー,ハイルン
Hailun Xu
チャン,シャオチャン
Xiaoqiang Zhang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021197190A publication Critical patent/JP2021197190A/ja
Application granted granted Critical
Publication of JP7217313B2 publication Critical patent/JP7217313B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】人工知能の分野およびディープラーニングの分野において識別速度等を向上させる光学文字識別方法、装置、電子デバイス及び記憶媒体を提供する。【解決手段】方法は、識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、囲み枠に基づいて識別すべきピクチャからテキスト領域ピクチャを抽出し、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、囲み枠に基づいてテキスト領域ピクチャからテキスト行ピクチャを抽出し、テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る。【選択図】図1

Description

本開示は、コンピュータ応用技術に関し、特に人工知能及びディープラーニング分野における光学文字識別方法、装置、電子デバイス及び記憶媒体に関する。
光学文字識別(OCR、Optical Character Recognition)技術は、証明書識別などの産業界で広く利用されている。現在のOCRの実現方法は一般的に複雑であり、識別速度が遅いなどの原因となっている。
本開示は、光学文字識別方法、装置、電子デバイス、及び記憶媒体を提供する。
識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、前記囲み枠に従って前記識別すべきピクチャからテキスト領域ピクチャを抽出し、
前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、前記囲み枠に基づいて前記テキスト領域ピクチャからテキスト行ピクチャを抽出し、
前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る、ことを含む光学文字識別方法を提供する。
第1ピクチャ処理モジュール、第2ピクチャ処理モジュール及びテキスト識別モジュールとを備え、前記第1ピクチャ処理モジュールは、識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、前記囲み枠に基づいて前記識別すべきピクチャからテキスト領域ピクチャを抽出し、前記第2ピクチャ処理モジュールは、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、前記囲みに基づいて前記テキスト領域ピクチャからテキスト行ピクチャを抽出し、前記テキスト識別モジュールは、前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る光学文字識別装置を提供する。
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上記の方法を実行させる電子デバイスを提供する。
コンピュータに上記の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。
前述の開示の一実施形態は、以下の利点または有益な効果を有する。即ち、まず識別すべきピクチャに対してテキスト領域の抽出を行い、その後にテキスト領域からさらにテキスト行を抽出し、さらにテキスト行に対してテキストシーケンス識別を行って識別結果を得ることにより、高い識別精度を保証する前提で、論理が簡単で、計算量が小さいなどの特徴があるため、識別速度を向上させ、GPUやCPUなどの各種計算環境下で動作することができ、広範な適用性を有する。理解すべきなのは、この部分で説明される内容は、本開示の実施形態の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本発明をよりよく理解するためのものであり、本開示を限定するものではない。ここで、
本開示に記載の光学文字識別方法の一実施形態のフローチャートである。 本開示に記載の光学文字識別方法の全体的な実現プロセスの概略図である。 本開示に記載の光学文字識別装置の実施形態30の構造の概略図である。 本発明の実施形態に記載の方法による電子デバイスのブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
また、理解すべきなのは、本願中の専門語である「及び/又は」は、関連対象を描画する関連関係に過ぎず、三つの関係がある可能性を示す。例えば、A及び/又はBは、Aだけが存在すること、AとBが同時に存在すること、Bだけが存在する、という三つの状況を示すことができる。また、本願中の文字である「/」は、一般的に、前後の関連対象が「又は」の関係を有すると示す。
図1は、本開示に記載の光学文字識別方法の実施形態のフローチャートである。図1に示すように、以下の具体的な実現形態を含む。
101では、識別すべきピクチャに対してテキスト領域の囲み枠を確定し、囲み枠に基づいて識別すべきピクチャからテキスト領域ピクチャを抽出する。
102では、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、囲みに基づいてテキスト領域ピクチャからテキスト行ピクチャを抽出する。
103では、テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る。
前記方法は、論理が簡単で計算量が少ないなどの特徴があり、識別速度を向上させると共に、グラフィックスプロセッサ(GPU、Graphics Processing Unit)や中央処理装置(CPU、Central Processing U nit)などの様々な計算環境で動作することができ、広範な適用性がある。
テキスト領域ピクチャにおけるテキスト行の囲み枠を確定する前に、テキスト領域ピクチャの調整方式を確定し、確定された調整方式に従ってテキスト領域ピクチャをサイズ調整してもよい。
実際の応用では、識別すべきピクチャから1つのテキスト領域を確定することもあり、複数のテキスト領域を確定することもある。複数のテキスト領域である場合に、各テキスト領域を同様に処理してもよい。
同一のピクチャにおいて、テキストのサイズが非常に大きく変化する可能性がある。サイズが大きすぎたり小さすぎたりするテキストについて、単一モデルや単一スケールの検出では、テキスト行全体を正確に検出することが困難になることが多い。従来の処理方式では、1枚の入力ピクチャに対して、まずそれをいくつかの異なるサイズに比例してスケーリングし、スケーリングされたピクチャをそれぞれテキスト検出器に入力して検出し、最後に非極大値抑制(NMS、Non Maximum Suppression)などの後処理メカニズムにより、異なる入力サイズでの検出結果を統合して最終的な検出結果を得る。この方法は、異なるサイズのスケーリングを経て、各テキスト行が少なくとも1回、テキスト検出器で検出するのに適したサイズにスケーリングされるという仮定に基づいている。しかし、この処理方法には少なくとも次のような問題がある。即ち、1)複数の異なるサイズの入力全体図を処理する必要があり、全体図レベルの計算量はかなり多いであるため、効率が低いであり、且つスケーリングサイズの選択が適切でない場合、テキスト行は適切なサイズにスケーリングされておらず、計算リソースの浪費を招くことになる。2)同一のテキスト行に対して、複数のサイズでテキスト検出器に検出された場合、どの結果を残すかを一定の事前規則で選択する必要があるが、このような人工で設計された事前規則はロバスト性が悪く、精度の損失などを招くことが多い。
上記の問題に対して、本実施形態では、識別すべきピクチャを事前に訓練された軽量テキストスケールの事前判定モデルに入力して出力されたシングルチャネルのテキスト領域マスク(TM、Text Mask)グラフおよびテキストスケール(TS、Text Scale)グラフを得ることができる。ここで、テキスト領域マスクグラフにおける各画素点の値は、それぞれ対応する画素点がテキスト領域に属する確率を表し、テキストスケールグラフにおける各画素点の値は、それぞれ対応する画素点が属するテキスト行の最短辺のサイズと、予め設定された最適サイズとの比を表し、テキスト行の辺は幅と高さを含む。一般的に、幅よりも高さの方がサイズが小さい。従って、テキスト領域マスクグラフから識別すべきピクチャにおけるテキスト領域の囲み枠を確定し、テキストスケールグラフからテキスト領域ピクチャの調整方法を確定して良い。
軽量テキストスケールの事前判定モデルは、入力されたピクチャに対して特徴抽出を行う第1特徴抽出モジュールと、特徴抽出結果に基づいてテキスト領域マスクグラフを生成する第1予測モジュールと、特徴抽出結果に基づいてテキストスケールグラフを生成する第2予測モジュールとを備えて良い。
軽量テキストスケールの事前判定モデルは、フル畳み込みネットワークであって良い。第1特徴抽出モジュールは、小型の畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)であってよい。第1特徴抽出モジュールの特徴抽出結果に基づいて、第1予測モジュールはピクチャ内のテキスト領域を分割し、第2予測モジュールは各テキスト領域におけるテキスト行の最短辺のサイズと予め設定された最適サイズとの比(スケール)を予測することができる。第1予測モジュールおよび第2予測モジュールには、それぞれ3つの畳み込み層が含まれてよい。したがって、軽量テキストスケールの事前判定モデルの最終的な出力は、テキスト領域マスクグラフとテキストスケールグラフという2つの単一チャネルの分割グラフである。テキスト領域マスクグラフでは、各画素点の値は、対応する画素点がテキスト領域に属する確率をそれぞれ表し、前記確率は0〜1の間の値であって良い。テキストスケールグラフでは、各画素点の値は、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比をそれぞれ表す。
訓練段階では、テキスト領域マスクグラフについては、背景領域である非テキスト領域における各画素点の値を0とし、テキスト領域における各画素点の値を1として良い。テキストスケールグラフについては、各画素点の値を、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比とする。最適サイズは、スーパーパラメータであって良いが、実際の必要に応じて具体的な値を指定することができる。損失関数の選択に関して、第1予測モジュールは、dice-lossを選択し、第2予測モジュールは、smooth-L1 lossを選択することができる。
予測段階において、識別すべきピクチャを軽量テキストスケールの事前判定モデルに入力して出力されたテキスト領域マスクグラフとテキストスケールグラフが得られる。その後、連続領域分析により、テキスト領域マスクグラフ内のすべてのテキスト連続領域を確定することができる。各テキスト連続領域はそれぞれ単独のテキスト領域を表す。いずれかのテキスト連続領域について、すなわち、テキスト連続領域毎に、識別すべきピクチャにおいて当該テキスト連続領域を含む最小の矩形を、当該テキスト連続領域に対応するテキスト領域の囲み枠としてそれぞれ確定し、さらに、前記囲み枠に基づいて識別すべきピクチャからテキスト領域ピクチャを抽出することができる。
テキスト領域ピクチャ毎に、このテキスト領域ピクチャの中の各画素点のテキストスケールグラブにおける値をそれぞれ確定することができる。このテキスト領域ピクチャにおける各画素点は、テキストスケールグラフにおける値が同じであり、すなわち、本実施形態では、同じテキスト領域における各テキスト行のサイズが同じであると仮定し、同じテキスト領域における各テキスト行の高さのサイズが同じであるように、高さのサイズは、一般的に幅よりも小さい。そこで、各テキスト領域ピクチャに応じた調整方法は、調整後のテキスト行の最短辺のサイズが前記最適サイズに等しくなるように、当該テキスト領域ピクチャの縦横比を保持したまま、当該テキスト領域ピクチャの幅および高さのサイズを調整することであって良い。
上記の処理方法により、軽量テキストスケール事前判定モデルから出力されたテキスト領域マスクグラフとテキストスケールグラフに基づいて、識別すべきピクチャにおけるテキスト領域を迅速かつ正確に確定し、且つテキスト領域のピクチャのサイズを適切なサイズに直接調整することができるため、後続の処理が容易になり、後続の処理結果の正確性が向上し、従来の方法でピクチャを複数の異なるサイズに拡大/縮小することによる非効率や精度の損失などの問題を回避することができる。
テキスト領域ピクチャ毎に、当該テキスト領域ピクチャにおける各テキスト行の囲み枠をそれぞれ確定し、前記囲み枠に基づいてテキスト領域ピクチャから各テキスト行ピクチャを抽出することができる。
テキスト領域ピクチャを予め訓練して得られた軽量テキスト検出モデルに入力し、出力されたシングルチャネルのテキスト中心線(TCL、Text Center Line)応答グラフおよび4チャネルのテキスト境界領域オフセット(TBO、Text Border Offset)グラフを得ることができる。ここで、テキスト中心線応答グラフにおける各画素点の値は、それぞれ対応する画素点がテキスト行中心線領域に属する確率を表し、テキスト境界領域オフセットグラフにおける各画素点の値は、水平方向および垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離と、所属するテキスト行の下境界までの距離をそれぞれ表す。
軽量テキスト検出モデルは、入力されたピクチャに対して特徴抽出を行う第2特徴抽出モジュールと、特徴抽出結果に基づいてテキスト中心線応答グラフを生成する第3予測モジュールと、特徴抽出結果に基づいてテキスト境界領域オフセットグラフを生成する第4予測モジュールとを備えて良い。
軽量テキスト検出モデルは、既存の単発任意形状テキスト(SAST、Single-Shot Arbitrarily-Shaped Text)モデルに基づいて適切に簡略化されたものであってもよい。そのうち、第2特徴抽出モジュールは、Resnet-18のような軽量なディープ残差ネットワークを採用することにより、特徴抽出の計算量をできるだけ低減すると共に、SASTの4つの予測ブランチを2つのブランチ、すなわち上記の第3予測モジュールと第4予測モジュールに簡略化することができる。第3予測モジュールと第4予測モジュールはそれぞれ4つの畳み込み層を含むことができる。したがって、軽量テキスト検出モデルはフル畳み込みネットワークであり、最終的な出力にテキスト中心線応答グラフとテキスト境界領域オフセットグラフが含まれる。テキスト中心線応答グラフは、シングルチャンネルであり、そのうちの各画素点の値がそれぞれ対応する画素点がテキスト行の中心線領域に属する確率を表す。前記確率は、0から1の間の値であって良い。テキスト境界領域オフセットグラフは4チャンネルであり、そのうちの各画素点の値が水平方向および垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離と、所属するテキスト行の下境界までの距離をそれぞれ表す。つまり、いずれかの画素点の値について、対応する画素点から所属するテキスト行の上境界までの水平距離、所属するテキスト行の上境界までの垂直距離、所属するテキスト行の下境界までの水平距離、及び所属するテキスト行の下境界までの垂直距離をそれぞれ表す。
訓練段階では、SASTの構成を踏襲することができる。テキスト中心線応答グラフはdice-lossを用いて監視し、テキスト境界領域オフセットグラフはsmooth-L1 lossを用いて監視することができる。
予測段階では、テキスト領域ピクチャを軽量テキスト検出モデルに入力し、出力されたテキスト中心線応答グラフおよびテキスト境界領域オフセットグラフを得た後、テキスト中心線応答グラフおよびテキスト境界領域オフセットグラフと組み合わせて、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することができる。好ましくは、テキスト中心線応答グラフに対して連続領域の分析を行うことにより、各テキスト行の中心線を確定し、各中心線について、中心線上の画素点のテキスト境界領域オフセットグラフにおける値等と組み合わせて、その中心線に対応するテキスト行の囲み枠をそれぞれ確定し、前記囲み枠をテキスト領域ピクチャに対応付け、更に前記囲み枠に基づいてテキスト領域ピクチャからテキスト行ピクチャを抽出することができる。
以上の処理方式により、軽量テキスト検出モデルが出力するテキスト中心線応答グラフおよびテキスト境界領域オフセットグラフに基づいて、テキスト領域ピクチャにおけるテキスト行を迅速かつ正確に確定することができ、しかも、取得した各テキスト領域ピクチャに対して並列に処理を行うことにより、処理速度をさらに向上させることができる。
取得された各テキスト行ピクチャについて、それぞれテキストシーケンス識別を行って識別結果を得ることができる。好ましくは、テキスト行ピクチャを予め訓練された軽量テキストシーケンス識別モデルに入力して出力された識別結果を得ることができる。具体的には、入力されたテキスト行ピクチャに対して、軽量テキストシーケンス識別モデルは、まず特徴抽出畳み込みネットワークを経てテキスト行ピクチャの特徴を得、さらに、この特徴をいくつかのフレームにシーケンス化した後、双方向ゲーティングループユニット(GRU、Gated Recurrent Unit)に入力して各フレームに対してそれぞれ分類予測などを行うことができる。具体的な実現は従来技術である。訓練段階では、典型的なctc lossを用いてテキストシーケンス識別を監視することができる。
軽量テキストシーケンス識別モデルの上記構成に対して、特徴抽出の部分に関する畳み込みネットワークの計算量はモデル全体の計算量の大部分を占めるため、モデルの計算オーバヘッドを低くするために、より軽量な特徴抽出畳み込みネットワーク構成を採用することができる。
本実施形態では、従来の人工によるネットワーク構造の設計を放棄し、自動機械学習(AutoML、Automated Machine Learning)技術を用い、自動探索の方式でネットワーク構造を得ることができる。すなわち、軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造を自動機械学習のモデル探索方式を用いて確定することができる。
具体的に、ネットワーク探索タスク全体を、ネットワーク構成を予測可能な循環型ニューラルネットワーク(RNN、Recurrent Neural Network)コントローラにより制御することができ、強化学習によりモデル精度と予測時間を共に訓練目標として当該コントローラを最適化し、当該コントローラにより最適なネットワーク構造を選択する。探索空間では、特徴抽出畳み込みネットワーク全体をいくつかのサブモジュールに分割することができ、モデルの軽量化を考慮してサブモジュールの数を3とすることができる。各サブモジュールの構造は同じであり、各サブモジュールはいくつかの層から構成され、各層は畳み込み、プール化、ショートカット(shortcut)接続などの複数の演算子から構成されることができる。これにより、このネットワーク探索タスクの探索空間には、各サブモジュールで使用される層の具体的な構成(演算子の選択や接続方法など)、及び各サブモジュールに含まれる層の数などが含まれる。
上記の方式は、人工によるネットワーク構造の設計方法よりも、人的コストを大幅に削減することができ、しかも、より高い精度を有する。また、精度が保証されているため、テキストシーケンス識別を行う際に、簡単な時系列分類(CTC、Connectionist Temporal Classification)復号論理を用いてテキスト識別復号を行うことにより、実現の複雑度を低減し、さらに処理速度などを向上させることができる。
上述の説明に基づいて、図2は本開示に記載された光学文字識別方法の全体的な実現過程の概略図であり、具体的な実現は前述の関連説明を参照でき、ここで詳しく説明しない。
以上から、本実施形態では、軽量テキストスケール事前判定モデル+軽量テキスト検出モデル+軽量テキストシーケンス識別モデル等からなる軽量汎用光学文字識別方法を提案し、高い識別精度を保証する前提で、論理が簡単で、計算量が小さいなどの特徴があるため、識別速度を高め、GPU及びCPUなどの各種の計算環境において動作することができ、広範な適用性があるなどの特徴がある。
説明すべきなのは、前記の方法実施例について、説明を簡単にするために、一連の動作の組合せとして記述された。しかし、当業者であればわかるように、本願により幾つかのステップが他の順番を採用し、或いは同時に実行可能であるため、本願は説明された動作の順番に限定されない。次に、当業者であればわかるように、明細書に説明された実施例は何れも好適な実施例であり、関わる動作とモジュールが必ずしも本願に必要なものではない。
以上は、方法の実施形態に関する説明であり、以下で装置の実施形態により本開示に記載された態様をさらに説明する。
図3は、本開示に記載の光学文字識別装置の実施形態30の構成の概略図である。図3に示すように、第1ピクチャ処理モジュール301と、第2ピクチャ処理モジュール302と、テキスト識別モジュール303とが備えられる。
第1ピクチャ処理モジュール301は、識別すべきピクチャに対してテキスト領域の囲み枠を確定し、囲み枠に基づいて識別すべきピクチャからテキスト領域ピクチャを抽出する。
第2ピクチャ処理モジュール302は、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、囲み枠に基づいてテキスト領域ピクチャからテキスト行ピクチャを抽出する。
テキスト識別モジュール303は、テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る。
第1ピクチャ処理モジュール301は、抽出されたテキスト領域ピクチャに対して、更にテキスト領域ピクチャの調整方式を確定し、確定された調整方式に従ってテキスト領域ピクチャに対してサイズ調整を行っても良い。
第1ピクチャ処理モジュール301は、識別すべきピクチャを事前に訓練された軽量テキストスケール事前判定モデルに入力して、出力されたシングルチャネルのテキスト領域マスクグラフおよびテキストスケールグラフを得ることができる。ここで、テキスト領域マスクグラフにおける各画素点の値は、対応する画素点がテキスト領域に属する確率をそれぞれ表し、テキストスケールグラフにおける各画素点の値は、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比をそれぞれ表す。さらに、第1ピクチャ処理モジュール301は、テキスト領域マスクグラフから識別すべきピクチャにおけるテキスト領域の囲み枠を確定し、テキストスケールグラフからテキスト領域ピクチャの調整方法を確定してもよい。
具体的には、第1ピクチャ処理モジュール301は、連続領域分析によりテキスト領域マスクグラフにおけるテキスト連続領域を確定し、いずれかのテキスト連続領域について、識別すべきピクチャにおける当該テキスト連続領域を含む最小の矩形を、当該テキスト連続領域に対応するテキスト領域の囲み枠としてそれぞれ確定してもよい。
第1ピクチャ処理モジュール301は、更に、いずれのテキスト領域ピクチャについて、そのテキスト領域ピクチャにおける各画素点のテキストスケールグラフにおける値をそれぞれ確定しても良い。そのテキスト領域ピクチャにおける各画素点のテキストスケールグラフにおける値は、同じである。それに応じて、確定された当該テキスト領域ピクチャの調整方法は、当該テキスト領域ピクチャの縦横比を保持したまま、調整後のテキスト行の最短辺のサイズが最適サイズに等しくなるように、当該テキスト領域ピクチャの幅及び高さのサイズを調整することを含むことができる。
軽量テキストスケール事前判定モデルは、入力されたピクチャに対して特徴抽出を行う第1特徴抽出モジュールと、特徴抽出結果に基づいてテキスト領域マスクグラフを生成する第1予測モジュールと、特徴抽出結果に基づいてテキストスケールグラフを生成する第2予測モジュールとを備えて良い。
第2ピクチャ処理モジュール302は、テキスト領域ピクチャを事前に訓練された軽量テキスト検出モデルに入力して、出力されたシングルチャネルのテキスト中心線応答グラフおよび4チャネルのテキスト境界領域オフセットグラフを得ることができる。ここで、テキスト中心線応答グラフにおける各画素点の値は、対応する画素点がテキスト行中心線領域に属する確率をそれぞれ表し、テキスト境界領域オフセットグラフにおける各画素点の値は、水平方向および垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離と、所属するテキスト行の下境界までの距離をそれぞれ表す。それに応じて、第2ピクチャ処理モジュール302は、テキスト中心線応答グラフおよびテキスト境界領域オフセットグラフを組み合わせて、テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することができる。
具体的には、第2ピクチャ処理モジュール302は、テキスト中心線応答グラフに対して連続領域分析を行うことにより、各テキスト行の中心線を確定し、いずれかの中心線について、その中心線上の画素点のテキスト境界領域オフセットグラフにおける値をそれぞれ組み合わせてその中心線に対応するテキスト行の囲み枠を確定し、前記囲み枠をテキスト領域ピクチャに対応付けて良い。
軽量テキスト検出モデルは、入力されたピクチャに対して特徴抽出を行う第2特徴抽出モジュールと、特徴抽出結果に基づいてテキスト中心線応答グラフを生成する第3予測モジュールと、特徴抽出結果に基づいてテキスト境界領域オフセットグラフを生成する第4予測モジュールとを備えて良い。
テキスト識別モジュール303は、テキスト行ピクチャを予め訓練された軽量テキストシーケンス識別モデルに入力して、出力された識別結果を得ることができる。ここで、軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造は、自動機械学習のモデル探索方式を用いて確定することができる。
図3に示された装置の実施形態の具体的なワークフローは、前述の方法の実施形態の関連説明を参照でき、これ以上言及されない。
要約すると、本発明の装置の実施形態に記載の態様によれば、軽量テキストスケール事前判定モデル+軽量テキスト検出モデル+軽量テキストシーケンス識別モデルなどからなる軽量汎用光学文字識別方式を用いて光学文字識別を行うことができ、高い識別精度を保証する前提で、論理が簡単で、計算量が小さいなどの特徴があるため、識別速度を高め、GPUとCPUなどの各種の計算環境において動作することができ、広範な適用性などがある。また、軽量テキストスケール事前判定モデルに基づいて出力されるテキスト領域マスクグラフおよびテキストスケールグラフに基づいて、識別すべきピクチャにおけるテキスト領域を迅速かつ正確に確定し、更にテキスト領域ピクチャのサイズを適切なサイズに直接調整することができるので、後続の処理を便利にし、後続の処理結果の正確性を高め、従来の方式でピクチャを複数の異なるサイズに拡大/縮小することによる非効率及び精度の損失などの問題を回避することができる。また、軽量テキスト検出モデルから出力されたテキスト中心線応答グラフ及びテキスト境界領域オフセットグラフに基づいて、テキスト領域ピクチャにおけるテキスト行を迅速かつ正確に確定することができ、しかも、取得された各テキスト領域ピクチャに対して並列に処理を行うことができるので、処理速度をさらに向上させることができる。また、自動機械学習のモデル探索方式を用いて軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造を確定することができ、従来の人工によるネットワーク構造の設計方式を放棄するため、人的コストを大幅に低減し、より高い精度などを有する。
本発明の実施形態によれば、本発明は更に電子デバイスおよび可読記憶媒体を提供する。
図4は、本発明の実施形態に記載の方法による電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本開示の実現を限定することが意図されない。
図4に示すように、この電子デバイスは、一つ又は複数のプロセッサY01、メモリY02、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図4において、一つのプロセッサY01を例とする。
メモリY02は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本願に提供された方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供された方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリY02は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例における方法に対応するプログラムコマンド/ユニットを記憶するために用いられる。プロセッサY01は、メモリY02に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における方法を実現する。
メモリY02は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリY02は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリY02は、プロセッサY01に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
電子デバイスは、更に、入力装置Y03と出力装置Y04とを備えても良い。プロセッサY01、メモリY02、入力装置Y03及び出力装置Y04は、バス又は他の手段により接続されても良く、図4においてバスによる接続を例とする。
入力装置Y03は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置Y04は、表示装置、補助照明装置、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ、発光ダイオードディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用集積回路、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス)を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、ブラウン管又は液晶ディスプレイモニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク、ワイド・エリア・ネットワーク、ブロックチェーンネットワーク、インターネットを含む。
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとVPSサービスに存在する管理の難易度が高く、ビジネスの拡張性が弱いという欠点を解決した。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims (23)

  1. 光学文字識別方法であって、
    識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、前記囲み枠に基づいて前記識別すべきピクチャからテキスト領域ピクチャを抽出し、
    前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、前記囲み枠に基づいて前記テキスト領域ピクチャからテキスト行ピクチャを抽出し、
    前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る、
    ことを含む方法。
  2. 前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定する前に、前記テキスト領域ピクチャの調整方法を確定し、確定された調整方法に従って前記テキスト領域ピクチャに対してサイズ調整を行うことをさらに含む、
    請求項1に記載の方法。
  3. 前記識別すべきピクチャを事前に訓練された軽量テキストスケール事前判定モデルに入力し、出力されたシングルチャネルのテキスト領域マスクグラフおよびテキストスケールグラフを得ることを更に含み、
    前記テキスト領域マスクグラフにおける各画素点の値は、対応する画素点がテキスト領域に属する確率をそれぞれ表し、前記テキストスケールグラフにおける各画素点の値は、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比をそれぞれ表し、
    前記テキスト領域の囲み枠を確定することは、前記テキスト領域マスクグラフから前記識別すべきピクチャにおけるテキスト領域の囲み枠を確定することを含み、
    前記テキスト領域ピクチャの調整方法を確定することは、前記テキストスケールグラフから前記テキスト領域ピクチャの調整方法を確定することを含む、
    請求項2に記載の方法。
  4. 前記テキスト領域マスクグラフから前記識別すべきピクチャにおけるテキスト領域の囲み枠を確定することは、
    連続領域分析により前記テキスト領域マスクグラフにおけるテキスト連続領域を確定し、
    いずれかのテキスト連続領域について、前記識別すべきピクチャにおける前記テキスト連続領域を含む最小の矩形を、前記テキスト連続領域に対応するテキスト領域の囲み枠としてそれぞれ確定する、
    ことを含む請求項3に記載の方法。
  5. 前記テキストスケールグラフから前記テキスト領域ピクチャの調整方法を確定することは、
    いずれかのテキスト領域ピクチャについて、前記テキスト領域ピクチャにおける各画素点の前記テキストスケールグラフにおける値をそれぞれ確定し、前記テキスト領域ピクチャにおける各画素点の前記テキストスケールグラフにおける値が同一であることを含み、
    前記テキスト領域ピクチャの調整方法は、前記テキスト領域ピクチャの縦横比を保持した前提で、調整後のテキスト行の最短辺のサイズが前記最適サイズとなるように、前記テキスト領域ピクチャの縦横のサイズを調整することを含む、
    請求項3に記載の方法。
  6. 前記軽量テキストスケール事前判定モデルは、入力されたピクチャに対して特徴抽出を行う第1特徴抽出モジュールと、特徴抽出結果に基づいて前記テキスト領域マスクグラフを生成する第1予測モジュールと、特徴抽出結果に基づいて前記テキストスケールグラフを生成する第2予測モジュールと、を備える、
    請求項3に記載の方法。
  7. 前記テキスト領域ピクチャを事前に訓練された軽量テキスト検出モデルに入力し、出力されたシングルチャネルのテキスト中心線応答グラフおよび4チャネルのテキスト境界領域オフセットグラフを得ることを更に含み、
    前記テキスト中心線応答グラフにおける各画素点の値は、対応する画素点がテキスト行中心線領域に属する確率をそれぞれ表し、前記テキスト境界領域オフセットグラフにおける各画素点の値は、水平方向及び垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離、及び所属するテキスト行の下境界までの距離をそれぞれ表し、
    前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することは、前記テキスト中心線応答グラフと前記テキスト境界領域オフセットグラフとを組み合わせて、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することを含む、
    請求項1に記載の方法。
  8. 前記テキスト中心線応答グラフおよび前記テキスト境界領域オフセットグラフとを組み合わせて、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定することは、
    前記テキスト中心線応答グラフに対して連続領域分析を行うことにより各テキスト行の中心線を確定し、
    いずれかの中心線について、前記中心線上の画素点の前記テキスト境界領域オフセットグラフにおける値をそれぞれ組み合わせて前記中心線に対応するテキスト行の囲み枠を確定し、前記囲み枠を前記テキスト領域ピクチャに対応させる、
    ことを含む請求項7に記載の方法。
  9. 前記軽量テキスト検出モデルは、入力されたピクチャに対して特徴抽出を行う第2特徴抽出モジュールと、特徴抽出結果に基づいて前記テキスト中心線応答グラフを生成する第3予測モジュールと、特徴抽出結果に基づいて前記テキスト境界領域オフセットグラフを生成する第4予測モジュールと、を備える、
    請求項7に記載の方法。
  10. 前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得ることは、前記テキスト行ピクチャを事前に訓練された軽量テキストシーケンス識別モデルに入力して出力された識別結果を得ることを含み、前記軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造は、自動機械学習のモデル探索方式を用いて確定される、
    請求項1に記載の方法。
  11. 第1ピクチャ処理モジュールと、第2ピクチャ処理モジュールと、テキスト識別モジュールとを備える光学文字識別装置であって、
    前記第1ピクチャ処理モジュールは、識別すべきピクチャについて、その中のテキスト領域の囲み枠を確定し、前記囲み枠に基づいて前記識別すべきピクチャからテキスト領域ピクチャを抽出し、
    前記第2ピクチャ処理モジュールは、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定し、前記囲み枠に基づいて前記テキスト領域ピクチャからテキスト行ピクチャを抽出し、
    前記テキスト識別モジュールは、前記テキスト行ピクチャに対してテキストシーケンス識別を行って識別結果を得る、
    装置。
  12. 前記第1ピクチャ処理モジュールは、さらに、前記テキスト領域ピクチャの調整方法を確定し、確定された調整方法に従って前記テキスト領域ピクチャに対してサイズ調整を行う、
    請求項11に記載の装置。
  13. 前記第1ピクチャ処理モジュールは、さらに、前記識別すべきピクチャを事前に訓練された軽量テキストスケール事前判定モデルに入力し、出力されたシングルチャネルのテキスト領域マスクグラフおよびテキストスケールグラフを得、
    前記テキスト領域マスクグラフにおける各画素点の値は、対応する画素点がテキスト領域に属する確率をそれぞれ表し、前記テキストスケールグラフにおける各画素点の値は、対応する画素点が属するテキスト行の最短辺のサイズと予め設定された最適サイズとの比をそれぞれ表し、
    前記第1ピクチャ処理モジュールは、前記テキスト領域マスクグラフから前記識別すべきピクチャにおけるテキスト領域の囲み枠を確定し、前記テキストスケールグラフから前記テキスト領域ピクチャの調整方法を確定する、
    請求項12に記載の装置。
  14. 前記第1ピクチャ処理モジュールは、連続領域分析により前記テキスト領域マスクグラフにおけるテキスト連続領域を確定し、いずれかのテキスト連続領域について、前記識別すべきピクチャにおける前記テキスト連続領域を含む最小の矩形を、前記テキスト連続領域に対応するテキスト領域の囲み枠としてそれぞれ確定する、
    請求項13に記載の装置。
  15. 前記第1ピクチャ処理モジュールは、いずれかのテキスト領域ピクチャについて、前記テキスト領域ピクチャにおける各画素点の前記テキストスケールグラフにおける値をそれぞれ確定し、前記テキスト領域ピクチャにおける各画素点の前記テキストスケールグラフにおける値は同じであり、
    前記テキスト領域ピクチャの調整方法は、前記テキスト領域ピクチャの縦横比を保持した前提で、調整後のテキスト行の最短辺のサイズが前記最適サイズとなるように、前記テキスト領域ピクチャの縦横のサイズを調整することを含む、
    請求項13に記載の装置。
  16. 前記軽量テキストスケール事前判定モデルは、入力されたピクチャに対して特徴抽出を行う第1特徴抽出モジュールと、特徴抽出結果に基づいて前記テキスト領域マスクグラフを生成する第1予測モジュールと、特徴抽出結果に基づいて前記テキストスケールグラフを生成する第2予測モジュールと、を備える、
    請求項13に記載の装置。
  17. 前記第2ピクチャ処理モジュールは、さらに、前記テキスト領域ピクチャを事前に訓練された軽量テキスト検出モデルに入力し、出力されたシングルチャネルのテキスト中心線応答グラフおよび4チャネルのテキスト境界領域オフセットグラフを得、
    前記テキスト中心線応答グラフにおける各画素点の値は、対応する画素点がテキスト行中心線領域に属する確率をそれぞれ表し、前記テキスト境界領域オフセットグラフにおける各画素点の値は、水平方向及び垂直方向における、対応する画素点から所属するテキスト行の上境界までの距離、及び所属するテキスト行の下境界までの距離をそれぞれ表し、
    前記第2ピクチャ処理モジュールは、前記テキスト中心線応答グラフと前記テキスト境界領域オフセットグラフとを組み合わせて、前記テキスト領域ピクチャにおけるテキスト行の囲み枠を確定する、
    請求項11に記載の装置。
  18. 前記第2ピクチャ処理モジュールは、前記テキスト中心線応答グラフに対して連続領域分析を行うことにより、各テキスト行の中心線を確定し、いずれかの中心線について、前記中心線上の画素点の前記テキスト境界領域オフセットグラフにおける値をそれぞれ組み合わせて前記中心線に対応するテキスト行の囲み枠を確定し、前記囲み枠を前記テキスト領域ピクチャに対応させる、
    請求項17に記載の装置。
  19. 前記軽量テキスト検出モデルは、入力されたピクチャに対して特徴抽出を行う第2特徴抽出モジュールと、特徴抽出結果に基づいて前記テキスト中心線応答グラフを生成する第3予測モジュールと、特徴抽出結果に基づいて前記テキスト境界領域オフセットグラフを生成する第4予測モジュールと、を備える、
    請求項17に記載の装置。
  20. 前記テキスト識別モジュールは、前記テキスト行ピクチャを事前に訓練された軽量テキストシーケンス識別モデルに入力して出力された識別結果を得、
    前記軽量テキストシーケンス識別モデルにおける特徴抽出畳み込みネットワーク構造は、自動機械学習のモデル探索方式を用いて確定される、
    請求項11に記載の装置。
  21. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1〜10のいずれか1項に記載の方法を実行させる電子デバイス。
  22. コンピュータに請求項1〜10のいずれか1項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
  23. コンピュータに請求項1〜10のいずれか1項に記載の方法を実行させるためのプログラム。
JP2021099856A 2020-06-16 2021-06-16 光学文字識別方法、装置、電子デバイス及び記憶媒体 Active JP7217313B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010550694.1A CN111860479B (zh) 2020-06-16 2020-06-16 光学字符识别方法、装置、电子设备及存储介质
CN202010550694.1 2020-06-16

Publications (2)

Publication Number Publication Date
JP2021197190A true JP2021197190A (ja) 2021-12-27
JP7217313B2 JP7217313B2 (ja) 2023-02-02

Family

ID=72987291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021099856A Active JP7217313B2 (ja) 2020-06-16 2021-06-16 光学文字識別方法、装置、電子デバイス及び記憶媒体

Country Status (5)

Country Link
US (1) US11694461B2 (ja)
EP (1) EP3926526A3 (ja)
JP (1) JP7217313B2 (ja)
KR (1) KR20210156228A (ja)
CN (1) CN111860479B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11954932B2 (en) * 2020-10-16 2024-04-09 Bluebeam, Inc. Systems and methods for automatic detection of features on a sheet
CN113486828B (zh) * 2021-07-13 2024-04-30 杭州睿胜软件有限公司 图像处理方法、装置、设备和存储介质
CN113903036B (zh) * 2021-11-10 2023-11-03 北京百度网讯科技有限公司 一种文本识别方法、装置、电子设备、介质及产品
CN114187435A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 文本识别方法、装置、设备以及存储介质
CN114492733A (zh) * 2021-12-29 2022-05-13 北京百度网讯科技有限公司 一种文本检测方法、装置、设备及存储介质
CN114359932B (zh) * 2022-01-11 2023-05-23 北京百度网讯科技有限公司 文本检测方法、文本识别方法及装置
CN114494686A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 文本图像矫正方法、装置、电子设备以及存储介质
KR102420617B1 (ko) * 2022-02-11 2022-07-13 주식회사 팀플랫 뉴럴 네트워크 기반의 의료 기기 데이터베이스 구축 시스템
CN114550177B (zh) * 2022-02-25 2023-06-20 北京百度网讯科技有限公司 图像处理的方法、文本识别方法及装置
WO2024063346A1 (ko) * 2022-09-20 2024-03-28 삼성전자주식회사 텍스트를 표시하기 위한 전자 장치 및 그 방법
CN115578735B (zh) * 2022-09-29 2023-09-15 北京百度网讯科技有限公司 文本检测方法和文本检测模型的训练方法、装置
CN115984865B (zh) * 2022-12-23 2024-02-27 成方金融科技有限公司 文本识别方法、装置、电子设备和存储介质
CN116129456B (zh) * 2023-02-09 2023-07-25 广西壮族自治区自然资源遥感院 一种产权权属信息识别录入方法及系统
CN116630979B (zh) * 2023-04-10 2024-04-30 雄安创新研究院 一种ocr识别方法、系统、存储介质和边缘设备
CN116958981B (zh) * 2023-05-31 2024-04-30 广东南方网络信息科技有限公司 一种文字识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020159636A1 (en) * 2000-03-14 2002-10-31 Lienhart Rainer W Generalized text localization in images
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5201011A (en) * 1991-11-19 1993-04-06 Xerox Corporation Method and apparatus for image hand markup detection using morphological techniques
US6909805B2 (en) 2001-01-31 2005-06-21 Matsushita Electric Industrial Co., Ltd. Detecting and utilizing add-on information from a scanned document image
US8009928B1 (en) * 2008-01-23 2011-08-30 A9.Com, Inc. Method and system for detecting and recognizing text in images
US10191889B2 (en) * 2014-07-29 2019-01-29 Board Of Regents, The University Of Texas System Systems, apparatuses and methods for generating a user interface by performing computer vision and optical character recognition on a graphical representation
WO2017197593A1 (en) * 2016-05-18 2017-11-23 Nokia Technologies Oy Apparatus, method and computer program product for recovering editable slide
CN110321886A (zh) * 2018-03-30 2019-10-11 高德软件有限公司 一种文字区域识别方法及装置
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
FR3098328B1 (fr) * 2019-07-01 2022-02-04 Amadeus Sas Procédé pour extraire automatiquement d’un document des informations d’un type prédéfini
CN110942067A (zh) * 2019-11-29 2020-03-31 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN111539438B (zh) * 2020-04-28 2024-01-12 北京百度网讯科技有限公司 文本内容的识别方法、装置及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020159636A1 (en) * 2000-03-14 2002-10-31 Lienhart Rainer W Generalized text localization in images
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端

Also Published As

Publication number Publication date
US20210390296A1 (en) 2021-12-16
EP3926526A3 (en) 2022-02-16
EP3926526A2 (en) 2021-12-22
JP7217313B2 (ja) 2023-02-02
CN111860479A (zh) 2020-10-30
CN111860479B (zh) 2024-03-26
KR20210156228A (ko) 2021-12-24
US11694461B2 (en) 2023-07-04

Similar Documents

Publication Publication Date Title
JP2021197190A (ja) 光学文字識別方法、装置、電子デバイス及び記憶媒体
JP6999028B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
JP2021184237A (ja) データセット処理方法、装置、電子機器及び記憶媒体
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
KR102573637B1 (ko) 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체
CN110956126A (zh) 一种联合超分辨率重建的小目标检测方法
US20210312799A1 (en) Detecting traffic anomaly event
US20230008696A1 (en) Method for incrementing sample image
US11893708B2 (en) Image processing method and apparatus, device, and storage medium
CN113642583B (zh) 用于文本检测的深度学习模型训练方法及文本检测方法
US20180285108A1 (en) Branch prediction using a perceptron-based branch prediction technique
KR20210036319A (ko) 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
US20230066021A1 (en) Object detection
US11514676B2 (en) Method and apparatus for detecting region of interest in video, device and medium
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
CN113947188A (zh) 目标检测网络的训练方法和车辆检测方法
US20230245429A1 (en) Method and apparatus for training lane line detection model, electronic device and storage medium
CN115170815A (zh) 视觉任务处理及模型训练的方法、装置、介质
CN114511743A (zh) 检测模型训练、目标检测方法、装置、设备、介质及产品
JP2020534609A (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
US11462013B2 (en) Method and apparatus for recognizing target object, electronic device and storage medium
JP2021111400A (ja) ビデオセグメント記述の生成方法、装置、プログラム、電子デバイス及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R150 Certificate of patent or registration of utility model

Ref document number: 7217313

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150