JP6831480B2 - テキスト検出分析方法、装置及びデバイス - Google Patents

テキスト検出分析方法、装置及びデバイス Download PDF

Info

Publication number
JP6831480B2
JP6831480B2 JP2019561162A JP2019561162A JP6831480B2 JP 6831480 B2 JP6831480 B2 JP 6831480B2 JP 2019561162 A JP2019561162 A JP 2019561162A JP 2019561162 A JP2019561162 A JP 2019561162A JP 6831480 B2 JP6831480 B2 JP 6831480B2
Authority
JP
Japan
Prior art keywords
text area
anchor
image
anchor text
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019561162A
Other languages
English (en)
Other versions
JP2020527260A (ja
Inventor
浩然 銭
浩然 銭
暢 謝
暢 謝
恒 王
恒 王
Original Assignee
ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド, ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド filed Critical ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド
Publication of JP2020527260A publication Critical patent/JP2020527260A/ja
Application granted granted Critical
Publication of JP6831480B2 publication Critical patent/JP6831480B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、画像処理技術分野に関し、特にテキスト検出分析方法、装置及びデバイスに関する。
物体検出は、コンピュータビジョン(CV)及び画像処理に関わるコンピュータ技術であり、デジタル画像やビデオから特定カテゴリー(例えば、人間、建物や自動車など)のセマンティックオブジェクトの実例を検出する。物体検出は、顔検出と歩行者検出の分野において成熟度が高い。また、物体検出はコンピュータビジョン分野、例えば画像検索やビデオ監視などの分野において大量の応用シーンを有する。
テンプレート分析は光学文字認識に関わるコンピュータ技術であり、デジタル書類画像から対応するテキスト領域をセマンティックオブジェクトの実例にマッピングすることによって、デジタル書類画像などの非構造化データをセマンティックオブジェクトの実例に関わる構造化データに転換する。テンプレート分析は、書類にある各テキスト領域をセマンティックオブジェクトの実例にマッピングして、書類画像の内容を構造化する。従来の方法において行われているテキスト領域のマッチングはすべて、従来の画像特徴マッチング方法に基づくものであり、画像の明るさ、コントラスト、解像度などがテキスト領域マッチングの正確度に対して重大な影響を与えてしまう。従来の方法によるテキスト領域マッチングは、固定した相対的位置によってテキスト領域を特定する。しかしながら、手書き文字、ドットプリンターにより印刷された文字などには、予測不可能な位置ずれが発生するため、テキスト領域の位置特定ミスがよく発生している。
従来技術における課題を解決するために、本発明の実施例は、テキスト検出分析方法、装置及びデバイスを提供する。当該技術案は以下の通りである。
第1の態様によると、本発明の実施例はテキスト検出分析方法を提供する。当該方法は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するステップと、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップと、を含む。
本発明の一部の実施例において、第1の態様に係る方法は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップを更に含む。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む。
本発明の一部の実施例において、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップは、テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成するステップを含む。
本発明の一部の実施例において、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するステップは、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む。
本発明の一部の実施例において、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップは、第2のアンカーテキスト領域と第1のアンカーテキスト領域、及び、第2の非アンカーテキスト領域と第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定するステップと、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係に基づいて、実体と第1のアンカーテキスト領域及び第1の非アンカーテキスト領域との写像関係を確認し、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成するステップと、を含む。
本発明の一部の実施例において、第1の態様に係る方法は、検出対象画像に対して画像前処理を行うステップを更に含む。ここで、画像前処理は、画像修正及び/又はプリセット寸法に従うスケーリングを含む。
本発明の一部の実施例において、第1の態様に係る方法は、プリセットのディープニューラルネットワーク検出モデルを訓練するステップを更に含む。
本発明の一部の実施例において、プリセットのディープニューラルネットワーク検出モデルを訓練するステップは、サンプル生成ツールを用いてサンプルを生成するステップと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練するステップと、を含む。
本発明の一部の実施例において、検出対象画像は新サンプルであり、第1の態様に係る方法は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行うステップを更に含む。
第2の態様によると、本発明の実施例はテキスト検出分析装置を提供する。当該装置は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するテキスト領域検出モジュールと、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するマッチングモジュールと、を備える。
本発明の一部の実施例において、第2の態様に係る装置は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するラベリングモジュールを更に備える。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む。
本発明の一部の実施例において、ラベリングモジュールは、テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。
本発明の一部の実施例において、テキスト領域検出モジュールは、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得する。
本発明の一部の実施例において、マッチングモジュールは、第2のアンカーテキスト領域と第1のアンカーテキスト領域、及び、第2の非アンカーテキスト領域と第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定するとともに、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係に基づいて、実体と第1のアンカーテキスト領域及び第1の非アンカーテキスト領域との写像関係を確認し、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成する。
本発明の一部の実施例において、第2の態様に係る装置は、検出対象画像に対して画像前処理を行う画像前処理モジュールを更に備える。なお、画像前処理は、画像修正及び/又はプリセット寸法に従うスケーリングを含む。
本発明の一部の実施例において、第2の態様に係る装置は、プリセットのディープニューラルネットワーク検出モデルを訓練するモデル訓練モジュールを更に備える。
本発明の一部の実施例において、モデル訓練モジュールは、サンプル生成ツールを用いてサンプルを生成するとともに、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練する。
本発明の一部の実施例において、検出対象画像は新サンプルであり、第2の態様に係る装置は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行う微調整モジュールを更に備える。
第3の態様によると、本発明の実施例はテキスト検出分析デバイスを提供する。当該デバイスは、プロセッサと、プロセッサによる実行可能な命令を記憶するメモリと、を備える。なお、プロセッサは実行可能な命令によって第1の態様に記載のテキスト検出分析方法を実行する。
第4の態様によると、本発明の実施例はコンピュータ読取可能な記憶媒体を提供する。当該記憶媒体にはコンピュータプログラムが記憶されており、コンピュータプログラムは第1の態様に記載のテキスト検出分析方法を実行する。
本発明の実施例は、テキスト検出分析方法、装置及びデバイスを提供する。プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域の検出及び分類を行い、さらにラベル付きのテンプレート情報と、検出分類によって取得するカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成する。よって、書類画像における様々なテキストラインに対して速やか且つ正確に検出分析を実現することができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。
本発明の実施例による技術案をより明確に説明するために、以下、実施例の説明において必要となる図面について簡単に説明する。明らかに、以下説明する図面は本発明の一部の実施例に過ぎず、当業者であれば、創造的な労働をせずにこれらの図面に基づいて他の図面を取得することができる。
本発明の実施例1により提供されるテキスト検出分析方法の模式的フローチャートである。 好適な一実施形態におけるテンプレートマッチングプロセスの模式的フローチャートである。 本発明の実施例2により提供されるテキスト検出分析方法の模式的フローチャートである。 本発明の実施例3により提供されるテキスト検出分析装置の構成模式図である。 本発明の実施例により提供されるテキスト検出分析デバイスの構成模式図である。 本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスの応用実例である帳票処理の効果図である。 本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスの応用実例である帳票処理の効果図である。 本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスの応用実例である帳票処理の効果図である。 本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスの応用実例である帳票処理の効果図である。
本発明の目的、技術案及び長所をより明確にするために、以下、本発明の実施例による図面を参照しながら本発明の実施例に係る技術案について明確且つ完全な説明を行う。明らかに、ここで説明する実施例は本発明の一部の実施例に過ぎず、すべての実施例ではない。本発明の実施例に基づいて、当業者により創造的な労働をせずに得られる他の実施例は、すべて本発明の保護範囲に属する。なお、本発明の記述において、別途明確に詳しく限定する場合以外、「複数」とは2つ以上を意味する。
以下、具体的な実施例及び図面を参照しながら、本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスについて詳しく説明する。
<実施例1>
図1は、本発明の実施例1により提供されるテキスト検出分析方法の模式的フローチャートである。図1に示すように、本発明の実施例により提供されるテキスト検出分析方法は以下の内容を含む。
101:プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する。
ニューラルネットワーク(Neural Network)は人為的に設計されたネットワークアーキテクチャであり、その本質は多層パーセプトロン(Multi−layer Perceptron)である。パーセプトロンはいくつかのニューロン(Neuron)から構成されており、脳内のニューロンが行う信号伝播のように、いずれのニューロンも外部又は他のノードから入力信号を受信し、さらに活性化関数によって出力信号を取得する。ニューロンは階層構造によって連結されて、ネットワークアーキテクチャを形成する。神経細胞とは異なり、人工ニューロンの信号は逆伝播を実現することができる。このようなフィードバックメカニズムのおかげで、パーセプトロンは学習機能を有する。また、学習機能以外に、多層パーセプトロンは非線形写像を表すことができるため、ニューラルネットワークはテンプレート認識、自動制御、決定評価、予測などの複雑な問題を解決するために寄与することができる。
畳み込みニューラルネットワーク(Convolutional Neural Network)は順伝播型ニューラルネットワークであり、そのニューロンは、カバー範囲内の一部の周辺ユニットに応答して、受容野(Receptive Field)を形成することができ、画像処理において優れた性能を有する。さらに、重み共有によって、畳み込みニューラルネットワークは従来の全結合型ニューラルネットワークと比べてよりスペースを節約する。畳み込みニューラルネットワークによる学習から得られる特徴はある程度の位置不変性とスケール不変性を有し、畳み込みニューラルネットワークにより訓練される光学文字認識(Optical Character Recognition,OCR)モデルは、フォントやフォントサイズの変化に対してロバスト性を有する。
ディープラーニングにおける検出アルゴリズムは主に検出ウィンドウの選択、特徴の抽出及び分類器の選択の3つの部分を含む。初期のディープラーニングにおいては、ほとんどスライディングドウィンドウの方式によってウィンドウ抽出を行っていたが、最近の検出アルゴリズムは、例えばFaster R−CNNは、領域提案ネットワーク(Region Proposal Networks,RPN)を直接利用して候補ボックスを算出する。RPNは、一枚の任意サイズの画像を入力として一グループの矩形領域を出力し、各領域は1つのターゲット点数及び位置情報に対応する。畳み込みニューラルネットワークの強い非線形モデリング能力を利用すると、様々なサブミッションに適応する特徴を抽出することができる。さらに、ディープラーニングにおける検出アルゴリズムは、従来のスライディングボックスを突破して、回帰の方法によって検出課題を解決する。
本実施例においては、プリセットのディープニューラルネットワーク検出モデルとして、Faster R−CNNネットワークモデル、Mask R−CNNネットワークモデル又は他の任意の可能なディープニューラルネットワークモデルを採用してもよく、本発明の実施例はそれについて特に制限しない。
具体的に、検出対象画像は領収書、レシート、帳票などのテキスト情報を有する画像であってもよく、当該画像は、紙製の書類を撮影又はスキャンして得られるものであってもよく、元々電子バージョンであってもよい。
例えば、検出対象画像は領収書であり、当該領収書には、「領収書コード」、「領収書番号」、「支払者名称」、「受領者名称」、「発行日付」などのいくつかの項目カテゴリーが記載されている。当該領収書の未記入バージョンを当該領収書の親テンプレートと称することができ、親テンプレートにあるテキスト情報は電子デバイスにより入力されたものであってもよい。一方、記入後(電子入力又は手書き記入であってもよい)の領収書から取得する画像を検出対象画像と称することができる。
検出対象画像におけるテキスト領域は、元々親テンプレートにあるテキスト情報と、使用者により記入されたテキスト情報とを含んでもよい。
ディープニューラルネットワーク検出モデルを用いることによって、様々なスケール(フォントサイズ)のテキスト領域を精度高く見出し、さらに文字内容を金額、項目名称、見出し語、帳票番号などのカテゴリーに初歩的に分類することができ、文書における文字を正確に検出することができる。
一実施例において、テキスト領域情報のカテゴリーは、元々親テンプレートにあるテキスト情報と、使用者により記入されたテキスト情報とに分けることができる。さらに、テキスト領域情報のカテゴリーは、テキスト情報が日付、漢字、英語などであるというように分類されることができる。プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域を検出することによって、カテゴリー付きのテキスト領域情報を取得することができる。具体的に、カテゴリー付きのテキスト領域情報はテキストのカテゴリーや位置情報などを含んでもよい。
プリセットのディープニューラルネットワーク検出モデルは、訓練されるサンプルのカテゴリーによって、1種類の親テンプレートの検出対象画像に対して検出及び分類を行ってもよく、複数種類の親テンプレートの検出対象画像に対してそれぞれ検出及び分類を行ってもよい。
102:ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいて、テンプレートマッチングを行って、構造化情報データを生成する。ここで、ラベル付きのテンプレート情報は、使用者が取得しようとする実体の情報を含み、実体は使用者が検出対象画像から取得しようとする情報を含む。
ラベル付きのテンプレート情報は、検出対象画像又は検出対象画像の親テンプレートがラベリングされて得られるものであってもよい。実体の情報は、実体のカテゴリー、位置情報などを含んでもよい。例えば、使用者が取得しようとする実体のカテゴリーは「支払者名称」であれば、ラベル付きのテンプレート情報は当該実体のカテゴリー及び検出対象画像における当該実体(支払者の具体的な名称)の位置情報を含む。ここで、当該位置情報は、絶対的位置情報であってもよく、他のテキスト情報に対する相対的位置情報であってもよい。
位置情報が他のテキスト情報に対する相対的位置情報である場合、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とに対してテンプレートマッチングを行うことによって、使用者が取得しようとする実体の位置を正確に取得することができる。つまり、検出対象画像における対応するテキスト領域をセマンティックオブジェクトの実例にマッピングして、検出対象画像の内容の構造化を実現する。
ここで、使用者が取得しようとする実体は1つ又は複数であってもよい。実体の具体的な内容に対する認識プロセスは、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とのマッチングが終了した後に実行してもよく、101において実行してもよい。また、当該認識プロセスにおいては、tesseract、CRNNなどの認識モデルを採用してもよく、本発明の実施例はそれについて特に制限しない。
本発明の実施例により提供されるテキスト検出分析方法は、プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域に対する検出及び分類を行ってから、ラベル付きのテンプレート情報と、検出分類により得られたカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成する。よって、書類画像における様々なテキストラインに対して速やか且つ正確に検出分析を実現することができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。
本発明の一実施例によると、図1の方法は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップを更に含む。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む。
具体的に、アンカーテキスト領域は、親テンプレートのテキスト情報に対応する領域であってもよい。非アンカーテキスト領域は、親テンプレートのテキスト情報以外の他のテキスト情報に対応する領域であってもよく、例えば、使用者により記入される必要があるテキスト領域であってもよい。
アンカーテキスト領域は1つ又は複数のアンカーを含んでもよい。各アンカーはそれぞれ1つのテキストラインであってもよく、複数のアンカーは異なる位置に分布していてもよい。アンカーは各テンプレート画像における最も安定的な特徴であり、テーブルにおける表題のように、その内容及び相対的位置がどちらも変化しない。複数のアンカーを設置することによって、対象となるテンプレート画像における各領域の相対的位置関係を完全に特定することができる。
テンプレート画像は空白の親テンプレートであってもよく、検出対象画像であってもよく、又は検出対象画像と同一な親テンプレートを有する他の画像(別の使用者により記入されたものであってもよい)であってもよい。テンプレート画像が空白の親テンプレートである場合、第2の非アンカーテキスト領域は、まだ使用者により記入されていない空白の領域であってもよい。
さらに、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップは、テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成するステップを含む。
具体的に、当該テンプレートラベリングプロセスは、すべての認識する必要があるテキストラインの位置及びカテゴリーをラベリングするためのプロセスである。カテゴリーは、アンカーであるか否か、及び、テキスト情報が日付、漢字、英語などであるか否か、を含む。生成されるラベル付きのテンプレート情報は、後工程におけるテンプレートマッチングに用いられる。テンプレートラベリングによって、第2のアンカーと第2の非アンカーとの相対的位置関係、並びに、各第2のアンカー及び第2の非アンカーに対応するテキスト領域の大きさを確認することができる。第1のアンカーに対応するテキスト領域の大きさは、第1のアンカーに対応するテキスト領域の高さ及び幅によって表されてもよく、つまり、第1のアンカーに対応するテキスト領域の形状は矩形であってもよく、もちろん円形、楕円形又は他の形状であってもよく、本発明の実施例はそれについて具体的に制限しない。
さらに、第2のアンカー及び第2の非アンカーが両方とも複数である場合、各第2のアンカーの間の相対的位置関係、及び、各第2の非アンカーの間の相対的位置関係もテンプレートラベリングによって確認することができる。
プリセットのディープニューラルネットワーク検出モデルと同様に、ラベリングされるテンプレート画像の種類は1つ又は2つに限られない。実際の必要に応じて、複数種類のテンプレート画像を予め設置し、複数種類のラベル付きのテンプレート情報を取得してもよい。
当該実施例において、101は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む。
具体的に、カテゴリー付きのテキスト領域情報は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を含んでもよい。
さらに、102は、第2のアンカーテキスト領域と第1のアンカーテキスト領域、及び、第2の非アンカーテキスト領域と第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定するステップと、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係に基づいて、実体と第1のアンカーテキスト領域及び第1の非アンカーテキスト領域との写像関係を確認し、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成するステップと、を含む。
具体的に、プリセットのディープニューラルネットワーク検出モデルを利用すると、検出対象画像における各第1のアンカー及び第1の非アンカーの絶対的位置を特定することができる。しかしながら、実際に検出を行うとき、画像自身が傾斜しており、又は一部のテキストラインが不鮮明であることを原因として、一部の第1のアンカーと第1の非アンカーが検出されることができない、又は検出された位置が実際の位置と不一致になってしまう。本実施例においては、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とを合わせて、すなわち絶対的位置と相対的位置とを合わせることによって、ずれてしまった第1のアンカーと第1の非アンカーの位置、又は検出されなかった第1のアンカーと第1の非アンカーの位置を調整することができ、ひいては把握しようとするテキスト領域位置及び内容情報を正確に特定することができる。
さらに、テキスト領域の大きさに対するマッチングによって第1のアンカー及び第1の非アンカーの位置を特定することもできる。特に検出対象画像が手書き領収書から得られた画像である場合、情報を記入する使用者によって、情報の記入された位置はそれぞれ異なるズレが発生する。この場合には、第2の非アンカーに対応するテキスト領域の大きさと、第1の非アンカーに対応するテキスト領域の大きさとをマッチングすることができる。マッチ度が第1の閾値を満たすと、当該第1の非アンカーはマッチング成功と判定される。
アンカー同士と非アンカー同士の間の相対的位置関係に基づいて、マッチング成功したアンカーと非アンカーの位置によって、マッチング成功していない他のアンカーと非アンカーの位置を特定することができ、マッチング結果の正確度を向上させて、認識率を向上させることができる。
本実施例においては、位置及び内容情報が安定であるアンカーに対して正確なマッチングを実現して、マッチングプロセスにおける正確率を向上させることができる。また、非テキスト領域及び無関係なテキストを排除することによって、より効果的にコア情報を把握して、検出結果の正確率をより一層向上させることができる。
本発明の一実施例によると、図1の方法は、検出対象画像に対して画像前処理を行うステップを更に含む。ここで、画像前処理は画像修正及び/又はプリセット寸法に従うスケーリングを含む。
具体的に、実際に検出される画像には、傾斜又は大きさの不一致などの問題が存在する可能性があるため、これらの問題は検出を行うときに、アンカー及び非アンカーの位置特定の精度に影響を与えてしまう。そこで、本実施例においては、101の前に検出対象画像に対して修正又はスケーリングを行うことができる。プリセットのディープニューラルネットワーク検出モデルの訓練におけるサンプルの寸法に従って検出対象画像をスケーリングすると、マッチングプロセスにおける正確率を向上させることができる。本実施例において、テンプレート画像の寸法はプリセットのディープニューラルネットワーク検出モデルの訓練におけるサンプルの寸法と一致してもよい。もちろん、画像前処理の操作に対応する設定を実際の状況に応じて行ってもよい。
図2は、好適な一実施形態によるテンプレートマッチングプロセスの模式的フローチャートである。図2に示すように、上述の102は以下の内容を更に含んでもよい。
1021:ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいて、テンプレートマッチングを行う。
具体的には、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とをマッチングして、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定し、すなわち複数第1のアンカー及び第1の非アンカーに対して位置特定を行う。本実施例においては、当該マッチングプロセスによって、プリセットのディープニューラルネットワーク検出モデルにより検出されなかった第1のアンカー及び第1の非アンカーを補充し、又は位置特定の結果が正確でない第1のアンカー及び第1の非アンカーの位置を調整することができる。
1022:実体とテキスト領域とをマッピングすることによって不要部分を除去し、構造化情報データを生成する。
第1のアンカー及び第1の非アンカーによってカテゴリー付きのテキスト領域をそれに対応する実体にマッピングし、非テキスト領域及び無関係なテキストを含む不要部分を除去し、実体に対応するアンカー及び非アンカーを特定する。非アンカーに位置するテキスト情報を認識によって確認することができ、さらに認識によって取得したテキスト情報とアンカーとの相対的位置に基づいて、当該テキスト情報の種類(すなわちアンカーのテキスト情報、例えば、名前、性別、年齢などを含む)を確認することができる。当該テキスト情報及び当該テキスト情報の種類に基づいて、構造化情報データを生成することができる。さらに、構造化情報データを出力して、関連の応用を実現することができる。
本発明の一実施例によると、図1の方法は、プリセットのディープニューラルネットワーク検出モデルを訓練するステップを更に含む。
具体的に、プリセットのディープニューラルネットワーク検出モデルを訓練するためのサンプルは、予め標記されたアンカーの位置であってもよい。つまり、訓練するときにサンプルにおけるテキスト領域に対して分類(アンカー類と非アンカー類の分類を含むが、それに限られない)を行ってから、検出モデルを訓練する。
一実施例において、プリセットのディープニューラルネットワーク検出モデルを訓練するステップは、サンプル生成ツールを用いてサンプルを生成するステップと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練するステップと、を含む。当該実施例においては、サンプル生成ツールによって大量のサンプルを速やかに取得することができる。
本発明の一実施例によると、検出対象画像は新サンプルであり、図1の方法は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行うステップを更に含む。
具体的には、検出アプリケーションにおいてデータの逆伝播フローを形成することによって、より多くの新サンプルを取得することができる。新サンプルを用いると、プリセットのディープニューラルネットワーク検出モデルに対して微調整(Fine−tuning)を行うことができる。したがって、訓練の初期段階においては、検出モデルを訓練するために大量のサンプルをラベリングしなくてもよく、データの逆伝播フローを形成した後、モデルの認識率も徐々に向上する。
<実施例2>
図3は、本発明の実施例2により提供されるテキスト検出分析方法の模式的フローチャートである。図3に示すように、本発明の実施例により提供されるテキスト検出分析方法は以下の内容を含む。
201:プリセットのディープニューラルネットワーク検出モデルを訓練する。
具体的に、当該訓練プロセスについては図1による説明を参照すればよい。
検出アプリケーションにおいてデータの逆伝播フローを形成して、より多くの新サンプルを取得することができる。さらに、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整(Fine−tuning)を行う。
当該訓練又は微調整のプロセスにおいては、サンプルにおけるテキストラインに対して分類(アンカー類と非アンカー類の分類を含むが、それに限られない)を行ってから、検出モデルを訓練する。
なお、201は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
202:テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対的位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。
このステップは、テンプレート画像におけるすべての認識する必要があるテキストラインの位置及びカテゴリーをラベリングするためのステップである。カテゴリーは、アンカーであるか否か、及び、テキスト情報が日付、漢字、英語などであるか否か、を含んでもよい。生成されるラベル付きのテンプレート情報は、後工程におけるテンプレートマッチングにおいて用いられる。なお、ラベリングされるテンプレート画像の種類は1つ又は2つに限られず、実際の必要に応じて、複数種類のテンプレート画像を予め設置して、複数種類のラベル付きのテンプレート情報を取得してもよい。
なお、202は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
203:検出対象画像に対して画像前処理を行う。ここで、画像前処理は画像修正及び/又はプリセット寸法に従うスケーリングを含む。なお、画像前処理の内容は、画像修正及び/又はプリセット寸法に従うスケーリングを含むが、それらに限られない。画像前処理の操作に対応する設定を実際の状況に応じて行ってもよい。
なお、203は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
204:プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得する。
プリセットのディープニューラルネットワーク検出モデルは、Faster R−CNNネットワークモデル、Mask R−CNNネットワークモデル又は従来技術による他の任意の可能なディープニューラルネットワークモデルを採用してもよく、本発明の実施例はそれについて特に制限しない。
ディープニューラルネットワーク物体検出アーキテクチャを用いると、様々なスケール(フォントサイズ)のテキスト領域を精度高く見出し、さらに文字内容を金額、項目名称、見出し語、帳票番号などのカテゴリーに初歩的に分類することができる。
なお、204は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
202は201の前に実行してもよく、201と同時に実行してもよく、本発明の実施例はそれについて制限しない。
205:ラベル付きのテンプレート情報と、カテゴリー付きのテキスト領域情報とに対してテンプレートマッチングを行って、第1のアンカー及び第1の非アンカーの位置を特定し、第1のアンカー及び第1の非アンカーによってカテゴリー付きのテキスト領域をそれに対応する実体にマッピングし、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報データを生成する。
アンカーの位置特定が成功すると、画面全体における各テキストラインの相対的位置も確定となる。その後、上述のアンカー及び非アンカーのテキスト領域情報と画面との相対的位置を利用すれば、取得しようとするテキストラインの位置及び内容情報を正確に特定することができる。つまり、安定的なアンカーを用いることによって正確なマッチングを実現することができ、マッチングプロセスにおける正確率を向上させることができる。
認識を行うことによって、非アンカーの位置におけるテキスト情報を確認することができるとともに、認識によって取得したテキスト情報及びアンカーの相対的位置に基づいて、当該テキスト情報の種類(すなわちアンカーのテキスト情報、例えば、名前、性別、年齢など)を特定することができる。さらに、当該テキスト情報及び当該テキスト情報の種類に基づいて、構造化情報データを生成することができる。また、関連の応用を実現するために、構造化情報データを出力してもよい。
なお、205は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
なお、本発明の実施例により提供されるテキスト検出分析方法の具体的なステップの実行順番は、上述方法において説明した順番に限られず、本発明の発明思想から逸脱しない前提で、実際の状況に応じて設計を変更してもよい。
<実施例3>
図4は、本発明の実施例3により提供されるテキスト検出分析装置30の構成模式図である。図4に示すように、本発明の実施例により提供されるテキスト検出分析装置30はテキスト領域検出モジュール31とマッチングモジュール32とを備える。
テキスト領域検出モジュール31は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する。マッチングモジュール32は、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成する。ここで、ラベル付きのテンプレート情報は使用者が取得しようとする実体の情報を含み、実体は使用者が検出対象画像から取得しようとする情報である。
具体的に、最後には構造化情報を出力してもよく、他の外部モジュールが呼び出して使用できるように統一したインターフェースを提供することができる。
本発明の実施例により提供されるテキスト検出分析装置は、プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域の検出及び分類を行ってから、ラベル付きのテンプレート情報と、検出分類により取得するカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成することによって、書類画像における様々なテキストラインに対して検出分析を速やか且つ正確に行うことができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。
本発明の一実施例によると、装置30は、テンプレート画像に対してテンプレートラベリングを行って、ラベル付きのテンプレート情報を生成するラベリングモジュール33を更に備える。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む。
本発明の一実施例によると、ラベリングモジュール33は、テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。
本発明の一実施例によると、テキスト領域検出モジュール31は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得する。
本発明の一実施例によると、マッチングモジュール32は、マッチング第2のアンカーテキスト領域と第1のアンカーテキスト領域、及び、第2の非アンカーテキスト領域と第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定することと、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係に基づいて、実体と第1のアンカーテキスト領域及び第1の非アンカーテキスト領域との写像関係を確認し、さらに第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成することと、を行う。
本発明の一実施例によると、装置30は、検出対象画像に対して画像前処理を行う画像前処理モジュール34を更に備える。なお、画像前処理は画像修正及び/又はプリセット寸法に従うスケーリングを含む。
本発明の一実施例によると、装置30は、プリセットのディープニューラルネットワーク検出モデルを訓練するモデル訓練モジュール35を更に備える。
本発明の一実施例によると、モデル訓練モジュール35は、サンプル生成ツールを用いてサンプルを生成することと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練することと、を行う。
本発明の一実施例によると、検出対象画像は新サンプルであり、装置30は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行う微調整モジュール36を更に備える。
なお、上述の実施例によるテキスト領域検出モジュール31、マッチングモジュール32、ラベリングモジュール33、画像前処理モジュール34、モデル訓練モジュール35及び微調整モジュール36の動作及び機能については、上述の図1、図2及び図3に係るテキスト検出分析方法の説明を参照すればよく、重複を避けるためにここでは説明を省略する。
<実施例4>
図5は、本発明の実施例により提供されるテキスト検出分析デバイス40の構成模式図である。図5に示すように、本発明の実施例により提供されるテキスト検出分析デバイス40はプロセッサ41とメモリ42とを備える。
具体的に、メモリ42には、プロセッサ41による実行可能な命令が記憶されており、プロセッサ41は、実行可能な命令によって実施例1及び実施例2に記載のテキスト検出分析方法のステップを実行する。なお、具体的な実行プロセスについては実施例1と実施例2における対応する内容を参照すればよく、ここでは説明を省略する。
<応用実例>
システムの構築においては、ハードウェアのニーズとソフトウェアのニーズがある。
ハードウェアについては、サーバ1台、計算デバイス1台及び画像入力デバイス1台が必要である。
ソフトウェアについては、帳票認識のwebサービスと、端末において表示される画面と、画像及び検出結果を記憶するデータベースと、をサーバに実装する必要がある。
プロセスは、モデル生成プロセスと書類検出プロセスに分けられる。
モデル生成プロセスにおいては、最初にサンプル生成モジュールによって訓練サンプルを生成し、作業能力が十分である場合に手動で本当のサンプルをラベリングする。十分な訓練サンプル(一般的には10万の倍数規模)を取得した後、サーバにおいてディープニューラルネットワークによって帳票認識モデルを訓練してサーバに記憶し、webサービスを構築する。
検出プロセスにおいては、最初に画像入力デバイスを用いて書類をスキャンする。書類画像を取得した後、端末から認識サービスの画面を開き、画像をサーバにアップロードする。サーバは画像を受信した後、画像前処理モジュール、テキスト検出モジュール及びテンプレートマッチングモジュールによって構造化検出結果を取得してから、認識モジュールを用いて対応する領域の具体的なテキスト内容に対して認識を行い、さらに実際の状況に応じて認識結果に対して後処理を行い、最後に認識結果を端末に返して使用者に向けて表示する。
以下、具体的な医療帳票に対する認識を例とする。帳票における病院名称と、病院種類と、医療保険種類と、対応する項目及び金額とを認識する必要があると仮定すると、病院名称と、病院種類と、医療保険種類と、対応する項目及び金額とは、取得する必要がある実体となる。
第1のステップ:図6に示すような元の帳票画像を取得する。
第2のステップ:図7に示すように、帳票画像に対してテンプレート分析を行う。
帳票画像に対してテンプレート分析を行うことは、すなわちテンプレートラベリングを行って、ラベル付きのテンプレート情報を生成することである。ここで、検出対象画像とテンプレート画像とは同一の画像である。具体的に、同一の親テンプレートを有する複数枚の帳票に対する認識を行う場合、テンプレートラベリングを1回のみ実行してもよい。
第3のステップ:図8に示すように、各カテゴリーのテキスト領域を見出す。
具体的には、異なるカテゴリーのテキスト領域を区別するために、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成することができる。
第4のステップ:図9に示すように、テンプレート分析及びテキスト領域分類に基づいて、認識する必要がある領域を抽出する。
具体的には、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、認識する必要がある領域を抽出する。
本実施例においては、実体とテキスト領域との写像関係に基づいて、非テキスト領域及び無関係なテキストを含む不要部分を除去する必要がある。例えば、図8に示すように、矢印Aにより指されているテキスト領域は無関係なテキストであり、矢印Bにより指されているテキスト領域は非テキスト領域であるため、A及びBの位置におけるテキスト領域がすなわち除去される必要がある不要部分である。
第5のステップ:対応する認識モデルを用いて上述の領域を認識する。
認識結果は以下の通りである。
「上海第1婦児保健院」
「三級甲等専科病院」
「医療保険自費」
「治療費(自費)」
「外来診療費」
「6.00」
「800」
上述の認識結果はtesseract、CRNNなどの認識モデルによって取得することができる。また、認識結果は実際の結果と比べてある程度の差が存在する可能性があるため、後処理によって認識結果に対して是正を行ってもよい。
第6のステップ:認識結果に対して後処理を行う。
後処理結果は以下の通りである。
「上海市第1婦児保健院」(病院名称リストとのマッチングに基づく)
「三級甲等専科病院」
「医療保険自費」
「治療費(自費)」
「外来診療費」
「6.00」
「8.00」(金額ルールとのマッチングに基づく)
ここで、病院名称リストを照会することによって、認識結果の病院名称「上海第1婦児保健院」に対して是正を行うことができる。是正結果が「上海市第1婦児保健院」であり、つまり認識結果の病院名称には文字「市」が漏れている。同様に、認識結果における各情報それぞれに対して是正を行うことができる。例えば、認識結果における外来診療費が「800」であるが、それを金額ルールとのマッチングによって是正すると、「8.00」となる。
第7のステップ:認識結果を構造化して、構造化情報データを生成する。

病院名称:上海市第1婦児保健院
病院種類:三級甲等専科病院
医療保険種類:医療保険自費
費用明細:

治療費(自費):6.00
外来診療費:8.00

なお、上述の実施例により提供されるテキスト検出分析装置及びデバイスがテキスト検出分析を行うことについて、本明細書においては上述の各機能モジュールの分け方を例として説明を行ったが、実際の応用においては、必要に応じて上述の機能を異なる機能モジュールに配分して遂行することもできる。つまり、装置又はデバイスの内部構成を異なる機能モジュールに分割することによって、上述のすべて又は一部の機能を実現する。また、上述の実施例により提供されるテキスト検出分析装置及びデバイスは、テキスト検出分析方法の実施例と同一の発明思想に属するため、その具体的な実現プロセスについては方法の実施例を参照すればよく、ここでは説明を省略する。
当業者が理解できる通り、上述の実施例のすべて又は一部のステップはハードウェアによって実現してもよく、プログラムを用いて関連のハードウェアに命令することによって実現してもよい。前記プログラムはコンピュータ読取可能な記憶媒体に記憶されてもよく、当該記憶媒体はリードオンリーメモリ、磁気ディスク又はコンパクトディスクであってもよい。
本願においては、本願の実施例による方法、デバイス(システム)、コンピュータプログラム製品のフローチャート及び/又はダイアグラムなどを参照しながら実施例を説明した。フローチャート及び/又はダイアグラムにおける各ステップ及び/又はブロック、及び、フローチャート及び/又はダイアグラムにおけるステップ及び/又はブロックの組み合わせは、コンピュータプログラムの命令によって実現されることができることに留意されたい。一般コンピュータ、専用コンピュータ、埋め込みプロセッサ、又は他のプログラマブルデータ処理デバイスのプロセッサにこれらのコンピュータプログラムを実装すると、コンピュータ又は他のプログラマブルデータ処理データ処理デバイスのプロセッサが命令を実行することによって、フローチャートにおける1つ又は複数のステップ及び/又はダイアグラムにおける1つ又は複数のブロックにより指定される機能を実現することができる装置になる。
これらのコンピュータプログラム命令はコンピュータ読取可能なメモリに記憶されてもよい。当該コンピュータ読取可能なメモリは、コンピュータ又は他のプログラマブルデータ処理デバイスに特定の方式で作業させることができる。したがって、当該コンピュータ読取可能なメモリに記憶されている命令が実行されると、フローチャートにおける1つ又は複数のステップ及び/又はダイアグラムにおける1つ又は複数のブロックにより指定される機能を実現することができる装置を備えた製品が形成される。
これらのコンピュータプログラム命令はコンピュータ又は他のプログラマブルデータ処理デバイスに実装されてもよい。したがってコンピュータ又は他のプログラマブルデータ処理デバイスは一連の作業プロセスを実行してコンピュータによる処理を実現することによって、コンピュータ又は他のプログラマブルデータ処理デバイスにより実行される命令がフローチャートにおける1つ又は複数のステップ及び/又はダイアグラムにおける1つ又は複数のブロックにより指定される機能を実行するプロセスを提供する。
本明細書においては本願の実施例のうちの好ましい実施例のみを説明したが、当業者であれば、基本的な創造的概念を把握できた以上、これらの実施例に対して他の変更や変動を行うことができる。そこで、本願は、好ましい実施例及び本願の実施例の範囲に属するすべての変更や変動を、特許請求の範囲によって解釈する。
明らかに、当業者であれば、本発明の精神と範囲を逸脱せずに本発明に対して様々な変動や変形を実現することができる。このような変動や変形が本発明の特許請求の範囲又は同等な技術範囲に属する場合、それらの変動や変形は本発明の保護範囲に入るものになる。
以上は本発明の好ましい実施例に過ぎず、本発明を制限するための内容ではない。本発明の精神と原則の範囲内で行われる任意の変更、同等な置換、更新などは、すべて本発明の保護範囲に属するべきである。

Claims (20)

  1. テキスト検出分析方法であって、
    プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するステップと、
    ラベル付きのテンプレート情報及び前記カテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップと、を含む
    ことを特徴とするテキスト検出分析方法。
  2. テンプレート画像に対してテンプレートラベリングを行うことによって、前記ラベル付きのテンプレート情報を生成するステップを更に含み、
    前記テンプレート画像と前記検出対象画像とは親テンプレートが同一であり、前記検出対象画像におけるテキスト領域は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、前記テンプレート画像におけるテキスト領域は、第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む
    ことを特徴とする請求項1に記載の方法。
  3. テンプレート画像に対してテンプレートラベリングを行うことによって、前記ラベル付きのテンプレート情報を生成する前記ステップは、
    前記テンプレート画像における前記第2のアンカーテキスト領域並びに前記第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と前記第2のアンカーテキスト領域及び前記第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、前記ラベル付きのテンプレート情報を生成するステップを含む
    ことを特徴とする請求項2に記載の方法。
  4. プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する前記ステップは、
    前記プリセットのディープニューラルネットワーク検出モデルを用いて前記検出対象画像におけるテキスト領域に対して検出及び分類を行って、前記検出対象画像における前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む
    ことを特徴とする請求項2又は3に記載の方法。
  5. ラベル付きのテンプレート情報及び前記カテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップは、
    前記第2のアンカーテキスト領域と前記第1のアンカーテキスト領域、及び、前記第2の非アンカーテキスト領域と前記第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、前記検出対象画像における前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域の位置を特定するステップと、
    実体と前記第2のアンカーテキスト領域及び前記第2の非アンカーテキスト領域との写像関係に基づいて、前記実体と前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域との写像関係を確認し、前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域の位置に基づいて、前記検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、前記構造化情報データを生成するステップと、を含む
    ことを特徴とする請求項2乃至4のいずれか一項に記載の方法。
  6. 前記検出対象画像に対して画像前処理を行うステップを更に含み、
    前記画像前処理は、画像修正及び/又はプリセット寸法に従うスケーリングを含む
    ことを特徴とする請求項1乃至5のいずれか一項に記載の方法。
  7. 前記プリセットのディープニューラルネットワーク検出モデルを訓練するステップを更に含む
    ことを特徴とする請求項1乃至6のいずれか一項に記載の方法。
  8. 前記プリセットのディープニューラルネットワーク検出モデルを訓練する前記ステップは、
    サンプル生成ツールを用いてサンプルを生成するステップと、
    前記サンプルを用いて前記プリセットのディープニューラルネットワーク検出モデルを訓練するステップと、を含む
    ことを特徴とする請求項7に記載の方法。
  9. 前記検出対象画像は新サンプルであり、
    前記新サンプルを用いて前記プリセットのディープニューラルネットワーク検出モデルに対して微調整を行うステップを更に含む
    ことを特徴とする請求項7又は8に記載の方法。
  10. テキスト検出分析装置であって、
    プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するテキスト領域検出モジュールと、
    ラベル付きのテンプレート情報及び前記カテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するマッチングモジュールと、を備える
    ことを特徴とするテキスト検出分析装置。
  11. テンプレート画像に対してテンプレートラベリングを行うことによって、前記ラベル付きのテンプレート情報を生成するラベリングモジュールを更に備え、
    前記テンプレート画像と前記検出対象画像とは親テンプレートが同一であり、前記検出対象画像におけるテキスト領域は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、前記テンプレート画像におけるテキスト領域は、第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む
    ことを特徴とする請求項10に記載の装置。
  12. 前記ラベリングモジュールは、
    前記テンプレート画像における前記第2のアンカーテキスト領域並びに前記第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と前記第2のアンカーテキスト領域及び前記第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、前記ラベル付きのテンプレート情報を生成する
    ことを特徴とする請求項11に記載の装置。
  13. 前記テキスト領域検出モジュールは、
    前記プリセットのディープニューラルネットワーク検出モデルを用いて前記検出対象画像におけるテキスト領域に対して検出及び分類を行って、前記検出対象画像における前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域のテキスト領域情報を取得する
    ことを特徴とする請求項11又は12に記載の装置。
  14. 前記マッチングモジュールは、
    前記第2のアンカーテキスト領域と前記第1のアンカーテキスト領域、及び、前記第2の非アンカーテキスト領域と前記第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、前記検出対象画像における前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域の位置を特定することと、
    実体と前記第2のアンカーテキスト領域及び前記第2の非アンカーテキスト領域との写像関係に基づいて、前記実体と前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域との写像関係を確認し、前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域の位置に基づいて、前記検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、前記構造化情報データを生成することと、を行う
    ことを特徴とする請求項11乃至13のいずれか一項に記載の装置。
  15. 前記検出対象画像に対して画像前処理を行う画像前処理モジュールを更に備え、
    前記画像前処理は、画像修正及び/又はプリセット寸法に従うスケーリングを含む
    ことを特徴とする請求項10乃至14のいずれか一項に記載の装置。
  16. 前記プリセットのディープニューラルネットワーク検出モデルを訓練するモデル訓練モジュールを更に備える
    ことを特徴とする請求項10乃至15のいずれか一項に記載の装置。
  17. 前記モデル訓練モジュールは、
    サンプル生成ツールを用いてサンプルを生成することと、
    前記サンプルを用いて前記プリセットのディープニューラルネットワーク検出モデルを訓練することと、を行う
    ことを特徴とする請求項16に記載の装置。
  18. 前記検出対象画像は新サンプルであり、
    前記装置は、
    前記新サンプルを用いて前記プリセットのディープニューラルネットワーク検出モデルに対して微調整を行う微調整モジュールを更に備える
    ことを特徴とする請求項16又は17に記載の装置。
  19. テキスト検出分析デバイスであって、
    プロセッサと、
    前記プロセッサによる実行可能な命令を記憶しているメモリと、を備え、
    前記プロセッサは前記実行可能な命令によって請求項1乃至9のいずれか一項に記載のテキスト検出分析方法を実行する
    ことを特徴とするテキスト検出分析デバイス。
  20. コンピュータ読取可能な記憶媒体であって、前記記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムは請求項1乃至9のいずれか一項に記載のテキスト検出分析方法を実行する
    ことを特徴とするコンピュータ読取可能な記憶媒体。
JP2019561162A 2018-06-15 2019-06-12 テキスト検出分析方法、装置及びデバイス Active JP6831480B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810618508.6 2018-06-15
CN201810618508.6A CN109086756B (zh) 2018-06-15 2018-06-15 一种基于深度神经网络的文本检测分析方法、装置及设备
PCT/CN2019/090896 WO2019238063A1 (zh) 2018-06-15 2019-06-12 文本检测分析方法、装置及设备

Publications (2)

Publication Number Publication Date
JP2020527260A JP2020527260A (ja) 2020-09-03
JP6831480B2 true JP6831480B2 (ja) 2021-02-17

Family

ID=64839664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019561162A Active JP6831480B2 (ja) 2018-06-15 2019-06-12 テキスト検出分析方法、装置及びデバイス

Country Status (4)

Country Link
JP (1) JP6831480B2 (ja)
CN (1) CN109086756B (ja)
SG (1) SG11202002659WA (ja)
WO (1) WO2019238063A1 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086756B (zh) * 2018-06-15 2021-08-03 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN109685055B (zh) * 2018-12-26 2021-11-12 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN109829453B (zh) * 2018-12-29 2021-10-12 天津车之家数据信息技术有限公司 一种卡证中文字的识别方法、装置以及计算设备
CN109829457A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 一种图像数据处理方法、设备及计算机可读存储介质
CN109492627B (zh) * 2019-01-22 2022-11-08 华南理工大学 一种基于全卷积网络的深度模型的场景文本擦除方法
CN109816118B (zh) * 2019-01-25 2022-12-06 上海深杳智能科技有限公司 一种基于深度学习模型的创建结构化文档的方法及终端
CN109887153B (zh) * 2019-02-03 2021-08-24 国信电子票据平台信息服务有限公司 一种财税处理方法和处理系统
CN109977935B (zh) * 2019-02-27 2024-04-12 平安科技(深圳)有限公司 一种文本识别方法及装置
CN109977957A (zh) * 2019-03-04 2019-07-05 苏宁易购集团股份有限公司 一种基于深度学习的发票识别方法及系统
CN109934227A (zh) * 2019-03-12 2019-06-25 上海兑观信息科技技术有限公司 图像文字识别系统和方法
CN109977949B (zh) * 2019-03-20 2024-01-26 深圳华付技术股份有限公司 边框微调的文本定位方法、装置、计算机设备及存储介质
CN110070045A (zh) * 2019-04-23 2019-07-30 杭州智趣智能信息技术有限公司 一种营业执照的文本识别方法、系统及相关组件
CN110110715A (zh) * 2019-04-30 2019-08-09 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110245658A (zh) * 2019-05-21 2019-09-17 深圳壹账通智能科技有限公司 一种票据识别方法、装置、存储介质和服务器
CN110287911A (zh) * 2019-06-28 2019-09-27 广东工业大学 一种发票的内容识别方法、装置、设备及存储介质
CN110516541B (zh) * 2019-07-19 2022-06-10 金蝶软件(中国)有限公司 文本定位方法、装置、计算机可读存储介质和计算机设备
CN110472524B (zh) * 2019-07-25 2022-09-13 广东工业大学 基于深度学习的发票信息管理方法、系统和可读介质
CN110363190A (zh) * 2019-07-26 2019-10-22 中国工商银行股份有限公司 一种文字识别方法、装置及设备
CN112396057A (zh) * 2019-08-13 2021-02-23 上海高德威智能交通系统有限公司 一种字符识别方法、装置及电子设备
CN110689447A (zh) * 2019-08-30 2020-01-14 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于深度学习的社交软件用户发布内容的实时检测方法
CN110689010B (zh) * 2019-09-27 2021-05-11 支付宝(杭州)信息技术有限公司 一种证件识别方法及装置
CN110888926B (zh) * 2019-10-22 2022-10-28 北京百度网讯科技有限公司 医疗文本结构化的方法以及装置
CN110909733A (zh) * 2019-10-28 2020-03-24 世纪保众(北京)网络科技有限公司 基于ocr图片识别的模版定位方法、装置和计算机设备
CN112749705A (zh) * 2019-10-31 2021-05-04 深圳云天励飞技术有限公司 训练模型更新方法及相关设备
CN110889412B (zh) * 2019-11-01 2023-04-07 泰康保险集团股份有限公司 体检报告中的医学长文定位与分类方法及装置
CN110929614A (zh) * 2019-11-14 2020-03-27 杨喆 模版定位方法、装置和计算机设备
CN110598191B (zh) * 2019-11-18 2020-04-07 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN113033269B (zh) * 2019-12-25 2023-08-25 华为技术服务有限公司 一种数据处理方法及装置
CN111325092B (zh) * 2019-12-26 2023-09-22 湖南星汉数智科技有限公司 一种动车票识别方法、装置、计算机装置及计算机可读存储介质
CN111191715A (zh) * 2019-12-27 2020-05-22 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN113128496B (zh) * 2019-12-31 2023-12-12 华为云计算技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
CN111523292B (zh) * 2020-04-23 2023-09-15 北京百度网讯科技有限公司 用于获取图像信息的方法和装置
CN111539414B (zh) * 2020-04-26 2023-05-23 梁华智能科技(上海)有限公司 一种ocr图像字符识别和字符校正的方法及系统
CN111539416A (zh) * 2020-04-28 2020-08-14 深源恒际科技有限公司 一种基于深度神经网络的文本检测目标提取关系的端到端方法
CN111582273B (zh) * 2020-05-09 2023-10-10 中国工商银行股份有限公司 图像文本识别方法及装置
CN111709339B (zh) * 2020-06-09 2023-09-19 北京百度网讯科技有限公司 一种票据图像识别方法、装置、设备及存储介质
CN111695518B (zh) * 2020-06-12 2023-09-29 北京百度网讯科技有限公司 结构化文档信息标注的方法、装置及电子设备
CN111753960B (zh) * 2020-06-25 2023-08-08 北京百度网讯科技有限公司 模型训练及图像处理方法、装置、电子设备、存储介质
CN112069893A (zh) * 2020-08-03 2020-12-11 中国铁道科学研究院集团有限公司电子计算技术研究所 一种票据处理方法、装置、电子设备及存储介质
CN112101336A (zh) * 2020-09-09 2020-12-18 杭州测质成科技有限公司 一种基于计算机视觉的智能数据采集方式
CN112287763A (zh) * 2020-09-27 2021-01-29 北京旷视科技有限公司 图像处理方法、装置、设备及介质
CN112381086A (zh) * 2020-11-06 2021-02-19 厦门市美亚柏科信息股份有限公司 一种结构化输出图像文字识别结果的方法及装置
CN112633118A (zh) * 2020-12-18 2021-04-09 上海眼控科技股份有限公司 一种文本信息提取方法、设备及存储介质
CN112818823B (zh) * 2021-01-28 2024-04-12 金科览智科技(北京)有限公司 一种基于票据内容和位置信息的文本抽取方法
CN112801987B (zh) * 2021-02-01 2022-11-08 上海万物新生环保科技集团有限公司 一种手机零件异常检测方法及设备
CN113033431B (zh) * 2021-03-30 2023-08-08 北京百度网讯科技有限公司 光学字符识别模型训练和识别方法、装置、设备及介质
CN112990091A (zh) * 2021-04-09 2021-06-18 数库(上海)科技有限公司 基于目标检测的研报解析方法、装置、设备和存储介质
CN113094508A (zh) * 2021-04-27 2021-07-09 平安普惠企业管理有限公司 数据检测方法、装置、计算机设备和存储介质
CN113111858A (zh) * 2021-05-12 2021-07-13 数库(上海)科技有限公司 自动检测图片中表格的方法、装置、设备和存储介质
CN113191348B (zh) * 2021-05-31 2023-02-03 山东新一代信息产业技术研究院有限公司 一种基于模板的文本结构化提取方法及工具
CN113569629B (zh) * 2021-06-11 2023-09-15 杭州玖欣物联科技有限公司 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法
CN113408517B (zh) * 2021-06-30 2023-01-17 青岛海信移动通信技术股份有限公司 一种图像显示方法及装置、电子设备
CN113627439A (zh) * 2021-08-11 2021-11-09 北京百度网讯科技有限公司 文本结构化处理方法、处理装置、电子设备以及存储介质
CN113762109B (zh) * 2021-08-23 2023-11-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN114611497B (zh) * 2022-05-10 2022-08-16 北京世纪好未来教育科技有限公司 语病诊断模型的训练方法、语病诊断方法、装置及设备
CN115273111B (zh) * 2022-06-27 2023-04-18 北京互时科技股份有限公司 一种无模板识别图纸材料表的装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06139410A (ja) * 1992-10-23 1994-05-20 Fujitsu Ltd ニューラル・ネットワークによるテンプレート・マッチング型文字認識方式
JPH11306282A (ja) * 1998-04-17 1999-11-05 Nippon Telegr & Teleph Corp <Ntt> 文字列領域抽出方法及び装置
CN104049755B (zh) * 2014-06-18 2017-01-18 中国科学院自动化研究所 信息处理方法及装置
CN106156766B (zh) * 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
CN105469047B (zh) * 2015-11-23 2019-02-22 上海交通大学 基于无监督学习深度学习网络的中文检测方法及系统
CN106156767A (zh) * 2016-03-02 2016-11-23 平安科技(深圳)有限公司 行驶证有效期自动提取方法、服务器及终端
CN105913093B (zh) * 2016-05-03 2019-06-21 电子科技大学 一种用于文字识别处理的模板匹配方法
US10909313B2 (en) * 2016-06-22 2021-02-02 Sas Institute Inc. Personalized summary generation of data visualizations
JP2018005462A (ja) * 2016-06-30 2018-01-11 株式会社日立ソリューションズ 認識装置及び認識方法
CN106295629B (zh) * 2016-07-15 2018-06-15 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106372061B (zh) * 2016-09-12 2020-11-24 电子科技大学 基于语义的短文本相似度计算方法
CN107480681A (zh) * 2017-08-02 2017-12-15 四川长虹电器股份有限公司 基于深度学习的高并发票据识别系统与方法
CN108133212B (zh) * 2018-01-05 2021-06-29 东华大学 一种基于深度学习的定额发票金额识别系统
CN109086756B (zh) * 2018-06-15 2021-08-03 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备

Also Published As

Publication number Publication date
CN109086756A (zh) 2018-12-25
WO2019238063A1 (zh) 2019-12-19
CN109086756B (zh) 2021-08-03
SG11202002659WA (en) 2020-04-29
JP2020527260A (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
JP6831480B2 (ja) テキスト検出分析方法、装置及びデバイス
CN109145766B (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN111027563A (zh) 一种文本检测方法、装置及识别系统
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
Wen et al. A new optical music recognition system based on combined neural network
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN105426356A (zh) 一种目标信息识别方法和装置
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
US20200134382A1 (en) Neural network training utilizing specialized loss functions
WO2019232850A1 (zh) 手写汉字图像识别方法、装置、计算机设备及存储介质
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN113205047B (zh) 药名识别方法、装置、计算机设备和存储介质
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
CN114330234A (zh) 版面结构分析方法、装置、电子设备和存储介质
Zhao et al. DetectGAN: GAN-based text detector for camera-captured document images
CN113673528A (zh) 文本处理方法、装置、电子设备和可读存储介质
CN111199240A (zh) 银行卡识别模型的训练方法、银行卡识别方法以及装置
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
Al Sayed et al. Survey on Handwritten Recognition
US11715288B2 (en) Optical character recognition using specialized confidence functions
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
US20220398399A1 (en) Optical character recognition systems and methods for personal data extraction
CN115546813A (zh) 一种文档分析方法、装置、存储介质及设备
CN117253099A (zh) 影像数据扩增装置以及方法
CN114187445A (zh) 识别图像中文本的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210128

R150 Certificate of patent or registration of utility model

Ref document number: 6831480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250