JP6831480B2

JP6831480B2 - テキスト検出分析方法、装置及びデバイス

Info

Publication number: JP6831480B2
Application number: JP2019561162A
Authority: JP
Inventors: 浩然銭; 暢謝; 恒王
Original assignee: ジョンアンインフォメーションテクノロジーサービシズカンパニーリミテッド
Priority date: 2018-06-15
Filing date: 2019-06-12
Publication date: 2021-02-17
Anticipated expiration: 2039-06-12
Also published as: CN109086756A; WO2019238063A1; CN109086756B; SG11202002659WA; JP2020527260A

Description

本発明は、画像処理技術分野に関し、特にテキスト検出分析方法、装置及びデバイスに関する。

物体検出は、コンピュータビジョン（ＣＶ）及び画像処理に関わるコンピュータ技術であり、デジタル画像やビデオから特定カテゴリー（例えば、人間、建物や自動車など）のセマンティックオブジェクトの実例を検出する。物体検出は、顔検出と歩行者検出の分野において成熟度が高い。また、物体検出はコンピュータビジョン分野、例えば画像検索やビデオ監視などの分野において大量の応用シーンを有する。

テンプレート分析は光学文字認識に関わるコンピュータ技術であり、デジタル書類画像から対応するテキスト領域をセマンティックオブジェクトの実例にマッピングすることによって、デジタル書類画像などの非構造化データをセマンティックオブジェクトの実例に関わる構造化データに転換する。テンプレート分析は、書類にある各テキスト領域をセマンティックオブジェクトの実例にマッピングして、書類画像の内容を構造化する。従来の方法において行われているテキスト領域のマッチングはすべて、従来の画像特徴マッチング方法に基づくものであり、画像の明るさ、コントラスト、解像度などがテキスト領域マッチングの正確度に対して重大な影響を与えてしまう。従来の方法によるテキスト領域マッチングは、固定した相対的位置によってテキスト領域を特定する。しかしながら、手書き文字、ドットプリンターにより印刷された文字などには、予測不可能な位置ずれが発生するため、テキスト領域の位置特定ミスがよく発生している。

従来技術における課題を解決するために、本発明の実施例は、テキスト検出分析方法、装置及びデバイスを提供する。当該技術案は以下の通りである。

第１の態様によると、本発明の実施例はテキスト検出分析方法を提供する。当該方法は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するステップと、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップと、を含む。

本発明の一部の実施例において、第１の態様に係る方法は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップを更に含む。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第２のアンカーテキスト領域及び第２の非アンカーテキスト領域を含む。

本発明の一部の実施例において、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップは、テンプレート画像における第２のアンカーテキスト領域並びに第２の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成するステップを含む。

本発明の一部の実施例において、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するステップは、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む。

本発明の一部の実施例において、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップは、第２のアンカーテキスト領域と第１のアンカーテキスト領域、及び、第２の非アンカーテキスト領域と第１の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置を特定するステップと、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係に基づいて、実体と第１のアンカーテキスト領域及び第１の非アンカーテキスト領域との写像関係を確認し、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成するステップと、を含む。
本発明の一部の実施例において、第１の態様に係る方法は、検出対象画像に対して画像前処理を行うステップを更に含む。ここで、画像前処理は、画像修正及び／又はプリセット寸法に従うスケーリングを含む。

本発明の一部の実施例において、第１の態様に係る方法は、プリセットのディープニューラルネットワーク検出モデルを訓練するステップを更に含む。

本発明の一部の実施例において、プリセットのディープニューラルネットワーク検出モデルを訓練するステップは、サンプル生成ツールを用いてサンプルを生成するステップと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練するステップと、を含む。

本発明の一部の実施例において、検出対象画像は新サンプルであり、第１の態様に係る方法は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行うステップを更に含む。

第２の態様によると、本発明の実施例はテキスト検出分析装置を提供する。当該装置は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するテキスト領域検出モジュールと、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するマッチングモジュールと、を備える。

本発明の一部の実施例において、第２の態様に係る装置は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するラベリングモジュールを更に備える。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第２のアンカーテキスト領域及び第２の非アンカーテキスト領域を含む。

本発明の一部の実施例において、ラベリングモジュールは、テンプレート画像における第２のアンカーテキスト領域並びに第２の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。

本発明の一部の実施例において、テキスト領域検出モジュールは、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域のテキスト領域情報を取得する。

本発明の一部の実施例において、マッチングモジュールは、第２のアンカーテキスト領域と第１のアンカーテキスト領域、及び、第２の非アンカーテキスト領域と第１の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置を特定するとともに、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係に基づいて、実体と第１のアンカーテキスト領域及び第１の非アンカーテキスト領域との写像関係を確認し、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成する。

本発明の一部の実施例において、第２の態様に係る装置は、検出対象画像に対して画像前処理を行う画像前処理モジュールを更に備える。なお、画像前処理は、画像修正及び／又はプリセット寸法に従うスケーリングを含む。

本発明の一部の実施例において、第２の態様に係る装置は、プリセットのディープニューラルネットワーク検出モデルを訓練するモデル訓練モジュールを更に備える。

本発明の一部の実施例において、モデル訓練モジュールは、サンプル生成ツールを用いてサンプルを生成するとともに、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練する。

本発明の一部の実施例において、検出対象画像は新サンプルであり、第２の態様に係る装置は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行う微調整モジュールを更に備える。

第３の態様によると、本発明の実施例はテキスト検出分析デバイスを提供する。当該デバイスは、プロセッサと、プロセッサによる実行可能な命令を記憶するメモリと、を備える。なお、プロセッサは実行可能な命令によって第１の態様に記載のテキスト検出分析方法を実行する。

第４の態様によると、本発明の実施例はコンピュータ読取可能な記憶媒体を提供する。当該記憶媒体にはコンピュータプログラムが記憶されており、コンピュータプログラムは第１の態様に記載のテキスト検出分析方法を実行する。

本発明の実施例は、テキスト検出分析方法、装置及びデバイスを提供する。プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域の検出及び分類を行い、さらにラベル付きのテンプレート情報と、検出分類によって取得するカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成する。よって、書類画像における様々なテキストラインに対して速やか且つ正確に検出分析を実現することができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。

本発明の実施例による技術案をより明確に説明するために、以下、実施例の説明において必要となる図面について簡単に説明する。明らかに、以下説明する図面は本発明の一部の実施例に過ぎず、当業者であれば、創造的な労働をせずにこれらの図面に基づいて他の図面を取得することができる。
本発明の実施例１により提供されるテキスト検出分析方法の模式的フローチャートである。好適な一実施形態におけるテンプレートマッチングプロセスの模式的フローチャートである。本発明の実施例２により提供されるテキスト検出分析方法の模式的フローチャートである。本発明の実施例３により提供されるテキスト検出分析装置の構成模式図である。本発明の実施例により提供されるテキスト検出分析デバイスの構成模式図である。本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスの応用実例である帳票処理の効果図である。本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスの応用実例である帳票処理の効果図である。本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスの応用実例である帳票処理の効果図である。本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスの応用実例である帳票処理の効果図である。

本発明の目的、技術案及び長所をより明確にするために、以下、本発明の実施例による図面を参照しながら本発明の実施例に係る技術案について明確且つ完全な説明を行う。明らかに、ここで説明する実施例は本発明の一部の実施例に過ぎず、すべての実施例ではない。本発明の実施例に基づいて、当業者により創造的な労働をせずに得られる他の実施例は、すべて本発明の保護範囲に属する。なお、本発明の記述において、別途明確に詳しく限定する場合以外、「複数」とは２つ以上を意味する。

以下、具体的な実施例及び図面を参照しながら、本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスについて詳しく説明する。

＜実施例１＞
図１は、本発明の実施例１により提供されるテキスト検出分析方法の模式的フローチャートである。図１に示すように、本発明の実施例により提供されるテキスト検出分析方法は以下の内容を含む。

１０１：プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する。

ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）は人為的に設計されたネットワークアーキテクチャであり、その本質は多層パーセプトロン（Ｍｕｌｔｉ−ｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ）である。パーセプトロンはいくつかのニューロン（Ｎｅｕｒｏｎ）から構成されており、脳内のニューロンが行う信号伝播のように、いずれのニューロンも外部又は他のノードから入力信号を受信し、さらに活性化関数によって出力信号を取得する。ニューロンは階層構造によって連結されて、ネットワークアーキテクチャを形成する。神経細胞とは異なり、人工ニューロンの信号は逆伝播を実現することができる。このようなフィードバックメカニズムのおかげで、パーセプトロンは学習機能を有する。また、学習機能以外に、多層パーセプトロンは非線形写像を表すことができるため、ニューラルネットワークはテンプレート認識、自動制御、決定評価、予測などの複雑な問題を解決するために寄与することができる。

畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）は順伝播型ニューラルネットワークであり、そのニューロンは、カバー範囲内の一部の周辺ユニットに応答して、受容野（ＲｅｃｅｐｔｉｖｅＦｉｅｌｄ）を形成することができ、画像処理において優れた性能を有する。さらに、重み共有によって、畳み込みニューラルネットワークは従来の全結合型ニューラルネットワークと比べてよりスペースを節約する。畳み込みニューラルネットワークによる学習から得られる特徴はある程度の位置不変性とスケール不変性を有し、畳み込みニューラルネットワークにより訓練される光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ，ＯＣＲ）モデルは、フォントやフォントサイズの変化に対してロバスト性を有する。

ディープラーニングにおける検出アルゴリズムは主に検出ウィンドウの選択、特徴の抽出及び分類器の選択の３つの部分を含む。初期のディープラーニングにおいては、ほとんどスライディングドウィンドウの方式によってウィンドウ抽出を行っていたが、最近の検出アルゴリズムは、例えばＦａｓｔｅｒＲ−ＣＮＮは、領域提案ネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ，ＲＰＮ）を直接利用して候補ボックスを算出する。ＲＰＮは、一枚の任意サイズの画像を入力として一グループの矩形領域を出力し、各領域は１つのターゲット点数及び位置情報に対応する。畳み込みニューラルネットワークの強い非線形モデリング能力を利用すると、様々なサブミッションに適応する特徴を抽出することができる。さらに、ディープラーニングにおける検出アルゴリズムは、従来のスライディングボックスを突破して、回帰の方法によって検出課題を解決する。

本実施例においては、プリセットのディープニューラルネットワーク検出モデルとして、ＦａｓｔｅｒＲ−ＣＮＮネットワークモデル、ＭａｓｋＲ−ＣＮＮネットワークモデル又は他の任意の可能なディープニューラルネットワークモデルを採用してもよく、本発明の実施例はそれについて特に制限しない。

具体的に、検出対象画像は領収書、レシート、帳票などのテキスト情報を有する画像であってもよく、当該画像は、紙製の書類を撮影又はスキャンして得られるものであってもよく、元々電子バージョンであってもよい。

例えば、検出対象画像は領収書であり、当該領収書には、「領収書コード」、「領収書番号」、「支払者名称」、「受領者名称」、「発行日付」などのいくつかの項目カテゴリーが記載されている。当該領収書の未記入バージョンを当該領収書の親テンプレートと称することができ、親テンプレートにあるテキスト情報は電子デバイスにより入力されたものであってもよい。一方、記入後（電子入力又は手書き記入であってもよい）の領収書から取得する画像を検出対象画像と称することができる。

検出対象画像におけるテキスト領域は、元々親テンプレートにあるテキスト情報と、使用者により記入されたテキスト情報とを含んでもよい。

ディープニューラルネットワーク検出モデルを用いることによって、様々なスケール（フォントサイズ）のテキスト領域を精度高く見出し、さらに文字内容を金額、項目名称、見出し語、帳票番号などのカテゴリーに初歩的に分類することができ、文書における文字を正確に検出することができる。

一実施例において、テキスト領域情報のカテゴリーは、元々親テンプレートにあるテキスト情報と、使用者により記入されたテキスト情報とに分けることができる。さらに、テキスト領域情報のカテゴリーは、テキスト情報が日付、漢字、英語などであるというように分類されることができる。プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域を検出することによって、カテゴリー付きのテキスト領域情報を取得することができる。具体的に、カテゴリー付きのテキスト領域情報はテキストのカテゴリーや位置情報などを含んでもよい。

プリセットのディープニューラルネットワーク検出モデルは、訓練されるサンプルのカテゴリーによって、１種類の親テンプレートの検出対象画像に対して検出及び分類を行ってもよく、複数種類の親テンプレートの検出対象画像に対してそれぞれ検出及び分類を行ってもよい。

１０２：ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいて、テンプレートマッチングを行って、構造化情報データを生成する。ここで、ラベル付きのテンプレート情報は、使用者が取得しようとする実体の情報を含み、実体は使用者が検出対象画像から取得しようとする情報を含む。

ラベル付きのテンプレート情報は、検出対象画像又は検出対象画像の親テンプレートがラベリングされて得られるものであってもよい。実体の情報は、実体のカテゴリー、位置情報などを含んでもよい。例えば、使用者が取得しようとする実体のカテゴリーは「支払者名称」であれば、ラベル付きのテンプレート情報は当該実体のカテゴリー及び検出対象画像における当該実体（支払者の具体的な名称）の位置情報を含む。ここで、当該位置情報は、絶対的位置情報であってもよく、他のテキスト情報に対する相対的位置情報であってもよい。

位置情報が他のテキスト情報に対する相対的位置情報である場合、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とに対してテンプレートマッチングを行うことによって、使用者が取得しようとする実体の位置を正確に取得することができる。つまり、検出対象画像における対応するテキスト領域をセマンティックオブジェクトの実例にマッピングして、検出対象画像の内容の構造化を実現する。

ここで、使用者が取得しようとする実体は１つ又は複数であってもよい。実体の具体的な内容に対する認識プロセスは、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とのマッチングが終了した後に実行してもよく、１０１において実行してもよい。また、当該認識プロセスにおいては、ｔｅｓｓｅｒａｃｔ、ＣＲＮＮなどの認識モデルを採用してもよく、本発明の実施例はそれについて特に制限しない。

本発明の実施例により提供されるテキスト検出分析方法は、プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域に対する検出及び分類を行ってから、ラベル付きのテンプレート情報と、検出分類により得られたカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成する。よって、書類画像における様々なテキストラインに対して速やか且つ正確に検出分析を実現することができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。

本発明の一実施例によると、図１の方法は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップを更に含む。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第２のアンカーテキスト領域及び第２の非アンカーテキスト領域を含む。

具体的に、アンカーテキスト領域は、親テンプレートのテキスト情報に対応する領域であってもよい。非アンカーテキスト領域は、親テンプレートのテキスト情報以外の他のテキスト情報に対応する領域であってもよく、例えば、使用者により記入される必要があるテキスト領域であってもよい。

アンカーテキスト領域は１つ又は複数のアンカーを含んでもよい。各アンカーはそれぞれ１つのテキストラインであってもよく、複数のアンカーは異なる位置に分布していてもよい。アンカーは各テンプレート画像における最も安定的な特徴であり、テーブルにおける表題のように、その内容及び相対的位置がどちらも変化しない。複数のアンカーを設置することによって、対象となるテンプレート画像における各領域の相対的位置関係を完全に特定することができる。

テンプレート画像は空白の親テンプレートであってもよく、検出対象画像であってもよく、又は検出対象画像と同一な親テンプレートを有する他の画像（別の使用者により記入されたものであってもよい）であってもよい。テンプレート画像が空白の親テンプレートである場合、第２の非アンカーテキスト領域は、まだ使用者により記入されていない空白の領域であってもよい。

さらに、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップは、テンプレート画像における第２のアンカーテキスト領域並びに第２の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成するステップを含む。

具体的に、当該テンプレートラベリングプロセスは、すべての認識する必要があるテキストラインの位置及びカテゴリーをラベリングするためのプロセスである。カテゴリーは、アンカーであるか否か、及び、テキスト情報が日付、漢字、英語などであるか否か、を含む。生成されるラベル付きのテンプレート情報は、後工程におけるテンプレートマッチングに用いられる。テンプレートラベリングによって、第２のアンカーと第２の非アンカーとの相対的位置関係、並びに、各第２のアンカー及び第２の非アンカーに対応するテキスト領域の大きさを確認することができる。第１のアンカーに対応するテキスト領域の大きさは、第１のアンカーに対応するテキスト領域の高さ及び幅によって表されてもよく、つまり、第１のアンカーに対応するテキスト領域の形状は矩形であってもよく、もちろん円形、楕円形又は他の形状であってもよく、本発明の実施例はそれについて具体的に制限しない。

さらに、第２のアンカー及び第２の非アンカーが両方とも複数である場合、各第２のアンカーの間の相対的位置関係、及び、各第２の非アンカーの間の相対的位置関係もテンプレートラベリングによって確認することができる。

プリセットのディープニューラルネットワーク検出モデルと同様に、ラベリングされるテンプレート画像の種類は１つ又は２つに限られない。実際の必要に応じて、複数種類のテンプレート画像を予め設置し、複数種類のラベル付きのテンプレート情報を取得してもよい。

当該実施例において、１０１は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む。

具体的に、カテゴリー付きのテキスト領域情報は、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域のテキスト領域情報を含んでもよい。

さらに、１０２は、第２のアンカーテキスト領域と第１のアンカーテキスト領域、及び、第２の非アンカーテキスト領域と第１の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置を特定するステップと、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係に基づいて、実体と第１のアンカーテキスト領域及び第１の非アンカーテキスト領域との写像関係を確認し、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成するステップと、を含む。

具体的に、プリセットのディープニューラルネットワーク検出モデルを利用すると、検出対象画像における各第１のアンカー及び第１の非アンカーの絶対的位置を特定することができる。しかしながら、実際に検出を行うとき、画像自身が傾斜しており、又は一部のテキストラインが不鮮明であることを原因として、一部の第１のアンカーと第１の非アンカーが検出されることができない、又は検出された位置が実際の位置と不一致になってしまう。本実施例においては、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とを合わせて、すなわち絶対的位置と相対的位置とを合わせることによって、ずれてしまった第１のアンカーと第１の非アンカーの位置、又は検出されなかった第１のアンカーと第１の非アンカーの位置を調整することができ、ひいては把握しようとするテキスト領域位置及び内容情報を正確に特定することができる。

さらに、テキスト領域の大きさに対するマッチングによって第１のアンカー及び第１の非アンカーの位置を特定することもできる。特に検出対象画像が手書き領収書から得られた画像である場合、情報を記入する使用者によって、情報の記入された位置はそれぞれ異なるズレが発生する。この場合には、第２の非アンカーに対応するテキスト領域の大きさと、第１の非アンカーに対応するテキスト領域の大きさとをマッチングすることができる。マッチ度が第１の閾値を満たすと、当該第１の非アンカーはマッチング成功と判定される。

アンカー同士と非アンカー同士の間の相対的位置関係に基づいて、マッチング成功したアンカーと非アンカーの位置によって、マッチング成功していない他のアンカーと非アンカーの位置を特定することができ、マッチング結果の正確度を向上させて、認識率を向上させることができる。

本実施例においては、位置及び内容情報が安定であるアンカーに対して正確なマッチングを実現して、マッチングプロセスにおける正確率を向上させることができる。また、非テキスト領域及び無関係なテキストを排除することによって、より効果的にコア情報を把握して、検出結果の正確率をより一層向上させることができる。

本発明の一実施例によると、図１の方法は、検出対象画像に対して画像前処理を行うステップを更に含む。ここで、画像前処理は画像修正及び／又はプリセット寸法に従うスケーリングを含む。

具体的に、実際に検出される画像には、傾斜又は大きさの不一致などの問題が存在する可能性があるため、これらの問題は検出を行うときに、アンカー及び非アンカーの位置特定の精度に影響を与えてしまう。そこで、本実施例においては、１０１の前に検出対象画像に対して修正又はスケーリングを行うことができる。プリセットのディープニューラルネットワーク検出モデルの訓練におけるサンプルの寸法に従って検出対象画像をスケーリングすると、マッチングプロセスにおける正確率を向上させることができる。本実施例において、テンプレート画像の寸法はプリセットのディープニューラルネットワーク検出モデルの訓練におけるサンプルの寸法と一致してもよい。もちろん、画像前処理の操作に対応する設定を実際の状況に応じて行ってもよい。

図２は、好適な一実施形態によるテンプレートマッチングプロセスの模式的フローチャートである。図２に示すように、上述の１０２は以下の内容を更に含んでもよい。

１０２１：ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいて、テンプレートマッチングを行う。

具体的には、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とをマッチングして、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置を特定し、すなわち複数第１のアンカー及び第１の非アンカーに対して位置特定を行う。本実施例においては、当該マッチングプロセスによって、プリセットのディープニューラルネットワーク検出モデルにより検出されなかった第１のアンカー及び第１の非アンカーを補充し、又は位置特定の結果が正確でない第１のアンカー及び第１の非アンカーの位置を調整することができる。

１０２２：実体とテキスト領域とをマッピングすることによって不要部分を除去し、構造化情報データを生成する。

第１のアンカー及び第１の非アンカーによってカテゴリー付きのテキスト領域をそれに対応する実体にマッピングし、非テキスト領域及び無関係なテキストを含む不要部分を除去し、実体に対応するアンカー及び非アンカーを特定する。非アンカーに位置するテキスト情報を認識によって確認することができ、さらに認識によって取得したテキスト情報とアンカーとの相対的位置に基づいて、当該テキスト情報の種類（すなわちアンカーのテキスト情報、例えば、名前、性別、年齢などを含む）を確認することができる。当該テキスト情報及び当該テキスト情報の種類に基づいて、構造化情報データを生成することができる。さらに、構造化情報データを出力して、関連の応用を実現することができる。

本発明の一実施例によると、図１の方法は、プリセットのディープニューラルネットワーク検出モデルを訓練するステップを更に含む。

具体的に、プリセットのディープニューラルネットワーク検出モデルを訓練するためのサンプルは、予め標記されたアンカーの位置であってもよい。つまり、訓練するときにサンプルにおけるテキスト領域に対して分類（アンカー類と非アンカー類の分類を含むが、それに限られない）を行ってから、検出モデルを訓練する。

一実施例において、プリセットのディープニューラルネットワーク検出モデルを訓練するステップは、サンプル生成ツールを用いてサンプルを生成するステップと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練するステップと、を含む。当該実施例においては、サンプル生成ツールによって大量のサンプルを速やかに取得することができる。

本発明の一実施例によると、検出対象画像は新サンプルであり、図１の方法は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行うステップを更に含む。

具体的には、検出アプリケーションにおいてデータの逆伝播フローを形成することによって、より多くの新サンプルを取得することができる。新サンプルを用いると、プリセットのディープニューラルネットワーク検出モデルに対して微調整（Ｆｉｎｅ−ｔｕｎｉｎｇ）を行うことができる。したがって、訓練の初期段階においては、検出モデルを訓練するために大量のサンプルをラベリングしなくてもよく、データの逆伝播フローを形成した後、モデルの認識率も徐々に向上する。

＜実施例２＞
図３は、本発明の実施例２により提供されるテキスト検出分析方法の模式的フローチャートである。図３に示すように、本発明の実施例により提供されるテキスト検出分析方法は以下の内容を含む。

２０１：プリセットのディープニューラルネットワーク検出モデルを訓練する。
具体的に、当該訓練プロセスについては図１による説明を参照すればよい。

検出アプリケーションにおいてデータの逆伝播フローを形成して、より多くの新サンプルを取得することができる。さらに、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整（Ｆｉｎｅ−ｔｕｎｉｎｇ）を行う。

当該訓練又は微調整のプロセスにおいては、サンプルにおけるテキストラインに対して分類（アンカー類と非アンカー類の分類を含むが、それに限られない）を行ってから、検出モデルを訓練する。

なお、２０１は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。

２０２：テンプレート画像における第２のアンカーテキスト領域並びに第２の非アンカーテキスト領域の大きさ及び相対的位置と、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。

このステップは、テンプレート画像におけるすべての認識する必要があるテキストラインの位置及びカテゴリーをラベリングするためのステップである。カテゴリーは、アンカーであるか否か、及び、テキスト情報が日付、漢字、英語などであるか否か、を含んでもよい。生成されるラベル付きのテンプレート情報は、後工程におけるテンプレートマッチングにおいて用いられる。なお、ラベリングされるテンプレート画像の種類は１つ又は２つに限られず、実際の必要に応じて、複数種類のテンプレート画像を予め設置して、複数種類のラベル付きのテンプレート情報を取得してもよい。

なお、２０２は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。

２０３：検出対象画像に対して画像前処理を行う。ここで、画像前処理は画像修正及び／又はプリセット寸法に従うスケーリングを含む。なお、画像前処理の内容は、画像修正及び／又はプリセット寸法に従うスケーリングを含むが、それらに限られない。画像前処理の操作に対応する設定を実際の状況に応じて行ってもよい。

なお、２０３は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。

２０４：プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域のテキスト領域情報を取得する。

プリセットのディープニューラルネットワーク検出モデルは、ＦａｓｔｅｒＲ−ＣＮＮネットワークモデル、ＭａｓｋＲ−ＣＮＮネットワークモデル又は従来技術による他の任意の可能なディープニューラルネットワークモデルを採用してもよく、本発明の実施例はそれについて特に制限しない。

ディープニューラルネットワーク物体検出アーキテクチャを用いると、様々なスケール（フォントサイズ）のテキスト領域を精度高く見出し、さらに文字内容を金額、項目名称、見出し語、帳票番号などのカテゴリーに初歩的に分類することができる。

なお、２０４は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。

２０２は２０１の前に実行してもよく、２０１と同時に実行してもよく、本発明の実施例はそれについて制限しない。

２０５：ラベル付きのテンプレート情報と、カテゴリー付きのテキスト領域情報とに対してテンプレートマッチングを行って、第１のアンカー及び第１の非アンカーの位置を特定し、第１のアンカー及び第１の非アンカーによってカテゴリー付きのテキスト領域をそれに対応する実体にマッピングし、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報データを生成する。

アンカーの位置特定が成功すると、画面全体における各テキストラインの相対的位置も確定となる。その後、上述のアンカー及び非アンカーのテキスト領域情報と画面との相対的位置を利用すれば、取得しようとするテキストラインの位置及び内容情報を正確に特定することができる。つまり、安定的なアンカーを用いることによって正確なマッチングを実現することができ、マッチングプロセスにおける正確率を向上させることができる。

認識を行うことによって、非アンカーの位置におけるテキスト情報を確認することができるとともに、認識によって取得したテキスト情報及びアンカーの相対的位置に基づいて、当該テキスト情報の種類（すなわちアンカーのテキスト情報、例えば、名前、性別、年齢など）を特定することができる。さらに、当該テキスト情報及び当該テキスト情報の種類に基づいて、構造化情報データを生成することができる。また、関連の応用を実現するために、構造化情報データを出力してもよい。

なお、２０５は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。

なお、本発明の実施例により提供されるテキスト検出分析方法の具体的なステップの実行順番は、上述方法において説明した順番に限られず、本発明の発明思想から逸脱しない前提で、実際の状況に応じて設計を変更してもよい。

＜実施例３＞
図４は、本発明の実施例３により提供されるテキスト検出分析装置３０の構成模式図である。図４に示すように、本発明の実施例により提供されるテキスト検出分析装置３０はテキスト領域検出モジュール３１とマッチングモジュール３２とを備える。

テキスト領域検出モジュール３１は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する。マッチングモジュール３２は、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成する。ここで、ラベル付きのテンプレート情報は使用者が取得しようとする実体の情報を含み、実体は使用者が検出対象画像から取得しようとする情報である。

具体的に、最後には構造化情報を出力してもよく、他の外部モジュールが呼び出して使用できるように統一したインターフェースを提供することができる。

本発明の実施例により提供されるテキスト検出分析装置は、プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域の検出及び分類を行ってから、ラベル付きのテンプレート情報と、検出分類により取得するカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成することによって、書類画像における様々なテキストラインに対して検出分析を速やか且つ正確に行うことができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。

本発明の一実施例によると、装置３０は、テンプレート画像に対してテンプレートラベリングを行って、ラベル付きのテンプレート情報を生成するラベリングモジュール３３を更に備える。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は第１のアンカーテキスト領域及び第１の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は第２のアンカーテキスト領域及び第２の非アンカーテキスト領域を含む。

本発明の一実施例によると、ラベリングモジュール３３は、テンプレート画像における第２のアンカーテキスト領域並びに第２の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。

本発明の一実施例によると、テキスト領域検出モジュール３１は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域のテキスト領域情報を取得する。

本発明の一実施例によると、マッチングモジュール３２は、マッチング第２のアンカーテキスト領域と第１のアンカーテキスト領域、及び、第２の非アンカーテキスト領域と第１の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置を特定することと、実体と第２のアンカーテキスト領域及び第２の非アンカーテキスト領域との写像関係に基づいて、実体と第１のアンカーテキスト領域及び第１の非アンカーテキスト領域との写像関係を確認し、さらに第１のアンカーテキスト領域及び第１の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成することと、を行う。

本発明の一実施例によると、装置３０は、検出対象画像に対して画像前処理を行う画像前処理モジュール３４を更に備える。なお、画像前処理は画像修正及び／又はプリセット寸法に従うスケーリングを含む。

本発明の一実施例によると、装置３０は、プリセットのディープニューラルネットワーク検出モデルを訓練するモデル訓練モジュール３５を更に備える。

本発明の一実施例によると、モデル訓練モジュール３５は、サンプル生成ツールを用いてサンプルを生成することと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練することと、を行う。

本発明の一実施例によると、検出対象画像は新サンプルであり、装置３０は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行う微調整モジュール３６を更に備える。

なお、上述の実施例によるテキスト領域検出モジュール３１、マッチングモジュール３２、ラベリングモジュール３３、画像前処理モジュール３４、モデル訓練モジュール３５及び微調整モジュール３６の動作及び機能については、上述の図１、図２及び図３に係るテキスト検出分析方法の説明を参照すればよく、重複を避けるためにここでは説明を省略する。

＜実施例４＞
図５は、本発明の実施例により提供されるテキスト検出分析デバイス４０の構成模式図である。図５に示すように、本発明の実施例により提供されるテキスト検出分析デバイス４０はプロセッサ４１とメモリ４２とを備える。

具体的に、メモリ４２には、プロセッサ４１による実行可能な命令が記憶されており、プロセッサ４１は、実行可能な命令によって実施例１及び実施例２に記載のテキスト検出分析方法のステップを実行する。なお、具体的な実行プロセスについては実施例１と実施例２における対応する内容を参照すればよく、ここでは説明を省略する。

＜応用実例＞
システムの構築においては、ハードウェアのニーズとソフトウェアのニーズがある。
ハードウェアについては、サーバ１台、計算デバイス１台及び画像入力デバイス１台が必要である。
ソフトウェアについては、帳票認識のｗｅｂサービスと、端末において表示される画面と、画像及び検出結果を記憶するデータベースと、をサーバに実装する必要がある。

プロセスは、モデル生成プロセスと書類検出プロセスに分けられる。
モデル生成プロセスにおいては、最初にサンプル生成モジュールによって訓練サンプルを生成し、作業能力が十分である場合に手動で本当のサンプルをラベリングする。十分な訓練サンプル（一般的には１０万の倍数規模）を取得した後、サーバにおいてディープニューラルネットワークによって帳票認識モデルを訓練してサーバに記憶し、ｗｅｂサービスを構築する。

検出プロセスにおいては、最初に画像入力デバイスを用いて書類をスキャンする。書類画像を取得した後、端末から認識サービスの画面を開き、画像をサーバにアップロードする。サーバは画像を受信した後、画像前処理モジュール、テキスト検出モジュール及びテンプレートマッチングモジュールによって構造化検出結果を取得してから、認識モジュールを用いて対応する領域の具体的なテキスト内容に対して認識を行い、さらに実際の状況に応じて認識結果に対して後処理を行い、最後に認識結果を端末に返して使用者に向けて表示する。

以下、具体的な医療帳票に対する認識を例とする。帳票における病院名称と、病院種類と、医療保険種類と、対応する項目及び金額とを認識する必要があると仮定すると、病院名称と、病院種類と、医療保険種類と、対応する項目及び金額とは、取得する必要がある実体となる。

第１のステップ：図６に示すような元の帳票画像を取得する。

第２のステップ：図７に示すように、帳票画像に対してテンプレート分析を行う。
帳票画像に対してテンプレート分析を行うことは、すなわちテンプレートラベリングを行って、ラベル付きのテンプレート情報を生成することである。ここで、検出対象画像とテンプレート画像とは同一の画像である。具体的に、同一の親テンプレートを有する複数枚の帳票に対する認識を行う場合、テンプレートラベリングを１回のみ実行してもよい。

第３のステップ：図８に示すように、各カテゴリーのテキスト領域を見出す。
具体的には、異なるカテゴリーのテキスト領域を区別するために、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成することができる。

第４のステップ：図９に示すように、テンプレート分析及びテキスト領域分類に基づいて、認識する必要がある領域を抽出する。
具体的には、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、認識する必要がある領域を抽出する。

本実施例においては、実体とテキスト領域との写像関係に基づいて、非テキスト領域及び無関係なテキストを含む不要部分を除去する必要がある。例えば、図８に示すように、矢印Ａにより指されているテキスト領域は無関係なテキストであり、矢印Ｂにより指されているテキスト領域は非テキスト領域であるため、Ａ及びＢの位置におけるテキスト領域がすなわち除去される必要がある不要部分である。

第５のステップ：対応する認識モデルを用いて上述の領域を認識する。
認識結果は以下の通りである。
「上海第１婦児保健院」
「三級甲等専科病院」
「医療保険自費」
「治療費（自費）」
「外来診療費」
「６．００」
「８００」
上述の認識結果はｔｅｓｓｅｒａｃｔ、ＣＲＮＮなどの認識モデルによって取得することができる。また、認識結果は実際の結果と比べてある程度の差が存在する可能性があるため、後処理によって認識結果に対して是正を行ってもよい。

第６のステップ：認識結果に対して後処理を行う。
後処理結果は以下の通りである。
「上海市第１婦児保健院」（病院名称リストとのマッチングに基づく）
「三級甲等専科病院」
「医療保険自費」
「治療費（自費）」
「外来診療費」
「６．００」
「８．００」（金額ルールとのマッチングに基づく）
ここで、病院名称リストを照会することによって、認識結果の病院名称「上海第１婦児保健院」に対して是正を行うことができる。是正結果が「上海市第１婦児保健院」であり、つまり認識結果の病院名称には文字「市」が漏れている。同様に、認識結果における各情報それぞれに対して是正を行うことができる。例えば、認識結果における外来診療費が「８００」であるが、それを金額ルールとのマッチングによって是正すると、「８．００」となる。

第７のステップ：認識結果を構造化して、構造化情報データを生成する。
｛
病院名称：上海市第１婦児保健院
病院種類：三級甲等専科病院
医療保険種類：医療保険自費
費用明細：
｛
治療費（自費）：６．００
外来診療費：８．００
｝
｝

なお、上述の実施例により提供されるテキスト検出分析装置及びデバイスがテキスト検出分析を行うことについて、本明細書においては上述の各機能モジュールの分け方を例として説明を行ったが、実際の応用においては、必要に応じて上述の機能を異なる機能モジュールに配分して遂行することもできる。つまり、装置又はデバイスの内部構成を異なる機能モジュールに分割することによって、上述のすべて又は一部の機能を実現する。また、上述の実施例により提供されるテキスト検出分析装置及びデバイスは、テキスト検出分析方法の実施例と同一の発明思想に属するため、その具体的な実現プロセスについては方法の実施例を参照すればよく、ここでは説明を省略する。

当業者が理解できる通り、上述の実施例のすべて又は一部のステップはハードウェアによって実現してもよく、プログラムを用いて関連のハードウェアに命令することによって実現してもよい。前記プログラムはコンピュータ読取可能な記憶媒体に記憶されてもよく、当該記憶媒体はリードオンリーメモリ、磁気ディスク又はコンパクトディスクであってもよい。

本願においては、本願の実施例による方法、デバイス（システム）、コンピュータプログラム製品のフローチャート及び／又はダイアグラムなどを参照しながら実施例を説明した。フローチャート及び／又はダイアグラムにおける各ステップ及び／又はブロック、及び、フローチャート及び／又はダイアグラムにおけるステップ及び／又はブロックの組み合わせは、コンピュータプログラムの命令によって実現されることができることに留意されたい。一般コンピュータ、専用コンピュータ、埋め込みプロセッサ、又は他のプログラマブルデータ処理デバイスのプロセッサにこれらのコンピュータプログラムを実装すると、コンピュータ又は他のプログラマブルデータ処理データ処理デバイスのプロセッサが命令を実行することによって、フローチャートにおける１つ又は複数のステップ及び／又はダイアグラムにおける１つ又は複数のブロックにより指定される機能を実現することができる装置になる。

これらのコンピュータプログラム命令はコンピュータ読取可能なメモリに記憶されてもよい。当該コンピュータ読取可能なメモリは、コンピュータ又は他のプログラマブルデータ処理デバイスに特定の方式で作業させることができる。したがって、当該コンピュータ読取可能なメモリに記憶されている命令が実行されると、フローチャートにおける１つ又は複数のステップ及び／又はダイアグラムにおける１つ又は複数のブロックにより指定される機能を実現することができる装置を備えた製品が形成される。

これらのコンピュータプログラム命令はコンピュータ又は他のプログラマブルデータ処理デバイスに実装されてもよい。したがってコンピュータ又は他のプログラマブルデータ処理デバイスは一連の作業プロセスを実行してコンピュータによる処理を実現することによって、コンピュータ又は他のプログラマブルデータ処理デバイスにより実行される命令がフローチャートにおける１つ又は複数のステップ及び／又はダイアグラムにおける１つ又は複数のブロックにより指定される機能を実行するプロセスを提供する。

本明細書においては本願の実施例のうちの好ましい実施例のみを説明したが、当業者であれば、基本的な創造的概念を把握できた以上、これらの実施例に対して他の変更や変動を行うことができる。そこで、本願は、好ましい実施例及び本願の実施例の範囲に属するすべての変更や変動を、特許請求の範囲によって解釈する。

明らかに、当業者であれば、本発明の精神と範囲を逸脱せずに本発明に対して様々な変動や変形を実現することができる。このような変動や変形が本発明の特許請求の範囲又は同等な技術範囲に属する場合、それらの変動や変形は本発明の保護範囲に入るものになる。

以上は本発明の好ましい実施例に過ぎず、本発明を制限するための内容ではない。本発明の精神と原則の範囲内で行われる任意の変更、同等な置換、更新などは、すべて本発明の保護範囲に属するべきである。

Claims

テキスト検出分析方法であって、
プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するステップと、
ラベル付きのテンプレート情報及び前記カテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップと、を含む
ことを特徴とするテキスト検出分析方法。
テンプレート画像に対してテンプレートラベリングを行うことによって、前記ラベル付きのテンプレート情報を生成するステップを更に含み、
前記テンプレート画像と前記検出対象画像とは親テンプレートが同一であり、前記検出対象画像におけるテキスト領域は、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域を含み、前記テンプレート画像におけるテキスト領域は、第２のアンカーテキスト領域及び第２の非アンカーテキスト領域を含む
ことを特徴とする請求項１に記載の方法。
テンプレート画像に対してテンプレートラベリングを行うことによって、前記ラベル付きのテンプレート情報を生成する前記ステップは、
前記テンプレート画像における前記第２のアンカーテキスト領域並びに前記第２の非アンカーテキスト領域の大きさ及び相対の位置と、実体と前記第２のアンカーテキスト領域及び前記第２の非アンカーテキスト領域との写像関係と、をラベリングすることによって、前記ラベル付きのテンプレート情報を生成するステップを含む
ことを特徴とする請求項２に記載の方法。
プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する前記ステップは、
前記プリセットのディープニューラルネットワーク検出モデルを用いて前記検出対象画像におけるテキスト領域に対して検出及び分類を行って、前記検出対象画像における前記第１のアンカーテキスト領域及び前記第１の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む
ことを特徴とする請求項２又は３に記載の方法。
ラベル付きのテンプレート情報及び前記カテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップは、
前記第２のアンカーテキスト領域と前記第１のアンカーテキスト領域、及び、前記第２の非アンカーテキスト領域と前記第１の非アンカーテキスト領域、をそれぞれマッチングすることによって、前記検出対象画像における前記第１のアンカーテキスト領域及び前記第１の非アンカーテキスト領域の位置を特定するステップと、
実体と前記第２のアンカーテキスト領域及び前記第２の非アンカーテキスト領域との写像関係に基づいて、前記実体と前記第１のアンカーテキスト領域及び前記第１の非アンカーテキスト領域との写像関係を確認し、前記第１のアンカーテキスト領域及び前記第１の非アンカーテキスト領域の位置に基づいて、前記検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、前記構造化情報データを生成するステップと、を含む
ことを特徴とする請求項２乃至４のいずれか一項に記載の方法。
前記検出対象画像に対して画像前処理を行うステップを更に含み、
前記画像前処理は、画像修正及び／又はプリセット寸法に従うスケーリングを含む
ことを特徴とする請求項１乃至５のいずれか一項に記載の方法。
前記プリセットのディープニューラルネットワーク検出モデルを訓練するステップを更に含む
ことを特徴とする請求項１乃至６のいずれか一項に記載の方法。
前記プリセットのディープニューラルネットワーク検出モデルを訓練する前記ステップは、
サンプル生成ツールを用いてサンプルを生成するステップと、
前記サンプルを用いて前記プリセットのディープニューラルネットワーク検出モデルを訓練するステップと、を含む
ことを特徴とする請求項７に記載の方法。
前記検出対象画像は新サンプルであり、
前記新サンプルを用いて前記プリセットのディープニューラルネットワーク検出モデルに対して微調整を行うステップを更に含む
ことを特徴とする請求項７又は８に記載の方法。
テキスト検出分析装置であって、
プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するテキスト領域検出モジュールと、
ラベル付きのテンプレート情報及び前記カテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するマッチングモジュールと、を備える
ことを特徴とするテキスト検出分析装置。
テンプレート画像に対してテンプレートラベリングを行うことによって、前記ラベル付きのテンプレート情報を生成するラベリングモジュールを更に備え、
前記テンプレート画像と前記検出対象画像とは親テンプレートが同一であり、前記検出対象画像におけるテキスト領域は、第１のアンカーテキスト領域及び第１の非アンカーテキスト領域を含み、前記テンプレート画像におけるテキスト領域は、第２のアンカーテキスト領域及び第２の非アンカーテキスト領域を含む
ことを特徴とする請求項１０に記載の装置。
前記ラベリングモジュールは、
前記テンプレート画像における前記第２のアンカーテキスト領域並びに前記第２の非アンカーテキスト領域の大きさ及び相対の位置と、実体と前記第２のアンカーテキスト領域及び前記第２の非アンカーテキスト領域との写像関係と、をラベリングすることによって、前記ラベル付きのテンプレート情報を生成する
ことを特徴とする請求項１１に記載の装置。
前記テキスト領域検出モジュールは、
前記プリセットのディープニューラルネットワーク検出モデルを用いて前記検出対象画像におけるテキスト領域に対して検出及び分類を行って、前記検出対象画像における前記第１のアンカーテキスト領域及び前記第１の非アンカーテキスト領域のテキスト領域情報を取得する
ことを特徴とする請求項１１又は１２に記載の装置。
前記マッチングモジュールは、
前記第２のアンカーテキスト領域と前記第１のアンカーテキスト領域、及び、前記第２の非アンカーテキスト領域と前記第１の非アンカーテキスト領域、をそれぞれマッチングすることによって、前記検出対象画像における前記第１のアンカーテキスト領域及び前記第１の非アンカーテキスト領域の位置を特定することと、
実体と前記第２のアンカーテキスト領域及び前記第２の非アンカーテキスト領域との写像関係に基づいて、前記実体と前記第１のアンカーテキスト領域及び前記第１の非アンカーテキスト領域との写像関係を確認し、前記第１のアンカーテキスト領域及び前記第１の非アンカーテキスト領域の位置に基づいて、前記検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、前記構造化情報データを生成することと、を行う
ことを特徴とする請求項１１乃至１３のいずれか一項に記載の装置。
前記検出対象画像に対して画像前処理を行う画像前処理モジュールを更に備え、
前記画像前処理は、画像修正及び／又はプリセット寸法に従うスケーリングを含む
ことを特徴とする請求項１０乃至１４のいずれか一項に記載の装置。
前記プリセットのディープニューラルネットワーク検出モデルを訓練するモデル訓練モジュールを更に備える
ことを特徴とする請求項１０乃至１５のいずれか一項に記載の装置。
前記モデル訓練モジュールは、
サンプル生成ツールを用いてサンプルを生成することと、
前記サンプルを用いて前記プリセットのディープニューラルネットワーク検出モデルを訓練することと、を行う
ことを特徴とする請求項１６に記載の装置。
前記検出対象画像は新サンプルであり、
前記装置は、
前記新サンプルを用いて前記プリセットのディープニューラルネットワーク検出モデルに対して微調整を行う微調整モジュールを更に備える
ことを特徴とする請求項１６又は１７に記載の装置。
テキスト検出分析デバイスであって、
プロセッサと、
前記プロセッサによる実行可能な命令を記憶しているメモリと、を備え、
前記プロセッサは前記実行可能な命令によって請求項１乃至９のいずれか一項に記載のテキスト検出分析方法を実行する
ことを特徴とするテキスト検出分析デバイス。
コンピュータ読取可能な記憶媒体であって、前記記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムは請求項１乃至９のいずれか一項に記載のテキスト検出分析方法を実行する
ことを特徴とするコンピュータ読取可能な記憶媒体。