JP2023523152A - テキスト画像中の手書き内容を除去する方法および装置、ならびに記憶媒体 - Google Patents

テキスト画像中の手書き内容を除去する方法および装置、ならびに記憶媒体 Download PDF

Info

Publication number
JP2023523152A
JP2023523152A JP2022560485A JP2022560485A JP2023523152A JP 2023523152 A JP2023523152 A JP 2023523152A JP 2022560485 A JP2022560485 A JP 2022560485A JP 2022560485 A JP2022560485 A JP 2022560485A JP 2023523152 A JP2023523152 A JP 2023523152A
Authority
JP
Japan
Prior art keywords
handwritten
image
pixels
text
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022560485A
Other languages
English (en)
Inventor
青松 徐
青 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Glority Software Ltd
Original Assignee
Hangzhou Glority Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Glority Software Ltd filed Critical Hangzhou Glority Software Ltd
Publication of JP2023523152A publication Critical patent/JP2023523152A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • G06T5/77
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2455Discrimination between machine-print, hand-print and cursive writing

Abstract

【目的】テキスト画像中の手書き内容を除去する方法および装置、ならびに記憶媒体を提供する。【解決手段】テキスト画像中の手書き内容を除去する方法は、処理したいテキストページの入力画像を取得し、前記入力画像が、手書き領域を含み、前記手書き領域が、手書き内容を含むことと、画像分割モデルを利用して前記入力画像を識別し、前記手書き内容の初期手書き画素を取得することと、前記初期手書き画素に対してぼかし処理を行って、手書き画素マスク領域を取得することと、前記手書き画素マスク領域に基づいて、前記手書き領域内の前記手書き内容を確定することと、前記入力画像中の前記手書き内容を除去して、出力画像を取得することを含む。【選択図】図1

Description

本発明は、テキスト画像中の手書き内容を除去する方法および装置、ならびに記憶媒体に関するものである。
現在、使用者は、テキストを撮影して写真やPDF等のその他のフォーマットのファイルにスキャンする時、元のテキストに使用者や他の人の手書き内容、例えば、注釈文字、説明文字、注釈、または記号等の文字符号の内容が既に存在する場合、これらの手書き内容も同時に出力画像やファイルに記録される。使用者が上記の手書き内容を必要としない時、あるいは手書き内容を内密にしなければならない時、関連する手書き内容を除去することは、一般の使用者にとって比較的困難であり、保存や配布に不便である。また、使用者が携帯電話で撮影したテキスト写真は、撮影環境の照明が異なることによって、テキスト写真に影が生じたりすることがよくあるが、そのテキスト写真を直接印刷すると、プリンタがテキスト写真の影の部分も直接印刷してしまうため、インクが無駄になり、閲読にも影響を与える。
上記の欠陥を解決するため、本発明は、テキスト画像中の手書き内容を除去する方法を提供する。この方法は、処理したいテキストページの入力画像を取得し、前記入力画像が、手書き領域を含み、前記手書き領域が、手書き内容を含むことと、画像分割モデルを利用して前記入力画像を識別し、前記手書き内容の初期手書き画素を取得することと、前記初期手書き画素に対してぼかし処理を行って、手書き画素マスク領域を取得することと、前記手書き画素マスク領域に基づいて、前記手書き領域内の前記手書き内容を確定することと、前記入力画像中の前記手書き内容を除去して、出力画像を取得することを含む。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記入力画像中の前記手書き内容を除去して、出力画像を取得するステップは、
前記初期手書き画素の画素値および前記手書き画素マスク領域の位置に基づいて、前記入力画像において前記手書き画素マスク領域内の非手書き画素を確定することと、
前記入力画像中の前記手書き画素マスク領域の内容を除去して、中間出力画像を取得することと、
前記中間出力画像に対して前記手書き画素マスク領域内の非手書き画素復元を行い、前記出力画像を取得することを含む。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記入力画像中の前記手書き内容を除去して、出力画像を取得するステップは、
前記初期手書き画素の画素値および前記手書き画素マスク領域の位置に基づいて、前記入力画像において前記手書き画素マスク領域内の非手書き画素を確定することと、
前記手書き画素マスク領域内の非手書き画素および前記手書き画素マスク領域に基づいて、前記入力画像中の前記手書き内容を除去して、前記出力画像を取得することを含む。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記入力画像中の前記手書き内容を除去して、出力画像を取得するステップは、前記入力画像の中から前記手書き内容を切り取って除去し、中間出力画像を取得することと、前記中間出力画像に対して二値化処理を行い、前記出力画像を取得することを含む。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記入力画像中の前記手書き内容を除去して、前記出力画像を取得するステップは、置換画素を取得することと、前記置換画素を利用して前記手書き内容の画素を置換することにより、前記入力画像から前記手書き内容を除去して前記出力画像を取得することを含む。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記置換画素を利用して前記手書き内容の画素を置換することにより、前記入力画像から前記手書き内容を除去して前記出力画像を取得するステップは、前記置換画素を利用して前記手書き内容の画素を置換することにより、前記入力画像から前記手書き内容を除去して中間出力画像を取得することと、前記中間出力画像に対して二値化処理を行い、前記出力画像を取得することを含む。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記置換画素は、前記手書き内容の画素に基づいて、画素近傍計算に基づく画像復元アルゴリズムにより取得したものである。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記置換画素を取得するステップは、さらに、領域識別モデルを利用して前記入力画像を識別し、前記手書き領域を取得することを含み、前記置換画素は、前記手書き領域内の前記手書き内容の画素以外の任意の画素である。あるいは、前記置換画素は、前記手書き領域内の前記手書き内容の画素以外の全ての画素の画素値の平均値である。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記処理したいテキストページの入力画像を取得するステップは、前記処理したいテキストページの原画像を取得し、前記原画像が、処理したいテキスト領域を含むことと、前記原画像に対してエッジ検出を行い、前記原画像中の前記処理したいテキスト領域を確定することと、前記処理したいテキスト領域に対して改正(rectification)処理を行い、前記出力画像を取得することを含む。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、前記画像分割モデルは、前記入力画像を分割するための予め訓練されたU-Netモデルである。
選択的に、本発明が提供するテキスト画像中の手書き内容を除去する方法において、ガウシアンフィルタ関数により前記初期手書き画素に対してぼかし処理を行って、前記初期手書き画素の領域を拡大し、前記手書き画素マスク領域を取得する。
さらに、本発明は、テキスト画像中の手書き内容を除去する装置を提供する。この装置は、コンピュータ読み取り可能命令を非一時的に保存するためのメモリと、前記コンピュータ読み取り可能命令を実行するためのプロセッサを含み、前記コンピュータ読み取り可能命令は、前記プロセッサによって実行された時、前記任意の実施形態に基づくテキスト画像中の手書き内容を除去する方法を実行する。
さらに、本発明は、コンピュータ読み取り可能命令を非一時的に保存する記憶媒体を提供する。前記コンピュータ読み取り可能命令は、コンピュータによって実行された時、前記任意の実施形態に基づくテキスト画像中の手書き内容を除去する方法を実行することができる。
本発明の実施形態の技術方案をさらに明確に説明するため、以下、実施形態の添付の図面について簡単に紹介する。明らかに、以下に説明する添付の図面は、単なる本発明のいくつかの実施形態であって、本発明を限定するためのものではない。
図1は、本発明の1つの実施形態が提供するテキスト画像中の手書き内容を除去する方法の概略的フロー図である。 図2Aは、本発明の1つの実施形態が提供する原画像の概略図である。図2Bは、本発明の1つの実施形態が提供する出力画像の概略図である。 図3は、本発明の1つの実施形態が提供するテキスト画像中の手書き内容を除去する装置の概略的ブロック図である。 図4は、本発明の1つの実施形態が提供する記憶媒体の概略図である。 図5は、本発明の1つの実施形態が提供するハードウェア環境の概略図である。
以下、本発明の実施形態の目的、技術方案および利点をさらに明確にするために、本発明の実施形態の図面を参照しながら、本発明の実施形態の技術方案を明確且つ完全に説明する。下記の実施形態は、当然ながら、本発明の実施形態の一部のみであり、全ての実施形態ではない。本発明の実施形態に基づき、当業者が創造的労働をしない前提で得られる全ての他の実施形態は、いずれも本発明の保護範囲に含まれる。
本発明が使用する技術用語または科学技術用語は、特別に定義されていない場合、当業者が理解できる一般的な意味を有する。本発明において使用する「第1」、「第2」、および類似する用語は、順序、数量、または重要性を示すものではなく、異なる組成部分を区分するものにすぎない。「備える」または「含む」等に類似する用語は、当該用語の前に記載された素子または部材が、当該用語の後に挙げられる素子または部材、およびそれらと同等のものをカバーすることを指し、他の素子または部材を排除することではない。「接続」または「つながる」等に類似する用語は、物理的または機械的な接続に限定されるのではなく、直接的または間接的な接続にかかわらず、電気的な接続を含むことができる。「上」、「下」、「左」、「右」等は、相対的な位置関係を指すだけであり、説明された対象の絶対的な位置が変化した後、当該相対的な位置関係も対応して変化する可能性がある。
本発明の実施形態の以下の説明を明確且つ簡潔にするため、本発明は、既に知られている機能および既に知られている部材の詳細説明を省略している。
本発明の少なくとも1つの実施形態は、テキスト画像中の手書き内容を除去する方法および装置、ならびに記憶媒体を提供する。テキスト画像中の手書き内容を除去する方法は、処理したいテキストページの入力画像を取得し、入力画像が、手書き領域を含み、手書き領域が、手書き内容を含むことと、画像分割モデルを利用して前記入力画像を識別し、前記手書き内容の初期手書き画素を取得することと、前記初期手書き画素に対してぼかし処理を行って、手書き画素マスク領域を取得することと、手書き画素マスク領域に基づいて、前記手書き内容を確定することと、入力画像中の前記手書き内容を除去して、出力画像を取得することを含む。
当該テキスト画像中の手書き内容を除去する方法は、入力画像中の手書き領域内の手書き内容を有効に除去することができるため、単に印刷内容を含む画像またはファイルを出力するのに便利である。また、テキスト画像中の手書き内容を除去する方法は、使用者が入力画像を紙面形式で印刷して保存または配布しやすいように、入力画像を印刷に便利な形式に変換してもよい。
以下、図面と組み合わせて本発明の実施形態について詳しく説明するが、本発明は、これらの具体的な実施形態に限定されるものではない。
図1は、本発明の1つの実施形態が提供するテキスト画像中の手書き内容を除去する方法の概略的フロー図である。図2Aは、本発明の1つの実施形態が提供する原画像の概略図である。図2Bは、本発明の1つの実施形態が提供する出力画像の概略図である。
例えば、図1に示すように、本発明の実施形態が提供するテキスト画像中の手書き内容を除去する方法は、ステップS10~S14を含む。
図1に示すように、まず、テキスト画像中の手書き内容を除去する方法は、ステップS10において、処理したいテキストページの入力画像を取得する。
例えば、ステップS10において、入力画像は、手書き領域を含み、手書き領域は、手書き内容を含む。入力画像は、手書き内容を含む任意の画像であってもよい。
例えば、入力画像は、画像収集装置(例えば、デジタルカメラまたは携帯電話等)で撮影した画像であってもよく、入力画像は、グレースケール画像であっても、カラー画像であってもよい。説明すべきこととして、入力画像は、可視化方式で処理したいテキストページを表示する形式、例えば、処理したいテキストページの写真等を指す。
例えば、手書き領域は、一定の形状がなく、手書き内容に基づいて決定される。つまり、手書き内容を有する領域が手書き領域であり、手書き領域は、規則的な形状(例えば、矩形等)であっても、不規則な形状であってもよい。手書き領域は、充填領域、手書きの原稿、またはその他の手書きのマーク領域等を含むことができる。
例えば、入力画像は、さらに、テキスト印刷領域を含み、テキスト印刷領域は、印刷内容を含む。テキスト印刷の形状は、規則的な形状(例えば、矩形等)であっても、不規則な形状であってもよい。本発明の実施形態において、各手書き領域の形状が矩形であり、各テキスト印刷領域の形状が矩形である場合を例として説明するが、本発明はこれに限定されない。
例えば、処理したいテキストページは、書籍、新聞、雑誌、伝票、フォーム、契約書等を含むことができる。書籍、新聞、および雑誌は、文章や図を有する各種ファイルページを含み、伝票は、各種請求書、領収書、速達伝票等を含み、フォームは、例えば、年末集計フォーム、人事情報フォーム、価格集計フォーム、申込フォーム等の各種類のフォームを含むことができる。契約書は、各種形式の契約書テキストページ等を含むことができる。本発明は、処理したいテキストページの類型を具体的に限定しない。
例えば、処理したいテキストページは、紙面形式のテキストであっても、電子形式のテキストであってもよい。例えば、処理したいテキストページが伝票、例えば、速達伝票である場合、印刷内容は、各項目の標題文字を含むことができ、手書き内容は、使用者が記入した情報、例えば、氏名、住所、電話等(この時、情報は、使用者が記入した個人情報であり、一般情報ではない)を含むことができ、処理したいテキストページが文章類のテキストである場合、印刷内容は、文章内容であってもよく、手書き内容は、使用者の注釈やその他の手書きのマーク等であってもよい。処理したいテキストページがフォーム、例えば、人事情報フォームである場合、印刷内容は、「氏名」、「性別」、「民族」、「職歴」等の項目の標題文字を含むことができ、手書き内容は、使用者(例えば、従業員等)が人事情報フォームに記入した使用者の氏名、性別(男または女)、民族、および職歴等の手書きの情報を含むことができる。印刷内容は、各種記号、図形等を含んでもよい。
例えば、印刷を便利に行えるように、処理したいテキストページの形状は、矩形等の形状であってもよく、入力画像の形状は、規則的な形状(例えば、平行四辺形、矩形等)であってもよい。しかしながら、本発明はこれに限定されず、いくつかの実施形態において、入力画像は、不規則な形状であってもよい。
例えば、画像収集装置が画像を収集する時、画像に変形が生じることによって、入力画像のサイズと処理したいテキストページのサイズが異なる可能性があるが、本発明はこれに限定されず、入力画像のサイズと処理したいテキストページのサイズは、同じであってもよい。
例えば、処理したいテキストページは、印刷内容と手書き内容を含み、印刷内容は、印刷により得られた内容であってもよく、手書き内容は、使用者の手書きの内容であり、手書き内容は、手書きの文字符号を含むことができる。
説明すべきこととして、「印刷内容」は、入力装置によって電子機器に入力した文字、文字符号、図形等の内容を指すだけでなく、いくつかの実施形態において、処理したいテキストページが、例えば、ノート等の文字である時、ノートの内容は、使用者が手書きしたものであってもよく、この時、印刷内容は、手書きに用いる空白のノートのページ上の印刷内容、例えば、横線等である。
例えば、印刷内容は、各種言語の文字、例えば、中国語(例えば、漢字またはピンイン)、英語、日本語、フランス語、韓国語等を含んでもよい。また、印刷内容は、さらに、数字、各種記号(例えば、チェック、クロス、および各種演算子等)および各種図形等を含むことができる。手書き内容も、各種言語の文字、数字、各種記号および各種図形等を含むことができる。
例えば、図2Aに示した例において、処理したいテキストページ100は、フォームであり、4本の境界線(直線101A~101D)によって囲まれた領域は、処理したいテキストページに対応する処理したいテキスト領域100を示す。当該処理したいテキスト領域100において、印刷領域は、フォーム領域を含み、印刷内容は、各項目の文字、例えば、氏名、生年月日等を含むことができ、印刷内容は、処理したいテキスト領域100の右上角にあるロゴ(logo)図形(黒塗り加工済み)等を含んでもよい。手書き領域は、手書き情報領域を含み、手書き内容は、使用者が手書きした個人情報、例えば、使用者が手書きした氏名、生年月日情報、健康情報、チェック記号等を含むことができる。
例えば、入力画像は、複数の手書き内容および複数の印刷内容を含むことができる。複数の手書き内容は、互いに間隔が空いており、複数の印刷内容も、互いに間隔が空いている。例えば、複数の手書き内容中の一部の手書き内容は、同じであってもよい(つまり、手書き内容の文字符号は同じであるが、手書き内容の具体的な形状は異なる)。複数の印刷内容中の一部の印刷内容も、同じであってもよい。本発明は、これに限定されず、複数の手書き内容は、互いに異なっていてもよく、複数の印刷内容も、互いに異なっていてもよい。
例えば、いくつかの実施形態において、ステップS10は、処理したいテキストページの原画像を取得し、原画像が、処理したいテキスト領域を含むことと、原画像に対してエッジ検出を行い、原画像中の処理したいテキスト領域を確定することと、処理したいテキスト領域に対して改正処理を行い、入力画像を取得することを含むことができる。
例えば、ニューラルネットワークまたはOpenCVのエッジ検出アルゴリズム等の方法を採用して、原画像に対してエッジ検出を行い、処理したいテキスト領域を確定することができる。例えば、OpenCVは、オープン・ソース・コンピュータ・ヴィジョン・ライブラリであり、OpenCVに基づくエッジ検出アルゴリズムは、ソーベル(Sobel)、スカリー(Scarry)、キャニー(Canny)、ラプラシアン(Laplacian)、プルウィット(Prewitt)、マール-ヒルドレス(Marr-Hildreth)、シャール(Scharr)等の多種類のアルゴリズムを含む。
例えば、原画像に対してエッジ検出を行い、原画像中の処理したいテキスト領域を確定するステップは、原画像に対して処理を行い、原画像中のグレースケール輪郭の線画を取得し、線画が、複数の線を含むことと、線画中の類似する線を併合して、複数の初期併合線を取得するとともに、複数の初期併合線に基づいて、境界マトリクスを確定することと、複数の初期併合線中の類似する線を併合して、目標線を取得するとともに、併合していない初期併合線も目標線として使用することにより、複数の目標線を取得することと、境界マトリクスに基づいて、複数の目標線の中から複数の参考境界線を確定することと、予め訓練した境界線領域識別モデルにより原画像に対して処理を行い、原画像中の処理したいテキストページの複数の境界線領域を取得することと、各境界線領域に対して、複数の参考境界線の中から当該境界線領域に対応する目標境界線を確定することと、確定した複数の目標境界線に基づいて、原画像中の処理したいテキスト領域のエッジを確定することを含むことができる。
例えば、いくつかの実施形態において、原画像に対して処理を行い、原画像中のグレースケール輪郭の線画を取得するステップは、OpenCVに基づくエッジ検出アルゴリズムにより原画像に対して処理を行い、原画像中のグレースケール輪郭の線画を取得することを含む。
例えば、線画中の類似する線を併合して、複数の初期併合線を取得するステップは、線画中の長い線を取得し、長い線が、第1所定しきい値を超える長さの線であることと、長い線の中から複数組の第1種別線を取得し、第1種別線が、順番に隣接する少なくとも2本の長い線を含み、且つ任意の隣接する2本の長い線の間の夾角が、いずれも第2所定しきい値より小さいことと、各組の第1種別線に対して、当該組の第1種別線中の各長い線を順番に併合して、1本の初期併合線を取得することを含む。
例えば、境界マトリクスは、以下の方法に基づいて確定される。複数の初期併合線および長い線中の併合されていない線を再描画し、再描画した全ての線の中の画素点の位置情報を全ての原画像のマトリクス内に対応させて、原画像のマトリクス内のこれらの線の画素点が位置する値を第1数値として設定し、これらの線以外の画素点が位置する値を第2数値として設定することによって、境界マトリクスを形成する。
例えば、複数の初期併合線中の類似する線を併合して、目標線を取得するステップは、複数の初期併合線の中から複数組の第2種別線を取得し、第2種別線が、順番に隣接する少なくとも2本の長い線を含み、且つ任意の隣接する2本の長い線の間の夾角が、いずれも第3所定しきい値より小さいことと、各組の第2種別線に対して、当該組の第2種別線中の各初期併合線を順番に併合して、1本の初期併合線を取得することを含む。
例えば、第1所定しきい値は、2つの画素の長さであってもよく、第2所定しきい値と第2所定しきい値は、15度であってもよい。説明すべきこととして、第1所定しきい値、第2所定しきい値、および第3所定しきい値は、実際の応用要求に応じて設定することができる。
例えば、境界マトリクスに基づいて、複数の目標線の中から複数の参考境界線を確定するステップは、各目標線に対して、当該目標線を延長し、延長後の当該目標線に基づいて、線マトリクスを確定した後、当該線マトリクスと境界マトリクスを比較して、延長後の当該目標線上の境界マトリクスに属する画素点の個数を計算し、当該目標線の成績とする、すなわち、当該線マトリクスと境界マトリクスを比較して、いくつの画素点が境界マトリクスの中に入っているかを判断する、つまり、2つのマトリクス中にいくつの同じ位置の画素点が同じ第1数値、例えば、255を有するかを判断することによって、成績を計算し、線マトリクスと境界マトリクスの大きさが同じであることと、各目標線の成績に基づいて、複数の目標線の中から複数の参考境界線を確定することを含む。説明すべきこととして、成績が最も良い目標線の数量は、おそらく複数であるため、各目標線の成績に基づいて、複数の目標線の中から成績が最も良い複数の目標線を参考境界線として確定する。
例えば、線マトリクスは、以下の方法に基づいて確定される。延長後の目標線または直線を再描画し、再描画した線の中の画素点の位置情報を全ての原画像のマトリクスの中に対応させて、原画像のマトリクス中の線の画素点が位置する値を第1数値として設定し、線以外の画素点が位置する値を第2数値として設定することによって、線マトリクスを形成する。
例えば、各境界線領域に対して、複数の参考境界線の中から当該境界線領域に対応する目標境界線を確定するステップは、各参考境界線の傾斜率を計算することと、各境界線領域に対して、ハフ変換を利用して当該境界線領域を複数の直線に変換するとともに、複数の直線の平均傾斜率を計算してから、複数の参考境界線の中に傾斜率と平均傾斜率が互いに一致する参考境界線が存在するかどうかを判断し、存在する場合に、当該参考境界線を当該境界線領域に対応する目標境界線として判断することと、複数の参考境界線の中に傾斜率と平均傾斜率が互いに一致する参考境界線が存在しないと判断した場合に、当該境界線領域を変換して得られた各直線に対して、当該直線が形成した線マトリクスと境界マトリクスを比較し、当該直線上の境界マトリクスに属する画素点の個数を計算して、当該直線の成績とすることと、成績が最も良い直線を当該境界線領域に対応する目標境界線として確定することを含み、線マトリクスと境界マトリクスの大きさは、同じである。説明すべきこととして、成績が最も良い直線が複数ある場合、排除アルゴリズムに基づいて、その中で最初に出現した1本の直線を最良の境界線とする。
例えば、境界線領域識別モデルは、ニューラルネットワークに基づくモデルである。境界線領域識別モデルは、機械学習トレーニングにより確率することができる。
例えば、原画像に対してエッジ検出を行った後、複数の目標境界線(例えば、4本の目標境界線)を確定することができ、処理したいテキスト領域は、複数の目標境界線により確定される。例えば、複数の目標境界線の複数の交点および複数の目標境界線に基づいて、処理したいテキスト領域を確定することができ、各2本の隣接する目標境界線が交差して1つの交点が得られ、複数の交点と複数の目標境界線は、共同で原画像中の処理したいテキストが存在する領域を限定する。例えば、図2Aに示した例において、処理したいテキスト領域は、4本の目標境界線で囲まれたテキスト領域であってもよい。4本の目標境界線は、いずれも直線であり、4本の目標境界線は、それぞれ第1目標境界線101A、第2目標境界線101B、第3目標境界線101C、および第4目標境界線101Dである。処理したいテキスト領域の他に、原画像は、非テキスト領域、例えば、図2Aの4本の目標境界線で形成された領域以外の領域を含んでもよい。
例えば、いくつかの実施形態において、処理したいテキスト領域に対して改正処理を行い、出力画像を取得するステップは、処理したいテキスト領域に対して透視変換(perspective transformation)を行って、処理したいテキスト領域の正面図を取得することを含み、当該正面図は、入力画像である。透視変換は、画像を視野平面(viewing plane)に投影する技術であり、投影マッピング(projective mapping)とも称される。撮影により得られた原画像において、処理したいテキストの実際の形状は、原画像中で変化が生じる、すなわち、幾何学的歪みが生じる。図2Aに示した原画像において、処理したいテキスト(すなわち、フォーム)の形状は、本来、矩形であるが、原画像中の処理したいテキストの形状に変化が生じて、不規則な多角形に変わっている。したがって、原画像中の処理したいテキスト領域に対して透視変換を行って、処理したいテキスト領域を不規則な多角形から矩形または平行四辺形等に変換する、すなわち、処理したいテキスト領域に対して改正(rectification)を行うことにより、幾何学的歪みの影響を除去し、原画像中の処理したいテキストの正面図を取得することができる。透視変換は、空間投影換算座標に基づいて処理したいテキスト領域内の画素を処理することにより、処理したいテキストの正面図を取得することができるが、ここでは詳しい説明を省略する。
説明すべきこととして、別のいくつかの実施形態において、処理したいテキスト領域に対して改正処理を行わずに、原画像の中から処理したいテキスト領域を直接切り取って、単一の処理したいテキスト領域の画像を取得してもよく、当該単一の処理したいテキスト領域の画像は、入力画像である。
例えば、原画像は、画像収集装置が直接収集した画像であってもよく、画像収集装置が直接収集した画像に対して前処理を行った後に得られた画像であってもよい。原画像は、グレースケール画像であっても、カラー画像であってもよい。例えば、原画像のデータ品質、データ不均衡等のテキスト画像中の手書き内容の除去に影響を及ぼすのを避けるため、原画像を処理する前に、本発明の実施形態が提供するテキスト画像中の手書き内容を除去する方法は、原画像に対して前処理の操作を行うことを含んでもよい。前処理は、原画像中の無関係な情報またはノイズ情報を消去することにより、原画像に対してより便利に処理を行うことができる。前処理は、例えば、画像収集装置が直接収集した画像に対して拡大縮小、切り抜き、ガンマ(gamma)補正、画像強調、またはノイズリダクションフィルタ等の処理を行うことを含むことができる。
注意すべきこととして、いくつかの実施形態において、原画像を入力画像としてもよく、この状況では、例えば、原画像に対して直接識別を行って、原画像中の手書き内容を確定した後、原画像中の手書き内容を除去して、出力画像を取得することができる。あるいは、原画像に対して直接識別を行って、原画像中の手書き内容を確定した後、原画像中の手書き内容を除去して、中間出力画像を取得し、その後、中間出力画像に対してエッジ検出を行って、中間出力画像中の処理したいテキスト領域を確定し、処理したいテキスト領域に対して改正処理を行って、出力画像を取得することができる。すなわち、本発明のいくつかの実施形態において、まず、原画像中の手書き内容を除去して、中間出力画像を取得してから、中間出力画像に対してエッジ検出および改正処理を行うことができる。
続いて、図1に示すように、ステップS11において、画像分割モデルを利用して、前記入力画像に対して識別を行い、前記手書き内容の初期手書き画素を取得する。
例えば、画像分割モデルは、入力画像に対して領域識別(または区分け)を行ったモデルを示し、画像分割モデルは、機械学習技術(例えば、畳み込みニューラルネットワーク技術)を採用して実現されるとともに、例えば、汎用コンピュータまたは専用コンピュータ上で実行されるモデルであり、当該画像分割モデルは、予め訓練されたモデルである。例えば、画像分割モデルを応用するニューラルネットワークは、深層畳み込みニューラルネットワーク、マスク領域畳み込みニューラルネットワーク(Mask-RCNN)、深層残差ネットワーク、注意力モデル等の他のニューラルネットワークモデルにより同じ機能を実現してもよいが、ここでは多くを限定しない。
例えば、画像分割モデルを利用して前記入力画像に対して識別を行い、U-Netモデルを採用する。これは、改良されたFCN(fully convolutional network、完全畳み込みネットワーク)構造であり、FCNを用いてセマンティックセグメンテーション(semantic segmentation)を行う、すなわち、畳み込み層、プーリング層を利用して特徴抽出を行ってから、逆畳み込み層を利用して原画像のサイズを還元するものである。U-Netネットワークモデルは、画像分割に用いるより優れた性能のモデルである。ディープラーニングは、分類問題の解決に優れており、ディープラーニングのこの特徴を利用して、画像分割を行う。その本質は、画像中の各画素点を分類することである。最終的に、異なる類別の点を異なるチャネルでマークされ、目標領域内の特徴情報を分類およびマークする効果を達成することができる。 U-Netモデルにより、入力画像において前記手書き内容の初期手書き画素を確定することができ、同様に、例えば、Mask-RCNN等のその他のニューラルネットワークモデルにより前記手書き内容の初期手書き画素の確定を実現することもできる。
続いて、図1に示すように、ステップS12において、前記初期手書き画素に対してぼかし処理を行って、手書き画素マスク領域を取得する。画像分割モデルにより、前記入力画像に対して識別を行う。得られた初期手書き画素は、おそらく全ての手書き画素ではないが、その他の脱落した手書き画素は、通常、前記初期手書き画素に隣接しているため、前記初期手書き画素に対してぼかし処理を行って、手書き画素領域を拡大し、手書き画素マスク領域を取得する必要があり、前記手書き画素マスク領域は、基本的に、全ての手書き画素を含む。
例えば、OpenCVに基づくガウシアンフィルタのガウシアンぼかし(GaussianBlur)関数により初期手書き画素に対してガウシアンぼかし処理を行って、初期手書き画素領域を拡大することにより、手書き画素マスク領域を取得することができる。ガウシアンフィルタは、入力配列(input array)の各点と入力したガウシアンフィルタテンプレートに対して畳み込み演算(convolution calculation)を行った後、これらの結果からフィルタリング後の出力配列を構成するものであり、初期手書き画素の画像に対して加重平均を行うプロセスである。各画素点の値は、いずれもそれ自身と近傍のその他の画素値によって加重平均した後に得られる。ガウシアンぼかし処理により処理を行った後、手書き画素画像は、不明瞭になるが、その領域は、拡大される。例えば、その他の任意のぼかし処理技術を採用して、初期手書き画素に対してぼかし処理を行ってもよいが、ここでは多くを限定しない。
続いて、図1に示すように、ステップS13において、手書き画素マスク領域に基づいて、前記手書き内容を確定する。手書き画素マスク領域に基づくとともに、初期手書き画素を組み合わせることによって、基本的に、手書き内容の全ての手書き画素を確定し、手書き内容を確定する。
続いて、図1に示すように、ステップS14において、前記入力画像中の前記手書き内容を除去して、出力画像を取得する。
例えば、本発明の第1の好適な実施形態において、ステップS12において手書き画素マスク領域を取得した後、手書き画素マスク領域の入力画像中の位置を確定し、続いて、入力画像中の対応位置の領域に移動して非手書き画素を確定することができる。前記初期手書き画素の画素値に基づいて、前記入力画像中の手書き画素マスク領域の位置に対応する対応領域において画素値差が比較的大きなその他の画素を検索し、それを非手書き画素として確定する。例えば、画素差のしきい値を設定することができ、領域に画素差がしきい値範囲以外の画素がある時、それを非手書き画素として確定する。
続いて、前記入力画像中の前記手書き画素マスク領域の内容を除去して、中間出力画像を取得する。
例えば、OpenCVに基づくインペイント(inpaint)関数により手書き画素マスク領域の内容の除去を行うことができる。OpenCVに基づくインペイント関数は、領域近傍を使用して、画像中の選択された領域を復元する、すなわち、前記入力画像中の手書き画素マスク領域の位置に対応する対応領域内の画素を、近傍画素を使用して復元することによって、前記入力画像中の前記手書き画素マスク領域の内容を除去する効果を達成するとともに、中間出力画像を取得する。
続いて、前記中間出力画像に対して前記手書き画素マスク領域内の非手書き画素復元を実行し、前記出力画像を取得する。
例えば、入力画像中の前記手書き画素マスク領域内の非手書き画素の画素値を取得するとともに、前記中間出力画像中の対応位置にある画素を直接置換することによって、当該位置に対する非手書き画素復元が完了し、最後に、前記出力画像を取得する。
例えば、本発明の別の好適な実施形態において、ステップS12において手書き画素マスク領域を取得した後、手書き画素マスク領域の入力画像中の位置を確定し、続いて、入力画像中の対応位置の領域に移動して、非手書き画素を確定することができる。前記初期手書き画素の画素値に基づいて、前記入力画像中の手書き画素マスク領域の位置に対応する対応領域において画素値差が比較的大きなその他の画素を検索し、それを非手書き画素として確定する。例えば、画素差のしきい値を設定することができ、領域に画素差がしきい値範囲以外の画素がある時、それを非手書き画素として確定する。
続いて、前記手書き画素マスク領域内の非手書き画素および前記手書き画素マスク領域に基づいて、前記入力画像中の前記手書き内容を除去して、前記出力画像を取得する。つまり、前記手書き画素マスク領域において非手書き画素を排除することによって、その他の部分の画素が除去されるため、誤って除去されないように非手書き画素を保留し、最後に、前記出力画像を取得する。
例えば、OpenCVに基づくインペイント関数により非手書き画素を排除した手書き画素マスク領域の内容の除去を行うことができる。OpenCVに基づくインペイント関数は、領域近傍を使用して、画像中の選択された領域を復元する。すなわち、前記入力画像中の手書き画素マスク領域の位置に対応する対応領域内の非手書き画素以外のその他の画素を、近傍画素を使用して復元することによって、前記入力画像中の前記手書き画素マスク領域の内容を除去する効果を達成する。
例えば、本発明の別の好適な実施形態において、前記入力画像中の前記手書き内容を除去して、出力画像を取得するステップは、前記入力画像の中から前記手書き内容を切り取って除去し、中間出力画像を取得することと、中間出力画像に対して二値化処理を行い、出力画像を取得することを含む。
二値化処理は、中間出力画像上の画素点のグレースケール値を0または255に設定する処理である。つまり、中間出力画像全体を明確な白黒効果で表示させるプロセスであり、二値化処理は、中間出力画像のデータ量を大幅に減らすことができるため、目標の輪郭を明確に示すことができる。二値化処理は、中間出力画像を白と黒のコントラストが比較的はっきりしたグレースケール画像(すなわち、出力画像)に変換することができ、変換後のグレースケール画像は、ノイズ干渉が比較的少ないため、出力画像中の内容の識別度および印刷効果を有効に上げることができる。
例えば、入力画像の中から前記手書き内容を切り取って除去した後、手書き内容に対応する領域内の画素は、全て除去される。つまり、入力画像中の手書き内容に対応する領域の画素が空になるため、画素を有さない。中間出力画像に対して二値化処理を行った時、中間出力画像中の画素が空になった領域は、いかなる処理も行わない。あるいは、中間出力画像に対して二値化処理を行った時、中間出力画像中の画素が空になった領域をグレースケール値255で充填してもよい。それにより、処理後のテキスト画像が一つの全体を形成するため、醜い手書き内容の空洞領域が出現しない。
例えば、中間出力画像に対して二値化処理を行った後、最後に、使用者が当該出力画像を紙面形式で印刷するのに便利な出力画像が得られる。例えば、入力画像がフォームである場合、他の使用者が記入できるように出力画像を紙面形式で印刷することができる。
例えば、二値化処理の方法は、しきい値法であってもよく、しきい値法は、二値化しきい値を設定して、中間出力画像中の各画素の画素値と二値化しきい値を比較し、中間出力画像中のある画素の画素値が二値化しきい値より大きい場合、その画素の画素値を255階調に設定し、中間出力画像中のある画素の画素値が二値化しきい値より小さい場合、その画素の画素値を0階調に設定することにより、中間出力画像に対する二値化処理を実現することができる。
例えば、二値化しきい値の選択方法は、モード法、Pタイル法、大津の方法、最大エントロピー法、反復法等を含む。
例えば、いくつかの実施形態において、中間出力画像に対して二値化処理を行うステップは、中間出力画像を取得することと、中間出力画像に対してグレー化処理を行い、中間出力画像のグレースケール画像を取得することと、第1しきい値に基づいて、グレースケール画像に対して二値化処理を行い、中間出力画像の二値化画像を取得することと、二値化画像をガイド図とし、グレースケール画像に対してガイデッドフィルタ(guided filter)処理を行い、フィルタ画像を取得することと、第2しきい値に基づいて、フィルタ画像中の高い値の画素点を確定し、高い値の画素点のグレースケール値が第2しきい値より大きいことと、所定の拡大係数に基づいて、高い値の画素点のグレースケール値に対して拡大処理を行い、拡大画像を取得することと、拡大画像に対して鮮鋭化処理を行い、鮮鋭な画像を取得することと、鮮鋭な画像のコントラストを調整し、出力画像を取得することを含む。
例えば、グレー化処理の方法は、分量法、最大値法、平均値法、および加重平均法等を含む。
例えば、所定の拡大係数は、1.2~1.5であり、例えば、1.3である。それぞれの高い値の画素点のグレースケール値と全て所定の拡大係数を掛け算して、高い値の画素点のグレースケール値に対して拡大処理を行うことにより、白と黒のコントラストがさらに明確な拡大画像を取得することができる。
例えば、第2しきい値は、フィルタ画像のグレースケール平均値とグレースケール値の標準偏差の和である。
例えば、拡大画像に対して鮮鋭化処理を行い、鮮鋭な画像を取得するステップは、ガウシアンフィルタを採用して拡大画像に対してぼかし処理を行い、ぼやけた画像を取得することと、所定の混合係数に基づいて、ぼやけた画像と拡大画像を比例して混合し、鮮鋭な画像を取得することを含む。
例えば、f1(i,j)が、拡大画像の(i,j)にある画素点のグレースケール値であり、f2(i,j)が、ぼやけた画像のf2(i,j)にある画素点のグレースケール値であり、f3(i,j)が、鮮鋭な画像の(i,j)にある画素点のグレースケール値であり、k1が、拡大画像の所定の混合係数であり、k2が、ぼやけた画像の所定の拡大係数であると仮定すると、f1(i,j)、f2(i,j)、f3(i,j)は、以下の関係を満たす。
Figure 2023523152000002
例えば、拡大画像の所定の混合係数は、1.5であり、ぼやけた画像の所定の拡大係数は、-0.5である。
例えば、鮮鋭な画像のコントラストを調整するステップは、鮮鋭な画像のグレースケール平均値に基づいて、鮮鋭な画像の各画素点のグレースケール値を調整することを含む。
例えば、以下の式により、鮮鋭な画像の各画素点のグレースケール値を調整することができる。
Figure 2023523152000003
式中、f’(i,j)は、強調画像の(i,j)にある画素点のグレースケール値であり、
Figure 2023523152000004
は、鮮鋭な画像のグレースケール平均値であり、f(i,j)は、鮮鋭な画像の(i,j)にある画素点のグレースケール値であり、tは、強度値である。例えば、強度値は、0.1~0.5であってもよく、例えば、強度値は、0.2であってもよい。実際の応用において、強度値は、最終的に達成したい白黒強調効果に基づいて選択することができる。
例えば、図1に示すように、ステップS14は、置換画素を取得することと、置換画素を利用して手書き内容の画素を置換することにより、入力画像から手書き内容を除去して出力画像を取得することを含む。
例えば、置換画素は、手書き画素マスク領域外部の隣接画素、つまり、現在置換の必要な手書き画素の手書き画素マスク領域外部において隣接する画素であってもよく、同様に、OpenCVに基づくインペイント関数を利用して直接画素置換処理を行ってもよい。
例えば、領域識別の方法を採用して手書き画素置換処理を行ってもよい。まず、領域識別モデルにより手書き領域を取得する。置換画素は、手書き領域内の手書き内容の画素以外の任意の1つの画素の画素値であってもよい。あるいは、置換画素は、手書き領域内の手書き内容の画素以外の全ての画素の画素値の平均値(例えば、幾何平均値)であってもよい。あるいは、置換画素値は、固定値(例えば、255階調値)であってもよい。説明すべきこととして、例えば、U-Netモデル等の画像分割モデルを利用して手書き領域内の手書き内容の画素以外の任意の1つの画素を抽出することにより、置換画素を得ることができる。あるいは、例えば、U-Netモデル等の画像分割モデルを利用して手書き領域内の手書き内容の画素以外の全ての画素を抽出してから、全ての画素の画素値に基づいて、置換画素を得ることができる。
例えば、置換画素を利用して手書き内容の画素を置換することにより、入力画像から手書き内容を除去して出力画像を取得するステップは、置換画素を利用して手書き内容の画素を置換することにより、入力画像から手書き内容を除去して中間出力画像を取得することと、中間出力画像に対して二値化処理を行い、出力画像を取得することを含む。
説明すべきこととして、領域識別モデルが領域識別、二値化処理等を行う説明は、上述した関連説明を参照することができるため、ここでは繰り返し説明しない。
例えば、図2Aが示す原画像に対してテキスト画像中の手書き内容の除去処理を行った後、図2Bに示す出力画像を取得することができ、当該出力画像は、二値化後の画像である。図2Bに示すように、当該出力画像において、全ての手書き内容がいずれも除去されるため、それにより、使用者が記入した情報のない空白のフォームが得られる。
説明すべきこととして、本発明の実施形態において、モデル(例えば、領域識別モデル、画像分割モデル等の任意のモデル)は、単なる数学モデルではなく、入力データを受信し、データ処理を実行し、処理結果を出力するモジュールであってもよく、当該モジュールは、ソフトウェアモジュール、ハードウェアモジュール(例えば、ハードウェアニューラルネットワーク)であってもよく、またはソフトウェアとハードウェアを組み合わせた方法を採用して実現してもよい。いくつかの実施形態において、領域識別モジュールおよび/または画像分割モジュールは、メモリに保存するコードおよびプログラムを含む。プロセッサは、当該コードおよびプログラムを実行して、上述した領域識別モジュールおよび/または画像分割モジュールのいくつかの機能または全ての機能を実現することができる。さらにいくつかの実施形態において、領域識別モジュールおよび/または画像分割モジュールは、上述した機能を実現するために、1つの回路基板または複数の回路基板の組み合わせを含むことができる。いくつかの実施形態において、当該1つの回路基板または複数の回路基板の組み合わせは、(1)1つまたは複数のプロセッサ、(2)プロセッサに接続された1つまたは複数の非一時的なコンピュータ読み取り可能なメモリ、および(3)プロセッサによって実行可能なメモリに保存されたファームウェアを含むことができる。
理解すべきこととして、本発明の実施形態において、入力画像を取得する前に、テキスト画像中の手書き内容を除去する方法は、訓練段階を含む。訓練段階は、領域識別モデルと画像分割モデルに対して訓練を行うプロセスを含む。説明すべきこととして、領域識別モジュールおよび画像分割モジュールは、別々に訓練してもよく、あるいは、領域識別モジュールおよび画像分割モジュールに対して同時に訓練を行ってもよい。
例えば、領域識別モデルは、テキスト印刷領域(例えば、マークされたテキスト印刷領域の数量は、少なくとも1つ)および手書き領域(例えば、マークされた手書き領域の数量は、少なくとも1つ)でマークされた第1のサンプル画像を使用して)、訓練したい領域識別モデルを訓練することによって取得され得る。例えば、訓練したい領域識別モデルの訓練プロセスは、訓練段階において、テキスト印刷領域および手書き領域でマークされた複数の第1サンプル画像を利用して訓練したい領域識別モデルを訓練し、領域識別モデルを取得することを含む。
例えば、複数の第1サンプル画像を利用して訓練したい領域識別モデルを訓練するステップは、複数の第1サンプル画像から現在の第1サンプル画像を取得することと、訓練したい領域識別モデルを利用して現在の第1サンプル画像を処理し、訓練したテキスト印刷領域および訓練した手書き領域を取得することと、現在の第1サンプル画像中のマークされたテキスト印刷領域および手書き領域と訓練したテキスト印刷領域および訓練した手書き領域に基づいて、第1損失関数により、訓練したい領域識別モデルの第1損失値を計算することと、第1損失値に基づいて、訓練したい領域識別モデルのパラメータに対して修正を行い、第1損失関数が第1所定条件を満たしている場合に、訓練が完了した領域識別モデルを取得し、第1損失関数が第1所定条件を満たしていない場合に、第1サンプル画像を継続して入力し、上述した訓練プロセスを繰り返し実行することを含む。
例えば、1つの例において、上述した第1所定条件が一定数量を入力した第1サンプル画像に対応する状況では、第1損失関数の第1損失が収斂する(すなわち、第1損失値は、著しく減少しない)。例えば、別の例において、上述した第1所定条件は、訓練回数または訓練周期が達成する所定の数量である(例えば、当該所定数量は、数百万であってもよい)。
例えば、画像分割モデルは、手書き内容の画素でマークされた第2サンプル画像を介して、訓練したい画像分割モデルを訓練することによって取得され得る。第2サンプル画像中の手書き内容の画素をマークする時、第2サンプル画像を拡大することによって、全ての手書き内容の画素に確実にマークすることができる。各手書き内容の特徴(例えば、画素グレースケール特徴、フォント特徴等)に基づいて機械学習を行い、画像分割モデルを確立することができる。
例えば、訓練したい画像分割モデルの訓練プロセスは、訓練段階において、手書き内容の画素でマークされた複数の第2サンプル画像を利用して訓練したい画像分割モデルを訓練し、画像分割モデルを取得することを含む。
例えば、複数の第2サンプル画像を利用して訓練したい画像分割モデルを訓練するステップは、複数の第2サンプル画像から現在の第2サンプル画像を取得することと、訓練したい画像分割モデルを利用して現在の第2サンプル画像を処理し、訓練した手書き内容の画素を取得することと、現在の第2サンプル画像中のマークされた手書き内容の画素および訓練した手書き内容の画素に基づいて、第2損失関数により、訓練したい画像分割モデルの第2損失値を計算することと、第2損失値に基づいて、訓練したい画像分割モデルのパラメータに対して修正を行い、第2損失関数が第2所定条件を満たしている場合に、訓練が完了した画像分割モデルを取得し、第2損失関数が第2所定条件を満たしていない場合に、第2サンプル画像を継続して入力し、上述した訓練プロセスを繰り返し実行することを含む。
例えば、1つの例において、上述した第2所定条件が一定数量を入力した第2サンプル画像に対応する状況では、第2損失関数の第2損失が収斂する(すなわち、第2損失値は、著しく減少しない)。例えば、別の例において、上述した第2所定条件は、訓練回数または訓練周期が達成する所定の数量である(例えば、当該所定数量は、数百万であってもよい)。
当業者であれば理解できるように、複数の第1サンプル画像と複数の第2サンプル画像は、同じであっても、異なっていてもよい。
本発明の少なくとも1つの実施形態は、さらに、テキスト画像中の手書き内容を除去する装置を提供する。図3は、本発明の1つの実施形態が提供するテキスト画像中の手書き内容を除去する装置の概略的ブロック図である。
図3に示すように、当該テキスト画像中の手書き内容を除去する装置300は、プロセッサ302およびメモリ301を含む。注意すべきこととして、図3に示したテキスト画像中の手書き内容を除去する装置300の構成部品は、単なる例であって、限定するものではない。実際の応用要求に応じて、当該テキスト画像中の手書き内容を除去する装置300は、その他の構成部品を有してもよい。例えば、メモリ301は、コンピュータ読み取り可能命令を非一時的に保存するために使用され、プロセッサ302は、コンピュータ読み取り可能命令を実行するために使用され、コンピュータ読み取り可能命令がプロセッサ302によって実行された時、上述した任意の実施形態に基づくテキスト画像中の手書き内容を除去する方法を実行する。
本発明の実施形態が提供するテキスト画像中の手書き内容を除去する装置300は、本発明の実施形態が提供するテキスト画像中の手書き内容を除去する方法を実現するために使用することができ、当該テキスト画像中の手書き内容を除去する装置300は、電子機器に配置されてもよい。当該電子機器は、パソコン、携帯端末等であってもよく、当該携帯端末は、携帯電話、タブレットPC等の各種操作システムを有するハードウェア機器であってもよい。
例えば、図3に示すように、テキスト画像中の手書き内容を除去する装置300は、画像取得素子303を含んでもよい。画像取得素子303は、テキスト画像、例えば、紙面テキストの画像を取得するために使用される。メモリ301は、テキスト画像を保存するために使用してもよい。プロセッサ302は、テキスト画像を読み取って処理し、入力画像を取得するために使用してもよい。説明すべきこととして、テキスト画像は、上述したテキスト画像中の手書き内容を除去する方法の実施形態において説明した原画像であってもよい。
例えば、画像取得素子303は、上述したテキスト画像中の手書き内容を除去する方法の実施形態において説明した画像収集装置であってもよく、例えば、画像取得素子303は、スマートフォンのカメラ、タブレットPCのカメラ、パソコンのカメラ、デジタルカメラのレンズ、ウェブカメラ、およびその他の画像収集に用いる装置であってもよい。
例えば、図3に示す実施形態において、画像取得素子303、メモリ301、およびプロセッサ302等は、物理的に同じ電子機器の内部に統合されてもよく、画像取得素子303は、電子機器に配置されたカメラであってもよい。メモリ301およびプロセッサ302は、内部バスを介して画像取得素子303から送信された画像を受信する。また、例えば、画像取得素子303およびメモリ301/プロセッサ302は、物理的位置において、分離して配置することができ、メモリ301およびプロセッサ302は、第1使用者の電子機器(例えば、第1使用者のコンピュータ、携帯電話等)に統合することができ、画像取得素子303は、第2使用者の電子機器(第1使用者と第2使用者は異なる)の電子機器に統合することができる。第1使用者の電子機器と第2使用者の電子機器は、物理的位置において、分離して配置することができ、且つ第1使用者の電子機器と第2使用者の電子機器の間は、有線または無線の方法で通信することができる。つまり、第2使用者の電子機器にある画像取得素子303により原画像を収集した後、第2使用者の電子機器は、有線または無線の方法で当該原画像を第1使用者の電子機器に送信することができ、第1使用者の電子機器は、当該原画像を受信して、当該原画像に対して後続の処理を行う。例えば、メモリ301およびプロセッサ302は、クラウドサーバーに統合されてもよく、クラウドサーバーは、原画像を受信して、原画像に対して処理を行う。
例えば、テキスト画像中の手書き内容を除去する装置300は、出力装置を含んでもよく、出力装置は、当該出力画像を出力するために使用される。例えば、出力装置は、ディスプレイ(例えば、有機発光ダイオードディスプレイ、液晶ディスプレイ等)、プロジェクタ等を含むことができ、ディスプレイおよびプロジェクタは、出力画像を表示するために使用することができる。説明すべきこととして、出力装置は、プリンタを含んでもよく、プリンタは、出力画像を印刷するために使用される。
例えば、プロセッサ302およびメモリ301等の構成部品の間は、ネットワーク接続により通信を行うことができる。ネットワークは、無線ネットワーク、有線ネットワーク、および/または無線ネットワークと有線ネットワークの任意の組み合わせを含むことができる。ネットワークは、ローカルエリアネットワーク、インターネット、電気通信ネットワーク、インターネットおよび/または電気通信ネットワークに基づくモノのインターネット(Internet of Things)、および/またはこれらのネットワークの任意の組み合わせ等を含むことができる。有線ネットワークは、例えば、ツイストペアケーブル、同軸ケーブル、または光ファイバー伝送等の方法を採用して通信を行うことができ、無線ネットワークは、例えば、3G/4G/5G移動通信ネットワーク、ブルートゥース、ZigbeeまたはWiFi等の通信方法を採用することができる。本発明は、ネットワークの類型および機能を限定しない。
例えば、プロセッサ302は、テキスト画像中の手書き内容を除去する装置300内のその他の構成部品を制御して、所望の機能を実行することができる。プロセッサ302は、中央処理装置(central processing unit, CPU)、テンソル・プロセッシング・ユニット(tensor processing unit, TPU)、またはグラフィックス・プロセッシング・ユニット(graphics processing unit, GPU)等のデータ処理能力および/またはプログラミング実行能力を有するデバイスであってもよい。中央処理装置(CPU)は、X86またはARMアーキテクチャ等であってもよい。GPUは、マザーボードに単独で直接統合されてもよく、あるいは、マザーボードのノースブリッジチップセットの中に内蔵されてもよい。GPUは、中央処理装置(CPU)に内蔵されてもよい。
例えば、メモリ301は、1つまたは複数のコンピュータプログラム製品の任意の組み合わせを含むことができ、コンピュータプログラム製品は、各種形式のコンピュータ読み取り可能な記憶媒体、例えば、揮発性メモリおよび/または非揮発性メモリを含むことができる。揮発性メモリは、例えば、ランダムアクセスメモリ(random access memory, RAM)および/またはキャッシュ(cache)等を含むことができる。非揮発性メモリは、例えば、読み取り専用メモリ(read only memory, ROM)、ハードディスク、EPROM(erasable programmable read only memory)、CD-ROM(compact disc read-only memory)、USBメモリ、フラッシュメモリ等を含むことができる。上述したコンピュータ読み取り可能記憶媒体には、1つまたは複数のコンピュータ読み取り可能命令を保存することができ、プロセッサ302は、上述したコンピュータ読み取り可能命令を実行して、テキスト画像中の手書き内容を除去する装置300の各種機能を実現することができる。記憶媒体は、各種アプリケーションおよび各種データ等を保存してもよい。
テキスト画像中の手書き内容を除去する装置300がテキスト画像中の手書き内容を除去する方法を実行するプロセスの詳細な説明については、テキスト画像中の手書き内容を除去する方法の実施形態における関連説明を参照することができるため、ここでは繰り返し説明しない。
本発明の少なくとも1つの実施形態は、さらに、記憶媒体を提供する。図4は、本発明の1つの実施形態が提供する記憶媒体の概略図である。例えば、図4に示すように、記憶媒体500において、1つまたは複数のコンピュータ読み取り可能命令を非一時的に保存することができる。例えば、上述したコンピュータ読み取り可能命令501がコンピュータにより実行された時、上述したテキスト画像中の手書き内容を除去する方法のうちの1つまたは複数のステップに基づいて実行することができる。
例えば、当該記憶媒体500は、上述したテキスト画像中の手書き内容を除去する装置300に応用することができ、例えば、テキスト画像中の手書き内容を除去する装置300内のメモリ301を含むことができる。
例えば、記憶媒体500の説明については、テキスト画像中の手書き内容を除去する装置300の実施形態におけるメモリに関する説明を参照することができるため、ここでは繰り返し説明しない。
図5は、本発明の1つの実施形態が提供するハードウェア環境の概略図である。本発明の実施形態が提供するテキスト画像中の手書き内容を除去する装置は、インターネットシステムに応用することができる。
図5において提供したコンピュータシステムを利用して、本発明に関するテキスト画像中の手書き内容を除去する装置を実現することができる。この種のコンピュータシステムは、パソコン、ノート型パソコン、タブレットPC、携帯電話、および任意のスマート機器を含むことができる。本実施形態における特定のシステムは、機能ブロックを用いて、使用者インターフェースを含む1つのハードウェアプラットフォームについて説明する。この種のコンピュータシステムは、1つの一般用途のコンピュータ機器、または1つの特定用途のコンピュータ機器を含むことができる。これら2種類のコンピュータシステムは、いずれも本実施形態におけるテキスト画像中の手書き内容を除去する装置を実現するために使用することができる。コンピュータシステムは、ここで説明したテキスト画像中の手書き内容を除去する方法を実現するために必要な情報の任意の構成部品を実施することができる。例えば、コンピュータシステムは、コンピュータ機器がハードウェア機器、ソフトウェア機器、ファームウェア、およびこれらの組み合わせを介して実現することができる。見やすいように、図5には、1台のコンピュータ機器しか図示していないが、本実施形態において説明するテキスト画像中の手書き内容を除去する方法を実現するために必要な情報の関連コンピュータ機能は、分散の方式により、1組の類似するプラットフォームで実施するものであり、コンピュータシステムの処理負荷を分散させることができる。
図5に示すように、コンピュータシステムは、データ通信を実現するネットワークに接続された通信ポート250を含むことがでる。例えば、通信ポート250は、上述した画像取得素子403と通信することができる。コンピュータシステムは、1つのプロセッサグループ220(すなわち、上述したプロセッサ)を含んでもよく、プログラム命令を実行するために使用される。プロセッサグループ220は、少なくとも1つのプロセッサ(例えば、CPU)から構成することができる。コンピュータシステムは、1つの内部通信バス210を含むことができる。コンピュータシステムは、異なる形式のプログラム記憶ユニットおよびデータ記憶ユニット(すなわち、上述したメモリまたは記憶媒体)、例えば、ハードディスク270、読み取り専用メモリ(ROM)230、ランダムアクセスメモリ(RAM)240を含むことができ、コンピュータ処理および/または通信に使用する各種データファイル、およびプロセッサグループ220が実行可能なプログラム命令を保存するために使用することができる。コンピュータシステムは、1つの入力/出力素子260を含んでもよく、入力/出力素子260は、コンピュータシステムとその他の構成部品(例えば、使用者インターフェース280、使用者インターフェース280は、上述したディスプレイであってもよい)の間の入力/出力データフローをサポートすることができる。コンピュータシステムは、通信ポート250を介して情報およびデータを送受信してもよい。
いくつかの実施形態において、上述したコンピュータシステムは、インターネット通信システムにおけるサーバーを構成するために使用することができる。インターネット通信システムのサーバーは、1つのサーバーハードウェア機器であっても、1つのサーバーグループであってもよい。1つのサーバーグループ内の各サーバーは、有線または無線のネットワークを介して接続することができる。1つのサーバーグループは、集中型のもの、例えば、データセンターであってもよい。1つのサーバーグループは、分散型のもの、例えば、1つの分散型システムであってもよい。
説明すべきこととして、本発明のブロック図および/またはフロー図における各ブロック、およびブロック図および/またはフロー図におけるブロックの組み合わせは、規定された機能または動作を実行する専用のハードウェアに基づくシステムを用いて実現することができ、あるいは、専用ハードウェアとコンピュータプログラム命令の組み合わせを用いて実現してもよい。当業者にとって周知なこととして、ハードウェアの方法で実現する場合、ソフトウェアの方法で実現する場合、およびハードウェアとソフトウェアを組み合わせた方法で実現する場合は、いずれも同等である。
なお、本発明についてさらに説明すべきこととして、
(1)本発明の実施形態の図面は、本発明の実施形態に関する構造のみに関し、その他の構造は、通常の設計を参考にすることができる。
(2)明確にするために、本発明の実施形態を説明するための図面において、層または構造の厚さおよびサイズを拡大する。層、膜、領域、または素子が別の素子の「上」または「下」にある場合、当該素子は、別の素子の「上」または「下」に「直接」あってもよく、あるいは、中間素子が存在してもよいことを理解すべきである。
(3)互いに矛盾しない限り、本発明の実施形態および実施形態における特徴を組み合わせて、新しい実施形態を得ることが可能である。
以上は、本発明の具体的な実施方式のみに過ぎなく、本発明の保護範囲は、これに限定されるものではなく、本発明の保護範囲は、記載した請求項の保護範囲によって確定されるべきである。

Claims (13)

  1. テキスト画像中の手書き内容を除去する方法であって、
    処理したいテキストページの入力画像を取得し、前記入力画像が、手書き領域を含み、前記手書き領域が、手書き内容を含むことと、
    画像分割モデルを利用して前記入力画像を識別し、前記手書き内容の初期手書き画素を取得することと、
    前記初期手書き画素に対してぼかし処理を行って、手書き画素マスク領域を取得することと、
    前記手書き画素マスク領域に基づいて、前記手書き領域内の前記手書き内容を確定することと、
    前記入力画像中の前記手書き内容を除去して、出力画像を取得することと、
    を含むことを特徴する方法。
  2. 前記入力画像中の前記手書き内容を除去して、出力画像を取得するステップが、
    前記初期手書き画素の画素値および前記手書き画素マスク領域の位置に基づいて、前記入力画像において前記手書き画素マスク領域内の非手書き画素を確定することと、
    前記入力画像中の前記手書き画素マスク領域の内容を除去して、中間出力画像を取得することと、
    前記中間出力画像に対して前記手書き画素マスク領域内の非手書き画素復元を行い、前記出力画像を取得することと、
    を含むことを特徴する請求項1に記載の方法。
  3. 前記入力画像中の前記手書き内容を除去して、出力画像を取得するステップが、
    前記初期手書き画素の画素値および前記手書き画素マスク領域の位置に基づいて、前記入力画像において前記手書き画素マスク領域内の非手書き画素を確定することと、
    前記手書き画素マスク領域内の非手書き画素および前記手書き画素マスク領域に基づいて、前記入力画像中の前記手書き内容を除去して、前記出力画像を取得することと、
    を含むことを特徴する請求項1に記載の方法。
  4. 前記入力画像中の前記手書き内容を除去して、出力画像を取得するステップが、
    前記入力画像の中から前記手書き内容を切り取って除去し、中間出力画像を取得することと、
    前記中間出力画像に対して二値化処理を行い、前記出力画像を取得することと、
    を含むことを特徴する請求項1に記載の方法。
  5. 前記入力画像中の前記手書き内容を除去して、前記出力画像を取得するステップが、
    置換画素を取得することと、
    前記置換画素を利用して前記手書き内容の画素を置換することにより、前記入力画像から前記手書き内容を除去して前記出力画像を取得することと、
    を含むことを特徴する請求項1に記載の方法。
  6. 前記置換画素を利用して前記手書き内容の画素を置換することにより、前記入力画像から前記手書き内容を除去して前記出力画像を取得するステップが、
    前記置換画素を利用して前記手書き内容の画素を置換することにより、前記入力画像から前記手書き内容を除去して中間出力画像を取得することと、
    前記中間出力画像に対して二値化処理を行い、前記出力画像を取得することと、
    を含むことを特徴する請求項5に記載の方法。
  7. 前記置換画素が、前記手書き内容の画素に基づいて、画素近傍計算に基づく画像復元アルゴリズムにより取得したものであることを特徴する請求項5に記載の方法。
  8. 前記置換画素を取得するステップが、さらに、領域識別モデルを利用して前記入力画像を識別し、前記手書き領域を取得することを含み、前記置換画素が、前記手書き領域内の前記手書き内容の画素以外の任意の画素であるか、あるいは、
    前記置換画素が、前記手書き領域内の前記手書き内容の画素以外の全ての画素の画素値の平均値であることを特徴する請求項5に記載の方法。
  9. 前記処理したいテキストページの入力画像を取得するステップが、
    前記処理したいテキストページの原画像を取得し、前記原画像が、処理したいテキスト領域を含むことと、
    前記原画像に対してエッジ検出を行い、前記原画像中の前記処理したいテキスト領域を確定することと、
    前記処理したいテキスト領域に対して改正処理を行い、前記出力画像を取得することと、
    を含むことを特徴する請求項1~8のいずれか1項に記載の方法。
  10. 前記画像分割モデルが、前記入力画像を分割するための予め訓練されたU-Netモデルであることを特徴する請求項1に記載の方法。
  11. ガウシアンフィルタ関数により前記初期手書き画素に対してぼかし処理を行って、前記初期手書き画素の領域を拡大し、前記手書き画素マスク領域を取得することを特徴する請求項1に記載の方法。
  12. テキスト画像中の手書き内容を除去する装置であって、
    コンピュータ読み取り可能命令を非一時的に保存するためのメモリと、
    前記コンピュータ読み取り可能命令を実行するためのプロセッサと、
    を含み、前記コンピュータ読み取り可能命令が、前記プロセッサによって実行された時、請求項1~11のいずれか1項に記載のテキスト画像中の手書き内容を除去する方法を実行することを特徴とする装置。
  13. コンピュータ読み取り可能命令を非一時的に保存する記憶媒体であって、前記コンピュータ読み取り可能命令が、コンピュータによって実行された時、請求項1~11のいずれか1項に記載のテキスト画像中の手書き内容を除去する方法を実行することができることを特徴とする記憶媒体。
JP2022560485A 2020-04-10 2021-02-09 テキスト画像中の手書き内容を除去する方法および装置、ならびに記憶媒体 Pending JP2023523152A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010278143.4 2020-04-10
CN202010278143.4A CN111488881A (zh) 2020-04-10 2020-04-10 文本图像中手写内容去除方法、装置、存储介质
PCT/CN2021/076250 WO2021203832A1 (zh) 2020-04-10 2021-02-09 文本图像中手写内容去除方法、装置、存储介质

Publications (1)

Publication Number Publication Date
JP2023523152A true JP2023523152A (ja) 2023-06-02

Family

ID=71794780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560485A Pending JP2023523152A (ja) 2020-04-10 2021-02-09 テキスト画像中の手書き内容を除去する方法および装置、ならびに記憶媒体

Country Status (5)

Country Link
US (1) US20230222631A1 (ja)
JP (1) JP2023523152A (ja)
KR (1) KR20220160660A (ja)
CN (1) CN111488881A (ja)
WO (1) WO2021203832A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275139B (zh) 2020-01-21 2024-02-23 杭州大拿科技股份有限公司 手写内容去除方法、手写内容去除装置、存储介质
CN111488881A (zh) * 2020-04-10 2020-08-04 杭州睿琪软件有限公司 文本图像中手写内容去除方法、装置、存储介质
CN112070708B (zh) * 2020-08-21 2024-03-08 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备、存储介质
CN112150394B (zh) * 2020-10-12 2024-02-20 杭州睿琪软件有限公司 图像处理方法及装置、电子设备和存储介质
CN112150365B (zh) * 2020-10-15 2023-02-21 江西威力固智能设备有限公司 一种喷印图像的涨缩处理方法及喷印设备
CN113781356A (zh) * 2021-09-18 2021-12-10 北京世纪好未来教育科技有限公司 图像去噪模型的训练方法、图像去噪方法、装置及设备
CN114283156B (zh) * 2021-12-02 2024-03-05 珠海移科智能科技有限公司 一种用于去除文档图像颜色及手写笔迹的方法及装置
CN117746214A (zh) * 2024-02-07 2024-03-22 青岛海尔科技有限公司 基于大模型生成图像的文本调整方法、装置、存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080055119A (ko) * 2006-12-14 2008-06-19 삼성전자주식회사 화상형성장치 및 그 제어방법
CN102521516A (zh) * 2011-12-20 2012-06-27 北京商纳科技有限公司 一种自动生成错题本的方法及系统
US9525802B2 (en) * 2013-07-24 2016-12-20 Georgetown University Enhancing the legibility of images using monochromatic light sources
CN105898322A (zh) * 2015-07-24 2016-08-24 乐视云计算有限公司 一种视频去水印方法及装置
CN109254711A (zh) * 2018-09-29 2019-01-22 联想(北京)有限公司 信息处理方法及电子设备
CN111275139B (zh) * 2020-01-21 2024-02-23 杭州大拿科技股份有限公司 手写内容去除方法、手写内容去除装置、存储介质
CN111488881A (zh) * 2020-04-10 2020-08-04 杭州睿琪软件有限公司 文本图像中手写内容去除方法、装置、存储介质

Also Published As

Publication number Publication date
US20230222631A1 (en) 2023-07-13
WO2021203832A1 (zh) 2021-10-14
KR20220160660A (ko) 2022-12-06
CN111488881A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
JP2023523152A (ja) テキスト画像中の手書き内容を除去する方法および装置、ならびに記憶媒体
CN111275139B (zh) 手写内容去除方法、手写内容去除装置、存储介质
US20210256253A1 (en) Method and apparatus of image-to-document conversion based on ocr, device, and readable storage medium
US20190304066A1 (en) Synthesis method of chinese printed character images and device thereof
US8000529B2 (en) System and method for creating an editable template from a document image
US8634644B2 (en) System and method for identifying pictures in documents
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
JP2015529369A (ja) 画像からのラベルの検出
CN107133615B (zh) 信息处理设备和信息处理方法
CN109766778A (zh) 基于ocr技术的发票信息录入方法、装置、设备及存储介质
CN111652796A (zh) 图像处理方法、电子设备及计算机可读存储介质
US9558433B2 (en) Image processing apparatus generating partially erased image data and supplementary data supplementing partially erased image data
WO2023284502A1 (zh) 图像处理方法、装置、设备和存储介质
CN114283156B (zh) 一种用于去除文档图像颜色及手写笔迹的方法及装置
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
WO2022002002A1 (zh) 图像处理方法、图像处理装置、电子设备、存储介质
CN112070708B (zh) 图像处理方法、图像处理装置、电子设备、存储介质
US11410278B2 (en) Automatic artifact removal in a digital image
RU2603495C1 (ru) Классификация изображений документов на основе параметров цветовых слоев
US20170091547A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
CN113793264B (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备
Badla Improving the efficiency of Tesseract OCR Engine
Konya et al. Adaptive methods for robust document image understanding
CN113486828B (en) Image processing method, device, equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231212