JP7315639B2 - 紙のデータのデジタル化方法及び装置、電子機器、記憶媒体 - Google Patents

紙のデータのデジタル化方法及び装置、電子機器、記憶媒体 Download PDF

Info

Publication number
JP7315639B2
JP7315639B2 JP2021177859A JP2021177859A JP7315639B2 JP 7315639 B2 JP7315639 B2 JP 7315639B2 JP 2021177859 A JP2021177859 A JP 2021177859A JP 2021177859 A JP2021177859 A JP 2021177859A JP 7315639 B2 JP7315639 B2 JP 7315639B2
Authority
JP
Japan
Prior art keywords
information
image
processed
handwriting
reference template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021177859A
Other languages
English (en)
Other versions
JP2022006188A (ja
Inventor
亜博 劉
建法 鄒
磊 聶
鋒 黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022006188A publication Critical patent/JP2022006188A/ja
Application granted granted Critical
Publication of JP7315639B2 publication Critical patent/JP7315639B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Processing Or Creating Images (AREA)

Description

本願は画像処理分野、クラウド計算分野に関し、具体的には、画像認識技術に関し、特に紙のデータのデジタル化方法及び装置、電子機器、記憶媒体に関する。
コンピュータ技術の急速な発展に伴い、各業界はいずれも日常の業務における大量の観測データを蓄積し、例えば気象観測業界は毎日、空気湿度、温度、大気圧など、大量の気象データを記録する。
これらのデータはコンピュータ記憶システムに直接記録されることができ、より保存及び分析しやすくなっている。しかし、コンピュータ技術が発達していなかった過去においては、各業界で大量の紙のデータが蓄積され、また一部の業界では生産環境において電子機器を使用しにくい事情により、同様に大量の非デジタル化データが蓄積されている。このようなデータ記憶媒体は記憶しにくく、紛失損害しやすく、且つ読み取りコストが高く、比較計算分析しにくい。
従来技術におけるデータのデジタル化は、一般的には文字認識の方法によってデジタル化を行うが、多くの紙のデータには文字内容だけでなく、図形内容もまた含まれる。しかしながら、従来技術における解決手段は文字内容しか認識できず、紙のデータ中の図形内容を認識することができない。
本願は紙のデータのデジタル化方法及び装置、電子機器、記憶媒体を提供する。
本願の第1の態様によれば、紙のデータのデジタル化方法を提供し、この方法は、
処理対象の画像、前記処理対象の画像に対応するマーク情報に基づいて、基準テンプレートを確定するステップであって、前記処理対象の画像は紙のデータを撮影して得られるものであり、前記基準テンプレートは前記処理対象の画像の参照座標系を表すためのものであるステップと、
前記処理対象の画像に含まれる図形筆跡情報を認識するステップと、
前記図形筆跡情報、前記基準テンプレートに基づいて前記処理対象の画像に対応するデジタル化データを生成するステップと、を含む。
本願の第2の態様によれば、紙のデータのデジタル化装置を提供し、この装置は、
処理対象の画像、前記処理対象の画像に対応するマーク情報に基づいて、基準テンプレートを確定するためのテンプレート確定ユニットであって、前記処理対象の画像は紙のデータを撮影して得られるものであり、前記基準テンプレートは前記処理対象の画像の参照座標系を表すためのものであるテンプレート確定ユニットと、
前記処理対象の画像に含まれる図形筆跡情報を認識するための認識ユニットと、
前記図形筆跡情報、前記基準テンプレートに基づいて前記処理対象の画像に対応するデジタル化データを生成するための生成ユニットと、を含む。
本願の第3の態様によれば、電子機器を提供し、この電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサが第1の態様に記載の紙のデータのデジタル化方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本願の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は前記コンピュータに第1の態様に記載の紙のデータのデジタル化方法を実行させるために用いられる。
本願の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、読み取り可能な記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、前記読み取り可能な記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサは、前記電子機器が第1の様態に記載の紙のデータのデジタル化方法を実行するように、前記コンピュータプログラムを実行する。
本願にて提供される紙のデータのデジタル化方法及び装置、電子機器、記憶媒体は、処理対象の画像に含まれる図形筆跡情報を認識することができ、そして、この筆跡情報を処理対象の画像の参照座標系と組み合わせて、デジタル化データを取得することができ、それにより、紙のデータに図形データが含まれる場合にも、紙のデータをデジタル化データに変換することができる。
この部分に記載されている内容は、本願の実施例の肝心な、又は重要な特徴を特定することを意図しておらず、本願の範囲を限定するものでもないことを理解すべきである。本願の他の特徴は、以下の明細書を通じて容易に理解される。
以下の図面は、本解決手段をよりよく理解するために用いられるものであり、本願発明を限定するものではない。
例示的な実施例に示す紙のデータの概略図である。 別の例示的な実施例に示す紙のデータの概略図である。 例示的な実施例に示す紙のデータをデジタル化データに変換する概略図である。 本願の例示的に示す紙のデータのデジタル化方法のフローチャートである。 本願の例示的に示す処理対象の画像の概略図である。 本願の例示的に示す処理対象の画像のマーク情報の概略図である。 本願の別の例示的に示す処理対象の画像のマーク情報の概略図である。 本願の例示的に示す基準テンプレートの概略図である。 本願の例示的に示す処理対象の画像において図形筆跡情報を認識する概略図である。 本願の別の例示的な実施例に示す紙のデータのデジタル化方法のフローチャートである。 本願の例示的に示す処理対象の画像において位置決め点をマークする概略図である。 本願の例示的に示す処理対象の画像において図形筆跡を認識する概略図である。 本願の例示的に示す単画素幅の筆跡の概略図である。 本願の例示的な実施例に示す紙のデータのデジタル化装置の構造図である。 本願の別の例示的な実施例に示す紙のデータのデジタル化装置の構造図である。 本願の例示的な実施例に示す電子機器のブロック図である。
以下、図面を参照しながら、本願の例示的な実施例について説明する。理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する場合がある。
多くの応用シーンでは観測データを記録する必要があり、近年、これらの観測データをコンピュータシステムで記憶することができる。例えばコンピュータシステムにデータベースを構築してもよく、ユーザはデータベースに記録すべきデータを追加することができる。
しかしながら、コンピュータ技術が発達しなかった過去や、電子機器を使用しにくい場合に、紙にデータを記録するしかない。そのため、各業界は大量の紙のデータを蓄積する。
図1Aは例示的な実施例に示す紙のデータの概略図であり、図1Bは別の例示的な実施例に示す紙のデータの概略図である。
図1Aに示すように、ユーザはデータを収集してそれを記録する必要がある場合があるが、いくつかの原因でデータを紙に記録して保存するしかない。紙のデータが保存しにくく、非常に損害又は紛失しやすいため、このような記録方式は取り返しのつかない損失をもたらすことになりやすい。
そのため、紙のデータを電子データに変換する必要がある。
図2は例示的な実施例に示す紙のデータをデジタル化データに変換する概略図である。
図2に示すように、紙のデータ21に含まれる内容を認識して、デジタル化データ22を取得することができる。
しかし、いくつかの紙のデータには文字内容だけでなく、また図形内容が含まれ、図1Bに示すような紙のデータには、図形内容がさらに含まれ、その中の図形内容をどのようにして正確に認識することでデジタル化データを形成するかは、当業者が解決すべき技術的問題である。
本願にて提供される解決手段は、画像処理分野における画像認識技術に適用されることで、従来技術における、紙のデータ中の図形内容をデジタル化データとして認識することができないという問題を解決する。
図3は本願の例示的に示す紙のデータのデジタル化方法のフローチャートである。
図3に示すように、本願にて提供される紙のデータのデジタル化方法は、以下のステップ301~303を含む。
ステップ301において、処理対象の画像、処理対象の画像に対応するマーク情報に基づいて、基準テンプレートを確定し、処理対象の画像は紙のデータを撮影して得られるものであり、基準テンプレートは処理対象の画像の参照座標系を表すためのものである。
ただし、本願にて提供される紙データのデジタル化方法は計算能力を有する電子機器によって実行されることができる。この電子機器は、具体的には、コンピュータ、タブレットコンピュータ、スマートフォンなどの機器であってもよい。
具体的には、本願にて提供される方法をソフトウェアにパッケージして、それを電子機器にインストールすることができ、電子機器はこのソフトウェアを実行する時に、本実施例にて提供される方法を実行することができる。
さらに、紙のデータをデジタル化データに変換する必要がある場合、紙のデータを撮影して処理対象の画像を取得することができる。実際に応用する際に、複数枚の紙のデータの画像を撮影し、そのうち鮮明な画像を1枚選択して処理対象の画像とすることができる。
実際に応用する際に、処理対象の画像はさらにマーク情報を有することができる。
このマーク情報は、ユーザが処理対象の画像をマークして得られるものであってもよく、例えば、処理対象の画像における、データを記載する範囲をマークするために、ユーザは処理対象の画像において位置決め情報をマークしてもよい。また、電子機器によって処理対象の画像を認識して位置決め情報を取得してもよい。
図4Aは本願の例示的に示す処理対象の画像の概略図である。
図4Aに示すように、紙のデータを撮像する時に、紙のデータ以外の背景画像を撮像する場合があるため、マークするという方式により、画像において紙のデータの領域を特定することができる。いくつかの場合では、紙の画像に空白部分が含まれる場合にも、マークするという方式により、データ内容を含む領域を特定してもよい。
図4Bは本願の例示的に示す処理対象の画像のマーク情報の概略図である。
図4Bに示すように、ユーザは、処理対象の画像においてマークしてマーク枠41を取得し、このマーク枠41に基づいて、電子機器は認識すべき内容の位置する領域を確定することができる。具体的には、電子機器により処理対象の画像を読み取り、それにより、電子機器のディスプレイはこの処理対象の画像を表示し、ユーザは表示される処理対象の画像に基づいてマーク操作を行うことができる。
ただし、マーク情報は座標系情報をさらに含んでもよく、例えば、ユーザは処理対象の画像において座標系の位置、目盛などの情報をマークすることができる。例えば、ユーザは処理対象の画像において横座標1が位置する位置、縦座標1が位置する位置をマークすることができる。この座標系情報は、コンピュータによって認識して得られてもよく、例えば、処理対象の画像中の文字内容を認識することにより、座標系情報を確定することができる。
図4Cは本願の別の例示的に示す処理対象の画像のマーク情報の概略図である。
図4Cに示すように、ユーザは、処理対象の画像において、点42に示すような座標点情報をマークすることができる。
ここで、電子機器は処理対象の画像及びそのマーク情報に基づいて、基準テンプレートを確定することができる。具体的には、位置決め情報に基づいて認識すべき目標領域を確定することができ、また、座標系情報に基づいて座標系を生成することができる。電子機器はこの目標領域、生成された座標系に基づいて基準テンプレートを生成することができる。この基準テンプレートのサイズは目標領域と一致し、基準テンプレートは処理対象の画像の参照座標系を表すために用いられるものである。
具体的には、電子機器は、さらに、処理対象の画像及びそれに対応する座標系情報に基づいて処理対象の画像に対応する基準テンプレートを生成することができる。具体的には、座標系情報に基づいて座標系を生成し、またこの座標系に基づいて基準テンプレートを生成することができる。
図4Dは本願の例示的に示す基準テンプレートの概略図である。
図4Dに示すように、左は処理対象の画像及びそのマーク情報であり、右は確定された基準テンプレートである。
ステップ302において、処理対象の画像に含まれる図形筆跡情報を認識する。
ただし、ステップ302とステップ301の実行タイミングは制限されない。
図形筆跡情報とは、紙のデータに含まれる図形筆跡であり、例えば、紙のデータにおける曲線、ヒストグラムなどである。いくつかのシーンでは、ユーザはデータを収集した後にそれを座標系においてマークし、図形によってこれらのデータを表す。
具体的には、電子機器は処理対象の画像に含まれるこれらの図形筆跡を認識することができる。さらに、マーク情報に位置決め情報が含まれると、電子機器は、さらに、位置決め情報によって限定された領域内にこの図形筆跡情報を認識することができる。
図4Eは本願の例示的に示す処理対象の画像において図形筆跡情報を認識する概略図である。
図4Eに示すように、電子機器は、処理対象の画像中の図形筆跡43を認識することができる。
さらに、図形筆跡を認識するための認識モデルを予めトレーニングすることができる。例えば、ニューラルネットワークモデルを構築することができ、またトレーニングに用いる画像データを用意し、これらの画像データに含まれる図形筆跡をマークし、これらのマーク付きのデータを用いてこのネットワークモデルをトレーニングすることができ、それにより、図形筆跡を認識できる認識モデルを取得する。
トレーニング済みのモデルを電子機器に設置することができ、図形筆跡情報を認識する時に、認識対象の画像をこの認識モデルに入力し、またこのモデルから認識結果、すなわち処理対象の画像に含まれる図形筆跡情報を出力することができる。
ステップ303において、図形筆跡情報、基準テンプレートに基づいて処理対象の画像に対応するデジタル化データを生成する。
実際に応用する際に、電子機器は処理対象の画像に対応する基準テンプレートを確定するとともに、処理対象の画像に含まれる図形筆跡情報を認識した後、図形筆跡情報、基準テンプレートに基づいてデジタル化データを生成することができる。
ここで、電子機器は図形筆跡情報を基準テンプレートにスティッチングすることができ、それにより、初期デジタル化テーブルを取得する。例えば、図形筆跡情報は図形筆跡自体を含むことができ、また、処理対象の画像における図形筆跡の位置を含むことができ、さらに、この位置情報に基づいて、図形筆跡を基準テンプレートに描画し、初期デジタル化テーブルを取得することができる。
任意選択的な実施形態では、電子機器は図形筆跡を認識した後、ディスプレイにこの図形筆跡を表示させることができ、例えば、処理対象の画像において図形筆跡をハイライト表示することができる。ユーザは図形筆跡において基準テンプレートにおける参照座標系に対応するマッチング点をマークすることができる。例えば、ユーザは図形筆跡において1つの点をクリックし、この点に対応する座標値に基づいて、基準テンプレートにおいて対応する位置をクリックすることができる。
実際に応用する際に、一組のマッチング点をマークしてもよく、複数組のマッチング点をマークしてもよい。
ここで、電子機器はマッチング点間の対応関係に基づいて図形筆跡を基準テンプレートに描画し、それにより、初期デジタル化テーブルを取得することができる。
一実施形態では、初期デジタル化テーブルを処理対象の画像に対応するデジタル化データとすることができる。
別の実施形態では、さらに初期デジタル化テーブルを処理することができる。例えば、基準テンプレートにおける図形筆跡の位置及び基準テンプレートにおける参照座標系に基づいて、図形筆跡における各画素ドットに対応する数値を読み取ることができ、これらの数値を記憶し、さらにデジタル化データを取得することができる。
本願は紙のデータのデジタル化方法を提供し、この方法は、処理対象の画像、処理対象の画像に対応するマーク情報に基づいて基準テンプレートを確定するステップであって、処理対象の画像は紙のデータを撮影して得られるものであり、基準テンプレートは処理対象の画像の参照座標系を表すためのものであるステップと、処理対象の画像に含まれる図形筆跡情報を認識するステップと、図形筆跡情報、基準テンプレートに基づいて処理対象の画像に対応するデジタル化データを生成するステップと、を含む。本願にて提供される紙のデータのデジタル化方法は、処理対象の画像に含まれる図形筆跡情報を認識することができ、そして、この筆跡情報を処理対象の画像の参照座標系と組み合わせて、デジタル化データを取得することができ、それにより、紙のデータに図形データが含まれる場合にも、紙のデータをデジタル化データに変換することができる。
図5は本願の別の例示的な実施例に示す紙のデータのデジタル化方法のフローチャートである。
図5に示すように、本願の実施例にて提供される紙のデータのデジタル化方法は、以下のステップ501~507を含む。
ステップ501において、処理対象の画像へのマーク命令に応答し、処理対象の画像においてマーク位置を表示し、マーク情報を確定する。
ただし、本願にて提供される紙データのデジタル化方法は計算能力を有する電子機器によって実行することができる。この電子機器は、具体的には、コンピュータ、タブレットコンピュータ、スマートフォンなどの機器であってもよい。
具体的には、本願にて提供される方法をソフトウェアにパッケージして、それを電子機器にインストールすることができ、電子機器はこのソフトウェアを実行する時に、本実施例にて提供される方法を実行することができる。
さらに、紙のデータをデジタル化データに変換する必要がある場合、紙のデータを撮影し、1枚の比較的鮮明な画像を処理対象の画像とすることができる。
実際に応用する際に、処理対象の画像を電子機器に導入し、電子機器のディスプレイにより、この処理対象の画像を表示することができる。
ここで、ユーザは電子機器を操作してそれにマーク命令を送信することにより、処理対象の画像をマークすることができる。電子機器はマーク命令を受信した後、このマーク命令に応答し、処理対象の画像においてマーク位置を表示し、マーク情報を確定することができる。例えば、ユーザは画面においてマークしようとする位置をクリックすることができ、電子機器は対応する位置にマーク点を表示させ、このマーク位置を記録することができる。
具体的には、マーク命令が位置決め点マーク命令である場合、電子機器によって確定されたマーク情報は位置決め点情報である。電子機器が処理対象の画像を表示する時に、ユーザは電子機器に位置決め点マーク命令を送信することができ、例えば、「位置決め点をマークする」という選択肢をクリックし、且つ処理対象の画像においてクリックすることができ、電子機器はクリックする位置に位置決め点を表示させ、位置決め点情報を確定することができる。
一実施形態では、電子機器は位置決め情報に基づいて処理対象の画像に対して補正を行うことができ、例えばそれに対して回転操作を行って、それを正しい位置に置かせることができる。
さらに、位置決め点情報は、基準テンプレートの範囲を限定するための処理対象の画像の枠固定点を含む。電子機器はユーザがクリックする位置を枠固定点とし、複数の枠の頂点で枠選択される領域を基準テンプレートの範囲とすることができる。例えば、ユーザは処理対象の画像における筆跡内容がある領域の4つの角点をクリックすることができ、電子機器はこの4つの角点を枠固定点とすることができ、この4つの角点で囲まれた矩形は基準テンプレートの範囲を限定することに用いられる。
このような実施形態では、処理対象の画像における、認識の価値を持たない部分を削除し、さらに、電子機器の計算量を削減することができる。
図6Aは本願の例示的に示す処理対象の画像において位置決め点をマークする概略図である。
図6Aに示すように、ユーザは、処理対象の画像において位置決め点61をマークすることができ、電子機器は、この4つの位置決め点61を枠固定点とし、61で囲まれた矩形枠62を基準テンプレートの範囲とする。
さらに、マーク命令が座標点マーク命令である場合、電子機器によって確定されたマーク情報は座標点情報である。電子機器が処理対象の画像を表示する時に、ユーザは電子機器に座標点マーク命令を送信することができ、例えば、「座標点をマークする」という選択肢をクリックし、続いて処理対象の画像においてマークすべき位置をクリックし、この位置に対応する座標値を設定することができ、電子機器はクリックする位置に座標点を表示させ、座標点情報を確定することができる。
このような実施形態では、ユーザの操作によって画像におけるキー情報を確定することができ、このようなユーザの指定に基づく方式は、画像におけるキー情報を正確に取得することができる。具体的には、ユーザとインタラクションするという方式により、ユーザによって位置決め点及び/又は座標点を指定する場合、電子機器に正確な位置決め点及び/又は座標点を取得させることができ、リソースを消耗してこれらのキー情報を認識する必要がない。
ステップ502において、座標点情報に基づいてフィッティングを行って座標系情報を取得する。
実際に応用する際に、処理対象の画像をマークして得られたマーク情報は座標点情報を含むことができる。電子機器は座標点情報をフィッティングして座標系情報を取得することができる。
例えば、横座標が同じである座標点を横方向位置において一致させ、縦座標が同じである座標点を縦方向位置において一致させることができる。また、座標点がマークされていない位置に他のデータ情報を補完することができる。例えば、目盛1と5との間に、他の目盛値を補完する。
ステップ503において、処理対象の画像、座標系情報に基づいて基準テンプレートを確定する。
ここで、電子機器は得られた座標系情報に基づいて基準テンプレートを生成することができる。具体的には、処理対象の画像に基づいて座標系の範囲を画定し、処理対象の画像のサイズに相当する座標系の範囲を基準テンプレートとすることができる。
具体的には、さらに、処理対象の画像におけるマークされた座標点情報の相対位置に基づいて、座標系の範囲を確定し画定することができる。例えば、処理対象の画像において、座標点(1,0)を画像における座標系での開始位置としてマークすると、座標系情報に基づいて基準テンプレートを生成する時に、座標点(1,0)もテンプレートの開始位置とする。
さらに、処理対象の画像をマークする時に位置決め点情報もマークすれば、処理対象の画像における位置決め点情報、座標系情報と組み合わせて基準テンプレートを確定することもできる。例えば、位置決め点情報を枠の頂点とし、座標系において1つの領域を枠選択して基準テンプレートとすることができる。
このような実施形態では、マークした座標点情報に対してフィッティングを行って、正確な座標情報を取得することができ、それにより、基準テンプレートは処理対象の画像における参照座標系を正確に表すことができる。
ステップ504において、処理対象の画像を予め設定された意味分割モデルに入力し、処理対象の画像に含まれる図形筆跡情報を出力し、ただし、意味分割モデルは処理対象の画像に含まれる図形筆跡情報を確定するために用いられる。
実際に応用する際に、ステップ504とステップ501-503の実行タイミングを制限しない。
ここで、画像に含まれる図形筆跡情報を認識するための意味分割モデルを予めトレーニングするとともに、電子機器にこのモデルを設定することができる。
具体的には、処理対象の画像を予め設定された意味分割モデルに入力することができ、意味分割モデルは処理対象の画像を認識して、その中に含まれる図形筆跡情報を出力することができる。
さらに、意味分割モデルは完全畳み込みニューラルネットワーク構造であってもよく、それは入力された画像に対して畳み込み演算を行い、さらに画像における各画素が図形筆跡に属する第1の確率値を確定することができ、さらに、画像における各画素が図形筆跡に属しない第2の確率値を確定することができる。
実際に応用する際に、意味分割モデルは第1の確率値及び/又は第2の確率値に基づいて1つの画素が図形筆跡に属するか否かを判断することができる。例えば、1つの画素の第1の確率値が高く、第2の確率値が低いと、この画素が図形筆跡に属すると考えることができる。
ここで、意味分割モデルは図形筆跡に属する画素を1に設定し、図形筆跡に属しない画素を0に設定することができ、それにより、図形筆跡マスクを取得し、マスクにおける値が1の画素を連結して図形筆跡情報を構成する。
ここで、モデルをトレーニングするための画像を予め用意することができる。このトレーニング画像には、例えば、ユーザがその中で描画する曲線、ヒストグラム、ケーキグラフなどの図形筆跡を含むことができる。画像中の図形筆跡を予めマークして、トレーニング画像のタグを形成することができる。
具体的には、ニューラルネットワークモデルを予め構築し、タグ付きのトレーニング画像をこのモデルに入力することができる。モデルはトレーニング画像を処理すると、認識結果を出力することができ、この認識結果とトレーニング画像のタグを比較し、バックプロパゲーションを行ってモデルにおけるパラメータを調整する。フォワードプロパゲーションとバックプロパゲーションを複数回反復することにより、モデルにおけるパラメータを最適化する。
さらに、ニューラルネットワークモデルから出力された結果とトレーニング画像のタグとの間の誤差が予め設定された閾値を満たす場合、トレーニングを停止し、画像を認識するためのモデルを取得することができる。
この方式によりトレーニングできるモデルは、画像に含まれる図形筆跡を認識することができ、それにより、画像に含まれる図形筆跡を抽出して、デジタル化データを形成することができる。
任意選択的な実施例では、ニューラルネットワークモデルは第1の予め設定された数のダウンサンプリング層、第2の予め設定された数のアップサンプリング層及び分類層を含む。例えば、8つのダウンサンプリング層、8つのアップサンプリング層及び分類層を含んでもよい。ダウンサンプリング層は画像の上位層の意味情報を抽出して特徴マップを取得することができ、アップサンプリング層は、さらに、特徴マップを元画像のサイズに戻し、最終的に元画像のサイズの画素レベルの分類結果を取得する。
任意選択的な実施形態では、各ダウンサンプリング層は、第1の畳み込み層、第1のバッチ正規化層、第1の活性化層及び最大のプーリング層を含む。そのうち、第1の畳み込み層の畳み込みコアは3*3であり、ステップサイズは1である。最大のプーリング層のコアは2*2であり、ステップサイズは1である。
アップサンプリング層は、2倍アップサンプリング層、第2の畳み込み層、第2のバッチ正規化層、第1の活性化層を含む。そのうち、第2の畳み込み層の畳み込みコアは3*3であり、ステップサイズは1である。
分類層は第3の畳み込み層である。
ニューラルネットワークモデルにより、処理対象の画像に含まれる図形筆跡情報を正確に認識することができる。
図6Bは本願の例示的に示す処理対象の画像において図形筆跡を認識する概略図である。
図6Bに示すように、左は意味分割モデルに入力した処理対象の画像であり、63はその中に認識された図形筆跡情報であり、この図形筆跡はマスク形態である。
具体的には、具体的な図形形態は必要に応じて設定してもよく、例えば、曲線状の図形筆跡を認識する必要があれば、予め設定された分割モデルをトレーニングして、画像に含まれる曲線筆跡を認識することができる。それに対応して、処理対象の画像を予め設定された意味分割モデルに入力した後、予め設定された意味分割モデルは処理対象の画像に含まれる曲線筆跡情報を出力することができる。
さらに、予め設定された意味分割モデルは、具体的に、処理対象の画像における各画素が曲線筆跡に属する第1の確率値及び/又は曲線筆跡に属しない第2の確率値を確定し、第1の確率値及び/又は第2の確率値に基づいて画素が曲線筆跡に属するか否かを判断し、曲線筆跡に属する画素に基づいて曲線筆跡情報を確定するために用いられる。
このような実施形態では、画素ごとに処理対象の画像を認識することができ、それにより、画像に含まれる図形筆跡を全面的且つ正確に認識することができる。
ステップ505において、図形筆跡情報を基準テンプレートにマッピングし、初期デジタル化テーブルを取得し、ただし、初期デジタル化テーブルには図形筆跡情報が含まれる。
実際に応用する際に、ステップ503、504の後、本願にて提供される解決手段は、さらに、図形筆跡情報及び基準テンプレートに基づいて、初期デジタル化テーブルを生成することができる。
一実施形態では、処理対象の画像における図形筆跡の位置に基づいて、それを基準テンプレートにマッピングすることができる。例えば、図形筆跡が位置決め点で枠選択された領域の中間位置にある場合、この図形筆跡を基準テンプレートの中間位置にマッピングすることができる。
別の実施形態では、処理対象の画像をマークして得られたマーク情報には位置決め点情報が含まれば、さらに図形筆跡情報へのマーク操作に応答し、図形筆跡情報において基準テンプレートにおける位置決め点情報に対応するマッチング位置を確定し、位置決め点情報とマッチング位置との対応関係に基づいて、図形筆跡情報を基準テンプレートにマッピングし、初期デジタル化テーブルを取得することができる。
ただし、位置決め点情報に基づいて基準テンプレートを確定すれば、基準テンプレートには位置決め点情報を含むこともできる。
具体的には、図形筆跡情報はマスクの形態であってもよく、マスクには0、1の値を含み、値が1の画素は図形筆跡に属し、値が0の画素は図形筆跡に属しない。
この場合、ユーザは、図形筆跡情報に対してマーク操作を行う命令を電子機器に送信することにより、図形筆跡情報において、基準テンプレートにおける位置決め点情報に対応するマッチング位置をマークすることができる。例えば、電子機器は図形筆跡マスクを基準テンプレートの上に表示させることができ、ユーザは図形筆跡マスクを移動させるとともに、その中で基準テンプレートにおける位置決め点情報に対応するマッチング位置をマークすることができる。電子機器は、位置決め点情報とマッチング位置との対応関係に基づいて、アフィン変換、透視変換などの方法を用いてテンプレートにおける位置決め点と図形筆跡マスクにおけるマーク位置とをマッチングすることができ、それにより、図形筆跡のマスクを基準テンプレートにマッピングし、初期デジタル化テーブルを取得する。
このような実施形態では、ユーザのインタラクション操作に基づいて図形筆跡情報と基準テンプレートとのマッチングプロセスを実現することができ、それにより、図形筆跡を基準テンプレートに「移植」する。
別の任意選択的な実施形態では、さらに、図形筆跡情報と基準テンプレートへのマッチング操作に応答し、図形筆跡情報において第1のマッチング位置を確定し、基準テンプレートにおいて第2のマッチング位置を確定し、ただし、第1のマッチング位置と第2のマッチング位置とは対応し、第1のマッチング位置と第2のマッチング位置との対応関係に基づいて、図形筆跡情報を基準テンプレートにマッピングし、初期デジタル化テーブルを取得することができる。
このような実施形態では、ユーザは電子機器に図形筆跡情報と基準テンプレートをマッチングするためのマッチング命令を送信し、図形筆跡情報において第1のマッチング位置をマークし、基準テンプレートにおいて第2のマッチング位置をマークすることができ、電子機器は第1のマッチング位置と第2のマッチング位置が対応関係を有することを表示し且つ確定することができる。
ただし、ユーザは対応する第1のマッチング位置と第2のマッチング位置を複数組マークすることができる。電子機器は第1のマッチング位置と第2のマッチング位置との対応関係に基づいて、図形筆跡情報を基準テンプレートにマッピングし、初期デジタル化テーブルを取得することができる。
このような実施形態では、ユーザのインタラクション操作に基づいて図形筆跡情報と基準テンプレートとのマッチングプロセスを実現することができ、それにより、図形筆跡を基準テンプレートに「移植」する。
ステップ506において、初期デジタル化テーブルにおける図形筆跡情報を微細化処理して単画素幅の筆跡を取得する。
具体的には、認識された図形筆跡情報は、処理対象の画像における人によって描かれた痕跡であり、したがって、認識された図形筆跡の太さは、紙のデータ中の筆画に関する。一般的に、人によって作製される筆跡がより太くし、したがって、これを微細化処理して単画素幅の筆跡を取得する必要がある。
さらに、骨格抽出アルゴリズムに基づいて初期デジタル化テーブルにおける図形筆跡情報を処理し、単画素幅の筆跡を取得することができる。
図形筆跡に対応する数値を認識する時に、単画素幅の筆跡により認識すると、より正確になる。
図6Cは本願の例示的に示す単画素幅の筆跡の概略図である。
図6Cに示すように、初期デジタル化テーブルに図形筆跡64が存在し、それを微細化処理して図65に示すような筆跡を取得することができる。
ステップ507において、単画素幅の筆跡、基準テンプレートに含まれる参照座標系に基づいて処理対象の画像に対応するデジタル化データを確定する。
実際に応用する際に、基準テンプレートに参照座標系が含まれ、そのため、参照座標系を目盛基準とすることができ、単画素幅の筆跡、基準テンプレートに含まれる素数参照座標系に基づいて、筆跡における各画素ドットに対応する数値情報を確定することができる。例えば、1つの画素ドットは1つの横座標及び1つの縦座標に対応することができる。
このような実施形態では、図形筆跡に対応する複数の数値を認識することができ、それにより、紙のデータをデジタル化データに変換することができる。
ここで、各画素に対応する数値情報に基づいて処理対象の画像に対応するデジタル化データを確定することができる。例えば、各画素に対応する数値を記憶し、デジタル化データを形成することができる。したがって、本願にて提供される方法において、紙のデータからデジタル化データへの変換を実現することができる。
図7は本願の例示的な実施例に示す紙のデータのデジタル化装置の構造図である。
図7に示すように、本願にて提供される紙のデータのデジタル化装置は、処理対象の画像、前記処理対象の画像に対応するマーク情報に基づいて、基準テンプレートを確定するためのテンプレート確定ユニットであって、前記処理対象の画像は紙のデータを撮影して得られるものであり、前記基準テンプレートは前記処理対象の画像の参照座標系を表すためのものであるテンプレート確定ユニット71と、前記処理対象の画像に含まれる図形筆跡情報を認識するための認識ユニット72と、前記図形筆跡情報、前記基準テンプレートに基づいて前記処理対象の画像に対応するデジタル化データを生成するための生成ユニット73と、を含む。
本実施例にて提供される紙のデータのデジタル化装置の具体的な原理、効果及び実現形態はいずれも図3に示す実施例と類似し、ここでは重複する説明を省略する。
図8は本願の別の例示的な実施例に示す紙のデータのデジタル化装置の構造図である。
上記実施例を基にして、本願にて提供される紙のデータのデジタル化装置において、前記マーク情報は座標点情報を含み、前記テンプレート確定ユニット71は、前記座標点情報に基づいてフィッティングを行って座標系情報を取得するためのフィッティングモジュール711と、前記処理対象の画像、前記座標系情報に基づいて前記基準テンプレートを確定するためのテンプレート確定モジュール712と、を含む。
任意選択的に、前記テンプレート確定ユニット71が処理対象の画像、前記処理対象の画像に対応するマーク情報に基づいて基準テンプレートを確定する前に、前記処理対象の画像へのマーク命令に応答し、前記処理対象の画像においてマーク位置を表示し、前記マーク情報を確定するための応答ユニット74をさらに含む。
任意選択的に、前記マーク命令は位置決め点マーク命令を含み、前記マーク情報は位置決め点情報を含み、及び/又は、前記マーク命令は座標点マーク命令を含み、前記マーク情報は座標点情報を含む。
任意選択的に、前記位置決め点情報は、前記基準テンプレートの範囲を限定するための、前記処理対象の画像の枠固定点を含む。
任意選択的に、前記認識ユニット72は、具体的に、前記処理対象の画像を予め設定された意味分割モデルに入力し、前記処理対象の画像に含まれる図形筆跡情報を出力するために用いられ、ただし、前記意味分割モデルは前記処理対象の画像に含まれる図形筆跡情報を確定するために用いられる。
任意選択的に、前記予め設定された意味分割モデルは、具体的に、前記処理対象の画像における各画素が図形筆跡に属する第1の確率値及び/又は曲線筆跡に属しない第2の確率値を確定し、前記第1の確率値及び/又は第2の確率値に基づいて前記画素が前記図形筆跡に属するか否かを判断し、前記図形筆跡に属する画素に基づいて前記図形筆跡情報を確定するために用いられる。
任意選択的に、前記生成ユニット73は、前記図形筆跡情報を前記基準テンプレートにマッピングし、初期デジタル化テーブルを取得するためのマッピングモジュール731であって、ただし、前記初期デジタル化テーブルには前記図形筆跡情報が含まれるマッピングモジュール731と、前記初期デジタル化テーブルにおける前記図形筆跡情報を微細化処理して単画素幅の筆跡を取得するための微細化モジュール732と、前記単画素幅の筆跡、前記基準テンプレートに含まれる前記参照座標系に基づいて前記処理対象の画像に対応するデジタル化データを確定するための確定モジュール733と、を含む。
任意選択的に、前記マーク情報は位置決め点情報を含み、前記基準テンプレートは前記位置決め点情報を含み、前記マッピングモジュール731は、前記図形筆跡情報へのマーク操作に応答し、前記図形筆跡情報において前記基準テンプレートにおける位置決め点情報に対応するマッチング位置を確定するための第1の応答サブモジュール7311と、前記位置決め点情報と前記マッチング位置との対応関係に基づいて、前記図形筆跡情報を前記基準テンプレートにマッピングし、前記初期デジタル化テーブルを取得するための第1のマッピングサブモジュール7312と、を含む。
任意選択的に、前記マッピングモジュール731は、前記図形筆跡情報と前記基準テンプレートへのマッチング操作に応答し、前記図形筆跡情報において第1のマッチング位置を確定し、前記基準テンプレートにおいて第2のマッチング位置を確定するための第2の応答サブモジュール7313であって、ただし、前記第1のマッチング位置と前記第2のマッチング位置とは対応する第2の応答サブモジュール7313と、前記第1のマッチング位置と前記第2のマッチング位置との対応関係に基づいて、前記図形筆跡情報を前記基準テンプレートにマッピングし、前記初期デジタル化テーブルを取得するための第2のマッピングサブモジュール7314と、を含む。
任意選択的に、前記微細化モジュール732は、具体的に、骨格抽出アルゴリズムに基づいて前記初期デジタル化テーブルにおける前記図形筆跡情報を処理し、単画素幅の筆跡を取得するために用いられる。
任意選択的に、前記確定モジュール733は、前記単画素幅の筆跡、前記基準テンプレートに含まれる素数参照座標系に基づいて、前記筆跡における各画素ドットに対応する数値情報を確定するためのマッチングサブモジュール7331と、前記数値情報に基づいて前記処理対象の画像に対応するデジタル化データを確定するための確定サブモジュール7332と、を含む。
本実施例にて提供される紙のデータのデジタル化装置の具体的な原理、効果及び実現形態はいずれも図5に示す実施例と類似し、ここでは重複する説明を省略する。
本願の実施例によれば、本願は電子機器及び可読記憶媒体をさらに提供する。
本願の実施例によれば、本願は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが読み取り可能な記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、読み取り可能な記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサは、電子機器が上記いずれか1つの実施例により提供される解決案を実行するように、コンピュータプログラムを実行する。
図9に示すように、本願の実施例による紙のデータのデジタル化方法を適用する電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子機器はさらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティング装置など、様々な形態の移動体装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本願の実施を限定することを意図しない。
図9に示すように、この電子機器は、1つ又は複数のプロセッサ901と、メモリ902と、各コンポーネントを接続するためのインタフェースであって、高速インタフェースと低速インタフェースを含むものとを含む。各コンポーネントは異なるバスによって相互接続され、共通のマザーボード上に実装されてもよく、又は必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器内で実行される、グラフィカルユーザーインターフェース(Graphical User Interface、GUI)のグラフィックス情報を外部入力/出力装置(例えば、インタフェースに結合された表示機器)上に表示させるようにメモリ内又はメモリ上に記憶された命令を含む命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。また、それぞれの機器が必要な操作の一部を提供する(例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする)複数の電子機器を接続することができる。図9において、1つのプロセッサ901を例とする。
メモリ902は、本願にて提供される非一時的なコンピュータ可読記憶媒体である。ただし、前記メモリは、少なくとも1つのプロセッサに本願にて提供される紙のデータのデジタル化方法を実行させるように、前記少なくとも1つのプロセッサによって実行可能な命令を記憶している。本願の非一時的なコンピュータ可読記憶媒体は、本願にて提供される紙のデータのデジタル化方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
非一時的なコンピュータ可読記憶媒体として、メモリ902は、例えば本願の実施例における紙のデータのデジタル化方法に対応するプログラム命令/モジュール(例えば、図7に示すテンプレート確定ユニット71、認識ユニット72及び生成ユニット73)のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するために用いることができる。プロセッサ901は、メモリ902に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における紙のデータのデジタル化方法を実現する。
メモリ902は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶可能なプログラム記憶領域と、電子機器の利用に応じて作成されるデータなどを記憶可能なデータ記憶領域とを含むことができる。さらに、メモリ902は、高速ランダムアクセスメモリを含むことができ、さらに、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ、又は他の非一時的ソリッドステート記憶装置のような非一時的メモリを含むことができる。いくつかの実施例では、メモリ902は、任意選択的に、プロセッサ901に対して遠隔に設置されるメモリを含み、これらの遠隔メモリはネットワークを介して電子機器に接続することができる。上記ネットワークの例はインターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びこれらの組み合わせを含むが、これらに限定されない。
電子機器は、さらに、入力装置903と出力装置904を含むことができる。プロセッサ901とメモリ902と入力装置903と出力装置904はバス又は他の方式により接続することができ、図9においてバスにより接続することを例とする。
入力装置903は入力された数字又は文字情報を受信し、紙のデータのデジタル化の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置904は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含むことができる。この表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示機器はタッチパネルであってもよい。
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラム内で実施されることを含むことができ、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、この記憶システム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置にデータ及び命令を送信することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語でこれらのコンピュータプログラムを実行することができる。本明細書に使用される用語の「機械可読媒体」及び「コンピュータ可読媒体」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指し、機械可読信号としての機械命令を受信する機械可読媒体を含む。用語の「機械可読信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)と、を有し、ユーザがこのキーボード及びこのポインティングデバイスによりコンピュータに入力を提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いることもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインタフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントとの任意の組み合わせを含むコンピューティングシステムで実施される。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピューティングシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
以上に示される様々な形態のフローを使用して、ステップを新たに順序付け、追加、又は削除することが可能であることを理解すべきである。例えば、本願に記載されている各ステップは、並列に実行してもよいし、順次実行してもよいし、異なる順序で実行してもよいが、本願に開示されている技術的解決手段が所望する結果を実現することができる限り、本明細書ではこれに限定されない。
上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因によって、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解すべきである。本願の精神及び原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (23)

  1. 紙のデータのデジタル化方法であって、
    処理対象の画像へのマーク命令に応答し、前記処理対象の画像においてマーク位置を表示し、マーク情報を確定するステップであって、前記マーク命令はユーザによって送信され、前記処理対象の画像をマークするためのものであるステップと、
    前記処理対象の画像と、確定されたマーク情報に基づいて、基準テンプレートを確定するステップであって、前記処理対象の画像は紙のデータを撮影して得られるものであり、前記基準テンプレートは前記処理対象の画像の参照座標系を表すためのものであるステップと、
    前記処理対象の画像に含まれる図形筆跡情報を認識するステップと、
    前記図形筆跡情報、前記基準テンプレートに基づいて前記処理対象の画像に対応するデジタル化データを生成するステップであって、前記処理対象の画像に対応するデジタル化データは前記図形筆跡情報における各画素ドットに対応する数値情報を含み、前記数値情報は、前記図形筆跡情報が前記基準テンプレートにおける位置及び前記基準テンプレートに含まれる参照座標系に基づいて読み取られるステップと、を含み、
    前記マーク命令は座標点マーク命令を含み、前記マーク情報は座標点情報を含み、
    前記処理対象の画像と、確定されたマーク情報に基づいて、基準テンプレートを確定するステップは、
    前記座標点情報に基づいてフィッティングを行って座標系情報を取得するステップと、
    前記処理対象の画像と、前記座標系情報に基づいて前記基準テンプレートを確定するステップと、を含む、紙のデータのデジタル化方法。
  2. 前記マーク命令は位置決め点マーク命令を含み、前記マーク情報は位置決め点情報を含み、
    前記処理対象の画像と、前記座標系情報に基づいて前記基準テンプレートを確定するステップは、前記位置決め点情報、前記処理対象の画像、及び前記座標系情報に基づいて前記基準テンプレートを確定するステップを含む、請求項1に記載の方法。
  3. 前記位置決め点情報は、前記処理対象の画像の枠固定点を含み、
    複数の前記枠固定点によって枠選択される領域を前記基準テンプレートの範囲とする、請求項2に記載の方法。
  4. 前記処理対象の画像に含まれる図形筆跡情報を認識する前記ステップは、
    前記処理対象の画像を予め設定された意味分割モデルに入力し、前記処理対象の画像に含まれる図形筆跡情報を出力するステップを含み、
    前記意味分割モデルは前記処理対象の画像に含まれる図形筆跡情報を確定するために用いられる、請求項1に記載の方法。
  5. 前記予め設定された意味分割モデルは、
    前記処理対象の画像における各画素が図形筆跡に属する第1の確率値及び/又は曲線筆跡に属しない第2の確率値を確定し、
    前記第1の確率値及び/又は第2の確率値に基づいて前記画素が前記図形筆跡に属するか否かを判断し、
    前記図形筆跡に属する画素に基づいて前記図形筆跡情報を確定するために用いられる、請求項4に記載の方法。
  6. 前記図形筆跡情報、前記基準テンプレートに基づいて前記処理対象の画像に対応するデジタル化データを生成する前記ステップは、
    前記図形筆跡情報を前記基準テンプレートにマッピングし、初期デジタル化テーブルを取得するステップであって、ただし、前記初期デジタル化テーブルには前記図形筆跡情報が含まれるステップと、
    前記初期デジタル化テーブルにおける前記図形筆跡情報を微細化処理して単画素幅の筆跡を取得するステップと、
    前記単画素幅の筆跡、前記基準テンプレートに含まれる前記参照座標系に基づいて前記処理対象の画像に対応するデジタル化データを確定するステップと、を含む、請求項1に記載の方法。
  7. 前記マーク情報は位置決め点情報を含み、前記基準テンプレートは前記位置決め点情報を含み、
    前記図形筆跡情報を前記基準テンプレートにマッピングし、初期デジタル化テーブルを取得する前記ステップは、
    前記図形筆跡情報へのマーク操作に応答し、前記図形筆跡情報において前記基準テンプレートにおける位置決め点情報に対応するマッチング位置を確定するステップと、
    前記位置決め点情報と前記マッチング位置との対応関係に基づいて、前記図形筆跡情報を前記基準テンプレートにマッピングし、前記初期デジタル化テーブルを取得するステップと、を含む、請求項6に記載の方法。
  8. 前記図形筆跡情報を前記基準テンプレートにマッピングし、初期デジタル化テーブルを取得する前記ステップは、
    前記図形筆跡情報と前記基準テンプレートへのマッチング操作に応答し、前記図形筆跡情報において第1のマッチング位置を確定し、前記基準テンプレートにおいて第2のマッチング位置を確定するステップであって、ただし、前記第1のマッチング位置と前記第2のマッチング位置とは対応するステップと、
    前記第1のマッチング位置と前記第2のマッチング位置との対応関係に基づいて、前記図形筆跡情報を前記基準テンプレートにマッピングし、前記初期デジタル化テーブルを取得するステップと、を含む、請求項6に記載の方法。
  9. 前記初期デジタル化テーブルにおける前記図形筆跡情報を微細化処理して単画素幅の筆跡を取得する前記ステップは、
    骨格抽出アルゴリズムに基づいて前記初期デジタル化テーブルにおける前記図形筆跡情報を処理し、単画素幅の筆跡を取得するステップを含む、請求項6-8のいずれか1項に記載の方法。
  10. 前記単画素幅の筆跡、前記基準テンプレートに含まれる前記参照座標系に基づいて前記処理対象の画像に対応するデジタル化データを確定する前記ステップは、
    前記単画素幅の筆跡、前記基準テンプレートに含まれる素数参照座標系に基づいて、前記筆跡における各画素ドットに対応する数値情報を確定するステップと、
    前記数値情報に基づいて前記処理対象の画像に対応するデジタル化データを確定するステップと、を含む、請求項6-8のいずれか1項に記載の方法。
  11. 処理対象の画像へのマーク命令に応答し、前記処理対象の画像においてマーク位置を表示し、マーク情報を確定するための応答ユニットであって、前記マーク命令はユーザによって送信され、前記処理対象の画像をマークするための応答ユニットと、
    前記処理対象の画像と、確定されたマーク情報に基づいて、基準テンプレートを確定するためのテンプレート確定ユニットであって、前記処理対象の画像は紙のデータを撮影して得られるものであり、前記基準テンプレートは前記処理対象の画像の参照座標系を表すためのものであるテンプレート確定ユニットと、
    前記処理対象の画像に含まれる図形筆跡情報を認識するための認識ユニットと、
    前記図形筆跡情報、前記基準テンプレートに基づいて前記処理対象の画像に対応するデジタル化データを生成するための生成ユニットであって、前記処理対象の画像に対応するデジタル化データは前記図形筆跡情報における各画素ドットに対応する数値情報を含み、前記数値情報は、前記図形筆跡情報が前記基準テンプレートにおける位置及び前記基準テンプレートに含まれる参照座標系に基づいて読み取られる生成ユニットと、を含み、
    前記マーク命令は座標点マーク命令を含み、前記マーク情報は座標点情報を含み、
    前記テンプレート確定ユニットは、
    前記座標点情報に基づいてフィッティングを行って座標系情報を取得するためのフィッティングモジュールと、
    前記処理対象の画像と、前記座標系情報に基づいて前記基準テンプレートを確定するためのテンプレート確定モジュールと、を含む、紙のデータのデジタル化装置。
  12. 前記マーク命令は位置決め点マーク命令を含み、前記マーク情報は位置決め点情報を含み、
    前記テンプレート確定モジュールは、前記位置決め点情報、前記処理対象の画像、及び前記座標系情報に基づいて前記基準テンプレートを確定するために用いられる、請求項11に記載の装置。
  13. 前記位置決め点情報は、前記処理対象の画像の枠固定点を含み、
    前記テンプレート確定モジュールは、複数の前記枠固定点によって枠選択される領域を前記基準テンプレートの範囲とする、請求項12に記載の装置。
  14. 前記認識ユニットは、
    前記処理対象の画像を予め設定された意味分割モデルに入力し、前記処理対象の画像に含まれる図形筆跡情報を出力するために用いられ、
    ただし、前記意味分割モデルは前記処理対象の画像に含まれる図形筆跡情報を確定するために用いられる、請求項11に記載の装置。
  15. 前記予め設定された意味分割モデルは、
    前記処理対象の画像における各画素が図形筆跡に属する第1の確率値及び/又は曲線筆跡に属しない第2の確率値を確定し、
    前記第1の確率値及び/又は第2の確率値に基づいて前記画素が前記図形筆跡に属するか否かを判断し、
    前記図形筆跡に属する画素に基づいて前記図形筆跡情報を確定するために用いられる、請求項14に記載の装置。
  16. 前記生成ユニットは、
    前記図形筆跡情報を前記基準テンプレートにマッピングし、初期デジタル化テーブルを取得するためのマッピングモジュールであって、ただし、前記初期デジタル化テーブルには前記図形筆跡情報が含まれるマッピングモジュールと、
    前記初期デジタル化テーブルにおける前記図形筆跡情報を微細化処理して単画素幅の筆跡を取得するための微細化モジュールと、
    前記単画素幅の筆跡、前記基準テンプレートに含まれる前記参照座標系に基づいて前記処理対象の画像に対応するデジタル化データを確定するための確定モジュールと、を含む、請求項11に記載の装置。
  17. 前記マーク情報は位置決め点情報を含み、前記基準テンプレートは前記位置決め点情報を含み、
    前記マッピングモジュールは、
    前記図形筆跡情報へのマーク操作に応答し、前記図形筆跡情報において前記基準テンプレートにおける位置決め点情報に対応するマッチング位置を確定するための第1の応答サブモジュールと、
    前記位置決め点情報と前記マッチング位置との対応関係に基づいて、前記図形筆跡情報を前記基準テンプレートにマッピングし、前記初期デジタル化テーブルを取得するための第1のマッピングサブモジュールと、を含む、請求項16に記載の装置。
  18. 前記マッピングモジュールは、
    前記図形筆跡情報と前記基準テンプレートへのマッチング操作に応答し、前記図形筆跡情報において第1のマッチング位置を確定し、前記基準テンプレートにおいて第2のマッチング位置を確定するための第2の応答サブモジュールであって、ただし、前記第1のマッチング位置と前記第2のマッチング位置とは対応する第2の応答サブモジュールと、
    前記第1のマッチング位置と前記第2のマッチング位置との対応関係に基づいて、前記図形筆跡情報を前記基準テンプレートにマッピングし、前記初期デジタル化テーブルを取得するための第2のマッピングサブモジュールと、を含む、請求項16に記載の装置。
  19. 前記微細化モジュールは、
    骨格抽出アルゴリズムに基づいて前記初期デジタル化テーブルにおける前記図形筆跡情報を処理し、単画素幅の筆跡を取得するために用いられる、請求項16-18のいずれか1項に記載の装置。
  20. 前記確定モジュールは、
    前記単画素幅の筆跡、前記基準テンプレートに含まれる前記参照座標系に基づいて、前記筆跡における各画素ドットに対応する前記数値情報を確定するためのマッチングサブモジュールと、
    前記数値情報に基づいて前記処理対象の画像に対応するデジタル化データを確定するための確定サブモジュールと、を含む、請求項16-18のいずれか1項に記載の装置。
  21. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサに請求項1-10のいずれか1項に記載の方法を実行させるように、前記少なくとも1つのプロセッサによって実行される、電子機器。
  22. コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令はコンピュータに請求項1-10のいずれか1項に記載の方法を実行させるために用いられる、非一時的なコンピュータ可読記憶媒体。
  23. コンピュータプログラムであって、前記コンピュータプログラムは、プロセッサにより実行されると、請求項1-10のいずれか1項に記載の方法を実施する、コンピュータプログラム。
JP2021177859A 2020-11-17 2021-10-29 紙のデータのデジタル化方法及び装置、電子機器、記憶媒体 Active JP7315639B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011290842.7A CN112597987B (zh) 2020-11-17 2020-11-17 纸质数据数字化方法及装置、电子设备、存储介质
CN202011290842.7 2020-11-17

Publications (2)

Publication Number Publication Date
JP2022006188A JP2022006188A (ja) 2022-01-12
JP7315639B2 true JP7315639B2 (ja) 2023-07-26

Family

ID=75183102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021177859A Active JP7315639B2 (ja) 2020-11-17 2021-10-29 紙のデータのデジタル化方法及び装置、電子機器、記憶媒体

Country Status (4)

Country Link
US (1) US11676358B2 (ja)
EP (1) EP3879445A3 (ja)
JP (1) JP7315639B2 (ja)
CN (1) CN112597987B (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151953A (ja) 2015-12-31 2017-08-31 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 表の線の識別

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001320571A (ja) * 2000-05-08 2001-11-16 Kokyo Joho System:Kk 帳票筆跡データの処理システム及び処理方法
CN101452523B (zh) * 2007-12-07 2011-01-26 汉王科技股份有限公司 一种识别手写表格的方法及装置
CN104166970B (zh) * 2013-05-16 2017-12-26 北京壹人壹本信息科技有限公司 笔迹数据文件的生成、恢复显示方法及装置、电子装置
KR102161053B1 (ko) * 2013-09-06 2020-09-29 삼성전자주식회사 영상에 포함된 표의 구조를 생성하는 방법 및 이를 위한 장치
RU2661760C1 (ru) * 2017-08-25 2018-07-19 Общество с ограниченной ответственностью "Аби Продакшн" Использование нескольких камер для выполнения оптического распознавания символов
RU2673016C1 (ru) * 2017-12-19 2018-11-21 Общество с ограниченной ответственностью "Аби Продакшн" Способы и системы оптического распознавания символов серии изображений
CN111310428A (zh) * 2020-04-08 2020-06-19 北京君明天下科技有限公司 一种纸质表格笔迹自动录入传输系统及方法
CN111931784B (zh) * 2020-09-17 2021-01-01 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151953A (ja) 2015-12-31 2017-08-31 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 表の線の識別

Also Published As

Publication number Publication date
EP3879445A2 (en) 2021-09-15
JP2022006188A (ja) 2022-01-12
CN112597987B (zh) 2023-08-04
EP3879445A3 (en) 2022-01-05
CN112597987A (zh) 2021-04-02
US11676358B2 (en) 2023-06-13
US20220004752A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
US20210241498A1 (en) Method and device for processing image, related electronic device and storage medium
CN114550177B (zh) 图像处理的方法、文本识别方法及装置
US11887388B2 (en) Object pose obtaining method, and electronic device
CN109919077B (zh) 姿态识别方法、装置、介质和计算设备
CN110188365B (zh) 一种取词翻译的方法和装置
JP7124153B2 (ja) テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品
CN111507354B (zh) 信息抽取方法、装置、设备以及存储介质
KR20200109239A (ko) 이미지를 처리하는 방법, 장치, 서버 및 저장 매체
US11641446B2 (en) Method for video frame interpolation, and electronic device
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
US11810333B2 (en) Method and apparatus for generating image of webpage content
JP2022020588A (ja) アクティブインタラクションの方法、装置、電子デバイス及び可読記憶媒体
JP2021108155A (ja) 画像内のキーポイント位置の認識方法、装置、電子機器及び媒体
CN112380566A (zh) 用于对文档图像进行脱敏的方法、装置、电子设备及介质
JP7315639B2 (ja) 紙のデータのデジタル化方法及び装置、電子機器、記憶媒体
CN111767859A (zh) 图像校正的方法、装置、电子设备及计算机可读存储介质
US20230048495A1 (en) Method and platform of generating document, electronic device and storage medium
CN112101368B (zh) 一种字符图像处理方法、装置、设备和介质
US20230119741A1 (en) Picture annotation method, apparatus, electronic device, and storage medium
CN113656629B (zh) 视觉定位方法、装置、电子设备及存储介质
CN112988011B (zh) 取词翻译方法和装置
CN116416159A (zh) 图像矫正方法及装置、电子设备和介质
CN114625297A (zh) 一种交互方法、装置、设备以及存储介质
CN115984888A (zh) 信息生成方法、信息处理方法、装置、电子设备以及介质
CN117746502A (zh) 图像标注方法、动作识别方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230713

R150 Certificate of patent or registration of utility model

Ref document number: 7315639

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150