JP2022067086A - デジタル化された筆記の処理 - Google Patents
デジタル化された筆記の処理 Download PDFInfo
- Publication number
- JP2022067086A JP2022067086A JP2021170177A JP2021170177A JP2022067086A JP 2022067086 A JP2022067086 A JP 2022067086A JP 2021170177 A JP2021170177 A JP 2021170177A JP 2021170177 A JP2021170177 A JP 2021170177A JP 2022067086 A JP2022067086 A JP 2022067086A
- Authority
- JP
- Japan
- Prior art keywords
- digitized document
- word
- image
- binary image
- handwritten text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000013479 data entry Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 6
- 238000003708 edge detection Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 241001311547 Patina Species 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/197—Version control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2455—Discrimination between machine-print, hand-print and cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (20)
- 手書きテキストを処理するための、コンピュータに実装された処理システムであって、前記処理システムは、
少なくとも1つのデータストレージデバイスと、
前記少なくとも1つのストレージデバイスに保存された機械可読命令を実行する1つ以上のプロセッサと、
を含み、前記1つ以上のプロセッサは、
デジタル化文書にアクセスすることであって、
前記デジタル化文書は、データ入力を含み、
前記データ入力は、手書きテキスト入力を含む、
前記アクセスすることと、
前記デジタル化文書から画像を生成することであって、
それぞれの前記画像は、前記デジタル化文書の個々のページに対応し、
それぞれの前記画像は、前記デジタル化文書の前記個々のページと同じサイズを保持する、
前記画像を生成することと、
前記デジタル化文書の前記データ入力について数値を計算することと、
前記データ入力のうちの少なくとも1つが前記手書きテキスト入力を含むと、前記数値に基づき判断することと、
前記デジタル化文書の前記データ入力の中の単語と、各単語の個々の位置とを特定することと、
前記デジタル化文書の出力バージョンを生成することであって、
前記デジタル化文書の前記出力バージョンは、ユーザデバイスの出力画面上に表示するためのものであり、
前記出力バージョンは、前記手書きテキスト入力を含む前記データ入力の選択を可能にし、
前記出力バージョンは、
基礎画像として設定され、前記デジタル化文書の前記ページに対応する前記画像、および
前記デジタル化文書のそれぞれの前記ページからのテキストであって、前記基礎画像のうち前記ページに対応するものに透明フォントで重ねられた、前記テキスト
を含み、
前記テキストは、前記基礎画像中の前記単語の個々の位置と一致する位置に前記透明フォントで表示された、前記ページからの単語を含む、
前記出力バージョンを生成することと、
前記デジタル化文書の前記出力バージョンを表示のために前記ユーザデバイスに提供することにより、前記デジタル化文書に対するテキスト処理機能を可能にすることと
をする、コンピュータに実装された処理システム。 - 前記プロセッサはさらに、
前記デジタル化文書の中で特定すべき検索語を受信することと、
前記検索語が前記デジタル化文書に含まれる位置を特定することと
をする、請求項1に記載の手書きテキスト処理システム。 - 前記テキスト処理機能を可能にするために、前記プロセッサは、
前記検索語に対応する選択された単語を含む、前記透明フォントの強調表示された部分を含んだ、前記デジタル化文書の前記出力バージョンを生成し、
前記強調表示された部分は、前記基礎画像上の前記選択された単語をカバーするサイズである、請求項2に記載の手書きテキスト処理システム。 - 前記テキスト処理機能を可能にするために、前記プロセッサは、
情報抽出(IE)モデルを使用して、前記デジタル化文書中の前記単語から1つ以上のエンティティを抽出することと、
訓練済みの分類器を使用して、前記エンティティを特定のカテゴリに分類することと
をする、請求項1に記載の手書きテキスト処理システム。 - 前記デジタル化文書の前記出力バージョンを生成するために、前記プロセッサは、
前記透明フォントの中の前記エンティティを、前記エンティティが前記デジタル化文書に含まれている前記位置にて強調表示することにより、前記デジタル化文書の前記出力バージョンを生成する、請求項4に記載の手書きテキスト処理システム。 - 前記デジタル化文書を処理するために、前記プロセッサは、
前記デジタル化文書から生成された前記画像を2値化することにより、前記デジタル化文書中の各単語の輪郭線の形状を捕捉する、請求項1に記載の手書きテキスト処理システム。 - 前記デジタル化文書を2値化するために、前記プロセッサは、
所定の倍数によりそれぞれの前記画像の幅および高さを増大させることと、
それぞれの前記画像をグレースケールに変換することと、
それぞれの前記画像にガウシアンぼかしを適用することにより、ぼかし後の2値物体を生成することと
をする、請求項6に記載の手書きテキスト処理システム。 - 前記デジタル化文書を2値化するために、前記プロセッサは、
キャニーエッジ検出手法を使用して、それぞれの前記画像中の前記ぼかし後の2値物体のエッジを判断することと、
モルフォロジークロージングオペレータの複数の反復を適用することにより、前記エッジの、隙間のない連結された単語ブロブを生成することと
をする、請求項7に記載の手書きテキスト処理システム。 - 前記デジタル化文書を処理するために、前記プロセッサは、
前記画像を2値化することにより得られた2値画像から個別の単語の画素をセグメンテーションする、請求項1に記載の手書きテキスト処理システム。 - 前記個別の単語の画素をセグメンテーションするために、前記プロセッサは、
前記2値画像中の前記単語の位置およびサイズを得ることと、
それぞれの前記単語に対応する2値画像パッチを割り当てることと
をし、
前記2値画像パッチ中の白い画素は、前記個々のページ上の前記単語の境界と内部とのうちの一方を示し、
前記2値画像パッチ中の黒い画素は、前記個々のページ上の前記単語の外部を示す、
請求項9に記載の手書きテキスト処理システム。 - 前記デジタル化文書を処理するために、前記プロセッサは、
それぞれの前記2値画像パッチの特徴を、
前記2値画像パッチに含まれる隙間のない単語ブロブの輪郭を特定することと、
前記2値画像パッチの最大の輪郭を選択することと、
前記2値画像パッチ中の単語の輪郭について、凸包および最小矩形を計算することと
により抽出する、請求項10に記載の手書きテキスト処理システム。 - 前記データ入力が少なくとも前記手書きテキスト入力を含むと判断するために、前記プロセッサは、
前記データ入力についての前記数値として、前記2値画像パッチの前記凸包および前記最小矩形のHuモーメントを計算することと、
前記凸包および前記最小矩形の前記Huモーメントが手書きの例についての値と類似しているとの判断に基づき、前記データ入力は少なくとも前記手書きテキスト入力を含むと判断することと
をする、請求項11に記載の手書きテキスト処理システム。 - 前記デジタル化文書中の各単語および各単語の位置を特定するために、前記プロセッサは、
単語ブロブの輪郭およびテキスト中の切れ目に基づき、それぞれの前記画像からのテキストを単語の集合にセグメンテーションすることと、
さらに、前記輪郭を使用して各単語を字に分けることと、
訓練済みの畳み込みニューラルネットワーク(CNN)を使用して個別の字を特定することと、
前記個別の字を特定することからの出力を、カスタムモデルを適用することにより得ることと、
前記個別の字を特定することから得られた前記出力を、期待される応答に照らして検証することと
をする、請求項1に記載の手書きテキスト処理システム。 - 手書きテキスト入力を処理する方法であって、前記方法は、
デジタル化文書の各ページに対応する画像を生成するステップであって、
前記画像は、前記デジタル化文書の前記ページと同じサイズを有する、
前記画像を生成するステップと、
暗い背景上で前記デジタル化文書中の単語の形状を捕捉する2値画像に前記画像を変換するステップと、
前記2値画像を2値画像パッチにセグメンテーションするステップであって、
それぞれの前記2値画像パッチは、前記デジタル化文書からの対応する単語を含む、
前記セグメンテーションするステップと、
それぞれの前記2値画像パッチの特徴を抽出するステップと、
前記特徴から前記デジタル化文書のデータ入力についての数値を計算するステップと、
前記データ入力が少なくとも手書きテキスト入力を含むと、前記数値に基づき判断するステップと、
前記デジタル化文書中の単語および前記単語の配置を特定するステップと、
前記手書きテキスト入力の中の単語を含む前記単語のユーザ選択を可能にする前記デジタル化文書の出力バージョンを生成するステップであって、前記出力バージョンは少なくとも、
前記デジタル化文書の前記ページの前記画像を含む1つ以上の基礎画像、および
前記基礎画像のうち対応するものに透明フォントで重ねられた、前記ページからのテキスト
を含み、
前記デジタル化文書の前記ページからの前記単語は、前記基礎画像中の前記単語の前記配置と一致する配置で、前記透明フォントで重ねられる、
前記出力バージョンを生成するステップと、
前記デジタル化文書の前記出力バージョンを表示のためにユーザデバイスに提供するステップと
を含む、方法。 - 前記2値画像に前記画像を変換するステップはさらに、
所定の倍数によりそれぞれの前記画像の幅および高さを増大させるステップと、
それぞれの前記画像をグレースケールに変換するステップと、
それぞれの前記画像にガウシアンぼかしを適用することにより、ぼかし後の2値物体を生成するステップと、
キャニーエッジ検出手法を使用して、それぞれの前記画像中の前記ぼかし後の2値物体のエッジを判断するステップと、
モルフォロジークロージングオペレータの複数の反復を適用することにより、前記エッジの、連結された単語ブロブを生成するステップと
を含む、請求項14に記載の方法。 - 前記2値画像を前記2値画像パッチにセグメンテーションするステップはさらに、
前記2値画像中の個別の各単語の位置およびサイズを得るステップと、
個別の各単語に対応する2値画像パッチを割り当てるステップであって、前記2値画像パッチ中の白い画素は、前記個々のページ上の前記単語の境界と内部とのうちの一方を示し、前記2値画像パッチ中の黒い画素は、前記個々のページ上の前記単語の外部を示す、前記割り当てるステップと、
前記2値画像から個別の単語の画素をクロップするステップと
を含む、請求項14に記載の方法。 - 前記データ入力についての前記数値を計算するステップはさらに、
前記データ入力についての前記数値として、それぞれの前記2値画像パッチの凸包のHuモーメントを計算するステップと、
前記凸包および前記最小矩形の前記Huモーメントがタイプ入力された例よりも手書きの例により類似しているとの判断に基づき、前記データ入力は少なくとも前記手書きテキスト入力を含むと判断するステップと
を含む、請求項14に記載の方法。 - 前記デジタル化文書の前記出力バージョンを生成するステップはさらに、
ハイパーテキストマークアップ言語(HTML)を使用して前記基礎画像と前記テキストとを組み合わせるステップと、
前記ユーザデバイス上で前記出力バージョンを閲覧するユーザに前記フォントが見えないようにする前記透明フォントの値を、前記HTMLにおいて設定するステップと
を含む、請求項14に記載の方法。 - 機械可読命令を含む非一時的プロセッサ可読ストレージ媒体であって、前記機械可読命令はプロセッサに、
手書きテキスト入力を含むデータ入力を備えたデジタル化文書にアクセスすることと、
前記デジタル化文書から画像を生成することであって、
それぞれの前記画像は、前記デジタル化文書の個々のページに対応し、
それぞれの前記画像は、前記デジタル化文書の前記個々のページに比例したサイズを保持する、
前記画像を生成することと、
前記デジタル化文書の前記データ入力について数値を計算することと、
前記数値に基づき、前記データ入力のうちの少なくとも1つが前記手書きテキスト入力を含むと判断することと、
前記デジタル化文書中の単語および前記単語の位置を特定することと、
前記デジタル化文書から特定すべき検索語を受信することと、
前記デジタル化文書の出力バージョンを生成することであって、
前記出力バージョンは、前記手書きテキスト入力を含む前記データ入力の選択を可能にし、
前記出力バージョンは、
前記画像から選択された基礎画像であって、前記デジタル化文書の中の、前記検索語を含む選択された少なくとも1つのページに対応する、前記基礎画像、
前記基礎画像上に透明フォントで重ねられた、前記基礎画像からのテキスト、
を含み、
前記テキストは、前記基礎画像中の前記単語の前記位置と一致する位置に前記透明フォントで表示された、前記選択されたページからの前記単語のサブセットを少なくとも含む、
前記出力バージョンを生成することと、
前記デジタル化文書の前記出力バージョンを表示のためにユーザデバイスの出力画面に提供することと
をさせる、非一時的プロセッサ可読ストレージ媒体。 - 前記プロセッサに、
前記検索語が前記デジタル化文書中で現れる位置を特定することと、
前記デジタル化文書中の前記透明フォントの強調表示された部分を含む前記デジタル化文書の前記出力バージョンを提供することであって、前記強調表示は、前記基礎画像上で前記サブセットの単語が選択されているかのように見える、前記出力バージョンを提供することと
をさせる命令をさらに含む、請求項19に記載の非一時的プロセッサ可読ストレージ媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/074,160 US11495039B2 (en) | 2020-10-19 | 2020-10-19 | Processing digitized handwriting |
US17/074,160 | 2020-10-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022067086A true JP2022067086A (ja) | 2022-05-02 |
JP7364639B2 JP7364639B2 (ja) | 2023-10-18 |
Family
ID=78086230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021170177A Active JP7364639B2 (ja) | 2020-10-19 | 2021-10-18 | デジタル化された筆記の処理 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11495039B2 (ja) |
EP (1) | EP3985527A1 (ja) |
JP (1) | JP7364639B2 (ja) |
CN (1) | CN114386413A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11488407B1 (en) * | 2021-06-01 | 2022-11-01 | Lead Technologies, Inc. | Method, apparatus, and computer-readable storage medium for recognizing characters in a digital document |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008059527A (ja) * | 2006-09-04 | 2008-03-13 | Ricoh Co Ltd | 画像処理装置およびプログラム |
JP2008287517A (ja) * | 2007-05-17 | 2008-11-27 | National Institute Of Information & Communication Technology | 強調表示装置及びプログラム |
WO2011074067A1 (ja) * | 2009-12-15 | 2011-06-23 | 富士通フロンテック株式会社 | 文字認識方法、文字認識装置および文字認識プログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5181255A (en) | 1990-12-13 | 1993-01-19 | Xerox Corporation | Segmentation of handwriting and machine printed text |
US6363373B1 (en) * | 1998-10-01 | 2002-03-26 | Microsoft Corporation | Method and apparatus for concept searching using a Boolean or keyword search engine |
US20070269109A1 (en) * | 2005-03-23 | 2007-11-22 | Jakob Ziv-El | Method and apparatus for processing selected images on image reproduction machines |
US7797622B2 (en) * | 2006-11-15 | 2010-09-14 | Xerox Corporation | Versatile page number detector |
US8331677B2 (en) | 2009-01-08 | 2012-12-11 | Microsoft Corporation | Combined image and text document |
JP5716328B2 (ja) * | 2010-09-14 | 2015-05-13 | 株式会社リコー | 情報処理装置、情報処理方法、および情報処理プログラム |
US8755595B1 (en) * | 2011-07-19 | 2014-06-17 | Google Inc. | Automatic extraction of character ground truth data from images |
JP5270027B1 (ja) * | 2012-09-07 | 2013-08-21 | 株式会社東芝 | 情報処理装置および手書き文書検索方法 |
US10614300B2 (en) * | 2014-12-23 | 2020-04-07 | Lenovo (Singapore) Pte. Ltd. | Formatting handwritten content |
US10007863B1 (en) * | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
US10467465B2 (en) * | 2015-07-20 | 2019-11-05 | Kofax, Inc. | Range and/or polarity-based thresholding for improved data extraction |
CN112313919A (zh) * | 2018-05-04 | 2021-02-02 | 思杰系统有限公司 | 用于使用嵌入式浏览器添加水印的系统和方法 |
FR3081245B1 (fr) * | 2018-05-17 | 2020-06-19 | Idemia Identity & Security France | Procede de reconnaissance de caracteres |
CN108985324A (zh) | 2018-06-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 手写字训练样本获取方法、装置、设备及介质 |
US11222166B2 (en) * | 2019-11-19 | 2022-01-11 | International Business Machines Corporation | Iteratively expanding concepts |
-
2020
- 2020-10-19 US US17/074,160 patent/US11495039B2/en active Active
-
2021
- 2021-09-29 EP EP21199745.7A patent/EP3985527A1/en active Pending
- 2021-10-18 JP JP2021170177A patent/JP7364639B2/ja active Active
- 2021-10-18 CN CN202111210065.5A patent/CN114386413A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008059527A (ja) * | 2006-09-04 | 2008-03-13 | Ricoh Co Ltd | 画像処理装置およびプログラム |
JP2008287517A (ja) * | 2007-05-17 | 2008-11-27 | National Institute Of Information & Communication Technology | 強調表示装置及びプログラム |
WO2011074067A1 (ja) * | 2009-12-15 | 2011-06-23 | 富士通フロンテック株式会社 | 文字認識方法、文字認識装置および文字認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
US11495039B2 (en) | 2022-11-08 |
CN114386413A (zh) | 2022-04-22 |
EP3985527A1 (en) | 2022-04-20 |
JP7364639B2 (ja) | 2023-10-18 |
US20220122367A1 (en) | 2022-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11886799B2 (en) | Determining functional and descriptive elements of application images for intelligent screen automation | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
US20170109610A1 (en) | Building classification and extraction models based on electronic forms | |
CA3027038A1 (en) | Document field detection and parsing | |
Demilew et al. | Ancient Geez script recognition using deep learning | |
CN112949455B (zh) | 一种增值税发票识别系统及方法 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
Akinbade et al. | An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images | |
Mondal et al. | tsegGAN: a generative adversarial network for segmenting touching nontext components from text ones in handwriting | |
Akanksh et al. | Automated invoice data extraction using image processing | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
JP7364639B2 (ja) | デジタル化された筆記の処理 | |
CN115661810A (zh) | 安检ct目标物识别方法和装置 | |
Koushik et al. | Automated marks entry processing in handwritten answer scripts using character recognition techniques | |
Panchal et al. | An investigation on feature and text extraction from images using image recognition in Android | |
US11928877B2 (en) | Systems and methods for automatic context-based annotation | |
CN113627442A (zh) | 医疗信息的录入方法、装置、设备及存储介质 | |
Zheng et al. | Recognition of expiry data on food packages based on improved DBNet | |
Shetty et al. | Automated Identity Document Recognition and Classification (AIDRAC)-A Review | |
Bukhari | Object Character Recognition from patient monitor screen | |
Vuong et al. | Design and implementation of multilanguage name card reader on android platform | |
Rao et al. | MTESSERACT: An Application for Form Recognition in Courier Services | |
Mehta et al. | A survey on the application of image processing techniques on palm leaf manuscripts | |
US20230230402A1 (en) | Object detection using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230608 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231005 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7364639 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |