JP7364639B2 - デジタル化された筆記の処理 - Google Patents
デジタル化された筆記の処理 Download PDFInfo
- Publication number
- JP7364639B2 JP7364639B2 JP2021170177A JP2021170177A JP7364639B2 JP 7364639 B2 JP7364639 B2 JP 7364639B2 JP 2021170177 A JP2021170177 A JP 2021170177A JP 2021170177 A JP2021170177 A JP 2021170177A JP 7364639 B2 JP7364639 B2 JP 7364639B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- digitized document
- processor
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/197—Version control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2455—Discrimination between machine-print, hand-print and cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Description
Claims (16)
- 手書きテキストを処理するための、コンピュータに実装された処理システムであって、前記処理システムは、
少なくとも1つのデータストレージデバイスと、
前記少なくとも1つのストレージデバイスに保存された機械可読命令を実行する1つ以上のプロセッサと、
を含み、前記1つ以上のプロセッサは、
デジタル化文書にアクセスすることであって、
前記デジタル化文書は、データ入力を含み、
前記データ入力は、手書きテキスト入力を含む、
前記アクセスすることと、
前記デジタル化文書から画像を生成することであって、
それぞれの前記画像は、前記デジタル化文書の個々のページに対応し、
それぞれの前記画像は、前記デジタル化文書の前記個々のページと同じサイズを保持する、
前記画像を生成することと、
前記デジタル化文書中の各単語の輪郭線の形状を捕捉する2値画像を得るために前記画像を2値化することであって、前記画像を2値化するために前記プロセッサは、
所定の倍数によりそれぞれの前記画像の幅および高さを増大させることと、
それぞれの前記画像をグレースケールに変換することと、
それぞれの前記画像にガウシアンぼかしを適用することにより、ぼかし後の2値物体を生成することと
をする、前記2値化することと、
前記デジタル化文書の前記2値画像から前記データ入力について数値を計算することと、
前記データ入力のうちの少なくとも1つが前記手書きテキスト入力を含むと、前記数値に基づき判断することと、
前記デジタル化文書の前記データ入力の中の単語と、各単語の個々の位置とを特定することと、
前記デジタル化文書の出力バージョンを生成することであって、
前記デジタル化文書の前記出力バージョンは、ユーザデバイスの出力画面上に表示するためのものであり、
前記出力バージョンは、前記手書きテキスト入力を含む前記データ入力の選択を可能にし、
前記出力バージョンは、
基礎画像として設定され、前記デジタル化文書の前記ページに対応する前記画像、および
前記デジタル化文書のそれぞれの前記ページからのテキストであって、前記基礎画像のうち前記ページに対応するものに透明フォントで重ねられた、前記テキスト
を含み、
前記テキストは、前記基礎画像中の前記単語の個々の位置と一致する位置に前記透明フォントで表示された、前記ページからの単語を含む、
前記出力バージョンを生成することと、
前記デジタル化文書の前記出力バージョンを表示のために前記ユーザデバイスに提供することにより、前記デジタル化文書に対するテキスト処理機能を可能にすることと
をする、コンピュータに実装された処理システム。 - 前記プロセッサはさらに、
前記デジタル化文書の中で特定すべき検索語を受信することと、
前記検索語が前記デジタル化文書に含まれる位置を特定することと
をする、請求項1に記載の手書きテキスト処理システム。 - 前記テキスト処理機能を可能にするために、前記プロセッサは、
前記検索語に対応する選択された単語を含む、前記透明フォントの強調表示された部分を含んだ、前記デジタル化文書の前記出力バージョンを生成し、
前記強調表示された部分は、前記基礎画像上の前記選択された単語をカバーするサイズである、請求項2に記載の手書きテキスト処理システム。 - 前記テキスト処理機能を可能にするために、前記プロセッサは、
情報抽出(IE)モデルを使用して、前記デジタル化文書中の前記単語から1つ以上のエンティティを抽出することと、
訓練済みの分類器を使用して、前記エンティティを特定のカテゴリに分類することと
をする、請求項1に記載の手書きテキスト処理システム。 - 前記デジタル化文書の前記出力バージョンを生成するために、前記プロセッサは、
前記透明フォントの中の前記エンティティを、前記エンティティが前記デジタル化文書に含まれている前記位置にて強調表示することにより、前記デジタル化文書の前記出力バージョンを生成する、請求項4に記載の手書きテキスト処理システム。 - 前記画像を2値化するために、前記プロセッサはさらに、
キャニーエッジ検出手法を使用して、それぞれの前記画像中の前記ぼかし後の2値物体のエッジを判断することと、
モルフォロジークロージングオペレータの複数の反復を適用することにより、前記エッジの、隙間のない連結された単語ブロブを生成することと
をする、請求項1に記載の手書きテキスト処理システム。 - 手書きテキストを処理するための、コンピュータに実装された処理システムであって、前記処理システムは、
少なくとも1つのデータストレージデバイスと、
前記少なくとも1つのストレージデバイスに保存された機械可読命令を実行する1つ以上のプロセッサと、
を含み、前記1つ以上のプロセッサは、
デジタル化文書にアクセスすることであって、
前記デジタル化文書は、データ入力を含み、
前記データ入力は、手書きテキスト入力を含む、
前記アクセスすることと、
前記デジタル化文書から画像を生成することであって、
それぞれの前記画像は、前記デジタル化文書の個々のページに対応し、
それぞれの前記画像は、前記デジタル化文書の前記個々のページと同じサイズを保持する、
前記画像を生成することと、
前記画像を2値化することにより得られた2値画像から個別の単語の画素をセグメンテーションすることであって、前記個別の単語の画素をセグメンテーションするために、前記プロセッサは、
前記2値画像中の前記単語の位置およびサイズを得ることと、
それぞれの前記単語に対応する2値画像パッチを割り当てることと
をし、
前記2値画像パッチ中の白い画素は、前記個々のページ上の前記単語の境界と内部とのうちの一方を示し、
前記2値画像パッチ中の黒い画素は、前記個々のページ上の前記単語の外部を示す、
前記セグメンテーションすることと、
前記デジタル化文書の前記データ入力について数値を計算することであって、前記数値を計算するために、前記プロセッサは、
それぞれの前記2値画像パッチの特徴を、
前記2値画像パッチに含まれる隙間のない単語ブロブの輪郭を特定することと、
前記2値画像パッチの最大の輪郭を選択することと、
前記2値画像パッチ中の単語の輪郭について、凸包および最小矩形を計算することと
により抽出することと、
をする、
前記数値を計算すると、
前記データ入力のうちの少なくとも1つが前記手書きテキスト入力を含むと、前記数値に基づき判断することと、
前記デジタル化文書の前記データ入力の中の単語と、各単語の個々の位置とを特定することと、
前記デジタル化文書の出力バージョンを生成することであって、
前記デジタル化文書の前記出力バージョンは、ユーザデバイスの出力画面上に表示するためのものであり、
前記出力バージョンは、前記手書きテキスト入力を含む前記データ入力の選択を可能にし、
前記出力バージョンは、
基礎画像として設定され、前記デジタル化文書の前記ページに対応する前記画像、および
前記デジタル化文書のそれぞれの前記ページからのテキストであって、前記基礎画像のうち前記ページに対応するものに透明フォントで重ねられた、前記テキスト
を含み、
前記テキストは、前記基礎画像中の前記単語の個々の位置と一致する位置に前記透明フォントで表示された、前記ページからの単語を含む、
前記出力バージョンを生成することと、
前記デジタル化文書の前記出力バージョンを表示のために前記ユーザデバイスに提供することにより、前記デジタル化文書に対するテキスト処理機能を可能にすることと
をする、コンピュータに実装された処理システム。 - 前記データ入力が少なくとも前記手書きテキスト入力を含むと判断するために、前記プロセッサは、
前記データ入力についての前記数値として、前記2値画像パッチの前記凸包および前記最小矩形のHuモーメントを計算することと、
前記凸包および前記最小矩形の前記Huモーメントが手書きの例についての値と類似しているとの判断に基づき、前記データ入力は少なくとも前記手書きテキスト入力を含むと判断することと
をする、請求項7に記載の手書きテキスト処理システム。 - 手書きテキストを処理するための、コンピュータに実装された処理システムであって、前記処理システムは、
少なくとも1つのデータストレージデバイスと、
前記少なくとも1つのストレージデバイスに保存された機械可読命令を実行する1つ以上のプロセッサと、
を含み、前記1つ以上のプロセッサは、
デジタル化文書にアクセスすることであって、
前記デジタル化文書は、データ入力を含み、
前記データ入力は、手書きテキスト入力を含む、
前記アクセスすることと、
前記デジタル化文書から画像を生成することであって、
それぞれの前記画像は、前記デジタル化文書の個々のページに対応し、
それぞれの前記画像は、前記デジタル化文書の前記個々のページと同じサイズを保持する、
前記画像を生成することと、
前記デジタル化文書の前記データ入力について数値を計算することと、
前記データ入力のうちの少なくとも1つが前記手書きテキスト入力を含むと、前記数値に基づき判断することと、
前記デジタル化文書の前記データ入力の中の単語と、各単語の個々の位置とを特定することであって、前記単語と各単語の個々の位置を特定するために、前記プロセッサは、
単語ブロブの輪郭およびテキスト中の切れ目に基づき、それぞれの前記画像からのテキストを単語の集合にセグメンテーションすることと、
さらに、前記輪郭を使用して各単語を字に分けることと、
訓練済みの畳み込みニューラルネットワーク(CNN)を使用して個別の字を特定することと、
前記個別の字を特定することからの出力を、カスタムモデルを適用することにより得ることと、
前記個別の字を特定することから得られた前記出力を、期待される応答に照らして検証することと
をする、
前記特定することと、
前記デジタル化文書の出力バージョンを生成することであって、
前記デジタル化文書の前記出力バージョンは、ユーザデバイスの出力画面上に表示するためのものであり、
前記出力バージョンは、前記手書きテキスト入力を含む前記データ入力の選択を可能にし、
前記出力バージョンは、
基礎画像として設定され、前記デジタル化文書の前記ページに対応する前記画像、および
前記デジタル化文書のそれぞれの前記ページからのテキストであって、前記基礎画像のうち前記ページに対応するものに透明フォントで重ねられた、前記テキスト
を含み、
前記テキストは、前記基礎画像中の前記単語の個々の位置と一致する位置に前記透明フォントで表示された、前記ページからの単語を含む、
前記出力バージョンを生成することと、
前記デジタル化文書の前記出力バージョンを表示のために前記ユーザデバイスに提供することにより、前記デジタル化文書に対するテキスト処理機能を可能にすることと
をする、コンピュータに実装された処理システム。 - 手書きテキスト入力を処理する方法であって、前記方法は、
データストレージデバイスと通信するプロセッサによって、各画像がデジタル化文書の個々のページに対応する画像である当該画像を生成するステップであって、
前記画像は、前記デジタル化文書の前記ページと同じサイズを有する、
前記画像を生成するステップと、
前記プロセッサによって、暗い背景上で前記デジタル化文書中の単語の形状を捕捉する2値画像に前記画像を変換するステップであって、
前記プロセッサによって、所定の倍数によりそれぞれの前記画像の幅および高さを増大させるステップと、
前記プロセッサによって、それぞれの前記画像をグレースケールに変換するステップと、
前記プロセッサによって、それぞれの前記画像にガウシアンぼかしを適用することにより、ぼかし後の2値物体を生成するステップと、
を含む、前記2値画像に前記画像を変換するステップと、
前記プロセッサによって、前記2値画像を2値画像パッチにセグメンテーションするステップであって、
それぞれの前記2値画像パッチは、前記デジタル化文書からの対応する単語を含む、
前記セグメンテーションするステップと、
前記プロセッサによって、それぞれの前記2値画像パッチの特徴を抽出するステップと、
前記プロセッサによって、前記特徴から前記デジタル化文書のデータ入力についての数値を計算するステップと、
前記プロセッサによって、前記データ入力が少なくとも手書きテキスト入力を含むと、前記数値に基づき判断するステップと、
前記プロセッサによって、前記デジタル化文書中の単語および前記単語の配置を特定するステップと、
前記プロセッサによって、前記手書きテキスト入力の中の単語を含む前記単語のユーザ選択を可能にする前記デジタル化文書の出力バージョンを生成するステップであって、前記出力バージョンは少なくとも、
前記デジタル化文書の前記ページの前記画像を含む1つ以上の基礎画像、および
前記基礎画像のうち対応するものに透明フォントで重ねられた、前記ページからのテキスト
を含み、
前記デジタル化文書の前記ページからの前記単語は、前記基礎画像中の前記単語の前記配置と一致する配置で、前記透明フォントで重ねられる、
前記出力バージョンを生成するステップと、
前記プロセッサによって、前記デジタル化文書の前記出力バージョンを表示のためにユーザデバイスに提供するステップと
を含む、方法。 - 前記2値画像に前記画像を変換するステップはさらに、
前記プロセッサによって、キャニーエッジ検出手法を使用して、それぞれの前記画像中の前記ぼかし後の2値物体のエッジを判断するステップと、
前記プロセッサによって、モルフォロジークロージングオペレータの複数の反復を適用することにより、前記エッジの、連結された単語ブロブを生成するステップと
を含む、請求項10に記載の方法。 - 前記2値画像を前記2値画像パッチにセグメンテーションするステップはさらに、
前記プロセッサによって、前記2値画像中の個別の各単語の位置およびサイズを得るステップと、
前記プロセッサによって、個別の各単語に対応する2値画像パッチを割り当てるステップであって、前記2値画像パッチ中の白い画素は、前記個々のページ上の前記単語の境界と内部とのうちの一方を示し、前記2値画像パッチ中の黒い画素は、前記個々のページ上の前記単語の外部を示す、前記割り当てるステップと、
前記プロセッサによって、前記2値画像から個別の単語の画素をクロップするステップと
を含む、請求項10に記載の方法。 - 前記データ入力についての前記数値を計算するステップはさらに、
前記プロセッサによって、前記データ入力についての前記数値として、それぞれの前記2値画像パッチの凸包および最小矩形のHuモーメントを計算するステップと、
前記プロセッサによって、前記凸包および前記最小矩形の前記Huモーメントがタイプ入力された例よりも手書きの例により類似しているとの判断に基づき、前記データ入力は少なくとも前記手書きテキスト入力を含むと判断するステップと
を含む、請求項10に記載の方法。 - 前記デジタル化文書の前記出力バージョンを生成するステップはさらに、
前記プロセッサによって、ハイパーテキストマークアップ言語(HTML)を使用して前記基礎画像と前記テキストとを組み合わせるステップと、
前記プロセッサによって、前記ユーザデバイス上で前記出力バージョンを閲覧するユーザに前記透明フォントが見えないようにする前記透明フォントの値を、前記HTMLにおいて設定するステップと
を含む、請求項10に記載の方法。 - 機械可読命令を含む非一時的プロセッサ可読ストレージ媒体であって、前記機械可読命令はプロセッサに、
手書きテキスト入力を含むデータ入力を備えたデジタル化文書にアクセスすることと、
前記デジタル化文書から画像を生成することであって、
それぞれの前記画像は、前記デジタル化文書の個々のページに対応し、
それぞれの前記画像は、前記デジタル化文書の前記個々のページに比例したサイズを保持する、
前記画像を生成することと、
前記デジタル化文書中の各単語の輪郭線の形状を捕捉する2値画像を得るために前記画像を2値化することであって、前記画像を2値化するために前記プロセッサは、
所定の倍数によりそれぞれの前記画像の幅および高さを増大させることと、
それぞれの前記画像をグレースケールに変換することと、
それぞれの前記画像にガウシアンぼかしを適用することにより、ぼかし後の2値物体を生成することと
をする、前記2値化することと、
前記デジタル化文書の前記2値画像から前記データ入力について数値を計算することと、
前記数値に基づき、前記データ入力のうちの少なくとも1つが前記手書きテキスト入力を含むと判断することと、
前記デジタル化文書中の単語および前記単語の位置を特定することと、
前記デジタル化文書から特定すべき検索語を受信することと、
前記デジタル化文書の出力バージョンを生成することであって、
前記出力バージョンは、前記手書きテキスト入力を含む前記データ入力の選択を可能にし、
前記出力バージョンは、
前記画像から選択された基礎画像であって、前記デジタル化文書の中の、前記検索語を含む選択された少なくとも1つのページに対応する、前記基礎画像、
前記基礎画像上に透明フォントで重ねられた、前記基礎画像からのテキスト、
を含み、
前記テキストは、前記基礎画像中の前記単語の前記位置と一致する位置に前記透明フォントで表示された、前記選択されたページからの前記単語のサブセットを少なくとも含む、
前記出力バージョンを生成することと、
前記デジタル化文書の前記出力バージョンを表示のためにユーザデバイスの出力画面に提供することと
をさせる、非一時的プロセッサ可読ストレージ媒体。 - 前記プロセッサに、
前記検索語が前記デジタル化文書中で現れる位置を特定することと、
前記デジタル化文書中の前記透明フォントの強調表示された部分を含む前記デジタル化文書の前記出力バージョンを提供することであって、前記強調表示は、前記基礎画像上で前記サブセットの単語が選択されているかのように見える、前記出力バージョンを提供することと
をさせる命令をさらに含む、請求項15に記載の非一時的プロセッサ可読ストレージ媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/074,160 | 2020-10-19 | ||
US17/074,160 US11495039B2 (en) | 2020-10-19 | 2020-10-19 | Processing digitized handwriting |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022067086A JP2022067086A (ja) | 2022-05-02 |
JP7364639B2 true JP7364639B2 (ja) | 2023-10-18 |
Family
ID=78086230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021170177A Active JP7364639B2 (ja) | 2020-10-19 | 2021-10-18 | デジタル化された筆記の処理 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11495039B2 (ja) |
EP (1) | EP3985527A1 (ja) |
JP (1) | JP7364639B2 (ja) |
CN (1) | CN114386413A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11488407B1 (en) * | 2021-06-01 | 2022-11-01 | Lead Technologies, Inc. | Method, apparatus, and computer-readable storage medium for recognizing characters in a digital document |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008059527A (ja) | 2006-09-04 | 2008-03-13 | Ricoh Co Ltd | 画像処理装置およびプログラム |
JP2008287517A (ja) | 2007-05-17 | 2008-11-27 | National Institute Of Information & Communication Technology | 強調表示装置及びプログラム |
WO2011074067A1 (ja) | 2009-12-15 | 2011-06-23 | 富士通フロンテック株式会社 | 文字認識方法、文字認識装置および文字認識プログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5181255A (en) | 1990-12-13 | 1993-01-19 | Xerox Corporation | Segmentation of handwriting and machine printed text |
US6363373B1 (en) * | 1998-10-01 | 2002-03-26 | Microsoft Corporation | Method and apparatus for concept searching using a Boolean or keyword search engine |
US20070269109A1 (en) * | 2005-03-23 | 2007-11-22 | Jakob Ziv-El | Method and apparatus for processing selected images on image reproduction machines |
US7797622B2 (en) * | 2006-11-15 | 2010-09-14 | Xerox Corporation | Versatile page number detector |
US8331677B2 (en) | 2009-01-08 | 2012-12-11 | Microsoft Corporation | Combined image and text document |
JP5716328B2 (ja) * | 2010-09-14 | 2015-05-13 | 株式会社リコー | 情報処理装置、情報処理方法、および情報処理プログラム |
US8755595B1 (en) * | 2011-07-19 | 2014-06-17 | Google Inc. | Automatic extraction of character ground truth data from images |
JP5270027B1 (ja) * | 2012-09-07 | 2013-08-21 | 株式会社東芝 | 情報処理装置および手書き文書検索方法 |
US10614300B2 (en) * | 2014-12-23 | 2020-04-07 | Lenovo (Singapore) Pte. Ltd. | Formatting handwritten content |
US10007863B1 (en) * | 2015-06-05 | 2018-06-26 | Gracenote, Inc. | Logo recognition in images and videos |
US10467465B2 (en) * | 2015-07-20 | 2019-11-05 | Kofax, Inc. | Range and/or polarity-based thresholding for improved data extraction |
EP3788760B1 (en) * | 2018-05-04 | 2024-04-17 | Citrix Systems, Inc. | Systems and methods for adding watermarks using an embedded browser |
FR3081245B1 (fr) * | 2018-05-17 | 2020-06-19 | Idemia Identity & Security France | Procede de reconnaissance de caracteres |
CN108985324A (zh) | 2018-06-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 手写字训练样本获取方法、装置、设备及介质 |
US11222166B2 (en) * | 2019-11-19 | 2022-01-11 | International Business Machines Corporation | Iteratively expanding concepts |
-
2020
- 2020-10-19 US US17/074,160 patent/US11495039B2/en active Active
-
2021
- 2021-09-29 EP EP21199745.7A patent/EP3985527A1/en active Pending
- 2021-10-18 JP JP2021170177A patent/JP7364639B2/ja active Active
- 2021-10-18 CN CN202111210065.5A patent/CN114386413A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008059527A (ja) | 2006-09-04 | 2008-03-13 | Ricoh Co Ltd | 画像処理装置およびプログラム |
JP2008287517A (ja) | 2007-05-17 | 2008-11-27 | National Institute Of Information & Communication Technology | 強調表示装置及びプログラム |
WO2011074067A1 (ja) | 2009-12-15 | 2011-06-23 | 富士通フロンテック株式会社 | 文字認識方法、文字認識装置および文字認識プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022067086A (ja) | 2022-05-02 |
US20220122367A1 (en) | 2022-04-21 |
CN114386413A (zh) | 2022-04-22 |
EP3985527A1 (en) | 2022-04-20 |
US11495039B2 (en) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210064674A1 (en) | Determining functional and descriptive elements of application images for intelligent screen automation | |
CA3027038C (en) | Document field detection and parsing | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
CN110738203A (zh) | 字段结构化输出方法、装置及计算机可读存储介质 | |
CN112949455B (zh) | 一种增值税发票识别系统及方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN111860309A (zh) | 一种人脸识别方法及系统 | |
Akinbade et al. | An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images | |
CN112883926A (zh) | 表格类医疗影像的识别方法及装置 | |
Mondal et al. | tsegGAN: a generative adversarial network for segmenting touching nontext components from text ones in handwriting | |
JP7364639B2 (ja) | デジタル化された筆記の処理 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN113792623B (zh) | 安检ct目标物识别方法和装置 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
US20230196748A1 (en) | Method and system for training neural network for entity detection | |
Kataria et al. | CNN-bidirectional LSTM based optical character recognition of Sanskrit manuscripts: A comprehensive systematic literature review | |
Liang et al. | Robust table recognition for printed document images | |
Jayanthi et al. | Language detection of text document image | |
Banerjee et al. | A robust approach to extraction of texts from camera captured images | |
US20220237397A1 (en) | Identifying handwritten signatures in digital images using ocr residues | |
Rao et al. | MTESSERACT: An Application for Form Recognition in Courier Services | |
Panchal et al. | An investigation on feature and text extraction from images using image recognition in Android | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
Zheng et al. | Recognition of expiry data on food packages based on improved DBNet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230608 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231005 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7364639 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |