JP2023119593A - ドキュメント画像の認識方法、装置、記憶媒体、及び電子装置 - Google Patents

ドキュメント画像の認識方法、装置、記憶媒体、及び電子装置 Download PDF

Info

Publication number
JP2023119593A
JP2023119593A JP2023022386A JP2023022386A JP2023119593A JP 2023119593 A JP2023119593 A JP 2023119593A JP 2023022386 A JP2023022386 A JP 2023022386A JP 2023022386 A JP2023022386 A JP 2023022386A JP 2023119593 A JP2023119593 A JP 2023119593A
Authority
JP
Japan
Prior art keywords
recognized
document image
vector
document
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023022386A
Other languages
English (en)
Inventor
ユィ・ユエチェン
Yuechen Yu
ジャン・チェンチュエン
Chengquan Zhang
ヤオ・クン
Kun Yao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023119593A publication Critical patent/JP2023119593A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • G06V30/1823Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

Figure 2023119593000001
【課題】ドキュメント画像の認識精度及び認識効率を高めて画像認識アルゴリズムの計算量を低減させるドキュメント画像の認識方法、装置、記憶媒体及び電子装置を提供する。
【解決手段】認識方法は、認識対象の、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含むドキュメント画像を、画像特徴マップに変換するステップと、画像特徴マップ、文字及びテキストボックスに基づいて、認識対象のドキュメント画像の第1の認識コンテンツを予測して取得するステップS104と、光学文字認識アルゴリズムを利用して認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得するステップS106と、第1の認識コンテンツと第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップS108と、を含む。
【選択図】図1

Description

本開示は人工知能認識の技術分野に関し、特に深層学習、コンピュータビジョンの技術分野に関し、画像処理、光学文字認識OCRシーンに適用され、具体的に、ドキュメント画像の認識方法、装置、記憶媒体、及び電子装置に関する。
従来技術におけるドキュメント画像の認識方法は主に、光学文字認識(OCR)技術によって実現されるが、従来のドキュメント画像の認識方法は光学文字認識技術を利用して実現される場合、一般的に、複雑な画像処理フローを通過する必要があり、品質の悪いドキュメント画像、又は雑音が存在するドキュメント走査ファイル(即ち、弱いコントラスト、不均一な明暗分布、そしてぼやけた背景などの状況が存在するドキュメント画像又はドキュメント走査ファイル)に対して、当該認識方法は、認識の精度が低く、時間がかかる。
上記の問題について、いまだに効果的な解決策が提出されていない。
本開示はドキュメント画像の認識方法、装置、記憶媒体及び電子装置を提供する。
本開示の1つの側面によれば、認識対象のドキュメント画像を画像特徴マップに変換するステップであって、前記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含むステップと、前記画像特徴マップ、前記文字及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得するステップと、光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得するステップと、前記第1の認識コンテンツと前記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップと、を含むドキュメント画像の認識方法を提供する。
本開示の他の側面によれば、認識対象のドキュメント画像を画像特徴マップに変換する変換モジュールであって、前記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含む変換モジュールと、前記画像特徴マップ、前記文字及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得する第1の予測モジュールと、光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得する第2の予測モジュールと、前記第1の認識コンテンツと前記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するマッチングモジュールと、を備えるドキュメント画像の認識装置を提供する。
本開示の他の側面によれば、電子装置を提供し、少なくとも1つのプロセッサーと、前記少なくとも1つのプロセッサーに通信可能に接続されるメモリとを備え、前記メモリには、前記少なくとも1つのプロセッサーにより実行可能な指令が記憶され、前記指令が前記少なくとも1つのプロセッサーにより実行されることで、前記少なくとも1つのプロセッサーは上記何れか1つのドキュメント画像の認識方法を実行できる。
本開示の他の側面によれば、コンピュータに、上記何れか1つのドキュメント画像の認識方法を実行させるコンピュータ指令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
本開示の他の側面によれば、プロセッサーにより実行されると、上記何れか1つのドキュメント画像の認識方法を実現するコンピュータプログラムを備えるコンピュータプログラム製品を提供する。
本開示の他の側面によれば、前記の電子装置を備えるドキュメント画像の認識製品を提供する。
本開示の実施例において、認識対象のドキュメント画像を画像特徴マップに変換するステップであって、前記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含むステップと、前記画像特徴マップ、前記文字及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得するステップと、光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得するステップと、前記第1の認識コンテンツと前記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップと、を実行することで、ドキュメント画像におけるコンテンツ情報を正確に認識するという目的を達成し、ドキュメント画像の認識精度及び認識効率を高めて、画像認識アルゴリズムの計算量を低減させるという技術効果を実現し、関連技術におけるドキュメント画像認識方法が、品質の悪いドキュメント画像に対して認識精度が低く、且つアルゴリズムの計算量が大きいという技術的課題を解決する。
ここで、当該部分に記載の内容は、本開示の実施例の主な特徴又は重要特徴を意味するのではなく、本開示の範囲も限定しない。以下の明細書によって、本開示の他の特徴は分かりやすくなる。
図面は本開示に対する限定を構成するのではなく、当該解決策をよりよく理解するためのものである。
本開示の第1の実施例によるドキュメント画像の認識方法のフローチャートである。 本開示の第1の実施例による選択的なドキュメント画像の認識方法のフローチャートである。 本開示の第1の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。 本開示の第1の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。 本開示の第1の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。 本開示の第2の実施例によるドキュメント画像の認識装置の構成概略図である。 本開示の実施例のドキュメント画像の認識方法を実現するための電子装置のブロック図である。
以下、図面を参照しながら、本開示の例示的な実施例を説明し、理解できるように、本開示の実施例の各種の細部を含み、それらは単に例示的なものである。従って、当業者であれば認識できるように、本開示の範囲及び精神を逸脱することなく、ここに記載の実施例に対して各種の変更及び修正を行ってもよい。同様に、明瞭及び簡潔のために、以下の記載は公知機能及び構成に対する記載を省略する。
ここで、本開示の明細書、特許請求の範囲及び上記図面における「第1」、「第2」などの用語は必ずしも特定の順序又は前後順を記載するためではなく、類似のオブジェクトを区別するためのものである。理解すべきことは、ここに記載の本開示の実施例は、ここに図示又は記載のもの以外の順序で実施されるように、このようなデータは適宜な場合、互いに交換されてもよい。また、用語である「含む」、「具備」及びそれらの任意の変形は、非排他的な包含を含むように意図され、例えば、一連のステップ又はユニットを含む過程、方法、システム、製品又は装置は、明らかに挙げられたステップ又はユニットに限定されず、明らかに挙げられていないか、又はこれらの過程、方法、製品又は装置の固有の他のステップ又はユニットを含んでもよい。
実施例1
ネットワークの情報化及び画像認識処理技術の発展に連れて、光学文字認識(OpticalCharacter Recognition、OCR)技術は、教育、金融、医療、交通及び保険などの各種産業で何れも大幅な注目及び応用を取得し、オフィスエレクトロニック程度の向上に伴って、もともと紙の形態で保存されていたドキュメント資料はだんだんスキャナーなどのエレクトロニック手段によって、画像形態で保存されるように変換される。特定の記録画像を検索し又は呼び出すために、映像及び映像コンテンツデータに対してインデックスを確立する必要がある。インデックスを確立するために、一般的に、光学文字認識(OCR)技術を利用して、走査して得られた映像に対して分類処理を行ってから、認識してそのコンテンツデータを取得する。
業界の主流である画像処理アルゴリズムのドキュメント画像認識の解決策は、一般的に複雑な画像処理フローを利用して解决し、品質の悪いドキュメント画像又は雑音が存在する走査ファイル(即ち、弱いコントラスト、不均一な明暗分布、そしてぼやけた背景などの状況が存在するドキュメント画像又はドキュメント走査ファイル)に対して、認識精度が低く、時間がかかる。
従来の光学文字認識(OCR)技術を利用してドキュメント画像認識(例えばテーブル認識)を行う場合、光学文字認識技術を利用してドキュメント画像認識を行う具体的な実現過程は、即ち、まず、ドキュメント画像に対して二値化処理を行って、画像に対して傾き補正処理及び画像分割処理などを行うことで、ドキュメント画像における単一の文字を抽出し、そして、従来の文字認識ツールを呼び出し、又は汎用のニューラルネットワーク分類器を訓練することで、文字を認識することを含む。
具体的に、まず、ドキュメント画像に対して二値化処理を行い、上記二値化処理方法は主にグローバル閾値法、ローカル閾値法、領域拡張の方法、分水界アルゴリズム、最小記述長法、マルコフ確率場による方法などを含む。そして、分割処理後のドキュメント画像に対して傾き補正処理を行い、上記傾き補正処理の方法は主に、投影図による方法、Hough変換による方法、最近傍法及びベクトル化方法などを含む。そして、傾き補正処理後のドキュメント画像に対して分割処理を行って、ドキュメント画像における単一の文字を抽出し、従来の文字認識ツールを呼び出し、又は汎用のニューラルネットワーク分類器を訓練することで、文字を認識する。
これから分かるように、上記方法は複雑な画像処理フローによって実現され、往々にして、一定の弊害が存在する。例えば、上記グローバル閾値法は、画像の階調情報のみを配慮し、画像における空間情報を無視し、全ての画素に対して同一の階調閾値を利用し、輝度がどこでも均一であり、且つ画像ヒストグラムが明らかなダブルピークを有する理想の状況のみに適し、画像には明らかな階調差が存在しない場合、又は各物体の階調値範囲が大きな重複を有する場合、一般的に、望ましい効果を取得し難い。上記ローカル閾値法は、グローバル閾値法に存在する、輝度分布が不均一であるという欠陥を克服できるが、ウィンドウサイズの設定という問題が存在し、即ち、小さすぎるウィンドウであれば、ラインの破断を招致しやすく、大きすぎるウィンドウであれば、画像は、あるべき局所細部を失う恐れがある。上記投影法は、各傾斜角の投影形状を計算する必要があり、傾斜推定の精度を高くしようとすると、この方法の計算量は非常に大きくなり、また、当該方法は一般的に、文字ドキュメントの傾き補正に適用され、複雑な構成を有するテーブル補正に対して、当該方法の効果が悪くい。最近傍法は、多くの近隣を有する構成部分に対して、非常に時間がかかってしまい、総体的なパフォーマンスが理想的ではない。ベクトル化アルゴリズムは、ラスター画像の各画素を直接処理し、記憶量が大きく、その補正結果のよしあし、アルゴリズムのパフォーマンス及び画像処理の時間、空間コストは何れもベクトルプリミティブの選択に大きく依存する。上記Hough変換方法は、計算量が大きく、非常に時間がかかってしまい、直線の始点及び終点を決定し難く、プレーンテキストドキュメントのみに対して効果があり、グラフを有する複雑な構成のドキュメント画像に対しては、画像及びテーブルの干渉のため、望ましい結果を取得できないため、具体的な工程実践における応用は制限される。また、上記方法は、品質の悪いドキュメント画像、又は雑音が存在するドキュメント走査ファイル(即ち、弱いコントラスト、不均一な明暗分布、そしてぼやけた背景などの状況が存在するドキュメント画像又はドキュメント走査ファイル)に対して、認識の精度が低く、時間がかかる。
上記問題に基づいて、本開示の実施例はドキュメント画像の認識方法の実施例を提供する。ここで、図面のフローチャートで示されるステップは、例えば、コンピュータ実行可能な1組の指令はコンピュータシステムで実行され、フローチャートはロジック順序を示すが、一部の場合、ここと異なる順序で、示され又は記載されるステップを実行してもよい。
図1は本開示の第1の実施例によるドキュメント画像の認識方法のフローチャートである。図1に示すように、当該方法は以下のステップS102、S104、S106、S108を含む。
ステップS102:認識対象のドキュメント画像を画像特徴マップに変換し、上記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含む。
ステップS104:上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得する。
ステップS106:光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得する。
ステップS108:上記第1の認識コンテンツと上記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得する。
選択的には、畳み込みニューラルネットワークアルゴリズムを利用して、認識対象のドキュメント画像を画像特徴マップに変換し、即ち、認識対象のドキュメント画像をスイッチニューラルネットワークモデルに入力し、上記画像特徴マップを取得し、上記畳み込みニューラルネットワークアルゴリズムは、ResNet、VGG、MobileNetなどのアルゴリズムを含んでもよいが、これらに限定されていない。
選択的には、上記第1の認識コンテンツは、予測方法により認識された上記ドキュメント画像における文字認識コンテンツ、及び文字領域の位置情報を含んでもよいが、これらに限定されず、上記第2の認識コンテンツは、光学文字認識(OCR)アルゴリズムにより認識された上記ドキュメント画像における文字認識コンテンツ、及び文字領域の位置情報を含んでもよいが、これらに限定されず、上記第1の認識コンテンツと上記第2の認識コンテンツとをマッチングするステップは、上記第1の認識コンテンツと上記第2の認識コンテンツにおける文字認識コンテンツ、及び文字領域の位置情報をマッチングするステップを含んでもよいが、これらに限定されていない。
ここで、本開示の実施例のドキュメント画像の認識方法は主に、ドキュメント及び/又はグラフにおけるテキスト情報を正確に認識するために用いられるため、上記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含む。
本開示の実施例において、認識対象のドキュメント画像を画像特徴マップに変換するステップであって、上記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含むステップと、上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得するステップと、光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得するステップと、上記第1の認識コンテンツと上記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップと、を実行することで、ドキュメント画像におけるコンテンツ情報を正確に認識するという目的を達成し、ドキュメント画像の認識精度及び認識効率を高めて、画像認識アルゴリズムの計算量を低減させるという技術効果を実現し、関連技術におけるドキュメント画像認識方法が、品質の悪いドキュメント画像に対して認識精度が低く、且つアルゴリズムの計算量が大きいという技術的課題を解決する。
選択的な実施例として、図2は本開示の第1の実施例による選択的なドキュメント画像の認識方法のフローチャートである。図2に示すように、上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得するステップは、以下のステップS202、S204、S206、S208を含む。
ステップS202:各上記テキストボックスのサイズに基づいて、上記画像特徴マップを複数の特徴サブマップに区画する。
ステップS204:上記文字における自然言語単語に対応する第1のベクトルを決定し、異なる上記文字の自然言語単語は、長さが同じで一定であるベクトルに変換される。
ステップS206:上記テキストボックスの第1の座標情報に対応する第2のベクトル、及び上記文字の第2の座標情報に対応する第3のベクトルをそれぞれ決定し、上記第2のベクトルと第3のベクトルは、ベクトル長さが同じで一定である。
ステップS208:ドキュメント構成復号器を利用して上記複数の特徴サブマップ、上記第1のベクトル、上記第2のベクトル及び上記第3のベクトルに対して復号処理を行って、上記第1の認識コンテンツを取得する。
選択的には、テキストボックスの位置情報に基づいて各上記テキストボックスのサイズを決定し、各上記テキストボックスのサイズに基づいて、上記画像特徴マップを複数の特徴サブマップに区画し、各上記テキストボックスは1つの特徴サブマップに対応し、各特徴サブマップのサイズは、対応するテキストボックスのサイズと同じである。
選択的には、上記画像特徴マップ(即ち、認識対象のドキュメント画像の画像全体の特徴マップ)を取得した後、上記画像特徴マップをROI畳み込み層に入力することで、上記認識対象のドキュメント画像における各上記テキストボックスに対応する特徴サブマップを取得し、上記ROI畳み込み層は、各上記テキストボックスにおける主な特徴(例えば、文字特徴)を抽出し、テキストボックスと同一サイズを有する特徴サブマップを生成する。
選択的には、各文字をWord2Vecモデルに入力して、上記各文字における自然言語単語を認識し、上記文字における自然言語単語は、長さが同じで一定であるベクトルに変換されることで、上記第1のベクトルを取得し、これによって、上記各文字をバッチの形で処理し、上記第1の認識コンテンツを取得してもよいが、これに限定されていない。
選択的には、上記テキストボックスの第1の座標情報及び上記文字の第2の座標情報(即ち、[x1、y1、x2、y2])を取得し、上記第1の座標情報及び上記第2の座標情報をWord2Vecモデルにそれぞれ入力することで、上記第1の座標情報及び上記第2の座標情報をベクトル長さが同じで一定であるベクトル(即ち、上記第2のベクトル及び上記第3のベクトル)にそれぞれ変換してもよいが、これに限定されていない。
ここで、上記複数の特徴サブマップ、上記第1のベクトル、上記第2のベクトル及び上記第3のベクトルは異なる複数のモーダル特徴に対応し、上記ドキュメント構成復号器によって上記異なる複数のモーダル特徴に対して復号処理を行って、上記第1の認識コンテンツを取得することで、テキスト情報特徴を突出させ、認識対象のドキュメント画像における第1の認識コンテンツをより正確に認識するという目的を達成する。
選択的な実施例として、図3は本開示の第1の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。図3に示すように、上記ドキュメント構成復号器を利用して上記複数の特徴サブマップ、上記第1のベクトル、上記第2のベクトル及び上記第3のベクトルに対して復号処理を行って、上記第1の認識コンテンツを取得するステップは以下のステップS302、S304、S306、S308を含む。
ステップS302:上記複数の特徴サブマップ、上記第1のベクトル、上記第2のベクトル及び上記第3のベクトルをマルチモーダル変換モデルに入力して、上記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得する。
ステップS304:上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンスを取得する。
ステップS306:リンク関係予測アルゴリズムを利用して上記テーブル特徴シーケンスと上記テキスト情報における文字行と間のリンク関係を予測し、予測リンク行列を取得する。
ステップS308:上記テーブル特徴シーケンス及び上記予測リンク行列に基づいて上記第1の認識コンテンツを決定する。
選択的には、上記マルチモーダル変換モデルは、多層自己注意ネットワークを有するTransformerモデルであってもよいが、これに限定されず、上記Transformerは注意メカニズムを利用してモデル訓練速度を向上させる。
選択的には、上記マルチモーダル変換モデルは、異なるモーダルの情報を同一特徴空間に変換し、融和してマルチモーダル特徴を取得し、即ち、上記マルチモーダル変換モデルによって、上記異なる複数のモーダル特徴を同一特徴空間に変換してから、上記異なる複数のモーダル特徴に対して融和処理を行って、上記異なる複数のモーダル特徴を、マルチモーダル情報を同時に具備する1つの特徴(即ち、上記マルチモーダル特徴)に融和する。
選択的には、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンス、例えば、「<thead><tr><td></td></tr></thead>」などのシーケンスを取得する。
選択的には、上記リンク関係予測アルゴリズムはlinkingアルゴリズムであってもよいが、これに限定されず、例えば、図4に示すように、linkingブランチによって、テーブル特徴シーケンス<td></td>と上記テキスト情報における文字行との間のリンク関係を予測し、予測リンク行列を取得し、上記予測リンク行列は、上記テーブル特徴シーケンスの、上記認識対象のドキュメント画像での位置情報を決定する。
ここで、上記複数の特徴サブマップ、上記第1のベクトル、上記第2のベクトル及び上記第3のベクトルは異なる複数のモーダル特徴に対応し、上記複数の特徴サブマップ、上記第1のベクトル、上記第2のベクトル及び上記第3のベクトルをマルチモーダル変換モデルに入力して、上記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得し、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンスを取得し、リンク関係予測アルゴリズムを利用して上記テーブル特徴シーケンスと上記テキスト情報における文字行と間のリンク関係を予測し、予測リンク行列を取得し、上記テーブル特徴シーケンス及び上記予測リンク行列に基づいて上記第1の認識コンテンツを決定することで、ドキュメント画像におけるテキスト情報特徴を突出させ、認識対象のドキュメント画像テキスト情報及び位置情報をより正確に認識するという目的を達成できる。
選択的な実施例として、図5は本開示の第1の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。図5に示すように、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンスを取得するステップは以下のステップS502、S504、S506を含む。
ステップS502:上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像における各テーブルのテーブルタグを取得する。
ステップS504:上記テーブルタグを上記テーブル特徴シーケンスに変換する。
ステップS506:上記テーブル特徴シーケンスを出力して表示する。
選択的には、上記モーダル変換モデルから出力されたマルチモーダル特徴を取り出し、上記ドキュメント構成復号器に入力し、上記ドキュメント構成復号器はドキュメント画像における各テーブルのテーブルタグ、例えば「<td>」を順に出力し、上記テーブルタグを上記テーブル特徴シーケンスに変換し、最後に、ドキュメント画像における各テーブルの特徴シーケンスを出力して表示する。
選択的な実施例において、上記認識対象のドキュメント画像を画像特徴マップに変換するステップは、
畳み込みニューラルネットワークモデルを利用して上記認識対象のドキュメント画像を上記画像特徴マップに変換するステップを含む。
選択的には、上記畳み込みニューラルネットワークモデルは、ResNet、VGG、MobileNetなどの畳み込みニューラルネットワークモデルであってもよいが、これらに限定されていない。
ここで、畳み込みニューラルネットワークモデルを利用して上記認識対象のドキュメント画像を上記画像特徴マップに変換することで、画像特徴マップ認識の精度を向上させるという目的を達成できる。
選択的な実施例において、上記光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得するステップは、
上記光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、各上記テキストボックスの第1の情報及び各上記文字の第2の情報を取得するステップを含む。
選択的には、上記第1の情報及び第2の情報は何れもテキスト情報及び座標情報を含む。
ここで、本開示の実施例において、光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得する場合、認識対象のテキスト画像におけるテキストボックス及び文字におけるテキスト情報を取得するだけではなく、上記テキスト情報に対応する位置情報も取得し、テキスト情報と位置情報とを組み合せることで、ドキュメント画像におけるテキスト情報認識の精度を高めるという目的を達成する。
ここで、本実施例の選択的な又は好ましい実施形態について、上記ドキュメント画像の認識方法の実施例における関連記載を参照すればよく、ここでは、説明を省略する。本開示の技術案において、係わるユーザー個人情報の取得、記憶及び応用などは何れも関連法律法規の規定に合って、且つ公序良俗に違反していない。
実施例2
本開示の実施例によれば、上記ドキュメント画像の認識方法を実施する装置の実施例をさらに提供し、図6は本開示の第2の実施例によるドキュメント画像の認識装置の構成概略図であり、図6に示すように、上記ドキュメント画像の認識装置は、
認識対象のドキュメント画像を画像特徴マップに変換する変換モジュールであって、上記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含む変換モジュール600と、
上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得する第1の予測モジュール602と、
光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得する第2の予測モジュール604と、
上記第1の認識コンテンツと上記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するマッチングモジュール606と、を備える。
本開示の実施例において、認識対象のドキュメント画像を画像特徴マップに変換する変換モジュールであって、上記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含む変換モジュール600と、上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得する第1の予測モジュール602と、光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得する第2の予測モジュール604と、上記第1の認識コンテンツと上記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するマッチングモジュール606と、を備えることで、ドキュメント画像におけるコンテンツ情報を正確に認識するという目的を達成し、ドキュメント画像の認識精度及び認識効率を高めて、画像認識アルゴリズムの計算量を低減させるという技術効果を実現し、関連技術におけるドキュメント画像認識方法が、品質の悪いドキュメント画像に対して認識精度が低く、且つアルゴリズムの計算量が大きいという技術的課題を解決する。
なお、上記各モジュールはソフトウェア又はハードウェアによって実現されるが、例えば、後者の場合、上記各モジュールが同一プロセッサーに位置するか、又は、上記各モジュールが任意の組み合わせで、異なるプロセッサーに位置することによって実現されてもよい。
なおここで、上記変換モジュール600、第1の予測モジュール602、第2の予測モジュール604、及びマッチングモジュール606は実施例1におけるステップS102~ステップS108に対応し、上記モジュールは、対応するステップにより実現される実例及び応用シーンと同様であるが、上記実施例1に開示された内容に限定されていない。なお、装置の一部として、上記モジュールはコンピュータ端末にて運転できる。
選択的には、上記第1の予測モジュールは、各上記テキストボックスのサイズに基づいて、上記画像特徴マップを複数の特徴サブマップに区画する第1の区画モジュールと、上記文字における自然言語単語に対応する第1のベクトルを決定する第1の決定モジュールであって、異なる上記文字の自然言語単語は、長さが同じで一定であるベクトルに変換される第1の決定モジュールと、上記テキストボックスの第1の座標情報に対応する第2のベクトル、及び上記文字の第2の座標情報に対応する第3のベクトルをそれぞれ決定する第2の決定モジュールであって、上記第2のベクトルと第3のベクトルは、ベクトル長さが同じで一定である第2の決定モジュールと、ドキュメント構成復号器を利用して上記複数の特徴サブマップ、上記第1のベクトル、上記第2のベクトル及び上記第3のベクトルに対して復号処理を行って、上記第1の認識コンテンツを取得する第1の復号モジュールと、をさらに備える。
選択的には、上記第1の復号モジュールは、上記複数の特徴サブマップ、上記第1のベクトル、上記第2のベクトル及び上記第3のベクトルをマルチモーダル変換モデルに入力して、上記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得する入力モジュールであって、上記マルチモーダル変換モデルは異なるモーダルの情報を同一特徴空間に変換し、融和してマルチモーダル特徴を取得する入力モジュールと、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンスを取得する第2の復号モジュールと、リンク関係予測アルゴリズムを利用して上記テーブル特徴シーケンスと上記テキスト情報における文字行と間のリンク関係を予測し、予測リンク行列を取得する第1の予測サブモジュールであって、上記予測リンク行列は上記テーブル特徴シーケンスの、上記認識対象のドキュメント画像での位置情報を決定する第1の予測サブモジュールと、上記テーブル特徴シーケンス及び上記予測リンク行列に基づいて上記第1の認識コンテンツを決定する第3の決定モジュールと、をさらに備える。
選択的には、上記第2の復号モジュールは、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像における各テーブルのテーブルタグを取得する第3の復号モジュールと、上記テーブルタグを上記テーブル特徴シーケンスに変換する第1の変換サブモジュールと、上記テーブル特徴シーケンスを出力して表示する表示モジュールと、をさらに備える。
選択的には、上記変換モジュールは、畳み込みニューラルネットワークモデルを利用して上記認識対象のドキュメント画像を上記画像特徴マップに変換する第2の変換サブモジュールをさらに備える。
選択的には、上記変換モジュールは、上記光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、各上記テキストボックスの第1の情報及び各上記文字の第2の情報を取得する認識モジュールをさらに備え、上記第1の情報及び第2の情報は何れもテキスト情報及び座標情報を含む。
なお、本実施例の選択的な又は好ましい実施形態について、実施例1の関連説明を参照すればよく、ここでは、説明を省略する。本開示の技術案において、係わるユーザー個人情報の取得、記憶及び応用などは、何れも関連法律法規の規定に合って、公序良俗に違反していない。
実施例3
本開示の実施例によれば、本開示は電子装置、読み取り可能な記憶媒体、コンピュータプログラム製品、上記電子装置を有するドキュメント画像の認識製品をさらに開示する。
図7は、本開示の実施例を実施する例示的な電子装置700の概略ブロック図を示す。電子装置とは、各種形態のデジタルコンピュータ、例えば、ラップトップパソコン、デスクトップパソコン、作業台、携帯情報端末、サーバー、ブレードサーバー、大型コンピュータ、及び他の適宜なコンピュータを意味する。電子装置は、各種形態の移動装置、例えば、携帯情報端末、セルラー電話、スマートフォン、ウェアラブル装置及び他の類似のコンピューティング装置をさらに示すことができる。本明細書に開示された部材、それらの接続と関係、及びそれらの機能は、本明細書に記載及び/又は要求された本開示の実現を限定するのではなく、単に例示である。
図7に示すように、電子装置700は、読み取り専用メモリ(ROM)702に記憶されるコンピュータプログラム、又は記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされるコンピュータプログラムに基づいて、各種の適宜な操作及び処理を実行するコンピューティングユニット701を備え。RAM703には、電子装置700の動作用の各種プログラム及びデータが記憶される。コンピューティングユニット701、ROM702及びRAM703はバス704を介して互いに接続される。入力/出力(I/O)インターフェース705もバス704に接続される。
電子装置700における複数の部材はI/Oインターフェース705に接続されており、キーボード、マウスなどのような入力ユニット706と、各種タイプのディスプレイ、スピーカなどのような出力ユニット707と、磁気ディスク、光ディスクなどのような記憶ユニット708と、ネットワークカード、変調復調器、無線通信トランシーバなどのような通信ユニット709とを備える。通信ユニット709は、電子装置700がインターネットのようなコンピュータネットワーク及び/又は各種電気通信ネットワークによって、他の装置と情報/データを交換することを許可する。
コンピューティングユニット701は、処理及び計算能力を有する各種の汎用及び/又は専用処理コンポーネントである。コンピューティングユニット701のいくつかの例示は中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、各種専用の人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する各種のコンピューティングユニット、デジタル信号プロセッサー(DSP)、及び任意の適宜なプロセッサー、コントローラ、マイクロコントローラなどを含むが、これらに限定されていない。コンピューティングユニット701は以上に記載の各方法及び処理を実行し、例えば、方法は認識対象のドキュメント画像を画像特徴マップに変換する。例えば、いくつかの実施例において、方法は認識対象のドキュメント画像を画像特徴マップに変換することは、マシン読み取り可能な媒体、例えば記憶ユニット708に有形的に含まれるコンピュータソフトウェアプログラムとして実現される。いくつかの実施例において、コンピュータプログラムの一部又は全ては、ROM702及び/又は通信ユニット709によって、装置700にローディング及び/又はインストーラされる。コンピュータプログラムはRAM703にロードされ、コンピューティングユニット701により実行されると、以上に記載の方法の、認識対象のドキュメント画像を画像特徴マップに変換する1つ又は複数のステップを実行できる。また、他の実施例において、コンピューティングユニット701は他の任意の適宜な方式(例えば、ファームウェアを利用する形)で、方法を実行して、認識対象のドキュメント画像を画像特徴マップに変換するように配置される。
本明細書において、以上に記載のシステム及び技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、特定応用向け汎用品(ASSP)、システムオンチップ (SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現される。これらの各種の実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムプロセッサーを有するプログラムシステムで実行及び/又は解釈され、当該プログラムプロセッサーは専用又は汎用プログラマブルプロセッサーであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び指令を受信し、データ及び指令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することを含んでもよい。
1つ又は複数のプログラミング言語の任意の組み合わせで、本開示の方法を実施するためのプログラムコードを書いてもよい。これらのプログラムコードを汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサー又はコントローラに提供することで、プロセッサー又はコントローラにより実行される場合、プログラムコードは、フローチャート及び/又はブロック図に規定される機能/動作を実施させる。プログラムコードは完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立のパッケージとして、一部がマシンで実行されるとともに、一部がリモートマシンで実行され、又は完全にリモートマシン或いはサーバーで実行されてもよい。
本開示の明細書において、マシン読み取り可能な媒体は、指令実行システム、装置又は機器が使用するか、又は指令実行システム、装置或いは機器と結合して使用するプログラムを含み又は記憶する有形媒体である。マシン読み取り可能な媒体はマシン読み取り可能な信号媒体又はマシン読み取り可能な記憶媒体である。マシン読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組み合わせを含んでもよいが、これらに限定されていない。マシン読み取り可能な記憶媒体のより具体的な例示は、1つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又は上記内容の任意の適宜な組み合わせを含む。
ユーザーとのインタラクションを提供するために、ここに記載のシステム及び技術をコンピュータで実施し、当該コンピュータは、ユーザーに情報を表示する表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)を具備し、ユーザーは当該キーボード及び当該ポインティングデバイスによって、入力をコンピュータに提供する。他のタイプの装置はさらにユーザーとのインタラクションを提供し、例えば、ユーザーに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音声入力、語音入力、又は触覚入力を含む)で、ユーザーからの入力を受信してもよい。
ここに記載のシステム及び技術は、バックグランド部材を有するコンピューティングシステム(例えば、データサーバーとして)、又はミドルウェア部材を有するコンピューティングシステム(例えば、アプリケーションサーバー)、或いはフロントエンド部材を有するコンピューティングシステム(例えば、グラフィカルユーザーインターフェース又はネットワークブラウザを有するユーザーコンピュータであって、ユーザーは当該グラフィカルユーザーインターフェース、又は当該ネットワークブラウザを利用して、ここに記載のシステム及び技術の実施形態とインタラクションを行う)、若しくはこのようなバックグランド部材、ミドルウェア部材、又はフロントエンド部材の任意の組み合わせを有するコンピューティングシステムに実施される。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって、システムの部材を互いに接続する。通信ネットワークの例示は、ローカルネットワーク(LAN)、広域網(WAN)及びインターネットを含む。
コンピュータシステムはクライアント及びサーバーを含む。クライアント及びサーバーは一般的に、互いに離れて、通信ネットワークによってインタラクションを行う。相応的なコンピュータで運転して、互いにクライアント-サーバー関係を有するコンピュータプログラムによって、クライアントとサーバーとの関係を生成する。サーバーはクラウドサーバーであってもよいし、分散型システムのサーバーであってもよく、又はブロックチェーンを結合したサーバーであってもよい。
以上に示された各種形態のフローを利用して、ステップを改めて並び替え、増加し又は削除してもよいことを理解できる。例えば、本発明の開示に記載の各ステップに対して、並行に実行してもよく、順に実行してもよく、異なる順次で実行してもよく、本開示が開示した技術案の所望の結果を実現できると、本明細書はこれを限定していない。
上記具体的な実施形態は、本開示の保護範囲に対する限定を構成していない。当業者であれば分かるように、設計要求及び他の要因に基づいて、いろんな修正、組み合わせ、サブ組み合わせ及び置き換えを行ってもよい。本開示の精神及び原則内でなされた任意の修正、均等置換及び改良などは、何れも本開示の保護範囲内に該当すべきである。

Claims (16)

  1. ドキュメント画像の認識方法であって、
    認識対象のドキュメント画像を画像特徴マップに変換するステップであって、前記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含むステップと、
    前記画像特徴マップ、前記文字、及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得するステップと、
    光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得するステップと、
    前記第1の認識コンテンツと前記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップと、を含むドキュメント画像の認識方法。
  2. 前記画像特徴マップ、前記文字、及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得する前記ステップは、
    各前記テキストボックスのサイズに基づいて、前記画像特徴マップを複数の特徴サブマップに区画するステップと、
    前記文字における自然言語単語に対応する第1のベクトルを決定するステップであって、異なる前記文字の自然言語単語は、長さが同じで一定であるベクトルに変換されるステップと、
    前記テキストボックスの第1の座標情報に対応する第2のベクトル、及び前記文字の第2の座標情報に対応する第3のベクトルをそれぞれ決定するステップであって、前記第2のベクトルと第3のベクトルは、ベクトル長さが同じで一定であるステップと、
    ドキュメント構成復号器を利用して前記複数の特徴サブマップ、前記第1のベクトル、前記第2のベクトル、及び前記第3のベクトルに対して復号処理を行って、前記第1の認識コンテンツを取得するステップと、を含む請求項1に記載のドキュメント画像の認識方法。
  3. ドキュメント構成復号器を利用して前記複数の特徴サブマップ、前記第1のベクトル、前記第2のベクトル、及び前記第3のベクトルに対して復号処理を行って、前記第1の認識コンテンツを取得する前記ステップは、
    前記複数の特徴サブマップ、前記第1のベクトル、前記第2のベクトル、及び前記第3のベクトルをマルチモーダル変換モデルに入力して、前記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得するステップであって、前記マルチモーダル変換モデルは、異なるモーダルの情報を同一特徴空間に変換し、融和してマルチモーダル特徴を取得するためのものであるステップと、
    前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像のテーブル特徴シーケンスを取得するステップと、
    リンク関係予測アルゴリズムを利用して前記テーブル特徴シーケンスと前記テキスト情報における文字行との間のリンク関係を予測し、予測リンク行列を取得するステップであって、前記予測リンク行列は、前記テーブル特徴シーケンスの、前記認識対象のドキュメント画像での位置情報を決定するためのものであるステップと、
    前記テーブル特徴シーケンス及び前記予測リンク行列に基づいて、前記第1の認識コンテンツを決定するステップと、を含む請求項2に記載のドキュメント画像の認識方法。
  4. 前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像のテーブル特徴シーケンスを取得する前記ステップは、
    前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像における各テーブルのテーブルタグを取得するステップと、
    前記テーブルタグを前記テーブル特徴シーケンスに変換するステップと、
    前記テーブル特徴シーケンスを出力して表示するステップと、を含む請求項3に記載のドキュメント画像の認識方法。
  5. 前記認識対象のドキュメント画像を画像特徴マップに変換する前記ステップは、
    畳み込みニューラルネットワークモデルを利用して前記認識対象のドキュメント画像を前記画像特徴マップに変換するステップを含む請求項1に記載のドキュメント画像の認識方法。
  6. 前記光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得する前記ステップは、
    前記光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、各前記テキストボックスの第1の情報及び各前記文字の第2の情報を取得するステップを含み、前記第1の情報及び第2の情報は何れもテキスト情報及び座標情報を含む請求項1に記載のドキュメント画像の認識方法。
  7. ドキュメント画像の認識装置であって、
    認識対象のドキュメント画像を画像特徴マップに変換する変換モジュールであって、前記ドキュメント画像は少なくとも、少なくとも1つのテキストボックスと、複数の文字を有するテキスト情報とを含む変換モジュールと、
    前記画像特徴マップ、前記文字、及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第1の認識コンテンツを予測して取得する第1の予測モジュールと、
    光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第2の認識コンテンツを取得する第2の予測モジュールと、
    前記第1の認識コンテンツと前記第2の認識コンテンツとをマッチングして、目的認識コンテンツを取得するマッチングモジュールと、を備えるドキュメント画像の認識装置。
  8. 前記第1の予測モジュールは、
    各前記テキストボックスのサイズに基づいて、前記画像特徴マップを複数の特徴サブマップに区画する第1の区画モジュールと、
    前記文字における自然言語単語に対応する第1のベクトルを決定する第1の決定モジュールであって、異なる前記文字の自然言語単語は、長さが同じで一定であるベクトルに変換される第1の決定モジュールと、
    前記テキストボックスの第1の座標情報に対応する第2のベクトル、及び前記文字の第2の座標情報に対応する第3のベクトルをそれぞれ決定する第2の決定モジュールであって、前記第2のベクトルと第3のベクトルは、ベクトル長さが同じで一定である第2の決定モジュールと、
    ドキュメント構成復号器を利用して前記複数の特徴サブマップ、前記第1のベクトル、前記第2のベクトル、及び前記第3のベクトルに対して復号処理を行って、前記第1の認識コンテンツを取得する第1の復号モジュールと、をさらに備える請求項7に記載のドキュメント画像の認識装置。
  9. 前記第1の復号モジュールは、
    前記複数の特徴サブマップ、前記第1のベクトル、前記第2のベクトル、及び前記第3のベクトルをマルチモーダル変換モデルに入力して、前記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得する入力モジュールであって、前記マルチモーダル変換モデルは、異なるモーダルの情報を同一特徴空間に変換し、融和してマルチモーダル特徴を取得するためのものである入力モジュールと、
    前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像のテーブル特徴シーケンスを取得する第2の復号モジュールと、
    リンク関係予測アルゴリズムを利用して前記テーブル特徴シーケンスと前記テキスト情報における文字行との間のリンク関係を予測し、予測リンク行列を取得する第1の予測サブモジュールであって、前記予測リンク行列は、前記テーブル特徴シーケンスの、前記認識対象のドキュメント画像での位置情報を決定するためのものである第1の予測サブモジュールと、
    前記テーブル特徴シーケンス及び前記予測リンク行列に基づいて、前記第1の認識コンテンツを決定する第3の決定モジュールと、をさらに備える請求項8に記載のドキュメント画像の認識装置。
  10. 前記第2の復号モジュールは、
    前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像における各テーブルのテーブルタグを取得する第3の復号モジュールと、
    前記テーブルタグを前記テーブル特徴シーケンスに変換する第1の変換サブモジュールと、
    前記テーブル特徴シーケンスを出力して表示する表示モジュールと、をさらに備える請求項9に記載のドキュメント画像の認識装置。
  11. 前記変換モジュールは、
    畳み込みニューラルネットワークモデルを利用して前記認識対象のドキュメント画像を前記画像特徴マップに変換する第2の変換サブモジュールをさらに備える請求項7に記載のドキュメント画像の認識装置。
  12. 前記変換モジュールは、
    前記光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、各前記テキストボックスの第1の情報及び各前記文字の第2の情報を取得する認識モジュールをさらに備え、前記第1の情報及び第2の情報は何れもテキスト情報及び座標情報を含む請求項7に記載のドキュメント画像の認識装置。
  13. 電子装置であって、
    少なくとも1つのプロセッサーと、
    前記少なくとも1つのプロセッサーに通信可能に接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサーにより実行可能な指令が記憶され、前記指令が前記少なくとも1つのプロセッサーにより実行されることで、前記少なくとも1つのプロセッサーは請求項1~6の何れか1項に記載のドキュメント画像の認識方法を実行できる電子装置。
  14. コンピュータに、請求項1~6の何れか1項に記載のドキュメント画像の認識方法を実行させるコンピュータ指令が記憶された、非一時的なコンピュータ読み取り可能な記憶媒体。
  15. プロセッサーにより実行されると、請求項1~6の何れか1項に記載のドキュメント画像の認識方法を実現するコンピュータプログラム。
  16. ドキュメント画像の認識製品であって、請求項13に記載の電子装置を備える認識製品。
JP2023022386A 2022-02-16 2023-02-16 ドキュメント画像の認識方法、装置、記憶媒体、及び電子装置 Pending JP2023119593A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210143148.5A CN114519858B (zh) 2022-02-16 2022-02-16 文档图像的识别方法、装置、存储介质以及电子设备
CN202210143148.5 2022-02-16

Publications (1)

Publication Number Publication Date
JP2023119593A true JP2023119593A (ja) 2023-08-28

Family

ID=81598877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023022386A Pending JP2023119593A (ja) 2022-02-16 2023-02-16 ドキュメント画像の認識方法、装置、記憶媒体、及び電子装置

Country Status (4)

Country Link
US (1) US20230260306A1 (ja)
JP (1) JP2023119593A (ja)
KR (1) KR20230123449A (ja)
CN (1) CN114519858B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115171110B (zh) * 2022-06-30 2023-08-22 北京百度网讯科技有限公司 文本识别方法及装置、设备、介质和产品
CN115331152B (zh) * 2022-09-28 2024-03-08 江苏海舟安防科技有限公司 一种消防识别方法和系统
CN116958998B (zh) * 2023-09-20 2023-12-26 四川泓宝润业工程技术有限公司 一种基于深度学习的数字仪表读数的识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732228B (zh) * 2015-04-16 2018-03-30 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
JP6859977B2 (ja) * 2018-04-02 2021-04-14 日本電気株式会社 画像処理装置、画像処理システム、画像処理方法およびプログラム
JP7277128B2 (ja) * 2018-12-25 2023-05-18 キヤノン株式会社 画像処理システム、画像処理方法、プログラム、画像処理装置、情報処理装置
CN110827247B (zh) * 2019-10-28 2024-03-15 上海万物新生环保科技集团有限公司 一种识别标签的方法及设备
CN110826567B (zh) * 2019-11-06 2023-04-07 北京字节跳动网络技术有限公司 光学字符识别方法、装置、设备及存储介质
CN112966522B (zh) * 2021-03-03 2022-10-14 北京百度网讯科技有限公司 一种图像分类方法、装置、电子设备及存储介质
CN113313114B (zh) * 2021-06-11 2023-06-30 北京百度网讯科技有限公司 证件信息获取方法、装置、设备以及存储介质
CN113642584B (zh) * 2021-08-13 2023-11-28 北京百度网讯科技有限公司 文字识别方法、装置、设备、存储介质和智能词典笔

Also Published As

Publication number Publication date
US20230260306A1 (en) 2023-08-17
CN114519858A (zh) 2022-05-20
CN114519858B (zh) 2023-09-05
KR20230123449A (ko) 2023-08-23

Similar Documents

Publication Publication Date Title
JP2023119593A (ja) ドキュメント画像の認識方法、装置、記憶媒体、及び電子装置
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20220415072A1 (en) Image processing method, text recognition method and apparatus
US20220036068A1 (en) Method and apparatus for recognizing image, electronic device and storage medium
US20220027661A1 (en) Method and apparatus of processing image, electronic device, and storage medium
JP7300034B2 (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
CN110738203A (zh) 字段结构化输出方法、装置及计算机可读存储介质
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN113343958B (zh) 一种文本识别方法、装置、设备及介质
US20230196805A1 (en) Character detection method and apparatus , model training method and apparatus, device and storage medium
CN113627439A (zh) 文本结构化处理方法、处理装置、电子设备以及存储介质
WO2023147717A1 (zh) 文字检测方法、装置、电子设备和存储介质
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN112597918A (zh) 文本检测方法及装置、电子设备、存储介质
CN114495101A (zh) 文本检测方法、文本检测网络的训练方法及装置
CN112651399B (zh) 检测倾斜图像中同行文字的方法及其相关设备
CN113837965A (zh) 图像清晰度识别方法、装置、电子设备及存储介质
CN115880506B (zh) 图像生成方法、模型的训练方法、装置及电子设备
US20230048495A1 (en) Method and platform of generating document, electronic device and storage medium
WO2023134143A1 (zh) 图像样本生成方法、文本识别方法、装置、设备和介质
CN114511862B (zh) 表格识别方法、装置及电子设备
CN114724144B (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN115376137A (zh) 一种光学字符识别处理、文本识别模型训练方法及装置
CN115019321A (zh) 一种文本识别、模型训练方法、装置、设备及存储介质
CN115359502A (zh) 一种图像处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109