JP2021193549A - テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2021193549A
JP2021193549A JP2021053487A JP2021053487A JP2021193549A JP 2021193549 A JP2021193549 A JP 2021193549A JP 2021053487 A JP2021053487 A JP 2021053487A JP 2021053487 A JP2021053487 A JP 2021053487A JP 2021193549 A JP2021193549 A JP 2021193549A
Authority
JP
Japan
Prior art keywords
target
row
merger
candidate
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021053487A
Other languages
English (en)
Other versions
JP7299939B2 (ja
Inventor
グァンヤオ ハン,
Guangyao Han
ミンフイ パン,
Minhui Pang
グォビン シェ,
Guobin Xie
ダンチン リー,
Danqing Li
テェンイー ワン,
Tianyi Wang
ペイウェイ ジォン,
Peiwei Zheng
ズァチン ジャン,
Zeqing Jiang
ジン ジャン,
Jin Jang
ホンジャン ドゥ,
Hongjiang Du
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021193549A publication Critical patent/JP2021193549A/ja
Application granted granted Critical
Publication of JP7299939B2 publication Critical patent/JP7299939B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Processing (AREA)

Abstract

【課題】テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムの提供。【解決方法】本出願の実施例は、テーブル認識方法、装置、機器及び媒体を開示し、データ処理技術及びクラウドコンピューティング分野に属する。該テーブル認識方法は、対象画像におけるテーブルを検出し、候補テーブル認識結果を得ることと、候補テーブル認識結果の合併特徴を抽出し、合併特徴に基づいて候補テーブル認識結果における合併対象行を確定することと、合併対象行の方向特徴を抽出し、方向特徴に基づいて合併対象行の合併方向を確定することと、合併対象行と合併対象行の合併方向とに基づいて、候補テーブル認識結果を調整し、対象テーブル認識結果を得ることとを含む。本出願の実施例は、従来のテーブル認識方法による認識結果が不正確であるという問題点を解決し、テーブル認識の精度を向上させた。【選択図】図1

Description

本出願の実施例は、コンピュータ技術に関し、具体的には、データ処理技術及びクラウドコンピューティング分野に関し、特にテーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。
情報技術の発展に伴い、電子テーブルの重要性は疑う余地がない。しかしながら、業務処理に関わるテーブルは単純なExcelおよびWordドキュメントだけでなく、PDFスキャンおよび画像形式に存在するテーブル画像も多数ある。
通常、テーブル画像を手動で認識し、テーブル画像のコンテンツを手動で抽出して、Excel又はWordに入力する必要がある。処理対象のテーブル画像が多い場合、手動による認識及びコンテンツ抽出は非効率的であるだけでなく、エラーが発生しやすい。現在、ディープラーニングに基づくテーブル認識方法もあるが、テーブル認識の精度は理想的でない。
本出願の実施例では、テーブル認識の精度を向上させるためのテーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供した。
本出願の実施例の一態様において、対象画像におけるテーブルを検出し、候補テーブル認識結果を得ることと、候補テーブル認識結果の合併特徴を抽出し、合併特徴に基づいて候補テーブル認識結果における合併対象行を確定することと、合併対象行の方向特徴を抽出し、方向特徴に基づいて合併対象行の合併方向を確定することと、合併対象行と合併対象行の合併方向とに基づいて、候補テーブル認識結果を調整し、対象テーブル認識結果を得ることと、を含むテーブル認識方法を提供する。
本出願の実施例の他の一態様において、対象画像におけるテーブルを検出し、候補テーブル認識結果を取得するための候補結果確定モジュールと、候補テーブル認識結果の合併特徴を抽出し、合併特徴に基づいて候補テーブル認識結果内の合併対象行を確定するように構成される合併対象行確定モジュールと、合併対象行の方向特徴を抽出し、方向特徴に基づいて合併対象行の合併方向を確定するように構成される合併方向確定モジュールと、合併対象行と合併対象行の合併方向とに基づいて、候補テーブル認識結果を調整し、対象テーブル認識結果を取得するように構成される対象結果確定モジュールと、を含むテーブル認識装置を提供する。
本出願の実施例の他の一態様において、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサにより実行可能な指令が格納されており、指令が少なくとも1つのプロセッサにより実行されると、少なくとも1つのプロセッサに本出願の実施例に開示されたいずれかのテーブル認識方法を実現させる、電子機器を提供する。
本出願の実施例の他の一態様において、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は、本出願の実施例に開示されたいずれかのテーブル認識方法をコンピュータに実行させる非一時的コンピュータ可読記憶媒体を提供する。
本出願の実施例の他の一態様において、プロセッサにより実行されると、本出願の実施例に開示されたいずれかのテーブル認識方法を実現する、コンピュータプログラムを提供する。
本出願の実施例の技術案によれば、テーブル検出により候補テーブル認識結果を得た後、候補テーブル認識結果のテーブルの特徴、即ち、合併特徴及び方向特徴を抽出し、抽出されたテーブルの特徴により候補テーブル認識結果に対して構造化結合処理を行い、合併対象行及び合併対象行の合併方向を取得し、さらに候補テーブル認識結果を調整し、最終的な対象テーブル認識結果を取得する。これにより、従来のテーブル認識技術案における認識結果が不正確であるという問題点を解決し、テーブル認識の精度を向上させた。
この部分に記載された内容は、本出願の実施例のキーポイントまたは重要な特徴を限定することを意図したものではなく、本出願の範囲を制限するものでもないことを理解すべきである。本出願の他の特徴は、以下の説明によって容易に理解される。
図面は、本案をよりよく理解するためのものであり、本出願を限定するものではない。
本出願の実施例により開示されたテーブル認識方法のフローチャートである。 本出願の実施例により開示された対象画像の候補テーブル認識結果の概略図である。 本出願の実施例により開示された対象画像の対象テーブル認識結果の概略図である。 本出願の実施例により開示された他のテーブル認識方法のフローチャートである。 本出願の実施例により開示された他のテーブル認識方法のフローチャートである。 本出願の実施例により開示された対象画像におけるテーブルの外枠及び文字領域の検出結果の概略図である。 本出願の実施例により開示された対象画像における空白列を含む列領域範囲の概略図である。 本出願の実施例により開示された対象画像における空白列が結合された後の列領域範囲の概略図である。 本出願の実施例により開示されたテーブル認識装置の構造を示す概略図である。 本出願の実施例により開示された電子機器のブロック図である。
以下、添付図面を参照しながら本出願の例示的な実施例を説明し、理解を容易にするために本出願の実施例の様々な詳細が含まれているが、これらは例示的なものに過ぎないことを理解すべきである。従って、当業者であれば、ここに記載された実施例に対して、本出願の範囲及び趣旨を逸脱することなく様々に変更し、修正することができることを理解すべきである。同様に、明確かつ簡潔のために、以下の記載で公知の機能及び構造の説明を省略した。
図1は、本出願の実施例により開示されたテーブル認識方法のフローチャートである。本出願の実施例は、テーブル画像を認識して、テーブル画像のテーブルを取得する場合に、特に、テーブル画像の罫線のないテーブルを認識する場合に適用可能である。本出願の実施例により開示された方法は、テーブル認識装置により実行でき、該装置は、ソフトウェア及び/又はハードウェアによって実現でき、サーバまたは端末などの、コンピューティング機能を有するあらゆる電子機器に統合することができる。
図1に示すように、本出願の実施例により開示されたテーブル認識方法は、以下のステップを含むことができる。
S101:対象画像におけるテーブルを検出し、候補テーブル認識結果を得る。
対象画像を取得した後、対象検出技術に基づいて、畳み込みニューラルネットワークに基づくモデル又は残差ニューラルネットワークに基づくモデルなどの、テーブル検出機能を有する任意のニューラルネットワークモデルを用いて、対象画像におけるテーブルを検出することができる。CTPN技術(シーンテキスト検出方法)、TextSnake技術(テキスト検出方法)、PSENET技術(テキスト検出方法)又はCRAFT技術(テキスト検出方法)などの、文字検出効果のある利用可能な任意の方法により、対象画像における文字を検出し、テーブルの予備認識結果、即ち、候補テーブル認識結果を取得する。ここで、対象画像とは、認識すべきテーブルを含む任意の処理すべき画像を指し、PDFスキャンおよび他の画像形式の画像を含む。対象画像におけるテーブルは、罫線のあるテーブル及び罫線のないテーブルを含むことができ、より高い検出精度を確保するように、罫線のないテーブルが好ましい。具体的には、対象画像におけるテーブルは、企業の年次報告書、財務諸テーブルなどのタイプであってもよい。
例示的に、対象画像におけるテーブルを検出し、候補テーブル認識結果を得ることは以下のことを含む。対象画像におけるテーブルの外枠及び対象画像における文字領域を検出する。ここで、文字領域が検出された後、対象画像における文字領域の位置情報、例えば、位置座標などは確定され得る。テーブルの外枠と文字領域とに基づいて、対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得る。対象画像における各文字領域とは、少なくとも1つの文字を含み、各文字間の距離が比較的近い領域を指す。
図2では、対象画像に罫線のないテーブルが含まれたことを例示として、対象画像の候補テーブル認識結果の概略図を示しており、本出願の実施例を具体的に限定するものではないことを理解すべきである。図2に示すように、候補テーブル認識結果が確定された後、セル情報、行情報、列情報などの、テーブルに含まれる構造化情報は予め確定され得る。同時に、図2から分かるように、候補テーブル認識結果における一部の行または一部のセルを合併処理する必要がある。例えば、文字コンテンツが「会社xxxx及び」のセルと、文字コンテンツが「地域B分社」のセルは、実質的に1つの完全なセルに属し、完全な文字コンテンツ「会社xxxx及び地域B分社」に対応すべきであり、さらに、より正確なテーブル認識結果を取得することができる。
S102:候補テーブル認識結果の合併特徴を抽出し、合併特徴に基づいて候補テーブル認識結果における合併対象行を確定する。
ここで、合併特徴とは、多数のテーブルの特性に関する統計分析に基づいて、統計法則に従って得られた、テーブルの合併対象行を確定するための特徴である。合併対象行とは、行単位で、隣接する上の行又は隣接する下の行と全体に合併する必要がある行を指す。
例示的に、候補テーブル認識結果の合併特徴は、以下の少なくとも1つを含む。候補テーブル認識結果における各行の有効列数と候補テーブル認識結果における最大有効列数との差、候補テーブル認識結果における各行と候補テーブル認識結果におけるヘッダとの相対的な位置関係、候補テーブル認識結果における各行の文字領域に所定の区切り文字が含まれるか否か、及び候補テーブル認識結果における各行の文字領域に数値タイプのデータが含まれるか否かなどの特徴である。ここで、ヘッダとは、候補テーブル認識結果のうちで、位置情報に基づいて確定された、有効列数が最大の行の最初のセルを指す。候補テーブル認識結果における各行の有効列数とは、該行の文字領域に対応する列の数を指す。候補テーブル認識結果における最大有効列数とは、テーブルにおける文字領域に対応する列の最大数を指す。所定の区切り文字は、文字の区切り又は改行のためにテーブルに適用可能な任意の符号(例えば、数値を改行するための小数点など)であってもよい。
さらに、合併特徴において、候補テーブル認識結果における各行の有効列数mと、候補テーブル認識結果における最大有効列数nの差は、(n−m)/nにより表すことができる。または、mとnの商などの他の形式の数学的計算であってもよい。候補テーブル認識結果における各行と候補テーブル認識結果におけるヘッダとの相対的な位置関係は、ヘッダが属する行の上方にある場合と、ヘッダが属する行の下方にある場合を含む。
合併特徴を取得した後、予め確定されたテーブル合併特徴とテーブルの合併対象行との関連関係(即ち、合併特徴と合併対象行との規則性を特徴付けるために用いられる)により、候補テーブル認識結果における合併対象行を確定する。オプションとして、合併特徴とテーブルの合併対象行との関連関係は、機械学習スキーム(回帰分析スキームなどを含むがこれらに限定されない)に基づいて確定できる。
例示的に、候補テーブル認識結果における各行の有効列数と候補テーブル認識結果における最大有効列数との差が大きいほど、該行が合併対象行である確率が高くなり、候補テーブル認識結果におけるヘッダの上方にある行が、ヘッダの属する行に結合される確率が高くなり、候補テーブル認識結果における文字領域が所定の区切り文字を含む行が、合併対象行である確率が高くなり、候補テーブル認識結果における文字領域が数値タイプのデータを含む行が、合併対象行である確率が高くなる。
S103:合併対象行の方向特徴を抽出し、方向特徴に基づいて合併対象行の合併方向を確定する。
ここで、方向特徴とは、多数のテーブルの特性に関する統計解析に基づいて、統計法則に従って得られた、合併対象行の合併方向を確定するための特徴である。合併方向は下の行との結合及び上の行との結合を含む。上の行との結合とは、現在の合併対象行の上罫線及びそれに隣接する上の行の下罫線を削除することを指す。下の行との結合とは、現在の合併対象行の下罫線及びそれに隣接する下の行の上罫線を削除することを指す。
例示的に、合併対象行の方向特徴は、以下の少なくとも1つを含む。合併対象行がサイドヘッダを含むか否か、合併対象行がサイドヘッダのみを含むか否か、合併対象行の文字領域に数値タイプのデータが含まれるか否か、合併対象行からそれに隣接する上の行の下罫線までの距離と、それに隣接する下の行の上罫線までの距離との比、合併対象行内の文字領域(又はテキストボックスと呼ばれる)と上の行内の文字領域との幅の差、及び合併対象行内の文字領域と下の行内の文字領域との幅の差などの特徴である。サイドヘッダとは、各行で読み取り習慣に従ってテーブルの最左端にあるセルを指す。
さらに、方向特徴において、合併対象行からそれに隣接する上の行の下罫線までの距離と、それに隣接する下の行の上罫線までの距離との比は、合併対象行の中心軸からそれに隣接する上の行の下罫線までの距離と、合併対象行の中心軸からそれに隣接する下の行の上罫線までの距離との比であってもよく、または、合併対象行の上罫線からそれに隣接する上の行の下罫線までの距離と、合併対象行の下罫線からそれに隣接する下の行の上罫線までの距離との比であってもよい。
合併対象行内の文字領域と上の行内の文字領域との幅の差は次のように表すことができる。
Figure 2021193549
ここで、hは合併対象行のi番目の文字領域の幅を表し、lは合併対象行のi番目の文字領域に対応する上の行のi番目の文字領域の幅を表し、iの値は整数である。
同様に、合併対象行内の文字領域と下の行内の文字領域との幅の差は次のように表すことができる。
Figure 2021193549
ここで、hは合併対象行のi番目の文字領域の幅を表し、pは合併対象行のi番目の文字領域に対応する下の行のi番目の文字領域の幅を表し、iの値は整数である。前記幅の差を得た後、幅差値と差の閾値との関係に基づいて、合併対象行の合併方向を確定することができる。例えば、幅差値が差の閾値よりも大きい場合に上の行と結合するように確定し、幅差値が差の閾値以下である場合に下の行と結合するように確定し、差の閾値を合理的に設定でき、本出願の実施例では特に限定しない。
具体的には、方向特徴を取得した後、予め確定されたテーブルの方向特徴と合併対象行の合併方向との関連関係(即ち、第2の特徴と合併対象行との規則性を示すために用いられる)により、候補テーブル認識結果における合併対象行の合併方向を確定する。オプションとして、方向特徴と合併対象行の合併方向との関連関係は、機械学習スキーム(回帰分析スキームなどを含むがこれらに限定されない)に基づいて確定してもよい。
例示的に、合併対象行がサイドヘッダを含むか、または合併対象行がサイドヘッダのみを含む場合に、他の行が現在の行に結合される確率が高い。合併対象行からそれに隣接する上の行の下罫線までの距離と、それに隣接する下の行の上罫線までの距離との比の値が大きいほど、合併対象行からそれに隣接する上の行までの距離が小さく、さらに、合併対象行が上の行に結合される確率が、下の行に結合される確率よりも大きいことを示す。合併対象行内の文字領域と、それに隣接する上の行内の文字領域との幅差値が大きいほど、合併対象行が上の行に結合される確率が高い。同様に、合併対象行内の文字領域と、それに隣接する下の行内の文字領域との幅差値が大きいほど、合併対象行が下の行に結合される確率が高い。文字領域に数値タイプのデータが含まれる合併対象行が下の行に結合される確率が比較的高い。
また、本出願の実施例では、判断タイプの特徴について、異なる分岐タイプの特徴に対して、事前に異なる文字で表示するように設定することで、候補テーブル認識結果のテーブルの特徴を記録することが便利になり、さらに、後続のテーブルの構造化処理が便利になる。例えば、合併特徴において、候補テーブル認識結果における各行と、候補テーブル認識結果におけるヘッダとの相対位置関係について、該行がヘッダの上方にある場合、該行の特徴を1と記録し、該行がヘッダの下方にある場合、該行の特徴を0と記録することができる。候補テーブル認識結果におけるある行の文字領域に所定の区切り文字が含まれる場合、該行の特徴を1と記録し、それ以外の場合は、0と記録することができる。他の次元の特徴については、前述の記録方法が適用可能であり、同様に、方向特徴にも適用できる。例えば、合併対象行にサイドヘッダが含まれている場合、該合併対象行の特徴を1と記録し、それ以外の場合は、0と記録する。
候補テーブル認識結果の合併特徴及び合併対象行の合併方向にそれぞれ含まれるサブ特徴は、合併対象行及び合併方向を確定するために、単独でまたは組み合わせて使用できる。高品質の結果を確保する観点から、サブ特徴を組み合わせて使用することが好ましく、即ち、複数のサブ特徴を考慮して総合的な確定を行う。
S104:合併対象行と合併対象行の合併方向とに基づいて、候補テーブル認識結果を調整し、対象テーブル認識結果を得る。
確定された合併対象行と合併対象行の合併方向とに基づいて、候補テーブル認識結果を調整することで、正確な対象テーブル認識結果を得る。図3では、対象画像に罫線のないテーブルが含まれる場合を例示として、対象画像の対象テーブル認識結果の概略図を示しており、本出願の実施例に対する具体的な限定として理解されるべきではない。図2と比べて、図3では、テーブルにおける一部の行を結合したことで、テーブル認識結果がより正確になる。
また、対象テーブル認識結果を得た後、さらに、OCR(Optical Character Recognition、光学文字認識)技術などの文字認識技術により各文字領域の文字を認識し、認識された文字をWord又はExcelドキュメントなどの編集可能なドキュメントに抽出することで、テーブルの画像におけるコンテンツを容易に抽出でき、Word又はExcelドキュメントをエクスポートしてユーザにフィードバックすることができる。
本出願の実施例の技術案によれば、テーブルの検出により候補テーブル認識結果を得た後、候補テーブル認識結果のテーブルの特徴、即ち、合併特徴及び方向特徴を抽出し、抽出されたテーブルの特徴に基づいて候補テーブル認識結果に対して構造化結合処理を行い、合併対象行及び合併対象行の合併方向を取得し、さらに候補テーブル認識結果を調整し、最終的な対象テーブル認識結果を取得する。これにより従来のテーブル認識方法における認識結果が不正確であるという問題点を解決し、テーブル認識の精度を向上させた。
なお、本出願の実施例において、合併特徴及び方向特徴の抽出タイミングについて厳密な制限はなく、図1に示される合併特徴及び方向特徴の抽出と他の動作の実行順序を本出願の実施例に対する具体的な限定として理解されるべきではない。例示的に、候補テーブル認識結果に基づいて合併特徴を抽出すると同時に、テーブルの各行の方向特徴を抽出し、候補テーブル認識結果における合併対象行を確定した後、合併対象行の方向特徴を直接呼び出し、合併対象行の合併方向を確定することができる。
図4は、本出願の実施例により開示された他のテーブル認識方法のフローチャートである。前記技術案に基づいてさらに最適化及び拡張し、前記各選択可能な実施形態と組み合わせることができる。図4に示すように、この方法は以下のステップを含むことができる。
S201:対象画像におけるテーブルを検出し、候補テーブル認識結果を得る。
S202:候補テーブル認識結果の合併特徴を抽出し、予め訓練されたセル合併分類モデルと合併特徴とに基づいて、候補テーブル認識結果のうちの合併対象行を確定する。
S203:合併対象行の方向特徴を抽出し、予め訓練されたセル合併方向確定モデルと方向特徴とに基づいて、合併対象行の合併方向を確定する。
S204:確定された合併対象行と合併対象行の合併方向とに基づいて、候補テーブル認識結果を調整し、対象テーブル認識結果を得る。
ここで、セル合併分類モデルは、候補テーブル認識結果における各行が結合に参加する必要があるか否かを判断するための任意の予め訓練されたモデルであってもよく、具体的には、二項分類モデルであってもよい。即ち、各行の出力結果について、結合に参加する必要があるか、又は結合に参加する必要がないかを含むことができる。セル合併方向確定モデルは、合併対象行の合併方向を判断するための任意の予め訓練されたモデルであってもよく、具体的には、二項分類モデルであってもよい。即ち、各合併対象行の出力結果について、上の行との結合又は下の行との結合を含むことができる。上の行との結合とは、現在の合併対象行の上罫線及びそれに隣接する上の行の下罫線をキャンセルすることを指す。下の行との結合とは、現在の合併対象行の下罫線及びそれに隣接する下の行の上罫線をキャンセルすることを指す。
前記技術案に基づいて、オプションとして、本出願の実施例により開示された方法はさらに以下を含む。
所定の数のサンプルテーブルを取得し、サンプルテーブルの合併対象行及び該合併対象行の合併方向を表記する。例えば、サンプルテーブルの合併対象行を1と表記し、結合する必要のない行を0と表記し、合併方向が上向き結合の場合は1と表記し、合併方向が下向き結合の場合は0と表記する。
サンプルテーブルにおける、合併対象行を確定するためのサンプル合併特徴を抽出し、サンプルテーブルにおける、合併対象行の合併方向を確定するためのサンプル方向特徴を抽出する。
表記された合併対象行及びサンプル合併特徴を用いて訓練によりセル合併分類モデルを取得する。即ち、訓練プロセスにおいて、合併対象行とサンプル合併特徴との関連関係を学習でき、合併対象行の予測に用いられる。
表記された合併対象行の合併方向及びサンプル方向特徴を用いて訓練によりセル合併方向確定モデルを取得する。即ち、訓練プロセスにおいて、合併対象行の合併方向とサンプル方向特徴との関連関係を学習でき、合併対象行の合併方向の予測に用いられる。
同様に、モデル訓練プロセスにおいて、サンプル合併特徴及びサンプル方向特徴を同時に抽出できる。サンプル合併特徴を抽出した後、サンプル方向特徴を抽出してもよく、本出願の実施例では特に限定しない。テーブル認識プロセスにおいて、処理の必要性に応じてセル合併分類モデルとセル合併方向確定モデルを択一的に用いてもよく、同時に用いてもよい。図4に示された技術案を本出願の実施例に対する具体的な限定として理解するべきではない。
例示的に、サンプル合併特徴は、サンプルテーブルにおける各行の有効列数とサンプルテーブルにおける最大有効列数との差、サンプルテーブルにおける各行とサンプルテーブルにおけるヘッダとの相対的な位置関係、サンプルテーブルにおける各行の文字領域に所定の区切り文字が含まれるか否か、及びサンプルテーブルにおける各行の文字領域に数値タイプのデータが含まれるか否かなどの特徴の少なくとも1つを含む。ここで、ヘッダとは、サンプルテーブルにおいて、位置情報に基づいて確定された有効列数が最大の行における最初のセルを指す。サンプルテーブルにおける各行の有効列数とは、該行の文字領域に対応する列の数を指す。サンプルテーブルにおける最大有効列数とは、テーブルにおける文字領域に対応する列の最大数を指す。所定の区切り文字は、数値を分割するための小数点などの、文字の改行のためにテーブルに適用可能なあらゆる符号であってもよい。
サンプル方向特徴は、合併対象行がサイドヘッダを含むか否か、合併対象行がサイドヘッダのみを含むか否か、合併対象行の文字領域に数値タイプのデータが含まれるか否か、合併対象行からそれに隣接する上の行の下罫線までの距離と、それに隣接する下の行の上罫線までの距離との比、合併対象行内の文字領域とそれに隣接する上の行における文字領域との幅の差、及び合併対象行内の文字領域とそれに隣接する下の行内の文字領域との幅の差などの特徴の少なくとも1つを含む。サイドヘッダとは、各行で読み取り習慣に従ってテーブルの最左端にあるセルを指す。モデル訓練プロセスにおける特徴の抽出とモデル使用プロセスおける特徴の抽出は同じロジックに属するため、第1のサンプル特徴と第2のサンプル特徴に関する他の記載については、上記実施例における候補テーブル認識結果の第1の特徴及び第2の特徴に関する記載を参照されたい。ここでは説明を省略する。
セル合併分類モデル及びセル合併方向確定モデルの訓練プロセスにおいて、ロジスティック回帰二項分類、GBDT(Gradient Boosting Decision Tree、勾配ブースティング確定木)二項分類、XGBoost(eXtreme Gradient Boosting)二項分類又はSVM(Support Vector Machine、サポートベクターマシン)二項分類等に基づいて、訓練により所望のモデルを得ることができる。自動モデリングと組み合わせてモデルパラメータを最適化することにより所望のモデルを得ることもできる。モデル融合方法により訓練を行って所望のモデルを得ることもできる。本出願の実施例では、モデルの具体的な訓練プロセスを限定しない。
本出願の実施例の技術案によれば、テーブルの検出により候補テーブル認識結果を得た後、候補テーブル認識結果の合併特徴及び方向特徴を抽出し、後続の正確なテーブル認識結果の取得にデータ基盤を確立した。その後、予め訓練されたセル合併分類モデルと合併特徴とに基づいて候補テーブル認識結果における合併対象行を確定し、予め訓練されたセル合併方向確定モデル及び方向特徴に基づいて合併対象行の合併方向を確定する。最後に、確定された合併対象行、合併方向と候補テーブル認識結果とに基づいて、正確な対象テーブル認識結果を取得する。これにより、従来のテーブル認識方法による認識結果が不正確であるという問題点を解決し、テーブル認識の精度を向上させた。さらに、セル合併分類モデル及びセル合併方向確定モデルの使用により、テーブル認識結果の精度や信頼性が確保されただけでなく、テーブル認識効率が効果的に向上し、技術案の適用範囲がより広くなる。
図5は、本出願の実施例により開示された他のテーブル認識方法のフローチャートである。上記の技術案に基づいてさらに最適化及び拡張し、上記の各オプション的な実施形態と組み合わせることができる。図5に示すように、該方法は以下のステップを含むことができる。
S301:対象画像におけるテーブルの外枠及び対象画像における文字領域を検出する。
例示的に、事前設定されたニューラルネットワークモデルにより対象画像におけるテーブルの外枠を検出できる。ここで、事前設定されたニューラルネットワークモデルは、Yolov3ネットワーク構造に所定数の畳み込み層を追加することによって実現できる。事前設定されたニューラルネットワークモデルは、モデル訓練によりテーブルの外枠を検出する機能を備えており、モデル訓練プロセスに必要なパラメータは、検出の必要性に応じて柔軟に設定できる。具体的には、対象画像をYolov3ネットワーク構造によって処理した後、結果を直接出力せず、所定数(具体的な値は必要に応じて決められる)の畳み込み層に入力して畳み込み計算を行った後、全結合層を介してテーブルの外枠の検出結果を出力し、Yolov3ネットワーク構造により処理してテーブルの外枠の検出結果を出力する場合と比べて、テーブルの外枠の検出精度を向上させることができる。また、Faster R−CNNネットワークによりテーブルの外枠を検出する技術案と比べて、本出願の実施例で用いられる事前設定されたニューラルネットワークモデルはテーブル検出の精度を向上させることができ、他の分散文字をテーブル領域と誤認識することを減らすことができ、テーブル認識の精度とリコール率を両立させ、また、モデル訓練時間及び予測時間がFaster R−CNNよりもはるかに短い。事前設定されたニューラルネットワークモデルは、モデル訓練プロセスにおいて、モデル訓練の精度を確保するように、モデル損失関数としてクロスエントロピー損失関数を用いることができる。クロスエントロピー損失関数の具体的な形式は従来技術における関数形式を参照して実現することができる。
さらに、テキスト検出のための文字領域アウェアネス方法(Character Region Awareness for Text Detection、CRAFT)により、対象画像における文字領域を検出することができる。CRAFT方法の核となる思想は、テキストボックスを対象とせずに、対象検出という核となる概念により適合した単一文字の分割及び単一文字間の分割の方法を提案することにある。これにより、小さな知覚視野で大きなテキストや長いテキストを予測でき、テキストインスタンス全体ではなく文字レベルのコンテンツのみに焦点を当てることで、テキストの境界を効果的に取得し、対象画像における文字領域の検出精度を確保できる。
図6は、本出願の実施例により開示された対象画像におけるテーブルの外枠及び文字領域の検出結果の概略図である。図6に示すように、テーブルの外枠内における文字は、すべてテーブルのコンテンツに属し、1つの文字領域が1つのテキストボックスに対応し、テキストボックスの数はテーブルのコンテンツによって決められる。テーブルの外枠と各テキストボックスのサイズは適応的に設定できる。
さらに、対象画像におけるテーブルの外枠を検出するプロセスにおいて、本出願の実施例に係る方法は、対象画像におけるテーブルのテーブル名を検出することをさらに含み、対応して、対象画像におけるテーブルの外枠を検出した後、本出願の実施例に係る方法は、テーブル名の位置情報に基づいて、テーブルの外枠を調整することをさらに含む。これにより、テーブル名が占める領域をテーブル領域に分割することを避け、テーブルの外枠の検出精度を向上させる。
例示的に、テーブル名検出の実現に関して、テーブルの外枠検出機能を備えた事前設定されたニューラルネットワークモデルを取得するための訓練プロセスにおいて、テーブル名の検出を1つの訓練対象とすることができ、即ち、訓練サンプルテーブルにテーブルの外枠及びテーブル名を同時に表記した後、モデル訓練に用いることで、事前設定されたニューラルネットワークモデルは、テーブルの外枠検出機能とテーブル名検出機能の両方を備えたマルチタスクモデルになることができる。また、テーブル名とテーブルの本体、ヘッダとの位置関係などに基づいて、テーブル名の位置を検出することもできる。
S302:テーブルの外枠と文字領域の位置情報とに基づいて、対象画像におけるテーブルの各行の領域範囲を確定する。即ち、各行の上下の境界を確定する。
S303:対象画像内の各行に対応する文字領域の数に基づいて対象行を確定する。
具体的には、対象画像におけるテーブルの行を単位とし、対応する文字領域の数が数の閾値を超えた行、例えば、対応する文字領域の数が最も多い行を対象行として確定することができる。各行の1つの文字領域が1つの列に対応でき、つまり、対象行に対応する列数がある程度最大になる。
S304:対象行の行の長さと対象画像におけるテーブルの行方向の文字領域とに基づいて、対象画像におけるテーブルの各列の領域範囲を確定する。
具体的には、テーブルの行方向におけるすべての文字領域の範囲に従って、テーブルの列方向に沿ってテーブルの領域を合理的に分割し、各列の左境界線及び右境界線を確定することができる。
S305:各行の領域範囲と各列の領域範囲とに基づいて、対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得る。
候補テーブル認識結果の例示的な効果については、図2を参照されたい。
S306:候補テーブル認識結果の合併特徴を抽出し、合併特徴に基づいて候補テーブル認識結果のうちの合併対象行を確定する。
S307:合併対象行の方向特徴を抽出し、方向特徴に基づいて合併対象行の合併方向を確定する。
S308:合併対象行と合併対象行の合併方向とに基づいて、候補テーブル認識結果を調整し、対象テーブル認識結果を得る。
上記技術案に基づいて、さらに、対象行の行の長さ及び対象画像におけるテーブルの行方向の文字領域に基づいて、対象画像におけるテーブルの各列の領域範囲を確定することは、
対象行の行の長さと対象画像におけるテーブルの行方向の文字領域とに基づいて、対象画像におけるテーブルの各列の候補領域範囲を確定することと、
各列の候補領域範囲に基づいて、文字領域を含まない空白列を検出することと、
空白列の候補領域範囲を2列の対象領域に結合し、対象画像におけるテーブルの各列の対象領域範囲を取得することとを含み、
ここで、2列の対象領域とは、空白列に隣接するとともに、空白列の両側にそれぞれ位置する列領域を指す。
ここで、例示として、図7における第2、第4及び第6の列は空白列であり、空白列は通常のテーブルには表示されないため、テーブル認識の精度のために、図8に示す列領域範囲のように、空白列領域を空白列の左右両側の列に結合することで、より合理的で正確なテーブル認識結果を取得できる。
本出願の実施例の技術案によれば、対象画像に対してテーブルの外枠検出及び文字領域検出を行うことにより、対象画像におけるテーブルの行領域範囲及び列領域範囲を確定し、候補テーブル認識結果を予め取得し、後続の効果的なテーブルの構造化処理の基盤を確立した。その後、候補テーブル認識結果に基づいて特徴抽出を行い、抽出された特徴を用いて合併対象行及び合併対象行の結合方向を確定し、候補テーブル認識結果の効果的な構造化処理を実現することで、正確な対象テーブル認識結果を取得する。これにより、従来のテーブル認識方法による認識結果が不正確であるという問題点を解決し、テーブル認識の精度を向上させた。
図9は、本出願の実施例により開示されたテーブル認識装置の構造を示す概略図である。本出願の実施例は、テーブル画像を認識して、テーブル画像におけるテーブルを取得する場合に、特に、テーブル画像における罫線のないテーブルを認識する場合に適用可能である。本出願の実施例に係る装置は、ソフトウェア及び/又はハードウェアによって実現でき、サーバまたは端末などの、コンピューティング機能を有する任意の電子機器に統合することができる。
図9に示すように、本出願の実施例に係るテーブル認識装置400は、候補結果確定モジュール401、合併対象行確定モジュール402、合併方向確定モジュール403及び対象結果確定モジュール404を含んでもよい。
候補結果確定モジュール401は、対象画像におけるテーブルを検出し、候補テーブル認識結果を取得するように構成される。
合併対象行確定モジュール402は、候補テーブル認識結果の合併特徴を抽出し、合併特徴に基づいて候補テーブル認識結果のうちの合併対象行を確定するように構成される。
合併方向確定モジュール403は、合併対象行の方向特徴を抽出し、方向特徴に基づいて合併対象行の合併方向を確定するように構成される。
対象結果確定モジュール404は、合併対象行と合併対象行の合併方向とに基づいて、候補テーブル認識結果を調整し、対象テーブル認識結果を取得するように構成される。
オプションとして、合併対象行確定モジュール402は、
候補テーブル認識結果の合併特徴を抽出するように構成される合併特徴抽出ユニットと、
予め訓練されたセル合併分類モデル及び合併特徴を用いて、候補テーブル認識結果のうちの合併対象行を確定するように構成される合併対象行確定ユニットとを備える。
オプションとして、合併方向確定モジュール403は、
合併対象行の方向特徴を抽出するように構成される方向特徴抽出ユニットと、
予め訓練されたセル合併方向確定モデル及び方向特徴を用いて、合併対象行の合併方向を確定するように構成される合併方向確定ユニットとを備え、ここで、合併方向は、下の行との結合と、上の行との結合を含む。
オプションとして、合併特徴は、候補テーブル認識結果における各行の有効列数と候補テーブル認識結果における最大有効列数との差、候補テーブル認識結果における各行と候補テーブル認識結果におけるヘッダとの相対的な位置関係、候補テーブル認識結果における各行の文字領域に所定の区切り文字が含まれるか否か、及び候補テーブル認識結果における各行の文字領域に数値タイプのデータが含まれるか否か、の少なくとも1つを含む。
方向特徴は、合併対象行がサイドヘッダを含むか否か、合併対象行がサイドヘッダのみを含むか否か、合併対象行の文字領域に数値タイプのデータが含まれるか否か、合併対象行からそれに隣接する上方の行の下罫線までの距離と、合併対象行からそれに隣接する下方の行の上罫線までの距離との比、合併対象行の文字領域と上の行の文字領域との幅の差、及び合併対象行の文字領域と下の行の文字領域との幅の差、の少なくとも1つを含む。
ここで、ヘッダとは、候補テーブル認識結果のうち、位置情報に基づいて確定された、有効列数が最大の行の最初のセルを指す。
オプションとして、本出願の実施例に係る装置は、さらに
所定数のサンプルテーブルを取得し、サンプルテーブルにおける合併対象行及び該合併対象行の合併方向を表記するように構成されるサンプル表記モジュールと、
サンプルテーブルにおける、合併対象行を確定するためのサンプル合併特徴を抽出し、サンプルテーブルにおける、合併対象行の合併方向を確定するためのサンプル方向特徴を抽出するように構成されるサンプル特徴抽出モジュールと、
表記された合併対象行とサンプル合併特徴とに基づいて訓練を行ってセル合併分類モデルを取得するように構成される第1の訓練モジュールと、
表記された合併対象行の合併方向とサンプル方向特徴とに基づいて訓練を行ってセル合併方向確定モデルを取得するように構成される第2の訓練モジュールと、を備える。
オプションとして、候補結果確定モジュール401は、
対象画像におけるテーブルの外枠及び対象画像における文字領域を検出するように構成される外枠・文字検出ユニットと、
テーブルの外枠と文字領域とに基づいて、対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得るように構成される候補結果確定ユニットと、を備える。
オプションとして、候補結果確定ユニットは、
テーブルの外枠と文字領域の位置情報とに基づいて、対象画像におけるテーブルの各行の領域範囲を確定するように構成される行領域確定サブユニットと、
対象画像における各行に対応する文字領域の数に基づいて対象行を確定するように構成される対象行確定サブユニットと、
対象行の行の長さと対象画像におけるテーブルの行方向の文字領域とに基づいて、対象画像におけるテーブルの各列の領域範囲を確定するように構成される列領域確定サブユニットと、
各行の領域範囲と各列の領域範囲とに基づいて、対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得るように構成されるグリッド分割サブユニットとを備える。
オプションとして、列領域確定サブユニットは、
対象行の行の長さと対象画像におけるテーブルの行方向の文字領域とに基づいて、対象画像におけるテーブルの各列の候補領域範囲を確定するように構成される候補領域確定サブユニットと、
各列の候補領域範囲に基づいて、文字領域を含まない空白列を検出するように構成される空白列検出サブユニットと、
空白列の候補領域範囲を2列の対象領域に結合し、対象画像におけるテーブルの各列の対象領域範囲を取得するように構成される対象領域確定サブユニットとを備える。
ここで、2列の対象領域とは、空白列に隣接するとともに、空白列の両側にそれぞれ位置する列領域を指す。
オプションとして、外枠・文字検出ユニットは、
対象画像におけるテーブルの外枠を検出するように構成されるテーブル外枠検出サブユニットと、
対象画像における文字領域を検出するように構成される文字領域検出サブユニットとを備え、
ここで、テーブル外枠検出サブユニットは、具体的には、
事前設定されたニューラルネットワークモデルを用いて対象画像におけるテーブルの外枠を検出するように構成される。ここで、事前設定されたニューラルネットワークモデルは、Yolov3ネットワーク構造に所定数の畳み込み層を追加することによって実現される。
オプションとして、候補結果確定モジュール401は、
対象画像におけるテーブルのテーブル名を検出するように構成されるテーブル名検出ユニットと、
外枠・文字検出ユニットが対象画像におけるテーブルの外枠を検出した後、テーブル名の位置情報に基づいて、テーブルの外枠を調整するように構成される外枠調整ユニットとを備える。
本出願の実施例に係るテーブル認識装置400は、本出願の実施例に係るいずれのテーブル認識方法をも実行することができ、方法を実行するための機能モジュールおよび有益な効果を有する。本出願の装置の実施例に詳細に記載されていない内容については、本出願のいずれかの方法の実施例における記述を参照されたい。
本出願の実施例によれば、本出願の実施例は、電子機器及び可読記憶媒体を提供する。
図10に示すように、図10は、本出願の実施例におけるテーブル認識方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的としている。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス及び他の類似のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。ここに示されているコンポーネント、それらの接続関係、及びそれらの機能はただ例示的なものであり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
図10に示すように、該電子機器は、1つまたは複数のプロセッサ501、メモリ502、並びに高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスを介して互いに接続されており、共通のマザーボードにインストールされてもよく、必要に応じて他の方式でインストールされてもよい。プロセッサは、外部入力/出力装置(インターフェースに結合された表示装置など)にグラフィカルユーザインタフェース(Graphical User Interface、GUI)の図形情報を表示するようにメモリ内またはメモリ上に記憶された指令を含む、電子機器内で実行される指令を処理することができる。他の実現方式において、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器に接続することができ、各機器は、例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして一部の必要な操作を提供する。図10では、1つのプロセッサ501を例とする。
メモリ502は、本出願の実施例に係る非一時的コンピュータ可読記憶媒体である。メモリには、少なくとも1つのプロセッサが本出願の実施例に係るテーブル認識方法を実行するように、少なくとも1つのプロセッサで実行可能な指令が記憶されている。本出願の実施例の非一時的コンピュータ可読記憶媒体は、コンピュータに本出願の実施例により提供されるテーブル認識方法を実行させるように構成されるコンピュータ指令を記憶する。
メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム並びに本出願の実施例に係るテーブル認識方法に対応するプログラム指令/モジュール、例えば、図9に示される候補結果確定モジュール401、合併対象行確定モジュール402、合併方向確定モジュール403及び対象結果確定モジュール404などのモジュールを記憶するように構成されることができる。プロセッサ501は、メモリ502に記憶された非一時的ソフトウェアプログラム、指令及びモジュールを動作させることによって、電子機器の様々な機能的アプリケーション及びデータ処理を実行し、前記方法の実施例におけるテーブル認識方法を実現する。
メモリ502は、プログラム記憶領域及びデータ記憶領域を含むことができる。プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要となるアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用に従って作成されたデータなどを記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリ装置、またはその他の非一時的ソリッドステートメモリなどの非一時的メモリを含んでもよい。いくつかの実施例において、メモリ502は、プロセッサ501に対して遠隔的に設定されたリモートメモリを含むことができ、これらのリモートメモリは、ネットワークを介して本実施例におけるテーブル認識方法を実現するための電子機器に接続されることができる。前記ネットワークの例には、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信網及びそれらの組み合わせが含まれるが、これらに限定されない。
本出願の実施例におけるテーブル認識方法を実現するための電子機器は、入力装置503及び出力装置504をさらに備えることができる。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バスまたは他の方式で接続することができ、図10では、バスによる接続を例とした。
入力装置503は、入力されたデジタルまたは文字情報を受信し、本実施例におけるテーブル認識方法を実現するための電子機器のユーザ設定及び機能制御に関連するキー信号の入力を生成することができる。例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示装置、補助照明装置及び触覚フィードバック装置などを含むことができる。ここで、補助照明装置は、例えば、発光ダイオード(Light Emitting Diode、LED)であり、触覚フィードバック装置は、例えば、振動モータなどである。該表示装置は、液晶ディスプレイ(Liquid Crystal Display、LCD)、LEDディスプレイ及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。
ここに記載されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実現することができる。これらの様々な実施形態は、以下のことを含むことができる。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステム上で実行及び/又は解釈されることができ、該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであってもよく、メモリシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び指令を受信し、データ及び指令を該メモリシステム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に送信することができる。
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセスおよび/またはオブジェクト指向のプログラミング言語、および/またはアセンブリ言語/機械語により実装され得る。ここで、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械指令および/またはデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム、機器、および/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(Programmable Logic Device,PLD))を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。
ユーザとのやりとりを行うために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで記述したシステムおよび技術は、バックグラウンドコンポーネントを含む演算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む演算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む演算システム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェースまたはウェブブラウザを介してここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む演算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント−サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。
本出願の実施例の技術案によれば、テーブルの検出により候補テーブル認識結果を得た後、候補テーブル認識結果のテーブルの特徴、即ち、合併特徴及び方向特徴を抽出し、抽出されたテーブルの特徴に基づいて候補テーブル認識結果に対して構造化結合処理を行い、合併対象行及び合併対象行の合併方向を取得し、さらに候補テーブル認識結果を調整し、最終的な対象テーブル認識結果を取得する。これにより、従来のテーブル認識方法による認識結果が不正確であるという問題点を解決し、テーブル認識の精度を向上させた。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順に実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (21)

  1. 対象画像におけるテーブルを検出し、候補テーブル認識結果を得ることと、
    前記候補テーブル認識結果の合併特徴を抽出し、前記合併特徴に基づいて前記候補テーブル認識結果における合併対象行を確定することと、
    前記合併対象行の方向特徴を抽出し、前記方向特徴に基づいて前記合併対象行の合併方向を確定することと、
    前記合併対象行と前記合併対象行の合併方向とに基づいて、前記候補テーブル認識結果を調整し、対象テーブル認識結果を得ることと、を含むテーブル認識方法。
  2. 前記合併特徴に基づいて前記候補テーブル認識結果における合併対象行を確定することは、
    予め訓練されたセル合併分類モデル及び前記合併特徴を用いて、前記候補テーブル認識結果における合併対象行を確定することを含む請求項1に記載のテーブル認識方法。
  3. 前記方向特徴に基づいて前記合併対象行の合併方向を確定することは、
    予め訓練されたセル合併方向確定モデル及び前記方向特徴を用いて、前記合併対象行の合併方向を確定することを含み、
    前記合併方向は、下の行への合併方向及び上の行への合併方向を含む請求項1に記載のテーブル認識方法。
  4. 前記合併特徴は、
    前記候補テーブル認識結果における各行の有効列数と前記候補テーブル認識結果における最大有効列数との差、前記候補テーブル認識結果における各行と前記候補テーブル認識結果におけるヘッダとの相対的な位置関係、前記候補テーブル認識結果における各行の文字領域に所定の区切り文字が含まれるか否か、及び前記候補テーブル認識結果における各行の文字領域に数値タイプのデータが含まれるか否か、のうちの少なくとも1つを含み、
    前記方向特徴は、
    前記合併対象行がサイドヘッダを含むか否か、前記合併対象行がサイドヘッダのみを含むか否か、前記合併対象行の文字領域に数値タイプのデータが含まれるか否か、前記合併対象行からそれに隣接する上の行の下罫線までの距離と、それに隣接する下の行の上罫線までの距離との比、前記合併対象行の文字領域と前記上の行の文字領域との幅の差、及び前記合併対象行の文字領域と前記下の行の文字領域との幅の差、のうちの少なくとも1つを含み、
    前記ヘッダとは、前記候補テーブル認識結果のうち、位置情報に基づいて確定された、有効列数が最大の行の最初のセルを指す、請求項1〜3のいずれか1項に記載のテーブル認識方法。
  5. 前記の、対象画像におけるテーブルを検出し、候補テーブル認識結果を得ることは、
    前記対象画像におけるテーブルの外枠及び前記対象画像における文字領域を検出することと、
    前記テーブルの外枠と前記文字領域とに基づいて、前記対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得ることと、を含む請求項1に記載のテーブル認識方法。
  6. 前記テーブルの外枠と前記文字領域とに基づいて、前記対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得ることは、
    前記テーブルの外枠と前記文字領域の位置情報とに基づいて、前記対象画像におけるテーブルの各行の領域範囲を確定することと、
    前記対象画像における行ごとに対応する文字領域の数に基づいて対象行を確定することと、
    前記対象行の行の長さと前記対象画像におけるテーブルの行方向の文字領域とに基づいて、前記対象画像におけるテーブルの各列の領域範囲を確定することと、
    前記各行の領域範囲と前記各列の領域範囲とに基づいて、前記対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得ることと、を含む請求項5に記載のテーブル認識方法。
  7. 前記対象行の行の長さと前記対象画像におけるテーブルの行方向の文字領域とに基づいて、前記対象画像におけるテーブルの各列の領域範囲を確定することは、
    前記対象行の行の長さと前記対象画像におけるテーブルの行方向の文字領域とに基づいて、前記対象画像におけるテーブルの各列の候補領域範囲を確定することと、
    前記各列の候補領域範囲に基づいて、文字領域を含まない空白列を検出することと、
    前記空白列の候補領域範囲を2列の対象領域に結合し、前記対象画像におけるテーブルの各列の対象領域範囲を取得することとを含み、前記2列の対象領域とは、前記空白列の異なる側にそれぞれ隣接して位置する列領域を指す請求項6に記載のテーブル認識方法。
  8. 前記の、対象画像におけるテーブルの外枠を検出することは、
    事前設定されたニューラルネットワークモデルを用いて前記対象画像におけるテーブルの外枠を検出することを含み、
    前記事前設定されたニューラルネットワークモデルは、Yolov3ネットワーク構造に所定数の畳み込み層を追加することによって実現される請求項5に記載のテーブル認識方法。
  9. 前記の、対象画像におけるテーブルの外枠を検出するプロセスにおいて、前記対象画像におけるテーブルのテーブル名を検出することをさらに含み、
    前記対象画像におけるテーブルの外枠が検出された後、前記テーブル名の位置情報に応じて前記テーブルの外枠を調整することをさらに含む請求項5に記載のテーブル認識方法。
  10. 対象画像におけるテーブルを検出し、候補テーブル認識結果を取得するための候補結果確定モジュールと、
    前記候補テーブル認識結果の合併特徴を抽出し、前記合併特徴に基づいて前記候補テーブル認識結果内の合併対象行を確定するように構成される合併対象行確定モジュールと、
    前記合併対象行の方向特徴を抽出し、前記方向特徴に基づいて前記合併対象行の合併方向を確定するように構成される合併方向確定モジュールと、
    前記合併対象行と前記合併対象行の合併方向とに基づいて、前記候補テーブル認識結果を調整し、対象テーブル認識結果を取得するように構成される対象結果確定モジュールと、を含むテーブル認識装置。
  11. 前記合併対象行確定モジュールは、
    前記候補テーブル認識結果の合併特徴を抽出するように構成される合併特徴抽出ユニットと、
    予め訓練されたセル合併分類モデル及び前記合併特徴を用いて、前記候補テーブル認識結果における合併対象行を確定するように構成される合併対象行確定ユニットと、を含む請求項10に記載のテーブル認識装置。
  12. 前記合併方向確定モジュールは、
    前記合併対象行の方向特徴を抽出するように構成される方向特徴抽出ユニットと、
    予め訓練されたセル合併方向確定モデル及び前記方向特徴を用いて、前記合併対象行の合併方向を確定するように構成される合併方向確定ユニットと、を含み、
    前記合併方向は、下の行への合併方向及び上の行への合併方向を含む請求項10に記載のテーブル認識装置。
  13. 前記合併特徴は、
    前記候補テーブル認識結果における各行の有効列数と前記候補テーブル認識結果における最大有効列数との差、前記候補テーブル認識結果における各行と前記候補テーブル認識結果におけるヘッダとの相対的な位置関係、前記候補テーブル認識結果における各行の文字領域に所定の区切り文字が含まれるか否か、及び前記候補テーブル認識結果における各行の文字領域に数値タイプのデータが含まれるか否か、のうちの少なくとも1つを含み、
    前記方向特徴は、
    前記合併対象行がサイドヘッダを含むか否か、前記合併対象行がサイドヘッダのみを含むか否か、前記合併対象行の文字領域に数値タイプのデータが含まれるか否か、前記合併対象行からそれに隣接する上の行の下罫線までの距離と、それに隣接する下の行の上罫線までの距離との比、前記合併対象行の文字領域と前記上の行の文字領域との幅の差、及び前記合併対象行の文字領域と前記下の行の文字領域との幅の差、のうちの少なくとも1つを含み、
    前記ヘッダとは、前記候補テーブル認識結果のうち、位置情報に基づいて確定された、有効列数が最大の行の最初のセルを指す、請求項10〜12のいずれか1項に記載のテーブル認識装置。
  14. 前記候補結果確定モジュールは、
    前記対象画像におけるテーブルの外枠及び前記対象画像における文字領域を検出するように構成される外枠・文字検出ユニットと、
    前記テーブルの外枠と前記文字領域とに基づいて、前記対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得るように構成される候補結果確定ユニットと、を含む請求項10に記載のテーブル認識装置。
  15. 前記候補結果確定ユニットは、
    前記テーブルの外枠と前記文字領域の位置情報とに基づいて、前記対象画像におけるテーブルの各行の領域範囲を確定するように構成される行領域確定サブユニットと、
    前記対象画像における行ごとに対応する文字領域の数に基づいて対象行を確定するように構成される対象行確定サブユニットと、
    前記対象行の行の長さと前記対象画像におけるテーブルの行方向の文字領域とに基づいて、前記対象画像におけるテーブルの各列の領域範囲を確定するように構成される列領域確定サブユニットと、
    前記各行の領域範囲と前記各列の領域範囲とに基づいて、前記対象画像におけるテーブルをグリッド分割し、候補テーブル認識結果を得るように構成されるグリッド分割サブユニットと、を含む請求項14に記載のテーブル認識装置。
  16. 前記列領域確定サブユニットは、
    前記対象行の行の長さと前記対象画像におけるテーブルの行方向の文字領域とに基づいて、前記対象画像におけるテーブルの各列の候補領域範囲を確定するように構成される候補領域確定サブユニットと、
    前記各列の候補領域範囲に基づいて、文字領域を含まない空白列を検出するように構成される空白列検出サブユニットと、
    前記空白列の候補領域範囲を2列の対象領域に結合し、前記対象画像におけるテーブルの各列の対象領域範囲を取得するように構成される対象領域確定サブユニットであって、前記2列の対象領域とは、前記空白列の異なる側にそれぞれ隣接して位置する列領域を指す、対象領域確定サブユニットと、を含む請求項15に記載のテーブル認識装置。
  17. 前記外枠・文字検出ユニットは、
    前記対象画像におけるテーブルの外枠を検出するように構成されるテーブル外枠検出サブユニットと、
    前記対象画像における文字領域を検出するように構成される文字領域検出サブユニットと、を含み、
    前記テーブル外枠検出サブユニットは、
    事前設定されたニューラルネットワークモデルを用いて前記対象画像におけるテーブルの外枠を検出するように構成され、
    前記事前設定されたニューラルネットワークモデルは、Yolov3ネットワーク構造に所定数の畳み込み層を追加することによって実現される請求項14に記載のテーブル認識装置。
  18. 前記候補結果確定モジュールは、
    前記対象画像におけるテーブルのテーブル名を検出するように構成されるテーブル名検出ユニットと、
    前記外枠・文字検出ユニットが前記対象画像におけるテーブルの外枠を検出した後、前記テーブル名の位置情報に応じて前記テーブルの外枠を調整するように構成される外枠調整ユニットと、をさらに含む請求項14に記載のテーブル認識装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な指令が格納されており、前記指令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1〜9のいずれか1項に記載のテーブル認識方法を実現させる、電子機器。
  20. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令は、請求項1〜9のいずれか1項に記載のテーブル認識方法を前記コンピュータに実行させる非一時的コンピュータ可読記憶媒体。
  21. プロセッサにより実行されると、請求項1〜9のいずれか1項に記載のテーブル認識方法を実現する、コンピュータプログラム。


JP2021053487A 2020-06-05 2021-03-26 テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7299939B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010508011.6A CN111695553B (zh) 2020-06-05 2020-06-05 表格识别方法、装置、设备和介质
CN202010508011.6 2020-06-05

Publications (2)

Publication Number Publication Date
JP2021193549A true JP2021193549A (ja) 2021-12-23
JP7299939B2 JP7299939B2 (ja) 2023-06-28

Family

ID=72479619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021053487A Active JP7299939B2 (ja) 2020-06-05 2021-03-26 テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US11636699B2 (ja)
EP (1) EP3822851A3 (ja)
JP (1) JP7299939B2 (ja)
KR (1) KR102609341B1 (ja)
CN (1) CN111695553B (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417831A (zh) * 2020-11-23 2021-02-26 中国建设银行股份有限公司 表格合并方法和装置
CN112183511A (zh) * 2020-12-01 2021-01-05 江西博微新技术有限公司 一种图像导出表格的方法、系统、存储介质及设备
CN112632934B (zh) * 2020-12-22 2023-01-17 上海精密计量测试研究所 基于比例计算还原表格图片为可编辑的word文件表格的方法
CN112861865B (zh) * 2021-01-29 2024-03-29 国网内蒙古东部电力有限公司 一种基于ocr技术的辅助审计方法
CN113177397B (zh) * 2021-04-21 2023-03-28 平安消费金融有限公司 表格的调整方法、装置、设备以及存储介质
KR102508654B1 (ko) * 2021-04-23 2023-03-10 주식회사 티맥스에이아이 이미지 기반 테이블 경계선 생성 방법
CN113033170B (zh) * 2021-04-23 2023-08-04 中国平安人寿保险股份有限公司 表格标准化处理方法、装置、设备及存储介质
KR102490486B1 (ko) * 2021-04-30 2023-01-19 주식회사 티맥스에이아이 이미지 기반 테이블 정보 생성 방법
CN113221519B (zh) * 2021-05-18 2024-03-29 北京百度网讯科技有限公司 用于处理表格数据的方法、装置、设备、介质和产品
CN113158987B (zh) * 2021-05-19 2022-07-05 中国科学技术信息研究所 表格处理方法、装置、设备及计算机可读存储介质
KR102342580B1 (ko) * 2021-07-16 2021-12-24 주식회사 애자일소다 딥러닝 알고리즘을 이용한 정형 데이터 처리 장치 및 방법
CN113821691A (zh) * 2021-08-13 2021-12-21 安徽希施玛数据科技有限公司 文档处理方法及装置、电子设备及可读存储介质
US20230094787A1 (en) * 2021-09-30 2023-03-30 Adobe Inc. Utilizing machine-learning based object detection to improve optical character recognition
CN113936286B (zh) * 2021-11-29 2024-06-14 中国平安人寿保险股份有限公司 图像文本识别方法、装置、计算机设备及存储介质
CN115273111B (zh) * 2022-06-27 2023-04-18 北京互时科技股份有限公司 一种无模板识别图纸材料表的装置
CN116311301B (zh) * 2023-02-17 2024-06-07 北京感易智能科技有限公司 无线表格识别方法及系统
CN116071771A (zh) * 2023-03-24 2023-05-05 南京燧坤智能科技有限公司 表格重构方法、装置、非易失性存储介质及电子设备
CN116127928B (zh) * 2023-04-17 2023-07-07 广东粤港澳大湾区国家纳米科技创新研究院 表格数据识别方法、装置、存储介质及计算机设备
CN117195846B (zh) * 2023-11-07 2024-03-01 江西五十铃汽车有限公司 一种专家表管理方法、系统、存储介质及设备
CN117217172B (zh) * 2023-11-09 2024-04-23 金蝶征信有限公司 表格信息获取方法、装置、计算机设备、存储介质
CN118332065B (zh) * 2024-06-13 2024-09-06 金现代信息产业股份有限公司 智能问答场景下的表格知识存储方法、装置、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307888A (ja) * 1997-05-09 1998-11-17 Ricoh Co Ltd 表処理方法、装置および記録媒体
US20090304282A1 (en) * 2008-06-06 2009-12-10 Microsoft Corporation Recognition of tabular structures
JP2011123825A (ja) * 2009-12-14 2011-06-23 Fujitsu Frontech Ltd 文字認識方法、文字認識装置および文字認識プログラム
US20190340240A1 (en) * 2018-05-03 2019-11-07 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
JP2020042754A (ja) * 2018-09-07 2020-03-19 株式会社フジクラ 分類装置、分類方法、分類プログラム、及び検査装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0602955B1 (en) * 1992-12-17 2000-12-27 Xerox Corporation Text recognition
JP3607753B2 (ja) * 1995-07-31 2005-01-05 株式会社リコー 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
JP3435375B2 (ja) * 1999-10-12 2003-08-11 沖電気工業株式会社 文字認識方法および装置
JP4973063B2 (ja) * 2006-08-14 2012-07-11 富士通株式会社 表データ処理方法及び装置
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
US9858476B1 (en) * 2016-06-30 2018-01-02 Konica Minolta Laboratory U.S.A., Inc. Method for recognizing table, flowchart and text in document images
CN108446264B (zh) * 2018-03-26 2022-02-15 阿博茨德(北京)科技有限公司 Pdf文档中的表格矢量解析方法及装置
US11200413B2 (en) * 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
CN110163198B (zh) * 2018-09-27 2022-03-08 腾讯科技(深圳)有限公司 一种表格识别重建方法、装置和存储介质
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110334585B (zh) * 2019-05-22 2023-10-24 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110390269B (zh) * 2019-06-26 2023-08-01 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110502985B (zh) * 2019-07-11 2022-06-07 新华三大数据技术有限公司 表格识别方法、装置及表格识别设备
CN110532968B (zh) * 2019-09-02 2023-05-23 苏州美能华智能科技有限公司 表格识别方法、装置和存储介质
CN111062259B (zh) * 2019-11-25 2023-08-25 泰康保险集团股份有限公司 表格识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10307888A (ja) * 1997-05-09 1998-11-17 Ricoh Co Ltd 表処理方法、装置および記録媒体
US20090304282A1 (en) * 2008-06-06 2009-12-10 Microsoft Corporation Recognition of tabular structures
JP2011123825A (ja) * 2009-12-14 2011-06-23 Fujitsu Frontech Ltd 文字認識方法、文字認識装置および文字認識プログラム
US20190340240A1 (en) * 2018-05-03 2019-11-07 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
JP2020042754A (ja) * 2018-09-07 2020-03-19 株式会社フジクラ 分類装置、分類方法、分類プログラム、及び検査装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YILUN HUANG ET AL.: "A YOLO-Based Table Detection Method", 2019 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR), JPN6022051752, 25 September 2019 (2019-09-25), US, pages 813 - 818, XP033701364, ISSN: 0004937958, DOI: 10.1109/ICDAR.2019.00135 *

Also Published As

Publication number Publication date
US20210383105A1 (en) 2021-12-09
EP3822851A3 (en) 2021-10-20
EP3822851A2 (en) 2021-05-19
CN111695553B (zh) 2023-09-08
KR20210042864A (ko) 2021-04-20
JP7299939B2 (ja) 2023-06-28
CN111695553A (zh) 2020-09-22
KR102609341B1 (ko) 2023-12-01
US11636699B2 (en) 2023-04-25

Similar Documents

Publication Publication Date Title
JP2021193549A (ja) テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
EP3825916A2 (en) Method and apparatus for retrieving image and computer-readable storage medium
JP7230081B2 (ja) 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US11645316B2 (en) Question answering method and language model training method, apparatus, device, and storage medium
KR20210037619A (ko) 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
US9400775B2 (en) Document data entry suggestions
US11573992B2 (en) Method, electronic device, and storage medium for generating relationship of events
US11775845B2 (en) Character recognition method and apparatus, electronic device and computer readable storage medium
CN111488740A (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
US20210224480A1 (en) Method, device and storage medium for predicting punctuation in text
US11462039B2 (en) Method, device, and storage medium for obtaining document layout
CN111507355A (zh) 一种字符识别方法、装置、设备和存储介质
JP7300034B2 (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
JP2022077969A (ja) データ処理方法、装置、電子デバイスおよび記憶媒体
CN112541332B (zh) 表单信息抽取方法、装置、电子设备及存储介质
CN112507735A (zh) 机器翻译模型的训练方法、装置和电子设备
JP7241122B2 (ja) スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20220004812A1 (en) Image processing method, method for training pre-training model, and electronic device
CN112182292A (zh) 视频检索模型的训练方法、装置、电子设备及存储介质
CN113361523A (zh) 文本确定方法、装置、电子设备和计算机可读存储介质
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
WO2024030232A1 (en) Table structure recognition
KR20240108328A (ko) 이미지 기반 인간 - 컴퓨터 상호작용 방법, 장치, 기기 및 저장매체
CN115952790A (zh) 信息抽取方法及其装置
CN115130989A (zh) 一种业务文档的审核方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230616

R150 Certificate of patent or registration of utility model

Ref document number: 7299939

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150