JP2021131900A - 文書レイアウト解析方法、装置、電子機器及び記憶媒体 - Google Patents

文書レイアウト解析方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2021131900A
JP2021131900A JP2021089265A JP2021089265A JP2021131900A JP 2021131900 A JP2021131900 A JP 2021131900A JP 2021089265 A JP2021089265 A JP 2021089265A JP 2021089265 A JP2021089265 A JP 2021089265A JP 2021131900 A JP2021131900 A JP 2021131900A
Authority
JP
Japan
Prior art keywords
character
sample
characters
document
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021089265A
Other languages
English (en)
Other versions
JP7203897B2 (ja
Inventor
カイ ツェン
Kai Zeng
カイ ツェン
ファ ル
Hua Lu
ファ ル
チウ ペン
Yiyu Peng
チウ ペン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021131900A publication Critical patent/JP2021131900A/ja
Application granted granted Critical
Publication of JP7203897B2 publication Critical patent/JP7203897B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させることができる文書レイアウト解析方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、最後に頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。【選択図】図1

Description

本出願は、コンピュータ技術の分野に関し、具体的には、自然言語処理、深層学習技術の分野に関し、特に、文書レイアウト解析方法、装置、電子機器及び記憶媒体に関する。
レイアウト解析は、文書のコンテンツを理解するために不可欠の一歩であり、多くの後続タスクも正確なレイアウト解析を基礎にして構築される。例えば、文書が左右の欄であることを知ってこそ正しい文字列が得られ、文書の特定の領域がテーブルであることやセル間の関係を知ってこそテーブルのコンテンツを正確に理解することができる。
以上からわかるように、文書のレイアウトをどのように正確に解析するのは決定的に重要である。
本出願は、文書レイアウトを正確に生成するための文書レイアウト解析方法、装置、電子機器及び記憶媒体を提供する。
第1の態様によれば、
対象文書内の複数の文字及び前記複数の文字の文字情報を取得するステップと、
前記複数の文字及び前記複数の文字の文字情報に基づいて、複数の文字頂点及び前記複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成するステップと、
各前記文字の空間語義特徴を取得するステップと、
前記複数の文字の文字情報に基づいて前記複数の文字頂点の頂点タイプを生成するステップと、
前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するステップと、
前記頂点タイプ及び前記辺タイプに基づいて、対象文書の文書レイアウトを生成するステップと、を含む文書レイアウト解析方法を提供する。
本出願の実施例に係る文書レイアウト解析方法は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、最後に頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。
第2の態様によれば、
対象文書内の複数の文字及び前記複数の文字の文字情報を取得するための第1の取得モジュールと、
前記複数の文字及び前記複数の文字の文字情報に基づいて、複数の文字頂点及び前記複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成するための第1の生成モジュールと、
各前記文字の空間語義特徴を取得するための第2の取得モジュールと、
前記複数の文字の文字情報に基づいて前記複数の文字頂点の頂点タイプを生成するための第2の生成モジュールと、
前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するための第3の生成モジュールと、
前記頂点タイプ及び前記辺タイプに基づいて、対象文書の文書レイアウトを生成するための第4の生成モジュールと、を含む文書レイアウト解析装置を提供する。
本出願の実施例に係る文書レイアウト解析装置は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。
第3の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが、上記実施例に記載の文書レイアウト解析方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、
前記コンピュータ命令は、前記コンピュータに上記実施例に記載の文書レイアウト解析方法を実行させることに用いられる。
第5の態様によれば、コンピュータプログラムを提供し、
前記コンピュータプログラムは、コンピュータ上で動作するときに、前記コンピュータに上記実施例に記載の文書レイアウト解析方法を実行させることに用いられる。
本出願の実施例によれば、
文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。
上記選択可能の態様の別の利点については、以下、具体的な実施例を参照して詳細に説明する。
図面は、本技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
本出願の実施例に係る文書レイアウト解析方法のフローチャートである。 本出願の実施例に係る文字全接続図を取得するフローチャートである。 本出願の実施例に係る辺タイプの概略図1である。 本出願の実施例に係る辺タイプの概略図2である。 本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。 本出願の実施例に係る隠し文字の概略図である。 本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。 本出願の実施例に係る隠し接続辺の概略図である。 本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。 本出願の実施例に係るランダム外乱を追加する概略図である。 本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。 本出願の実施例に係る文書レイアウト解析装置の構成図である。 本出願の実施例に係る文書レイアウト解析方法を実施可能な電子機器のブロック図である。
以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構成の説明を省略する。
本出願の実施例に係る文書レイアウト解析方法、装置、電子機器及び記憶媒体について、図面を参照して以下に説明する。
本出願の実施例に係る文書レイアウト解析方法は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。
図1は、本出願の実施例に係る文書レイアウト解析方法のフローチャートである。
本出願の実施例に係る文書レイアウト解析方法は、本出願の実施例に係る文書レイアウト解析装置によって実行可能であり、当該文書レイアウト解析装置は、文字情報、語義情報、空間位置情報を有効に利用して文書レイアウトを解析するように電子機器に配置されている。
図1に示すように、当該文書レイアウト解析方法は、以下ステップ101〜ステップ106を含む。
ステップ101において、対象文書内の複数の文字及び複数の文字の文字情報を取得する。
本実施例では、OCR(Optical Character Recognition、光学式文字認識)によりレイアウトを解析する必要がある文書内の文字を認識することができる。ここで説明を容易にするために、文書レイアウト解析対象を対象文書という。
具体的には、対象文書の画像を取得した後、画像をOCR認識し、対象文書内の複数の文字及び複数の文字の文字情報を取得する。ここで、文字は、字、句読点、テーブルなどであってもよく、文字情報には、文字の大きさ、文字の位置などの情報を含み、文字の位置は、現在の文書ページにおける文字の位置であり、例えば、行、行の何番目の文字などであってもよく、画像の中の文字の画素点位置であってもよい。
ステップ102において、複数の文字及び複数の文字の文字情報に基づいて、複数の文字頂点及び複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成する。
本実施例では、取得した複数の文字と複数の文字の大きさ、位置などの情報に基づいて、二次元平面の文字全接続図を取得する。具体的には、文字を定点とし、文字と文字との間の接続線を辺とすることで、文字全接続図を取得することができる。ここで、文字全接続図には、複数の文字頂点及び複数の文字頂点間の複数の文字接続辺を含む。
図2は、本出願の実施例に係る文字全接続図を取得するフローチャートである。
図2では、文書を読み取り、文書から複数の文字C1、C2、…、Ca、C3、C4、…、Cb、…、Cx、Cy、…、Czを取得し、複数の文字を接続して接続辺を取得する。図2において文字C1を例としてC1と他の文字との間の文字接続辺を示し、すなわち、図2の中の双方向矢印点線である。
ステップ103において、各前記文字の空間語義特徴を取得する。
語義情報を有効に利用するために、本実施例では、各文字の空間語義特徴を取得する。空間語義特徴は、空間語義情報に対して特徴を抽出して取得することができる。ここで、空間語義情報とは、二次元空間平面上の文字が表す語義情報である。
ステップ104において、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成する。
本実施例では、文字の位置などの複数の文字の文字情報に基づいて、各文字頂点の頂点タイプを決定することができ、頂点タイプは、文書内の文字の空間位置情報を示すために使用することができる。
本実施例では、文字頂点の頂点タイプは、セル先頭、セル末尾、行先頭、行末尾、段落先頭、段落末尾、ブロック先頭、ブロック末尾、欄先頭、欄末尾などを含むことができる。例えば、文字は、1行文字の先頭であれば、頂点タイプが行先頭とし、文字は、1行文字の最後の1つの文字であれば、頂点タイプが行末尾とし、文書の一欄の一番目文字であれば、その頂点タイプが欄先頭とし、一欄の最後の1つの文字であれば、その頂点タイプが欄末尾とする。
なお、いくつかの文字頂点は、同時に複数の頂点タイプである可能性がある。例えば、ある文字が一行の一番目文字であり、一段落の一番目文字でもあれば、頂点タイプが行先頭と段落先頭とする。
文字頂点の頂点タイプを決定する際に、予めトレーニングされた頂点タイプ認識モデルを用いて複数の文字の頂点タイプを決定することができる。具体的には、対象文書内の複数の文字の文字情報を頂点タイプ認識モデルに入力し、当該頂点タイプ認識モデルを用いて各文字頂点を二分類し、二分類の結果に基づいて文字頂点の頂点タイプを決定する。
二分類とは、2つのカテゴリの分類タスクであり、一般的に、二分類タスクと呼ばれる。例えば、セル、行、段落、ブロック、欄の5種類のカテゴリがあり、各カテゴリには、先頭と末尾の2つの細分類があるため、10種類カテゴリの分類である。認識時に、当該10種類のカテゴリのうちの1つであるか否かをそれぞれ判別する必要があるため、10種類カテゴリのうちのそれぞれも二分類されたものであり、これらの10種類カテゴリでなかれば別のカテゴリと認識する。例えば、ある文字頂点は、頂点タイプ認識モデルからセル先頭ではなく、セル末尾ではなく、段落先頭であり、段落末尾ではなく、ブロック先頭ではなく、ブロック末尾ではなく、欄先頭であり、欄末尾ではないことを出力すると、当該文字頂点の頂点タイプが段落先頭と欄先頭であることが得られる。
ステップ105において、空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成する。
空間語義特徴は、文字の語義特徴を表し、文字情報は、対象文書内の文字の大きさ、位置などの情報であるため、空間位置情報を有効に利用するためには、空間語義特徴と、複数の文字の文字情報に基づいて、文字と文字との間の位置情報を取得することができ、このような情報は、文字接続辺の辺タイプで表することができる。
ここで、文字接続辺の辺タイプは、先後順序接続辺、セル先頭末尾接続辺、行先頭末尾接続辺、段落先頭末尾接続辺、ブロック先頭末尾接続辺、欄先頭末尾接続辺などを含む。
図3は、本出願の実施例に係る辺タイプの概略図1である。図3に、閲読先後順序の辺タイプを示す。図4は、本出願の実施例に係る辺タイプの概略図2である。図4に、行先頭末尾、段落先頭末尾、欄先頭末尾という3つの辺タイプを示す。ここで、C1とCaとの間の文字接続辺の辺タイプは、行先頭末尾接続辺であり、C1とCbとの間の文字接続辺の辺タイプは、段落先頭末尾接続辺であり、C1とCzとの間の文字接続辺の辺タイプは、欄先頭末尾接続辺である。ここで、双方向矢印は、文字間の二つの方向の結合確率を利用したことを表す。
ステップ106において、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。
本実施例では、各文字頂点の頂点タイプ及び文字接続辺の辺タイプを取得した後、頂点タイプ及び辺タイプに基づいて対象文書の文書レイアウトを生成することができ、具体的には、予め設定されたルールに基づいて文書レイアウトを生成することができる。例えば、まず、欄先頭と欄末尾、及び欄先頭末尾接続辺に基づいて、当該欄が占める領域を決定し、当該欄が占める領域を文書の一部とすることができる。その後、段落先頭と段落末尾、及び段落先頭末尾接続辺である頂点タイプに基づいて、段落が存在する領域を決定し、欄の中の各段落の領域を決定する。
または、予めトレーニングされた文書レイアウト生成モデルを用いて対象文書の文書レイアウトを生成する。具体的には、文字全接続図内の各文字頂点の頂点タイプと各接続辺の辺タイプを文書対象生成モデルに入力し、文書レイアウト生成モデルは、対応する文書レイアウトを出力する。
本実施例では、これらの文字情報、空間語義情報、辺タイプ空間位置情報を有効に利用することで、文書レイアウトを総合的に判断し、グローバルから最適化にする。
例えば、左右の欄の文書では、左の欄のある文字を取得する際に、右の欄のコンテキストを使用することなく、或いは右の欄のコンテキスト使用量を減らし、左の欄のコンテキストだけで、或いは左の欄のコンテキスト使用量を増加して、欄の情報を総合して文字を決定することができる。
本出願の実施例では、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。
文書レイアウト解析の正確さを向上させるために、本出願の一実施例では、上述した各文字の空間語義特徴を取得する際に、モデルを用いて空間語義特徴を抽出することも可能である。
具体的には、対象文書の複数の文字を予め構築された空間言語モデルに入力し、空間言語モデルを用いて各文字の空間語義特徴を取得する。具体的には、空間言語モデルは、周囲の隣接文字に基づいて各文字の語義特徴を取得する。
本出願の実施例では、各文字の空間語義特徴を取得する際に、各文字の空間語義特徴を生成するために、複数の文字を空間言語モデルに入力することができる。これにより、空間言語モデルを用いて空間語義特徴と複数の文字の文字情報を取得することで、生成される辺タイプの正確さが高く、辺タイプに基づいて取得される文書レイアウトの正確さが向上する。
本出願の一実施例では、図5に示される方法でトレーニングすることによって空間言語モデルを得ることができる。図5は、本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。
図5に示すように、上述した空間言語モデルは、以下のステップ201〜ステップ204でトレーニングすることによって得られる。
ステップ201において、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得する。
本実施例では、サンプル文字は、word文書、テキスト文書、ウェブページなどであってもよい。サンプル文書は、文字、画像、表などの少なくとも1つのタイプが含まれる。
本実施例では、様式ランダム生成と文字パディングの形式により、大量のサンプル文書を取得してもよいし、レイアウト制御形式により、大量のレイアウト様式を生成してもよいし、文字の方向、余白、段落の間隔、行の間隔、文字の間隔などを制御することにより、様々なパディング効果を得てもよいし、大量のテキストをパディングすることで、大量の教師なしトレーニングデータを取得してもよい。
ステップ202において、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成する。
ここでのステップ201〜ステップ202の複数のサンプル文字とサンプル文字情報を取得する処理は、上述したステップ101〜ステップ102の対象文書内の文字と文字の文字情報を取得する処理と同様であるため、説明を省略する。
ステップ203において、隠された位置の予測文字を生成するために、サンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を空間言語モデルに入力して予測を行う。
本実施例では、一部分の文字を未知の文字に置き換えたり、他の文字に修正したりするなど、サンプル文字全接続図内の一部サンプル文字を隠すことができる。その後、隠されたサンプル文字全接続図を空間言語モデルに入力して予測し、空間言語モデルは、サンプル文字全接続図内の隠されていない文字に基づいて、隠された位置を予測する予測文字を出力する。
図6は、本出願の実施例に係る隠し文字の概略図である。図6では、文字全接続図内の文字C4を未知の「UNK」文字に修正し、Cbをそのまま保持し、CyをCwの任意の文字に修正する。
ステップ204において、隠された位置のサンプル文字及び予測文字に基づいて空間言語モデルをトレーニングする。
本実施例では、隠された位置のサンプル文字及び予測文字に基づいて損失値を算出し、損失値が予め設定された第1の損失閾値より大きい場合、空間言語モデルのパラメータを調整する。その後、次のサンプル文書の一部のサンプル文字を隠した後のサンプル文字全接続図を調整された空間言語モデルに入力する。その後、隠された位置のサンプル文字及び予測文字に基づいて損失値を算出し、損失値が第1の損失閾値より大きいかどうかを判断し、第1の損失閾値よりも大きければ、損失値が第1の損失閾値より小さくなるまで、モデルのパラメータを調整してトレーニングを続ける。
これにより、何らかの文字を隠しても、トレーニングにより得られた空間言語モデルは、周囲の文字に基づいてこれらの文字を予測することができる。
本出願の実施例では、サンプル文書に対応するサンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を空間言語モデルに入力して予測を行うことにより、隠された位置の予測文字を生成し、隠された位置のサンプル文字及び予測文字に基づいて空間言語モデルをトレーニングする。これにより、サンプル文字の一部を隠した後のサンプル全接続図によりトレーニングを行うことで、トレーニングにより得られた空間言語モデルが、ある位置の周囲の文字に基づいて当該位置の文字を予測することが可能になる。
レイアウト解析の正確さを向上させるために、本出願の一実施例では、空間語義特徴及び文字情報に基づいて複数の文字接続辺の辺タイプを生成する際に、辺タイプ認識モデルを用いて、各文字接続辺の辺タイプを取得することも可能である。
具体的には、複数の文字の空間語義特徴及び文字情報を予めトレーニングされた辺タイプ認識モデルに入力し、当該辺タイプ認識モデルは、空間語義特徴、及び抽出された文字情報の特徴に基づいて、各文字接続辺を二分類し、予め定義された何種類の接続辺タイプであるか否かを出力し、出力結果によって、接続辺タイプを決定することができる。
例えば、先後順序、セル先頭末尾、行先頭末尾、段落先頭末尾、ブロック先頭末尾、欄先頭末尾の計6種類のカテゴリがある。認識時に、これらの6種類のカテゴリにおける各1つであるか否かをそれぞれ判断し、そうでなければ、別のカテゴリと認識する必要がある。
本出願の実施例では、空間語義特徴及び文字情報に基づいて複数の文字接続辺の辺タイプを生成する際に、複数の文字接続辺の辺タイプを生成するために、複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力する。これにより、辺タイプ認識モデルを用いて得られた文字接続辺の辺タイプを用いて、頂点タイプを結合して文書レイアウトを生成し、文書レイアウト解析の正確さを大幅に向上させることができる。
本出願の一実施例では、図7に示される方法でトレーニングすることによって辺タイプ認識モデルを得ることができる。図7は、本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。
図7に示すように、上述した辺タイプ認識モデルは、以下のステップ301〜ステップ305でトレーニングすることによって得られる。
ステップ301において、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得する。
ステップ302において、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成する。
ここでのステップ301〜ステップ302の処理は、上述したステップ201〜ステップ202の処理と同様であるため、説明を省略する。
ステップ303において、各サンプル文字のサンプル空間語義特徴を取得する。
本実施例では、各サンプル文字のサンプル空間語義特徴を取得するために、サンプル文字を空間言語モデルに入力することができる。
ステップ304において、隠された位置の予測辺タイプを生成するために、サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及びサンプル空間語義特徴を辺タイプ認識モデルに入力して予測を行う。
本実施例では、サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、例えば、サンプル文字接続辺の一部を未知の辺などに置き換えてもよい。その後、隠されたサンプル文字全接続図及びサンプル文字のサンプル空間語義特徴を辺タイプ認識モデルに入力して予測し、辺タイプ認識モデルは、サンプル文字全接続図内の隠されていないサンプル文字接続辺に基づいて、予測された予測接続辺を出力する。
図8は、本出願の実施例に係る隠し接続辺の概略図である。図8では、文字全接続図にて接続辺の一部を修正した。図8の点線に示すように、C1からCa、C1からC4、C1からCxの辺を未知の「UNK」辺に修正した。
ステップ305において、隠された位置のサンプル文字接続辺タイプ及び予測辺タイプに基づいて、辺タイプ認識モデルをトレーニングする。
本実施例では、隠された位置のサンプル文字接続辺タイプ及び予測辺タイプに基づいて損失値を算出し、損失値が予め設定された第2の損失閾値より大きい場合、辺タイプ認識モデルのパラメータを調整する。その後、次のサンプル文書の一部のサンプル文字を隠した後のサンプル文字全接続図を調整された辺タイプ認識モデルに入力する。その後、隠された位置のサンプル文字接続辺タイプ及び予測辺タイプに基づいて損失値を算出し、損失値が第2の損失閾値より大きいかどうかを判断し、第2の損失閾値よりも大きければ、損失値が第2の損失閾値より小さくなるまで、モデルのパラメータを調整してトレーニングを続ける。
本出願の実施例では、サンプル文書に対応するサンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及びサンプル空間語義特徴を辺タイプ認識モデルに入力して予測を行うことにより、隠された位置の予測辺タイプを生成する。これにより、サンプル文字接続辺の一部を隠した後のサンプル全接続図によりトレーニングを行うことで、トレーニングにより得られた辺タイプ認識モデルが、隠されたサンプル文字接続辺の辺タイプを予測することが可能になる。
レイアウト解析の正確さを向上させるために、本出願の一実施例では、対象文書内の複数の文字を取得する際に、文字検出モデルを用いて複数の文字を検出することも可能である。
具体的には、画像視覚情報を有効に利用するために、対象文書の画像を予めトレーニングされた文字検出モデルに入力し、文字検出モデルが対象文書内の複数の文字を出力する。
本出願の実施例では、対象文書内の複数の文字を取得する際に、対象文書内の複数の文字を取得するために、対象文書を文字検出モデルに入力する。これにより、文字検出モデルを用いて得られた複数の文字を用いて、複数の文字に基づいて文書レイアウトを生成し、文書レイアウト解析の正確さを大幅に向上させることができる。
本出願の一実施例では、図9に示される方法でトレーニングすることによって文字検出モデルを得ることができる。図9は、本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。
図9に示すように、上述した文字検出モデルは、以下のステップ401〜ステップ405でトレーニングすることによって得られる。
ステップ401において、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得する。
ステップ402において、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成する。
ここでのステップ401〜ステップ402の処理は、上述したステップ201〜ステップ202の処理と同様であるため、説明を省略する。
ステップ403において、サンプル文字全接続図内の複数の文字頂点のうちの一部の文字頂点にランダム外乱を追加する。
本実施例では、サンプル文字全接続図から一部分の文字頂点を選択し、文字の大きさを変更したり、文字の位置を調整したりするなど、これらの文字頂点にランダム外乱を追加することが可能である。
図10は、本出願の実施例に係るランダム外乱を追加する概略図である。図10では、文字全接続図内の一部の文字頂点にランダム外乱を追加する。具体的には、C1、C2、 …、Caの位置を調整し、C3,C4,…,Cbの大きさを調整し、Cx及びCyの位置と大きさを調整し、文字Cz及び他の文字はそのまま保持した。
ステップ404において、予測文字を生成するために、ランダム外乱が追加された後のサンプル文字全接続図を文字検出モデルに入力して文字予測を行う。
本実施例では、ランダム外乱が追加された後のサンプル文字全接続図を予めトレーニングされた文字検出モデルに入力し、文字検出モデルを用いて予測文字の位置及び大きさなどを含む予測文字を生成する。
ステップ405において、予測文字及びサンプル文書内のサンプル文字に基づいて、文字検出モデルをトレーニングする。
本実施例では、各予測文字と、サンプル文書内の相応する位置のサンプル文字に基づいて、各サンプル文字の損失値を算出し、且つ全てのサンプル文字の平均損失値を算出する。
平均損失値が予め設定された第3の損失閾値より大きい場合、文字検出モデルのパラメータを調整する。その後、次のサンプル文書のランダム外乱が追加された後のサンプル文字全接続図を調整された文字検出モデルに入力する。その後、予測文字及びサンプル文書内のサンプル文字に基づいて平均損失値を算出し、平均損失値が第3の損失閾値より大きいかどうかを判断し、第3の損失閾値よりも大きければ、損失値が第3の損失閾値より小さくなるまで、モデルのパラメータを調整してトレーニングを続ける。
本出願の実施例では、予測文字を生成するために、ランダム外乱が追加された後のサンプル文書のサンプル文字全接続図を文字検出モデルに入力し、文字予測を行い、予測文字及びサンプル文書内のサンプル文字に基づいて、文字検出モデルをトレーニングする。これにより、ランダム外乱が追加された後のサンプル文字全接続図によりトレーニングを行うことで、トレーニングにより得られた文字検出モデルが、各文字の精確位置を予測することが可能になる。
本出願の実施例では、文書レイアウト解析を行う際に、上述した3種類のモデルを利用することができ、以下、図11を参照して説明する。図11は、本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。
図11に示すように、当該文書レイアウト解析方法は、以下ステップ501〜ステップ506を含む。
ステップ501において、対象文書内の複数の文字及び複数の文字の文字情報を取得するために、対象文書を文字検出モデルに入力する。
本実施例では、対象文書内の複数の文字及び位置、大きさなどの複数の文字の文字情報を取得するために、予めトレーニングされた文字検出モデルを用いて対象文書の画像を検出することができる。
ステップ502において、複数の文字及び複数の文字の文字情報に基づいて、文字全接続図を生成する。
ここでのステップ502の処理は、上述したステップ102の処理と同様であるため、説明を省略する。
ステップ503において、各文字の空間語義特徴を生成するために、複数の文字を空間言語モデルに入力する。
本実施例では、複数の文字を空間言語モデルに入力し、空間言語モデルを用いて各文字の空間語義特徴を取得することができる。
ステップ504において、複数の文字の文字情報に基づいて、複数の文字頂点の頂点タイプを生成する。
ここでのステップ504の処理は、上述したステップ104の処理と同様であるため、説明を省略する。
ステップ505において、複数の文字接続辺の辺タイプを生成するために、複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力する。
具体的には、複数の文字の空間語義特徴及び文字情報を予めトレーニングされた辺タイプ認識モデルに入力し、当該辺タイプ認識モデルは、空間語義特徴、及び抽出された文字情報の特徴に基づいて、各文字接続辺の辺タイプを出力する。
ステップ506において、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。
ここでのステップ506の処理は、上述したステップ106の処理と同様であるため、説明を省略する。
本出願の実施例では、文字検出モデルを用いて対象文書内の複数の文字を取得し、空間言語モデルを用いて各文字の空間語義特徴を取得し、辺タイプ認識モデルを用いて各文字接続辺の辺タイプを取得することにより、モデルから得られた複数の文字と複数の文字の空間語義特徴、及び辺タイプに基づいて、文書レイアウトを取得することにより、文書レイアウト解析の正確さを大幅に向上させることができる。
上述した実施例を実現するために、本出願の実施例は、文書レイアウト解析装置をさらに提供する。図12は、本出願の実施例に係る文書レイアウト解析装置の構成図である。
図12に示すように、当該文書レイアウト解析装置600は、第1の取得モジュール610と、第1の生成モジュール620と、第2の取得モジュール630と、第2の生成モジュール640と、第3の生成モジュール650と、第4の生成モジュール660とを含む。
第1の取得モジュール610は、対象文書内の複数の文字及び複数の文字の文字情報を取得することに用いられる。
第1の生成モジュール620は、複数の文字及び複数の文字の文字情報に基づいて、複数の文字頂点及び複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成することに用いられる。
第2の取得モジュール630は、各文字の空間語義特徴を取得することに用いられる。
第2の生成モジュール640は、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成することに用いられる。
第3の生成モジュール650は、空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成することに用いられる。
第4の生成モジュール660は、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成することに用いられる。
本出願の実施例の可能な一実現形態では、第2の取得モジュール630は、各文字の空間語義特徴を生成するために、複数の文字を空間言語モデルに入力することに用いられる。
本出願の実施例の可能な一実現形態では、空間言語モデルは、以下の第3の取得モジュールと、第5の取得モジュールと、第6の取得モジュールと、第1のトレーニングモジュールとを介してトレーニングすることによって得られる。
第3の取得モジュールは、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得することに用いられる。
第5の取得モジュールは、複数のサンプル文字及びサンプル文字情報に基づいて、サンプル文字全接続図を生成することに用いられる。
第6の取得モジュールは、隠された位置の予測文字を生成するために、サンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を空間言語モデルに入力して予測を行うことに用いられる。
第1のトレーニングモジュールは、隠された位置のサンプル文字及び予測文字に基づいて空間言語モデルをトレーニングすることに用いられる。
本出願の実施例の可能な一実現形態では、第3の生成モジュール650は、複数の文字接続辺の辺タイプを生成するために、複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力することに用いられる。
本出願の実施例の可能な一実現形態では、辺タイプ認識モデルは、以下の第3の取得モジュールと、第5の生成モジュールと、第4の取得モジュールと、第7の生成モジュールと、第2のトレーニングモジュールとを介してトレーニングすることによって得られる。
第3の取得モジュールは、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得することに用いられる。
第5の生成モジュールは、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成することに用いられる。
第4の取得モジュールは、各サンプル文字のサンプル空間語義特徴を取得することに用いられる。
第7の生成モジュールは、隠された位置の予測辺タイプを生成するために、サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及びサンプル空間語義特徴を辺タイプ認識モデルに入力して予測を行うことに用いられる。
第2のトレーニングモジュールは、隠された位置のサンプル文字接続辺タイプ及び予測辺タイプに基づいて辺タイプ認識モデルをトレーニングすることに用いられる。
本出願の実施例の可能な一実現形態では、第1の取得モジュール610は、対象文書内の複数の文字を取得するために、対象文書を文字検出モデルに入力することに用いられる。
本出願の実施例の可能な一実現形態では、文字検出モデルは、以下の第3の取得モジュールと、第5の生成モジュールと、追加モジュールと、第8の生成モジュールと、第3のトレーニングモジュールとを介してトレーニングすることによって得られる。
第3の取得モジュールは、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得することに用いられる。
第5の生成モジュールは、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成することに用いられる。
追加モジュールは、サンプル文字全接続図内の複数の文字頂点のうちの一部の文字頂点にランダム外乱を追加することに用いられる。
第8の生成モジュールは、予測文字を生成するために、ランダム外乱が追加された後のサンプル文字全接続図を文字検出モデルに入力して文字予測を行うことに用いられる。
第3のトレーニングモジュールは、予測文字及びサンプル文書内のサンプル文字に基づいて文字検出モデルをトレーニングすることに用いられる。
なお、文書レイアウト解析方法の実施例についての上記説明は、当該文書レイアウト解析装置にも適用されるため、ここでは説明を省略する。
本出願の実施例に係る文書レイアウト解析方法は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図13に示すように、本出願の実施例に係る文書レイアウト解析方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図13に示すように、当該電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェース及び低速インターフェースを含む、各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図13では、1つのプロセッサ701を例とする。
メモリ702は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願に係る文書レイアウト解析方法を実行できるように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願に係る文書レイアウト解析方法を実行させるためのコンピュータ命令が記憶されている。
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係る文書レイアウト解析方法に対応するプログラム命令/モジュール(例えば、図12に示す第1の取得モジュール610と、第1の生成モジュール620と、第2の取得モジュール630と、第2の生成モジュール640と、第3の生成モジュール650と、第4の生成モジュール660)などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶することに用いられる。プロセッサ701は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例に係る文書レイアウト解析方法を実現する。
メモリ702は、プログラム記憶領域とストレージデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して文書レイアウト解析方法を実行電子機器に接続することができる。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
文書レイアウト解析方法を実行する電子機器は、入力装置703と出力装置704とをさらに含むことができる。プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バス又は他の方式を介して接続することができ、図13では、バスを介して接続することを例とする。
入力装置703は、入力された数字又はキャラクタ情報を受信し、多義語の翻訳のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含んでもよく、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般的に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。
本出願の実施例の技術案によれば、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。
本明細書の説明において、「第1」、「第2」という用語は、説明するためのものであり、相対的重要性又は指示された技術特徴の数量と指示又は暗示するものではないので、本発明を限定するものと理解してはいけない。また、「第1」、「第2」が限定されている特徴は、1つ又はより多くの該特徴を含むことを明示又は暗示するものである。本発明の説明において、他の説明がない限り、「複数」(例えば、3つなど)は、2つ以上を意味する。
以上は本出願の実施例を示しかつ説明したにもかかわらず、それらは例示的なものに過ぎず、限定的なものとして理解すべきではない。当業者は、本出願の範囲を逸脱しない限り、様々な変更、修正、置換及び変形を行うことができる。

Claims (17)

  1. 文書レイアウト解析方法であって、
    対象文書内の複数の文字及び前記複数の文字の文字情報を取得するステップと、
    前記複数の文字及び前記複数の文字の文字情報に基づいて、複数の文字頂点及び前記複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成するステップと、
    各前記文字の空間語義特徴を取得するステップと、
    前記複数の文字の文字情報に基づいて前記複数の文字頂点の頂点タイプを生成するステップと、
    前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するステップと、
    前記頂点タイプ及び前記辺タイプに基づいて、対象文書の文書レイアウトを生成するステップと、を含む、
    ことを特徴とする文書レイアウト解析方法。
  2. 各文字の空間語義特徴を取得するステップは、
    前記各文字の空間語義特徴を生成するために、前記複数の文字を空間言語モデルに入力するステップを含む、
    ことを特徴とする請求項1に記載の文書レイアウト解析方法。
  3. 前記空間言語モデルは、
    サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得するステップと、
    前記複数のサンプル文字及び前記サンプル文字情報に基づいて、サンプル文字全接続図を生成するステップと、
    隠された位置の予測文字を生成するために、前記サンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を前記空間言語モデルに入力して予測を行うステップと、
    前記隠された位置のサンプル文字及び前記予測文字に基づいて、前記空間言語モデルをトレーニングするステップと、を介してトレーニングすることによって得られる、
    ことを特徴とする請求項2に記載の文書レイアウト解析方法。
  4. 前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するステップは、
    前記複数の文字接続辺の辺タイプを生成するために、前記複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力するステップを含む、
    ことを特徴とする請求項1に記載の文書レイアウト解析方法。
  5. 前記辺タイプ認識モデルは、
    サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するステップと、
    前記複数のサンプル文字及び前記サンプル文字情報に基づいてサンプル文字全接続図を生成するステップと、
    各前記サンプル文字のサンプル空間語義特徴を取得するステップと、
    隠された位置の予測辺タイプを生成するために、前記サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及び前記サンプル空間語義特徴を前記辺タイプ認識モデルに入力して予測を行うステップと、
    前記隠された位置のサンプル文字接続辺タイプ及び前記予測辺タイプに基づいて、前記辺タイプ認識モデルをトレーニングするステップと、を介してトレーニングすることによって得られる
    ことを特徴とする請求項4に記載の文書レイアウト解析方法。
  6. 対象文書内の複数の文字を取得するステップは、
    前記対象文書内の前記複数の文字を取得するために、前記対象文書を文字検出モデルに入力するステップを含む、
    ことを特徴とする請求項1に記載の文書レイアウト解析方法。
  7. 前記文字検出モデルは、
    サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するステップと、
    前記複数のサンプル文字及び前記サンプル文字情報に基づいてサンプル文字全接続図を生成するステップと、
    前記サンプル文字全接続図内の複数の文字頂点のうちの一部の文字頂点にランダム外乱を追加するステップと、
    予測文字を生成するために、ランダム外乱が追加された後の前記サンプル文字全接続図を前記文字検出モデルに入力して文字予測を行うステップと、
    前記予測文字及び前記サンプル文書内のサンプル文字に基づいて前記文字検出モデルをトレーニングするステップと、を介してトレーニングすることによって得られる、
    ことを特徴とする請求項6に記載の文書レイアウト解析方法。
  8. 文書レイアウト解析装置であって、
    対象文書内の複数の文字及び前記複数の文字の文字情報を取得するための第1の取得モジュールと、
    前記複数の文字及び前記複数の文字の文字情報に基づいて、複数の文字頂点及び前記複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成するための第1の生成モジュールと、
    各前記文字の空間語義特徴を取得するための第2の取得モジュールと、
    前記複数の文字の文字情報に基づいて前記複数の文字頂点の頂点タイプを生成するための第2の生成モジュールと、
    前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するための第3の生成モジュールと、
    前記頂点タイプ及び前記辺タイプに基づいて、対象文書の文書レイアウトを生成するための第4の生成モジュールと、を含む
    ことを特徴とする文書レイアウト解析装置。
  9. 前記第2の取得モジュールは、前記各文字の空間語義特徴を生成するために、前記複数の文字を空間言語モデルに入力することに用いられる、
    ことを特徴とする請求項8に記載の文書レイアウト解析装置。
  10. 前記空間言語モデルは、
    サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するための第3の取得モジュールと、
    前記複数のサンプル文字及び前記サンプル文字情報に基づいて、サンプル文字全接続図を生成するための第5の取得モジュールと、
    隠された位置の予測文字を生成するために、前記サンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を前記空間言語モデルに入力して予測を行うための第6の取得モジュールと、
    前記隠された位置のサンプル文字及び前記予測文字に基づいて、前記空間言語モデルをトレーニングするための第1のトレーニングモジュールと、を介してトレーニングすることによって得られる、
    ことを特徴とする請求項9に記載の文書レイアウト解析装置。
  11. 前記第3の生成モジュールは、前記複数の文字接続辺の辺タイプを生成するために、前記複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力することに用いられる、
    ことを特徴とする請求項8に記載の文書レイアウト解析装置。
  12. 前記辺タイプ認識モデルは、
    サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するための第3の取得モジュールと、
    前記複数のサンプル文字及び前記サンプル文字情報に基づいてサンプル文字全接続図を生成するための第5の生成モジュールと、
    各前記サンプル文字のサンプル空間語義特徴を取得するための第4の取得モジュールはと、
    隠された位置の予測辺タイプを生成するために、前記サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及び前記サンプル空間語義特徴を前記辺タイプ認識モデルに入力して予測を行うための第7の生成モジュールと、
    前記隠された位置のサンプル文字接続辺タイプ及び前記予測辺タイプに基づいて、前記辺タイプ認識モデルをトレーニングするための第2のトレーニングモジュールと、を介してトレーニングすることによって得られる、
    ことを特徴とする請求項11に記載の文書レイアウト解析装置。
  13. 前記第1の取得モジュールは、前記対象文書内の前記複数の文字を取得するために、前記対象文書を文字検出モデルに入力することに用いられる、
    ことを特徴とする請求項8に記載の文書レイアウト解析装置。
  14. 前記文字検出モデルは、
    サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するための第3の取得モジュールと、
    前記複数のサンプル文字及び前記サンプル文字情報に基づいてサンプル文字全接続図を生成するための第5の生成モジュールと、
    前記サンプル文字全接続図内の複数の文字頂点のうちの一部の文字頂点にランダム外乱を追加するための追加モジュールと、
    予測文字を生成するために、ランダム外乱が追加された後の前記サンプル文字全接続図を前記文字検出モデルに入力して文字予測を行うための第8の生成モジュールと、
    前記予測文字及び前記サンプル文書内のサンプル文字に基づいて、前記文字検出モデルをトレーニングするための第3のトレーニングモジュールと、を介してトレーニングすることによって得られる、
    ことを特徴とする請求項13に記載の文書レイアウト解析装置。
  15. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが、前記少なくとも1つのプロセッサによって実行される場合、請求項1〜7のいずれかに記載の文書レイアウト解析方法を実行させる、
    ことを特徴とする電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1〜7のいずれかに記載の文書レイアウト解析方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータ上で動作しているときに、請求項1〜7のいずれかに記載の文書レイアウト解析方法を前記コンピュータに実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021089265A 2020-06-01 2021-05-27 文書レイアウト解析方法、装置、電子機器及び記憶媒体 Active JP7203897B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010484261.0A CN111832396B (zh) 2020-06-01 2020-06-01 文档布局的解析方法、装置、电子设备和存储介质
CN202010484261.0 2020-06-01

Publications (2)

Publication Number Publication Date
JP2021131900A true JP2021131900A (ja) 2021-09-09
JP7203897B2 JP7203897B2 (ja) 2023-01-13

Family

ID=72897498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021089265A Active JP7203897B2 (ja) 2020-06-01 2021-05-27 文書レイアウト解析方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US11462039B2 (ja)
EP (1) EP3920076A1 (ja)
JP (1) JP7203897B2 (ja)
KR (1) KR20210065076A (ja)
CN (1) CN111832396B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611499A (zh) * 2020-12-09 2022-06-10 阿里巴巴集团控股有限公司 信息抽取模型训练方法、信息抽取方法、装置和电子设备
CN112579727B (zh) * 2020-12-16 2022-03-22 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质
US20230008868A1 (en) * 2021-07-08 2023-01-12 Nippon Telegraph And Telephone Corporation User authentication device, user authentication method, and user authentication computer program
CN113657088A (zh) * 2021-08-16 2021-11-16 北京百度网讯科技有限公司 接口文档解析方法、装置、电子设备以及存储介质
CN113836268A (zh) * 2021-09-24 2021-12-24 北京百度网讯科技有限公司 文档理解方法及装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136491A1 (en) * 2004-12-22 2006-06-22 Kathrin Berkner Semantic document smartnails
WO2007080642A1 (ja) * 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置
US20080317337A1 (en) * 2007-06-25 2008-12-25 Yizhou Wang System and method for decomposing a digital image

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4940973B2 (ja) * 2007-02-02 2012-05-30 富士通株式会社 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置
CN109800761B (zh) * 2019-01-25 2022-11-11 厦门商集网络科技有限责任公司 基于深度学习模型创建纸质文档结构化数据的方法和终端
US11113518B2 (en) * 2019-06-28 2021-09-07 Eygs Llp Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060136491A1 (en) * 2004-12-22 2006-06-22 Kathrin Berkner Semantic document smartnails
WO2007080642A1 (ja) * 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置
US20080317337A1 (en) * 2007-06-25 2008-12-25 Yizhou Wang System and method for decomposing a digital image

Also Published As

Publication number Publication date
CN111832396B (zh) 2023-07-25
EP3920076A1 (en) 2021-12-08
JP7203897B2 (ja) 2023-01-13
US20210374397A1 (en) 2021-12-02
US11462039B2 (en) 2022-10-04
KR20210065076A (ko) 2021-06-03
CN111832396A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
JP2021131900A (ja) 文書レイアウト解析方法、装置、電子機器及び記憶媒体
JP7073241B2 (ja) 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
JP7299939B2 (ja) テーブル認識方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
EP3570208A1 (en) Two-dimensional document processing
US8850310B2 (en) Data entry suggestion lists for designated document data entry areas based on data from other document data entry areas
JP7179123B2 (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
JP2018190188A (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
JP7164651B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム製品
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
US11763583B2 (en) Identifying matching fonts utilizing deep learning
JP2021192289A (ja) 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体
EP3855341A1 (en) Language generation method and apparatus, electronic device and storage medium
KR102052606B1 (ko) 주의 기반 인공 신경망 기계 번역의 상호작용 시각화와 조작을 위한 방법 및 시스템
JP6529698B2 (ja) データ分析装置およびデータ分析方法
WO2023183096A1 (en) Self-supervised system for learning a user interface language
JP6623885B2 (ja) オントロジー処理装置及びプログラム
KR20160003155A (ko) 내결함성 입력 방법 편집기
KR102424342B1 (ko) 섬네일 이미지 생성 방법 및 장치
US20230282013A1 (en) Automated key-value pair extraction
KR101784280B1 (ko) Gui 테스트 자동화 시스템 및 방법
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
US20240330592A1 (en) Information processing apparatus, information processing method, and information processing program
US20240249186A1 (en) Systems and methods for using contrastive pre-training to generate text and code embeddings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221227

R150 Certificate of patent or registration of utility model

Ref document number: 7203897

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150