JP2021131900A

JP2021131900A - 文書レイアウト解析方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2021131900A
Application number: JP2021089265A
Authority: JP
Inventors: カイツェン; Kai Zeng; ファル; Hua Lu; チウペン; Yiyu Peng
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2021-05-27
Publication date: 2021-09-09
Anticipated expiration: 2041-05-27
Also published as: CN111832396B; EP3920076A1; JP7203897B2; US20210374397A1; US11462039B2; KR20210065076A; CN111832396A

Abstract

【課題】情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させることができる文書レイアウト解析方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、最後に頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。【選択図】図１

Description

本出願は、コンピュータ技術の分野に関し、具体的には、自然言語処理、深層学習技術の分野に関し、特に、文書レイアウト解析方法、装置、電子機器及び記憶媒体に関する。

レイアウト解析は、文書のコンテンツを理解するために不可欠の一歩であり、多くの後続タスクも正確なレイアウト解析を基礎にして構築される。例えば、文書が左右の欄であることを知ってこそ正しい文字列が得られ、文書の特定の領域がテーブルであることやセル間の関係を知ってこそテーブルのコンテンツを正確に理解することができる。
以上からわかるように、文書のレイアウトをどのように正確に解析するのは決定的に重要である。

本出願は、文書レイアウトを正確に生成するための文書レイアウト解析方法、装置、電子機器及び記憶媒体を提供する。

第１の態様によれば、
対象文書内の複数の文字及び前記複数の文字の文字情報を取得するステップと、
前記複数の文字及び前記複数の文字の文字情報に基づいて、複数の文字頂点及び前記複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成するステップと、
各前記文字の空間語義特徴を取得するステップと、
前記複数の文字の文字情報に基づいて前記複数の文字頂点の頂点タイプを生成するステップと、
前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するステップと、
前記頂点タイプ及び前記辺タイプに基づいて、対象文書の文書レイアウトを生成するステップと、を含む文書レイアウト解析方法を提供する。

本出願の実施例に係る文書レイアウト解析方法は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、最後に頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。

第２の態様によれば、
対象文書内の複数の文字及び前記複数の文字の文字情報を取得するための第１の取得モジュールと、
前記複数の文字及び前記複数の文字の文字情報に基づいて、複数の文字頂点及び前記複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成するための第１の生成モジュールと、
各前記文字の空間語義特徴を取得するための第２の取得モジュールと、
前記複数の文字の文字情報に基づいて前記複数の文字頂点の頂点タイプを生成するための第２の生成モジュールと、
前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するための第３の生成モジュールと、
前記頂点タイプ及び前記辺タイプに基づいて、対象文書の文書レイアウトを生成するための第４の生成モジュールと、を含む文書レイアウト解析装置を提供する。

本出願の実施例に係る文書レイアウト解析装置は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。

第３の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが、上記実施例に記載の文書レイアウト解析方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、
前記コンピュータ命令は、前記コンピュータに上記実施例に記載の文書レイアウト解析方法を実行させることに用いられる。

第５の態様によれば、コンピュータプログラムを提供し、
前記コンピュータプログラムは、コンピュータ上で動作するときに、前記コンピュータに上記実施例に記載の文書レイアウト解析方法を実行させることに用いられる。

本出願の実施例によれば、
文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。
上記選択可能の態様の別の利点については、以下、具体的な実施例を参照して詳細に説明する。

図面は、本技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
本出願の実施例に係る文書レイアウト解析方法のフローチャートである。本出願の実施例に係る文字全接続図を取得するフローチャートである。本出願の実施例に係る辺タイプの概略図１である。本出願の実施例に係る辺タイプの概略図２である。本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。本出願の実施例に係る隠し文字の概略図である。本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。本出願の実施例に係る隠し接続辺の概略図である。本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。本出願の実施例に係るランダム外乱を追加する概略図である。本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。本出願の実施例に係る文書レイアウト解析装置の構成図である。本出願の実施例に係る文書レイアウト解析方法を実施可能な電子機器のブロック図である。

以下、図面を参照して本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構成の説明を省略する。
本出願の実施例に係る文書レイアウト解析方法、装置、電子機器及び記憶媒体について、図面を参照して以下に説明する。

本出願の実施例に係る文書レイアウト解析方法は、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。

図１は、本出願の実施例に係る文書レイアウト解析方法のフローチャートである。
本出願の実施例に係る文書レイアウト解析方法は、本出願の実施例に係る文書レイアウト解析装置によって実行可能であり、当該文書レイアウト解析装置は、文字情報、語義情報、空間位置情報を有効に利用して文書レイアウトを解析するように電子機器に配置されている。

図１に示すように、当該文書レイアウト解析方法は、以下ステップ１０１〜ステップ１０６を含む。
ステップ１０１において、対象文書内の複数の文字及び複数の文字の文字情報を取得する。

本実施例では、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学式文字認識）によりレイアウトを解析する必要がある文書内の文字を認識することができる。ここで説明を容易にするために、文書レイアウト解析対象を対象文書という。

具体的には、対象文書の画像を取得した後、画像をＯＣＲ認識し、対象文書内の複数の文字及び複数の文字の文字情報を取得する。ここで、文字は、字、句読点、テーブルなどであってもよく、文字情報には、文字の大きさ、文字の位置などの情報を含み、文字の位置は、現在の文書ページにおける文字の位置であり、例えば、行、行の何番目の文字などであってもよく、画像の中の文字の画素点位置であってもよい。

ステップ１０２において、複数の文字及び複数の文字の文字情報に基づいて、複数の文字頂点及び複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成する。

本実施例では、取得した複数の文字と複数の文字の大きさ、位置などの情報に基づいて、二次元平面の文字全接続図を取得する。具体的には、文字を定点とし、文字と文字との間の接続線を辺とすることで、文字全接続図を取得することができる。ここで、文字全接続図には、複数の文字頂点及び複数の文字頂点間の複数の文字接続辺を含む。

図２は、本出願の実施例に係る文字全接続図を取得するフローチャートである。
図２では、文書を読み取り、文書から複数の文字Ｃ１、Ｃ２、…、Ｃａ、Ｃ３、Ｃ４、…、Ｃｂ、…、Ｃｘ、Ｃｙ、…、Ｃｚを取得し、複数の文字を接続して接続辺を取得する。図２において文字Ｃ１を例としてＣ１と他の文字との間の文字接続辺を示し、すなわち、図２の中の双方向矢印点線である。

ステップ１０３において、各前記文字の空間語義特徴を取得する。

語義情報を有効に利用するために、本実施例では、各文字の空間語義特徴を取得する。空間語義特徴は、空間語義情報に対して特徴を抽出して取得することができる。ここで、空間語義情報とは、二次元空間平面上の文字が表す語義情報である。

ステップ１０４において、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成する。

本実施例では、文字の位置などの複数の文字の文字情報に基づいて、各文字頂点の頂点タイプを決定することができ、頂点タイプは、文書内の文字の空間位置情報を示すために使用することができる。

本実施例では、文字頂点の頂点タイプは、セル先頭、セル末尾、行先頭、行末尾、段落先頭、段落末尾、ブロック先頭、ブロック末尾、欄先頭、欄末尾などを含むことができる。例えば、文字は、１行文字の先頭であれば、頂点タイプが行先頭とし、文字は、１行文字の最後の１つの文字であれば、頂点タイプが行末尾とし、文書の一欄の一番目文字であれば、その頂点タイプが欄先頭とし、一欄の最後の１つの文字であれば、その頂点タイプが欄末尾とする。

なお、いくつかの文字頂点は、同時に複数の頂点タイプである可能性がある。例えば、ある文字が一行の一番目文字であり、一段落の一番目文字でもあれば、頂点タイプが行先頭と段落先頭とする。

文字頂点の頂点タイプを決定する際に、予めトレーニングされた頂点タイプ認識モデルを用いて複数の文字の頂点タイプを決定することができる。具体的には、対象文書内の複数の文字の文字情報を頂点タイプ認識モデルに入力し、当該頂点タイプ認識モデルを用いて各文字頂点を二分類し、二分類の結果に基づいて文字頂点の頂点タイプを決定する。

二分類とは、２つのカテゴリの分類タスクであり、一般的に、二分類タスクと呼ばれる。例えば、セル、行、段落、ブロック、欄の５種類のカテゴリがあり、各カテゴリには、先頭と末尾の２つの細分類があるため、１０種類カテゴリの分類である。認識時に、当該１０種類のカテゴリのうちの１つであるか否かをそれぞれ判別する必要があるため、１０種類カテゴリのうちのそれぞれも二分類されたものであり、これらの１０種類カテゴリでなかれば別のカテゴリと認識する。例えば、ある文字頂点は、頂点タイプ認識モデルからセル先頭ではなく、セル末尾ではなく、段落先頭であり、段落末尾ではなく、ブロック先頭ではなく、ブロック末尾ではなく、欄先頭であり、欄末尾ではないことを出力すると、当該文字頂点の頂点タイプが段落先頭と欄先頭であることが得られる。

ステップ１０５において、空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成する。

空間語義特徴は、文字の語義特徴を表し、文字情報は、対象文書内の文字の大きさ、位置などの情報であるため、空間位置情報を有効に利用するためには、空間語義特徴と、複数の文字の文字情報に基づいて、文字と文字との間の位置情報を取得することができ、このような情報は、文字接続辺の辺タイプで表することができる。

ここで、文字接続辺の辺タイプは、先後順序接続辺、セル先頭末尾接続辺、行先頭末尾接続辺、段落先頭末尾接続辺、ブロック先頭末尾接続辺、欄先頭末尾接続辺などを含む。

図３は、本出願の実施例に係る辺タイプの概略図１である。図３に、閲読先後順序の辺タイプを示す。図４は、本出願の実施例に係る辺タイプの概略図２である。図４に、行先頭末尾、段落先頭末尾、欄先頭末尾という３つの辺タイプを示す。ここで、Ｃ１とＣａとの間の文字接続辺の辺タイプは、行先頭末尾接続辺であり、Ｃ１とＣｂとの間の文字接続辺の辺タイプは、段落先頭末尾接続辺であり、Ｃ１とＣｚとの間の文字接続辺の辺タイプは、欄先頭末尾接続辺である。ここで、双方向矢印は、文字間の二つの方向の結合確率を利用したことを表す。

ステップ１０６において、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。

本実施例では、各文字頂点の頂点タイプ及び文字接続辺の辺タイプを取得した後、頂点タイプ及び辺タイプに基づいて対象文書の文書レイアウトを生成することができ、具体的には、予め設定されたルールに基づいて文書レイアウトを生成することができる。例えば、まず、欄先頭と欄末尾、及び欄先頭末尾接続辺に基づいて、当該欄が占める領域を決定し、当該欄が占める領域を文書の一部とすることができる。その後、段落先頭と段落末尾、及び段落先頭末尾接続辺である頂点タイプに基づいて、段落が存在する領域を決定し、欄の中の各段落の領域を決定する。

または、予めトレーニングされた文書レイアウト生成モデルを用いて対象文書の文書レイアウトを生成する。具体的には、文字全接続図内の各文字頂点の頂点タイプと各接続辺の辺タイプを文書対象生成モデルに入力し、文書レイアウト生成モデルは、対応する文書レイアウトを出力する。

本実施例では、これらの文字情報、空間語義情報、辺タイプ空間位置情報を有効に利用することで、文書レイアウトを総合的に判断し、グローバルから最適化にする。

例えば、左右の欄の文書では、左の欄のある文字を取得する際に、右の欄のコンテキストを使用することなく、或いは右の欄のコンテキスト使用量を減らし、左の欄のコンテキストだけで、或いは左の欄のコンテキスト使用量を増加して、欄の情報を総合して文字を決定することができる。

本出願の実施例では、取得した対象文書の複数の文字及び複数の文字の文字情報に基づいて文字全接続図を生成し、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成し、取得した空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成し、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。これにより、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。

文書レイアウト解析の正確さを向上させるために、本出願の一実施例では、上述した各文字の空間語義特徴を取得する際に、モデルを用いて空間語義特徴を抽出することも可能である。

具体的には、対象文書の複数の文字を予め構築された空間言語モデルに入力し、空間言語モデルを用いて各文字の空間語義特徴を取得する。具体的には、空間言語モデルは、周囲の隣接文字に基づいて各文字の語義特徴を取得する。

本出願の実施例では、各文字の空間語義特徴を取得する際に、各文字の空間語義特徴を生成するために、複数の文字を空間言語モデルに入力することができる。これにより、空間言語モデルを用いて空間語義特徴と複数の文字の文字情報を取得することで、生成される辺タイプの正確さが高く、辺タイプに基づいて取得される文書レイアウトの正確さが向上する。

本出願の一実施例では、図５に示される方法でトレーニングすることによって空間言語モデルを得ることができる。図５は、本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。

図５に示すように、上述した空間言語モデルは、以下のステップ２０１〜ステップ２０４でトレーニングすることによって得られる。

ステップ２０１において、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得する。

本実施例では、サンプル文字は、ｗｏｒｄ文書、テキスト文書、ウェブページなどであってもよい。サンプル文書は、文字、画像、表などの少なくとも１つのタイプが含まれる。

本実施例では、様式ランダム生成と文字パディングの形式により、大量のサンプル文書を取得してもよいし、レイアウト制御形式により、大量のレイアウト様式を生成してもよいし、文字の方向、余白、段落の間隔、行の間隔、文字の間隔などを制御することにより、様々なパディング効果を得てもよいし、大量のテキストをパディングすることで、大量の教師なしトレーニングデータを取得してもよい。

ステップ２０２において、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成する。

ここでのステップ２０１〜ステップ２０２の複数のサンプル文字とサンプル文字情報を取得する処理は、上述したステップ１０１〜ステップ１０２の対象文書内の文字と文字の文字情報を取得する処理と同様であるため、説明を省略する。

ステップ２０３において、隠された位置の予測文字を生成するために、サンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を空間言語モデルに入力して予測を行う。

本実施例では、一部分の文字を未知の文字に置き換えたり、他の文字に修正したりするなど、サンプル文字全接続図内の一部サンプル文字を隠すことができる。その後、隠されたサンプル文字全接続図を空間言語モデルに入力して予測し、空間言語モデルは、サンプル文字全接続図内の隠されていない文字に基づいて、隠された位置を予測する予測文字を出力する。

図６は、本出願の実施例に係る隠し文字の概略図である。図６では、文字全接続図内の文字Ｃ４を未知の「ＵＮＫ」文字に修正し、Ｃｂをそのまま保持し、ＣｙをＣｗの任意の文字に修正する。

ステップ２０４において、隠された位置のサンプル文字及び予測文字に基づいて空間言語モデルをトレーニングする。

本実施例では、隠された位置のサンプル文字及び予測文字に基づいて損失値を算出し、損失値が予め設定された第１の損失閾値より大きい場合、空間言語モデルのパラメータを調整する。その後、次のサンプル文書の一部のサンプル文字を隠した後のサンプル文字全接続図を調整された空間言語モデルに入力する。その後、隠された位置のサンプル文字及び予測文字に基づいて損失値を算出し、損失値が第１の損失閾値より大きいかどうかを判断し、第１の損失閾値よりも大きければ、損失値が第１の損失閾値より小さくなるまで、モデルのパラメータを調整してトレーニングを続ける。

これにより、何らかの文字を隠しても、トレーニングにより得られた空間言語モデルは、周囲の文字に基づいてこれらの文字を予測することができる。

本出願の実施例では、サンプル文書に対応するサンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を空間言語モデルに入力して予測を行うことにより、隠された位置の予測文字を生成し、隠された位置のサンプル文字及び予測文字に基づいて空間言語モデルをトレーニングする。これにより、サンプル文字の一部を隠した後のサンプル全接続図によりトレーニングを行うことで、トレーニングにより得られた空間言語モデルが、ある位置の周囲の文字に基づいて当該位置の文字を予測することが可能になる。

レイアウト解析の正確さを向上させるために、本出願の一実施例では、空間語義特徴及び文字情報に基づいて複数の文字接続辺の辺タイプを生成する際に、辺タイプ認識モデルを用いて、各文字接続辺の辺タイプを取得することも可能である。

具体的には、複数の文字の空間語義特徴及び文字情報を予めトレーニングされた辺タイプ認識モデルに入力し、当該辺タイプ認識モデルは、空間語義特徴、及び抽出された文字情報の特徴に基づいて、各文字接続辺を二分類し、予め定義された何種類の接続辺タイプであるか否かを出力し、出力結果によって、接続辺タイプを決定することができる。

例えば、先後順序、セル先頭末尾、行先頭末尾、段落先頭末尾、ブロック先頭末尾、欄先頭末尾の計６種類のカテゴリがある。認識時に、これらの６種類のカテゴリにおける各１つであるか否かをそれぞれ判断し、そうでなければ、別のカテゴリと認識する必要がある。

本出願の実施例では、空間語義特徴及び文字情報に基づいて複数の文字接続辺の辺タイプを生成する際に、複数の文字接続辺の辺タイプを生成するために、複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力する。これにより、辺タイプ認識モデルを用いて得られた文字接続辺の辺タイプを用いて、頂点タイプを結合して文書レイアウトを生成し、文書レイアウト解析の正確さを大幅に向上させることができる。

本出願の一実施例では、図７に示される方法でトレーニングすることによって辺タイプ認識モデルを得ることができる。図７は、本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。

図７に示すように、上述した辺タイプ認識モデルは、以下のステップ３０１〜ステップ３０５でトレーニングすることによって得られる。

ステップ３０１において、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得する。

ステップ３０２において、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成する。
ここでのステップ３０１〜ステップ３０２の処理は、上述したステップ２０１〜ステップ２０２の処理と同様であるため、説明を省略する。

ステップ３０３において、各サンプル文字のサンプル空間語義特徴を取得する。
本実施例では、各サンプル文字のサンプル空間語義特徴を取得するために、サンプル文字を空間言語モデルに入力することができる。

ステップ３０４において、隠された位置の予測辺タイプを生成するために、サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及びサンプル空間語義特徴を辺タイプ認識モデルに入力して予測を行う。

本実施例では、サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、例えば、サンプル文字接続辺の一部を未知の辺などに置き換えてもよい。その後、隠されたサンプル文字全接続図及びサンプル文字のサンプル空間語義特徴を辺タイプ認識モデルに入力して予測し、辺タイプ認識モデルは、サンプル文字全接続図内の隠されていないサンプル文字接続辺に基づいて、予測された予測接続辺を出力する。

図８は、本出願の実施例に係る隠し接続辺の概略図である。図８では、文字全接続図にて接続辺の一部を修正した。図８の点線に示すように、Ｃ１からＣａ、Ｃ１からＣ４、Ｃ１からＣｘの辺を未知の「ＵＮＫ」辺に修正した。

ステップ３０５において、隠された位置のサンプル文字接続辺タイプ及び予測辺タイプに基づいて、辺タイプ認識モデルをトレーニングする。

本実施例では、隠された位置のサンプル文字接続辺タイプ及び予測辺タイプに基づいて損失値を算出し、損失値が予め設定された第２の損失閾値より大きい場合、辺タイプ認識モデルのパラメータを調整する。その後、次のサンプル文書の一部のサンプル文字を隠した後のサンプル文字全接続図を調整された辺タイプ認識モデルに入力する。その後、隠された位置のサンプル文字接続辺タイプ及び予測辺タイプに基づいて損失値を算出し、損失値が第２の損失閾値より大きいかどうかを判断し、第２の損失閾値よりも大きければ、損失値が第２の損失閾値より小さくなるまで、モデルのパラメータを調整してトレーニングを続ける。

本出願の実施例では、サンプル文書に対応するサンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及びサンプル空間語義特徴を辺タイプ認識モデルに入力して予測を行うことにより、隠された位置の予測辺タイプを生成する。これにより、サンプル文字接続辺の一部を隠した後のサンプル全接続図によりトレーニングを行うことで、トレーニングにより得られた辺タイプ認識モデルが、隠されたサンプル文字接続辺の辺タイプを予測することが可能になる。

レイアウト解析の正確さを向上させるために、本出願の一実施例では、対象文書内の複数の文字を取得する際に、文字検出モデルを用いて複数の文字を検出することも可能である。

具体的には、画像視覚情報を有効に利用するために、対象文書の画像を予めトレーニングされた文字検出モデルに入力し、文字検出モデルが対象文書内の複数の文字を出力する。

本出願の実施例では、対象文書内の複数の文字を取得する際に、対象文書内の複数の文字を取得するために、対象文書を文字検出モデルに入力する。これにより、文字検出モデルを用いて得られた複数の文字を用いて、複数の文字に基づいて文書レイアウトを生成し、文書レイアウト解析の正確さを大幅に向上させることができる。

本出願の一実施例では、図９に示される方法でトレーニングすることによって文字検出モデルを得ることができる。図９は、本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。

図９に示すように、上述した文字検出モデルは、以下のステップ４０１〜ステップ４０５でトレーニングすることによって得られる。

ステップ４０１において、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得する。

ステップ４０２において、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成する。

ここでのステップ４０１〜ステップ４０２の処理は、上述したステップ２０１〜ステップ２０２の処理と同様であるため、説明を省略する。

ステップ４０３において、サンプル文字全接続図内の複数の文字頂点のうちの一部の文字頂点にランダム外乱を追加する。

本実施例では、サンプル文字全接続図から一部分の文字頂点を選択し、文字の大きさを変更したり、文字の位置を調整したりするなど、これらの文字頂点にランダム外乱を追加することが可能である。

図１０は、本出願の実施例に係るランダム外乱を追加する概略図である。図１０では、文字全接続図内の一部の文字頂点にランダム外乱を追加する。具体的には、Ｃ１、Ｃ２、 …、Ｃａの位置を調整し、Ｃ３，Ｃ４，…，Ｃｂの大きさを調整し、Ｃｘ及びＣｙの位置と大きさを調整し、文字Ｃｚ及び他の文字はそのまま保持した。

ステップ４０４において、予測文字を生成するために、ランダム外乱が追加された後のサンプル文字全接続図を文字検出モデルに入力して文字予測を行う。

本実施例では、ランダム外乱が追加された後のサンプル文字全接続図を予めトレーニングされた文字検出モデルに入力し、文字検出モデルを用いて予測文字の位置及び大きさなどを含む予測文字を生成する。

ステップ４０５において、予測文字及びサンプル文書内のサンプル文字に基づいて、文字検出モデルをトレーニングする。

本実施例では、各予測文字と、サンプル文書内の相応する位置のサンプル文字に基づいて、各サンプル文字の損失値を算出し、且つ全てのサンプル文字の平均損失値を算出する。
平均損失値が予め設定された第３の損失閾値より大きい場合、文字検出モデルのパラメータを調整する。その後、次のサンプル文書のランダム外乱が追加された後のサンプル文字全接続図を調整された文字検出モデルに入力する。その後、予測文字及びサンプル文書内のサンプル文字に基づいて平均損失値を算出し、平均損失値が第３の損失閾値より大きいかどうかを判断し、第３の損失閾値よりも大きければ、損失値が第３の損失閾値より小さくなるまで、モデルのパラメータを調整してトレーニングを続ける。

本出願の実施例では、予測文字を生成するために、ランダム外乱が追加された後のサンプル文書のサンプル文字全接続図を文字検出モデルに入力し、文字予測を行い、予測文字及びサンプル文書内のサンプル文字に基づいて、文字検出モデルをトレーニングする。これにより、ランダム外乱が追加された後のサンプル文字全接続図によりトレーニングを行うことで、トレーニングにより得られた文字検出モデルが、各文字の精確位置を予測することが可能になる。

本出願の実施例では、文書レイアウト解析を行う際に、上述した３種類のモデルを利用することができ、以下、図１１を参照して説明する。図１１は、本出願の実施例に係る別の文書レイアウト解析方法のフローチャートである。
図１１に示すように、当該文書レイアウト解析方法は、以下ステップ５０１〜ステップ５０６を含む。

ステップ５０１において、対象文書内の複数の文字及び複数の文字の文字情報を取得するために、対象文書を文字検出モデルに入力する。

本実施例では、対象文書内の複数の文字及び位置、大きさなどの複数の文字の文字情報を取得するために、予めトレーニングされた文字検出モデルを用いて対象文書の画像を検出することができる。

ステップ５０２において、複数の文字及び複数の文字の文字情報に基づいて、文字全接続図を生成する。
ここでのステップ５０２の処理は、上述したステップ１０２の処理と同様であるため、説明を省略する。

ステップ５０３において、各文字の空間語義特徴を生成するために、複数の文字を空間言語モデルに入力する。
本実施例では、複数の文字を空間言語モデルに入力し、空間言語モデルを用いて各文字の空間語義特徴を取得することができる。

ステップ５０４において、複数の文字の文字情報に基づいて、複数の文字頂点の頂点タイプを生成する。
ここでのステップ５０４の処理は、上述したステップ１０４の処理と同様であるため、説明を省略する。

ステップ５０５において、複数の文字接続辺の辺タイプを生成するために、複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力する。

具体的には、複数の文字の空間語義特徴及び文字情報を予めトレーニングされた辺タイプ認識モデルに入力し、当該辺タイプ認識モデルは、空間語義特徴、及び抽出された文字情報の特徴に基づいて、各文字接続辺の辺タイプを出力する。

ステップ５０６において、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成する。

ここでのステップ５０６の処理は、上述したステップ１０６の処理と同様であるため、説明を省略する。

本出願の実施例では、文字検出モデルを用いて対象文書内の複数の文字を取得し、空間言語モデルを用いて各文字の空間語義特徴を取得し、辺タイプ認識モデルを用いて各文字接続辺の辺タイプを取得することにより、モデルから得られた複数の文字と複数の文字の空間語義特徴、及び辺タイプに基づいて、文書レイアウトを取得することにより、文書レイアウト解析の正確さを大幅に向上させることができる。

上述した実施例を実現するために、本出願の実施例は、文書レイアウト解析装置をさらに提供する。図１２は、本出願の実施例に係る文書レイアウト解析装置の構成図である。
図１２に示すように、当該文書レイアウト解析装置６００は、第１の取得モジュール６１０と、第１の生成モジュール６２０と、第２の取得モジュール６３０と、第２の生成モジュール６４０と、第３の生成モジュール６５０と、第４の生成モジュール６６０とを含む。

第１の取得モジュール６１０は、対象文書内の複数の文字及び複数の文字の文字情報を取得することに用いられる。
第１の生成モジュール６２０は、複数の文字及び複数の文字の文字情報に基づいて、複数の文字頂点及び複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成することに用いられる。
第２の取得モジュール６３０は、各文字の空間語義特徴を取得することに用いられる。
第２の生成モジュール６４０は、複数の文字の文字情報に基づいて複数の文字頂点の頂点タイプを生成することに用いられる。
第３の生成モジュール６５０は、空間語義特徴及び文字情報に基づいて、複数の文字接続辺の辺タイプを生成することに用いられる。
第４の生成モジュール６６０は、頂点タイプ及び辺タイプに基づいて、対象文書の文書レイアウトを生成することに用いられる。

本出願の実施例の可能な一実現形態では、第２の取得モジュール６３０は、各文字の空間語義特徴を生成するために、複数の文字を空間言語モデルに入力することに用いられる。

本出願の実施例の可能な一実現形態では、空間言語モデルは、以下の第３の取得モジュールと、第５の取得モジュールと、第６の取得モジュールと、第１のトレーニングモジュールとを介してトレーニングすることによって得られる。

第３の取得モジュールは、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得することに用いられる。
第５の取得モジュールは、複数のサンプル文字及びサンプル文字情報に基づいて、サンプル文字全接続図を生成することに用いられる。
第６の取得モジュールは、隠された位置の予測文字を生成するために、サンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を空間言語モデルに入力して予測を行うことに用いられる。
第１のトレーニングモジュールは、隠された位置のサンプル文字及び予測文字に基づいて空間言語モデルをトレーニングすることに用いられる。

本出願の実施例の可能な一実現形態では、第３の生成モジュール６５０は、複数の文字接続辺の辺タイプを生成するために、複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力することに用いられる。

本出願の実施例の可能な一実現形態では、辺タイプ認識モデルは、以下の第３の取得モジュールと、第５の生成モジュールと、第４の取得モジュールと、第７の生成モジュールと、第２のトレーニングモジュールとを介してトレーニングすることによって得られる。

第３の取得モジュールは、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得することに用いられる。
第５の生成モジュールは、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成することに用いられる。
第４の取得モジュールは、各サンプル文字のサンプル空間語義特徴を取得することに用いられる。
第７の生成モジュールは、隠された位置の予測辺タイプを生成するために、サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及びサンプル空間語義特徴を辺タイプ認識モデルに入力して予測を行うことに用いられる。
第２のトレーニングモジュールは、隠された位置のサンプル文字接続辺タイプ及び予測辺タイプに基づいて辺タイプ認識モデルをトレーニングすることに用いられる。

本出願の実施例の可能な一実現形態では、第１の取得モジュール６１０は、対象文書内の複数の文字を取得するために、対象文書を文字検出モデルに入力することに用いられる。

本出願の実施例の可能な一実現形態では、文字検出モデルは、以下の第３の取得モジュールと、第５の生成モジュールと、追加モジュールと、第８の生成モジュールと、第３のトレーニングモジュールとを介してトレーニングすることによって得られる。

第３の取得モジュールは、サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得することに用いられる。
第５の生成モジュールは、複数のサンプル文字及びサンプル文字情報に基づいてサンプル文字全接続図を生成することに用いられる。
追加モジュールは、サンプル文字全接続図内の複数の文字頂点のうちの一部の文字頂点にランダム外乱を追加することに用いられる。
第８の生成モジュールは、予測文字を生成するために、ランダム外乱が追加された後のサンプル文字全接続図を文字検出モデルに入力して文字予測を行うことに用いられる。
第３のトレーニングモジュールは、予測文字及びサンプル文書内のサンプル文字に基づいて文字検出モデルをトレーニングすることに用いられる。

なお、文書レイアウト解析方法の実施例についての上記説明は、当該文書レイアウト解析装置にも適用されるため、ここでは説明を省略する。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図１３に示すように、本出願の実施例に係る文書レイアウト解析方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図１３に示すように、当該電子機器は、１つ又は複数のプロセッサ７０１と、メモリ７０２と、高速インターフェース及び低速インターフェースを含む、各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図１３では、１つのプロセッサ７０１を例とする。

メモリ７０２は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが本出願に係る文書レイアウト解析方法を実行できるように、少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願に係る文書レイアウト解析方法を実行させるためのコンピュータ命令が記憶されている。

メモリ７０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係る文書レイアウト解析方法に対応するプログラム命令／モジュール（例えば、図１２に示す第１の取得モジュール６１０と、第１の生成モジュール６２０と、第２の取得モジュール６３０と、第２の生成モジュール６４０と、第３の生成モジュール６５０と、第４の生成モジュール６６０）などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶することに用いられる。プロセッサ７０１は、メモリ８０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例に係る文書レイアウト解析方法を実現する。

メモリ７０２は、プログラム記憶領域とストレージデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ７０２は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ７０２は、プロセッサ７０１に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して文書レイアウト解析方法を実行電子機器に接続することができる。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

文書レイアウト解析方法を実行する電子機器は、入力装置７０３と出力装置７０４とをさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３、及び出力装置７０４は、バス又は他の方式を介して接続することができ、図１３では、バスを介して接続することを例とする。

入力装置７０３は、入力された数字又はキャラクタ情報を受信し、多義語の翻訳のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置７０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含んでもよく、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般的に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。

本出願の実施例の技術案によれば、文字情報、語義情報、及び空間位置情報に基づいて文書レイアウトを解析し、文書レイアウトを生成することで、情報を有効に利用して大域的最適解を検索し、文書レイアウト解析の正確さを向上させる。

本明細書の説明において、「第１」、「第２」という用語は、説明するためのものであり、相対的重要性又は指示された技術特徴の数量と指示又は暗示するものではないので、本発明を限定するものと理解してはいけない。また、「第１」、「第２」が限定されている特徴は、１つ又はより多くの該特徴を含むことを明示又は暗示するものである。本発明の説明において、他の説明がない限り、「複数」（例えば、３つなど）は、２つ以上を意味する。

以上は本出願の実施例を示しかつ説明したにもかかわらず、それらは例示的なものに過ぎず、限定的なものとして理解すべきではない。当業者は、本出願の範囲を逸脱しない限り、様々な変更、修正、置換及び変形を行うことができる。

Claims

文書レイアウト解析方法であって、
対象文書内の複数の文字及び前記複数の文字の文字情報を取得するステップと、
前記複数の文字及び前記複数の文字の文字情報に基づいて、複数の文字頂点及び前記複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成するステップと、
各前記文字の空間語義特徴を取得するステップと、
前記複数の文字の文字情報に基づいて前記複数の文字頂点の頂点タイプを生成するステップと、
前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するステップと、
前記頂点タイプ及び前記辺タイプに基づいて、対象文書の文書レイアウトを生成するステップと、を含む、
ことを特徴とする文書レイアウト解析方法。
各文字の空間語義特徴を取得するステップは、
前記各文字の空間語義特徴を生成するために、前記複数の文字を空間言語モデルに入力するステップを含む、
ことを特徴とする請求項１に記載の文書レイアウト解析方法。
前記空間言語モデルは、
サンプル文書内の複数のサンプル文字及び複数のサンプル文字のサンプル文字情報を取得するステップと、
前記複数のサンプル文字及び前記サンプル文字情報に基づいて、サンプル文字全接続図を生成するステップと、
隠された位置の予測文字を生成するために、前記サンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を前記空間言語モデルに入力して予測を行うステップと、
前記隠された位置のサンプル文字及び前記予測文字に基づいて、前記空間言語モデルをトレーニングするステップと、を介してトレーニングすることによって得られる、
ことを特徴とする請求項２に記載の文書レイアウト解析方法。
前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するステップは、
前記複数の文字接続辺の辺タイプを生成するために、前記複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力するステップを含む、
ことを特徴とする請求項１に記載の文書レイアウト解析方法。
前記辺タイプ認識モデルは、
サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するステップと、
前記複数のサンプル文字及び前記サンプル文字情報に基づいてサンプル文字全接続図を生成するステップと、
各前記サンプル文字のサンプル空間語義特徴を取得するステップと、
隠された位置の予測辺タイプを生成するために、前記サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及び前記サンプル空間語義特徴を前記辺タイプ認識モデルに入力して予測を行うステップと、
前記隠された位置のサンプル文字接続辺タイプ及び前記予測辺タイプに基づいて、前記辺タイプ認識モデルをトレーニングするステップと、を介してトレーニングすることによって得られる
ことを特徴とする請求項４に記載の文書レイアウト解析方法。
対象文書内の複数の文字を取得するステップは、
前記対象文書内の前記複数の文字を取得するために、前記対象文書を文字検出モデルに入力するステップを含む、
ことを特徴とする請求項１に記載の文書レイアウト解析方法。
前記文字検出モデルは、
サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するステップと、
前記複数のサンプル文字及び前記サンプル文字情報に基づいてサンプル文字全接続図を生成するステップと、
前記サンプル文字全接続図内の複数の文字頂点のうちの一部の文字頂点にランダム外乱を追加するステップと、
予測文字を生成するために、ランダム外乱が追加された後の前記サンプル文字全接続図を前記文字検出モデルに入力して文字予測を行うステップと、
前記予測文字及び前記サンプル文書内のサンプル文字に基づいて前記文字検出モデルをトレーニングするステップと、を介してトレーニングすることによって得られる、
ことを特徴とする請求項６に記載の文書レイアウト解析方法。
文書レイアウト解析装置であって、
対象文書内の複数の文字及び前記複数の文字の文字情報を取得するための第１の取得モジュールと、
前記複数の文字及び前記複数の文字の文字情報に基づいて、複数の文字頂点及び前記複数の文字頂点間の複数の文字接続辺を含む文字全接続図を生成するための第１の生成モジュールと、
各前記文字の空間語義特徴を取得するための第２の取得モジュールと、
前記複数の文字の文字情報に基づいて前記複数の文字頂点の頂点タイプを生成するための第２の生成モジュールと、
前記空間語義特徴及び前記文字情報に基づいて、前記複数の文字接続辺の辺タイプを生成するための第３の生成モジュールと、
前記頂点タイプ及び前記辺タイプに基づいて、対象文書の文書レイアウトを生成するための第４の生成モジュールと、を含む
ことを特徴とする文書レイアウト解析装置。
前記第２の取得モジュールは、前記各文字の空間語義特徴を生成するために、前記複数の文字を空間言語モデルに入力することに用いられる、
ことを特徴とする請求項８に記載の文書レイアウト解析装置。
前記空間言語モデルは、
サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するための第３の取得モジュールと、
前記複数のサンプル文字及び前記サンプル文字情報に基づいて、サンプル文字全接続図を生成するための第５の取得モジュールと、
隠された位置の予測文字を生成するために、前記サンプル文字全接続図内のサンプル文字の一部を隠し、隠されたサンプル文字全接続図を前記空間言語モデルに入力して予測を行うための第６の取得モジュールと、
前記隠された位置のサンプル文字及び前記予測文字に基づいて、前記空間言語モデルをトレーニングするための第１のトレーニングモジュールと、を介してトレーニングすることによって得られる、
ことを特徴とする請求項９に記載の文書レイアウト解析装置。
前記第３の生成モジュールは、前記複数の文字接続辺の辺タイプを生成するために、前記複数の文字の空間語義特徴及び文字情報を辺タイプ認識モデルに入力することに用いられる、
ことを特徴とする請求項８に記載の文書レイアウト解析装置。
前記辺タイプ認識モデルは、
サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するための第３の取得モジュールと、
前記複数のサンプル文字及び前記サンプル文字情報に基づいてサンプル文字全接続図を生成するための第５の生成モジュールと、
各前記サンプル文字のサンプル空間語義特徴を取得するための第４の取得モジュールはと、
隠された位置の予測辺タイプを生成するために、前記サンプル文字全接続図内のサンプル文字接続辺の一部を隠し、隠されたサンプル文字全接続図及び前記サンプル空間語義特徴を前記辺タイプ認識モデルに入力して予測を行うための第７の生成モジュールと、
前記隠された位置のサンプル文字接続辺タイプ及び前記予測辺タイプに基づいて、前記辺タイプ認識モデルをトレーニングするための第２のトレーニングモジュールと、を介してトレーニングすることによって得られる、
ことを特徴とする請求項１１に記載の文書レイアウト解析装置。
前記第１の取得モジュールは、前記対象文書内の前記複数の文字を取得するために、前記対象文書を文字検出モデルに入力することに用いられる、
ことを特徴とする請求項８に記載の文書レイアウト解析装置。
前記文字検出モデルは、
サンプル文書内の複数のサンプル文字及び前記複数のサンプル文字のサンプル文字情報を取得するための第３の取得モジュールと、
前記複数のサンプル文字及び前記サンプル文字情報に基づいてサンプル文字全接続図を生成するための第５の生成モジュールと、
前記サンプル文字全接続図内の複数の文字頂点のうちの一部の文字頂点にランダム外乱を追加するための追加モジュールと、
予測文字を生成するために、ランダム外乱が追加された後の前記サンプル文字全接続図を前記文字検出モデルに入力して文字予測を行うための第８の生成モジュールと、
前記予測文字及び前記サンプル文書内のサンプル文字に基づいて、前記文字検出モデルをトレーニングするための第３のトレーニングモジュールと、を介してトレーニングすることによって得られる、
ことを特徴とする請求項１３に記載の文書レイアウト解析装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが、前記少なくとも１つのプロセッサによって実行される場合、請求項１〜７のいずれかに記載の文書レイアウト解析方法を実行させる、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１〜７のいずれかに記載の文書レイアウト解析方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータ上で動作しているときに、請求項１〜７のいずれかに記載の文書レイアウト解析方法を前記コンピュータに実行させる、
ことを特徴とするコンピュータプログラム。