JP7470264B1

JP7470264B1 - レイアウト解析システム、レイアウト解析方法、及びプログラム

Info

Publication number: JP7470264B1
Application number: JP2024505453A
Authority: JP
Inventors: 宇植史; 美廷金; 永男蔡
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-04-17
Anticipated expiration: 2042-08-30
Also published as: WO2024047763A1

Abstract

レイアウト解析システム（１）のセル検出部（１０２）は、複数の構成要素を含む文書が示された文書画像の中から、複数のセルを検出する。セル情報取得部（１０３）は、複数のセルの各々の座標に基づいて、複数のセルの各々の行及び列の少なくとも一方に関するセル情報を取得する。レイアウト解析部（１０４）は、複数のセルの各々のセル情報に基づいて、文書に関するレイアウトを解析する。

Description

本開示は、レイアウト解析システム、レイアウト解析方法、及びプログラムに関する。

従来、所定のレイアウトを有する文書が示された文書画像に基づいて、文書のレイアウトを解析する技術が検討されている。例えば、非特許文献１～非特許文献４には、種々の文書のレイアウトが学習された学習モデルと、文書画像に示された文書の構成要素を含むセル（バウンディングボックス）の座標と、に基づいて、文書のレイアウトを解析する技術が記載されている。

Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, "LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking", https://arxiv.org/abs/2204.08387, ACM Multimedia 2022 「Doc-former」, インターネット，２０２２年８月１５日検索，ｏｎｌｉｎｅ，https://github.com/shabie/docformer Peizhao Li, Jiuxiang Gu, Jason Kuen, Vlad I. Morariu, Handong Zhao, Rajiv Jain, Varun Manjunatha, Hongfu Liu, "SelfDoc: Self-Supervised Document Representation Learning", https://arxiv.org/abs/2106.03331, CVPR2021 Anonymous, "ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-training for Document Understanding", https://openreview.net/pdf?id=NHECrvMz1LL

しかしながら、非特許文献１～非特許文献４の技術では、互いに同じ行又は列に配置されたセルだったとしても、文書画像におけるセルの座標が若干ずれていることがある。この場合、セルの座標の若干のずれのために、学習モデルによって、互いに異なる行又は列のセルとして認識されることがあるので、レイアウト解析の精度が低下する可能性があった。

本開示の目的の１つは、レイアウト解析の精度を高めることである。

本開示に係るレイアウト解析システムは、複数の構成要素を含む文書が示された文書画像の中から、複数のセルを検出するセル検出部と、前記複数のセルの各々の座標に基づいて、前記複数のセルの各々の行及び列の少なくとも一方に関するセル情報を取得するセル情報取得部と、前記複数のセルの各々の前記セル情報に基づいて、前記文書に関するレイアウトを解析するレイアウト解析部と、を含む。

本開示によれば、レイアウト解析の精度が高まる。

レイアウト解析システムの全体構成の一例を示す図である。文書画像の一例を示す図である。光学文字認識が実行された文書画像の一例を示す図である。第１実施形態で実現される機能の一例を示す図である。第１実施形態における学習モデルの入力と出力の関係の一例を示す図である。セル情報の一例を示す図である。第１実施形態におけるレイアウト解析の一例を示す図である。第１実施形態におけるレイアウト解析の一例を示す図である。第１実施形態で実行される処理の一例を示す図である。第２実施形態におけるスケールの一例を示す図である。第２実施形態で実現される機能の一例を示す図である。第２実施形態における学習モデルの入力と出力の関係の一例を示す図である。小領域の一例を示す図である。第２実施形態におけるレイアウト解析の一例を示す図である。第２実施形態で実行される処理の一例を示す図である。第１実施形態に関する変形例における機能の一例を示す図である。

［１．第１実施形態］
本開示に係るレイアウト解析システムの実施形態の一例である第１実施形態を説明する。

［１－１．レイアウト解析システムの全体構成］
図１は、レイアウト解析システムの全体構成の一例を示す図である。例えば、レイアウト解析システム１は、サーバ１０及びユーザ端末２０を含む。サーバ１０及びユーザ端末２０の各々は、インターネット又はＬＡＮ等のネットワークＮに接続可能である。

サーバ１０は、サーバコンピュータである。制御部１１は、少なくとも１つのプロセッサを含む。記憶部１２は、ＲＡＭ等の揮発性メモリと、フラッシュメモリ等の不揮発性メモリと、を含む。通信部１３は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。

ユーザ端末２０は、ユーザのコンピュータである。例えば、ユーザ端末２０は、パーソナルコンピュータ、タブレット端末、スマートフォン、又はウェアラブル端末である。制御部２１、記憶部２２、及び通信部２３の物理的構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様である。操作部２４は、タッチパネル又はマウス等の入力デバイスである。表示部２５は、液晶ディスプレイ又は有機ＥＬディスプレイである。撮影部２６は、少なくとも１つのカメラを含む。

なお、記憶部１２，２２に記憶されるプログラムは、ネットワークＮを介して供給されてもよい。また、各コンピュータには、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、メモリカードスロット）と、外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）と、の少なくとも一方が含まれてもよい。例えば、情報記憶媒体に記憶されたプログラムが、読取部及び入出力部の少なくとも一方を介して供給されてもよい。

また、レイアウト解析システム１は、少なくとも１つのコンピュータを含めばよく、図１の例に限られない。例えば、レイアウト解析システム１は、ユーザ端末２０を含まずに、サーバ１０だけを含んでもよい。この場合、ユーザ端末２０は、レイアウト解析システム１の外部に存在する。例えば、レイアウト解析システム１は、サーバ１０以外の他のコンピュータを含み、当該他のコンピュータによって、レイアウト解析が実行されてもよい。例えば、他のコンピュータは、パーソナルコンピュータ、タブレット端末、又はスマートフォンである。

［１－２．第１実施形態の概要］
第１実施形態のレイアウト解析システム１は、文書画像に示された文書のレイアウトを解析する。文書画像は、文書の全部又は一部が示された画像である。文書画像の少なくとも一部の画素には、文書の一部が示される。文書画像には、１つの文書だけが示されていてもよいし、複数の文書が示されていてもよい。第１実施形態では、文書が撮影部２６で撮影されることによって文書画像が生成される場合を説明するが、文書がスキャナで読み取られることによって文書画像が生成されてもよい。

文書は、人間が理解可能な情報を含む書類である。例えば、文書は、文字が形成された用紙である。第１実施形態では、文書の一例として、ユーザが店舗で買い物をした時に受け取るレシートを説明するが、レイアウト解析システム１は、種々の文書に対応可能である。例えば、請求書、見積書、申請書、公的書類、社内書類、チラシ、論文、雑誌、新聞、又は参考書といった種々の文書にレイアウト解析システム１を適用可能である。

レイアウトは、文書における構成要素の配置である。レイアウトは、デザインと呼ばれることもある。構成要素は、文書を構成する要素である。構成要素は、文書に形成された情報そのものである。例えば、構成要素は、文字、記号、ロゴ、図形、写真、表、又はイラストである。例えば、文書には、レイアウトに関する複数のパターンが存在する。文書は、複数のパターンのうちの何れかのレイアウトを有する。

図２は、文書画像の一例を示す図である。例えば、ユーザが、ユーザ端末２０を操作して文書Ｄを撮影すると、ユーザ端末２０は、文書Ｄが示された文書画像Ｉを生成する。図２の例では、文書画像Ｉの左上を原点Ｏとして、ｘ軸及びｙ軸が設定される。文書画像Ｉ内の位置は、ｘ座標及びｙ座標を含む２次元座標で示される。文書画像Ｉ内の位置は、任意の座標系で表現可能であり、図２の例に限られない。例えば、文書画像Ｉの中心を原点Ｏとする座標系、又は、極座標系で文書画像Ｉ内の位置が表現されてもよい。

例えば、ユーザ端末２０は、サーバ１０に対し、文書画像Ｉを送信する。サーバ１０は、ユーザ端末２０から文書画像Ｉを受信する。サーバ１０は、文書画像Ｉを受信した時点では、どのようなレイアウトの文書Ｄが文書画像Ｉに示されているかを特定できないものとする。サーバ１０は、そもそもレシートが文書Ｄとして文書画像Ｉに示されているのかも特定できないものとする。第１実施形態では、サーバ１０は、文書Ｄのレイアウトを解析するために、文書画像Ｉに対し、光学文字認識を実行する。

図３は、光学文字認識が実行された文書画像Ｉの一例を示す図である。例えば、サーバ１０は、公知の光学文字認識ツールを利用して、文書画像Ｉの中から、セルＣ１～Ｃ２１を検出する。以降、セルＣ１～Ｃ２１を区別しない時は、単にセルＣという。セルＣは、任意の形状であってよく、図３のような長方形に限られない。例えば、セルＣは、正方形、角丸四角形、四角形以外の多角形、又は楕円形であってもよい。

セルＣは、文書Ｄの構成要素を含む領域である。セルＣは、バウンディングボックスと呼ばれることもある。第１実施形態では、光学文字認識ツールを利用してセルＣが検出されるので、セルＣは、少なくとも１つの文字を含む。１文字ごとにセルＣが検出されてもよいが、第１実施形態では、互いに連続した複数の文字が１つのセルＣとして検出されるものとする。

例えば、文字の間にスペースが配置されたとしても、スペースがある程度小さければ、スペースで区切られた複数の語を含む１つのセルＣが検出されることもある。図３の例では、文書Ｄの「ＸＹＺ」と「Ｍａｒｔ」の間にはスペースが配置されているが、「ＸＹＺ」のセルＣと、「Ｍａｒｔ」のセルＣと、が別々に検出されるのではなく、「ＸＹＺＭａｒｔ」を含む１つのセルＣ１が検出される。セルＣ２～Ｃ４，Ｃ７も、セルＣ１と同様に、スペースで区切られた複数の単語を含む。

例えば、本来はスペースを含まない１つの語だったとしても、別々の語として認識されることもある。図３の例では、文書Ｄの「￥１，１００」は１つの語であるが、他の文字よりも大きいので、「￥１，」と「１００」の間に多少の間隔が存在する。図３の例では、この間隔によって、「￥１，」を含むＣ１３と、「１００」を含むＣ１４と、が検出されている。セルＣ１８，１９も、セルＣ１３，Ｃ１４と同様に、本来はスペースを含まない１つの語が別々の語として認識されている。

例えば、世の中に存在するレシートのレイアウトは、ある程度はパターン化されている。このため、文書画像Ｉに示された文書Ｄがレシートである場合には、文書Ｄは、何種類かあるパターンの中の何れかのパターンのレイアウトを有することが多い。光学文字認識だけでは、文書画像Ｉ内の文字が商品の明細を示すのか合計金額を示すのかを特定しにくいが、文書Ｄのレイアウトを解析できれば、文書Ｄのどこに商品の明細又は合計金額が印刷されているのかを特定しやすくなる。

そこで、サーバ１０は、文書画像Ｉから検出されたセルＣの配置に基づいて、文書Ｄのレイアウトを解析する。例えば、サーバ１０は、種々のレイアウトを学習させた学習モデルに対し、セルＣの座標を入力することによって、学習モデルに文書Ｄのレイアウトを解析させることも考えられる。この場合、学習モデルは、学習済みのレイアウトのうち、自身に入力されたセルＣの座標のパターンを特徴量化し、このパターンに近いパターンのレイアウトを、推定結果として出力する。

しかしながら、文書Ｄの同じ行に配置されたセルＣだったとしても、光学文字認識によって検出される座標が異なることがある。図３の例であれば、セルＣ８，Ｃ１０は、互いに同じ行に配置されているが、光学文字認識によって検出されたセルＣ８，Ｃ１０のｙ座標が互いに同じとは限らない。文書画像Ｉにおける文書Ｄの曲がり又は歪みに起因して、セルＣ８，Ｃ１０のｙ座標が互いに異なることもある。例えば、学習モデルが、セルＣ８，Ｃ１０のｙ座標の微妙な差によって、内部的にこれらを異なる行として認識する可能性がある。この場合、レイアウト解析の精度が低下する可能性がある。

上記の点は、文書Ｄの行に限られず、文書Ｄの列についても同様である。図３の例であれば、セルＣ１０，Ｃ１１は、互いに同じ列に配置されているが、光学文字認識によって検出されたセルＣ１０，Ｃ１１のｘ座標が互いに同じとは限らない。文書画像Ｉにおける文書Ｄの曲がり又は歪みに起因して、セルＣ１０，Ｃ１１のｘ座標が互いに異なることもある。例えば、学習モデルが、セルＣ１０，Ｃ１１のｘ座標の微妙な差によって、内部的にこれらを異なる列として認識する可能性がある。この場合、レイアウト解析の精度が低下する可能性がある。

そこで、第１実施形態のレイアウト解析システム１は、セルＣの座標に基づいて、同じ行及び同じ列のセルＣをグループ化する。レイアウト解析システム１は、セルＣを行及び列でグループ化した状態で、学習モデルにレイアウトを解析させることによって、上記のような微妙な座標のずれを吸収し、レイアウト解析の精度を高めるようになっている。以降、第１実施形態の詳細を説明する。

［１－３．第１実施形態で実現される機能］
図４は、第１実施形態で実現される機能の一例を示す図である。

［１－３－１．サーバで実現される機能］
データ記憶部１００は、記憶部１２により実現される。画像取得部１０１、セル検出部１０２、セル情報取得部１０３、レイアウト解析部１０４、及び処理実行部１０５は、制御部１１により実現される。

［データ記憶部］
データ記憶部１００は、文書Ｄのレイアウトの解析に必要なデータを記憶する。例えば、データ記憶部１００は、文書画像Ｉに基づいて文書Ｄのレイアウトを解析する学習モデルを記憶する。学習モデルは、機械学習手法を利用したモデルである。データ記憶部１００は、学習モデルのプログラム及びパラメータを記憶する。パラメータは、学習によって調整される。機械学習手法は、教師有り学習、半教師有り学習、及び教師無し学習の何れが利用されてもよい。

第１実施形態では、学習モデルがVision Transformerベースのモデルである場合を例に挙げる。Vision Transformerは、主に自然言語処理で利用されるTransformerを、画像処理に適用した手法である。Transformerは、文書の構成要素が時系列に並べられた入力データにおける互いのつながりを解析する。Vision Transformerは、自身に入力された入力画像を複数のパッチに分割し、複数のパッチが並べられた入力データを取得する。Vision Transformerは、Transformerによる文脈の解析を、パッチ同士のつながりの解析に流用した手法である。Vision Transformerは、入力データに含まれる個々のパッチをベクトルに変換して解析する。第１実施形態の学習モデルは、このようなVision Transformerの仕組みが流用されている。

図５は、第１実施形態における学習モデルの入力と出力の関係の一例を示す図である。例えば、データ記憶部１００は、学習モデルの訓練データを記憶する。訓練データには、訓練用の入力データと、正解のレイアウトと、の関係が示されている。訓練用の入力データは、推定時に学習モデルに入力される入力データと同じ形式である。第１実施形態では、入力データのサイズも予め定められているものとする。この入力データは、後述の図６，７で説明するように、行でソートされたセル情報と、列でソートされたセル情報と、を含む。セル情報の詳細は、後述する。

図５のように、訓練データに含まれる訓練用の入力データには、訓練用の文書が示された訓練画像から取得されたセル情報が、行及び列の各々でソートされて並べられる。例えば、サーバ１０は、訓練用の文書が示された訓練画像に対し、後述のセル検出部１０２及びセル情報取得部１０３と同様の処理を実行し、訓練画像から検出された複数のセルの各々のセル情報を取得する。サーバ１０は、複数のセルＣの各々のセル情報を、訓練画像における行及び列の各々でソートすることによって、訓練用の入力データを取得する。訓練用の入力データには、後述する行変化情報及び列変化情報も含まれているものとする。第１実施形態では、訓練用の入力データに含まれるソートされたセル情報は、Vision Transformerにおける個々のパッチの画像又はベクトルに相当する。

例えば、訓練データに含まれる正解のレイアウトは、学習モデルの作成者が手動で指定する。正解のレイアウトは、レイアウトのラベルである。例えば、「レシートパターンＡ」、「レシートパターンＢ」といったようなラベルが正解のレイアウトとして定義されている。サーバ１０は、訓練用の入力データと、正解のレイアウトと、のペアを訓練データとして生成する。サーバ１０は、複数の訓練画像に基づいて、複数の訓練データを生成する。サーバ１０は、ある訓練データに含まれる訓練用の入力データが学習モデルに入力された場合に、この訓練データに含まれる正解のレイアウトが学習モデルから出力されるように、学習モデルのパラメータを調整する。

なお、学習モデルの学習自体は、Vision Transformerで利用されている手法を利用すればよい。例えば、サーバ１０は、入力データに含まれる要素同士の結びつきを学習するSelf-Attentionに基づいて、学習モデルの学習を実行してもよい。また、訓練データは、サーバ１０以外の他のコンピュータによって作成されてもよいし、人手で作成されてもよい。学習モデルの学習も、サーバ１０以外の他のコンピュータによって実行されてもよい。データ記憶部１００は、何らかの形で学習済みの学習モデルを記憶すればよい。

また、学習モデルは、Vision Transformer以外の他の機械学習手法を利用したモデルであってもよい。他の機械学習手法としては、画像処理分野で利用されている種々の手法を利用可能である。例えば、学習モデルは、ニューラルネットワーク、長・短期記憶ネットワーク、又はサポートベクターマシンを利用したモデルであってもよい。学習モデルの学習も、他の機械学習手法で利用されている誤差逆伝播法又は勾配降下法といった他の手法を利用可能である。

また、データ記憶部１００に記憶されるデータは、学習モデルに限られない。データ記憶部１００は、レイアウトの解析に必要なデータを記憶すればよく、任意のデータを記憶可能である。例えば、データ記憶部１００は、学習モデルの学習を実行するためのプログラム、レイアウトの解析対象となる文書画像Ｉが格納されたデータベース、及び光学文字認識ツールを記憶してもよい。

［画像取得部］
画像取得部１０１は、文書画像Ｉを取得する。文書画像Ｉを取得するとは、文書画像Ｉの画像データを取得することである。本実施形態では、画像取得部１０１がユーザ端末２０から文書画像Ｉを取得する場合を説明するが、画像取得部１０１は、ユーザ端末２０以外の他のコンピュータから文書画像Ｉを取得してもよい。例えば、文書画像Ｉが予めデータ記憶部１００又は他の情報記憶媒体に記録されている場合には、画像取得部１０１は、データ記憶部１００又は他の情報記憶媒体から文書画像Ｉを取得してもよい。画像取得部１０１は、カメラ又はスキャナから直接的に文書画像Ｉを取得してもよい。

なお、文書画像Ｉは、静止画ではなく、動画であってもよい。文書画像Ｉが動画である場合には、動画に含まれる少なくとも１つのフレームを、レイアウトの解析対象とすればよい。また、文書画像Ｉのデータ形式は、任意の形式であってよく、例えば、ＪＰＥＧ、ＰＮＧ、ＧＩＦ、ＭＰＥＧ、又はＰＤＦであってもよい。文書画像Ｉは、物理的な文書Ｄが取り込まれた画像に限られず、ユーザ端末２０又は他のコンピュータで作成された電子的な文書Ｄを示す画像であってもよい。例えば、電子的な文書Ｄのスクリーンショットが文書画像Ｉに相当してもよい。例えば、電子的な文書Ｄにおけるテキストの情報が失われたデータが文書画像Ｉに相当してもよい。

［セル検出部］
セル検出部１０２は、複数の構成要素を含む文書Ｄが示された文書画像Ｉの中から、複数のセルＣを検出する。第１実施形態では、セル検出部１０２が、文書画像Ｉに光学文字認識を実行することによって、複数のセルＣを検出する場合を例に挙げる。光学文字認識は、画像から文字を認識する手法である。光学文字認識ツール自体は、種々のツールを利用可能であり、例えば、見本となる画像と比較するマトリックスマッチング法を利用したツール、線の形状的な特徴を比較する特徴検出法を利用したツール、又は機械学習手法を利用したツールが利用されてもよい。

例えば、セル検出部１０２は、光学文字認識ツールを利用して、文書画像Ｉの中から、セルＣを検出する。光学文字認識ツールは、文書画像Ｉにおける文字を認識し、当該認識された文字に基づいて、セルＣに関する種々の情報を出力する。第１実施形態では、光学文字認識ツールは、セルＣごとに、文書画像ＩのうちのセルＣ内の画像、セルＣに含まれる少なくとも１つの文字、セルＣの左上の座標、セルＣの右下の座標、セルＣの横幅、及びセルＣの縦幅を出力するものとする。セル検出部１０２は、光学文字認識ツールからの出力を取得することによって、セルＣを検出する。

なお、光学文字認識ツールは、少なくともセルＣの何らかの座標を出力すればよく、光学文字認識ツールが出力する情報は、上記の例に限られない。例えば、光学文字認識ツールは、セルＣの左上の座標だけを出力してもよい。セルＣの左上の座標ではなく、他の座標でセルＣの位置を特定する場合には、光学文字認識ツールは、他の座標を出力すればよい。セル検出部１０２は、光学文字認識ツールから出力された他の座標を取得することによって、セルＣを検出してもよい。例えば、他の座標は、セルＣの中心点の座標、セルＣの右上の座標、セルＣの左下の座標、又はセルＣの右下の座標であってもよい。

また、セル検出部１０２は、光学文字認識以外の他の手法を利用して、文書画像Ｉの中からセルＣを検出してもよい。例えば、セル検出部１０２は、風景に含まれるテキストを検出するScene Text Detection、文字を一例とする物体性の高い領域を検出する物体検出法、又は、見本となる画像と比較するパターンマッチング法に基づいて、文書画像Ｉの中からセルＣを検出してもよい。これらの手法でも、セルＣの何らかの座標が出力されるものとする。

［セル情報取得部］
セル情報取得部１０３は、複数のセルＣの各々の座標に基づいて、複数のセルＣの各々の行及び列の少なくとも一方に関するセル情報を取得する。行は、文書画像Ｉのｙ軸方向におけるセルＣの並びである。行は、ｙ座標が同じ又は近いセルＣのグループである。ｙ座標が近いとは、ｙ軸方向の距離が閾値未満であることである。列は、文書画像Ｉのｘ軸方向におけるセルＣの並びである。列は、ｘ座標が同じ又は近いセルＣのグループである。ｘ座標が近いとは、ｘ軸方向の距離が閾値未満であることである。

例えば、セル情報取得部１０３は、複数のセルＣの各々の座標に基づいて、互いに同じ行にあるセルＣと、互いに同じ列にあるセルＣと、を特定する。行及び列は、文書画像Ｉにおける位置を、座標よりも大まかに表現する情報ということもできる。第１実施形態では、セル情報がセルＣの行及び列の両方に関する情報である場合を例に挙げるが、セル情報は、セルＣの行だけに関する情報であってもよいし、セルＣの列だけに関する情報であってもよい。即ち、セル情報取得部１０３は、互いに同じ行にあるセルＣを特定して、互いに同じ列にあるセルＣを特定しなくてもよい。逆に、セル情報取得部１０３は、互いに同じ列にあるセルＣを特定して、互いに同じ行にあるセルＣを特定しなくてもよい。

図６は、セル情報の一例を示す図である。図６の例では、セル情報が表形式で示されている。図６の表における１つ１つのレコードがセル情報に相当する。例えば、セル情報は、セルＩＤ、セル画像、文字列、左上の座標、右下の座標、横幅、縦幅、行番号、及び列番号を含む。セル情報は、行番号及び列番号の少なくとも一方を含めばよく、図６の例に限られない。例えば、セル情報は、行番号及び列番号の少なくとも一方だけを含んでもよい。セル情報は、セルＣの何らかの特徴を含めばよい。

なお、セル情報は、図６の一部の項目を含まなくてもよいし、他の項目を含んでもよい。例えば、セル画像及び文字列は、埋め込み表現と呼ばれる特徴量化した状態でセル情報に含まれるようにしてもよい。セル画像の埋め込み表現の計算は、畳み込みと呼ばれる手法が利用されてもよい。文字列の埋め込み表現の計算は、fastText又はWord2vecといった種々の手法を利用可能である。

セルＩＤは、セルＣを一意に識別可能な情報である。例えば、セルＩＤは、ある文書画像Ｉの中で１から連番になるように発行される。セルＩＤは、光学文字認識ツールが発行してもよいし、セル検出部１０２又はセル情報取得部１０３が発行してもよい。セル画像は、文書画像Ｉの中からセルＣ内部が切り取られた画像である。文字列は、光学文字認識による文字の認識結果である。第１実施形態では、セルＩＤ、セル画像、文字列、左上の座標、右下の座標、横幅、及び縦幅は、光学文字認識ツールから出力されるものとする。

行番号は、文書画像Ｉにおける行の順序である。第１実施形態では、文書画像Ｉの上から順番に行番号が付与されるものとするが、行番号は、予め定められたルールに基づいて付与されるようにすればよい。例えば、文書画像Ｉの下から順番に行番号が付与されてもよい。同じ行番号が付与されたセルＣは、互いに同じ行に属する。セルＣが属する行は、行番号ではなく、文字等の他の情報によって特定されるようにしてもよい。

列番号は、文書画像Ｉにおける列の順序である。第１実施形態では、文書画像Ｉの左から順番に列番号が付与されるものとするが、列番号は、予め定められたルールに基づいて付与されるようにすればよい。例えば、文書画像Ｉの右から順番に列番号が付与されてもよい。同じ列番号が付与されたセルＣは、互いに同じ列に属する。セルＣが属する列は、列番号ではなく、文字等の他の情報によって特定されるようにしてもよい。

第１実施形態では、セル情報取得部１０３は、複数のセルＣの各々のｙ座標に基づいて、ｙ軸方向における互いの距離が閾値未満であるセルＣ同士が同じ行になるように、複数のセルＣの各々の行に関するセル情報を取得する。例えば、セル情報取得部１０３は、複数のセルＣの各々の左上のｙ座標と、他のセルＣの左上のｙ座標と、の距離を計算し、この距離が閾値未満であれば、同じ行であると判定して同じ行番号を付与する。セル情報取得部１０３は、この距離が閾値以上であれば、異なる行であると判定して異なる行番号を付与する。第１実施形態では、同じ行と特定するための閾値は、予め定められた固定値であるものとする。例えば、同じ行を特定するための閾値は、文書Ｄの標準的なフォントの縦幅と同じ又はそれよりも小さくなるように設定される。

図３の例であれば、セルＣ１～Ｃ２１のうち、左上のｙ座標が最も小さいのは、セルＣ１である。セル情報取得部１０３は、セルＣ１の左上のｙ座標と、左上のｙ座標が２番目に小さいセルＣ２の左上のｙ座標と、の距離を計算し、この距離が閾値未満であるか否かを判定する。セル情報取得部１０３は、この距離が閾値以上であると判定し、１行目には、セルＣ１しか属していないと判定する。セル情報取得部１０３は、セルＣ１に対し、１行目であることを示す行番号「１」を付与する。

例えば、セル情報取得部１０３は、左上のｙ座標が２番目に小さいセルＣ２の左上のｙ座標と、左上のｙ座標が３番目に小さいセルＣ３の左上のｙ座標と、の距離を計算し、この距離が閾値未満であるか否かを判定する。セル情報取得部１０３は、この距離が閾値以上であると判定し、２行目には、セルＣ２しか属していないと判定する。セル情報取得部１０３は、セルＣ２に対し、２行目であることを示す行番号「２」を付与する。以降同様に、セル情報取得部１０３は、セルＣ３～Ｃ７に対し、それぞれ３行目～７行目であることを示す行番号「３」～「７」を付与する。

例えば、セル情報取得部１０３は、左上のｙ座標が８番目に小さいセルＣ８の左上のｙ座標と、左上のｙ座標が９番目に小さいセルＣ１０の左上のｙ座標と、の距離を計算し、この距離が閾値未満であるか否かを判定する。セル情報取得部１０３は、この距離が閾値未満であると判定する。セル情報取得部１０３は、左上のｙ座標が８番目に小さいセルＣ８の左上のｙ座標と、左上のｙ座標が１０番目に小さいセルＣ９の左上のｙ座標と、の距離を計算し、この距離が閾値未満であるか否かを判定する。セル情報取得部１０３は、この距離が閾値以上であると判定し、８行目には、セルＣ８，Ｃ１０が属しており、かつ、セルＣ９は属していないと判定する。セル情報取得部１０３は、セルＣ８，Ｃ１０に対し、８行目であることを示す行番号「８」を付与する。

以降同様に、セル情報取得部１０３は、セルＣ９，Ｃ１１に対し、９行目であることを示す行番号「９」を付与する。セル情報取得部１０３は、セルＣ１２，Ｃ１３，Ｃ１４に対し、１０行目であることを示す行番号「１０」を付与する。セル情報取得部１０３は、セルＣ１５，Ｃ１６に対し、１１行目であることを示す行番号「１１」を付与する。セル情報取得部１０３は、セルＣ１７，Ｃ１８，Ｃ１９に対し、１２行目であることを示す行番号「１２」を付与する。セル情報取得部１０３は、セルＣ２０，Ｃ２１に対し、１３行目であることを示す行番号「１３」を付与する。

第１実施形態では、セル情報取得部１０３は、複数のセルＣの各々のｘ座標に基づいて、ｘ軸方向における互いの距離が閾値未満であるセルＣ同士が同じ列になるように、複数のセルＣの各々の列に関するセル情報を取得する。例えば、セル情報取得部１０３は、複数のセルＣの各々の左上のｘ座標と、他のセルＣの左上のｘ座標と、の距離を計算し、この距離が閾値未満であれば、同じ列であると判定して同じ列番号を付与する。セル情報取得部１０３は、この距離が閾値以上であれば、異なる列であると判定して異なる列番号を付与する。第１実施形態では、同じ列と特定するための閾値は、予め定められた固定値であるものとする。例えば、同じ列を特定するための閾値は、文書Ｄの標準的なフォントの１文字分の横幅と同じ又はそれよりも小さくなるように設定される。

図３の例であれば、セルＣ１～Ｃ２１のうち、左上のｘ座標が最も小さいのは、セルＣ２である。セル情報取得部１０３は、セルＣ２の左上のｘ座標と、左上のｘ座標が２番目に小さいセルＣ３の左上のｘ座標と、の距離を計算し、この距離が閾値未満であるか否かを判定する。セル情報取得部１０３は、この距離が閾値未満であると判定する。以降同様に、セル情報取得部１０３は、セルＣ２の左上のｘ座標と、左上のｘ座標が３番目～１０番目に小さいセルＣ４，Ｃ５，Ｃ７，Ｃ８，Ｃ９，Ｃ１２，Ｃ１７，Ｃ２０の左上のｘ座標と、の距離を計算し、これらの距離が閾値未満であると判定する。セル情報取得部１０３は、１列目には、セルＣ２，Ｃ３，Ｃ４，Ｃ５，Ｃ７，Ｃ８，Ｃ９，Ｃ１２，Ｃ１７，Ｃ２０が属していると判定する。セル情報取得部１０３は、セルＣ２，Ｃ３，Ｃ４，Ｃ５，Ｃ７，Ｃ８，Ｃ９，Ｃ１２，Ｃ１７，Ｃ２０に対し、１列目であることを示す列番号「１」を付与する。

以降同様に、セル情報取得部１０３は、セルＣ１に対し、２列目であることを示す列番号「２」を付与する。セル情報取得部１０３は、セルＣ６に対し、３列目であることを示す列番号「３」を付与する。セル情報取得部１０３は、セルＣ１３，Ｃ１８に対し、４列目であることを示す列番号「４」を付与する。セル情報取得部１０３は、セルＣ１５，Ｃ２１に対し、５列目であることを示す列番号「５」を付与する。セル情報取得部１０３は、セルＣ１０，Ｃ１１に対し、６列目であることを示す列番号「６」を付与する。セル情報取得部１０３は、セルＣ１４，Ｃ１９に対し、７列目であることを示す列番号「７」を付与する。セル情報取得部１０３は、セルＣ１６に対し、８列目であることを示す列番号「８」を付与する。

なお、第１実施形態では、セル情報取得部１０３が、セルＣの左上の座標に基づいて、同じ行又は列に属するセルＣを特定する場合を説明するが、セル情報取得部１０３は、セルＣの右上の座標、左下の座標、右下の座標、又は内部の座標に基づいて、同じ行又は列に属するセルＣを特定してもよい。この場合も、セル情報取得部１０３は、複数のセルＣの各々の距離に基づいて、同じ行又は列に属するか否かを判定すればよい。

［レイアウト解析部］
レイアウト解析部１０４は、複数のセルＣの各々のセル情報に基づいて、文書Ｄに関するレイアウトを解析する。例えば、レイアウト解析部１０４は、セル情報が示す列番号及び行番号の少なくとも一方に基づいて、文書Ｄのレイアウトを解析する。第１実施形態では、レイアウト解析部１０４が、セル情報が示す列番号及び行番号の両方に基づいて、文書Ｄのレイアウトを解析する場合を説明するが、レイアウト解析部１０４は、セル情報が示す列番号又は行番号の何れか一方のみに基づいて、文書Ｄのレイアウトを解析してもよい。

本実施形態では、レイアウト解析部１０４は、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに基づいて、レイアウトを解析する。学習モデルには、訓練用のセル情報と、訓練用のレイアウトと、の関係が学習されている。レイアウト解析部１０４は、複数のセルＣの各々のセル情報を学習モデルに入力する。学習モデルは、複数のセルＣの各々のセル情報を特徴量化し、当該特徴量に応じたレイアウトを出力する。特徴量は、埋め込み表現と呼ばれることもある。第１実施形態では、特徴量がベクトル形式で表現される場合を説明するが、特徴量は、配列又は単一の数値といった他の形式で表現されてもよい。レイアウト解析部１０４は、学習モデルから出力されたレイアウトを取得することによって、レイアウトを解析する。

図７及び図８は、第１実施形態におけるレイアウト解析の一例を示す図である。図７における行と列のマトリックスは、セルＣ１～Ｃ２１が属する行と列を示すものである。セルＣ１～Ｃ２１の大きさは、互いに異なるが、図７のマトリックスでは、同じ大きさで示されている。第１実施形態では、学習モデルがVision Transformerベースのモデルなので、レイアウト解析部１０４は、複数のセルＣの各々のセル情報を所定の条件で並べて学習モデルに入力し、学習モデルによるレイアウトの解析結果を取得することによって、レイアウトを解析する。例えば、セル情報は、文書画像Ｉにおける行の順序を含むので、レイアウト解析部１０４は、複数のセルＣの各々の行の順序に基づいて、複数のセルＣの各々のセル情報をソートして学習モデルに入力する。

図７及び図８の例では、レイアウト解析部１０４は、行番号の昇順にセル情報をソートする。このため、レイアウト解析部１０４は、１行目から順番に並ぶように、セル情報をソートする。例えば、レイアウト解析部１０４は、セルＣ１，Ｃ２，Ｃ３，Ｃ４，Ｃ５，Ｃ６，Ｃ７，Ｃ８，Ｃ１０，Ｃ９，Ｃ１１，Ｃ１２，Ｃ１３，Ｃ１４，Ｃ１５，Ｃ１６，Ｃ１７，Ｃ１８，Ｃ１９，Ｃ２０，Ｃ２１の順でセル情報を並べる。行番号が同じセルＣの中では、セルＩＤ順にソートされる。レイアウト解析部１０４は、行番号の降順にセル情報をしてもよい。学習モデルには、行でソートされたセル情報を含む入力データが入力される。

第１実施形態では、レイアウト解析部１０４は、複数のセルＣの各々の行の順序に基づいて、複数のセルＣの各々のセル情報をソートし、かつ、行が変わる部分に所定の行変化情報を挿入して学習モデルに入力する。行変化情報は、行が変化したことを識別可能な情報である。例えば、行が変化したことを示す特定の文字列は、行変化情報に相当する。行変化情報は、文字列に限られず、行が変化したことを示す単一の文字であってもよいし、行が変化したことを示す画像であってもよい。行変化情報が挿入されることによって、学習モデルは、自身に入力された一連の時系列データのうち、どの部分で行が変化したのかを特定できる。

図７及び図８の例では、レイアウト解析部１０４は、セルＣ１，Ｃ２の間、セルＣ２，Ｃ３の間、セルＣ３，Ｃ４の間、セルＣ４，Ｃ５の間、セルＣ５，Ｃ６の間、セルＣ６，Ｃ７の間、セルＣ７，Ｃ８の間、セルＣ１０，Ｃ９の間、セルＣ１１，Ｃ１２の間、セルＣ１４，Ｃ１５の間、セルＣ１６，Ｃ１７の間、及びセルＣ１９，Ｃ２０の間に、行変化情報を挿入する。図７では、行変化情報は、縦線の正方形で示されている。個々の行変化情報は、互いに同じであってもよいし、何行目と何行目の境界なのかを示す情報が含まれていてもよい。

例えば、セル情報は、文書画像Ｉにおける列の順序を含むので、レイアウト解析部１０４は、複数のセルＣの各々の列の順序に基づいて、複数のセルＣの各々のセル情報をソートして学習モデルに入力する。図７及び図８の例では、レイアウト解析部１０４は、列番号の昇順にセル情報をソートする。このため、レイアウト解析部１０４は、１列目から順番に並ぶように、セル情報をソートする。例えば、レイアウト解析部１０４は、セルＣ２，Ｃ３，Ｃ４，Ｃ５，Ｃ７，Ｃ８，Ｃ９，Ｃ１２，Ｃ１７，Ｃ２０，Ｃ１，Ｃ６，Ｃ１３，Ｃ１８，Ｃ１５，Ｃ２１，Ｃ１０，Ｃ１１，Ｃ１４，Ｃ１９，Ｃ１６の順でセル情報を並べる。列番号が同じセルＣの中では、セルＩＤ順にソートされる。レイアウト解析部１０４は、列番号の降順にセル情報をしてもよい。学習モデルには、列でソートされたセル情報を含む入力データが入力される。

第１実施形態では、レイアウト解析部１０４は、複数のセルＣの各々の列の順序に基づいて、複数のセルＣの各々のセル情報をソートし、かつ、列が変わる部分に所定の列変化情報を挿入して学習モデルに入力する。列変化情報は、列が変化したことを識別可能な情報である。例えば、列が変化したことを示す特定の文字列は、列変化情報に相当する。列変化情報は、文字列に限られず、列が変化したことを示す単一の文字であってもよいし、列が変化したことを示す画像であってもよい。列変化情報が挿入されることによって、学習モデルは、自身に入力された一連の時系列データのうち、どの部分で列が変化したのかを特定できる。

図７及び図８の例では、レイアウト解析部１０４は、セルＣ２０，Ｃ１の間、セルＣ１，Ｃ６の間、セルＣ６，Ｃ１３の間、セルＣ１８，Ｃ１５の間、セルＣ２１，Ｃ１０の間、セルＣ１１，Ｃ１４の間、及びセルＣ１９，Ｃ１６の間に、列変化情報を挿入する。図７では、列変化情報は、横線の正方形で示されている。個々の列変化情報は、互いに同じであってもよいし、何列目と何列目の境界なのかを示す情報が含まれていてもよい。

図８のように、レイアウト解析部１０４は、行でソートされたセル情報の後に、列でソートされたセル情報を配置した入力データを、学習モデルに入力する。なお、行でソートされたセル情報と、列でソートされたセル情報と、の間には、これらのセル情報の境界であることを示す情報が配置されてもよい。また、レイアウト解析部１０４は、列でソートされたセル情報の後に、行でソートされたセル情報を配置した入力データを、学習モデルに入力してもよい。この場合、列でソートされたセル情報と、行でソートされたセル情報と、の間には、これらのセル情報の境界であることを示す情報が配置されてもよい。

図８のように、セル情報が所定の条件のもとで並べられることによって、入力データは、時系列的な意味を有するデータになる。セル情報をソートするための条件は、行番号及び列番号に限られない。例えば、セルＩＤ順にセル情報がソートされてもよいし、左上の座標順にセル情報がソートされてもよい。このようなソートだったとしても、セル情報に行番号及び列番号が含まれているので、学習モデルは、セルＣの行及び列を考慮してレイアウトの解析を実行できる。

学習モデルは、入力データを特徴量化し、特徴量に応じたレイアウトを出力する。特徴量の計算では、入力データにおけるセル情報の並び（セル情報同士のつながり）も考慮される。図８の例では、学習モデルは、学習モデルに学習された複数のパターンのうちの何れに属するかを示す情報を出力する。例えば、学習モデルに学習済みの訓練データに含まれる入力データにおけるセル情報の並びと、学習モデルに入力された入力データにおけるセル情報の並びと、が似ている場合には、学習モデルは、この訓練データに含まれる正解のレイアウトを出力する。

なお、第１実施形態では、図６の各項目（セルＩＤ、セル画像又はその埋め込み表現、文字列又はその埋め込み表現、左上の座標、右下の座標、横幅、縦幅、行番号、及び列番号）を含むセル情報が並べられる場合を説明するが、図６の一部の項目だけを含むセル情報が並べられてもよい。例えば、セル画像又はその埋め込み表現と、文字列又はその埋め込み表現と、だけを含むセル情報が行番号又は列番号でソートされた入力データが学習モデルに入力されてもよい。セル情報には、レイアウト解析で有効と思われる項目が含まれるようにすればよい。

また、Vision Transformer以外の他の機械学習手法が利用される場合には、レイアウト解析部１０４は、他の機械学習手法の学習モデルに入力可能な形式のデータとして、セル情報を入力すればよい。また、入力データのサイズが予め定められている場合には、入力データのサイズにセル情報全体のサイズが足りなければ、足りない分についてはパティングが挿入されてもよい。この場合、入力データ全体のサイズは、パティングによって、所定のサイズになるように調整される。学習モデルの訓練データも同様に、パティングによって所定のサイズになるように調整されてもよい。

［処理実行部］
処理実行部１０５は、レイアウトの解析結果に基づいて、所定の処理を実行する。所定の処理は、レイアウトを解析する目的に応じた処理である。第１実施形態では、商品の明細と合計金額を取得する処理が所定の処理に相当する場合を説明する。処理実行部１０５は、レイアウトの解析結果に基づいて、文書Ｄのどこに商品の明細と合計金額が記載されているかを特定する。処理実行部１０５は、当該特定された位置に基づいて、商品の明細と合計金額を取得する。

図３の例であれば、商品の明細は、ｘ軸方向の中央付近に配置されたセルＣ６以降に記載されることが多いので、処理実行部１０５は、セルＣ８～Ｃ１１を、商品の明細として特定する。合計金額は、商品の明細の下に記載されることが多いので、処理実行部１０５は、セルＣ１２～Ｃ１４を、合計金額として特定する。処理実行部１０５は、商品の明細と合計金額を特定し、ユーザ端末２０に送信する。このような処理によれば、文書画像Ｉから自動的に商品の明細と合計金額を特定できるので、ユーザの利便性が高まる。ユーザは、家計簿ソフト等で商品の明細と合計金額を利用できる。

なお、処理実行部１０５が実行する所定の処理は、上記の例に限られない。所定の処理は、レイアウト解析システム１の利用目的に応じた処理であればよい。例えば、所定の処理は、レイアウト解析部１０４が解析したレイアウトを出力する処理、全てのセルＣの中からレイアウトに応じたセルＣだけを出力する処理、又は文書画像Ｉに対してレイアウトに応じた加工を施す処理であってもよい。

［１－３－２．ユーザ端末で実現される機能］
データ記憶部２００は、記憶部２２を主として実現される。送信部２０１及び受信部２０２は、制御部２１を主として実現される。

［データ記憶部］
データ記憶部２００は、文書画像Ｉの取得に必要なデータを記憶する。例えば、データ記憶部２００は、撮影部２６により生成された文書画像Ｉを記憶する。

［送信部］
送信部２０１は、サーバ１０に対し、種々のデータを送信する。例えば、送信部２０１は、サーバ１０に対し、文書画像Ｉを送信する。

［受信部］
受信部２０２は、サーバ１０から、種々のデータを受信する。例えば、受信部２０２は、サーバ１０から、レイアウトの解析結果として、商品の明細と合計金額を受信する。

［１－４．第１実施形態で実行される処理］
図９は、第１実施形態で実行される処理の一例を示す図である。図９のように、ユーザ端末２０は、ユーザが撮影部２６で文書Ｄを撮影すると、文書画像Ｉを生成してサーバ１０に送信する（Ｓ１００）。サーバ１０は、ユーザ端末２０から文書画像Ｉを受信する（Ｓ１０１）。サーバ１０は、光学文字認識ツールに基づいて、文書画像Ｉに光学文字認識を実行し、セルＣを検出する（Ｓ１０２）。Ｓ１０２では、サーバ１０は、セルＣのセル情報のうち、行番号及び列番号以外の部分を取得する。

サーバ１０は、複数のセルＣの各々のｙ座標に基づいて、互いに同じ行に属するセルＣに同じ行番号を付与し、複数のセルＣの各々のｘ座標に基づいて、互いに同じ列に属するセルＣに同じ列番号を付与することによって、複数のセルＣの各々のセル情報を取得する（Ｓ１０３）。Ｓ１０３では、サーバ１０は、セル情報のうち、Ｓ１０２の処理で取得できなかった部分を取得する。

サーバ１０は、Ｓ１０３で取得したセル情報に含まれる行番号に基づいて、セルＣのセル情報をソートする（Ｓ１０４）。サーバ１０は、Ｓ１０３で取得したセル情報に含まれる列番号に基づいて、セルＣのセル情報をソートする（Ｓ１０５）。サーバ１０は、Ｓ１０４及びＳ１０５でソートされたセル情報と、学習モデルと、に基づいて、文書Ｄのレイアウトを解析する（Ｓ１０６）。サーバ１０は、ユーザ端末２０に対し、文書Ｄのレイアウトの解析結果を送信する（Ｓ１０７）。ユーザ端末２０は、文書Ｄのレイアウトの解析結果を受信し（Ｓ１０８）、本処理は終了する。

第１実施形態のレイアウト解析システム１は、文書Ｄが示された文書画像Ｉの中から、複数のセルＣを検出する。レイアウト解析システム１は、複数のセルＣの各々の座標に基づいて、複数のセルＣの各々の行及び列の少なくとも一方に関するセル情報を取得する。レイアウト解析システム１は、複数のセルＣの各々のセル情報に基づいて、文書Ｄに関するレイアウトを解析する。これにより、文書画像Ｉにおける同じ行又は列に配置された構成要素の微妙な座標のずれが及ぼす影響を吸収できるので、レイアウト解析の精度が高まる。例えば、ある構成要素Ａと、他の構成要素Ｂと、が本来は同じ行又は列に配置されていたとしても、構成要素ＡのセルＣの座標と、構成要素ＢのセルＣの座標と、の微妙なずれによって、構成要素Ａ，Ｂが互いに異なる行又は列に配置されていると認識された場合には、レイアウト解析の精度が低下する可能性がある。この点、第１実施形態のレイアウト解析システム１は、構成要素Ａ，Ｂが互いに同じ行又は列にあることを特定したうえで、レイアウトを解析できるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに基づいて、レイアウトを解析する。学習済みの学習モデルを利用することによって、未知のレイアウトに対応できるようになる。例えば、セルＣの座標がそのまま学習モデルに入力される場合には、同じ行又は列のセルＣ同士の微妙な座標のずれによって、学習モデルの内部で互いに異なる行又は列のセルＣと認識される可能性があるが、学習モデルに入力する前に、同じ行又は列のセルＣを特定することによって、このような座標のずれに起因するレイアウト解析の精度低下を防止できる。

また、レイアウト解析システム１は、複数のセルＣの各々のセル情報を所定の条件で並べて学習モデルに入力し、学習モデルによるレイアウトの解析結果を取得することによって、レイアウトを解析する。セル情報が並べられた入力データにすることによって、セル情報の互いの関係も学習モデルに考慮させてレイアウトを解析できるので、レイアウト解析の精度が高まる。例えば、学習モデルは、あるセルＣの特徴と、その次に配置されたセルＣの特徴と、の関係も考慮してレイアウトを解析できる。

また、レイアウト解析システム１は、学習モデルは、Vision Transformerベースのモデルである。入力データに含まれる項目同士の関係を考慮しやすいVision Transformerを利用することによって、セル情報同士の関係を考慮しやすくなるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、複数のセルＣの各々の行の順序に基づいて、複数のセルＣの各々のセル情報をソートして学習モデルに入力する。これにより、同じ行のセルＣ同士の関係性を学習モデルが認識しやすくなるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、複数のセルＣの各々の行の順序に基づいて、複数のセルの各々のセル情報をソートし、かつ、行が変わる部分に所定の行変化情報を挿入して学習モデルに入力する。これにより、学習モデルは、行変化情報によってどの部分で行が変わるのかを認識できるようになる。その結果、同じ行のセルＣ同士の関係性を学習モデルが認識しやすくなるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、複数のセルＣの各々の列の順序に基づいて、複数のセルＣの各々のセル情報をソートして学習モデルに入力する。これにより、同じ列のセルＣ同士の関係性を学習モデルが認識しやすくなるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、複数のセルＣの各々の列の順序に基づいて、複数のセルＣの各々のセル情報をソートし、かつ、列が変わる部分に所定の列変化情報を挿入して学習モデルに入力する。これにより、学習モデルは、列変化情報によってどの部分で行が変わるのかを認識できるようになる。その結果、同じ列のセルＣ同士の関係性を学習モデルが認識しやすくなるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、複数のセルＣの各々のｙ座標に基づいて、ｙ軸方向における互いの距離が閾値未満であるセルＣ同士が同じ行になるように、複数のセルＣの各々の行に関するセル情報を取得する。これにより、同じ行にあるセルＣを精度よく特定できるようになる。

また、レイアウト解析システム１は、複数のセルＣの各々のｘ座標に基づいて、ｘ軸方向における互いの距離が閾値未満であるセルＣ同士が同じ列になるように、複数のセルＣの各々の列に関するセル情報を取得する。これにより、同じ列にあるセルＣを精度よく特定できるようになる。

また、レイアウト解析システム１は、文書画像Ｉに光学文字認識を実行することによって、複数のセルＣを検出する。これにより、文字を含む文書Ｄのレイアウト解析の精度が高まる。

［２．第２実施形態］
次に、レイアウト解析システム１の別実施形態である第２実施形態を説明する。第２実施形態では、マルチスケールに対応可能なレイアウト解析システム１を説明する。マルチスケールとは、複数のスケールの各々のセルＣを検出することである。スケールとは、セルＣを検出基準となる単位である。スケールは、セルＣに含まれる文字の集まりということもできる。

図１０は、第２実施形態におけるスケールの一例を示す図である。第２実施形態では、スケールの一例として、トークンレベル及びワードレベルの２つを例に挙げる。図１０では、トークンレベルのセルＣ１０１～セルＣ１２１と、ワードレベルのセルＣ２０１～Ｃ２３３と、が示されている。セルＣ１０１～セルＣ１２１は、第１実施形態のセルＣ１～Ｃ２１と同じである。以降、セルＣ１０１～Ｃ１２１，Ｃ２０１～Ｃ２３３を区別しない時は、単にセルＣという。図１０の２つの文書画像Ｉは、互いに同じである。

トークンレベルは、トークンをセルＣの単位とするスケールである。トークンは、少なくとも１つの単語の集まりである。トークンは、フレーズということもできる。例えば、ある単語と、次の単語と、の間に空白が存在したとしても、１文字分のスペースであれば、これら２つの単語は、１つのトークンとして認識される。３つ以上の単語についても同様である。トークンレベルのセルＣは、１つのトークンを含む。ただし、本来は１つのトークンだったとしても、文字間の微妙な空白によって、１つのトークンから複数のセルＣが検出されることもある。第１実施形態で説明したセルＣのスケールは、トークンレベルである。

ワードレベルは、単語をセルＣの単位とするスケールである。ワードレベルのセルＣは、１つの単語を含む。ある文字と、次の文字と、の間に空白が存在した場合には、これらの文字の間の空白によって、単語が分けられる。トークンレベルと同様に、本来は１つの単語だったとしても、文字間の微妙な空白によって、１つの単語から複数のセルＣが検出されることもある。文書Ｄに含まれる単語は、トークンレベルのセルＣに属することもあるし、ワードレベルのセルＣに属することもある。

なお、スケール自体は、任意のレベルであってよく、トークンレベル及びワードレベルに限られない。例えば、スケールは、文書全体をセルＣの単位とする文書レベル、テキストブロックをセルＣの単位とするテキストブロックレベル、又はラインをセルＣの単位とするラインレベルであってもよい。文書レベルのセルＣは、１つの文書Ｄだけが文書画像Ｉに示されている場合には、文書画像Ｉから１つしか検出されない。テキストブロックは、ある一定程度の文章の集まりであり、例えば、段落である。ラインは、横書きの文書Ｄであれば行と同じ意味であり、縦書きの文書Ｄであれば列と同じ意味である。

第２実施形態では、トークンレベルのセルＣ１０１～Ｃ１２１のセル情報と、ワードレベルのセルＣ２０１～Ｃ２３３のセル情報と、を含む入力データが学習モデルに入力される。レイアウト解析システム１は、ある単一のスケールのセルＣではなく、複数のスケールの各々のセルＣのセル情報に基づいて、文書Ｄのレイアウトを解析する。レイアウト解析システム１は、複数のスケールで複合的な解析をすることによって、レイアウト解析の精度を高めるようになっている。以降、第２実施形態の詳細を説明する。第２実施形態では、第１実施形態と同様の構成については説明を省略する。

［２－１．第２実施形態で実現される機能］
図１１は、第２実施形態で実現される機能の一例を示す図である。

［２－１－１．サーバで実現される機能］
例えば、データ記憶部１００、画像取得部１０１、セル検出部１０２、セル情報取得部１０３、レイアウト解析部１０４、処理実行部１０５、及び小領域情報取得部１０６を含む。小領域情報取得部１０６は、制御部１１により実現される。

［データ記憶部］
データ記憶部１００は、概ね第１実施形態と同様である。第２実施形態のデータ記憶部１００は、複数のスケールの各々に対応した光学文字認識ツールを記憶する。第２実施形態では、複数のスケールは、複数の単語を含むトークンをセルＣの単位とするトークンレベルと、単語をセルＣの単位とするワードレベルと、を含むので、データ記憶部は、トークンレベルでセルＣを検出する光学文字認識ツールと、ワードレベルでセルＣを検出する光学文字認識ツールと、を記憶する。これらは、複数の光学文字認識ツールに分けられていなくてもよく、１つの光学文字認識ツールが複数のスケールに対応していてもよい。

なお、第２実施形態では、ワードレベルの光学文字認識ツールだけが利用されてもよい。この場合、トークンレベルのセルＣは、ワードレベルのセルＣがグループ化されることによって検出されてもよい。例えば、セル検出部１０２は、ワードレベルのセルＣのうち、同じ行の隣接するセルＣ同士をグループ化し、トークンレベルの１つのセルＣとして検出してもよい。同様に、セル検出部１０２は、ワードレベルのセルＣのうち、同じ列の隣接するセルＣ同士をグループ化し、トークンレベルの１つのセルＣとして検出してもよい。このように、セル検出部１０２は、あるスケールのセルＣをグループ化することによって、他のスケールのセルＣを検出してもよい。

図１２は、第２実施形態における学習モデルの入力と出力の関係の一例を示す図である。第２実施形態の訓練データは、トークンレベルのセル情報、ワードレベルのセル情報、及び小領域情報を含む。トークンレベルのセル情報は、行でソートされたセル情報と、列でソートされたセル情報と、を含む。第２実施形態の訓練データのうち、トークンレベルのセル情報の部分は、図５で説明した第１実施形態の訓練データと同様である。

図１２のワードレベルのセル情報は、ワードレベルという点でトークンレベルのセル情報とは異なるが、他の点については同様である。このため、第２実施形態の訓練データのうち、ワードレベルのセル情報の部分は、行でソートされたセル情報の後に、列でソートされたセル情報が並べられている。ワードレベルのセル情報も、列でソートされたセル情報の後に、行でソートされたセル情報が並べられていてもよい。小領域情報は、訓練画像が複数に分割された小領域に関する情報である。小領域情報の詳細は、後述する。

第２実施形態では、学習モデルに対する入力データは、サイズが予め定められている。更に、入力データにおけるワードレベルのセル情報、トークンレベルのセル情報、及び小領域情報の各々のサイズも予め定められている。例えば、入力データ全体は、ａ（ａは任意の正数。例えば、ａ＝１００。）個分の情報が並べられる。ワードレベルの部分は、ｂ（ｂは、ａよりも小さく、かつ、後述のｃよりも大きい正数。例えば、ｂ＝５０。）個分の情報が並べられる。トークンレベルの部分は、ｃ（ｃは、ｂよりも小さい正数。例えば、ｃ＝３０。）個分の情報が並べられる。小領域情報の部分は、ａ－ｂ－ｃ（例えば、２０）個分の情報が並べられる。

なお、入力データは、情報の個数ではなく、ビット数が定められていてもよい。例えば、入力データ全体は、ｄ（ｄは任意の正数。例えば、ｄ＝１０００。）ビット分の情報が並べられる。ワードレベルの部分は、ｅ（ｅは、ｄよりも小さく、かつ、後述のｆよりも大きい正数。例えば、ｂ＝５００。）ビット分の情報が並べられる。トークンレベルの部分は、ｆ（ｆは、ｅよりも小さい正数。例えば、ｆ＝３００。）ビット分の情報が並べられる。小領域情報の部分は、ｄ－ｅ－ｆ（例えば、２００）ビット分の情報が並べられるようにしてもよい。

［画像取得部］
画像取得部１０１は、第１実施形態と同様である。

［セル検出部］
セル検出部１０２がセルＣを検出する基本的な処理自体は、第１実施形態と同様であるが、第２実施形態では、マルチスケールに対応している点で第１実施形態とは異なる。セル検出部１０２は、複数の構成要素を含む文書Ｄが示された文書画像Ｉの中から、複数のスケールの各々のセルＣを検出する。例えば、セル検出部１０２は、トークンレベルの光学文字認識ツールに基づいて、１つのトークンが１つのセルＣに含まれるように、文書画像Ｉの中から、トークンレベルの複数のセルＣを検出する。トークンレベルのセルＣの検出方法は、第１実施形態で説明した通りである。

例えば、セル検出部１０２は、ワードレベルの光学文字認識ツールに基づいて、１つの単語が１つのセルＣに含まれるように、文書画像Ｉの中から、ワードレベルの複数のセルＣを検出する。ワードレベルのセルＣが検出される点でトークンレベルのセルＣの検出とは異なるが、他の点については同様である。ワードレベルの形態素解析ツールは、単語を含むセルＣごとに、セル画像、セルＣに含まれる単語、セルＣの左上の座標、セルＣの右下の座標、セルＣの横幅、及びセルＣの縦幅を出力するものとする。セル検出部１０２は、光学文字認識ツールからの出力を取得することによって、ワードレベルのセルＣを検出する。

なお、文書Ｄの構成要素によっては、セル検出部１０２は、複数の構成要素のうちの少なくとも１つが、互いに異なるスケールのセルＣに含まれるように、複数のスケールの各々のセルＣを検出することもある。図１０の例であれば、構成要素「ＸＹＺ」は、トークンレベルのセルＣ１００にも含まれるし、ワードレベルのセルＣ２００にも含まれる。他の構成要素についても同様に、トークンレベルのセルＣと、ワードレベルのセルＣと、の両方に含まれることがある。

また、１つの光学文字認識ツールがトークンレベル及びワードレベルの両方に対応している場合には、セル検出部１０２は、１つの光学文字認識ツールから、トークンレベルのセルＣに関する出力と、ワードレベルのセルＣに関する出力と、を取得すればよい。トークンレベル及びワードレベル以外の他のスケールが利用される場合には、セル検出部１０２は、当該他のスケールのセルＣを検出すればよい。

例えば、文書レベルのスケールが利用される場合には、セル検出部１０２は、文書Ｄ全体を示すセルＣを検出する。この場合、セル検出部１０２は、光学文字認識ツールではなく、文書Ｄの輪郭を抽出する輪郭抽出処理に基づいて、文書レベルのセルＣを検出してもよい。例えば、テキストブロックレベルのスケールが利用される場合には、セル検出部１０２は、テキストブロックレベルに対応した光学文字認識ツールからの出力を取得することによって、テキストブロックレベルのセルＣを検出すればよい。例えば、ラインレベルのスケールが利用される場合には、セル検出部１０２は、ラインレベルに対応した光学文字認識ツールからの出力を取得することによって、ラインレベルのセルＣを検出すればよい。

［セル情報取得部］
セル情報取得部１０３がセル情報を取得する方法自体は、第１実施形態と同様であるが、第２実施形態では、セル情報取得部１０３は、複数のスケールの各々のセルＣに関するセル情報を取得する。セル情報に含まれる項目自体は、第１実施形態と同様であってよい。第２実施形態では、セル情報には、複数のスケールのうちのどのスケールなのかを識別可能な情報が含まれていてもよい。第２実施形態でも、第１実施形態と同様、セル情報取得部１０３は、セルＣの行番号及び列番号を特定してセル情報に含めるものとする。

第２実施形態では、セル情報取得部１０３は、複数のスケールのうち、複数の単語をセルＣの単位とするスケールについては、複数の単語のうちの何れかに基づいて、セル情報を取得する。例えば、トークンレベルのセルＣには、複数の単語が含まれることもある。セル情報取得部１０３は、トークンに含まれる複数の単語の情報をセル情報に含めてもよいが、複数の単語のうちの１つ目の単語のみをセル情報に含めるものとする。セル情報取得部１０３は、複数の単語のうちの１つ目の単語ではなく、２つ目以降の単語のみをセル情報に含めてもよい。

［小領域情報取得部］
小領域情報取得部１０６は、予め定められた分割位置に基づいて、文書画像Ｉを複数の小領域に分割し、当該複数の小領域の各々に関する小領域情報を取得する。分割位置は、小領域の境界を示す位置である。小領域は、文書画像Ｉの一部の領域である。第２実施形態では、全ての小領域が同じサイズである場合を例に挙げるが、小領域のサイズが互いに異なってもよい。

図１３は、小領域の一例を示す図である。図１３では、分割位置が文書画像Ｉ上に破線で示されている。例えば、小領域情報取得部１０６は、文書画像Ｉを、ｘ軸方向及びｙ軸方向の各々で３等分することによって、３×３の９個の小領域ＳＡ１～ＳＡ９に分割する。以降、小領域ＳＡ１～ＳＡ９を区別しない時は、単に小領域ＳＡという。小領域情報取得部１０６は、小領域ＳＡごとに、当該小領域ＳＡに関する小領域情報を取得する。

第２実施形態では、小領域情報に含まれる項目は、セル情報と同様であるものとするが、小領域情報に含まれる項目と、セル情報に含まれる項目と、は互いに異なってもよい。例えば、小領域情報には、小領域ＩＤ、小領域画像、文字列、左上の座標、右下の座標、横幅、縦幅、行番号、及び列番号が含まれる。小領域ＩＤは、小領域ＳＡを識別可能な情報である。小領域画像は、文書画像Ｉのうち、小領域ＳＡ内の部分である。文字列は、小領域ＳＡに含まれる少なくとも１つの文字である。小領域ＳＡ内の文字は、光学文字認識によって取得される。セル情報と同様、小領域情報に含まれる小領域画像及び文字は、特徴量化されていてもよい。

なお、小領域ＳＡを取得するための分割位置は、予め定められているので、左上の座標、右下の座標、横幅、縦幅、行番号、及び列番号は、予め定められた値になる。小領域ＳＡの数は、任意の数であってよく、図１３のような９個に限られない。例えば、小領域情報取得部１０６は、２個～８個又は１０個以上の小領域ＳＡに分割してもよい。小領域ＳＡが２個～８個又は１０個以上である場合も同様に、小領域情報取得部１０６は、小領域ＳＡごとに小領域情報を取得すればよい。

［レイアウト解析部］
レイアウト解析部１０４は、複数のスケールの各々のセル情報に基づいて、文書Ｄに関するレイアウトを解析する。第２実施形態では、レイアウト解析部１０４は、訓練用の文書Ｄに関する訓練用のレイアウトが学習された学習モデルに基づいて、レイアウトを解析する。第１実施形態と同様に、学習モデルの一例として、Vision Transformerベースのモデルを説明する。

学習モデルには、訓練用に取得された複数のスケールの各々のセル情報と、訓練用のレイアウトと、の関係が学習されている。レイアウト解析部１０４は、複数のスケールの各々のセル情報を学習モデルに入力する。学習モデルは、複数のスケールの各々のセル情報を特徴量化し、当該特徴量に応じたレイアウトを出力する。特徴量の詳細は、第１実施形態で説明した通りである。レイアウト解析部１０４は、学習モデルから出力されたレイアウトを取得することによって、レイアウトを解析する。

図１４は、第２実施形態におけるレイアウト解析の一例を示す図である。例えば、レイアウト解析部１０４は、複数のスケールの各々のセル情報を所定の条件で並べて学習モデルに入力し、学習モデルによるレイアウトの解析結果を取得することによって、レイアウトを解析する。第２実施形態では、第１実施形態と同様、レイアウト解析部１０４は、行でセル情報をソートした後に、列でセル情報をソートする。レイアウト解析部１０４は、これらのソートを、スケールごとに行う。レイアウト解析部１０４は、複数のスケールの各々のセル情報を並べることによって入力データを取得し、学習モデルに入力データを入力する。学習モデルは、時系列データの特徴ベクトルを計算し、当該特徴ベクトルに応じたレイアウトを出力する。

例えば、レイアウト解析部１０４は、第１スケールの複数のセル情報が所定の条件で並べられ、かつ、その後に第２スケールの複数のセル情報が所定の条件で並べられた入力データを、学習モデルに入力することによって、レイアウトを解析する。図１４の例では、レイアウト解析部１０４は、第１スケールの一例であるトークンレベルのセル情報が並べられた後に、第２スケールの一例であるワードレベルのセル情報が並べられた時系列データを、学習モデルに入力する。なお、第１スケールと第２スケールは、第２実施形態の例に限られない。例えば、レイアウト解析部１０４は、第１スケールの一例であるワードレベルのセル情報が並べられた後に、第２スケールの一例であるトークンレベルのセル情報が並べられた時系列データを、学習モデルに入力してもよい。

図１４の例では、入力データ全体のうち、ワードレベルのセル情報の部分には、ワードレベルのセルＣ２０１～Ｃ２３２のセル情報が行でソートされた後に、ワードレベルのセルＣ２０１～Ｃ２３２のセル情報が列でソートされている。入力データ全体のうち、トークンレベルのセル情報の部分には、トークンレベルのセルＣ１０１～Ｃ１２１のセル情報が行でソートされた後に、トークンレベルのセルＣ１０１～Ｃ１２１のセル情報が列でソートされている。これらのソートの条件が行及び列に限られない点は、第１実施形態で説明した通りである。セル情報は、他の条件でソートされてもよい。その後に、小領域ＳＡ１～ＳＡ９の小領域情報が並べられている。

第２実施形態では、レイアウト解析部１０４は、スケールのサイズが小さいほど、データサイズが大きくなるように、複数のスケールの各々のデータサイズが定義された入力データに、複数のスケールの各々のセル情報を順序で並べて学習モデルに入力する。図１４の例では、ワードレベルは、トークンレベルよりもサイズが小さいので、ワードレベルのセルＣの数は、トークンレベルのセルＣの数よりも多くなる可能性が高い。このため、時系列データのフォーマットは、トークンレベルよりもワードレベルの方が、データサイズが大きくなっている。なお、ここでのサイズとは、セルＣとして検出する語の単位である。セルＣに含まれる語が多いほど、サイズが大きくなる。

例えば、レイアウト解析部１０４は、複数のスケールの各々のセル情報の合計サイズが、学習モデルへの入力データに定められた標準サイズに足りない場合には、合計サイズが標準サイズに足りない分をパティングで置き換えた入力データに、複数のスケールの各々のセル情報を順序で並べて学習モデルに入力する。図１４の例では、レイアウト解析部１０４は、ワードレベルのフォーマットにデータサイズが足りない場合には、その分だけパティングで置き換える。パティングは、空のデータであることを示す所定の文字列である。パティングによって、入力データは、所定のサイズを有する。

例えば、レイアウト解析部１０４は、複数のスケールの各々のセル情報と、複数の小領域の各々の小領域情報と、に基づいて、レイアウトを解析する。図１４の例では、レイアウト解析部１０４は、セル情報だけではなく、小領域情報も入力データに含める。図１４の例では、セル情報の後に小領域情報が配置されているが、小領域情報の後にセル情報が配置されてもよい。学習モデルは、入力データを特徴量化し、特徴量に応じたレイアウトを出力する。特徴量の計算では、入力データにおけるセル情報の並び（セル情報同士のつながりと小領域情報同士のつながり）も考慮される。

なお、入力データには、ワードレベルのセル情報の後にトークンレベルのセル情報が配置されるのではなく、ワードレベルのセル情報と、トークンレベルのセル情報と、が交互に並べられてもよい。入力データには、複数のスケールの各々のセル情報が予め定められたルールで並べられるようにすればよい。また、Vision Transformer以外の他の機械学習手法が利用される場合には、レイアウト解析部１０４は、他の機械学習手法の学習モデルに入力可能な形式のデータとして、セル情報及び小領域情報を含む入力データを学習モデルに入力すればよい。

［処理実行部］
処理実行部１０５は、第１実施形態と同様である。

［２－１－２．ユーザ端末で実現される機能］
ユーザ端末２０の機能は、第１実施形態と同様である。

［２－２．第２実施形態で実行される処理］
図１５は、第２実施形態で実行される処理の一例を示す図である。Ｓ２００及びＳ２０１の処理は、それぞれＳ１００及びＳ１０１と同様である。サーバ１０は、文書画像Ｉに光学文字認識を実行し、複数のスケールの各々のセルＣを検出する（Ｓ２０２）。Ｓ２０３～Ｓ２０５の処理は、それぞれＳ１０３～Ｓ１０５の処理と同様である。サーバ１０は、全てのスケールの処理を実行したかを判定する（Ｓ２０６）。まだ処理を実行していないスケールが存在する場合（Ｓ２０６：Ｎ）、Ｓ２０３～Ｓ２０５の処理が実行される。

全てのスケールについて処理を実行したと判定された場合（Ｓ２０６：Ｙ）、サーバ１０は、文書画像Ｉを複数の小領域ＳＡに分割し（Ｓ２０７）、小領域情報を取得する（Ｓ２０８）。サーバ１０は、複数のスケールの各々のセル情報と、複数の小領域ＳＡの各々の小領域情報と、を含む入力データを学習モデルに入力し、レイアウトを解析する（Ｓ２０９）。続くＳ２１０及びＳ２１１の処理は、それぞれＳ１０８及びＳ１０９の処理と同様である。

第２実施形態のレイアウト解析システム１は、文書画像Ｉの中から、複数のスケールの各々のセルＣを検出する。レイアウト解析システム１は、複数のスケールの各々のセルＣに関するセル情報を取得する。レイアウト解析システム１は、複数のスケールの各々のセル情報に基づいて、文書に関するレイアウトを解析する。これにより、複数のスケールの各々のセルＣを複合的に考慮して文書Ｄのレイアウトを解析できるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに基づいて、レイアウトを解析する。学習済みの学習モデルを利用することによって、未知のレイアウトに対応できるようになる。

また、レイアウト解析システム１は、複数のスケールの各々のセル情報を所定の条件で並べて学習モデルに入力し、学習モデルによるレイアウトの解析結果を取得することによって、レイアウトを解析する。セル情報が並べられた入力データにすることによって、セル情報の互いの関係も学習モデルに考慮させてレイアウトを解析できるので、レイアウト解析の精度が高まる。例えば、学習モデルは、あるセルＣの特徴と、その次に配置されたセルＣの特徴と、の関係も考慮してレイアウトを解析できる。

また、レイアウト解析システム１は、第１スケールの複数のセル情報が所定の条件で並べられ、かつ、その後に第２スケールの複数のセル情報が所定の条件で並べられた入力データを、学習モデルに入力することによって、レイアウトを解析する。これにより、あるスケールにおけるセルＣ同士の関係を学習モデルに考慮させてレイアウトを解析できるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、スケールのサイズが小さいほど、データサイズが大きくなるように、複数のスケールの各々のデータサイズが定義された入力データに、複数のスケールの各々のセル情報を順序で並べて学習モデルに入力する。これにより、スケールのサイズが小さいほどセルＣが多くなりがちなので、入力データのフォーマットに収まらないといったことを防止できる。

また、レイアウト解析システム１は、複数のスケールの各々のセル情報の合計サイズが、学習モデルへの入力データに定められた標準サイズに足りない場合には、合計サイズが標準サイズに足りない分をパティングで置き換えた入力データに、複数のスケールの各々のセル情報を順序で並べて学習モデルに入力する。これにより、所定のデータサイズの入力データにすることができるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、複数のスケールのうち、複数の単語をセルＣの単位とするスケールについては、複数の単語のうちの何れかに基づいて、セル情報を取得する。これにより、レイアウト解析の処理を簡易化できる。

また、レイアウト解析システム１は、複数の構成要素のうちの少なくとも１つが、互いに異なるスケールのセルＣに含まれるように、複数のスケールの各々のセルＣを検出する。これにより、ある１つの構成要素を複数の観点で解析できるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、複数のスケールの各々のセル情報と、複数の小領域ＳＡの各々の小領域情報と、に基づいて、レイアウトを解析する。これにより、複数のスケールだけではなく、他の要素も考慮してレイアウトを解析できるので、レイアウト解析の精度が高まる。

また、レイアウト解析システム１は、複数のスケールは、複数の単語を含むトークンをセルＣの単位とするトークンレベルと、単語をセルＣの単位とするワードレベルと、を含む。これにより、トークンレベルとワードレベルを複合的に考慮できるので、レイアウト解析の精度が高まる。

［３．変形例］
なお、本開示は、以上に説明した第１実施形態及び第２実施形態に限定されるものではない。本開示の趣旨を逸脱しない範囲で、適宜変更可能である。

［３－１．第１実施形態に関する変形例］
図１６は、第１実施形態に関する変形例における機能の一例を示す図である。第１実施形態に関する変形例では、サーバ１０は、第１閾値決定部１０７及び第２閾値決定部１０８を含む。第１閾値決定部１０７及び第２閾値決定部１０８は、制御部１１により実現される。

［変形例１－１］
例えば、第１実施形態では、同じ行及び同じ列を特定するための閾値が固定値である場合を説明したが、この閾値は、文書Ｄ全体のサイズに基づいて決定されてもよい。レイアウト解析システム１は、第１閾値決定部１０７を含む。第１閾値決定部１０７は、文書Ｄ全体のサイズに基づいて、閾値を決定する。文書Ｄ全体のサイズとは、文書Ｄ全体の縦幅及び横幅の少なくとも一方である。文書画像Ｉのうち文書Ｄ全体が示された領域は、輪郭検出処理によって特定されるようにすればよい。第１閾値決定部１０７は、文書画像Ｉのうち、最も大きな四角形の輪郭を、文書Ｄ全体の領域として特定する。

例えば、第１閾値決定部１０７は、文書Ｄ全体のサイズが大きいほど、閾値が大きくなるように、閾値を決定する。文書Ｄ全体のサイズと、閾値と、の関係は、予めデータ記憶部１００に記録されているものとする。この関係は、数式形式のデータ、テーブル形式のデータ、又はプログラムコードの一部に定義されているものとする。第１閾値決定部１０７は、文書Ｄ全体のサイズに関連付けられた閾値となるように、閾値を決定する。

例えば、第１閾値決定部１０７は、文書Ｄの縦幅が長いほど、同じ行を特定するための閾値が大きくなるように、この閾値を決定する。第１閾値決定部１０７は、文書Ｄの横幅が長いほど、同じ列を特定するための閾値が大きくなるように、この閾値を決定する。なお、第１閾値決定部１０７は、同じ行を特定するための閾値と、同じ列を特定するための閾値と、の少なくとも一方を決定すればよい。第１閾値決定部１０７は、同じ行を特定するための閾値と、同じ列を特定するための閾値と、の両方ではなく、何れか一方のみを決定してもよい。

変形例１－１のレイアウト解析システム１は、文書Ｄ全体のサイズに基づいて、閾値を決定する。これにより、行及び列を特定するために最適な閾値を設定できるので、レイアウト解析の精度が高まる。

［変形例１－２］
例えば、文書Ｄ全体ではなく、セルＣのサイズに応じた閾値が設定されてもよい。レイアウト解析システム１は、第２閾値決定部１０８を含む。第２閾値決定部１０８は、複数のセルの各々のサイズに基づいて、閾値を決定する。セルＣのサイズとは、セルＣの縦幅及び横幅の少なくとも一方である。例えば、第２閾値決定部１０８は、セルＣのサイズが大きいほど、閾値が大きくなるように、閾値を決定する。

例えば、セルＣのサイズと、閾値と、の関係は、予めデータ記憶部１００に記録されているものとする。この関係は、数式形式のデータ、テーブル形式のデータ、又はプログラムコードの一部に定義されているものとする。第２閾値決定部１０８は、セルＣのサイズに関連付けられた閾値となるように、閾値を決定する。

例えば、第２閾値決定部１０８は、あるセルＣの縦幅が長いほど、このセルＣと同じ行を特定するための閾値が大きくなるように、この閾値を決定する。第２閾値決定部１０７は、あるセルＣの横幅が長いほど、このセルＣと同じ列を特定するための閾値が大きくなるように、この閾値を決定する。なお、第２閾値決定部１０８は、同じ行を特定するための閾値と、同じ列を特定するための閾値と、の少なくとも一方を決定すればよい。第２閾値決定部１０８は、同じ行を特定するための閾値と、同じ列を特定するための閾値と、の両方ではなく、何れか一方のみを決定してもよい。

変形例１－２のレイアウト解析システム１は、複数のセルＣの各々のサイズに基づいて、閾値を決定する。これにより、行及び列を特定するために最適な閾値を設定できるので、レイアウト解析の精度が高まる。

［第１実施形態に関するその他の変形例］
例えば、第１実施形態では、図８のように、行でソートされたセル情報の後に、列でソートされたセル情報が配置された入力データが、１つの学習モデルに入力される場合を説明した。行でソートされたセル情報に基づいて文書Ｄのレイアウトを解析するための第１学習モデルと、列でソートされたセル情報に基づいて文書Ｄのレイアウトを解析するための第２学習モデルと、が別々に用意されていてもよい。

例えば、第１学習モデルには、訓練画像から検出されたセルのセル情報が行でソートされた入力データと、訓練画像に示された訓練用の文書のレイアウトと、の関係を示す訓練データが学習されている。レイアウト解析部１０４は、文書画像Ｉから検出されたセルＣのセル情報を行でソートした入力データを、学習済みの第１学習モデルに入力する。第１学習モデルは、当該入力データを特徴量化し、特徴量に応じたレイアウトを出力する。レイアウト解析部１０４は、第１学習モデルからの出力を取得することによって、レイアウトを解析する。

例えば、第２学習モデルには、訓練画像から検出されたセルのセル情報が列でソートされた入力データと、訓練画像に示された訓練用の文書のレイアウトと、の関係を示す訓練データが学習されている。レイアウト解析部１０４は、文書画像Ｉから検出されたセルＣのセル情報を列でソートした入力データを、学習済みの第２学習モデルに入力する。第２学習モデルは、当該入力データを特徴量化し、特徴量に応じたレイアウトを出力する。レイアウト解析部１０４は、第２学習モデルからの出力を取得することによって、レイアウトを解析する。

例えば、レイアウト解析部１０４は、第１学習モデル及び第２学習モデルの両方に基づいてレイアウトを解析するのではなく、第１学習モデル又は第２学習モデルの何れか一方のみに基づいてレイアウトを解析してもよい。即ち、レイアウト解析部１０４は、文書画像Ｉから検出したセルＣの行又は列の何れか一方のみに基づいて、文書Ｄのレイアウトを解析してもよい。

例えば、第１実施形態では、機械学習手法を利用した学習モデルに基づいて、文書Ｄのレイアウトが解析される場合を説明したが、機械学習手法以外の手法を利用して、文書Ｄのレイアウトが解析されてもよい。例えば、第１実施形態において、見本となる文書の画像から検出されたセルの行及び列の少なくとも一方の並びのパターンと、文書画像Ｉから検出されたセルＣの行及び列の少なくとも一方の並びのパターンと、の類似度が計算されることによって、文書Ｄのレイアウトが解析されてもよい。

［３－２．第２実施形態に関する変形例］
例えば、レイアウト解析システム１は、第２実施形態で説明した複数のスケールに関する機能だけを含み、第１実施形態で説明した行及び列に関する機能を含まなくてもよい。第２実施形態では、第１実施形態と同様に、行及び列でセル情報がソートされる場合を説明したが、第２実施形態では、第１実施形態で説明した機能が含まれなくてもよい。このため、第２実施形態では、行及び列でセル情報がソートされることなく、複数のスケールの各々のセルＣのセル情報が時系列データの中で並べられてもよい。この場合、行及び列ではない条件でセル情報がソートされるようにすればよい。例えば、第２実施形態では、小領域情報がレイアウト解析で利用されなくてもよい。

例えば、第２実施形態では、機械学習手法を利用した学習モデルに基づいて、文書Ｄのレイアウトが解析される場合を説明したが、機械学習手法以外の手法を利用して、文書Ｄのレイアウトが解析されてもよい。例えば、第２実施形態において、文書画像Ｉから検出された複数のスケールの各々のセルＣのセル情報を含む入力データと、見本となる文書の画像から検出された複数のスケールの各々のセルのセル情報を含む入力データと、の類似度が計算されることによって、文書Ｄのレイアウトが解析されてもよい。

［３－３．その他の変形例］
例えば、上記変形例を組み合わせてもよい。

例えば、第１実施形態及び第２実施形態では、サーバ１０で主な処理が実行される場合を説明したが、サーバ１０で実行されるものとして説明した処理は、ユーザ端末２０又は他のコンピュータで実行されてもよいし、複数のコンピュータで分担されてもよい。

Claims

複数の構成要素を含む文書が示された文書画像の中から、複数のセルを検出するセル検出部と、
前記複数のセルの各々の座標に基づいて、前記複数のセルの各々の行及び列の少なくとも一方に関するセル情報であって、前記文書画像における行の順序を含む前記セル情報を取得するセル情報取得部と、
前記複数のセルの各々の前記行の順序に基づいて、前記複数のセルの各々の前記セル情報をソートして、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに入力し、前記学習モデルによる前記文書に関するレイアウトの解析結果を取得するレイアウト解析部と、
を含むレイアウト解析システム。
複数の構成要素を含む文書が示された文書画像の中から、複数のセルを検出するセル検出部と、
前記複数のセルの各々の座標に基づいて、前記複数のセルの各々の行及び列の少なくとも一方に関するセル情報であって、前記文書画像における列の順序を含む前記セル情報を取得するセル情報取得部と、
前記複数のセルの各々の前記列の順序に基づいて、前記複数のセルの各々の前記セル情報をソートして、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに入力し、前記学習モデルによる前記文書に関するレイアウトの解析結果を取得するレイアウト解析部と、
を含むレイアウト解析システム。
前記学習モデルは、Vision Transformerベースのモデルである、
請求項１又は２に記載のレイアウト解析システム。
前記レイアウト解析部は、前記複数のセルの各々の前記行の順序に基づいて、前記複数のセルの各々の前記セル情報をソートし、かつ、前記行が変わる部分に所定の行変化情報を挿入して前記学習モデルに入力する、
請求項１に記載のレイアウト解析システム。
前記レイアウト解析部は、前記複数のセルの各々の前記列の順序に基づいて、前記複数のセルの各々の前記セル情報をソートし、かつ、前記列が変わる部分に所定の列変化情報を挿入して前記学習モデルに入力する、
請求項２に記載のレイアウト解析システム。
前記セル情報取得部は、前記複数のセルの各々のｙ座標に基づいて、ｙ軸方向における互いの距離が閾値未満である前記セル同士が同じ行になるように、前記複数のセルの各々の行に関する前記セル情報を取得する、
請求項１又は２に記載のレイアウト解析システム。
前記セル情報取得部は、前記複数のセルの各々のｘ座標に基づいて、ｘ軸方向における互いの距離が閾値未満である前記セル同士が同じ列になるように、前記複数のセルの各々の列に関する前記セル情報を取得する、
請求項１又は２に記載のレイアウト解析システム。
前記レイアウト解析システムは、前記文書全体のサイズに基づいて、前記閾値を決定する第１閾値決定部を更に含む、
請求項６に記載のレイアウト解析システム。
前記レイアウト解析システムは、前記複数のセルの各々のサイズに基づいて、前記閾値を決定する第２閾値決定部を更に含む、
請求項６に記載のレイアウト解析システム。
前記セル検出部は、前記文書画像に光学文字認識を実行することによって、前記複数のセルを検出する、
請求項１又は２に記載のレイアウト解析システム。
コンピュータが、
複数の構成要素を含む文書が示された文書画像の中から、複数のセルを検出し、
前記複数のセルの各々の座標に基づいて、前記複数のセルの各々の行及び列の少なくとも一方に関するセル情報であって、前記文書画像における行の順序を含む前記セル情報を取得し、
前記複数のセルの各々の前記行の順序に基づいて、前記複数のセルの各々の前記セル情報をソートして、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに入力し、前記学習モデルによる前記文書に関するレイアウトの解析結果を取得する、
レイアウト解析方法。
コンピュータが、
複数の構成要素を含む文書が示された文書画像の中から、複数のセルを検出し、
前記複数のセルの各々の座標に基づいて、前記複数のセルの各々の行及び列の少なくとも一方に関するセル情報であって、前記文書画像における列の順序を含む前記セル情報を取得し、
前記複数のセルの各々の前記列の順序に基づいて、前記複数のセルの各々の前記セル情報をソートして、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに入力し、前記学習モデルによる前記文書に関するレイアウトの解析結果を取得する、
レイアウト解析方法。
複数の構成要素を含む文書が示された文書画像の中から、複数のセルを検出するセル検出部、
前記複数のセルの各々の座標に基づいて、前記複数のセルの各々の行及び列の少なくとも一方に関するセル情報であって、前記文書画像における行の順序を含む前記セル情報を取得するセル情報取得部、
前記複数のセルの各々の前記行の順序に基づいて、前記複数のセルの各々の前記セル情報をソートして、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに入力し、前記学習モデルによる前記文書に関するレイアウトの解析結果を取得するレイアウト解析部、
としてコンピュータを機能させるためのプログラム。
複数の構成要素を含む文書が示された文書画像の中から、複数のセルを検出するセル検出部、
前記複数のセルの各々の座標に基づいて、前記複数のセルの各々の行及び列の少なくとも一方に関するセル情報であって、前記文書画像における列の順序を含む前記セル情報を取得するセル情報取得部、
前記複数のセルの各々の前記列の順序に基づいて、前記複数のセルの各々の前記セル情報をソートして、訓練用の文書に関する訓練用のレイアウトが学習された学習モデルに入力し、前記学習モデルによる前記文書に関するレイアウトの解析結果を取得するレイアウト解析部、
としてコンピュータを機能させるためのプログラム。