JP7132654B2

JP7132654B2 - レイアウト解析方法、読取り支援デバイス、回路および媒体

Info

Publication number: JP7132654B2
Application number: JP2021113960A
Authority: JP
Inventors: リンフェン・リー; ハイジャオ・ツァイ; シンペン・フェン; ジー・チョウ
Original assignee: NextVPU Shanghai Co Ltd
Current assignee: NextVPU Shanghai Co Ltd
Priority date: 2020-07-13
Filing date: 2021-07-09
Publication date: 2022-09-07
Anticipated expiration: 2041-07-09
Also published as: KR102399508B1; EP3940589A1; WO2022012121A1; JP2022017202A; CN111832476A; EP3940589B1; KR20220008224A

Description

本開示は、データ処理の分野に関し、特に、レイアウト解析方法、チップ回路、読取り支援デバイス、電子デバイス、およびコンピュータ可読記憶媒体に関する。

関係する技術において画像のレイアウト解析のための技術がある。この技術は、電子書籍の生成およびオーディオブックの生成などの後のアプリケーションを容易にするために印刷物の画像ファイル内のテキストフィールドを分類し認識するために画像処理、人工知能、および他の技術を使用する。知られた技術が、印刷物の原画像に基づいてレイアウト解析を実行するために通常使用され、結果として遅い処理速度になる。

この項で記載する方法は、必ずしも、これまでに考えられてきているまたは利用されてきている方法である必要はない。この項で記載する方法のうちのいずれかは、特に明確に指示しない限り、これらの方法がこの項に含まれるという理由で、先行技術であるように考えられると決めてかかるべきではない。同様に、この項で述べる問題は、特に明確に指示しない限り、いずれかの先行技術で普遍的に認識されると考えるべきではない。

本開示のいくつかの実施形態によれば、レイアウト解析方法が提供され、画像内の複数のテキスト行の座標情報を取得するステップと、上記座標情報にしたがって上記画像のレイアウトモデルを作り出すステップと、上記レイアウトモデルに基づいて上記テキスト行のレイアウト構造を解析するステップと、上記レイアウト構造に基づいて互いに対する上記テキスト行の順番を決定するステップとを含む。

本開示のいくつかの実施形態によれば、チップ回路が提供され、本開示の実施形態による方法を実行するように構成された回路ユニットを含む。
本開示のいくつかの実施形態によれば、読取り支援デバイスが提供され、上に記載したチップ回路と、画像を取り込むように構成された画像センサとを含む。

本開示のいくつかの実施形態によれば、電子デバイスが提供され、プロセッサと、プログラムを記憶するメモリであって、上記プログラムが、上記プロセッサによって実行されたときに、上記プロセッサに本開示による方法を実行させる命令を含む、メモリとを含む。

本開示のいくつかの実施形態によれば、プログラムを記憶するコンピュータ可読記憶媒体が提供され、上記プログラムが、電子デバイスのプロセッサによって実行されたときに、上記電子デバイスに本開示による方法を実行させる命令を含む。

本開示のこれらの態様および他の態様は、下記に説明する実施形態から明らかであろう、そして下記に説明される実施形態を参照して明確化されるだろう。
図面は、実施形態を例示的に示し明細書の一部を形成し、そして明細書の記述とともに実施形態の例示的な実装形態を説明するために使用される。示した実施形態は、単に例示の目的のためであり特許請求の範囲の範囲を限定しない。図面全体を通して、同一の参照符号は、類似するが必ずしも同一である必要がない要素を表示する。

本明細書において説明する様々な方法が例示的な実施形態にしたがって適用されることがある例示的なアプリケーションシナリオを示す模式図である。画像内のテキストを認識しそして認識したテキストの音声配信を実行するために、図１のアプリケーションシナリオにおいて使用されることがある例示的な方法を示すフローチャートである。例示的な実施形態によるレイアウト解析方法を示すフローチャートである。例示的な実施形態によるテキスト領域を含む画像を示す模式図である。例示的な実施形態にしたがって図４に示した画像に対して作り出されたレイアウトモデルを示す模式図である。例示的な実施形態にしたがってテキスト行のレイアウト構造を解析するための方法を示すフローチャートである。例示的な実施形態にしたがって複数の接続された領域を形成するために図５の長方形ブロックの幅を調節することにより得られるレイアウトモデルを示す模式図である。図６の方法において複数の接続された領域の空間レイアウトを解析するステップの例のプロセスを示すフローチャートである。図８の方法において複数の接続された領域の向きを選択的に補正するステップの例のプロセスを示すフローチャートである。例示的な実施形態にしたがって図７に示したレイアウトモデルに対して角度補正を実行することによって得られるレイアウトモデルを示す模式図である。図８の方法においてレイアウトモデルの２つの辺のうちのいずれか一方に直接隣接する接続された領域を選択的に除去するステップの例のプロセスを示すフローチャートである。例示的な実施形態にしたがって図１０に示したレイアウトモデルに対して垂直プロジェクションを実行するステップを示す模式図である。図１２のプロジェクション結果にしたがって図１０に示したレイアウトモデルから不完全なページを表す接続された領域の除去の後で得られたレイアウトモデルを示す模式図である。例示的な実施形態にしたがって図１３に示したレイアウトモデルに対してプロジェクションセグメンテーションを実行するステップを示す模式図である。例示的な実施形態にしたがって図１３に示したレイアウトモデルに対してプロジェクションセグメンテーションを実行するステップを示す模式図である。例示的な実施形態にしたがって図１３に示したレイアウトモデルに対してプロジェクションセグメンテーションを実行するステップを示す模式図である。例示的な実施形態にしたがって図１３に示したレイアウトモデルに対してプロジェクションセグメンテーションを実行するステップを示す模式図である。例示的な実施形態にしたがって最終的に得られたセグメント化されたゾーンのセットを含むレイアウトモデルを示す模式図である。モデルが元々の傾いた状態に調節されそしてセグメント化されたゾーンが読取り順にしたがって配置された後の図１８に示したレイアウトモデルを示す模式図である。例示的な実施形態にしたがって複数の接続された領域およびセグメント化されたゾーンがマッチングされそして配置された後を示した模式図である。例示的な実施形態によるレイアウト解析結果に基づいて図４の画像内のテキスト行を配置するステップを示す模式図である。例示的な実施形態にしたがってテキスト行の主レイアウトタイプを決定するステップの例のプロセスを示すフローチャートである。例示的な実施形態にしたがって副レイアウトタイプのテキストを選択的に破棄するステップの例のプロセスを示すフローチャートである。例示的な実施形態による読取り支援デバイスを示す構造ブロック図である。例示的な実施形態に適用されることがある例示的なコンピューティングデバイスを示す構造ブロック図である。

本開示では、別なように述べない限り、様々な要素を説明するために使用する「第１の」、「第２の」、等という用語は、これらの要素の位置的関係、時間的関係または重要性の関係を限定するものではなく、むしろ１つの構成要素を別のものとは単に区別するものである。いくつかの例では、第１の要素および第２の要素は、その例の同じ事例を呼ぶことがあり、そしていくつかのケースでは、文脈の記載に基づいて、第１の要素および第２の要素は、異なる事例を呼ぶこともある。

本開示における様々な例の説明で使用される用語は、単に特定の例を説明する目的のためであり、限定するものではない。要素の数が具体的に規定されない場合には、文脈において別なふうに明確に示されない限り、１つまたは複数であり得る。「基づく」という用語は、「少なくとも一部分が基づく」ことを意味する。その上、本開示において使用される「および／または」という用語は、列挙した品目のうちのいずれかおよびすべての可能な組合せを包含する。

本開示では、「水平」および「垂直」という空間的に相対的な用語が、レイアウトモデルと組み合わせて使用される。このような状況では、「水平方向」は、レイアウトモデルの行方向を呼び、そして「垂直方向」は、レイアウトモデルの列方向を呼ぶ。加えて、「上部」、「下部」、「左」および「右」という空間的に相対的な用語もまた、レイアウトモデルと組み合わせて使用されることがある。「上部」、「下部」、「左」および「右」は、読み物（例えば、本または雑誌）が読者に対して読むために正しく向けられるときに、読み物の画像（または等価的に、画像のレイアウトモデル）上の向きは、（例えば、読者によって装着されたまたは持たれた）画像センサの視野の角度から観察された。これゆえ、「上下方向」は、レイアウトモデルの列方向に実質的に対応し、そして「左右方向」は、レイアウトモデルの行方向に実質的に対応する。

本開示の下記の説明は、テキスト行が読者に対して実質的に左右方向に延びる（すなわち、水平レイアウト読み物における）ケースに主に基づくが、本開示の技術的な解はこれに限定されない。本開示の技術的な解はまた、テキスト行が読者に対して実質的に上下方向に延びる（すなわち、垂直レイアウト読み物における）ケースにも適用可能である、すなわち、本開示の方法はまた、垂直レイアウト読み物にも適用可能である。水平レイアウトのケースでは、テキスト行は、実質的に左右方向（水平方向）に延びるテキスト配列であり、一方で垂直レイアウトのケースでは、テキスト行は、実質的に上下方向（垂直方向）に延びるテキスト配列である。

本、雑誌、または他の読み物を読むときに、正常な視力を有する人は、視覚を介して視野内の画像を捕らえ、脳を介して画像内のテキスト領域を認識し、そして読取り順にテキスト領域のテキストを読み取る。しかしながら、視覚障害者に関して、読み物内のテキストを認識しそして配信するために読取り支援デバイスに頼る必要があることがある。このケースでは、読取り支援デバイスは、画像内のテキストを認識する必要があるだけでなく、正しい読取り順で読み物のテキストを「読み取ること」ができるように、テキスト領域内のテキスト行の順番を決定するためのある種のアルゴリズムを使用することも必要である。

図１は、本明細書において説明する様々な方法が例示的な実施形態にしたがって適用されることがある例示的なアプリケーションシナリオ１００を示す模式図である。図１に示したように、例示的なシナリオ１００は、限定されないが、視覚障害者のための読取り支援およびインテリジェント音読などのアプリケーションを含むことができる。スマートグラス１１０などの読取り支援デバイスは、テキスト認識装置を備え、そして１つまたは複数のテキスト行１１４を含む読み物１１６のテキスト領域が、テキスト認識装置によって写真撮影される。テキスト認識装置は、内蔵チップおよびアルゴリズムを介して撮影範囲１１２内のテキストを認識しそして配信する。

図２は、画像内のテキストを認識しそして認識したテキストの音声配信を実行するために、アプリケーションシナリオ１００において使用される得る例示的な方法２００を示すフローチャートである。図２に示したように、方法２００は、下記のステップ、画像を収集しそして画像内のテキスト行領域を検出するステップ（ステップ２１０）と、画像内のテキスト行にレイアウト解析を実行するステップ（ステップ２２０）と、レイアウト解析の結果にしたがってテキスト行内のテキストを認識しそして認識したテキストの音声配信を実行するステップ（ステップ２３０）とを含む。テキスト領域の検出（ステップ２１０）およびテキストの認識（ステップ２３０）は、例えば、従来の画像処理アルゴリズム（ＭＳＥＲなど）および／またはディープラーニング法を含め、様々な方法を使用することによって実施されることがある。

本開示の主題をさらに明らかにするために、下記は、画像内のテキスト行についてのレイアウト解析（ステップ２２０）をどのように実行するかを詳細に説明する。図１および図２に関連して上に説明したアプリケーションシナリオ１００および方法２００は例示に過ぎない、これは本開示の実施形態によるレイアウト解析方法が、上に説明したアプリケーションに限定されないことを意味することが認識されるだろう。

図３は、本開示の例示的な実施形態によるレイアウト解析方法３００を示すフローチャートである。レイアウト解析方法３００は、図２のステップ２２０を実施するために使用されることがある。図３に示したように、レイアウト解析方法３００は、下記のステップ、画像内の複数のテキスト行の座標情報を取得するステップ（ステップ３１０）と、座標情報にしたがって画像のレイアウトモデルを作り出すステップ（ステップ３２０）と、レイアウトモデルに基づいてテキスト行のレイアウト構造を解析するステップ（ステップ３３０）と、レイアウト構造に基づいて互いに対するテキスト行の順番を決定するステップ（ステップ３４０）とを含む。

下記の説明からさらに明らかであるように、レイアウト解析方法３００は、原画像に基づいて操作されず、そして意味解析を必要としない。代わりに、方法は、テキストを含む画像領域を、画像内のテキスト分布を模擬的に再現するがより簡単な構造を有するレイアウトモデルへと変換するために使用され、そしてレイアウトモデル内のデータに空間レイアウト解析をさらに実行する。

ステップ３１０では、画像内の複数のテキスト行の座標情報が取得される。
本開示の例示的な方法が、テキストの原画像自体よりはむしろテキストの座標情報に主に基づいてレイアウト解析を実行するために使用されるので、このステップでは、画像内の複数のテキスト行の座標情報が、後の処理のために取得される。画像は、画像センサによって取り込まれた電子画像データであってもよい。いくつかの実施形態によれば、画像センサは、例えば、図１に示したアプリケーションシナリオ１００では、ユーザのウェアラブルデバイス、メガネ、または他の物品に配置されることがある。

図４は、例示的な実施形態によるテキスト領域を含む画像４００を示す模式図である。図４に示したように、画像４００は、テキスト（これは様々な国および地域の文字データ、数字、記号、句読点、等を含むことができる）、写真、等を含むことができ、テキストを含むテキスト行４１０が示される。いくつかの実施形態によれば、画像４００は、前処理された画像であってもよく、前処理は、限定されないが、色補正、ボケ除去、等を含むことができる。

上に説明したように、テキスト領域は、画像処理アルゴリズム（ＭＳＥＲなど）またはディープラーニング法などの様々な方法を使用することによって検出されることがある。画像４００内のテキスト領域の検出を通して、画像４００内の各々のテキスト行の座標情報が取得されることがある。テキスト行の座標情報は、例えば、他の機械（リモートサーバまたはクラウドコンピューティングデバイスなど）から取得されてもよい、またはローカル検出アルゴリズムを介して取得されてもよい。いくつかの実施形態によれば、テキスト行の取得された座標情報は、後の使用のためにローカル記憶デバイスまたは記憶媒体に記憶されることがある。本明細書において使用するように、テキスト行という用語は、テキストの連続する行を呼び、これは、例えば、左右方向にしきい値間隔よりも小さい隣接テキスト間隔を有するテキストの配列、または上下方向にしきい値間隔よりも小さい隣接テキスト間隔を有するテキストの配列であってもよい。

いくつかの実施形態によれば、１つのテキスト行の座標情報は、テキスト行を含む長方形（例えば、テキスト行を含む最小の周囲を囲まれた長方形、またはテキスト行を含む最小の周囲を囲まれた長方形をある倍数だけ上側に、および／または下側に、および／または左側に、および／または右側に拡張することによって得られる長方形）の座標情報であってもよい。テキスト行の座標情報は、例えば、長方形の４つの頂点の座標情報を含むことができる、または長方形のいずれかの頂点の座標情報ならびに長方形の高さ情報および長さ情報を含むことができる。しかしながら、テキスト行の座標情報の定義は、座標情報がテキスト行によって占有される空間の位置およびサイズを表すことができる限りこれらに限定されない。

図３に戻って参照して、ステップ３２０では、画像のレイアウトモデルが座標情報にしたがって作り出される。本明細書において使用するように、「レイアウトモデル」という用語は、テキストを含む画像の変換を介して得られそして画像内のテキスト分布を模擬的に再現するがより簡単な構造を有するデータ構造を呼ぶ。

いくつかの実施形態によれば、レイアウトモデルは、データ構造内の取得した座標情報に対応するデータ要素をデータ値で埋めることによって得られる。データ構造は、複数のデータ要素を含むことができ、データ値で埋められたデータ要素が複数の長方形ブロックを形成し、そして複数の長方形ブロックが複数のテキスト行内のそれぞれのテキスト行に対応する。

いくつかの実施形態によれば、データ構造は、メモリ（例えば、内部メモリおよびキャッシュ）内のファイル、またはピクセルで表された画像、または表もしくはデータアレイであってもよい。データ構造は、データ構造内のデータが画像内のテキスト行を模擬的に再現することができる限りいずれかの特定のデータ構造に限定されない。データ構造は、画像のサイズと同じサイズを有することができる、または画像のサイズに対して比例的にスケーリングされたサイズを有することができる。例えば、画像が３８４０×２１６０のピクセルサイズを有する場合には、データ構造（および対応するレイアウトモデル）は、画像と同じサイズを有する（すなわち、３８４０×２１６０の行列要素を有する）ことができる。あるいは、データ構造は、水平方向にだけスケーリングされる（例えば、１９２０×２１６０の行列要素を有する）ことがある、または垂直方向にだけスケーリングされる（例えば、３８４０×１０８０の行列要素を有する）ことがある、または水平方向および垂直方向の両方にスケーリングされる（例えば、１９２０×１０８０の行列要素を有する、または１２８０×１０８０の行列要素を有する）ことがある、等。画像のサイズと同じサイズを有するまたは画像のサイズに対して比例的にスケーリングされたサイズを有するデータ構造のケースに関係なく、対応関係またはマッピング関係が、データ構造内のデータ要素と画像内のピクセルとの間に確立されることがある。

図５は、例示的な実施形態にしたがって図４に示した画像４００に対して作り出されたレイアウトモデルを示す模式図である。図５に示したように、データ構造は、データ値で埋められたデータ要素が図４のテキスト行４１０に対応する長方形ブロック５１０を形成するように、対応するデータ値で埋められる。この例では、レイアウトモデル５００のサイズは、画像４００のサイズと同じである。

データ値で埋められたデータ要素によって形成される長方形ブロックは、テキストが長方形ブロックの対応する画像領域内に存在することを示し、このことはテキストの意味または内容には関係しない。いくつかの実施形態によれば、データ構造は、２次元行列、例えば、２次元空行列を含むことがある。２次元空行列は、デフォルトによりすべてが「０」であるデータ値を有する行列要素を有する２次元行列を呼ぶ。画像４００のレイアウトモデル５００が作り出されるときに、画像４００内のテキスト行の座標情報に対応する２次元行列の行列要素がデータ値「１」で埋められることがある。しかしながら、データ値は、テキストまたはテキスト行がその領域内に存在するかどうかを識別することができる限り、これに限定されない。例えば、８ビットデータ要素を使用するデータ構造に関して、画像４００内のテキスト行の座標情報に対応するデータ要素は、データ値「２５５」で埋められることがある。

図３に戻って参照して、ステップ３３０では、テキスト行のレイアウト構造が、レイアウトモデルに基づいて解析される。テキスト行のレイアウト構造は、原画像に操作を実行しないでレイアウトモデルに基づいて解析される。これゆえ、テキスト行のレイアウト構造は迅速に解析されることがあり、そしてレイアウト解析の効率が改善される。

図６は、例示的な実施形態にしたがってステップ３３０を実施するためのプロセスを示すフローチャートである。図６に示したように、プロセスは、複数の長方形ブロックの幅を選択的に調節するステップ（ステップ６１０）と、複数の接続された領域の空間レイアウトを解析するステップ（ステップ６２０）とを含む。

ステップ６１０では、複数の長方形ブロックの幅は、複数の長方形ブロックが互いに別々である複数の接続された領域へと併合されるように選択的に調節される。
図７は、例示的な実施形態にしたがって複数の接続された領域７１０を形成するために図５の長方形ブロック５１０の幅を調節することによって得られたレイアウトモデル７００を示す模式図である。得られた複数の接続された領域７１０は、テキスト行の複数の段落に対応する。これゆえ、ステップ６１０の操作は、段落分割と呼ばれることがある。

いくつかの実施形態によれば、複数の長方形ブロックの幅が、選択的に調節される。長方形ブロックの各々の幅が複数の長方形ブロックの代表する幅以下である場合には、長方形ブロックの幅は、第１の大きさだけ大きくされる。長方形ブロックの幅が、代表する幅よりも大きくそして代表的な幅の第１の倍数以下である場合には、長方形ブロックの幅は、第２の大きさだけ大きくされる。長方形ブロックの幅が、代表する幅の第１の倍数よりも大きくそして代表する幅の第２の倍数以下である場合には、長方形ブロックの幅は、調節されない。長方形ブロックの幅が、代表する幅の第２の倍数よりも大きい場合には、長方形ブロックの幅は、第３の大きさだけ小さくされる。

いくつかの実施形態によれば、複数の長方形ブロックの幅を選択的に調節するステップでは、代表する幅は、複数の長方形ブロックのサブセットの平均幅であってもよく、複数の長方形ブロックのサブセットは、しきい値幅パーセンタイルよりも大きい幅を有する長方形ブロック以外の複数の長方形ブロック内の長方形ブロックから構成される。このような実施形態では、レイアウトモデルの複数の長方形ブロックの中で、大きな幅を有する長方形ブロック（対応するテキスト行のフォントが、例えば見出し行では大きい）が、最初にフィルタ処理して除去され、次いで残りの長方形ブロックの平均幅が代表する幅として計算される。しきい値幅パーセンタイルよりも大きい幅を有する長方形ブロックは、除去される代わりに、平均幅の計算には含まれない。例えば、しきい値幅パーセンタイルが９０％、９５％、等に設定されることがあり、そして特性値が実際のアプリケーションにしたがってしきい値幅パーセンタイルに対して具体的に設定されることがあり、これは本明細書では限定されない。このことは、大き過ぎる幅を有する長方形ブロックが段落分割の精度に影響を及ぼすことを防止することができ、例えば、２つの段落へと分割されるべき段落を単一の段落へと併合する。

この文脈では、テキスト行が読者に対して実質的に左右方向に延びるケースでは（すなわち、水平レイアウトの読み物では）、テキスト行に対応する長方形ブロックの長さ方向は、実質的に左右に延びる方向であり、長方形ブロックの幅方向は、実質的に左右に延びる方向に実質的に直角である方向（すなわち、実質的に上下に延びる方向）であり、そしてテキスト行が読者に対して実質的に上下方向に延びるケースでは（すなわち、垂直レイアウトの読み物では）、テキスト行に対応する長方形ブロックの長さ方向は、実質的に上下に延びる方向であり、そして長方形ブロックの幅方向は、実質的に上下に延びる方向に実質的に直角な方向（すなわち、実質的に左右に延びる方向）であることが認識されるだろう。これゆえ、テキスト行が読者に対して実質的に左右方向に延びるケースでは（すなわち、水平レイアウト読み物では）、代表する幅は、上下方向のフォントの高さ（すなわち、行高さ）であり、そしてテキスト行が読者に対して実質的に上下方向に延びるケースでは（すなわち、垂直レイアウト読み物では）、代表する幅は、左右方向のフォントの高さ（すなわち、列幅）である。

いくつかの実施形態によれば、代表する幅は、代わりに上記の複数の長方形ブロックの平均幅であってもよい。これは、段落分割の計算量を単純化でき、そしていくつかのケースに（例えば、ヘッダテキスト行のサイズが本文テキスト行のサイズに近いケースに）適用可能であってもよい。

いくつかの実施形態によれば、第１の大きさは、０．５倍を含むことができる。長方形ブロックの幅は、幅方向の両端の長方形ブロックの幅を０．５倍だけ大きくする。いくつかの実施形態では、長方形ブロックの４つの頂点の座標は、幅方向に長方形ブロックの幅を０．５倍の値だけ各々大きくされるまたは小さくされる。第１の大きさの特定の値が、実際のアプリケーションにしたがって設定されてもよく、これは本明細書では限定されないことが理解されるはずである。

いくつかの実施形態によれば、第１の倍数は、１．５倍を含むことができる。第２の大きさだけ長方形ブロックの幅を大きくするステップは、幅方向の両端のところで代表する幅の０．５倍だけ長方形ブロックの幅を大きくするステップを含む。第１の倍数および第２の大きさの特定の値が、実際のアプリケーションにしたがって設定されることがあり、これは本明細書では限定されないことが理解されるはずである。

いくつかの実施形態によれば、第２の倍数は、２倍を含むことができる。第３の大きさだけ長方形ブロックの幅を小さくするステップは、幅方向の両端のところで代表する幅の０．５倍だけ長方形ブロックの幅を小さくするステップを含む。第２の倍数および第３の大きさの特定の値が、実際のアプリケーションにしたがって設定されることがあり、これは本明細書では限定されないことが理解されるはずである。

図６に戻って参照して、ステップ６２０では、複数の接続された領域の空間レイアウトが解析される。
図８は、ステップ６２０を実施するための例のプロセスを示すフローチャートである。いくつかの実施形態によれば、複数の接続された領域の空間レイアウトを解析するステップは、レイアウトモデル内の複数の接続された領域の向きを選択的に補正するまたは補正しないステップ（ステップ８１０）と、それぞれの選択され接続された領域を得るために、行方向においてレイアウトモデルの２つの辺のうちのいずれか一方に直接隣接するレイアウトモデル内の接続された領域を選択的に除去するまたは除去しないステップ（ステップ８２０）と、セグメント化されたゾーンのセットを得るためおよび互いに対するセグメント化されたゾーンの順番を求めるために、それぞれの選択され接続された領域にプロジェクションセグメンテーションを実行するステップ（ステップ８３０）とを含む。

ステップ８１０では、レイアウトモデル内の複数の接続された領域の向きが、選択的に補正するまたは補正されない。
いくつかの実施形態によれば、レイアウトモデル内の複数の接続された領域の向きを選択的に補正するまたは補正しないステップは、複数の接続された領域がレイアウトモデルの行方向および列方向のうちのいずれか一方に対して傾いた状態であるかどうかを決定するステップと、複数の接続された領域が傾いた状態であることが決定される場合に、複数の接続された領域が傾いた状態でないように補正角だけ複数の接続された領域を回転するステップとを含む。傾いた状態を補正するステップの操作は、図１に示したアプリケーションシナリオ１００などのアプリケーションにとって特に有利である。これらのアプリケーションでは、読者は、本または他の読み物を通常持ち、そして画像センサによって取り込まれた画像内のテキスト領域はしばしば傾けられる。複数の接続された領域が傾いた状態でないように補正角だけ複数の接続された領域を回転させるステップは、レイアウト解析の精度を大きく向上させることができる。このことは、従来のレイアウト解析技術を超える利点を提供する。従来のレイアウト解析技術では、解析した対象は、スキャナによるスキャニングを介して得られた一般に平らな画像であり、ここではテキスト領域は傾いていない。これゆえ、このような従来技術は、読取り支援のシナリオに適用可能ではないことがある。

いくつかの実施形態によれば、複数の接続された領域がレイアウトモデルの行方向および列方向のうちのいずれか一方に対して傾いた状態であるかどうかを決定するステップは、下記のプロセスによって実施されることがある。第１に、複数の接続された領域が、特定の接続に対して検索され、ここでは、特定の接続された領域の最小の周囲を囲まれた長方形は、複数の接続された領域の最小の周囲を囲まれた長方形の中で最大の面積を有する。次いで、特定の接続された領域の最小の周囲を囲まれた長方形の１つの端部が行方向および列方向のうちのいずれか一方に平行であるかどうかが決定される。特定の接続された領域の最小の周囲を囲まれた長方形の端部が行方向および列方向のうちのいずれの一方にも平行でないことが決定される場合には、複数の接続された領域が傾いた状態であることが決定される。特定の接続された領域の最小の周囲を囲まれた長方形の端部が行方向および列方向のうちのいずれか一方に平行であることが決定される場合には、複数の接続された領域が傾いた状態でないことが決定される。

図９は、図８の方法における複数の接続された領域の向きを選択的に補正するステップの例のプロセスを示すフローチャートである。図９に示したように、ステップ９１０では、最大の面積を有する最小の周囲を囲まれた長方形を有する特定の接続された領域は、複数の長方形ブロックの幅が選択的に調節された後で得られた複数の接続された領域から決定される。特定の接続された領域の最小の周囲を囲まれた長方形の１つの端部が行方向および列方向のうちのいずれの一方とも平行でないことが決定される場合には（ステップ９２０、「Ｎｏ」）、複数の接続された領域は、特定の接続された領域の最小の周囲を囲まれた長方形の１つの端部が行方向または列方向に平行であるように、補正角だけ回転され（ステップ９３０）、そうでなければ（ステップ９２０、「Ｙｅｓ」）、補正処理は実行されない。

図１０は、例示的な実施形態にしたがって図７に示したレイアウトモデル７００に角度補正を実行することによって得られるレイアウトモデルを示す模式図である。いくつかの実施形態によれば、複数の接続された領域が傾いた状態ではないときには、複数の接続された領域の最小の周囲を囲まれた長方形は、特定の接続された領域の最小の周囲を囲まれた長方形の１つの端部が行方向または列方向に平行であるように、同じ角度だけ同じ方向に質量中心（すなわち、中心点）の周りをすべて回転される。

いくつかの実施形態によれば、特定の接続された領域の傾き角を求めるように、傾き角を検出するために特定の接続された領域の最小の周囲を囲まれた長方形に、例えば、ハフ変換法を適用することが可能であり、そして傾き角が事前に設定した第１の傾き角しきい値（例えば、５°）以上であるケースでは、傾き補正が複数の接続された領域に実行され、そして補正プロセスにおける複数の接続された領域の回転方向および角度が記録される。

上に説明した傾斜補正方法は例示に過ぎず、他の実施形態では、任意の他の適切な補正方法が使用されてもよいことが認識されるだろう。
図８に戻って参照して、ステップ８２０では、行方向においてレイアウトモデルの２辺のうちのいずれか一方に直接隣接するレイアウトモデル内の接続された領域が、それぞれの選択され接続された領域を得るために選択的に除去されるまたは除去されない。

いくつかのケースでは、後のプロセスで不完全なページ内のテキスト行にテキスト認識および配信を実行することを避けるように、折られているまたは完全に写真撮影されなかった雑誌および本などの読み物の不完全なページをフィルタ処理することもまた必要である。これらの状況を考慮して、いくつかの実施形態によれば、複数の接続された領域が傾いた状態でない場合には、垂直プロジェクションセグメンテーションがレイアウトモデルに実行される。次いで、垂直プロジェクションセグメンテーションの結果に応じて、行方向においてレイアウトモデルの２辺のうちのいずれか一方に直接隣接する接続された領域が、選択され接続された領域を得るために、複数の接続された領域から選択的に除去されるまたは除去されない。本明細書において使用するように、「レイアウトモデルの１辺に直接隣接する接続された領域」という句は、接続された領域とレイアウトモデルの辺との間に他の接続された領域がないことを意味する。

図１１は、図８の方法においてレイアウトモデルの２つの辺のうちのいずれか一方に直接隣接する接続された領域を選択的に除去するステップの例のプロセスを示すフローチャートである。図１１に示したプロセスを介して、不完全なページ内の段落を表している接続された領域は、レイアウトモデルからフィルタ処理して除かれる。図１１に示したように、最初に、垂直プロジェクションセグメンテーションがレイアウトモデルに実行される（ステップ１１１０）。少なくとも２つのゾーンが垂直プロジェクションセグメンテーションを介してレイアウトモデルから得られているかどうかが決定され（ステップ１１２０）、ここでは少なくとも２つのゾーンが複数の接続された領域を含む。少なくとも２つのゾーンがセグメンテーションを介してレイアウトモデルから得られていないことが決定される場合には（ステップ１１２０、「Ｎｏ」）、除去は実行されない（ステップ１１８０）。少なくとも２つのゾーンがセグメンテーションを介してレイアウトモデルから得られていることが決定される場合には（ステップ１１２０、「Ｙｅｓ」）、行方向の少なくとも２つのゾーンの対応する有効サイズが決定され（ステップ１１３０）、そして続く操作が、行方向においてレイアウトモデルの２辺のうちのいずれか一方に直接隣接する少なくとも２つのゾーンの各々の横ゾーンに実行され、２つのゾーンがセグメンテーションを介してレイアウトモデルから得られており（ステップ１１４０、「Ｙｅｓ」）、そして行方向の横ゾーンの有効サイズが、対応する有効サイズ内の最大のサイズの第１のしきい値パーセントよりも小さく、行方向の２つのゾーンのうちの他方の有効サイズの第２のしきい値パーセントよりも小さい（ステップ１１５０、「Ｙｅｓ」）場合には、横ゾーン内の接続された領域が除去され（ステップ１１７０）、そうでなければ、横ゾーン内の接続された領域は除去されず（ステップ１１８０）、２つ以上のゾーンがセグメンテーションを介してレイアウトモデルから得られており（ステップ１１４０、「Ｎｏ」）、そして行方向の横ゾーンの有効サイズが、対応する有効サイズ内の最大のサイズの第３のしきい値パーセントよりも小さく、行方向の横ゾーンに直接隣接するゾーン内のゾーンの有効サイズの第４のしきい値パーセントよりも小さい（ステップ１１６０、「Ｙｅｓ」）場合には、横ゾーン内の接続された領域が除去され（ステップ１１７０）、そうでなければ、横ゾーン内の接続された領域は除去されない（ステップ１１８０）。

本明細書において使用するように、「レイアウトモデルの１辺に直接隣接するゾーン」という句は、レイアウトモデルのゾーンと辺との間に他のゾーンがないことを意味する。
本明細書において使用するように、行方向のゾーンの有効サイズは、行方向の接続された領域の最小の周囲を囲まれた長方形のサイズなどの、行方向の接続された領域内のサイズを呼ぶ。いくつかの実施形態では、行方向のゾーンの有効サイズは、行方向のゾーン内のすべての接続された領域のサイズの平均であってもよい。

上のステップを通して、折られているまたは完全には写真撮影されなかった雑誌および本などの読み物の不完全なページは、後のプロセスにおいて不完全なページ内のテキスト行にテキスト認識および配信を実行することおよび読取り内容に混乱を生じさせることを避けるためにフィルタ処理されることがある。これは、レイアウト解析の精度を大きく向上させることができ、これによりユーザ経験を改善する。

いくつかの実施形態によれば、第１のしきい値パーセントは、第２のしきい値パーセントよりも小さく、そして第３のしきい値パーセントは、第４のしきい値パーセントに等しい。

いくつかの実施形態によれば、例えば、第１のしきい値パーセントが６０％であり、そして第２のしきい値パーセントは７０％であり、第３のしきい値パーセントが７０％であり、そして第４のしきい値パーセントは７０％である。第１のしきい値パーセント、第２のしきい値パーセント、第３のしきい値パーセント、および第４のしきい値パーセントの特定の値が、実際のアプリケーションにしたがって設定されることがあり、これは本明細書では限定されないことが理解されるはずである。

「水平プロジェクションセグメンテーション」および「垂直プロジェクションセグメンテーション」自体は、知られているテキストセグメンテーション技術であることが理解されるはずである。水平プロジェクションセグメンテーションは、水平分割線として所定の条件を満足するピクセル行に関する２次元画像を検索するステップを含む。２値化された画像のケースでは、このようなピクセル行は、ゼロに等しいピクセル値の総計を有するピクセル行であってもよい。垂直プロジェクションセグメンテーションは、垂直分割線として所定の条件を満足するピクセル列に関する２次元画像を検索するステップを含む。２値化された画像のケースでは、このようなピクセル列は、ゼロに等しいピクセル値の総計を有するピクセル列であってもよい。本開示のいくつかの実施形態では、レイアウトモデルのデータ構造は、２次元行列の形態であってもよく、そしてピクセル値は、２次元行列の行列要素のデータ値である。

図１２は、例示的な実施形態にしたがって図１０に示したレイアウトモデルに対して垂直プロジェクションを実行するステップを示す模式図である。直感的に理解することを容易にするために、図１２は、各々のデータ列のデータ要素のデータ値の総計を示す波形１２１０、波形１２１０のピークと谷との間の連結部を示す連結線１２２０、および垂直分割線１２３０を示す。図１２に示したように、垂直分割線１２３０に対応するデータ列のデータ要素のデータ値の総計は、最小値（例えば、ゼロ）であり、これゆえ、このデータ列が垂直分割線として選択されることがある。同様に、垂直分割線１２３０の右側に位置するいくつかのデータ列の各々のデータ要素のデータ値の総計もまた最小値であり、これゆえ、これらのデータ列のうちのいずれか１つもまた、垂直分割線として選択されることがある。

図１３は、図１２のプロジェクション結果にしたがって図１０に示したレイアウトモデルから不完全なページを表す接続された領域の除去の後で得られたレイアウトモデルを示す模式図である。図１３に示したように、図１２において最も右側に位置する不完全なページ内の段落を表す接続された領域が除去されている。

いくつかの実施形態によれば、垂直プロジェクションセグメンテーションがレイアウトモデルに実行される前に、テキスト行のサイズは、不完全なページを除去することの精度を向上させるように左右方向に適切に調節されることがある。水平レイアウトタイプとして決定されたテキスト行に対応する各々の長方形ブロックの長さは、長さ方向の両端のところでいくつかのデータ要素だけ大きくされることがある。垂直レイアウトタイプとして決定されたテキスト行に対応する各々の長方形ブロックの幅は、幅方向の両端のところでいくつかのデータ要素だけ大きくされることがある。上記のいくつかのデータ要素は、例えば、代表する幅の０．５倍を有する。長方形ブロックの長さが、その幅より一般に大きいことが認識されるだろう。いくつかの例では、レイアウトタイプはデフォルトタイプであってもよい（例えば、デフォルトタイプは水平レイアウトである）。他の例では、ユーザはまた、レイアウトタイプを設定するために手動で切り替えることもできる。例えば、ユーザは、デフォルトレイアウトタイプを垂直レイアウトへ変えることができる。垂直プロジェクションセグメンテーションが不完全なページを除去するために実行される前に、左右方向のテキスト行のサイズを適切に調節するステップは、不完全なページを除去するステップの精度を向上させることができる。このことは、左右方向のサイズ調節が同じページに位置する段落を表している接続された領域にとって垂直プロジェクションセグメンテーションを介してレイアウトモデルからセグメント化されることを難しくさせ、これにより誤って除去される危険を減少させるというためである。

図８に戻って参照して、ステップ８３０では、プロジェクションセグメンテーションが、セグメント化されたゾーンのセットを得るためおよび互いに対するセグメント化されたゾーンの順番を求めるためにそれぞれの選択され接続された領域に実行される。

いくつかの実施形態によれば、レイアウトモデルの不完全なページがフィルタ処理して除去された後で、水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションは、セグメンテーションを介してセグメント化されたゾーンのセットをレイアウトモデルから得るためにレイアウトモデルのそれぞれの選択され接続された領域に再帰的に交互に実行され、そして互いに対するセグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンの順番が、読取り順則に基づいて決定される。

いくつかの実施形態によれば、それぞれの選択され接続された領域に水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを再帰的に交互に実行するステップは、下記の操作、各々のセグメント化されたゾーンが水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなるまで、水平プロジェクションセグメンテーションを介して得られた各々の水平セグメント化されたゾーンに垂直プロジェクションセグメンテーションを実行するステップと、垂直プロジェクションセグメンテーションを介して得られた各々の垂直セグメント化されたゾーンに水平プロジェクションセグメンテーションを実行するステップとを、周期的に実行するステップを含むことができる。水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できないセグメント化されたゾーンは、セグメント化されたゾーンのセットを形成する。

水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションの順番は、逆にされることがあることが認識されるだろう。すなわち、上記の周期的な操作では、第１のプロジェクションセグメンテーションは、水平プロジェクションセグメンテーションであってもよく、または垂直プロジェクションセグメンテーションであってもよい。本開示は、これに関して限定されない。再帰的が、大きく複雑な問題を当初の問題に類似したより小さな問題へと変換する方策を呼ぶこともまた認識されるだろう。コンピュータプログラミングの文脈では、再帰的方策は、問題を解決するプロセスにおいて必要な複数の反復計算を記述するために少数のプログラムを必要とするだけであり、このことは、プログラムのコード量を大きく減少させることができる。

いくつかの実施形態によれば、水平プロジェクションセグメンテーションを介して得られた各々の水平セグメント化されたゾーンに垂直プロジェクションセグメンテーションを実行するステップは、データ列のセットに関する水平セグメント化されたゾーンを検索するステップであって、データ列のセット内の各々のデータ列のデータ要素のデータ値の総計がゼロから第１のしきい値までの範囲内である、水平セグメント化されたゾーンを検索するステップを含む。第１のしきい値は、ゼロよりも大きく、そして例えば、代表する幅の１倍である。データ列のセットが見つけられる場合には、水平セグメント化されたゾーンをセグメント化するための垂直分割線は、データ列のセットから選択され、そして水平セグメント化されたゾーンが垂直セグメント化されたゾーンを得るために選択された垂直分割線を使用してセグメント化される。本明細書では、垂直分割線を示すデータ列のデータ値の総計は、ゼロに等しい代わりに、ゼロから第１のしきい値までの範囲内であるように選択される。このことは、同じページの段落同士の間の水平間隔が小さく、そして垂直分割線を示すデータ列のデータ値のより大きな総計を選択するステップが、垂直プロジェクションセグメンテーションの正しい実行を容易にすることができるためである。

いくつかの実施形態によれば、垂直プロジェクションセグメンテーションを介して得られた各々の垂直セグメント化されたゾーンに水平プロジェクションセグメンテーションを実行するステップは、データ行のセットに関する垂直セグメント化されたゾーンを検索するステップであって、データ行のセット内の各々のデータ行の行列要素のデータ値の総計がゼロから第２のしきい値までの範囲内である、垂直セグメント化されたゾーンを検索するステップを含む。第２のしきい値は、ゼロよりも大きく、そして例えば、代表する幅の１倍である。データ行のセットが見出される場合には、垂直セグメント化されたゾーンをセグメント化するための水平分割線は、データ行のセットから選択され、そして垂直セグメント化されたゾーンが水平セグメント化されたゾーンを得るために選択された水平分割線を使用してセグメント化される。本明細書では、水平分割線を示すデータ行のデータ値の総計は、ゼロに等しい代わりに、ゼロから第２のしきい値までの範囲内であるように選択される。これは、同じページの段落同士の間の垂直間隔が小さく、そして水平分割線を示すデータ列のデータ値のより大きな総計を選択するステップが、水平プロジェクションセグメンテーションの正しい実行を容易にできるためである。

いくつかの実施形態によれば、セグメント化されたゾーンのセットが、レイアウトモデルをセグメント化するため上の水平分割線および垂直分割線に基づくセグメンテーションを介してレイアウトモデルから得られる。

図１４から図１７は、それぞれ例示的な実施形態にしたがって図１３に示したレイアウトモデルに対してセグメンテーションを実行するステップを示す模式図である。この例では、図１４に示したように、水平プロジェクションセグメンテーションが１回実行され、そして対応するゾーンはこのプロジェクションではセグメンテーションを介しては得られない。次いで、図１５に示したように、垂直プロジェクションセグメンテーションが実行される。このセグメンテーションプロセスは、レイアウトモデルの最も右のゾーンをレイアウトモデルの他の部分から分離する。水平プロジェクションセグメンテーションが、実行され続ける。水平プロジェクションセグメンテーションは、セグメンテーションを介して得られたゾーンおよび図１５の残りの接続された領域に別々に実行されるが、先のステップでセグメンテーションを介して得られたゾーンは、これ以上セグメント化され得ない。図１６に示したように、図１５の残りの接続された領域は、この水平プロジェクションセグメンテーションプロセスでは左上の複数のセグメント化されたゾーンを得るためにセグメント化される。図１７に示したように、各々のセグメント化されたゾーンが水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなるまで、垂直セグメンテーションは先のステップでセグメンテーションを介して得られたゾーンに実行され続ける。最終的に、すべてのセグメント化されたゾーンのセットが図１８に示されたレイアウトモデルからセグメンテーションを介して得られる。

いくつかの実施形態によれば、互いに対するセグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンの順番を決定するステップは、操作を周期的に実行する際に、階層ツリーデータ構造における水平セグメント化されたゾーン同士の間、垂直セグメント化されたゾーン同士の間、および水平セグメント化されたゾーンと垂直セグメント化されたゾーンとの間の階層関係を記録するステップであって、階層ツリーデータ構造内のリーフノードがセグメント化されたゾーンのセットを表す、階層関係を記録するステップと、読取り順則にしたがってリーフノードをスキャンするステップであって、リーフノードをスキャンするステップの順番が互いに対するセグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンの順番を表す、リーフノードをスキャンするステップを含む。

いくつかの例では、リーフノードは、ゾーン同士の間の分割線の座標情報または分割線によって形成される長方形の座標情報などの対応するゾーンの座標情報を記録できる。座標情報は、異なるゾーン同士の間の位置関係を反映し、そのためリーフノードをスキャンするプロセスでは、異なるゾーン同士の間の順番は、読取り順則にしたがって決定されることがある。読取り順則は、後で説明されるだろう。

いくつかの例では、周期的に操作を実行する際に、毎回セグメンテーションを介して得られるセグメント化されたゾーンは、読取り順にしたがって階層ツリーデータ構造にマークされる。水平プロジェクションセグメンテーションまたは垂直プロジェクションセグメンテーションを介して再びセグメント化されることがあるセグメント化されたゾーンが次回セグメント化された後で、各々のセグメント化されたゾーンが水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなるまで、セグメント化されたゾーンからセグメンテーションを介して得られたセグメント化されたゾーンは、セグメント化されたゾーンのサブノードとして階層ツリーデータ構造にマークされ、そしてこのときには、全体の階層ツリーデータ構造がマークされる。

いくつかの実施形態によれば、読取り順則は、複数のテキスト行が水平レイアウトタイプのものであることが決定される場合には、垂直セグメント化されたゾーン同士の間の位置関係にしたがって左から右へと垂直セグメント化されたゾーンを配置するステップと、水平セグメント化されたゾーン同士の間の位置関係にしたがって上から下へと水平セグメント化されたゾーンを配置するステップとを含む、あるいは、複数のテキスト行が垂直レイアウトタイプのものであることが決定される場合には、垂直セグメント化されたゾーン同士の間の位置関係にしたがって右から左へと垂直セグメント化されたゾーンを配置するステップと、水平セグメント化されたゾーン同士の間の位置関係にしたがって上から下へと水平セグメント化されたゾーンを配置するステップとを含む。

ツリー構造が、セグメント化されたゾーン同士の間の階層関係を記憶するために使用され、そしてリーフノードの順番は、本開示の実施形態によるレイアウト解析方法が水平レイアウトおよび垂直レイアウトに適合できるように、読取り順則を介して決定され、これによりレイアウト解析方法の普遍性を向上させる。

いくつかの実施形態によれば、複数の接続された領域の空間レイアウトを解析するステップは、それぞれの選択され接続された領域にプロジェクションセグメンテーションを実行するステップの後で、選択され接続された領域の各々が補正角だけこれまでに回転されているかどうかを決定するステップと、選択され接続された領域の各々が補正角だけこれまでに回転されていることが決定され場合には、補正角だけセグメント化されたゾーンのセットを逆に回転するステップとをさらに含むことができる。図１９は、モデルが元々の傾いた状態に調節されそしてセグメント化されたゾーンが読取り順にしたがって配置された後の、図１８に示したレイアウトモデルを示す模式図であり、ここでは、番号０から８がセグメント化されたゾーンの番号および読取り順を表す。レイアウトモデルは、元々の傾いた状態に調節され、そのため後の処理におけるレイアウトモデル内の長方形ブロックと原画像内のテキスト行とをマッチングさせることに便利であり、これによって処理速度を向上させる。

図３に戻って参照して、ステップ３４０では、互いに対するテキスト行の順番は、レイアウト構造に基づいて決定される。
いくつかの実施形態によれば、レイアウト構造に基づいて互いに対するテキスト行の順番を決定するステップは、セグメント化されたゾーンのセット内の各々のセグメント化されたゾーンに対して選択され接続された領域の各々の相対的な位置にしたがって、選択され接続された領域の各々と各々のセグメント化されたゾーンとの間の対応を決定するステップであって、各々のセグメント化されたゾーンが選択され接続された領域の対応するセットを含む、対応を決定するステップと、選択され接続された領域の対応するセット内の選択され接続された領域同士の間の位置的な関係にしたがって選択され接続された領域の対応するセット内で選択され接続された領域を配置するステップと、選択され接続された領域内の長方形ブロック同士の間の位置的な関係にしたがって各々の選択され接続された領域内で長方形ブロックを配置するステップと、複数のテキスト行と複数の長方形ブロックとの間の対応にしたがって各々の選択され接続された領域内の長方形ブロックと複数のテキスト行とをマッチングさせるステップとを含むことができる。

いくつかの実施形態では、セグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンに対するそれぞれの選択され接続された領域の中心または質量中心の相対的な位置は、それぞれの選択され接続された領域がそれぞれ設置されるセグメント化されたゾーンを決定するために決定されることがある。例えば、ある種の選択され接続された領域の中心または質量中心がある種のセグメント化されたゾーン内になる場合には、ある種の選択され接続された領域がある種のセグメント化されたゾーン内に設置されることが決定されることがある。これらの例では、セグメント化されたゾーン内のそれぞれの選択され接続された領域の中心または質量中心の位置に基づいて、セグメント化されたゾーン内の選択され接続された領域が配置されることがある。

いくつかの実施形態によれば、選択され接続された領域の対応するセット内の選択され接続された領域を配置するステップは、複数のテキスト行が水平レイアウトタイプのものであることが決定される場合には、上から下へ選択され接続された領域の対応するセット内に選択され接続された領域を配置するステップと、複数のテキスト行が垂直レイアウトタイプのものであることが決定される場合には、右から左へ選択され接続された領域の対応するセット内に選択され接続された領域を配置するステップとを含むことができる。

図２０は、複数の接続された領域とセグメント化されたゾーンとが例示的な実施形態にしたがってマッチングされ配置された後を示す模式図である。図２０に示したように、接続された領域０から５は、図１９に示した対応するセグメント化されたゾーン０～５にそれぞれマッチングし、接続された領域６から８は、図１９に示したセグメント化されたゾーン６にマッチングし、接続された領域９は、図１９に示したセグメント化されたゾーン７にマッチングし、そして接続された領域１０および１１は、図１９に示したセグメント化されたゾーン８にマッチングする。

接続された領域が配置された後で、接続された領域の各々の中の長方形ブロックが配置されることがある。
いくつかの実施形態によれば、各々の選択され接続された領域内の長方形ブロックを配置するステップは、複数のテキスト行が水平レイアウトタイプのものであることが決定される場合には、上から下へ各々の選択され接続された領域内の長方形ブロックを配置するステップと、複数のテキスト行が垂直レイアウトタイプのものであることが決定される場合には、右から左へ各々の選択され接続された領域内の長方形ブロックを配置するステップとを含む。

レイアウトモデルのサイズが、画像のサイズと同じであるときには、画像内のテキスト行の座標情報は、レイアウトモデル内の長方形ブロックの座標情報と整合する。レイアウトモデルのサイズが画像のサイズと比較してスケーリングされているときには、画像内のテキスト行の座標情報も、レイアウトモデル内の長方形ブロックの座標情報に対して逆にスケーリングされる。それはそうとして、画像内の複数のテキスト行が、画像内のテキスト行を配置するために、画像内の複数のテキスト行とレイアウトモデル内の複数の長方形ブロックとの間の対応にしたがってそれぞれの選択され接続された領域内の長方形ブロックとマッチングされることがある。

図２１は、例示的な実施形態によるレイアウト解析結果にしたがって画像４００内のテキスト行を配置するステップを示す模式図である。図２１に示したように、テキスト行０から５は、図２０に示した対応する接続された領域０から５内にそれぞれあり、テキスト行６から２６は、図２０に示した接続された領域６内にあり、テキスト行２７から３５は、図２０に示した接続された領域７内にあり、テキスト行３６は、図２０に示した接続された領域８内にあり、テキスト行３７から６６は、図２０に示した接続された領域９内にあり、テキスト行６７から９２は、図２０に示した接続された領域１０内にあり、そしてテキスト行９３から１０５は、図２０に示した接続された領域１１内にある。

いくつかの実施形態によれば、図６の複数の接続された領域の空間レイアウトを解析するステップのステップ６２０は、下記の操作、それぞれの選択され接続された領域に水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを再帰的に交互に実行するステップの前に、複数のテキスト行が水平レイアウトタイプのものであることが決定される場合には、長さ方向の両端のところで数データ要素だけそれぞれの選択され接続された領域内の各々の長方形ブロックの長さを小さくするステップと、複数のテキスト行が垂直レイアウトタイプのものであることが決定される場合には、幅方向の両端のところで数データ要素だけそれぞれの選択され接続された領域内の各々の長方形ブロックの幅を小さくするステップとをさらに含むことができる。

水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションがそれぞれの選択され接続された領域に再帰的に交互に実行される前に、それぞれのテキスト行に対応する長方形ブロックのサイズを左右方向に調節するステップは、段落同士の間の画像背景色、等の干渉を排除することができ、そしてセグメンテーションの精度を向上させることができる。

テキスト行のレイアウトタイプがレイアウト解析プロセスにおいてデフォルトにより水平レイアウトまたは垂直レイアウト（これは手動で切り替えられることがある）として決定される実施形態が、上に説明されてきている。本明細書の以降では、本開示のいくつかの追加の実施形態が説明されるだろう、そこではテキスト行のレイアウトタイプが自動的に認識される。レイアウトタイプの自動認識は、いくつかの利点を提供することができる。例えば、互いに対するテキスト行の順番は、ユーザの手動のスイッチングなしに、自動的に認識されたレイアウトタイプにしたがって正しく決定されることがある。画像が主レイアウトタイプ（例えば、水平レイアウト）のテキスト行および副レイアウトタイプ（例えば、垂直レイアウト）のテキスト行の両方を含むケースでは、これは、いくつかの有用な機能の実施をさらに可能にする。例えば、主レイアウトタイプのテキスト行が最初に認識され音声配信されてもよいように、レイアウト解析は、最初に主レイアウトタイプのテキスト行に実行されることがあり、そして次いで、レイアウト解析が副レイアウトタイプのテキスト行に実行されることがある。このことは、主レイアウトタイプのテキスト行は一般にユーザが最初に知りたいと望む内容であるという理由で、読取り支援デバイスのユーザの使用経験を向上させることができる。

いくつかの実施形態によれば、テキスト行のレイアウト構造がレイアウトモデルに基づいて解析される前に、複数のテキスト行の主レイアウトタイプが認識される。主レイアウトタイプは、水平レイアウトタイプおよび垂直レイアウトタイプから構成される群から選択される１つを含む。いくつかの実施形態によれば、複数のテキスト行の主レイアウトタイプを認識するステップは、画像内の複数のテキスト行の座標情報にしたがって複数の長方形ブロックのそれぞれの幾何学的パラメータを決定するステップと、複数の長方形ブロックのそれぞれの幾何学的パラメータに基づいて複数のテキスト行の主レイアウトタイプを決定するステップとを含むことができる。

いくつかの例では、図４および図５に戻って参照して、レイアウトモデル５００内の各々の長方形ブロック５１０の幾何学的パラメータが、画像４００内の複数のテキスト行４１０の座標情報および複数のテキスト行４１０とレイアウトモデル５００内の複数の長方形ブロック５１０との間の対応にしたがって決定されることがある。例えば、レイアウトモデル５００のサイズが画像４００のサイズと同じであるときには、レイアウトモデル５００内の長方形ブロック５１０の座標は、画像４００内の対応するテキスト行４１０の座標と同じであり、そして長方形ブロック５１０の幾何学的パラメータが、対応するテキスト行４１０の座標（例えば、４つの頂点の座標）から直接決定されることがある。

いくつかの実施形態によれば、幾何学的パラメータは、複数の長方形ブロック５１０の各々の長さ方向、長さ、幅方向、および幅のうちの少なくとも１つを含む。テキスト行が読者に対して実質的に左右方向に延びるケースでは（すなわち、水平レイアウト読み物では）、長さ方向は、実質的に左右に延びる方向であり、そして幅方向は、実質的に左右に延びる方向に実質的に直角である方向（すなわち、実質的に上下に延びる方向）であり、テキスト行が読者に対して実質的に上下方向に延びるケースでは（すなわち、垂直レイアウト読み物では）、長さ方向は、実質的に上下に延びる方向であり、そして幅方向は、実質的に上下に延びる方向に実質的に直角な方向（すなわち、実質的に左右に延びる方向）である。

いくつかの実施形態によれば、長方形ブロック５１０に対応するテキスト行４１０のテキスト配置方向は、テキスト行４１０のレイアウトタイプが水平レイアウトであるか垂直レイアウトであるかどうかを決定するために、長方形ブロック５１０のそれぞれの幾何学的パラメータにしたがって決定される。いくつかの実施形態では、テキスト行４１０のレイアウトタイプは、テキスト行４１０に対応する長方形ブロック５１０の長さ方向を決定することによって得られることがある。例えば、長方形ブロック５１０が左右方向に延びる場合には、対応するテキスト行４１０は水平レイアウトを有し、そして長方形ブロック５１０が上下方向に延びる場合には、対応するテキスト行４１０は垂直レイアウトを有する。全体の画像４００のテキスト領域では、ある種のレイアウトタイプ（水平レイアウトまたは垂直レイアウト）のテキスト行４１０の一部分が所定のしきい値を超える場合には、そのある種のレイアウトタイプが主レイアウトタイプである。

図２２は、複数の長方形ブロックのそれぞれの幾何学的パラメータに基づいて複数のテキスト行の主レイアウトタイプを決定するステップの例のプロセスを示すフローチャートである。この例では主レイアウトタイプを決定するステップのための規則は、垂直レイアウトのテキスト行に対応する長方形ブロックの全面積のすべての長方形ブロックの全面積に対する比率が所定のしきい値以上である場合には、主レイアウトタイプは垂直レイアウトであり、そうでなければ、主レイアウトタイプは水平レイアウトであることである。

ステップ２２１０では、複数の長方形ブロックのサブセットが決定され、ここでは複数の長方形ブロックのサブセットが、複数の長方形ブロックから構成され、複数の長方形ブロックでは、次の条件、各々の長方形ブロックの長さ方向とレイアウトモデルの列方向との間に含まれる角度はしきい値角よりも小さい、を満足する。いくつかの実施形態によれば、しきい値角は、例えば、１０°、２０°、または３０°であってもよいが、これらの例には限定されず、そして実際のアプリケーションにしたがって設定されることがある。本明細書において使用するように、複数の要素のサブセットは、複数の要素のうちのいくつかまたはすべてを含むことができる、すなわち、サブセットは、「普遍的なセット」、「適切なサブセット」、または「空セット」であってもよい。「普遍的なセット」のケースでは、複数の長方形ブロック内のすべての長方形ブロックが上の条件を満足する。「適切なサブセット」のケースでは、複数の長方形ブロック内のいくつかの長方形ブロックが上の条件を満足する。「空セット」のケースでは、複数の長方形ブロック内のどの長方形ブロックも上の条件を満足しない。

ステップ２２２０では、複数の長方形ブロックのサブセットの全面積および複数の長方形ブロックの全面積が決定され、そしてステップ２２３０では、複数の長方形ブロックのサブセットの全面積の複数の長方形ブロックの全面積に対する比率が第１のしきい値比率よりも小さいかどうかが決定される。複数の長方形ブロックのサブセットの全面積の複数の長方形ブロックの全面積に対する比率が第１のしきい値比率よりも小さい場合には（ステップ２２３０、「Ｙｅｓ」）、主レイアウトタイプが水平レイアウトタイプであることが決定され（ステップ２２４０）、そうでなければ（ステップ２２３０、「Ｎｏ」）、主レイアウトタイプが垂直レイアウトタイプであることが決定される（ステップ２２５０）。いくつかの実施形態によれば、第１のしきい値比率は、８０％であってもよいが、これに限定されず、そして実際のアプリケーションにしたがって設定されることがある。

主ページタイプを決定するステップのための上記の規則は例示的に過ぎず、他の実施形態では、他の決定規則が使用されてもよいことが認識されるだろう。
いくつかの実施形態によれば、レイアウトモデルに基づいてテキスト行のレイアウト構造を解析するステップはまた、主レイアウトタイプのテキスト行のレイアウト構造を解析するステップも含むことができる。いくつかの実施形態によれば、テキスト行のレイアウト構造がレイアウトモデルに基づいて解析される前に、画像内の重要でないテキストに対応する長方形ブロックが、選択的に破棄されることがある。

いくつかの実施形態によれば、主レイアウトタイプのテキスト行のレイアウト構造が解析される前に、副レイアウトタイプの長方形ブロックが複数の長方形ブロックから選択的に除去されるまたは除去されない、ここでは、副レイアウトタイプは、水平レイアウトタイプおよび垂直レイアウトタイプから構成される群から選択される他のものを含む。

いくつかの例では、小さな面積比率を有する副レイアウトタイプのテキスト行が重要でないテキストとして考えられることがある。このような実施形態では、主レイアウトタイプのテキスト行のレイアウト構造が解析される前に、複数のテキスト行の副レイアウトタイプが、複数の長方形ブロックのそれぞれの幾何学的パラメータに基づいて決定されることがある。上に説明したように、主レイアウトタイプは、水平レイアウトタイプおよび垂直レイアウトタイプのうちの一方（例えば、水平レイアウトタイプ）であってもよく、そして副レイアウトタイプが水平レイアウトタイプおよび垂直レイアウトタイプのうちの他方（例えば、垂直レイアウトタイプ）であってもよい。そのときには、副レイアウトタイプの長方形ブロックは、選択された長方形ブロックを得るように、複数の長方形ブロックから選択的に除去されるまたは除去されない。本明細書において使用するように、「除去すること」という用語は、レイアウトモデルのデータ要素のデータ値をデフォルト値（例えば、ゼロ）に修正することを呼ぶことがある。重要でないテキストを破棄することは、テキスト認識および配信中に最大限に主レイアウトのテキストの読取り順が妨げられることを避けることができ、そしてユーザ経験を改善することができる。

図２３は、画像内の重要でないテキストに対応する長方形ブロックを選択的に破棄するステップの例のプロセスを示すフローチャートである。図２３に示したように、副レイアウトタイプの長方形ブロックの複数の長方形ブロックの全面積に対する比率を計算することによって副レイアウトタイプの長方形ブロックを除去するかどうかが決定されることがある。最初に、ステップ２３１０では、副レイアウトタイプの長方形ブロックの全面積および複数の長方形ブロックの全面積が決定される、すなわち、副レイアウトタイプの長方形ブロックの全面積およびレイアウトモデル内のすべての長方形ブロックの全面積が決定される。次いで、ステップ２３２０では、副レイアウトタイプの長方形ブロックの全面積の複数の長方形ブロックの全面積に対する比率が第２のしきい値比率よりも小さいかどうかが決定される。副レイアウトタイプの長方形ブロックの全面積の複数の長方形ブロックの全面積に対する比率が第２のしきい値比率よりも小さいことが決定される（ステップ２３２０、「Ｙｅｓ」）場合には、副レイアウトタイプの長方形ブロックは、複数の長方形ブロックから除去される（ステップ２３３０）。副レイアウトタイプの長方形ブロックの全面積の複数の長方形ブロックの全面積に対する比率が第２のしきい値比率よりも小さくないことが決定される（ステップ２３２０、「Ｎｏ」）場合には、副レイアウトタイプの長方形ブロックは複数の長方形ブロックから除去されない（ステップ２３４０）。いくつかの実施形態によれば、第２のしきい値比率は、実際のアプリケーションにしたがって、例えば、３％、５％、または７％、に設定されることがある。本開示は、これに関して限定されない。

この操作が実行された後で、主レイアウトタイプのテキスト行のレイアウト構造を解析するステップが実行される。主レイアウトタイプのテキスト行のレイアウト構造に関する解析方法は、図６から図２１に関して上に説明した解析方法に類似し、これは簡潔さのために本明細書では繰り返されないだろう。

いくつかの実施形態によれば、主レイアウトタイプのテキスト行のレイアウト構造が解析された後で、副レイアウトタイプの長方形ブロックが複数の長方形ブロックから除去されない場合には、副レイアウトタイプのテキスト行のレイアウト構造が解析され続けることがある。副レイアウトタイプのテキスト行のレイアウト構造に関する解析方法は、図６から図２１に関して上に説明した解析方法に類似し、これは簡潔さのために本明細書では繰り返されないだろう。

本開示によるレイアウト解析のための例示的な方法が、添付の図面を参照して上に説明されてきている。レイアウト解析の後で、引き続く処理がさらに実行されることがある。例えば、テキスト行毎に認識されたテキストデータは、テキスト認識の結果と組み合わせてテキスト行配置の結果にしたがってサウンドデータへと変換されることがあり、これは、例えば、オーディオブックに関係するアプリケーションおよび視覚障害者支援アプリケーションで使用されることがある。画像のテキスト行が水平レイアウトおよび垂直レイアウトの両方を含み、そして副レイアウトタイプのテキスト行がレイアウト解析中に除去されていないケースでは、引き続く処理がテキスト配信のため、テキスト認識結果を統合するために実行されるときには、主レイアウトタイプのテキスト行内のテキストが最初に認識されそして配信されることがあり、そして主レイアウトタイプのテキスト行内のテキストが配信された後で、副レイアウトタイプのテキスト行内のテキストが認識されそして配信される。

図２４は、本開示の例示的な実施形態による読取り支援デバイスを示す構造ブロック図である。図２４に示したように、読取り支援デバイス２４００は、前述の画像（例えば、静止画像またはビデオ画像であってもよく、そして画像はテキストを含んでもよい）を取り込むように構成された画像センサ２４１０（これは、例えば、ウェブカメラまたはカメラとして実装されてもよい）と、前述の方法のうちのいずれか１つにしたがったステップを実行する回路ユニットとして構成されたチップ回路２４２０とを含む。

本明細書において使用されるように、「回路」という用語は、下記の回路、特定用途向け集積回路（ＡＳＩＣ）、電子回路、１つまたは複数のソフトウェアプログラムまたはファームウェアプログラムを実行する（共有、専用、もしくはグループ）プロセッサおよび／または（共有、専用、もしくはグループ）メモリ、機能を提供する組合せ論理回路、ならびに／あるいは他の適切なハードウェア部品、の一部であるまたは含むことができる。いくつかの実施形態では、回路または回路に関連する機能は、１つまたは複数のソフトウェアモジュールまたはファームウェアモジュールによって実装されることがある。いくつかの実施形態では、回路は、ハードウェアにおいて少なくとも部分的に動作可能である論理を含むことができる。本明細書において説明した実施形態は、いずれかの適正に構成されたハードウェアおよび／またはソフトウェアを使用するシステムとして実装されることがある。

いくつかの実施形態によれば、チップ回路は、テキストデータを取得するために画像のテキスト認識を実行するように構成された回路ユニットと、テキスト行配置の結果にしたがって各々のテキスト行内のテキストデータをサウンドデータへと変換するように構成された回路ユニットとをさらに含むことができる。テキストデータを取得するために画像のテキスト認識を実行するように構成された回路ユニットは、例えば、任意のテキスト認識（例えば、光学文字認識（ＯＣＲ））ソフトウェアまたは回路を使用することができる。テキスト行配置の結果にしたがって各々のテキスト行内のテキストデータをサウンドデータへと変換するように構成された回路ユニットは、例えば、任意のテキスト－音声変換ソフトウェアまたは回路を使用することができる。回路ユニットは、例えば、ＡＳＩＣチップまたはＦＰＧＡチップによって実装されることがある。読取り支援デバイス２４００は、サウンドデータ（すなわち、音声データ）を出力するように構成されたサウンド出力デバイス２４３０（例えば、スピーカ、およびヘッドホン）をさらに含むことができる。

本開示の態様は、電子デバイスを含むことができる。電子デバイスは、プロセッサと、プログラムを記憶するメモリとを含むことができ、ここではプログラムは、プロセッサによって実行されたときに、プロセッサに前述の方法のうちのいずれかを実行させる命令を含む。いくつかの実施形態によれば、プログラムは、命令がプロセッサによって実行されたときに、テキスト行配置の結果にしたがって各々のテキスト行内のテキストデータをサウンドデータへと変換するための命令をさらに含むことができる。いくつかの実施形態によれば、電子デバイスは、例えば、読取り支援デバイスであってもよい。いくつかの実施形態によれば、電子デバイスは、読取り支援デバイスと通信する別のデバイス（例えば、携帯電話機、コンピュータ、およびサーバ）であってもよい。電子デバイスが読取り支援デバイスと通信する別のデバイスであるケースでは、読取り支援デバイスは、別のデバイスによる前述の方法のうちのいずれかの実行のために別のデバイスへ写真撮影した画像を送ることができ、次いで、読取り支援デバイスによる引き続く処理（例えば、ユーザにサウンドデータを演奏すること）の実行のために読取り支援デバイスへ方法の処理結果（例えば、レイアウト解析結果、テキスト認識結果、および／またはテキストデータから変換されたサウンドデータ）を差し戻す。

いくつかの実施形態によれば、読取り支援デバイスは、ウェアラブルデバイス、例えば、メガネの形態で装着されるデバイス、頭搭載型デバイス（ヘルメットまたは帽子など）、耳に装着可能なデバイス、メガネに取り付けられたアクセサリ（例えば、メガネフレームおよびメガネレッグ）、帽子に取り付けられたアクセサリ、等として実装されることがある。

読取り支援デバイスを用いて、視覚障害のユーザは、正常な視力を有する読者と同じような読取り姿勢で従来型の読み物（本および雑誌など）を「読む」ことができる。「読取り」の過程で、読取り支援デバイスは、テキスト行を配置するために前述の実施形態における方法にしたがって、取り込んだレイアウト画像に対してレイアウト解析を自動的に実行し、テキスト行内のテキストをテキスト行の順にサウンドへと順次変換し、そしてユーザが聞くためにスピーカまたはヘッドホンなどの出力装置を介してサウンドを出力する。

本開示の態様は、プログラムを記憶するコンピュータ可読記憶媒体を含むことができ、ここでは、プログラムが、電子デバイスのプロセッサによって実行されたときに、電子デバイスに前述の方法のうちのいずれかを実行させる命令を含む。図２５を参照して、本開示の様々な態様に適用されることがあるハードウェアデバイスの例であるコンピューティングデバイス２５００がここで説明される。コンピューティングデバイス２５００は、処理および／または計算を実行するように構成され、限定されないが、ワークステーション、サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、パーソナルディジタルアシスタント、スマートフォン、オンボードコンピュータ、ウェアラブルデバイス、またはこれらの任意の組合せであり得る任意の装置であってもよい。いくつかの実施形態によれば、読取り支援デバイスまたは電子デバイスはまた、全体がまたは少なくとも一部が、コンピューティングデバイス２５００または類似のデバイスもしくはシステムによって実装されることもある。

コンピューティングデバイス２５００は、バス２５０２と接続するまたはバス２５０２と（おそらく、１つまたは複数のインターフェースを介して）通信する要素を含むことができる。例えば、コンピューティングデバイス２５００は、バス２５０２、１つまたは複数のプロセッサ２５０４（これは前述の読取り支援デバイスに含まれるプロセッサまたはチップ回路を実装するように構成されることがある）、１つまたは複数の入力デバイス２５０６、および１つまたは複数の出力デバイス２５０８を含むことができる。１つまたは複数のプロセッサ２５０４は、任意のタイプのプロセッサであってもよく、そして限定されないが、１つもしくは複数の汎用プロセッサおよび／または１つもしくは複数の専用プロセッサ（例えば、特殊処理チップ）を含むことができる。入力デバイス２５０６は、コンピューティングデバイス２５００へ情報を入力することができる任意のタイプのデバイスであってもよく、そして限定されないが、センサ（例えば、上に説明したような画像を取り込むためのセンサ）、マウス、キーボード、タッチスクリーン、マイクロフォンおよび／またはリモートコントローラを含むことができる。出力デバイス２５０８は、情報を提示することができる任意のタイプのデバイスであってもよく、そして限定されないが、ディスプレイ、スピーカ（例えば、上に説明したようなサウンドデータを出力するように構成されることがある出力デバイス）、ビデオ／オーディオ出力端子、バイブレータおよび／またはプリンタを含むことができる。コンピューティングデバイス２５００はまた、記憶デバイス２５１０を含むことができる、または記憶デバイス２５１０に接続されることがある。記憶デバイス（これは、例えば、上に説明したようなコンピュータ可読記憶媒体を実装するように構成されることがある）は、非一時的であってもよく、データストレージを実装することができる任意の記憶デバイスであってもよく、そして限定されないが、ディスクドライブ、光記憶デバイス、固体メモリ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは任意の他の磁気媒体、光ディスクもしくは任意の他の光媒体、読取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、キャッシュメモリおよび／または任意の他のメモリチップもしくはカートリッジ、ならびに／またはコンピュータがデータ、命令および／もしくはコードを読み取ることができる任意の他の媒体を含むことができる。記憶デバイス２５１０は、インターフェースから取り外されることがある。記憶デバイス２５１０は、前述の方法およびステップを実施するためのデータ／プログラム（命令を含む）／コードを有することができる。コンピューティングデバイス２５００は、通信デバイス２５１２をさらに含むことができる。通信デバイス２５１２は、外部デバイスおよび／またはネットワークとの通信を可能にする任意のタイプのデバイスまたはシステムであってもよく、そして限定されないが、モデム、ネットワークインターフェースカード、赤外線通信デバイス、ワイアレス通信デバイスおよび／またはチップセット、例えば、ブルートゥース（登録商標）デバイス、１３０２．１１デバイス、Ｗｉ－Ｆｉデバイス、ＷｉＭａｘデバイス、セルラ通信デバイス、等を含むことができる。

コンピューティングデバイス２５００はまた、（前述の読取り支援デバイスに含まれるメモリを実装するために使用されることがある）ワーキングメモリ２５１４も含むことができ、これは、プロセッサ２５０４の作業のために有用なプログラム（命令を含む）および／またはデータを記憶することができる任意のタイプのワーキングメモリであってもよく、そして限定されないが、ランダムアクセスメモリおよび／または読取り専用メモリを含むことができる。

ソフトウェア要素（プログラム）は、ワーキングメモリ２５１４内に置かれることがあり、そして限定されないが、オペレーティングシステム２５１６、１つまたは複数のアプリケーション（すなわち、アプリケーションプログラム）２５１８、ドライバ、ならびに／または他のデータおよびコードを含むことができる。方法およびステップを実行するための命令は、１つまたは複数のアプリケーション２５１８に含まれることがある。ソフトウェア要素（プログラム）の命令の実行可能なコードまたはソースコードは、非一時的なコンピュータ可読記憶媒体（例えば、記憶デバイス２５１０）に記憶されることがあり、そして実行されるときにワーキングメモリ２５１４に記憶されることがある（コンパイルされるおよび／またはインストールされることがある）。ソフトウェア要素（プログラム）の命令の実行可能なコードまたはソースコードはまた、遠隔地からダウンロードされることがある。

図２５に示したコンピューティングデバイス２５００が本開示の実施に適用されるときに、ワーキングメモリ２５１４は、本開示のフローチャートを実行するためのプログラムコードおよび／またはテキストコンテンツを含んでおり認識されるべき画像を記憶することができる。アプリケーション２５１８は、サードパーティによって提供される、光学式文字認識アプリケーション（Ａｄｏｂｅなど）、音声変換アプリケーション、編集可能テキスト処理アプリケーション、等を含むことができる。入力デバイス２５０６は、テキストコンテンツを含む画像を取り込むためのセンサであってもよい。テキストコンテンツを含む記憶した画像または取り込んだ画像は、ＯＣＲアプリケーションによってテキストを含む出力結果へと処理されることがある。出力デバイス２５０８は、例えば、音声配信のためのスピーカまたはヘッドホンである。プロセッサ２５０４は、ワーキングメモリ２５１４内のプログラムコードにしたがって、本開示の様々な態様による方法のステップを実行するように構成される。

様々な変形が具体的な要求にしたがって行われてもよいことがさらに認識されるはずである。例えば、カスタムハードウェアもまた使用されることがあり、および／または特定の素子（すなわちチップ回路）が、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはこれらのいずれかの組合せで実装されることがある。例えば、開示した方法およびデバイス（例えば、上記のチップ回路内の回路ユニット）のうちのいくつかまたはすべてが、本開示の論理およびアルゴリズムを使用することによってアセンブリ言語またはハードウェアプログラミング言語（ＶＥＲＩＬＯＧ（登録商標）、ＶＨＤＬ、Ｃ＋＋、など）でプログラミングハードウェア（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）および／またはプログラマブル論理アレイ（ＰＬＡ）を含めプログラマブル論理回路）によって実施されることがある。

コンピューティングデバイス２５００の構成要素がネットワーク全体にわたって分散されることがあることが、さらに理解されるはずである。例えば、いくつかの処理が、１つのプロセッサによって実行されることがあり、一方で他の処理が、その１つのプロセッサから遠く離れた別のプロセッサによって実行されることがある。コンピューティングデバイス２５００の他の構成要素もまた、同様に分散されることがある。それはそうとして、コンピューティングデバイス２５００は、複数の場所で処理を実行する分散型コンピューティングシステムとして解釈されてもよい。

本開示の実施形態または実施例が図面を参照して説明されてきているけれども、上に説明した方法、システム、およびデバイスは単に例示的な実施形態または実施例であり、本発明の範囲は、実施形態または実施例によって限定されないばかりか、認可された特許請求の範囲およびこれらの等価な範囲によって規定されるに過ぎないことが認識されるはずである。実施形態または実施例の様々な要素は、省略されてもよいまたはこれらの等価な要素によって置き換えられてもよい。加えて、ステップは、本開示において記載した順番とは異なる順番で実行されてもよい。さらに、実施形態または実施例の様々な要素は、様々な方法で組み合わせられてもよい。技術が発展するにつれて、本明細書において記載した多くの要素が、本開示の後に出現する等価な要素で置き換えられてもよいことが重要である。

１００アプリケーションシナリオ
１１０スマートグラス
１１２撮影範囲
１１４テキスト行
１１６読み物
２００方法
３００レイアウト解析方法
４００画像
４１０テキスト行
５００レイアウトモデル
５１０長方形ブロック
７００レイアウトモデル
７１０接続された領域
１２１０波形
１２２０連結線
１２３０垂直分割線
２４００読取り支援デバイス
２４１０画像センサ
２４２０チップ回路
２４３０サウンド出力デバイス
２５００コンピューティングデバイス
２５０２バス
２５０４プロセッサ
２５０６入力デバイス
２５０８出力デバイス
２５１０記憶デバイス
２５１２通信デバイス
２５１４ワーキングメモリ
２５１６オペレーティングシステム
２５１８アプリケーション

Claims

コンピュータで実行されるレイアウト解析方法であって、
画像内の複数のテキスト行の座標情報を取得するステップと、
前記座標情報にしたがって前記画像のレイアウトモデルを作り出すステップであって、前記レイアウトモデルはテキスト分布を模擬的に再現するデータ値で埋められたデータ要素を有するデータ構造であるステップと、
前記画像の代わりに前記レイアウトモデルに基づいて前記テキスト行のレイアウト構造を解析するステップと、
前記レイアウト構造に基づいて互いに対する前記テキスト行の順番を決定するステップと、
を含む、レイアウト解析方法において、
前記座標情報にしたがって前記画像のレイアウトモデルを作り出すステップは、
前記レイアウトモデルを得るためにデータ構造内の前記座標情報に対応するデータ要素をデータ値で埋めるステップであって、前記データ値で埋められた前記データ要素が複数の長方形ブロックを形成し、前記複数の長方形ブロックが前記複数のテキスト行内のそれぞれのテキスト行に対応する、埋めるステップ、
を含む、レイアウト解析方法。
前記レイアウトモデルに基づいて前記テキスト行の前記レイアウト構造を前記解析するステップは、
前記複数の長方形ブロックが互いに別々の複数の接続された領域へと併合されるように、前記複数の長方形ブロックの幅を選択的に調節するステップと、
前記テキスト行のレイアウト構造を得るために前記複数の接続された領域の空間レイアウトを解析するステップと、
を含む、請求項１に記載のレイアウト解析方法。
前記複数の長方形ブロックの前記幅を前記選択的に調節するステップが、
各々の長方形ブロックに対して、
長方形ブロックの幅が前記複数の長方形ブロックの代表する幅以下であることに応じて第１の大きさだけ前記長方形ブロックの前記幅を大きくするステップと、
前記長方形ブロックの前記幅が前記代表する幅よりも大きく前記代表する幅の第１の倍数以下であることに応じて第２の大きさだけ前記長方形ブロックの前記幅を大きくするステップと、
前記長方形ブロックの前記幅が前記代表する幅の前記第１の倍数よりも大きく前記代表する幅の第２の倍数以下であることに応じて前記長方形ブロックの前記幅を調節しないステップと、
前記長方形ブロックの前記幅が前記代表する幅の前記第２の倍数よりも大きいことに応じて第３の大きさだけ前記長方形ブロックの前記幅を小さくするステップと、
を含む、請求項２に記載のレイアウト解析方法。
前記複数の接続された領域の前記空間レイアウトを前記解析するステップが、
前記レイアウトモデル内の前記複数の接続された領域の向きを選択的に補正するまたは補正しないステップと、
それぞれの選択され接続された領域を得るために、行方向において前記レイアウトモデルの２つの辺のうちのいずれか一方に直接隣接する前記レイアウトモデル内の接続された領域を選択的に除去するまたは除去しないステップと、
セグメント化されたゾーンのセットを得るためおよび互いに対する前記セグメント化されたゾーンの順番を求めるために、前記それぞれの選択され接続された領域に対してプロジェクションセグメンテーションを実行するステップと、
を含む、請求項２に記載のレイアウト解析方法。
前記レイアウトモデル内の前記複数の接続された領域の向きを前記選択的に補正するまたは補正しないステップは、
前記複数の接続された領域が前記レイアウトモデルの前記行方向および列方向のうちのいずれか一方に対して傾いた状態であるかどうかを決定するステップと、
前記複数の接続された領域が前記傾いた状態であることを決定するステップに応じて、前記複数の接続された領域が前記傾いた状態でないように補正角だけ前記複数の接続された領域を回転するステップと、
を含む、請求項４に記載のレイアウト解析方法。
前記行方向において前記レイアウトモデルの２つの辺のうちのいずれか一方に直接隣接する前記レイアウトモデル内の接続された領域を前記選択的に除去するまたは除去しないステップは、
前記複数の接続された領域が前記傾いた状態にないことに応じて前記レイアウトモデルに対して垂直プロジェクションセグメンテーションを実行するステップと、
前記垂直プロジェクションセグメンテーションの結果に依存して、前記複数の接続された領域から、前記行方向において前記レイアウトモデルの２つの辺うちのいずれか一方に直接隣接する接続された領域を選択的に除去するまたは除去しないステップと、
を含む、請求項５に記載のレイアウト解析方法。
前記複数の接続された領域から、前記行方向において前記レイアウトモデルの２つの辺のうちのいずれか一方に直接隣接する接続された領域を前記選択的に除去するまたは除去しないステップは、
少なくとも２つのゾーンが前記垂直プロジェクションセグメンテーションを介して前記レイアウトモデルから得られていないことを決定することに応じて前記除去を実行しないステップと、
少なくとも２つのゾーンが前記垂直プロジェクションセグメンテーションを介して前記レイアウトモデルから得られていることを決定することに応じて、前記行方向の前記少なくとも２つのゾーンの対応する有効サイズを決定するステップと、前記行方向において前記レイアウトモデルの２つの辺のうちのいずれか一方に直接隣接する前記少なくとも２つのゾーンの各々の横ゾーンに下記の操作を実行するステップであって、
２つのゾーンがセグメンテーションを介して前記レイアウトモデルから得られていることおよび前記行方向の前記横ゾーンの有効サイズが前記対応する有効サイズ内の最大サイズの第１のしきい値パーセントよりも小さくそして前記行方向の前記２つのゾーンのうちの他方の有効サイズの第２のしきい値パーセントよりも小さいことに応じて前記横ゾーン内の接続された領域を除去するステップと、
２つよりも多くのゾーンがセグメンテーションを介して前記レイアウトモデルから得られていることおよび前記行方向の前記横ゾーンの前記有効サイズが前記対応する有効サイズ内の前記最大サイズの第３のしきい値パーセントよりも小さくそして前記行方向において前記横ゾーンに直接隣接する前記ゾーン内のゾーンの有効サイズの第４のしきい値パーセントよりも小さいことに応じて前記横ゾーン内の接続された領域を除去するステップと、
を含む、請求項６に記載のレイアウト解析方法。
前記それぞれの選択され接続された領域に対してプロジェクションセグメンテーションを前記実行するステップが、
セグメンテーションを介して前記レイアウトモデルから前記セグメント化されたゾーンのセットを得るために、前記それぞれの選択され接続された領域に対して水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを再帰的に交互に実行するステップと、
読取り順則に基づいて互いに対する前記セグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンの順番を決定するステップと、
を含む、請求項４に記載のレイアウト解析方法。
前記それぞれの選択され接続された領域に対して水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを前記再帰的に交互に実行するステップは、
周期的に操作を実行するステップであって、前記操作は、
各々のセグメント化されたゾーンが水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなるまで、
水平プロジェクションセグメンテーションを介して得られた各々の水平セグメント化されたゾーンに垂直プロジェクションセグメンテーションを実行するステップと、
垂直プロジェクションセグメンテーションを介して得られた各々の垂直セグメント化されたゾーンに水平プロジェクションセグメンテーションを実行するステップと
を含む、周期的に操作を実行するステップ
を含み、
水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなった前記セグメント化されたゾーンが、前記セグメント化されたゾーンのセットを形成する、
請求項８に記載のレイアウト解析方法。
水平プロジェクションセグメンテーションを介して得られた各々の水平セグメント化されたゾーンに垂直プロジェクションセグメンテーションを前記実行するステップは、
データ列のセットに関する前記水平セグメント化されたゾーンを検索するステップであって、前記データ列のセット内の各々のデータ列のデータ値の総計がゼロから第１のしきい値までの範囲内であり、前記第１のしきい値がゼロよりも大きい、前記水平セグメント化されたゾーンを検索するステップと、
前記データ列のセットから、前記データ列のセットを見つけることに応じて前記水平セグメント化されたゾーンをセグメント化するための垂直分割線を選択するステップと、
垂直セグメント化されたゾーンを得るために前記選択した垂直分割線を使用して前記水平セグメント化されたゾーンをセグメント化するステップと、
を含む、請求項９に記載のレイアウト解析方法。
垂直プロジェクションセグメンテーションを介して得られた各々の垂直セグメント化されたゾーンに水平プロジェクションセグメンテーションを前記実行するステップは、
データ行のセットに関する前記垂直セグメント化されたゾーンを検索するステップであって、前記データ行のセット内の各々のデータ行のデータ値の総計がゼロから第２のしきい値までの範囲内であり、前記第２のしきい値がゼロよりも大きい、前記垂直セグメント化されたゾーンを検索するステップと、
前記データ行のセットから、前記データ行のセットを見つけることに応じて前記垂直セグメント化されたゾーンをセグメント化するための水平分割線を選択するステップと、
水平セグメント化されたゾーンを得るために前記選択した水平分割線を使用して前記垂直セグメント化されたゾーンをセグメント化するステップと、
を含む、請求項９に記載のレイアウト解析方法。
互いに対する前記セグメント化されたゾーンのセット内の前記それぞれのセグメント化されたゾーンの前記順番を前記決定するステップが、
周期的に前記操作を実行する際に、階層ツリーデータ構造内の水平セグメント化されたゾーン同士の間の、垂直セグメント化されたゾーン同士の間の、および前記水平セグメント化されたゾーンと前記垂直セグメント化されたゾーンとの間の階層的関係を記録するステップであって、前記階層ツリーデータ構造内のリーフノードが前記セグメント化されたゾーンのセットを表す、階層的関係を記録するステップと、
前記読取り順則にしたがって前記リーフノードをスキャンするステップであって、前記リーフノードをスキャンするステップの順番が互いに対する前記セグメント化されたゾーンのセット内の前記それぞれのセグメント化されたゾーンの順番を表す、前記リーフノードをスキャンするステップと、
を含む、請求項９に記載のレイアウト解析方法。
前記複数の接続された領域の前記空間レイアウトを前記解析するステップは、前記それぞれの選択され接続された領域に対してプロジェクションセグメンテーションを前記実行するステップの後で、
前記それぞれの選択され接続された領域が前記補正角だけこれまでに回転されているかどうかを決定するステップと、
前記それぞれの選択され接続された領域が前記補正角だけこれまでに回転されていることを決定するステップに応じて前記補正角だけ前記セグメント化されたゾーンのセットを逆に回転するステップと、
をさらに含む、請求項５に記載のレイアウト解析方法。
前記レイアウト構造に基づいて互いに対する前記テキスト行の前記順番を前記決定するステップが、
前記セグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンに対して前記それぞれの選択され接続された領域の相対的な位置にしたがって、前記それぞれの選択され接続された領域と前記それぞれのセグメント化されたゾーンとの間の対応を決定するステップであって、各々のセグメント化されたゾーンが選択され接続された領域の対応するセットを含む、対応を決定するステップと、
選択され接続された領域の前記対応するセット内の前記選択され接続された領域同士の間の位置的な関係にしたがって選択され接続された領域の前記対応するセット内の選択され接続された領域を配置するステップと、
前記選択され接続された領域内の前記長方形ブロック同士の間の位置的な関係にしたがって各々の選択され接続された領域内の長方形ブロックを配置するステップと、
前記複数のテキスト行と前記複数の長方形ブロックとの間の対応にしたがって前記それぞれの選択され接続された領域内の長方形ブロックと前記複数のテキスト行とをマッチングさせるステップと、
を含む、請求項１３に記載のレイアウト解析方法。
前記レイアウトモデルに基づいて前記テキスト行の前記レイアウト構造を前記解析するステップの前に、
前記複数のテキスト行の主レイアウトタイプを認識するステップであって、前記主レイアウトタイプが水平レイアウトタイプおよび垂直レイアウトタイプから構成される群から選択される１つを含む、認識するステップをさらに含み、
前記レイアウトモデルに基づいて前記テキスト行の前記レイアウト構造を前記解析するステップが、
前記主レイアウトタイプの前記テキスト行のレイアウト構造を解析するステップを含む、
請求項１に記載のレイアウト解析方法。
請求項１～１５のいずれか一項に記載のレイアウト解析方法を実行するように構成された回路ユニットを備えた、チップ回路。
請求項１６に記載のチップ回路と、
画像を取り込むように構成された画像センサと、
を備えた、読取り支援デバイス。
プロセッサと、
プログラムを記憶するメモリであって、前記プログラムが、前記プロセッサによって実行されたときに、前記プロセッサに請求項１～１５のいずれか一項に記載のレイアウト解析方法を実行させる命令を含む、メモリと、
を備えた、電子デバイス。
プログラムを記憶するコンピュータ可読記憶媒体であって、前記プログラムが、電子デバイスのプロセッサによって実行されたときに、前記電子デバイスに請求項１～１５のいずれか一項に記載のレイアウト解析方法を実行させる命令を含む、コンピュータ可読記憶媒体。