JP7132654B2 - レイアウト解析方法、読取り支援デバイス、回路および媒体 - Google Patents

レイアウト解析方法、読取り支援デバイス、回路および媒体 Download PDF

Info

Publication number
JP7132654B2
JP7132654B2 JP2021113960A JP2021113960A JP7132654B2 JP 7132654 B2 JP7132654 B2 JP 7132654B2 JP 2021113960 A JP2021113960 A JP 2021113960A JP 2021113960 A JP2021113960 A JP 2021113960A JP 7132654 B2 JP7132654 B2 JP 7132654B2
Authority
JP
Japan
Prior art keywords
layout
segmented
connected regions
text
zones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021113960A
Other languages
English (en)
Other versions
JP2022017202A (ja
Inventor
リンフェン・リー
ハイジャオ・ツァイ
シンペン・フェン
ジー・チョウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Publication of JP2022017202A publication Critical patent/JP2022017202A/ja
Application granted granted Critical
Publication of JP7132654B2 publication Critical patent/JP7132654B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Description

本開示は、データ処理の分野に関し、特に、レイアウト解析方法、チップ回路、読取り支援デバイス、電子デバイス、およびコンピュータ可読記憶媒体に関する。
関係する技術において画像のレイアウト解析のための技術がある。この技術は、電子書籍の生成およびオーディオブックの生成などの後のアプリケーションを容易にするために印刷物の画像ファイル内のテキストフィールドを分類し認識するために画像処理、人工知能、および他の技術を使用する。知られた技術が、印刷物の原画像に基づいてレイアウト解析を実行するために通常使用され、結果として遅い処理速度になる。
この項で記載する方法は、必ずしも、これまでに考えられてきているまたは利用されてきている方法である必要はない。この項で記載する方法のうちのいずれかは、特に明確に指示しない限り、これらの方法がこの項に含まれるという理由で、先行技術であるように考えられると決めてかかるべきではない。同様に、この項で述べる問題は、特に明確に指示しない限り、いずれかの先行技術で普遍的に認識されると考えるべきではない。
本開示のいくつかの実施形態によれば、レイアウト解析方法が提供され、画像内の複数のテキスト行の座標情報を取得するステップと、上記座標情報にしたがって上記画像のレイアウトモデルを作り出すステップと、上記レイアウトモデルに基づいて上記テキスト行のレイアウト構造を解析するステップと、上記レイアウト構造に基づいて互いに対する上記テキスト行の順番を決定するステップとを含む。
本開示のいくつかの実施形態によれば、チップ回路が提供され、本開示の実施形態による方法を実行するように構成された回路ユニットを含む。
本開示のいくつかの実施形態によれば、読取り支援デバイスが提供され、上に記載したチップ回路と、画像を取り込むように構成された画像センサとを含む。
本開示のいくつかの実施形態によれば、電子デバイスが提供され、プロセッサと、プログラムを記憶するメモリであって、上記プログラムが、上記プロセッサによって実行されたときに、上記プロセッサに本開示による方法を実行させる命令を含む、メモリとを含む。
本開示のいくつかの実施形態によれば、プログラムを記憶するコンピュータ可読記憶媒体が提供され、上記プログラムが、電子デバイスのプロセッサによって実行されたときに、上記電子デバイスに本開示による方法を実行させる命令を含む。
本開示のこれらの態様および他の態様は、下記に説明する実施形態から明らかであろう、そして下記に説明される実施形態を参照して明確化されるだろう。
図面は、実施形態を例示的に示し明細書の一部を形成し、そして明細書の記述とともに実施形態の例示的な実装形態を説明するために使用される。示した実施形態は、単に例示の目的のためであり特許請求の範囲の範囲を限定しない。図面全体を通して、同一の参照符号は、類似するが必ずしも同一である必要がない要素を表示する。
本明細書において説明する様々な方法が例示的な実施形態にしたがって適用されることがある例示的なアプリケーションシナリオを示す模式図である。 画像内のテキストを認識しそして認識したテキストの音声配信を実行するために、図1のアプリケーションシナリオにおいて使用されることがある例示的な方法を示すフローチャートである。 例示的な実施形態によるレイアウト解析方法を示すフローチャートである。 例示的な実施形態によるテキスト領域を含む画像を示す模式図である。 例示的な実施形態にしたがって図4に示した画像に対して作り出されたレイアウトモデルを示す模式図である。 例示的な実施形態にしたがってテキスト行のレイアウト構造を解析するための方法を示すフローチャートである。 例示的な実施形態にしたがって複数の接続された領域を形成するために図5の長方形ブロックの幅を調節することにより得られるレイアウトモデルを示す模式図である。 図6の方法において複数の接続された領域の空間レイアウトを解析するステップの例のプロセスを示すフローチャートである。 図8の方法において複数の接続された領域の向きを選択的に補正するステップの例のプロセスを示すフローチャートである。 例示的な実施形態にしたがって図7に示したレイアウトモデルに対して角度補正を実行することによって得られるレイアウトモデルを示す模式図である。 図8の方法においてレイアウトモデルの2つの辺のうちのいずれか一方に直接隣接する接続された領域を選択的に除去するステップの例のプロセスを示すフローチャートである。 例示的な実施形態にしたがって図10に示したレイアウトモデルに対して垂直プロジェクションを実行するステップを示す模式図である。 図12のプロジェクション結果にしたがって図10に示したレイアウトモデルから不完全なページを表す接続された領域の除去の後で得られたレイアウトモデルを示す模式図である。 例示的な実施形態にしたがって図13に示したレイアウトモデルに対してプロジェクションセグメンテーションを実行するステップを示す模式図である。 例示的な実施形態にしたがって図13に示したレイアウトモデルに対してプロジェクションセグメンテーションを実行するステップを示す模式図である。 例示的な実施形態にしたがって図13に示したレイアウトモデルに対してプロジェクションセグメンテーションを実行するステップを示す模式図である。 例示的な実施形態にしたがって図13に示したレイアウトモデルに対してプロジェクションセグメンテーションを実行するステップを示す模式図である。 例示的な実施形態にしたがって最終的に得られたセグメント化されたゾーンのセットを含むレイアウトモデルを示す模式図である。 モデルが元々の傾いた状態に調節されそしてセグメント化されたゾーンが読取り順にしたがって配置された後の図18に示したレイアウトモデルを示す模式図である。 例示的な実施形態にしたがって複数の接続された領域およびセグメント化されたゾーンがマッチングされそして配置された後を示した模式図である。 例示的な実施形態によるレイアウト解析結果に基づいて図4の画像内のテキスト行を配置するステップを示す模式図である。 例示的な実施形態にしたがってテキスト行の主レイアウトタイプを決定するステップの例のプロセスを示すフローチャートである。 例示的な実施形態にしたがって副レイアウトタイプのテキストを選択的に破棄するステップの例のプロセスを示すフローチャートである。 例示的な実施形態による読取り支援デバイスを示す構造ブロック図である。 例示的な実施形態に適用されることがある例示的なコンピューティングデバイスを示す構造ブロック図である。
本開示では、別なように述べない限り、様々な要素を説明するために使用する「第1の」、「第2の」、等という用語は、これらの要素の位置的関係、時間的関係または重要性の関係を限定するものではなく、むしろ1つの構成要素を別のものとは単に区別するものである。いくつかの例では、第1の要素および第2の要素は、その例の同じ事例を呼ぶことがあり、そしていくつかのケースでは、文脈の記載に基づいて、第1の要素および第2の要素は、異なる事例を呼ぶこともある。
本開示における様々な例の説明で使用される用語は、単に特定の例を説明する目的のためであり、限定するものではない。要素の数が具体的に規定されない場合には、文脈において別なふうに明確に示されない限り、1つまたは複数であり得る。「基づく」という用語は、「少なくとも一部分が基づく」ことを意味する。その上、本開示において使用される「および/または」という用語は、列挙した品目のうちのいずれかおよびすべての可能な組合せを包含する。
本開示では、「水平」および「垂直」という空間的に相対的な用語が、レイアウトモデルと組み合わせて使用される。このような状況では、「水平方向」は、レイアウトモデルの行方向を呼び、そして「垂直方向」は、レイアウトモデルの列方向を呼ぶ。加えて、「上部」、「下部」、「左」および「右」という空間的に相対的な用語もまた、レイアウトモデルと組み合わせて使用されることがある。「上部」、「下部」、「左」および「右」は、読み物(例えば、本または雑誌)が読者に対して読むために正しく向けられるときに、読み物の画像(または等価的に、画像のレイアウトモデル)上の向きは、(例えば、読者によって装着されたまたは持たれた)画像センサの視野の角度から観察された。これゆえ、「上下方向」は、レイアウトモデルの列方向に実質的に対応し、そして「左右方向」は、レイアウトモデルの行方向に実質的に対応する。
本開示の下記の説明は、テキスト行が読者に対して実質的に左右方向に延びる(すなわち、水平レイアウト読み物における)ケースに主に基づくが、本開示の技術的な解はこれに限定されない。本開示の技術的な解はまた、テキスト行が読者に対して実質的に上下方向に延びる(すなわち、垂直レイアウト読み物における)ケースにも適用可能である、すなわち、本開示の方法はまた、垂直レイアウト読み物にも適用可能である。水平レイアウトのケースでは、テキスト行は、実質的に左右方向(水平方向)に延びるテキスト配列であり、一方で垂直レイアウトのケースでは、テキスト行は、実質的に上下方向(垂直方向)に延びるテキスト配列である。
本、雑誌、または他の読み物を読むときに、正常な視力を有する人は、視覚を介して視野内の画像を捕らえ、脳を介して画像内のテキスト領域を認識し、そして読取り順にテキスト領域のテキストを読み取る。しかしながら、視覚障害者に関して、読み物内のテキストを認識しそして配信するために読取り支援デバイスに頼る必要があることがある。このケースでは、読取り支援デバイスは、画像内のテキストを認識する必要があるだけでなく、正しい読取り順で読み物のテキストを「読み取ること」ができるように、テキスト領域内のテキスト行の順番を決定するためのある種のアルゴリズムを使用することも必要である。
図1は、本明細書において説明する様々な方法が例示的な実施形態にしたがって適用されることがある例示的なアプリケーションシナリオ100を示す模式図である。図1に示したように、例示的なシナリオ100は、限定されないが、視覚障害者のための読取り支援およびインテリジェント音読などのアプリケーションを含むことができる。スマートグラス110などの読取り支援デバイスは、テキスト認識装置を備え、そして1つまたは複数のテキスト行114を含む読み物116のテキスト領域が、テキスト認識装置によって写真撮影される。テキスト認識装置は、内蔵チップおよびアルゴリズムを介して撮影範囲112内のテキストを認識しそして配信する。
図2は、画像内のテキストを認識しそして認識したテキストの音声配信を実行するために、アプリケーションシナリオ100において使用される得る例示的な方法200を示すフローチャートである。図2に示したように、方法200は、下記のステップ、画像を収集しそして画像内のテキスト行領域を検出するステップ(ステップ210)と、画像内のテキスト行にレイアウト解析を実行するステップ(ステップ220)と、レイアウト解析の結果にしたがってテキスト行内のテキストを認識しそして認識したテキストの音声配信を実行するステップ(ステップ230)とを含む。テキスト領域の検出(ステップ210)およびテキストの認識(ステップ230)は、例えば、従来の画像処理アルゴリズム(MSERなど)および/またはディープラーニング法を含め、様々な方法を使用することによって実施されることがある。
本開示の主題をさらに明らかにするために、下記は、画像内のテキスト行についてのレイアウト解析(ステップ220)をどのように実行するかを詳細に説明する。図1および図2に関連して上に説明したアプリケーションシナリオ100および方法200は例示に過ぎない、これは本開示の実施形態によるレイアウト解析方法が、上に説明したアプリケーションに限定されないことを意味することが認識されるだろう。
図3は、本開示の例示的な実施形態によるレイアウト解析方法300を示すフローチャートである。レイアウト解析方法300は、図2のステップ220を実施するために使用されることがある。図3に示したように、レイアウト解析方法300は、下記のステップ、画像内の複数のテキスト行の座標情報を取得するステップ(ステップ310)と、座標情報にしたがって画像のレイアウトモデルを作り出すステップ(ステップ320)と、レイアウトモデルに基づいてテキスト行のレイアウト構造を解析するステップ(ステップ330)と、レイアウト構造に基づいて互いに対するテキスト行の順番を決定するステップ(ステップ340)とを含む。
下記の説明からさらに明らかであるように、レイアウト解析方法300は、原画像に基づいて操作されず、そして意味解析を必要としない。代わりに、方法は、テキストを含む画像領域を、画像内のテキスト分布を模擬的に再現するがより簡単な構造を有するレイアウトモデルへと変換するために使用され、そしてレイアウトモデル内のデータに空間レイアウト解析をさらに実行する。
ステップ310では、画像内の複数のテキスト行の座標情報が取得される。
本開示の例示的な方法が、テキストの原画像自体よりはむしろテキストの座標情報に主に基づいてレイアウト解析を実行するために使用されるので、このステップでは、画像内の複数のテキスト行の座標情報が、後の処理のために取得される。画像は、画像センサによって取り込まれた電子画像データであってもよい。いくつかの実施形態によれば、画像センサは、例えば、図1に示したアプリケーションシナリオ100では、ユーザのウェアラブルデバイス、メガネ、または他の物品に配置されることがある。
図4は、例示的な実施形態によるテキスト領域を含む画像400を示す模式図である。図4に示したように、画像400は、テキスト(これは様々な国および地域の文字データ、数字、記号、句読点、等を含むことができる)、写真、等を含むことができ、テキストを含むテキスト行410が示される。いくつかの実施形態によれば、画像400は、前処理された画像であってもよく、前処理は、限定されないが、色補正、ボケ除去、等を含むことができる。
上に説明したように、テキスト領域は、画像処理アルゴリズム(MSERなど)またはディープラーニング法などの様々な方法を使用することによって検出されることがある。画像400内のテキスト領域の検出を通して、画像400内の各々のテキスト行の座標情報が取得されることがある。テキスト行の座標情報は、例えば、他の機械(リモートサーバまたはクラウドコンピューティングデバイスなど)から取得されてもよい、またはローカル検出アルゴリズムを介して取得されてもよい。いくつかの実施形態によれば、テキスト行の取得された座標情報は、後の使用のためにローカル記憶デバイスまたは記憶媒体に記憶されることがある。本明細書において使用するように、テキスト行という用語は、テキストの連続する行を呼び、これは、例えば、左右方向にしきい値間隔よりも小さい隣接テキスト間隔を有するテキストの配列、または上下方向にしきい値間隔よりも小さい隣接テキスト間隔を有するテキストの配列であってもよい。
いくつかの実施形態によれば、1つのテキスト行の座標情報は、テキスト行を含む長方形(例えば、テキスト行を含む最小の周囲を囲まれた長方形、またはテキスト行を含む最小の周囲を囲まれた長方形をある倍数だけ上側に、および/または下側に、および/または左側に、および/または右側に拡張することによって得られる長方形)の座標情報であってもよい。テキスト行の座標情報は、例えば、長方形の4つの頂点の座標情報を含むことができる、または長方形のいずれかの頂点の座標情報ならびに長方形の高さ情報および長さ情報を含むことができる。しかしながら、テキスト行の座標情報の定義は、座標情報がテキスト行によって占有される空間の位置およびサイズを表すことができる限りこれらに限定されない。
図3に戻って参照して、ステップ320では、画像のレイアウトモデルが座標情報にしたがって作り出される。本明細書において使用するように、「レイアウトモデル」という用語は、テキストを含む画像の変換を介して得られそして画像内のテキスト分布を模擬的に再現するがより簡単な構造を有するデータ構造を呼ぶ。
いくつかの実施形態によれば、レイアウトモデルは、データ構造内の取得した座標情報に対応するデータ要素をデータ値で埋めることによって得られる。データ構造は、複数のデータ要素を含むことができ、データ値で埋められたデータ要素が複数の長方形ブロックを形成し、そして複数の長方形ブロックが複数のテキスト行内のそれぞれのテキスト行に対応する。
いくつかの実施形態によれば、データ構造は、メモリ(例えば、内部メモリおよびキャッシュ)内のファイル、またはピクセルで表された画像、または表もしくはデータアレイであってもよい。データ構造は、データ構造内のデータが画像内のテキスト行を模擬的に再現することができる限りいずれかの特定のデータ構造に限定されない。データ構造は、画像のサイズと同じサイズを有することができる、または画像のサイズに対して比例的にスケーリングされたサイズを有することができる。例えば、画像が3840×2160のピクセルサイズを有する場合には、データ構造(および対応するレイアウトモデル)は、画像と同じサイズを有する(すなわち、3840×2160の行列要素を有する)ことができる。あるいは、データ構造は、水平方向にだけスケーリングされる(例えば、1920×2160の行列要素を有する)ことがある、または垂直方向にだけスケーリングされる(例えば、3840×1080の行列要素を有する)ことがある、または水平方向および垂直方向の両方にスケーリングされる(例えば、1920×1080の行列要素を有する、または1280×1080の行列要素を有する)ことがある、等。画像のサイズと同じサイズを有するまたは画像のサイズに対して比例的にスケーリングされたサイズを有するデータ構造のケースに関係なく、対応関係またはマッピング関係が、データ構造内のデータ要素と画像内のピクセルとの間に確立されることがある。
図5は、例示的な実施形態にしたがって図4に示した画像400に対して作り出されたレイアウトモデルを示す模式図である。図5に示したように、データ構造は、データ値で埋められたデータ要素が図4のテキスト行410に対応する長方形ブロック510を形成するように、対応するデータ値で埋められる。この例では、レイアウトモデル500のサイズは、画像400のサイズと同じである。
データ値で埋められたデータ要素によって形成される長方形ブロックは、テキストが長方形ブロックの対応する画像領域内に存在することを示し、このことはテキストの意味または内容には関係しない。いくつかの実施形態によれば、データ構造は、2次元行列、例えば、2次元空行列を含むことがある。2次元空行列は、デフォルトによりすべてが「0」であるデータ値を有する行列要素を有する2次元行列を呼ぶ。画像400のレイアウトモデル500が作り出されるときに、画像400内のテキスト行の座標情報に対応する2次元行列の行列要素がデータ値「1」で埋められることがある。しかしながら、データ値は、テキストまたはテキスト行がその領域内に存在するかどうかを識別することができる限り、これに限定されない。例えば、8ビットデータ要素を使用するデータ構造に関して、画像400内のテキスト行の座標情報に対応するデータ要素は、データ値「255」で埋められることがある。
図3に戻って参照して、ステップ330では、テキスト行のレイアウト構造が、レイアウトモデルに基づいて解析される。テキスト行のレイアウト構造は、原画像に操作を実行しないでレイアウトモデルに基づいて解析される。これゆえ、テキスト行のレイアウト構造は迅速に解析されることがあり、そしてレイアウト解析の効率が改善される。
図6は、例示的な実施形態にしたがってステップ330を実施するためのプロセスを示すフローチャートである。図6に示したように、プロセスは、複数の長方形ブロックの幅を選択的に調節するステップ(ステップ610)と、複数の接続された領域の空間レイアウトを解析するステップ(ステップ620)とを含む。
ステップ610では、複数の長方形ブロックの幅は、複数の長方形ブロックが互いに別々である複数の接続された領域へと併合されるように選択的に調節される。
図7は、例示的な実施形態にしたがって複数の接続された領域710を形成するために図5の長方形ブロック510の幅を調節することによって得られたレイアウトモデル700を示す模式図である。得られた複数の接続された領域710は、テキスト行の複数の段落に対応する。これゆえ、ステップ610の操作は、段落分割と呼ばれることがある。
いくつかの実施形態によれば、複数の長方形ブロックの幅が、選択的に調節される。長方形ブロックの各々の幅が複数の長方形ブロックの代表する幅以下である場合には、長方形ブロックの幅は、第1の大きさだけ大きくされる。長方形ブロックの幅が、代表する幅よりも大きくそして代表的な幅の第1の倍数以下である場合には、長方形ブロックの幅は、第2の大きさだけ大きくされる。長方形ブロックの幅が、代表する幅の第1の倍数よりも大きくそして代表する幅の第2の倍数以下である場合には、長方形ブロックの幅は、調節されない。長方形ブロックの幅が、代表する幅の第2の倍数よりも大きい場合には、長方形ブロックの幅は、第3の大きさだけ小さくされる。
いくつかの実施形態によれば、複数の長方形ブロックの幅を選択的に調節するステップでは、代表する幅は、複数の長方形ブロックのサブセットの平均幅であってもよく、複数の長方形ブロックのサブセットは、しきい値幅パーセンタイルよりも大きい幅を有する長方形ブロック以外の複数の長方形ブロック内の長方形ブロックから構成される。このような実施形態では、レイアウトモデルの複数の長方形ブロックの中で、大きな幅を有する長方形ブロック(対応するテキスト行のフォントが、例えば見出し行では大きい)が、最初にフィルタ処理して除去され、次いで残りの長方形ブロックの平均幅が代表する幅として計算される。しきい値幅パーセンタイルよりも大きい幅を有する長方形ブロックは、除去される代わりに、平均幅の計算には含まれない。例えば、しきい値幅パーセンタイルが90%、95%、等に設定されることがあり、そして特性値が実際のアプリケーションにしたがってしきい値幅パーセンタイルに対して具体的に設定されることがあり、これは本明細書では限定されない。このことは、大き過ぎる幅を有する長方形ブロックが段落分割の精度に影響を及ぼすことを防止することができ、例えば、2つの段落へと分割されるべき段落を単一の段落へと併合する。
この文脈では、テキスト行が読者に対して実質的に左右方向に延びるケースでは(すなわち、水平レイアウトの読み物では)、テキスト行に対応する長方形ブロックの長さ方向は、実質的に左右に延びる方向であり、長方形ブロックの幅方向は、実質的に左右に延びる方向に実質的に直角である方向(すなわち、実質的に上下に延びる方向)であり、そしてテキスト行が読者に対して実質的に上下方向に延びるケースでは(すなわち、垂直レイアウトの読み物では)、テキスト行に対応する長方形ブロックの長さ方向は、実質的に上下に延びる方向であり、そして長方形ブロックの幅方向は、実質的に上下に延びる方向に実質的に直角な方向(すなわち、実質的に左右に延びる方向)であることが認識されるだろう。これゆえ、テキスト行が読者に対して実質的に左右方向に延びるケースでは(すなわち、水平レイアウト読み物では)、代表する幅は、上下方向のフォントの高さ(すなわち、行高さ)であり、そしてテキスト行が読者に対して実質的に上下方向に延びるケースでは(すなわち、垂直レイアウト読み物では)、代表する幅は、左右方向のフォントの高さ(すなわち、列幅)である。
いくつかの実施形態によれば、代表する幅は、代わりに上記の複数の長方形ブロックの平均幅であってもよい。これは、段落分割の計算量を単純化でき、そしていくつかのケースに(例えば、ヘッダテキスト行のサイズが本文テキスト行のサイズに近いケースに)適用可能であってもよい。
いくつかの実施形態によれば、第1の大きさは、0.5倍を含むことができる。長方形ブロックの幅は、幅方向の両端の長方形ブロックの幅を0.5倍だけ大きくする。いくつかの実施形態では、長方形ブロックの4つの頂点の座標は、幅方向に長方形ブロックの幅を0.5倍の値だけ各々大きくされるまたは小さくされる。第1の大きさの特定の値が、実際のアプリケーションにしたがって設定されてもよく、これは本明細書では限定されないことが理解されるはずである。
いくつかの実施形態によれば、第1の倍数は、1.5倍を含むことができる。第2の大きさだけ長方形ブロックの幅を大きくするステップは、幅方向の両端のところで代表する幅の0.5倍だけ長方形ブロックの幅を大きくするステップを含む。第1の倍数および第2の大きさの特定の値が、実際のアプリケーションにしたがって設定されることがあり、これは本明細書では限定されないことが理解されるはずである。
いくつかの実施形態によれば、第2の倍数は、2倍を含むことができる。第3の大きさだけ長方形ブロックの幅を小さくするステップは、幅方向の両端のところで代表する幅の0.5倍だけ長方形ブロックの幅を小さくするステップを含む。第2の倍数および第3の大きさの特定の値が、実際のアプリケーションにしたがって設定されることがあり、これは本明細書では限定されないことが理解されるはずである。
図6に戻って参照して、ステップ620では、複数の接続された領域の空間レイアウトが解析される。
図8は、ステップ620を実施するための例のプロセスを示すフローチャートである。いくつかの実施形態によれば、複数の接続された領域の空間レイアウトを解析するステップは、レイアウトモデル内の複数の接続された領域の向きを選択的に補正するまたは補正しないステップ(ステップ810)と、それぞれの選択され接続された領域を得るために、行方向においてレイアウトモデルの2つの辺のうちのいずれか一方に直接隣接するレイアウトモデル内の接続された領域を選択的に除去するまたは除去しないステップ(ステップ820)と、セグメント化されたゾーンのセットを得るためおよび互いに対するセグメント化されたゾーンの順番を求めるために、それぞれの選択され接続された領域にプロジェクションセグメンテーションを実行するステップ(ステップ830)とを含む。
ステップ810では、レイアウトモデル内の複数の接続された領域の向きが、選択的に補正するまたは補正されない。
いくつかの実施形態によれば、レイアウトモデル内の複数の接続された領域の向きを選択的に補正するまたは補正しないステップは、複数の接続された領域がレイアウトモデルの行方向および列方向のうちのいずれか一方に対して傾いた状態であるかどうかを決定するステップと、複数の接続された領域が傾いた状態であることが決定される場合に、複数の接続された領域が傾いた状態でないように補正角だけ複数の接続された領域を回転するステップとを含む。傾いた状態を補正するステップの操作は、図1に示したアプリケーションシナリオ100などのアプリケーションにとって特に有利である。これらのアプリケーションでは、読者は、本または他の読み物を通常持ち、そして画像センサによって取り込まれた画像内のテキスト領域はしばしば傾けられる。複数の接続された領域が傾いた状態でないように補正角だけ複数の接続された領域を回転させるステップは、レイアウト解析の精度を大きく向上させることができる。このことは、従来のレイアウト解析技術を超える利点を提供する。従来のレイアウト解析技術では、解析した対象は、スキャナによるスキャニングを介して得られた一般に平らな画像であり、ここではテキスト領域は傾いていない。これゆえ、このような従来技術は、読取り支援のシナリオに適用可能ではないことがある。
いくつかの実施形態によれば、複数の接続された領域がレイアウトモデルの行方向および列方向のうちのいずれか一方に対して傾いた状態であるかどうかを決定するステップは、下記のプロセスによって実施されることがある。第1に、複数の接続された領域が、特定の接続に対して検索され、ここでは、特定の接続された領域の最小の周囲を囲まれた長方形は、複数の接続された領域の最小の周囲を囲まれた長方形の中で最大の面積を有する。次いで、特定の接続された領域の最小の周囲を囲まれた長方形の1つの端部が行方向および列方向のうちのいずれか一方に平行であるかどうかが決定される。特定の接続された領域の最小の周囲を囲まれた長方形の端部が行方向および列方向のうちのいずれの一方にも平行でないことが決定される場合には、複数の接続された領域が傾いた状態であることが決定される。特定の接続された領域の最小の周囲を囲まれた長方形の端部が行方向および列方向のうちのいずれか一方に平行であることが決定される場合には、複数の接続された領域が傾いた状態でないことが決定される。
図9は、図8の方法における複数の接続された領域の向きを選択的に補正するステップの例のプロセスを示すフローチャートである。図9に示したように、ステップ910では、最大の面積を有する最小の周囲を囲まれた長方形を有する特定の接続された領域は、複数の長方形ブロックの幅が選択的に調節された後で得られた複数の接続された領域から決定される。特定の接続された領域の最小の周囲を囲まれた長方形の1つの端部が行方向および列方向のうちのいずれの一方とも平行でないことが決定される場合には(ステップ920、「No」)、複数の接続された領域は、特定の接続された領域の最小の周囲を囲まれた長方形の1つの端部が行方向または列方向に平行であるように、補正角だけ回転され(ステップ930)、そうでなければ(ステップ920、「Yes」)、補正処理は実行されない。
図10は、例示的な実施形態にしたがって図7に示したレイアウトモデル700に角度補正を実行することによって得られるレイアウトモデルを示す模式図である。いくつかの実施形態によれば、複数の接続された領域が傾いた状態ではないときには、複数の接続された領域の最小の周囲を囲まれた長方形は、特定の接続された領域の最小の周囲を囲まれた長方形の1つの端部が行方向または列方向に平行であるように、同じ角度だけ同じ方向に質量中心(すなわち、中心点)の周りをすべて回転される。
いくつかの実施形態によれば、特定の接続された領域の傾き角を求めるように、傾き角を検出するために特定の接続された領域の最小の周囲を囲まれた長方形に、例えば、ハフ変換法を適用することが可能であり、そして傾き角が事前に設定した第1の傾き角しきい値(例えば、5°)以上であるケースでは、傾き補正が複数の接続された領域に実行され、そして補正プロセスにおける複数の接続された領域の回転方向および角度が記録される。
上に説明した傾斜補正方法は例示に過ぎず、他の実施形態では、任意の他の適切な補正方法が使用されてもよいことが認識されるだろう。
図8に戻って参照して、ステップ820では、行方向においてレイアウトモデルの2辺のうちのいずれか一方に直接隣接するレイアウトモデル内の接続された領域が、それぞれの選択され接続された領域を得るために選択的に除去されるまたは除去されない。
いくつかのケースでは、後のプロセスで不完全なページ内のテキスト行にテキスト認識および配信を実行することを避けるように、折られているまたは完全に写真撮影されなかった雑誌および本などの読み物の不完全なページをフィルタ処理することもまた必要である。これらの状況を考慮して、いくつかの実施形態によれば、複数の接続された領域が傾いた状態でない場合には、垂直プロジェクションセグメンテーションがレイアウトモデルに実行される。次いで、垂直プロジェクションセグメンテーションの結果に応じて、行方向においてレイアウトモデルの2辺のうちのいずれか一方に直接隣接する接続された領域が、選択され接続された領域を得るために、複数の接続された領域から選択的に除去されるまたは除去されない。本明細書において使用するように、「レイアウトモデルの1辺に直接隣接する接続された領域」という句は、接続された領域とレイアウトモデルの辺との間に他の接続された領域がないことを意味する。
図11は、図8の方法においてレイアウトモデルの2つの辺のうちのいずれか一方に直接隣接する接続された領域を選択的に除去するステップの例のプロセスを示すフローチャートである。図11に示したプロセスを介して、不完全なページ内の段落を表している接続された領域は、レイアウトモデルからフィルタ処理して除かれる。図11に示したように、最初に、垂直プロジェクションセグメンテーションがレイアウトモデルに実行される(ステップ1110)。少なくとも2つのゾーンが垂直プロジェクションセグメンテーションを介してレイアウトモデルから得られているかどうかが決定され(ステップ1120)、ここでは少なくとも2つのゾーンが複数の接続された領域を含む。少なくとも2つのゾーンがセグメンテーションを介してレイアウトモデルから得られていないことが決定される場合には(ステップ1120、「No」)、除去は実行されない(ステップ1180)。少なくとも2つのゾーンがセグメンテーションを介してレイアウトモデルから得られていることが決定される場合には(ステップ1120、「Yes」)、行方向の少なくとも2つのゾーンの対応する有効サイズが決定され(ステップ1130)、そして続く操作が、行方向においてレイアウトモデルの2辺のうちのいずれか一方に直接隣接する少なくとも2つのゾーンの各々の横ゾーンに実行され、2つのゾーンがセグメンテーションを介してレイアウトモデルから得られており(ステップ1140、「Yes」)、そして行方向の横ゾーンの有効サイズが、対応する有効サイズ内の最大のサイズの第1のしきい値パーセントよりも小さく、行方向の2つのゾーンのうちの他方の有効サイズの第2のしきい値パーセントよりも小さい(ステップ1150、「Yes」)場合には、横ゾーン内の接続された領域が除去され(ステップ1170)、そうでなければ、横ゾーン内の接続された領域は除去されず(ステップ1180)、2つ以上のゾーンがセグメンテーションを介してレイアウトモデルから得られており(ステップ1140、「No」)、そして行方向の横ゾーンの有効サイズが、対応する有効サイズ内の最大のサイズの第3のしきい値パーセントよりも小さく、行方向の横ゾーンに直接隣接するゾーン内のゾーンの有効サイズの第4のしきい値パーセントよりも小さい(ステップ1160、「Yes」)場合には、横ゾーン内の接続された領域が除去され(ステップ1170)、そうでなければ、横ゾーン内の接続された領域は除去されない(ステップ1180)。
本明細書において使用するように、「レイアウトモデルの1辺に直接隣接するゾーン」という句は、レイアウトモデルのゾーンと辺との間に他のゾーンがないことを意味する。
本明細書において使用するように、行方向のゾーンの有効サイズは、行方向の接続された領域の最小の周囲を囲まれた長方形のサイズなどの、行方向の接続された領域内のサイズを呼ぶ。いくつかの実施形態では、行方向のゾーンの有効サイズは、行方向のゾーン内のすべての接続された領域のサイズの平均であってもよい。
上のステップを通して、折られているまたは完全には写真撮影されなかった雑誌および本などの読み物の不完全なページは、後のプロセスにおいて不完全なページ内のテキスト行にテキスト認識および配信を実行することおよび読取り内容に混乱を生じさせることを避けるためにフィルタ処理されることがある。これは、レイアウト解析の精度を大きく向上させることができ、これによりユーザ経験を改善する。
いくつかの実施形態によれば、第1のしきい値パーセントは、第2のしきい値パーセントよりも小さく、そして第3のしきい値パーセントは、第4のしきい値パーセントに等しい。
いくつかの実施形態によれば、例えば、第1のしきい値パーセントが60%であり、そして第2のしきい値パーセントは70%であり、第3のしきい値パーセントが70%であり、そして第4のしきい値パーセントは70%である。第1のしきい値パーセント、第2のしきい値パーセント、第3のしきい値パーセント、および第4のしきい値パーセントの特定の値が、実際のアプリケーションにしたがって設定されることがあり、これは本明細書では限定されないことが理解されるはずである。
「水平プロジェクションセグメンテーション」および「垂直プロジェクションセグメンテーション」自体は、知られているテキストセグメンテーション技術であることが理解されるはずである。水平プロジェクションセグメンテーションは、水平分割線として所定の条件を満足するピクセル行に関する2次元画像を検索するステップを含む。2値化された画像のケースでは、このようなピクセル行は、ゼロに等しいピクセル値の総計を有するピクセル行であってもよい。垂直プロジェクションセグメンテーションは、垂直分割線として所定の条件を満足するピクセル列に関する2次元画像を検索するステップを含む。2値化された画像のケースでは、このようなピクセル列は、ゼロに等しいピクセル値の総計を有するピクセル列であってもよい。本開示のいくつかの実施形態では、レイアウトモデルのデータ構造は、2次元行列の形態であってもよく、そしてピクセル値は、2次元行列の行列要素のデータ値である。
図12は、例示的な実施形態にしたがって図10に示したレイアウトモデルに対して垂直プロジェクションを実行するステップを示す模式図である。直感的に理解することを容易にするために、図12は、各々のデータ列のデータ要素のデータ値の総計を示す波形1210、波形1210のピークと谷との間の連結部を示す連結線1220、および垂直分割線1230を示す。図12に示したように、垂直分割線1230に対応するデータ列のデータ要素のデータ値の総計は、最小値(例えば、ゼロ)であり、これゆえ、このデータ列が垂直分割線として選択されることがある。同様に、垂直分割線1230の右側に位置するいくつかのデータ列の各々のデータ要素のデータ値の総計もまた最小値であり、これゆえ、これらのデータ列のうちのいずれか1つもまた、垂直分割線として選択されることがある。
図13は、図12のプロジェクション結果にしたがって図10に示したレイアウトモデルから不完全なページを表す接続された領域の除去の後で得られたレイアウトモデルを示す模式図である。図13に示したように、図12において最も右側に位置する不完全なページ内の段落を表す接続された領域が除去されている。
いくつかの実施形態によれば、垂直プロジェクションセグメンテーションがレイアウトモデルに実行される前に、テキスト行のサイズは、不完全なページを除去することの精度を向上させるように左右方向に適切に調節されることがある。水平レイアウトタイプとして決定されたテキスト行に対応する各々の長方形ブロックの長さは、長さ方向の両端のところでいくつかのデータ要素だけ大きくされることがある。垂直レイアウトタイプとして決定されたテキスト行に対応する各々の長方形ブロックの幅は、幅方向の両端のところでいくつかのデータ要素だけ大きくされることがある。上記のいくつかのデータ要素は、例えば、代表する幅の0.5倍を有する。長方形ブロックの長さが、その幅より一般に大きいことが認識されるだろう。いくつかの例では、レイアウトタイプはデフォルトタイプであってもよい(例えば、デフォルトタイプは水平レイアウトである)。他の例では、ユーザはまた、レイアウトタイプを設定するために手動で切り替えることもできる。例えば、ユーザは、デフォルトレイアウトタイプを垂直レイアウトへ変えることができる。垂直プロジェクションセグメンテーションが不完全なページを除去するために実行される前に、左右方向のテキスト行のサイズを適切に調節するステップは、不完全なページを除去するステップの精度を向上させることができる。このことは、左右方向のサイズ調節が同じページに位置する段落を表している接続された領域にとって垂直プロジェクションセグメンテーションを介してレイアウトモデルからセグメント化されることを難しくさせ、これにより誤って除去される危険を減少させるというためである。
図8に戻って参照して、ステップ830では、プロジェクションセグメンテーションが、セグメント化されたゾーンのセットを得るためおよび互いに対するセグメント化されたゾーンの順番を求めるためにそれぞれの選択され接続された領域に実行される。
いくつかの実施形態によれば、レイアウトモデルの不完全なページがフィルタ処理して除去された後で、水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションは、セグメンテーションを介してセグメント化されたゾーンのセットをレイアウトモデルから得るためにレイアウトモデルのそれぞれの選択され接続された領域に再帰的に交互に実行され、そして互いに対するセグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンの順番が、読取り順則に基づいて決定される。
いくつかの実施形態によれば、それぞれの選択され接続された領域に水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを再帰的に交互に実行するステップは、下記の操作、各々のセグメント化されたゾーンが水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなるまで、水平プロジェクションセグメンテーションを介して得られた各々の水平セグメント化されたゾーンに垂直プロジェクションセグメンテーションを実行するステップと、垂直プロジェクションセグメンテーションを介して得られた各々の垂直セグメント化されたゾーンに水平プロジェクションセグメンテーションを実行するステップとを、周期的に実行するステップを含むことができる。水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できないセグメント化されたゾーンは、セグメント化されたゾーンのセットを形成する。
水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションの順番は、逆にされることがあることが認識されるだろう。すなわち、上記の周期的な操作では、第1のプロジェクションセグメンテーションは、水平プロジェクションセグメンテーションであってもよく、または垂直プロジェクションセグメンテーションであってもよい。本開示は、これに関して限定されない。再帰的が、大きく複雑な問題を当初の問題に類似したより小さな問題へと変換する方策を呼ぶこともまた認識されるだろう。コンピュータプログラミングの文脈では、再帰的方策は、問題を解決するプロセスにおいて必要な複数の反復計算を記述するために少数のプログラムを必要とするだけであり、このことは、プログラムのコード量を大きく減少させることができる。
いくつかの実施形態によれば、水平プロジェクションセグメンテーションを介して得られた各々の水平セグメント化されたゾーンに垂直プロジェクションセグメンテーションを実行するステップは、データ列のセットに関する水平セグメント化されたゾーンを検索するステップであって、データ列のセット内の各々のデータ列のデータ要素のデータ値の総計がゼロから第1のしきい値までの範囲内である、水平セグメント化されたゾーンを検索するステップを含む。第1のしきい値は、ゼロよりも大きく、そして例えば、代表する幅の1倍である。データ列のセットが見つけられる場合には、水平セグメント化されたゾーンをセグメント化するための垂直分割線は、データ列のセットから選択され、そして水平セグメント化されたゾーンが垂直セグメント化されたゾーンを得るために選択された垂直分割線を使用してセグメント化される。本明細書では、垂直分割線を示すデータ列のデータ値の総計は、ゼロに等しい代わりに、ゼロから第1のしきい値までの範囲内であるように選択される。このことは、同じページの段落同士の間の水平間隔が小さく、そして垂直分割線を示すデータ列のデータ値のより大きな総計を選択するステップが、垂直プロジェクションセグメンテーションの正しい実行を容易にすることができるためである。
いくつかの実施形態によれば、垂直プロジェクションセグメンテーションを介して得られた各々の垂直セグメント化されたゾーンに水平プロジェクションセグメンテーションを実行するステップは、データ行のセットに関する垂直セグメント化されたゾーンを検索するステップであって、データ行のセット内の各々のデータ行の行列要素のデータ値の総計がゼロから第2のしきい値までの範囲内である、垂直セグメント化されたゾーンを検索するステップを含む。第2のしきい値は、ゼロよりも大きく、そして例えば、代表する幅の1倍である。データ行のセットが見出される場合には、垂直セグメント化されたゾーンをセグメント化するための水平分割線は、データ行のセットから選択され、そして垂直セグメント化されたゾーンが水平セグメント化されたゾーンを得るために選択された水平分割線を使用してセグメント化される。本明細書では、水平分割線を示すデータ行のデータ値の総計は、ゼロに等しい代わりに、ゼロから第2のしきい値までの範囲内であるように選択される。これは、同じページの段落同士の間の垂直間隔が小さく、そして水平分割線を示すデータ列のデータ値のより大きな総計を選択するステップが、水平プロジェクションセグメンテーションの正しい実行を容易にできるためである。
いくつかの実施形態によれば、セグメント化されたゾーンのセットが、レイアウトモデルをセグメント化するため上の水平分割線および垂直分割線に基づくセグメンテーションを介してレイアウトモデルから得られる。
図14から図17は、それぞれ例示的な実施形態にしたがって図13に示したレイアウトモデルに対してセグメンテーションを実行するステップを示す模式図である。この例では、図14に示したように、水平プロジェクションセグメンテーションが1回実行され、そして対応するゾーンはこのプロジェクションではセグメンテーションを介しては得られない。次いで、図15に示したように、垂直プロジェクションセグメンテーションが実行される。このセグメンテーションプロセスは、レイアウトモデルの最も右のゾーンをレイアウトモデルの他の部分から分離する。水平プロジェクションセグメンテーションが、実行され続ける。水平プロジェクションセグメンテーションは、セグメンテーションを介して得られたゾーンおよび図15の残りの接続された領域に別々に実行されるが、先のステップでセグメンテーションを介して得られたゾーンは、これ以上セグメント化され得ない。図16に示したように、図15の残りの接続された領域は、この水平プロジェクションセグメンテーションプロセスでは左上の複数のセグメント化されたゾーンを得るためにセグメント化される。図17に示したように、各々のセグメント化されたゾーンが水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなるまで、垂直セグメンテーションは先のステップでセグメンテーションを介して得られたゾーンに実行され続ける。最終的に、すべてのセグメント化されたゾーンのセットが図18に示されたレイアウトモデルからセグメンテーションを介して得られる。
いくつかの実施形態によれば、互いに対するセグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンの順番を決定するステップは、操作を周期的に実行する際に、階層ツリーデータ構造における水平セグメント化されたゾーン同士の間、垂直セグメント化されたゾーン同士の間、および水平セグメント化されたゾーンと垂直セグメント化されたゾーンとの間の階層関係を記録するステップであって、階層ツリーデータ構造内のリーフノードがセグメント化されたゾーンのセットを表す、階層関係を記録するステップと、読取り順則にしたがってリーフノードをスキャンするステップであって、リーフノードをスキャンするステップの順番が互いに対するセグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンの順番を表す、リーフノードをスキャンするステップを含む。
いくつかの例では、リーフノードは、ゾーン同士の間の分割線の座標情報または分割線によって形成される長方形の座標情報などの対応するゾーンの座標情報を記録できる。座標情報は、異なるゾーン同士の間の位置関係を反映し、そのためリーフノードをスキャンするプロセスでは、異なるゾーン同士の間の順番は、読取り順則にしたがって決定されることがある。読取り順則は、後で説明されるだろう。
いくつかの例では、周期的に操作を実行する際に、毎回セグメンテーションを介して得られるセグメント化されたゾーンは、読取り順にしたがって階層ツリーデータ構造にマークされる。水平プロジェクションセグメンテーションまたは垂直プロジェクションセグメンテーションを介して再びセグメント化されることがあるセグメント化されたゾーンが次回セグメント化された後で、各々のセグメント化されたゾーンが水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなるまで、セグメント化されたゾーンからセグメンテーションを介して得られたセグメント化されたゾーンは、セグメント化されたゾーンのサブノードとして階層ツリーデータ構造にマークされ、そしてこのときには、全体の階層ツリーデータ構造がマークされる。
いくつかの実施形態によれば、読取り順則は、複数のテキスト行が水平レイアウトタイプのものであることが決定される場合には、垂直セグメント化されたゾーン同士の間の位置関係にしたがって左から右へと垂直セグメント化されたゾーンを配置するステップと、水平セグメント化されたゾーン同士の間の位置関係にしたがって上から下へと水平セグメント化されたゾーンを配置するステップとを含む、あるいは、複数のテキスト行が垂直レイアウトタイプのものであることが決定される場合には、垂直セグメント化されたゾーン同士の間の位置関係にしたがって右から左へと垂直セグメント化されたゾーンを配置するステップと、水平セグメント化されたゾーン同士の間の位置関係にしたがって上から下へと水平セグメント化されたゾーンを配置するステップとを含む。
ツリー構造が、セグメント化されたゾーン同士の間の階層関係を記憶するために使用され、そしてリーフノードの順番は、本開示の実施形態によるレイアウト解析方法が水平レイアウトおよび垂直レイアウトに適合できるように、読取り順則を介して決定され、これによりレイアウト解析方法の普遍性を向上させる。
いくつかの実施形態によれば、複数の接続された領域の空間レイアウトを解析するステップは、それぞれの選択され接続された領域にプロジェクションセグメンテーションを実行するステップの後で、選択され接続された領域の各々が補正角だけこれまでに回転されているかどうかを決定するステップと、選択され接続された領域の各々が補正角だけこれまでに回転されていることが決定され場合には、補正角だけセグメント化されたゾーンのセットを逆に回転するステップとをさらに含むことができる。図19は、モデルが元々の傾いた状態に調節されそしてセグメント化されたゾーンが読取り順にしたがって配置された後の、図18に示したレイアウトモデルを示す模式図であり、ここでは、番号0から8がセグメント化されたゾーンの番号および読取り順を表す。レイアウトモデルは、元々の傾いた状態に調節され、そのため後の処理におけるレイアウトモデル内の長方形ブロックと原画像内のテキスト行とをマッチングさせることに便利であり、これによって処理速度を向上させる。
図3に戻って参照して、ステップ340では、互いに対するテキスト行の順番は、レイアウト構造に基づいて決定される。
いくつかの実施形態によれば、レイアウト構造に基づいて互いに対するテキスト行の順番を決定するステップは、セグメント化されたゾーンのセット内の各々のセグメント化されたゾーンに対して選択され接続された領域の各々の相対的な位置にしたがって、選択され接続された領域の各々と各々のセグメント化されたゾーンとの間の対応を決定するステップであって、各々のセグメント化されたゾーンが選択され接続された領域の対応するセットを含む、対応を決定するステップと、選択され接続された領域の対応するセット内の選択され接続された領域同士の間の位置的な関係にしたがって選択され接続された領域の対応するセット内で選択され接続された領域を配置するステップと、選択され接続された領域内の長方形ブロック同士の間の位置的な関係にしたがって各々の選択され接続された領域内で長方形ブロックを配置するステップと、複数のテキスト行と複数の長方形ブロックとの間の対応にしたがって各々の選択され接続された領域内の長方形ブロックと複数のテキスト行とをマッチングさせるステップとを含むことができる。
いくつかの実施形態では、セグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンに対するそれぞれの選択され接続された領域の中心または質量中心の相対的な位置は、それぞれの選択され接続された領域がそれぞれ設置されるセグメント化されたゾーンを決定するために決定されることがある。例えば、ある種の選択され接続された領域の中心または質量中心がある種のセグメント化されたゾーン内になる場合には、ある種の選択され接続された領域がある種のセグメント化されたゾーン内に設置されることが決定されることがある。これらの例では、セグメント化されたゾーン内のそれぞれの選択され接続された領域の中心または質量中心の位置に基づいて、セグメント化されたゾーン内の選択され接続された領域が配置されることがある。
いくつかの実施形態によれば、選択され接続された領域の対応するセット内の選択され接続された領域を配置するステップは、複数のテキスト行が水平レイアウトタイプのものであることが決定される場合には、上から下へ選択され接続された領域の対応するセット内に選択され接続された領域を配置するステップと、複数のテキスト行が垂直レイアウトタイプのものであることが決定される場合には、右から左へ選択され接続された領域の対応するセット内に選択され接続された領域を配置するステップとを含むことができる。
図20は、複数の接続された領域とセグメント化されたゾーンとが例示的な実施形態にしたがってマッチングされ配置された後を示す模式図である。図20に示したように、接続された領域0から5は、図19に示した対応するセグメント化されたゾーン0~5にそれぞれマッチングし、接続された領域6から8は、図19に示したセグメント化されたゾーン6にマッチングし、接続された領域9は、図19に示したセグメント化されたゾーン7にマッチングし、そして接続された領域10および11は、図19に示したセグメント化されたゾーン8にマッチングする。
接続された領域が配置された後で、接続された領域の各々の中の長方形ブロックが配置されることがある。
いくつかの実施形態によれば、各々の選択され接続された領域内の長方形ブロックを配置するステップは、複数のテキスト行が水平レイアウトタイプのものであることが決定される場合には、上から下へ各々の選択され接続された領域内の長方形ブロックを配置するステップと、複数のテキスト行が垂直レイアウトタイプのものであることが決定される場合には、右から左へ各々の選択され接続された領域内の長方形ブロックを配置するステップとを含む。
レイアウトモデルのサイズが、画像のサイズと同じであるときには、画像内のテキスト行の座標情報は、レイアウトモデル内の長方形ブロックの座標情報と整合する。レイアウトモデルのサイズが画像のサイズと比較してスケーリングされているときには、画像内のテキスト行の座標情報も、レイアウトモデル内の長方形ブロックの座標情報に対して逆にスケーリングされる。それはそうとして、画像内の複数のテキスト行が、画像内のテキスト行を配置するために、画像内の複数のテキスト行とレイアウトモデル内の複数の長方形ブロックとの間の対応にしたがってそれぞれの選択され接続された領域内の長方形ブロックとマッチングされることがある。
図21は、例示的な実施形態によるレイアウト解析結果にしたがって画像400内のテキスト行を配置するステップを示す模式図である。図21に示したように、テキスト行0から5は、図20に示した対応する接続された領域0から5内にそれぞれあり、テキスト行6から26は、図20に示した接続された領域6内にあり、テキスト行27から35は、図20に示した接続された領域7内にあり、テキスト行36は、図20に示した接続された領域8内にあり、テキスト行37から66は、図20に示した接続された領域9内にあり、テキスト行67から92は、図20に示した接続された領域10内にあり、そしてテキスト行93から105は、図20に示した接続された領域11内にある。
いくつかの実施形態によれば、図6の複数の接続された領域の空間レイアウトを解析するステップのステップ620は、下記の操作、それぞれの選択され接続された領域に水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを再帰的に交互に実行するステップの前に、複数のテキスト行が水平レイアウトタイプのものであることが決定される場合には、長さ方向の両端のところで数データ要素だけそれぞれの選択され接続された領域内の各々の長方形ブロックの長さを小さくするステップと、複数のテキスト行が垂直レイアウトタイプのものであることが決定される場合には、幅方向の両端のところで数データ要素だけそれぞれの選択され接続された領域内の各々の長方形ブロックの幅を小さくするステップとをさらに含むことができる。
水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションがそれぞれの選択され接続された領域に再帰的に交互に実行される前に、それぞれのテキスト行に対応する長方形ブロックのサイズを左右方向に調節するステップは、段落同士の間の画像背景色、等の干渉を排除することができ、そしてセグメンテーションの精度を向上させることができる。
テキスト行のレイアウトタイプがレイアウト解析プロセスにおいてデフォルトにより水平レイアウトまたは垂直レイアウト(これは手動で切り替えられることがある)として決定される実施形態が、上に説明されてきている。本明細書の以降では、本開示のいくつかの追加の実施形態が説明されるだろう、そこではテキスト行のレイアウトタイプが自動的に認識される。レイアウトタイプの自動認識は、いくつかの利点を提供することができる。例えば、互いに対するテキスト行の順番は、ユーザの手動のスイッチングなしに、自動的に認識されたレイアウトタイプにしたがって正しく決定されることがある。画像が主レイアウトタイプ(例えば、水平レイアウト)のテキスト行および副レイアウトタイプ(例えば、垂直レイアウト)のテキスト行の両方を含むケースでは、これは、いくつかの有用な機能の実施をさらに可能にする。例えば、主レイアウトタイプのテキスト行が最初に認識され音声配信されてもよいように、レイアウト解析は、最初に主レイアウトタイプのテキスト行に実行されることがあり、そして次いで、レイアウト解析が副レイアウトタイプのテキスト行に実行されることがある。このことは、主レイアウトタイプのテキスト行は一般にユーザが最初に知りたいと望む内容であるという理由で、読取り支援デバイスのユーザの使用経験を向上させることができる。
いくつかの実施形態によれば、テキスト行のレイアウト構造がレイアウトモデルに基づいて解析される前に、複数のテキスト行の主レイアウトタイプが認識される。主レイアウトタイプは、水平レイアウトタイプおよび垂直レイアウトタイプから構成される群から選択される1つを含む。いくつかの実施形態によれば、複数のテキスト行の主レイアウトタイプを認識するステップは、画像内の複数のテキスト行の座標情報にしたがって複数の長方形ブロックのそれぞれの幾何学的パラメータを決定するステップと、複数の長方形ブロックのそれぞれの幾何学的パラメータに基づいて複数のテキスト行の主レイアウトタイプを決定するステップとを含むことができる。
いくつかの例では、図4および図5に戻って参照して、レイアウトモデル500内の各々の長方形ブロック510の幾何学的パラメータが、画像400内の複数のテキスト行410の座標情報および複数のテキスト行410とレイアウトモデル500内の複数の長方形ブロック510との間の対応にしたがって決定されることがある。例えば、レイアウトモデル500のサイズが画像400のサイズと同じであるときには、レイアウトモデル500内の長方形ブロック510の座標は、画像400内の対応するテキスト行410の座標と同じであり、そして長方形ブロック510の幾何学的パラメータが、対応するテキスト行410の座標(例えば、4つの頂点の座標)から直接決定されることがある。
いくつかの実施形態によれば、幾何学的パラメータは、複数の長方形ブロック510の各々の長さ方向、長さ、幅方向、および幅のうちの少なくとも1つを含む。テキスト行が読者に対して実質的に左右方向に延びるケースでは(すなわち、水平レイアウト読み物では)、長さ方向は、実質的に左右に延びる方向であり、そして幅方向は、実質的に左右に延びる方向に実質的に直角である方向(すなわち、実質的に上下に延びる方向)であり、テキスト行が読者に対して実質的に上下方向に延びるケースでは(すなわち、垂直レイアウト読み物では)、長さ方向は、実質的に上下に延びる方向であり、そして幅方向は、実質的に上下に延びる方向に実質的に直角な方向(すなわち、実質的に左右に延びる方向)である。
いくつかの実施形態によれば、長方形ブロック510に対応するテキスト行410のテキスト配置方向は、テキスト行410のレイアウトタイプが水平レイアウトであるか垂直レイアウトであるかどうかを決定するために、長方形ブロック510のそれぞれの幾何学的パラメータにしたがって決定される。いくつかの実施形態では、テキスト行410のレイアウトタイプは、テキスト行410に対応する長方形ブロック510の長さ方向を決定することによって得られることがある。例えば、長方形ブロック510が左右方向に延びる場合には、対応するテキスト行410は水平レイアウトを有し、そして長方形ブロック510が上下方向に延びる場合には、対応するテキスト行410は垂直レイアウトを有する。全体の画像400のテキスト領域では、ある種のレイアウトタイプ(水平レイアウトまたは垂直レイアウト)のテキスト行410の一部分が所定のしきい値を超える場合には、そのある種のレイアウトタイプが主レイアウトタイプである。
図22は、複数の長方形ブロックのそれぞれの幾何学的パラメータに基づいて複数のテキスト行の主レイアウトタイプを決定するステップの例のプロセスを示すフローチャートである。この例では主レイアウトタイプを決定するステップのための規則は、垂直レイアウトのテキスト行に対応する長方形ブロックの全面積のすべての長方形ブロックの全面積に対する比率が所定のしきい値以上である場合には、主レイアウトタイプは垂直レイアウトであり、そうでなければ、主レイアウトタイプは水平レイアウトであることである。
ステップ2210では、複数の長方形ブロックのサブセットが決定され、ここでは複数の長方形ブロックのサブセットが、複数の長方形ブロックから構成され、複数の長方形ブロックでは、次の条件、各々の長方形ブロックの長さ方向とレイアウトモデルの列方向との間に含まれる角度はしきい値角よりも小さい、を満足する。いくつかの実施形態によれば、しきい値角は、例えば、10°、20°、または30°であってもよいが、これらの例には限定されず、そして実際のアプリケーションにしたがって設定されることがある。本明細書において使用するように、複数の要素のサブセットは、複数の要素のうちのいくつかまたはすべてを含むことができる、すなわち、サブセットは、「普遍的なセット」、「適切なサブセット」、または「空セット」であってもよい。「普遍的なセット」のケースでは、複数の長方形ブロック内のすべての長方形ブロックが上の条件を満足する。「適切なサブセット」のケースでは、複数の長方形ブロック内のいくつかの長方形ブロックが上の条件を満足する。「空セット」のケースでは、複数の長方形ブロック内のどの長方形ブロックも上の条件を満足しない。
ステップ2220では、複数の長方形ブロックのサブセットの全面積および複数の長方形ブロックの全面積が決定され、そしてステップ2230では、複数の長方形ブロックのサブセットの全面積の複数の長方形ブロックの全面積に対する比率が第1のしきい値比率よりも小さいかどうかが決定される。複数の長方形ブロックのサブセットの全面積の複数の長方形ブロックの全面積に対する比率が第1のしきい値比率よりも小さい場合には(ステップ2230、「Yes」)、主レイアウトタイプが水平レイアウトタイプであることが決定され(ステップ2240)、そうでなければ(ステップ2230、「No」)、主レイアウトタイプが垂直レイアウトタイプであることが決定される(ステップ2250)。いくつかの実施形態によれば、第1のしきい値比率は、80%であってもよいが、これに限定されず、そして実際のアプリケーションにしたがって設定されることがある。
主ページタイプを決定するステップのための上記の規則は例示的に過ぎず、他の実施形態では、他の決定規則が使用されてもよいことが認識されるだろう。
いくつかの実施形態によれば、レイアウトモデルに基づいてテキスト行のレイアウト構造を解析するステップはまた、主レイアウトタイプのテキスト行のレイアウト構造を解析するステップも含むことができる。いくつかの実施形態によれば、テキスト行のレイアウト構造がレイアウトモデルに基づいて解析される前に、画像内の重要でないテキストに対応する長方形ブロックが、選択的に破棄されることがある。
いくつかの実施形態によれば、主レイアウトタイプのテキスト行のレイアウト構造が解析される前に、副レイアウトタイプの長方形ブロックが複数の長方形ブロックから選択的に除去されるまたは除去されない、ここでは、副レイアウトタイプは、水平レイアウトタイプおよび垂直レイアウトタイプから構成される群から選択される他のものを含む。
いくつかの例では、小さな面積比率を有する副レイアウトタイプのテキスト行が重要でないテキストとして考えられることがある。このような実施形態では、主レイアウトタイプのテキスト行のレイアウト構造が解析される前に、複数のテキスト行の副レイアウトタイプが、複数の長方形ブロックのそれぞれの幾何学的パラメータに基づいて決定されることがある。上に説明したように、主レイアウトタイプは、水平レイアウトタイプおよび垂直レイアウトタイプのうちの一方(例えば、水平レイアウトタイプ)であってもよく、そして副レイアウトタイプが水平レイアウトタイプおよび垂直レイアウトタイプのうちの他方(例えば、垂直レイアウトタイプ)であってもよい。そのときには、副レイアウトタイプの長方形ブロックは、選択された長方形ブロックを得るように、複数の長方形ブロックから選択的に除去されるまたは除去されない。本明細書において使用するように、「除去すること」という用語は、レイアウトモデルのデータ要素のデータ値をデフォルト値(例えば、ゼロ)に修正することを呼ぶことがある。重要でないテキストを破棄することは、テキスト認識および配信中に最大限に主レイアウトのテキストの読取り順が妨げられることを避けることができ、そしてユーザ経験を改善することができる。
図23は、画像内の重要でないテキストに対応する長方形ブロックを選択的に破棄するステップの例のプロセスを示すフローチャートである。図23に示したように、副レイアウトタイプの長方形ブロックの複数の長方形ブロックの全面積に対する比率を計算することによって副レイアウトタイプの長方形ブロックを除去するかどうかが決定されることがある。最初に、ステップ2310では、副レイアウトタイプの長方形ブロックの全面積および複数の長方形ブロックの全面積が決定される、すなわち、副レイアウトタイプの長方形ブロックの全面積およびレイアウトモデル内のすべての長方形ブロックの全面積が決定される。次いで、ステップ2320では、副レイアウトタイプの長方形ブロックの全面積の複数の長方形ブロックの全面積に対する比率が第2のしきい値比率よりも小さいかどうかが決定される。副レイアウトタイプの長方形ブロックの全面積の複数の長方形ブロックの全面積に対する比率が第2のしきい値比率よりも小さいことが決定される(ステップ2320、「Yes」)場合には、副レイアウトタイプの長方形ブロックは、複数の長方形ブロックから除去される(ステップ2330)。副レイアウトタイプの長方形ブロックの全面積の複数の長方形ブロックの全面積に対する比率が第2のしきい値比率よりも小さくないことが決定される(ステップ2320、「No」)場合には、副レイアウトタイプの長方形ブロックは複数の長方形ブロックから除去されない(ステップ2340)。いくつかの実施形態によれば、第2のしきい値比率は、実際のアプリケーションにしたがって、例えば、3%、5%、または7%、に設定されることがある。本開示は、これに関して限定されない。
この操作が実行された後で、主レイアウトタイプのテキスト行のレイアウト構造を解析するステップが実行される。主レイアウトタイプのテキスト行のレイアウト構造に関する解析方法は、図6から図21に関して上に説明した解析方法に類似し、これは簡潔さのために本明細書では繰り返されないだろう。
いくつかの実施形態によれば、主レイアウトタイプのテキスト行のレイアウト構造が解析された後で、副レイアウトタイプの長方形ブロックが複数の長方形ブロックから除去されない場合には、副レイアウトタイプのテキスト行のレイアウト構造が解析され続けることがある。副レイアウトタイプのテキスト行のレイアウト構造に関する解析方法は、図6から図21に関して上に説明した解析方法に類似し、これは簡潔さのために本明細書では繰り返されないだろう。
本開示によるレイアウト解析のための例示的な方法が、添付の図面を参照して上に説明されてきている。レイアウト解析の後で、引き続く処理がさらに実行されることがある。例えば、テキスト行毎に認識されたテキストデータは、テキスト認識の結果と組み合わせてテキスト行配置の結果にしたがってサウンドデータへと変換されることがあり、これは、例えば、オーディオブックに関係するアプリケーションおよび視覚障害者支援アプリケーションで使用されることがある。画像のテキスト行が水平レイアウトおよび垂直レイアウトの両方を含み、そして副レイアウトタイプのテキスト行がレイアウト解析中に除去されていないケースでは、引き続く処理がテキスト配信のため、テキスト認識結果を統合するために実行されるときには、主レイアウトタイプのテキスト行内のテキストが最初に認識されそして配信されることがあり、そして主レイアウトタイプのテキスト行内のテキストが配信された後で、副レイアウトタイプのテキスト行内のテキストが認識されそして配信される。
図24は、本開示の例示的な実施形態による読取り支援デバイスを示す構造ブロック図である。図24に示したように、読取り支援デバイス2400は、前述の画像(例えば、静止画像またはビデオ画像であってもよく、そして画像はテキストを含んでもよい)を取り込むように構成された画像センサ2410(これは、例えば、ウェブカメラまたはカメラとして実装されてもよい)と、前述の方法のうちのいずれか1つにしたがったステップを実行する回路ユニットとして構成されたチップ回路2420とを含む。
本明細書において使用されるように、「回路」という用語は、下記の回路、特定用途向け集積回路(ASIC)、電子回路、1つまたは複数のソフトウェアプログラムまたはファームウェアプログラムを実行する(共有、専用、もしくはグループ)プロセッサおよび/または(共有、専用、もしくはグループ)メモリ、機能を提供する組合せ論理回路、ならびに/あるいは他の適切なハードウェア部品、の一部であるまたは含むことができる。いくつかの実施形態では、回路または回路に関連する機能は、1つまたは複数のソフトウェアモジュールまたはファームウェアモジュールによって実装されることがある。いくつかの実施形態では、回路は、ハードウェアにおいて少なくとも部分的に動作可能である論理を含むことができる。本明細書において説明した実施形態は、いずれかの適正に構成されたハードウェアおよび/またはソフトウェアを使用するシステムとして実装されることがある。
いくつかの実施形態によれば、チップ回路は、テキストデータを取得するために画像のテキスト認識を実行するように構成された回路ユニットと、テキスト行配置の結果にしたがって各々のテキスト行内のテキストデータをサウンドデータへと変換するように構成された回路ユニットとをさらに含むことができる。テキストデータを取得するために画像のテキスト認識を実行するように構成された回路ユニットは、例えば、任意のテキスト認識(例えば、光学文字認識(OCR))ソフトウェアまたは回路を使用することができる。テキスト行配置の結果にしたがって各々のテキスト行内のテキストデータをサウンドデータへと変換するように構成された回路ユニットは、例えば、任意のテキスト-音声変換ソフトウェアまたは回路を使用することができる。回路ユニットは、例えば、ASICチップまたはFPGAチップによって実装されることがある。読取り支援デバイス2400は、サウンドデータ(すなわち、音声データ)を出力するように構成されたサウンド出力デバイス2430(例えば、スピーカ、およびヘッドホン)をさらに含むことができる。
本開示の態様は、電子デバイスを含むことができる。電子デバイスは、プロセッサと、プログラムを記憶するメモリとを含むことができ、ここではプログラムは、プロセッサによって実行されたときに、プロセッサに前述の方法のうちのいずれかを実行させる命令を含む。いくつかの実施形態によれば、プログラムは、命令がプロセッサによって実行されたときに、テキスト行配置の結果にしたがって各々のテキスト行内のテキストデータをサウンドデータへと変換するための命令をさらに含むことができる。いくつかの実施形態によれば、電子デバイスは、例えば、読取り支援デバイスであってもよい。いくつかの実施形態によれば、電子デバイスは、読取り支援デバイスと通信する別のデバイス(例えば、携帯電話機、コンピュータ、およびサーバ)であってもよい。電子デバイスが読取り支援デバイスと通信する別のデバイスであるケースでは、読取り支援デバイスは、別のデバイスによる前述の方法のうちのいずれかの実行のために別のデバイスへ写真撮影した画像を送ることができ、次いで、読取り支援デバイスによる引き続く処理(例えば、ユーザにサウンドデータを演奏すること)の実行のために読取り支援デバイスへ方法の処理結果(例えば、レイアウト解析結果、テキスト認識結果、および/またはテキストデータから変換されたサウンドデータ)を差し戻す。
いくつかの実施形態によれば、読取り支援デバイスは、ウェアラブルデバイス、例えば、メガネの形態で装着されるデバイス、頭搭載型デバイス(ヘルメットまたは帽子など)、耳に装着可能なデバイス、メガネに取り付けられたアクセサリ(例えば、メガネフレームおよびメガネレッグ)、帽子に取り付けられたアクセサリ、等として実装されることがある。
読取り支援デバイスを用いて、視覚障害のユーザは、正常な視力を有する読者と同じような読取り姿勢で従来型の読み物(本および雑誌など)を「読む」ことができる。「読取り」の過程で、読取り支援デバイスは、テキスト行を配置するために前述の実施形態における方法にしたがって、取り込んだレイアウト画像に対してレイアウト解析を自動的に実行し、テキスト行内のテキストをテキスト行の順にサウンドへと順次変換し、そしてユーザが聞くためにスピーカまたはヘッドホンなどの出力装置を介してサウンドを出力する。
本開示の態様は、プログラムを記憶するコンピュータ可読記憶媒体を含むことができ、ここでは、プログラムが、電子デバイスのプロセッサによって実行されたときに、電子デバイスに前述の方法のうちのいずれかを実行させる命令を含む。図25を参照して、本開示の様々な態様に適用されることがあるハードウェアデバイスの例であるコンピューティングデバイス2500がここで説明される。コンピューティングデバイス2500は、処理および/または計算を実行するように構成され、限定されないが、ワークステーション、サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、パーソナルディジタルアシスタント、スマートフォン、オンボードコンピュータ、ウェアラブルデバイス、またはこれらの任意の組合せであり得る任意の装置であってもよい。いくつかの実施形態によれば、読取り支援デバイスまたは電子デバイスはまた、全体がまたは少なくとも一部が、コンピューティングデバイス2500または類似のデバイスもしくはシステムによって実装されることもある。
コンピューティングデバイス2500は、バス2502と接続するまたはバス2502と(おそらく、1つまたは複数のインターフェースを介して)通信する要素を含むことができる。例えば、コンピューティングデバイス2500は、バス2502、1つまたは複数のプロセッサ2504(これは前述の読取り支援デバイスに含まれるプロセッサまたはチップ回路を実装するように構成されることがある)、1つまたは複数の入力デバイス2506、および1つまたは複数の出力デバイス2508を含むことができる。1つまたは複数のプロセッサ2504は、任意のタイプのプロセッサであってもよく、そして限定されないが、1つもしくは複数の汎用プロセッサおよび/または1つもしくは複数の専用プロセッサ(例えば、特殊処理チップ)を含むことができる。入力デバイス2506は、コンピューティングデバイス2500へ情報を入力することができる任意のタイプのデバイスであってもよく、そして限定されないが、センサ(例えば、上に説明したような画像を取り込むためのセンサ)、マウス、キーボード、タッチスクリーン、マイクロフォンおよび/またはリモートコントローラを含むことができる。出力デバイス2508は、情報を提示することができる任意のタイプのデバイスであってもよく、そして限定されないが、ディスプレイ、スピーカ(例えば、上に説明したようなサウンドデータを出力するように構成されることがある出力デバイス)、ビデオ/オーディオ出力端子、バイブレータおよび/またはプリンタを含むことができる。コンピューティングデバイス2500はまた、記憶デバイス2510を含むことができる、または記憶デバイス2510に接続されることがある。記憶デバイス(これは、例えば、上に説明したようなコンピュータ可読記憶媒体を実装するように構成されることがある)は、非一時的であってもよく、データストレージを実装することができる任意の記憶デバイスであってもよく、そして限定されないが、ディスクドライブ、光記憶デバイス、固体メモリ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、もしくは任意の他の磁気媒体、光ディスクもしくは任意の他の光媒体、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、キャッシュメモリおよび/または任意の他のメモリチップもしくはカートリッジ、ならびに/またはコンピュータがデータ、命令および/もしくはコードを読み取ることができる任意の他の媒体を含むことができる。記憶デバイス2510は、インターフェースから取り外されることがある。記憶デバイス2510は、前述の方法およびステップを実施するためのデータ/プログラム(命令を含む)/コードを有することができる。コンピューティングデバイス2500は、通信デバイス2512をさらに含むことができる。通信デバイス2512は、外部デバイスおよび/またはネットワークとの通信を可能にする任意のタイプのデバイスまたはシステムであってもよく、そして限定されないが、モデム、ネットワークインターフェースカード、赤外線通信デバイス、ワイアレス通信デバイスおよび/またはチップセット、例えば、ブルートゥース(登録商標)デバイス、1302.11デバイス、Wi-Fiデバイス、WiMaxデバイス、セルラ通信デバイス、等を含むことができる。
コンピューティングデバイス2500はまた、(前述の読取り支援デバイスに含まれるメモリを実装するために使用されることがある)ワーキングメモリ2514も含むことができ、これは、プロセッサ2504の作業のために有用なプログラム(命令を含む)および/またはデータを記憶することができる任意のタイプのワーキングメモリであってもよく、そして限定されないが、ランダムアクセスメモリおよび/または読取り専用メモリを含むことができる。
ソフトウェア要素(プログラム)は、ワーキングメモリ2514内に置かれることがあり、そして限定されないが、オペレーティングシステム2516、1つまたは複数のアプリケーション(すなわち、アプリケーションプログラム)2518、ドライバ、ならびに/または他のデータおよびコードを含むことができる。方法およびステップを実行するための命令は、1つまたは複数のアプリケーション2518に含まれることがある。ソフトウェア要素(プログラム)の命令の実行可能なコードまたはソースコードは、非一時的なコンピュータ可読記憶媒体(例えば、記憶デバイス2510)に記憶されることがあり、そして実行されるときにワーキングメモリ2514に記憶されることがある(コンパイルされるおよび/またはインストールされることがある)。ソフトウェア要素(プログラム)の命令の実行可能なコードまたはソースコードはまた、遠隔地からダウンロードされることがある。
図25に示したコンピューティングデバイス2500が本開示の実施に適用されるときに、ワーキングメモリ2514は、本開示のフローチャートを実行するためのプログラムコードおよび/またはテキストコンテンツを含んでおり認識されるべき画像を記憶することができる。アプリケーション2518は、サードパーティによって提供される、光学式文字認識アプリケーション(Adobeなど)、音声変換アプリケーション、編集可能テキスト処理アプリケーション、等を含むことができる。入力デバイス2506は、テキストコンテンツを含む画像を取り込むためのセンサであってもよい。テキストコンテンツを含む記憶した画像または取り込んだ画像は、OCRアプリケーションによってテキストを含む出力結果へと処理されることがある。出力デバイス2508は、例えば、音声配信のためのスピーカまたはヘッドホンである。プロセッサ2504は、ワーキングメモリ2514内のプログラムコードにしたがって、本開示の様々な態様による方法のステップを実行するように構成される。
様々な変形が具体的な要求にしたがって行われてもよいことがさらに認識されるはずである。例えば、カスタムハードウェアもまた使用されることがあり、および/または特定の素子(すなわちチップ回路)が、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはこれらのいずれかの組合せで実装されることがある。例えば、開示した方法およびデバイス(例えば、上記のチップ回路内の回路ユニット)のうちのいくつかまたはすべてが、本開示の論理およびアルゴリズムを使用することによってアセンブリ言語またはハードウェアプログラミング言語(VERILOG(登録商標)、VHDL、C++、など)でプログラミングハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)および/またはプログラマブル論理アレイ(PLA)を含めプログラマブル論理回路)によって実施されることがある。
コンピューティングデバイス2500の構成要素がネットワーク全体にわたって分散されることがあることが、さらに理解されるはずである。例えば、いくつかの処理が、1つのプロセッサによって実行されることがあり、一方で他の処理が、その1つのプロセッサから遠く離れた別のプロセッサによって実行されることがある。コンピューティングデバイス2500の他の構成要素もまた、同様に分散されることがある。それはそうとして、コンピューティングデバイス2500は、複数の場所で処理を実行する分散型コンピューティングシステムとして解釈されてもよい。
本開示の実施形態または実施例が図面を参照して説明されてきているけれども、上に説明した方法、システム、およびデバイスは単に例示的な実施形態または実施例であり、本発明の範囲は、実施形態または実施例によって限定されないばかりか、認可された特許請求の範囲およびこれらの等価な範囲によって規定されるに過ぎないことが認識されるはずである。実施形態または実施例の様々な要素は、省略されてもよいまたはこれらの等価な要素によって置き換えられてもよい。加えて、ステップは、本開示において記載した順番とは異なる順番で実行されてもよい。さらに、実施形態または実施例の様々な要素は、様々な方法で組み合わせられてもよい。技術が発展するにつれて、本明細書において記載した多くの要素が、本開示の後に出現する等価な要素で置き換えられてもよいことが重要である。
100 アプリケーションシナリオ
110 スマートグラス
112 撮影範囲
114 テキスト行
116 読み物
200 方法
300 レイアウト解析方法
400 画像
410 テキスト行
500 レイアウトモデル
510 長方形ブロック
700 レイアウトモデル
710 接続された領域
1210 波形
1220 連結線
1230 垂直分割線
2400 読取り支援デバイス
2410 画像センサ
2420 チップ回路
2430 サウンド出力デバイス
2500 コンピューティングデバイス
2502 バス
2504 プロセッサ
2506 入力デバイス
2508 出力デバイス
2510 記憶デバイス
2512 通信デバイス
2514 ワーキングメモリ
2516 オペレーティングシステム
2518 アプリケーション

Claims (19)

  1. コンピュータで実行されるレイアウト解析方法であって、
    画像内の複数のテキスト行の座標情報を取得するステップと、
    前記座標情報にしたがって前記画像のレイアウトモデルを作り出すステップであって、前記レイアウトモデルはテキスト分布を模擬的に再現するデータ値で埋められたデータ要素を有するデータ構造であるステップと、
    前記画像の代わりに前記レイアウトモデルに基づいて前記テキスト行のレイアウト構造を解析するステップと、
    前記レイアウト構造に基づいて互いに対する前記テキスト行の順番を決定するステップと、
    を含む、レイアウト解析方法において、
    前記座標情報にしたがって前記画像のレイアウトモデルを作り出すステップは、
    前記レイアウトモデルを得るためにデータ構造内の前記座標情報に対応するデータ要素をデータ値で埋めるステップであって、前記データ値で埋められた前記データ要素が複数の長方形ブロックを形成し、前記複数の長方形ブロックが前記複数のテキスト行内のそれぞれのテキスト行に対応する、埋めるステップ、
    を含む、レイアウト解析方法。
  2. 前記レイアウトモデルに基づいて前記テキスト行の前記レイアウト構造を前記解析するステップは、
    前記複数の長方形ブロックが互いに別々の複数の接続された領域へと併合されるように、前記複数の長方形ブロックの幅を選択的に調節するステップと、
    前記テキスト行のレイアウト構造を得るために前記複数の接続された領域の空間レイアウトを解析するステップと、
    を含む、請求項1に記載のレイアウト解析方法。
  3. 前記複数の長方形ブロックの前記幅を前記選択的に調節するステップが、
    各々の長方形ブロックに対して、
    長方形ブロックの幅が前記複数の長方形ブロックの代表する幅以下であることに応じて第1の大きさだけ前記長方形ブロックの前記幅を大きくするステップと、
    前記長方形ブロックの前記幅が前記代表する幅よりも大きく前記代表する幅の第1の倍数以下であることに応じて第2の大きさだけ前記長方形ブロックの前記幅を大きくするステップと、
    前記長方形ブロックの前記幅が前記代表する幅の前記第1の倍数よりも大きく前記代表する幅の第2の倍数以下であることに応じて前記長方形ブロックの前記幅を調節しないステップと、
    前記長方形ブロックの前記幅が前記代表する幅の前記第2の倍数よりも大きいことに応じて第3の大きさだけ前記長方形ブロックの前記幅を小さくするステップと、
    を含む、請求項2に記載のレイアウト解析方法。
  4. 前記複数の接続された領域の前記空間レイアウトを前記解析するステップが、
    前記レイアウトモデル内の前記複数の接続された領域の向きを選択的に補正するまたは補正しないステップと、
    それぞれの選択され接続された領域を得るために、行方向において前記レイアウトモデルの2つの辺のうちのいずれか一方に直接隣接する前記レイアウトモデル内の接続された領域を選択的に除去するまたは除去しないステップと、
    セグメント化されたゾーンのセットを得るためおよび互いに対する前記セグメント化されたゾーンの順番を求めるために、前記それぞれの選択され接続された領域に対してプロジェクションセグメンテーションを実行するステップと、
    を含む、請求項2に記載のレイアウト解析方法。
  5. 前記レイアウトモデル内の前記複数の接続された領域の向きを前記選択的に補正するまたは補正しないステップは、
    前記複数の接続された領域が前記レイアウトモデルの前記行方向および列方向のうちのいずれか一方に対して傾いた状態であるかどうかを決定するステップと、
    前記複数の接続された領域が前記傾いた状態であることを決定するステップに応じて、前記複数の接続された領域が前記傾いた状態でないように補正角だけ前記複数の接続された領域を回転するステップと、
    を含む、請求項4に記載のレイアウト解析方法。
  6. 前記行方向において前記レイアウトモデルの2つの辺のうちのいずれか一方に直接隣接する前記レイアウトモデル内の接続された領域を前記選択的に除去するまたは除去しないステップは、
    前記複数の接続された領域が前記傾いた状態にないことに応じて前記レイアウトモデルに対して垂直プロジェクションセグメンテーションを実行するステップと、
    前記垂直プロジェクションセグメンテーションの結果に依存して、前記複数の接続された領域から、前記行方向において前記レイアウトモデルの2つの辺うちのいずれか一方に直接隣接する接続された領域を選択的に除去するまたは除去しないステップと、
    を含む、請求項5に記載のレイアウト解析方法。
  7. 前記複数の接続された領域から、前記行方向において前記レイアウトモデルの2つの辺のうちのいずれか一方に直接隣接する接続された領域を前記選択的に除去するまたは除去しないステップは、
    少なくとも2つのゾーンが前記垂直プロジェクションセグメンテーションを介して前記レイアウトモデルから得られていないことを決定することに応じて前記除去を実行しないステップと、
    少なくとも2つのゾーンが前記垂直プロジェクションセグメンテーションを介して前記レイアウトモデルから得られていることを決定することに応じて、前記行方向の前記少なくとも2つのゾーンの対応する有効サイズを決定するステップと、前記行方向において前記レイアウトモデルの2つの辺のうちのいずれか一方に直接隣接する前記少なくとも2つのゾーンの各々の横ゾーンに下記の操作を実行するステップであって、
    2つのゾーンがセグメンテーションを介して前記レイアウトモデルから得られていることおよび前記行方向の前記横ゾーンの有効サイズが前記対応する有効サイズ内の最大サイズの第1のしきい値パーセントよりも小さくそして前記行方向の前記2つのゾーンのうちの他方の有効サイズの第2のしきい値パーセントよりも小さいことに応じて前記横ゾーン内の接続された領域を除去するステップと、
    2つよりも多くのゾーンがセグメンテーションを介して前記レイアウトモデルから得られていることおよび前記行方向の前記横ゾーンの前記有効サイズが前記対応する有効サイズ内の前記最大サイズの第3のしきい値パーセントよりも小さくそして前記行方向において前記横ゾーンに直接隣接する前記ゾーン内のゾーンの有効サイズの第4のしきい値パーセントよりも小さいことに応じて前記横ゾーン内の接続された領域を除去するステップと、
    を含む、請求項6に記載のレイアウト解析方法。
  8. 前記それぞれの選択され接続された領域に対してプロジェクションセグメンテーションを前記実行するステップが、
    セグメンテーションを介して前記レイアウトモデルから前記セグメント化されたゾーンのセットを得るために、前記それぞれの選択され接続された領域に対して水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを再帰的に交互に実行するステップと、
    読取り順則に基づいて互いに対する前記セグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンの順番を決定するステップと、
    を含む、請求項4に記載のレイアウト解析方法。
  9. 前記それぞれの選択され接続された領域に対して水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを前記再帰的に交互に実行するステップは、
    周期的に操作を実行するステップであって、前記操作は、
    各々のセグメント化されたゾーンが水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなるまで、
    水平プロジェクションセグメンテーションを介して得られた各々の水平セグメント化されたゾーンに垂直プロジェクションセグメンテーションを実行するステップと、
    垂直プロジェクションセグメンテーションを介して得られた各々の垂直セグメント化されたゾーンに水平プロジェクションセグメンテーションを実行するステップと
    を含む、周期的に操作を実行するステップ
    を含み、
    水平プロジェクションセグメンテーションおよび垂直プロジェクションセグメンテーションを介してセグメント化できなくなった前記セグメント化されたゾーンが、前記セグメント化されたゾーンのセットを形成する、
    請求項8に記載のレイアウト解析方法。
  10. 水平プロジェクションセグメンテーションを介して得られた各々の水平セグメント化されたゾーンに垂直プロジェクションセグメンテーションを前記実行するステップは、
    データ列のセットに関する前記水平セグメント化されたゾーンを検索するステップであって、前記データ列のセット内の各々のデータ列のデータ値の総計がゼロから第1のしきい値までの範囲内であり、前記第1のしきい値がゼロよりも大きい、前記水平セグメント化されたゾーンを検索するステップと、
    前記データ列のセットから、前記データ列のセットを見つけることに応じて前記水平セグメント化されたゾーンをセグメント化するための垂直分割線を選択するステップと、
    垂直セグメント化されたゾーンを得るために前記選択した垂直分割線を使用して前記水平セグメント化されたゾーンをセグメント化するステップと、
    を含む、請求項9に記載のレイアウト解析方法。
  11. 垂直プロジェクションセグメンテーションを介して得られた各々の垂直セグメント化されたゾーンに水平プロジェクションセグメンテーションを前記実行するステップは、
    データ行のセットに関する前記垂直セグメント化されたゾーンを検索するステップであって、前記データ行のセット内の各々のデータ行のデータ値の総計がゼロから第2のしきい値までの範囲内であり、前記第2のしきい値がゼロよりも大きい、前記垂直セグメント化されたゾーンを検索するステップと、
    前記データ行のセットから、前記データ行のセットを見つけることに応じて前記垂直セグメント化されたゾーンをセグメント化するための水平分割線を選択するステップと、
    水平セグメント化されたゾーンを得るために前記選択した水平分割線を使用して前記垂直セグメント化されたゾーンをセグメント化するステップと、
    を含む、請求項9に記載のレイアウト解析方法。
  12. 互いに対する前記セグメント化されたゾーンのセット内の前記それぞれのセグメント化されたゾーンの前記順番を前記決定するステップが、
    周期的に前記操作を実行する際に、階層ツリーデータ構造内の水平セグメント化されたゾーン同士の間の、垂直セグメント化されたゾーン同士の間の、および前記水平セグメント化されたゾーンと前記垂直セグメント化されたゾーンとの間の階層的関係を記録するステップであって、前記階層ツリーデータ構造内のリーフノードが前記セグメント化されたゾーンのセットを表す、階層的関係を記録するステップと、
    前記読取り順則にしたがって前記リーフノードをスキャンするステップであって、前記リーフノードをスキャンするステップの順番が互いに対する前記セグメント化されたゾーンのセット内の前記それぞれのセグメント化されたゾーンの順番を表す、前記リーフノードをスキャンするステップと、
    を含む、請求項9に記載のレイアウト解析方法。
  13. 前記複数の接続された領域の前記空間レイアウトを前記解析するステップは、前記それぞれの選択され接続された領域に対してプロジェクションセグメンテーションを前記実行するステップの後で、
    前記それぞれの選択され接続された領域が前記補正角だけこれまでに回転されているかどうかを決定するステップと、
    前記それぞれの選択され接続された領域が前記補正角だけこれまでに回転されていることを決定するステップに応じて前記補正角だけ前記セグメント化されたゾーンのセットを逆に回転するステップと、
    をさらに含む、請求項5に記載のレイアウト解析方法。
  14. 前記レイアウト構造に基づいて互いに対する前記テキスト行の前記順番を前記決定するステップが、
    前記セグメント化されたゾーンのセット内のそれぞれのセグメント化されたゾーンに対して前記それぞれの選択され接続された領域の相対的な位置にしたがって、前記それぞれの選択され接続された領域と前記それぞれのセグメント化されたゾーンとの間の対応を決定するステップであって、各々のセグメント化されたゾーンが選択され接続された領域の対応するセットを含む、対応を決定するステップと、
    選択され接続された領域の前記対応するセット内の前記選択され接続された領域同士の間の位置的な関係にしたがって選択され接続された領域の前記対応するセット内の選択され接続された領域を配置するステップと、
    前記選択され接続された領域内の前記長方形ブロック同士の間の位置的な関係にしたがって各々の選択され接続された領域内の長方形ブロックを配置するステップと、
    前記複数のテキスト行と前記複数の長方形ブロックとの間の対応にしたがって前記それぞれの選択され接続された領域内の長方形ブロックと前記複数のテキスト行とをマッチングさせるステップと、
    を含む、請求項13に記載のレイアウト解析方法。
  15. 前記レイアウトモデルに基づいて前記テキスト行の前記レイアウト構造を前記解析するステップの前に、
    前記複数のテキスト行の主レイアウトタイプを認識するステップであって、前記主レイアウトタイプが水平レイアウトタイプおよび垂直レイアウトタイプから構成される群から選択される1つを含む、認識するステップをさらに含み、
    前記レイアウトモデルに基づいて前記テキスト行の前記レイアウト構造を前記解析するステップが、
    前記主レイアウトタイプの前記テキスト行のレイアウト構造を解析するステップを含む、
    請求項1に記載のレイアウト解析方法。
  16. 請求項1~15のいずれか一項に記載のレイアウト解析方法を実行するように構成された回路ユニットを備えた、チップ回路。
  17. 請求項16に記載のチップ回路と、
    画像を取り込むように構成された画像センサと、
    を備えた、読取り支援デバイス。
  18. プロセッサと、
    プログラムを記憶するメモリであって、前記プログラムが、前記プロセッサによって実行されたときに、前記プロセッサに請求項1~15のいずれか一項に記載のレイアウト解析方法を実行させる命令を含む、メモリと、
    を備えた、電子デバイス。
  19. プログラムを記憶するコンピュータ可読記憶媒体であって、前記プログラムが、電子デバイスのプロセッサによって実行されたときに、前記電子デバイスに請求項1~15のいずれか一項に記載のレイアウト解析方法を実行させる命令を含む、コンピュータ可読記憶媒体。
JP2021113960A 2020-07-13 2021-07-09 レイアウト解析方法、読取り支援デバイス、回路および媒体 Active JP7132654B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010667074.6 2020-07-13
CN202010667074.6A CN111832476A (zh) 2020-07-13 2020-07-13 版面分析方法、阅读辅助设备、电路和介质

Publications (2)

Publication Number Publication Date
JP2022017202A JP2022017202A (ja) 2022-01-25
JP7132654B2 true JP7132654B2 (ja) 2022-09-07

Family

ID=72900564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021113960A Active JP7132654B2 (ja) 2020-07-13 2021-07-09 レイアウト解析方法、読取り支援デバイス、回路および媒体

Country Status (5)

Country Link
EP (1) EP3940589B1 (ja)
JP (1) JP7132654B2 (ja)
KR (1) KR102399508B1 (ja)
CN (1) CN111832476A (ja)
WO (1) WO2022012121A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367296B2 (en) 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis
CN111832476A (zh) * 2020-07-13 2020-10-27 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN113033338B (zh) * 2021-03-09 2024-03-29 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置
CN114494711B (zh) * 2022-02-25 2023-10-31 南京星环智能科技有限公司 一种图像特征的提取方法、装置、设备及存储介质
CN114757144B (zh) * 2022-06-14 2022-09-06 成都数之联科技股份有限公司 图像文档的重建方法、装置、电子设备和存储介质
CN114998885A (zh) * 2022-06-23 2022-09-02 小米汽车科技有限公司 页面数据处理方法、装置、车辆及存储介质
CN116167143B (zh) * 2023-04-20 2023-08-15 江西少科智能建造科技有限公司 一种工位布置方法、系统、存储介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240643A (ja) 2003-02-05 2004-08-26 Toshiba Corp 文字認識システム、文字認識方法およびプログラム
JP2004272822A (ja) 2003-03-12 2004-09-30 Seiko Epson Corp 文字認識装置および文字認識方法並びにコンピュータプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215184A (ja) * 1992-09-17 1994-08-05 Fuji Facom Corp 抽出領域のラベリング装置
JP3683923B2 (ja) * 1994-11-17 2005-08-17 キヤノン株式会社 文字領域の順序付け方法
JP3940491B2 (ja) * 1998-02-27 2007-07-04 株式会社東芝 文書処理装置および文書処理方法
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
US8594422B2 (en) * 2010-03-11 2013-11-26 Microsoft Corporation Page layout determination of an image undergoing optical character recognition
CN102479173B (zh) * 2010-11-25 2013-11-06 北京大学 识别版面阅读顺序的方法及装置
US9330070B2 (en) * 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document
US20150212654A1 (en) * 2014-01-28 2015-07-30 Comikka, Inc. Architecture for providing dynamically sized image sequences
CN110969056B (zh) * 2018-09-29 2023-08-08 杭州海康威视数字技术股份有限公司 文档图像的文档版面分析方法、装置及存储介质
CN109934210B (zh) * 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN111340037B (zh) * 2020-03-25 2022-08-19 上海智臻智能网络科技股份有限公司 文本版面分析方法、装置、计算机设备和存储介质
CN111832476A (zh) * 2020-07-13 2020-10-27 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240643A (ja) 2003-02-05 2004-08-26 Toshiba Corp 文字認識システム、文字認識方法およびプログラム
JP2004272822A (ja) 2003-03-12 2004-09-30 Seiko Epson Corp 文字認識装置および文字認識方法並びにコンピュータプログラム

Also Published As

Publication number Publication date
KR102399508B1 (ko) 2022-05-19
EP3940589A1 (en) 2022-01-19
WO2022012121A1 (zh) 2022-01-20
JP2022017202A (ja) 2022-01-25
CN111832476A (zh) 2020-10-27
EP3940589B1 (en) 2023-10-25
KR20220008224A (ko) 2022-01-20

Similar Documents

Publication Publication Date Title
JP7132654B2 (ja) レイアウト解析方法、読取り支援デバイス、回路および媒体
US10467466B1 (en) Layout analysis on image
WO2020192433A1 (zh) 多语言文本检测识别方法和设备
US9330331B2 (en) Systems and methods for offline character recognition
CN113498521A (zh) 文本检测方法及装置、存储介质
CN111612004A (zh) 一种基于语义内容的图像裁剪方法及装置
WO2024027349A1 (zh) 一种印刷体数学公式识别方法、装置及存储介质
CN111368632A (zh) 一种签名识别方法及设备
WO2020233379A1 (zh) 版面分析方法、阅读辅助设备、电路及介质
WO2022121842A1 (zh) 文本图像的矫正方法及装置、设备和介质
US11367296B2 (en) Layout analysis
JP5412916B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP2006133941A (ja) 画像処理装置、画像処理方法、画像処理プログラム及び携帯型端末
WO2022121843A1 (zh) 文本图像的矫正方法及装置、设备和介质
CN113793264B (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备
CN113850239B (zh) 多文档检测方法、装置、电子设备及存储介质
CN113486171B (zh) 一种图像处理方法及装置、电子设备
CN113850238B (zh) 文档检测方法、装置、电子设备及存储介质
CN110969161B (zh) 图像处理方法、电路、视障辅助设备、电子设备和介质
US10380447B1 (en) Providing regions of interest in an image
CN113850268B (zh) 基于人工智能的文本识别排序方法、装置、设备及介质
WO2016069005A1 (en) Text line detection
US20220277473A1 (en) Pose estimation apparatus, learning apparatus, pose estimation method, and non-transitory computer-readable recording medium
CN116912849A (zh) 文档恢复方法、装置、电子设备及存储介质
CN112861735A (zh) 文本图像的识别方法及装置、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220714

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220714

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20220728

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220808

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220819

R150 Certificate of patent or registration of utility model

Ref document number: 7132654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150