JP2020191056A - レイアウト解析方法、読書補助装置、回路及び媒体 - Google Patents

レイアウト解析方法、読書補助装置、回路及び媒体 Download PDF

Info

Publication number
JP2020191056A
JP2020191056A JP2019120622A JP2019120622A JP2020191056A JP 2020191056 A JP2020191056 A JP 2020191056A JP 2019120622 A JP2019120622 A JP 2019120622A JP 2019120622 A JP2019120622 A JP 2019120622A JP 2020191056 A JP2020191056 A JP 2020191056A
Authority
JP
Japan
Prior art keywords
character
character data
paragraph
coordinate information
data sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019120622A
Other languages
English (en)
Other versions
JP6713141B1 (ja
Inventor
ツァイ ハイジャオ
Haijiao Cai
ツァイ ハイジャオ
フォン シンポン
Xinpeng Feng
フォン シンポン
ジョウ ジィ
Ji Zhou
ジョウ ジィ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Application granted granted Critical
Publication of JP6713141B1 publication Critical patent/JP6713141B1/ja
Publication of JP2020191056A publication Critical patent/JP2020191056A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

【課題】レイアウト解析方法、読書補助装置、回路及び媒体を開示する。【解決手段】該レイアウト解析方法は、画像における1つ又は複数の文字行の座標情報を取得するステップと、データ構造における該1つ又は複数の文字行の座標情報に対応する領域において文字データを設定し、該画像に対応するレイアウトモデルを生成するステップであって、該文字データは文字の存在を示すデータを含む、ステップと、生成されたレイアウトモデルを走査して該レイアウトモデルにおける前記文字データを読み取り、読み取られた該文字データの該レイアウトモデルにおける相対位置関係に基づいて、該レイアウトモデルに対して段落分けを行うステップと、を含む。【選択図】図1

Description

本開示は、データ処理の分野に関し、特にレイアウト解析方法、読書補助装置、電子機器、並びにその対応するチップ回路及びコンピュータ読み取り可能な記憶媒体に関する。
従来技術には、画像に対してレイアウト解析を行い、例えば画像における文字に対して段落分けを行って複数の段落を取得し、取得された段落を用いて後続の処理を行う技術がある。このようなレイアウト技術は、電子書籍の生成やオーディオブックの生成などに用いられてもよい。従来技術におけるレイアウト解析技術は、主に文字の画像データ又は文字の意味情報に依存し、画像処理、クラスタリングアルゴリズム又は意味解析アルゴリズムなどの技術を用いて画像における文字を複数の段落に分ける。このような技術は、通常アルゴリズムが複雑であり、計算量が多い。
この部分で説明されている方法は、必ずしも以前に構想、或いは採用されている方法ではない。他の説明がない限り、この部分で説明されている方法がこの部分に含まれているという理由だけで先行技術であると見なされるべきではない。同様に、他の説明がない限り、この部分で言及されている課題が先行技術において認識されていると見なされるべきではない。
本開示の1つの態様では、画像における1つ又は複数の文字行の座標情報を取得するステップと、データ構造における前記1つ又は複数の文字行の座標情報に対応する領域において文字データを設定し、前記画像に対応するレイアウトモデルを生成するステップであって、前記文字データは文字の存在を示すデータを含む、ステップと、生成されたレイアウトモデルを走査して前記レイアウトモデルにおける前記文字データを読み取り、読み取られた前記文字データの前記レイアウトモデルにおける相対位置関係に基づいて、前記レイアウトモデルに対して段落分けを行うステップと、を含む、レイアウト解析方法を提供する。
本開示のもう1つの態様では、本開示に記載のレイアウト解析方法のステップを実行する回路部、を含むチップ回路を提供する。
本開示のもう1つの態様では、画像を取得するセンサと、上記のチップ回路と、音声データを出力する音声出力装置と、を含み、前記チップ回路は、前記画像に対して文字認識を行い、文字データを取得する回路部と、段落分けの結果に基づいて、各段落における文字データを前記音声データに変換する回路部と、をさらに含む、読書補助装置を提供する。
本開示のもう1つの態様では、処理装置と、命令を含むプログラムが記憶されている記憶装置と、を含み、前記命令が前記処理装置により実行される際に、前記処理装置に本開示に記載のレイアウト解析方法を実行させる、電子機器を提供する。
本開示のもう1つの態様では、命令を含むプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令が電子機器の処理装置により実行される際に、前記電子機器に本開示に記載のレイアウト解析方法を実行させる、記憶媒体を提供する。
以下で図面を参照しながら例示的な実施例を説明することにより、本開示のより多くの特徴及び利点は明らかになる。
図面は実施例を例示し、明細書の一部を構成するものであり、図面及び明細書の文言の説明を参照しながら実施例の例示的な態様を説明する。示される実施例は単なる例示のためのものであり、特許請求の範囲を制限するものではない。全ての図面では、同一の符号は類似の要素を示しているが、必ずしも同一の要素ではない。
本開示の例示的な実施例に係るレイアウト解析方法を示すフローチャートである。 本開示の例示的な実施例に係る文字行を含む画像及びそのレイアウトモデルの一例を示す模式図である。 本開示の例示的な実施例に係る文字行の座標情報の取得方法の一例を示すフローチャートである。 本開示の例示的な実施例に係るレイアウトモデルの生成方法の一例を示すフローチャートである。 本開示の例示的な実施例に係るレイアウトモデルのデータ構造における文字行の座標情報に対応する領域の一例を示す模式図である。 本開示の例示的な実施例に係るレイアウトモデルを走査して段落分けを行う方法の一例を示すフローチャートである。 本開示の例示的な実施例に係る段落分けのレイアウトモデルの一例を示す模式図である。 本開示の例示的な実施例に係る2つの文字データシーケンスの重なり率の計算を示す模式図である。 図9(a)は本開示の例示的な実施例に係る段落分けのレイアウトモデルの一例を示す模式図である。 図9(b)は本開示の例示的な実施例に係る段落分けのレイアウトモデルの一例を示す模式図である。 本開示の例示的な実施例に係る段落座標情報の更新処理を示す模式図である。 本開示の例示的な実施例に係る読書補助装置の構成を示すブロック図である。 例示的な実施例に適用可能なコンピュータ装置の構成の一例を示すブロック図である。
本開示では、他の説明がない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、時間的関係又は重要性の関係を限定するものではなく、単に1つの素子と他の素子とを区別するために用いられる。幾つかの例では、第1要素及び第2要素は、該要素の同一の例を表してもよいし、場合によって、文脈上の説明に基づいて、異なる例を表してもよい。
本開示において様々な実施例を説明するために用いられる用語は、単なる特定の例を説明するものであり、限定するものではない。文脈が明らかに他のことを示さない限り、要素の数を特に限定しない場合、該要素は1つでもよいし、複数であってもよい。また、本開示で用いられる用語「及び/又は」は、列挙された項目の何れか又は全ての可能な組み合わせを含む。
本開示では、画像について、「水平」とは文字行と実質的に平行な(例えば夾角は45度未満である)画像のエッジの方向を意味し、「垂直」とは「平行」に垂直な画像の他のエッジの方向を意味する。レイアウトモデルについて、「水平」とはレイアウトモデルのデータ構造の行方向を意味し、画像の「水平」に対応し、「垂直」とはレイアウトモデルのデータ構造の列方向を意味し、画像の「垂直」に対応する。
以下の本開示の説明は、主にテキスト行が読者に対して実質的に左右方向に延びること(即ち横書きの読み物)を前提としているが、本開示の態様はこれに限定されず、テキスト行が読者に対して実質的に上下方向に延びること(即ち縦書きの読み物)にも適用されてもよく、即ち本開示のアルゴリズムは縦書きの読み物にも適用されてもよい。テキスト行が実質的に上下方向に延びる場合は、本開示の水平方向は実質的な上下方向を意味してもよく、垂直方向は実質的な左右方向を意味してもよい。言い換えれば、本開示の「水平」、「垂直」等の用語は絶対的な意味を持つものではなく、互いに垂直な方向であればよい。文字行が実質的な上下方向である場合は、本開示における「上下」と「左右」の方向を入れ替えてもよい。
書籍や雑誌などの読み物は通常特定のレイアウトを有し、例えば読み物の内容は複数の段落(例えば上下の段落及び左右の欄などを含む)に分けられている。人間はこのような読み物を読む際に、視野における画像を視覚的に取り込み、脳により画像における段落を認識して段落における文字を読む。一方、機械はこのような読み物を「読む」際に、正しい段落順序に従って読み物における文字を「読む」ために、画像における文字に対して文字認識を行うと共に、特定のアルゴリズムによりこれらの文字に対して段落分けを行う必要がある。例えば、紙の本を電子書籍に変換するアプリケーション、又は画像における文字を音声信号に変換して該音声信号を出力するアプリケーションでは、このような段落分けの技術を使用する場合がある。本開示では、「段落分け」とは、画像における文字又はレイアウトにおける文字データを複数の段落に分けることを意味する。上下の段落の分けは段落の分割と称されてもよく、左右の段落の分けは欄の分割と称されてもよい。
本開示は、文字画像に対する直接の複雑な画像処理を回避し、意味解析を行う必要がなく、文字を含む画像を模擬画像における文字分布を表すより簡単な構造を有するレイアウトモデルに変換する段落分け方法を提供し、該レイアウトモデルに含まれるデータは、例えば意味内容を含まず、文字の所在を示す簡単なデータのみを含んでもよく、該レイアウトモデルにおけるデータに対して位置解析を行うことで段落分けを行うことができる。以下は、図面を参照しながら本開示の実施例のレイアウト解析方法を詳細に説明する。
図1は本開示の例示的な実施例に係るレイアウト解析方法を示すフローチャートである。図1に示すように、該レイアウト解析方法は、文字行の座標情報を取得するステップ(ステップS101)、レイアウトモデルを生成するステップ(ステップS103)及びレイアウトモデルを走査して段落分けを行うステップ(ステップS105)を含んでもよい。
ステップS101:画像における1つ又は複数の文字行の座標情報を取得する。
本開示の例示的な方法は、非文字の元の画像の代わりに文字の座標情報を主に用いてレイアウト解析を行うため、このステップにおいて、後続の処理を行うために、画像から文字行の座標情報を取得する。
該画像は、画像センサにより取得された電子画像データであってもよい。1つの実施例では、画像センサはユーザのウェアラブルデバイス又は眼鏡などのアイテムに設けられてもよく、該画像は該画像センサにより撮影されたユーザが持っている読み物(例えば書籍又は雑誌など)のレイアウトの画像であってもよい。該画像は、文字(各国及び地域の文字、数字、符号、句読点などを含んでもよい)、ピクチャなどの内容を含んでもよい。1つの実施例では、該画像は前処理された画像であってもよく、該前処理は例えばチルト補正、ぼけ除去などを含んでもよいが、これに限定されない。1つの実施例では、該画像は、画像センサにより取得された後に記憶装置又は記憶媒体に記憶され、処理されるために読み出されてもよい。
該文字行は、連続した一行の文字を意味し、例えば水平方向に隣接する文字間の間隔が間隔閾値よりも小さい文字のシーケンスであってもよい。該隣接する文字間の間隔は、例えば隣接する文字の対応位置の座標間の距離、例えば隣接する文字の左上隅の座標間、右下隅の座標間、又は重心の座標間の文字行方向の距離などであってもよい。1つの実施例では、隣接する文字間の間隔が間隔閾値以下である場合、該隣接する文字が連続していると判断し、該隣接する文字を同一の文字行に分けてもよい。隣接する文字間の間隔が間隔閾値よりも大きい場合、隣接する文字が連続していない(例えばそれぞれが左右の2つの欄に属する可能性はある)と判断し、該隣接する文字を異なる文字行に分けてもよい。
1つの実施例では、文字行の座標情報は、該文字行を含む矩形(例えば該文字行を含む最小の矩形、又は該文字行を含む最小の矩形を上、下、左及び/又は右に所定の倍率だけ拡大して得られた矩形)の座標情報であってもよい。文字行の座標情報は例えば該矩形の4つの頂点の座標情報を含んでもよいし、該矩形の任意の頂点の座標情報、並びに該矩形の高さ情報及び長さ情報を含んでもよい。なお、文字行の座標情報の定義はこれに限定されず、文字行が占める空間位置及びサイズを表すことができればよい。
1つの実施例では、文字行の座標情報は、例えば他の機器(例えばリモートサーバ又はクラウドコンピュータ装置)又は他のアプリケーション(例えば光学文字認識(OCR)などの文字認識アプリケーション)から取得されてもよいし、ローカルアプリケーションにおいて文字認識処理により取得されてもよい。
図2は本開示の例示的な実施例に係る文字行を含む画像及びそのレイアウトモデルの一例を示す模式図であり、画像201における文字行TL1〜TL6を示し、破線枠で画像201における各文字行を含む矩形を示している。
ステップS103において、データ構造における該1つ又は複数の文字行の座標情報に対応する領域において文字データを設定し、該画像に対応するレイアウトモデルを生成する。
このステップは、前のステップにおいて取得された文字行に対応する領域において、文字画像そのものよりも簡単な「文字データ」を設定することで、後続処理のための、該画像における文字分布を模擬するためのレイアウトモデルを構築する。
本開示のレイアウトモデルは、画像における文字行の位置分布を模擬するために構築されたモデルであり、各位置のデータと画像における対応位置の画素とは対応関係及びマッピング関係を有する。レイアウトモデルは、データ構造における位置において、画像における対応位置における文字の存在を示すデータを設定することによって構築される。
1つの実施例では、該データ構造は、記憶装置(例えばメモリ、キャッシュなど)におけるファイル、又は画素で表現される画像であってもよいし、テーブル又はデータアレイであってもよい。データ構造は、具体的なデータ構造に限定されず、その中のデータが画像における文字行を模擬することができればよい。データ構造のサイズは、画像のサイズと同じであってもよいし、画像のサイズを所定の比率だけ拡大/縮小したサイズであってもよい。例えば、画像が3840×2160の画素サイズを有する場合、データ構造(及び対応するレイアウトモデル)は画像と同じサイズを有してもよい(即ち3840×2160個の画素又はデータを有してもよい)し、水平方向に拡大/縮小してもよい(例えば1920×2160個の画素又はデータを有してもよい)し、垂直方向に拡大/縮小してもよい(例えば3840×1080個の画素又はデータを有してもよい)し、水平方向及び垂直方向両方に拡大/縮小してもよい(例えば1920×1080個の画素又はデータを有し、或いは1280×1080個の画素又はデータを有してもよい)。データ構造のサイズが画像のサイズと同じである場合でも、画像のサイズを所定の比率だけ拡大/縮小したサイズを有する場合でも、該データ構造のデータ又は画素と画像の画素とは画像における領域に基づいて対応関係又はマッピング関係を構築することができる。
1つの実施例では、該文字データは、文字の存在を示すデータを含み、文字の意味又は内容に関わらず、文字の座標情報に対応する領域に文字が存在するか否かを表すことができる。また、データ構造における該画像の非文字領域に対応する領域において空白データ(blank data)を設定してもよく、該空白データは文字が存在しないことを示すデータである。1つの実施例では、文字データは例えば「1」であってもよく、空白データは例えば「0」であってもよい。なお、文字データは「0」及び「1」に限定されず、他の任意のデータであってもよく、該領域に文字又は文字行が存在するか否かを区別することができればよい。
1つの実施例では、レイアウトモデルのサイズが画像のサイズを拡大/縮小したものである場合、レイアウトモデルのデータ構造における文字行の座標情報に対応する領域の座標は画像の文字行領域の座標を所定の比率で拡大/縮小したものであってもよい。レイアウトモデルのデータ構造のサイズが画像のサイズよりも小さい場合、画像における複数の画素をマッピング規則に従ってレイアウトモデルにおけるデータ又は画素にマッピングする。画像における複数の画素に文字行における画素及び空白領域における画素両方が含まれる場合、該マッピング規則は、例えば複数の画素を文字データにマッピングするように規定されてもよいし、複数の画素を空白データにマッピングするように規定されてもよい。或いは、マッピング規則は、画像における複数の画素の文字行における画素の数と空白領域における画素の数との比が所定の比以上である場合、複数の画素を文字データにマッピングし、そうでない場合、空白データにマッピングすることを含んでもよい。或いは、マッピング規則は、例えばN個の画素行をレイアウトモデルにおける1つのデータ又は画素行にマッピングする場合、N個の画素行ごとに1つの画素行を抽出してレイアウトモデルにおける1つのデータ又は画素行にマッピングすることを含んでもよい。
図2に示す例は画像201に対応するレイアウトモデル203を示し、図2から分かるように、レイアウトモデル203における文字行TL1〜TL6に対応する領域R1〜R6において文字データ(この例では「1」である)を設定し、他の空白領域において空白データ(この例では「0」である)を設定している。図2から分かるように、レイアウトモデル203における文字データの位置分布は画像201における文字行の位置分布を好適に模擬した。レイアウトモデル203では、画像201に対する拡大/縮小の比率により、レイアウトモデル203のデータ構造におけるデータ行(画素行)は画像201における文字行に正確に対応している。なお、他の実施例では、他の拡大/縮小の比率を用い、或いは拡大/縮小しない場合、レイアウトモデル203における複数のデータ行(画素行)を用いて画像201における1つの文字行を表してもよい。例えば、図5では、レイアウトモデル503における2つのデータ行(画素行)を用いて画像501における1つの文字行を表す例が示されている。他の例では、画像201における文字の高さが例えば10個の画素である場合、レイアウトモデル203におけるデータ構造は5個又は10個のデータ行(画素行)を用いて1つの文字行を表してもよい。
ステップS105において、生成されたレイアウトモデルを走査して該レイアウトモデルにおける該文字データを読み取り、読み取られた該文字データの該レイアウトモデルにおける相対位置関係に基づいて、該レイアウトモデルに対して段落分けを行う。
このステップは、前のステップにおいて取得されたレイアウトモデルにおけるデータを走査して読み取り、レイアウトモデルにおける文字データに対して段落分けを行う。
1つの実施例では、走査は、レイアウトモデルのデータ構造をデータ又は画素ごとに走査して読み取ってもよい。例えば、レイアウトモデルが画像に対応する他の画像又はデータアレイである場合、走査は、例えば他の画像又はデータアレイを行ごとに走査してもよい。走査行は、例えば水平方向にレイアウトモデル全体にわたるデータ行又は画素行であってもよい。文字行は、図5における文字行TL1に対応する2つの走査行SL1及びSL2に示すように、複数の走査行に対応してもよい。1つの走査行は、水平方向に間隔を隔てた複数の異なる文字行に関連してもよく、即ち複数の文字データシーケンスを含んでもよい。図2の例では、レイアウトモデル203における走査行SLは、文字行TL1及びTL2に関連し、即ち領域R1及びR2における対応する文字データシーケンスを含む。ここで、文字データシーケンスは、連続する文字データのシーケンス(即ち文字データ間には空白データが存在しない)、又は隣接する文字データ間の空白データの数が閾値よりも小さい文字データのシーケンスを意味し、該閾値は例えば1つ以上の文字データであってもよく、例えば3個の文字データ又は5個の文字データである。文字データが「1」で表される場合、典型的な文字データシーケンスは、図2及び図5に示すように、例えば連続する「1」の文字列であってもよい。
上記の走査により、生成されたレイアウトモデルにおける文字データ(及び空白データ)の値を読み取り、その相対位置関係を解析し、該相対位置関係に基づいてレイアウトモデルに対して段落分けを行うことができる。
図1に示す方法によれば、文字(文字行)を含む画像に基づいて、領域に文字行が存在するか否かを示す簡単なデータを含むレイアウトモデルを生成し、即ちより簡単な情報を含むレイアウトモデルを用いて元の画像を模擬することで、レイアウト解析問題を複雑な画像処理問題から比較的に簡単な位置分析問題に変換することができるため、レイアウト解析の基本的な精度を維持することができると共に、アルゴリズムの複雑さ及び計算量を大幅に低減させることができ、コンピュータのレイアウトを解析する時の演算負荷を軽減することができる。また、レイアウトモデルのサイズが画像のサイズを縮小するものである場合、処理すべきデータ量をさらに削減することができ、コンピュータのレイアウトを解析する時の演算負荷をさらに軽減することができる。
以上は図1〜図2を参照しながら本開示のレイアウト解析方法を説明した。以下は図3〜図10を参照しながら上記ステップS101、S103及びS105の例示的な実施例及び他の実施例をより詳細に説明し、図3はステップS101における文字行の取得処理の一例を示し、図4はステップS103におけるレイアウトモデルの生成処理の一例を示し、図6はステップS105におけるレイアウトモデルを走査して段落分けを行う処理の一例を示す。なお、以上で図1〜図2を参照しながら説明された各定義、実施例、態様及び例などは以下で説明される実施例及びその組み合わせに適用されてもよい。
図3は本開示の例示的な実施例に係る文字行の座標情報の取得方法の一例を示すフローチャートであり、該方法上記のステップS101の例示的な実施例であってもよく、即ちステップS101は図3のフローチャートにおけるステップを含んでもよい。
ステップS301において、画像に対して文字認識を行い、各文字の座標情報を取得する。従来技術における例えば光学文字認識(OCR)技術などの様々な文字認識技術はこのステップに用いられてもよい。文字の座標情報は、例えば文字を含む矩形の4つの頂点の座標及び/又は文字の高さ、幅の情報などを含んでもよいが、これに限定されない。全ての従来技術の文字座標は、ここの座標情報とされてもよく、文字の画像における位置及びその占有領域を表すことができればよい。
ステップS301の後の各ステップにおいて、画像における最初の文字から、文字の座標情報に基づいて各文字を順次処理し、文字行を取得する。
ステップS303において、現在処理されている文字と前の文字(直前の文字)との間隔が間隔閾値よりも小さいか否かを判断する。該間隔が間隔閾値以上である場合(ステップS303でNO)、現在の文字が新しい文字行に属すると決定し(ステップS305)、そうでない場合(ステップS303でYES)、現在の文字を、前の文字が属する文字行に分ける(ステップS309)。
1つの実施例では、間隔閾値は例えば応用の需要(例えば言語、符号の種類など)に応じて決定されてもよく、例えば平均の文字幅の所定倍(例えば1.2倍〜3.5倍)に設定されてもよいし、予め決定された同一の段落における平均の隣接文字の間隔の所定倍(例えば1.5倍〜3.5倍)に設定されてもよい。なお、間隔閾値の決定方法はこれに限定されず、隣接文字が同一の段落に属するか否かを区別することができればよい。
図2の例では、間隔閾値は、例えば文字の平均幅の2.5倍に設定されている。文字行TL1における「be」及び「as」における隣接文字「e」と「a」との間隔が間隔閾値よりも小さいため、該文字を同一の文字行TL1に分ける。一方、文字行TL1の末尾における「your」の「r」と文字行TL2の先頭における「A」との間隔が間隔閾値以上であるため、該文字をそれぞれ異なる文字行TL1及びTL2に分ける。
現在の文字を前の文字行又は新しい文字行に分けた後に、ステップS311において、画像に次の文字があるか否かを判断し、次の文字がある場合(ステップS311でYES)、次の文字(直後の文字)を現在の文字とし、ステップS303以降の処理により該文字に対して文字行の分けを行い続け、次の文字がない場合(ステップS311でNO)、画像における全ての文字が既に文字行に分けられたことを意味する。
1つの実施例では、ステップS305において現在の文字が新しい文字行に属すると決定された場合、前の文字が前の文字行の最後の文字であることを意味するため、例えばステップS307において、前の文字行を含む矩形の座標情報を、該前の文字行の座標情報としてもよい。他の実施例では、ステップS307を実行せず、ステップS305、S309及びS311において画像における全ての文字を対応する文字行に分けた後に、ステップS313において、各文字行について、該文字行を含む矩形の座標情報を、該文字行の座標情報として決定してもよい。1つの実施例では、該矩形の各辺はそれぞれ画像の各辺に平行となり、即ち水平方向及び垂直方向を有する。
従来方法における文字認識アルゴリズム(例えば光学文字認識(OCR)には、画像における各文字を認識して該文字の座標情報を取得することができ、文字行を含む矩形及びその座標情報を決定することができる技術が存在する。様々な文字認識アルゴリズムにおける従来技術はここで適用されてもよい。従って、本開示の技術は、従来技術における文字認識アルゴリズムにより取得された結果を十分に利用することができ、アルゴリズムの効率を向上させることができる。
一例として、画像における文字行は、該文字行を含む矩形の水平辺(画像の水平辺に平行となる)に対して所定の傾斜度を有する。この傾斜度が傾斜度閾値(例えば20度又は30度)よりも小さい場合、段落分けの結果に実質的な影響がない。この傾斜度が傾斜度閾値以上である場合、文字の傾きを補正するために画像に対して前処理を行い、傾き補正後の画像に基づいて図3におけるステップ及び後続処理を行ってもよい。他の実施例では、この傾斜度が傾斜度閾値以上である場合、画像の傾きを低減させるために読み物を把持する姿勢を改善するようにユーザに提示してもよい。
図4は本開示の例示的な実施例に係るレイアウトモデルの生成方法の一例を示すフローチャートであり、該方法は上記のステップS103の一例とされてもよく、即ちステップS103は図4のフローチャートにおけるステップを含んでもよい。
例えばステップS101又は図3のフローチャートのステップにおいて文字行の座標情報が取得された後に、画像における最初の文字行から、取得された各文字行を文字行ごとに処理する。
ステップS401において、現在の文字行の座標情報を読み取る。ステップS403において、現在の文字行の座標情報に対応する領域を決定する。ステップS405において、データ構造における現在の文字行の座標情報に対応する領域において文字データを設定する。ステップS407において、次の文字行がまだあるか否かを判断し、次の文字行がまだある場合(ステップS407でYES)、次の文字行(直後の文字行)を現在の文字行とし、ステップS401以降の処理により文字行の分けを行い続け、次の文字行がない場合(ステップS407でNO)、画像における全ての文字行が既にレイアウトモデルとしてモデル化されたことを意味する。
1つの実施例では、データ構造における該1つ又は複数の文字行の座標情報に対応する領域は、データ構造における各文字行の座標情報により決定された領域を含んでもよい。画像における文字行の座標情報が矩形の座標情報である場合、データ構造における各文字行の座標情報に対応する領域において文字データを設定することは、レイアウトモデルにおける対応位置の矩形におけるデータ領域又は画素領域において文字データを設定することを意味する。図2の例では、文字行TL1〜TL6の座標情報に基づいて決定された領域R1〜R6において文字データ「1」を設定し、画像201のレイアウトモデル203を形成する。
1つの実施例では、該1つ又は複数の文字行の座標情報に対応する領域は、各文字行の座標情報により決定された領域だけではなく、該文字行の座標情報から垂直方向に(例えば上方及び/又は下方へ)所定の距離だけ拡張された領域をさらに含んでもよい。言い換えれば、ステップS403の前に、該文字行の座標情報から垂直方向に(例えば上及び/又は下へ)所定の距離だけ拡張するステップをさらに含んでもよい。1つの実施例では、該所定の距離は、画像における文字行に垂直な方向に隣接する文字行の行間隔(即ち、上の文字行と、隣接する下の文字行との間の空白の高さ)に依存する。上方のみ又は下方のみへ拡張する場合、該所定の距離は、例えば同一の段落における上下文字行間の全ての空白空間をカバーしてもよく、例えば画像における隣接文字行の平均行間隔の1倍〜1.5倍であってもよい。上方及び下方両方へ拡張する場合、該所定の距離は、例えば同一の段落における上下文字行間の一部の空白空間をカバーしてもよく、例えば画像における隣接文字行の平均行間隔の0.5倍〜0.7倍であってもよく、これによって、上の文字行及び下の文字行を共に拡張することでその間の空白空間をカバーすることができる。
図5は本開示の例示的な実施例に係るレイアウトモデルのデータ構造における文字行の座標情報に対応する領域の一例を示す模式図である。図5に示す例では、TL1及びTL2は画像501における2つの文字行である。1つの実施例では、レイアウトモデル503のデータ構造における文字行TL1の座標情報に対応する領域R1は、データ構造における文字行TL1の座標情報により決定された領域513を含み、文字行TL2及び領域R2についても同様である。他の実施例では、レイアウトモデル505のデータ構造における文字行TL1の座標情報に対応する領域R1は、データ構造における文字行TL1の座標情報により決定された領域513だけではなく、該文字行TL1の座標情報から下方へ2つの画素行だけ拡張された領域515をさらに含み、文字行TL2及び領域R2についても同様である。
このように、以上の拡張によれば、上下2つの文字行が同一の段落にある場合、レイアウトモデルのデータ構造におけるこれらの文字行の座標情報に対応する領域は、これらの文字行そのものだけではなく、それらの間の行間の空白をカバーすることができる。よって、レイアウトモデルでは、同一の段落における上下2つの隣接文字行の対応する文字データの間に空白データが存在しておらず、一体になっているため、後の走査処理のアルゴリズムを簡略化することができる。なお、このような拡張は必須ではなく、後の走査処理のアルゴリズムにより同一の段落における上下2つの隣接文字行の間の空白データを処理してもよい。
図6は本開示の例示的な実施例に係るレイアウトモデルを走査して段落分けを行う方法の一例を示すフローチャートであり、該方法は上記のステップS105の一例とされてもよく、即ちステップS105は図6のフローチャートのステップを含んでもよい。
図6に示すように、例えばステップS103又は図4のフローチャートのステップにおいてレイアウトモデルが生成された後に、レイアウトモデルにおけるデータ又は画素を行ごとに走査してもよい。図7を参照しながら図6のフローを説明し、図7は本開示の例示的な実施例に係る段落分けのレイアウトモデルの一例を示す模式図であり、レイアウトモデル701における文字データに対して段落分けを行う。図7では、「1」で文字データを表し、存在する可能性のある空白データの図示を省略する。
ステップS601において、現在の走査行、例えば図7に示す1番目の走査行を読み取る。ステップS603において、現在の走査行に文字データが存在するか否かを判断する。現在の走査行に文字データが存在する場合(ステップS603でYES)、ステップS605に進み、そうでない場合(ステップS603でNO)、次の走査行があるか否かを判断する(ステップS613)。ステップS613において次の走査行があると判断された場合(ステップS613でYES)、次の走査行を現在の走査行とし、ステップS601以降の処理を行い続ける。ステップS613において次の走査行がないと判断された場合(ステップS613でNO)、レイアウトモデルに対する走査が終了すると判断する。図7における1番目の走査行には連続する文字データのシーケンス(即ち「文字データシーケンス」)STDS1及びSTDS2が存在するため、文字データが存在すると判断し、ステップS605に進む。
ステップS605において、現在の走査行における現在の文字データシーケンス(例えば図7における1番目の走査行における文字データシーケンスSTDS1)について、隣接する前の走査行(直前の走査行)に、現在の走査行における文字データシーケンスとの水平方向の重なり率が重なり率閾値よりも大きい文字データシーケンスが存在するか否か(規則(a))を判断する。該当する文字データシーケンスが存在する場合(ステップS605でYES)、現在の走査行の文字データシーケンスを、隣接する前の走査行の文字データシーケンスが属する段落に分け(ステップS609)、該当する文字データシーケンスが存在しない場合(ステップS605でNO)、現在の走査行における文字データシーケンスが新しい段落に属すると決定する(ステップS607)。
特に、ステップS605において、隣接する前の走査行に、現在の走査行における文字データシーケンスとの重なり率が重なり率閾値よりも大きい文字データシーケンスが存在しないと決定された場合、(1)隣接する前の走査行に文字データシーケンスが存在しないこと、或いは(2)隣接する前の走査行に文字データシーケンスが存在し、且つ該文字データシーケンスと現在の走査行における現在の文字データシーケンスとの重なり率が重なり率閾値以下であることを意味する。(1)の場合は、隣接する前の走査行が文字データを有しない空白走査行であり、現在の走査行における現在の文字データシーケンスが新しい段落の最初の文字データを表す可能性が高いことを意味する。一方、(2)の場合は、隣接する前の走査行に文字データが存在するが、該文字データシーケンスと現在の文字データシーケンスとの水平方向の重なり部分が少ないため、現在の文字データシーケンスが前の走査行における文字データシーケンスの属する段落に属さない可能性が高く、新しい段落(例えば別の段落又は別の欄)に属する可能性が高いことを意味する。本開示では、2つの文字データシーケンスの水平方向の重なり部分とは、この2つの文字データシーケンスの水平方向の座標軸上の投影の共通部分を意味する。
1つの実施例では、2つの文字データシーケンスの重なり率は、OVR=max(OVL/L1,OVL/L2)で定義されてもよく、ここで、maxは括弧内の比較的に大きい数値を表し、OVLは2つの文字データシーケンスの水平方向の重なりの長さ(例えば文字データの数又は画素の数)を表し、L1及びL2は、2つの文字データシーケンスの長さ(例えば文字データの数又は画素の数)をそれぞれ表す。図8は2つの文字データシーケンスの重なり率の計算を示す模式図である。図8の例では、OVL=12、L1=20、L2=17となるため、これら2つの文字データシーケンスの重なり率OVR=max(OVL/L1,OVL/L2)=12/17となる。なお、ここで重なり率の概念と算出方法を示しているが、これに限定されず、2つの欄の水平方向の重なり状況を表すことができればよい。
該重なり率閾値は、具体的な応用需要に応じて予め決定されてもよい。1つの実施例では、重なり率閾値は、例えば0.5〜0.8の範囲内の任意の値に設定されてもよい。
ステップS607及びS609において、現在の走査行を隣接する前の走査行の文字データシーケンスが属する段落に分け、或いは新しい段落に分けた後に、ステップS611において、現在の走査行に次の文字データシーケンスがまだあるか否かを判断する。現在の走査行に次の文字データシーケンスがまだある場合(ステップS611でYES)、ステップS605に進み、現在の走査行における次の文字データシーケンスを処理し続ける。現在の走査行に次の文字データシーケンスがない場合(ステップS611でNO)、現在の走査行における文字データシーケンスが既に処理されたことを意味し、ステップS613に進み、次の走査行がまだあるか否かを判断する。
図7の例では、1番目の走査行について隣接する前の走査行が存在しないため、文字データシーケンスSTDS1が新しい段落P1に属すると決定する。1番目の走査行には、文字データシーケンスSTDS1に加えて、次の文字データシーケンスSTDS2が存在するため、文字データシーケンスSTDS2を処理し続け、同様に、文字データシーケンスSTDS2が新しい段落P2に属すると決定する。
文字データシーケンスSTDS2の後に、1番目の走査行には次の文字データシーケンスが存在しないため、2番目の走査行を処理し続ける。2番目の走査行における文字データシーケンスSTDS3と、隣接する前の走査行、即ち1番目の走査行における文字データシーケンスSTDS1との重なり率が1であり、重なり率閾値(例えば0.75)よりも大きいため、文字データシーケンスSTDS3を、文字データシーケンスSTDS1が属する段落P1に分ける。同様に、文字データシーケンスSTDS4を、文字データシーケンスSTDS2が属する段落P2に分け、文字データシーケンスSTDS5を、文字データシーケンスSTDS3が属する段落P1に分ける。
4番目の走査行における文字データシーケンスSTDS6について、隣接する前の走査行、即ち3番目の走査行には文字データシーケンスSTDS5が存在するが、この2つの文字データシーケンス間の重なり率は0であるため、文字データシーケンスSTDS6を新しい段落P3に分ける。
6番目の走査行における文字データシーケンスSTDS7について、隣接する前の走査行、即ち5番目の走査行には文字データシーケンスが存在しないため、文字データシーケンスSTDS7を新しい段落P4に分ける。7番目の走査行における文字データシーケンスSTDS8は、文字データシーケンスSTDS7との重なり率が重なり率閾値よりも大きいため、段落P4に分けられる。
以上のように、図6のフローチャートにおける走査方法により、図7の例におけるレイアウトモデルは段落P1〜P4に分けられた。
1つの実施例では、文字データは、文字行の高さを示すデータを含んでもよい。該文字行の高さを示すデータは、例えば所定の高さ(例えば文字の平均高さの数分の一、例えば10分の一であってもよいが、これに限定されない)に基づいて正規化し、整数部分を得てもよい(例えば四捨五入又は切り上げなど)。例えば、所定の高さを1個の画素とする場合、文字行の高さが10個の画素の文字行の文字データは10に設定されてもよい。この実施例では、ステップS605に以下の判断規則(規則(b))を追加してもよい。即ち、現在の走査行における文字データシーケンスの文字データの値と、隣接する前の走査行における文字データシーケンスの文字データの値との差が高さの差の閾値よりも大きい場合、該現在の走査行における該文字データシーケンスが新しい段落に属すると決定する。言い換えれば、ステップS605において、「現在の走査行における文字データシーケンスの文字データの値と、隣接する前の走査行における文字データシーケンスの文字データの値との差が高さの差の閾値以下である」という条件は、現在の走査行における文字データシーケンスを、隣接する前の走査行における文字データシーケンスが属する段落に分ける必要条件とされてもよい。該高さの差の閾値は、所定の画素数、例えば3個の画素又は5個の画素などであってもよいし、比率であってもよく、例えば比較対象のうち比較的に小さい文字行の高さの数分の一などであってもよい。
1つの実施例では、ステップS605に以下の判断規則(規則(c))を追加してもよい。即ち、現在の走査行における文字データシーケンスと、隣接する前の走査行における複数の文字データシーケンスとの水平方向の重なり率が何れも重なり率閾値よりも大きい場合、該現在の走査行における該文字データシーケンスが新しい段落に属すると決定する。
図9(a)は本開示の例示的な実施例に係る段落分けのレイアウトモデルの一例を示す模式図であり、文字データシーケンスSTDS1及びSTDS3を段落P1に分け、文字データシーケンスSTDS2及びSTDS4を段落P2に分けることを示している。3番目の走査行における文字データシーケンスSTDS5について、その隣接する前の走査行、即ち2番目の走査行には重なり率が重なり率閾値よりも大きい文字データシーケンスSTDS3及びSTDS4が存在しているが、上記規則(c)を考慮すると、文字データシーケンスSTDS5と2番目の走査行における複数の文字データシーケンスSTDS3及びSTDS4との水平方向の重なり率が何れも重なり率閾値よりも大きいため、規則(a)及び規則(c)の共同作用により、文字データシーケンスSTDS5を新しい段落P3に分ける。
1つの実施例では、ステップS605に以下の判断規則(規則(d))を追加してもよい。即ち、現在の走査行における複数の文字データシーケンスと、隣接する前の走査行における同一の文字データシーケンスとの水平方向の重なり率が何れも重なり率閾値よりも大きい場合、該現在の走査行における該複数の文字データシーケンスがそれぞれ新しい段落に属すると決定する。
図9(b)は本開示の例示的な実施例に係る段落分けのレイアウトモデルの一例を示す模式図であり、文字データシーケンスSTDS1及びSTDS2を段落P1に分けることを示している。現在の走査行、即ち3番目の走査行における文字データシーケンスSTDS3及びSTDS4について、その隣接する前の走査行、即ち2番目の走査行には重なり率が重なり率閾値よりも大きい文字データシーケンスSTDS2が存在しているが、上記規則(d)を考慮すると、3番目の走査行における複数の文字データシーケンスSTDS3及びSTDS4と2番目の走査行における文字データシーケンスSTDS2との水平方向の重なり率が何れも重なり率閾値よりも大きいため、規則(a)及び規則(d)の共同作用により、文字データシーケンスSTDS3及びSTDS4をそれぞれ新しい段落P2及びP3に分ける。
規則(c)及び規則(d)により、レイアウトの形式が変化した(例えば1つの走査行が欄の分けられていないレイアウトを表し、且つ隣接走査行が欄の分けられたレイアウトを表した)場合、レイアウトの形式が異なる走査行における文字データシーケンスが異なる段落に属すると判断してもよい。
なお、上記規則(a)〜(d)の任意の2つ以上を組み合わせて用いる場合、組み合わせて用いられた規則うちの任意の1つも現在の文字データシーケンスを新しい段落に分ける十分条件である。即ち、任意の規則を満たす場合、現在の文字データシーケンスを新しい段落に分ける。言い換えれば、これらの規則を組み合わせて用いる場合、組み合わせて用いられた規則の全てを満たさない場合のみ、現在の文字データシーケンスを、隣接する前の走査行における文字データシーケンスに分ける。上記規則(b)〜(d)の任意の1つ以上により、適用シナリオにおける隣接し、且つ実際に異なる段落に属する文字を区別することができる。
1つの実施例では、ステップS607において現在の走査行の文字データシーケンスが新しい段落に属すると決定された場合、該現在の走査行の該文字データシーケンスの座標情報を該新しい段落の座標情報として設定してもよい。「段落の座標情報」は、例えば該段落における全ての文字データシーケンスを含むことが可能な最小の矩形の座標情報であり、例えば左上座標(X1,Y1)、右上座標(X2,Y1)、左下座標(X1,Y2)及び右下座標(X2,Y2)で表されてもよい。例えば、X座標軸について右方向を正方向とし、Y座標軸について下方向を正方向とする。なお、本開示の方法は、他の方向の座標系を用いて実施されてもよく、座標軸方向に応じて座標の正負の符号を調整すればよい。現在の文字データシーケンスが新しい段落に属すると決定された場合、該新しい段落には現時点で該現在の文字データシーケンスのみが含まれ、新しい段落の左上座標と左下座標と重なり、右上座標と右下座標と重なる。現在の文字データシーケンスの始点(例えば左)座標及び終点(例えば右)座標がそれぞれ例えば(CX1,CY1)及び(CX2,CY1)である場合、該新しい段落の座標情報は、左上座標(CX1,CY1)、右上座標(CX2,CY1)、左下座標(CX1,CY1)及び右下座標(CX2,CY1)である。
1つの実施例では、ステップS609において現在の走査行における文字データシーケンスを、隣接する前の走査行における文字データシーケンスが属する段落に分けると決定された場合、現在の該段落及び該現在の走査行における文字データシーケンス両方を含むことが可能な最小の矩形の座標情報に基づいて、該段落の現在の座標情報を更新してもよい。1つの実施例では、現在の段落が左上座標(X1,Y1)、右上座標(X2,Y1)、左下座標(X1,Y2)及び右下座標(X2,Y2)を有し、現在の文字データシーケンスが始点座標(CX1,CY1)及び終点座標(CX2,CY1)を有すると仮定する場合、現在の文字データシーケンスを含むものにより更新された段落の座標情報は、左上座標(min(X1,CX1),Y1)、右上座標(max(X2,CX2),Y1)、左下座標(min(X1,CX1),CY1)及び左上座標(max(X2,CX2),CY1)であり、ここで、minは最小値の取得を表し、maxは最大値の取得を表す。
図10は本開示の例示的な実施例に係る段落座標情報の更新処理を示す模式図である。図10の例では、3番目の走査行(現在の走査行)における文字データシーケンスSTDS3(現在の文字データシーケンス)を、2番目の走査行(隣接する前の走査行)における文字データシーケンスが属する段落P1(現在の段落)に分ける。この場合は、段落P1には文字データシーケンスSTDS3が新たに含まれるため、上記の方法により文字データシーケンスSTDS3の座標に基づいて段落P1の座標を更新してもよい。具体的には、段落P1の現在の座標情報は、現在の段落P1及び現在の走査行における文字データシーケンスSTDS3両方を含むことが可能な最小の矩形(即ち矩形P1_UD)の座標情報に更新されてもよい。この例では、CX1<X1、且つCX2>X2となるため、更新後の段落P1(即ち矩形P1_UD)の座標情報は、左上座標(CX1,Y1)、右上座標(CX2,Y1)、左下座標(CX1,CY1)及び右下座標(CX2,CY1)である。
1つの実施例では、上述したように文字データシーケンスを段落に分けた後に段落の座標を毎回生成又は更新することではなく、レイアウトモデルにおける全ての文字データシーケンスを対応する段落に分けた後に、各段落について段落の座標情報を生成してもよい。この場合は、段落における全ての文字データシーケンスを含むことが可能な最小の矩形の座標情報を、該段落の座標情報とする。該段落における全ての文字データシーケンスが始点座標(CX1i,CY1i)及び終点座標(CX2i,CY1i)を有するとし、ここでiが該段落におけるi番目の文字データシーケンスを表す場合、該段落の座標情報は、左上座標(min(CX1i),min(CY1i))、右上座標(max(CX2i),min(CY1i))、左下座標(min(CX1i),max(CY1i))及び右下座標(max(CX2i),max(CY1i))である。
図6のフローチャートにおける例示的な方法によれば、レイアウトモデルの走査が終了した際に、レイアウトモデルに対して段落分けを行うことができ、アルゴリズムが簡単であり、計算量が少ない。
図面に示されていないが、本開示の方法は、レイアウトモデルの段落分けが完了した後に、レイアウトモデルにおける段落分けにより取得された各段落の座標情報を前記画像にマッピングし、該画像における段落分けを取得するステップ、をさらに含んでもよい。レイアウトモデルのサイズが画像のサイズと同一である場合、画像における段落の座標情報はレイアウトモデルにおける段落の座標情報と一致する。レイアウトモデルのサイズが画像のサイズに比べて拡大/縮小される場合、画像における段落の座標情報は、レイアウトモデルにおける段落の座標情報に対して逆に拡大/縮小されてもよい。
以上は図面を参照しながら本開示のレイアウト解析方法の一例を説明した。レイアウト解析を行った後に、後続処理を行ってもよく、例えば文字認識結果及び段落分けの結果に基づいて各段落において認識された文字データを音声データに変換してもよく、これは例えばオーディオブックに関連するアプリケーション及び視覚障碍者補助のアプリケーションに適用されてもよい。
本開示の1つの態様は読書補助装置を含んでもよい。図11は本開示の例示的な実施例に係る読書補助装置の構成を示すブロック図である。図11に示すように、読書補助装置1100は、上記の画像(例えば静止画像又はビデオ画像であってもよく、画像は文字を含んでもよい)を取得するセンサ1101、及び上記の任意の方法のステップを実行する回路部を有するチップ回路1103を含む。該チップ回路は、画像に対して文字認識を行い、文字データを取得する回路部と、段落分けの結果に基づいて、各段落における文字データを音声データに変換する回路部とをさらに含んでもよい。該画像に対して文字認識を行い、文字データを取得する回路部は、例えば任意の文字認識(例えば光学文字認識(OCR))ソフトウェア又は回路を用いてもよく、該段落分けの結果に基づいて、各段落における文字データを音声データに変換する回路部は、例えば任意の文字音声変換ソフトウェア又は回路を用いてもよい。これらの回路部は、例えばASICチップ又はFPGAチップにより実現されてもよい。読書補助装置1100は、該音声データ(即ちヴォイスデータ)を出力する音声出力装置1105(例えば、スピーカ、イヤホンなど)をさらに含んでもよい。
本開示の1つの態様では電子機器をさらに含んでもよく、該電子機器は、処理装置と、命令を含むプログラムが記憶されている記憶装置と、を含み、該命令が該処理装置により実行される際に、該処理装置に上記の任意の方法を実行させてもよい。1つの実施例では、該プログラムは、該処理装置により実行される際に、段落分けの結果に基づいて各段落における文字データを音声データに変換する命令をさらに含んでもよい。1つの実施例では、該電子機器は、例えば読書補助装置であってもよい。1つの実施例では、該電子機器は、読書補助装置と通信する他の機器(例えば携帯電話、コンピュータ、サーバ等)であってもよい。該電子機器が読書補助装置と通信する他の機器である場合、読書補助装置は撮影された画像を該他の装置に送信し、他の装置は上記の任意の方法を実行し、方法による処理結果(例えばレイアウト解析結果、文字認識結果、及び/又は文字データから変換された音声データ等)を読書補助装置に返送し、読書補助装置は後の処理(例えばユーザに音声データを再生する)を実行してもよい。
1つの実施例では、該読書補助装置は、ウェアラブルデバイス、例えば眼鏡の形態の着用可能な装置、頭部装着装置(ヘルメット又は帽子など)、耳に装着可能な装置、眼鏡(例えばフレーム、テンプル等)に取り付け可能な付属品、帽子に取り付け可能な付属品などとして実施されてもよい。
該読書補助装置によれば、視覚障害のあるユーザは、視覚正常の読者と同様に、同様な読書姿勢により通常の読み物(例えば書籍、雑誌など)を「読む」ことができる。「読む」の過程では、読書補助装置は、上述した実施例における方法により、取り込まれたレイアウト画像に対して段落分けを自動的に行ない、段落分けの後の順序に従って段落における文字を音声に変換し、スピーカ又はイヤホン等の出力装置によりユーザに音声を再生する。
本開示の1つの態様は命令を含むプログラムが記憶されているコンピュータ読み取り可能な記憶媒体を含んでもよく、該命令が電子機器の処理装置により実行される際に、該電子機器に上記の任意の方法を実行させる。図12を参照しながらコンピュータ装置2000を説明し、コンピュータ装置2000は本開示の各態様のハードウェア装置に適用可能な例である。コンピュータ装置2000は、処理及び/又は計算を実行する任意の機器であってもよく、例えばワークステーション、サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、パーソナルデジタルアシスタント、スマートフォン、オンボードコンピュータ、ウェアラブルデバイス又はその任意の組み合わせであってもよいが、これらに限定されない。1つの実施例では、上記の読書補助装置又は電子機器の全て又は少なくとも一部は、コンピュータ装置2000、又は類似の装置若しくはシステムにより実現されてもよい。
コンピュータ装置2000は、(場合によっては1つ又は複数のインタフェースを介して)バス2002に接続され、或いはバス2002と通信する素子を含んでもよい。例えば、コンピュータ装置2000は、バス2002、1つ又は複数の処理装置2004(上記の読書補助装置に含まれる処理装置又はチップ回路を実施するために用いられてもよい)、1つ又は複数の入力装置2006、及び1つ又は複数の出力装置2008を含んでもよい。1つ又は複数の処理装置2004は、任意のタイプの処理装置であってもよく、1つ又は複数の汎用プロセッサ及び/又は1つ又は複数の専用プロセッサ(例えば特定処理プロセッサ)を含んでもよいが、これに限定されない。入力装置2006は、コンピュータ装置2000に情報を入力することができる任意のタイプの装置であってもよく、センサ(例えば上記の画像を取得するセンサ)、マウス、キーボード、タッチパネル、マイクロフォン、及び/又はリモコンを含んでもよいが、これに限定されない。出力装置2008は、情報を提示することができる任意のタイプの装置であってもよく、ディスプレイ、スピーカ(例えば、上述の音声データを出力する出力装置)、ビデオ/オーディオ出力端末、バイブレータ、及び/又はプリンタを含んでもよいが、これに限定されない。コンピュータ装置2000は、非一時的な記憶装置2010を含み、或いは非一時的な記憶装置2010に接続されてもよい。該非一時的な記憶装置2010(例えば上記のコンピュータ読み取り可能な記憶媒体を実施するために用いられてもよい)は、データを記憶可能な非一時的な任意の記憶装置であってもよく、ディスクドライブ、光記憶装置、固体メモリ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ若しくは他の任意の磁気媒体、光ディスク若しくは他の任意の光学媒体、ROM(読み出し専用メモリ)、RAM(ランダムアクセスメモリ)、キャッシュメモリ及び/又は他の任意のメモリチップ若しくはカートリッジ、及び/又はコンピュータがデータ、命令及び/又はコードを読み取ることができる他の任意の媒体であってもよいが、これらに限定されない。非一時的な記憶装置2010はインタフェースから取り外すことができる。非一時的な記憶装置2010は、上記の方法及びステップを実現するためのデータ/プログラム(命令を含む)/コードを有してもよい。コンピュータ装置2000は、通信装置2012をさらに含んでもよい。通信装置2012は、外部装置及び/又はネットワークと通信を行うことが可能な任意のタイプの装置又はシステムであってもよく、モデム、ネットワークカード、赤外線通信装置、無線通信装置、及び/又はチップセット、例えばブルートゥース(登録商標)装置、1302.11デバイス、WiFiデバイス、WiMaxデバイス、セルラ通信デバイス及び/又は類似のデバイスであってもよいが、これらに限定されない。
コンピュータ装置2000は、作業用記憶装置2014(上記の読書補助装置に含まれる記憶装置を実施するために用いられてもよい)をさらに含んでもよく、該作業用記憶装置2014は、処理装置2004の作業のためのプログラム(命令を含む)及び/又はデータを記憶可能な任意の作業用記憶装置であってもよく、ランダムアクセスメモリ及び/又は読み出し専用メモリを含んでもよいが、これらに限定されない。
作業用記憶装置2014にソフトウェア要素(プログラム)があってもよく、該ソフトウェア要素は、オペレーティングシステム2016、1つ又は複数のアプリケーションプログラム2018、ドライバプログラム及び/又は他のデータ及びコードを含んでもよいが、これらに限定されない。ソフトウェア要素(プログラム)の命令の実行可能なコード又はソースコードは、非一時的なコンピュータ読み取り可能な記憶媒体(例えば上記の記憶装置2010)に記憶されてもよく、実行される際に作業用記憶装置2014に記憶されてもよい(コンバイルされ、且つ/或いはインストールされてもよい)。ソフトウェア要素(プログラム)の命令の実行可能なコード又はソースコードは遠隔地からダウンロードされてもよい。
図12に示すコンピュータ装置2000が本開示の実施形態に適用される時に、記憶装置2014は、本開示のフローチャートのステップを実行するためのプログラムコード及び/又は文字内容を含む認識されるべき画像を記憶してもよい。ここで、アプリケーション2018は、第三者により提供される光学文字認識アプリケーション(例えばAdobe)、音声変換アプリケーション、編集可能な文字処理アプリケーション等を含んでもよい。入力装置2006は、文字内容を含む画像を取得するためのセンサであってもよい。記憶された文字内容を含む画像又は取得された画像は、OCRアプリケーションにより処理された後に、文字を含む出力結果となり、出力装置2008は例えば音声再生のためのスピーカ又はイヤホンであり、処理装置2004は記憶装置2014におけるプログラムコードにより本開示の各態様の方法のステップを実行する。
なお、具体的な要求に応じて各種の変形を行ってもよい。例えば、カスタムハードウェアを用いてもよいし、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合せで特定の構成要素(上述のチップ回路など)を実現してもよい。例えば、開示された方法及び装置の一部又は全部(例えば、上記のチップ回路における各回路部)は、本開示に係る論理及びアルゴリズムに基づいて、アセンブリ言語又はハードウェアプログラミング言語(例えばVERILOG、VHDL、C++等)を用いてハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)及び/又はプログラマブルロジックアレイ(PLA)を含むプログラマブルロジック回路)に対してプログラミングを行うことで実現されてもよい。
コンピュータ装置2000の構成要素はネットワークに分散されてもよい。例えば、プロセッサを用いて処理を実行し、該プロセッサから離れた他のプロセッサを用いて他の処理を実行してもよい。コンピュータシステム2000の他の構成要素も同様に分散さてもよい。従って、コンピュータ装置2000は、複数の場所で処理を実行する分散コンピュータシステムとして解釈されてもよい。
図面を参照しながら本開示の実施形態又は実施例を説明したが、上述した方法、システム及び装置は例示的な実施形態又は実施例に過ぎず、本発明の範囲はこれらの実施形態又は実施例に制限されず、添付の特許請求の範囲及びその均等物によってのみ限定される。実施形態又は実施例における各要素は、省略されてもよく、それらと同等の要素によって置き換えられてもよい。また、本開示に記載されているものとは異なる順序でステップを実行してもよい。さらに、実施形態又は実施例の各要素を様々な方法で組み合わせてもよい。なお、技術の進化に伴い、本明細書で説明されている要素は本開示の後に現れる同等の要素によって置き換えられてもよい。

Claims (18)

  1. 画像における1つ又は複数の文字行の座標情報を取得するステップと、
    データ構造における前記1つ又は複数の文字行の座標情報に対応する領域において文字データを設定し、前記画像に対応するレイアウトモデルを生成するステップであって、前記文字データは文字の存在を示すデータを含む、ステップと、
    生成されたレイアウトモデルを走査して前記レイアウトモデルにおける前記文字データを読み取り、読み取られた前記文字データの前記レイアウトモデルにおける相対位置関係に基づいて、前記レイアウトモデルに対して段落分けを行うステップと、を含む、レイアウト解析方法。
  2. 画像における1つ又は複数の文字行の座標情報を取得するステップは、
    前記画像に対して文字認識を行い、各文字の座標情報を取得するステップと、
    隣接する文字の間隔が間隔閾値よりも小さい文字のシーケンスを文字行とするステップと、
    各文字行を含む矩形それぞれの座標情報を、前記1つ又は複数の文字行それぞれの座標情報として取得するステップと、を含む、請求項1に記載のレイアウト解析方法。
  3. 前記1つ又は複数の文字行の座標情報に対応する領域は、各文字行の座標情報により決定された領域と、該文字行の座標情報から垂直方向に所定の距離だけ拡張された領域とを含む、請求項1に記載のレイアウト解析方法。
  4. 前記レイアウトモデルに対して段落分けを行うステップは、
    隣接する前の走査行に、現在の走査行における文字データシーケンスとの水平方向の重なり率が重なり率閾値よりも大きい文字データシーケンスが存在しない場合、前記現在の走査行における該文字データシーケンスが新しい段落に属すると決定するステップ、を含む、請求項1に記載のレイアウト解析方法。
  5. 前記文字データは、文字行の高さを示すデータを含み、
    前記レイアウトモデルに対して段落分けを行うステップは、
    現在の走査行における文字データシーケンスの文字データの値と、隣接する前の走査行における文字データシーケンスの文字データの値との差が高さの差の閾値よりも大きい場合、前記現在の走査行における該文字データシーケンスが新しい段落に属すると決定するステップ、を含む、請求項1に記載のレイアウト解析方法。
  6. 前記レイアウトモデルに対して段落分けを行うステップは、
    現在の走査行における文字データシーケンスと、隣接する前の走査行における複数の文字データシーケンスとの水平方向の重なり率が何れも重なり率閾値よりも大きい場合、前記現在の走査行における該文字データシーケンスが新しい段落に属すると決定するステップ、を含む、請求項1に記載のレイアウト解析方法。
  7. 前記レイアウトモデルに対して段落分けを行うステップは、
    現在の走査行における複数の文字データシーケンスと、隣接する前の走査行における同一の文字データシーケンスとの水平方向の重なり率が何れも重なり率閾値よりも大きい場合、前記現在の走査行における前記複数の文字データシーケンスがそれぞれ新しい段落に属すると決定するステップ、を含む、請求項1に記載のレイアウト解析方法。
  8. 前記現在の走査行における文字データシーケンスが新しい段落に属すると決定するステップは、
    前記現在の走査行における該文字データシーケンスの座標情報を前記新しい段落の座標情報として設定するステップ、を含む、請求項4乃至7の何れかに記載のレイアウト解析方法。
  9. 前記レイアウトモデルに対して段落分けを行うステップにおいて、現在の走査行における文字データシーケンスを、隣接する前の走査行における文字データシーケンスが属する段落に分ける必要条件は、
    前記現在の走査行における文字データシーケンスと前記隣接する前の走査行における文字データシーケンスとの水平方向の重なり率が重なり率閾値よりも大きいことを含む、請求項1に記載のレイアウト解析方法。
  10. 前記文字データは、文字行の高さを示すデータを含み、
    前記レイアウトモデルに対して段落分けを行うステップにおいて、現在の走査行における文字データシーケンスを、隣接する前の走査行における文字データシーケンスが属する段落に分ける必要条件は、
    現在の走査行における文字データシーケンスの文字データの値と、隣接する前の走査行における文字データシーケンスの文字データの値との差が高さの差の閾値以下であることを含む、請求項1に記載のレイアウト解析方法。
  11. 現在の走査行における文字データシーケンスを、隣接する前の走査行における文字データシーケンスが属する段落に分けることは、
    現在の前記段落及び前記現在の走査行における文字データシーケンス両方を含むことが可能な最小の矩形の座標情報に基づいて、前記段落の現在の座標情報を更新することを含む、請求項9又は10に記載のレイアウト解析方法。
  12. 前記レイアウトモデルに対して段落分けを行うステップは、
    段落における全ての文字データシーケンスを含むことが可能な最小の矩形の座標情報に基づいて、該段落の座標情報を決定するステップ、をさらに含む、請求項9又は10に記載のレイアウト解析方法。
  13. 前記レイアウトモデルにおける段落分けにより取得された各段落の座標情報を前記画像にマッピングし、前記画像における段落分けを取得するステップ、をさらに含む、請求項1に記載のレイアウト解析方法。
  14. 請求項1乃至13の何れかに記載のレイアウト解析方法のステップを実行する回路部、を含むチップ回路。
  15. 画像を取得するセンサと、
    請求項14に記載のチップ回路と、
    音声データを出力する音声出力装置と、を含み、
    前記チップ回路は、
    前記画像に対して文字認識を行い、文字データを取得する回路部と、
    段落分けの結果に基づいて、各段落における文字データを前記音声データに変換する回路部と、をさらに含む、読書補助装置。
  16. 処理装置と、
    命令を含むプログラムが記憶されている記憶装置と、を含み、
    前記命令が前記処理装置により実行される際に、前記処理装置に請求項1乃至13の何れかに記載のレイアウト解析方法を実行させる、電子機器。
  17. 前記プログラムは、
    前記処理装置により実行される際に、段落分けの結果に基づいて各段落における文字データを音声データに変換する命令、をさらに含む、請求項16に記載の電子機器。
  18. 命令を含むプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記命令が電子機器の処理装置により実行される際に、前記電子機器に請求項1乃至13の何れかに記載のレイアウト解析方法を実行させる、記憶媒体。
JP2019120622A 2019-05-17 2019-06-28 レイアウト解析方法、読書補助装置、回路及び媒体 Active JP6713141B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910408950.0 2019-05-17
CN201910408950.0A CN109934210B (zh) 2019-05-17 2019-05-17 版面分析方法、阅读辅助设备、电路和介质

Publications (2)

Publication Number Publication Date
JP6713141B1 JP6713141B1 (ja) 2020-06-24
JP2020191056A true JP2020191056A (ja) 2020-11-26

Family

ID=66991467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019120622A Active JP6713141B1 (ja) 2019-05-17 2019-06-28 レイアウト解析方法、読書補助装置、回路及び媒体

Country Status (5)

Country Link
US (1) US10467466B1 (ja)
EP (1) EP3739505A1 (ja)
JP (1) JP6713141B1 (ja)
CN (1) CN109934210B (ja)
WO (1) WO2020233378A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367296B2 (en) 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6810892B2 (ja) * 2017-06-05 2021-01-13 京セラドキュメントソリューションズ株式会社 画像処理装置
US11386636B2 (en) 2019-04-04 2022-07-12 Datalogic Usa, Inc. Image preprocessing for optical character recognition
CN109934210B (zh) * 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN111126394A (zh) * 2019-12-25 2020-05-08 上海肇观电子科技有限公司 文字识别方法、阅读辅助设备、电路和介质
CN111062365B (zh) * 2019-12-30 2023-05-26 上海肇观电子科技有限公司 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
CN110991455B (zh) * 2020-02-11 2023-05-05 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting
CN113836971B (zh) * 2020-06-23 2023-12-29 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
CN111832476A (zh) * 2020-07-13 2020-10-27 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN113177532B (zh) * 2021-05-27 2024-04-05 中国平安人寿保险股份有限公司 图像中文字的段落边界的识别方法、装置、设备及介质
TWI826293B (zh) * 2023-03-22 2023-12-11 宏碁股份有限公司 自動調整視訊會議版面之方法及應用其之電子裝置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06203020A (ja) * 1992-12-29 1994-07-22 Hitachi Ltd テキストフォーマット認識生成方法および装置
JPH08147410A (ja) * 1994-11-17 1996-06-07 Canon Inc 文字領域の順序付け方法
JPH096901A (ja) * 1995-06-22 1997-01-10 Oki Electric Ind Co Ltd 文書読取装置
JP2010186389A (ja) * 2009-02-13 2010-08-26 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2011065621A (ja) * 2009-08-20 2011-03-31 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6768816B2 (en) * 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
US7392472B2 (en) * 2002-04-25 2008-06-24 Microsoft Corporation Layout analysis
EP1553517B1 (en) * 2002-08-07 2009-12-09 Panasonic Corporation Character recognition processing device, character recognition processing method, and mobile terminal device
WO2005027092A1 (ja) * 2003-09-08 2005-03-24 Nec Corporation 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
JP3848319B2 (ja) * 2003-11-11 2006-11-22 キヤノン株式会社 情報処理方法及び情報処理装置
US7627142B2 (en) * 2004-04-02 2009-12-01 K-Nfb Reading Technology, Inc. Gesture processing with low resolution images with high resolution processing for optical character recognition for a reading machine
US9460346B2 (en) * 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
JP4227569B2 (ja) * 2004-07-07 2009-02-18 キヤノン株式会社 画像処理システム、画像処理装置の制御方法、プログラム及び記録媒体
US7675641B2 (en) * 2004-10-28 2010-03-09 Lexmark International, Inc. Method and device for converting scanned text to audio data via connection lines and lookup tables
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
KR100576370B1 (ko) * 2005-09-13 2006-05-03 (주)드림투리얼리티 휴대용 디스플레이 디바이스에서의 컨텐츠 자동 최적화장치
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
JP2007213176A (ja) * 2006-02-08 2007-08-23 Sony Corp 情報処理装置および方法、並びにプログラム
US20070292026A1 (en) * 2006-05-31 2007-12-20 Leon Reznik Electronic magnification device
US8144361B2 (en) * 2008-03-18 2012-03-27 Konica Minolta Laboratory U.S.A., Inc. Creation and placement of two-dimensional barcode stamps on printed documents for storing authentication information
EP2490213A1 (en) * 2011-02-19 2012-08-22 beyo GmbH Method for converting character text messages to audio files with respective titles for their selection and reading aloud with mobile devices
CN102890826B (zh) * 2011-08-12 2015-09-09 北京多看科技有限公司 一种扫描版文档重排版的方法
CN103577818B (zh) * 2012-08-07 2018-09-04 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
US20140253702A1 (en) * 2013-03-10 2014-09-11 OrCam Technologies, Ltd. Apparatus and method for executing system commands based on captured image data
US9466009B2 (en) * 2013-12-09 2016-10-11 Nant Holdings Ip. Llc Feature density object classification, systems and methods
CN105512100B (zh) * 2015-12-01 2018-08-07 北京大学 一种版面分析方法及装置
CN106250830B (zh) 2016-07-22 2019-05-24 浙江大学 数字图书结构化分析处理方法
CN106484669B (zh) * 2016-10-14 2019-04-16 大连理工大学 一种面向分类信息广告报纸的自动排版方法
US10127673B1 (en) * 2016-12-16 2018-11-13 Workday, Inc. Word bounding box detection
CN106951400A (zh) * 2017-02-06 2017-07-14 北京因果树网络科技有限公司 一种pdf文件的信息抽取方法及装置
CN109697414B (zh) * 2018-12-13 2021-06-18 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN109934210B (zh) * 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06203020A (ja) * 1992-12-29 1994-07-22 Hitachi Ltd テキストフォーマット認識生成方法および装置
JPH08147410A (ja) * 1994-11-17 1996-06-07 Canon Inc 文字領域の順序付け方法
JPH096901A (ja) * 1995-06-22 1997-01-10 Oki Electric Ind Co Ltd 文書読取装置
JP2010186389A (ja) * 2009-02-13 2010-08-26 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2011065621A (ja) * 2009-08-20 2011-03-31 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
平井 有三 外4名: "映像情報メディア年報 3.ヒューマンインフォメーション", 映像情報メディア年報 ヒューマンインフォメーション 映像情報メディア学会誌 第54巻 第7号, vol. 第54巻 第7号, JPN6019045188, July 2000 (2000-07-01), JP, pages 974 - 983, ISSN: 0004158075 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367296B2 (en) 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis

Also Published As

Publication number Publication date
US10467466B1 (en) 2019-11-05
JP6713141B1 (ja) 2020-06-24
EP3739505A1 (en) 2020-11-18
WO2020233378A1 (zh) 2020-11-26
CN109934210A (zh) 2019-06-25
CN109934210B (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
JP6713141B1 (ja) レイアウト解析方法、読書補助装置、回路及び媒体
JP4572669B2 (ja) レイアウトルール生成システム、レイアウトシステム及びレイアウトルール生成方法並びにレイアウトルール生成プログラム
KR102399508B1 (ko) 레이아웃 분석 방법, 판독 보조 장치, 회로, 및 매체
JPH10240220A (ja) 注釈表示機能を持つ情報処理機器
JP2018533782A (ja) デジタルノートテイキングのシステムおよび方法
WO2019154197A1 (zh) 电子书手写笔记的显示方法、计算设备及计算机存储介质
US8682642B2 (en) Translation display apparatus
CN111126394A (zh) 文字识别方法、阅读辅助设备、电路和介质
JP6671673B1 (ja) レイアウト解析方法、読書補助装置、回路及び媒体
JP2020504848A (ja) 手書き図式のコネクタの管理用システムおよび方法
US11270485B2 (en) Automatic positioning of textual content within digital images
EP3751448A1 (en) Text detecting method, reading assisting device and medium
JP2022003505A (ja) 髪型を変換するための方法、装置、デバイス及び記憶媒体
US9652891B2 (en) Image correcting apparatus, image correcting method and storage medium
JP2003178257A (ja) 文字入力装置、文字入力方法および文字を入力するためのプログラム
US11367296B2 (en) Layout analysis
CN113610864B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN113096217A (zh) 图片生成方法、装置、电子设备以及存储介质
JP2001005911A (ja) 文字入力装置及び表示制御方法
JP2008276791A (ja) 図形縮小編纂方法及び装置
JP7032714B2 (ja) 地図変換装置、学習装置、地図変換方法、学習方法、およびプログラム
JP2017187923A (ja) 文書処理装置、文書処理方法、端末および方法
JP2024060845A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2020087237A (ja) 漫画作成支援システム、漫画作成支援方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190628

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191015

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200512

R150 Certificate of patent or registration of utility model

Ref document number: 6713141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250