JP6115323B2 - 文書処理装置、文書処理方法およびスキャナー - Google Patents

文書処理装置、文書処理方法およびスキャナー Download PDF

Info

Publication number
JP6115323B2
JP6115323B2 JP2013114202A JP2013114202A JP6115323B2 JP 6115323 B2 JP6115323 B2 JP 6115323B2 JP 2013114202 A JP2013114202 A JP 2013114202A JP 2013114202 A JP2013114202 A JP 2013114202A JP 6115323 B2 JP6115323 B2 JP 6115323B2
Authority
JP
Japan
Prior art keywords
reliability
document
text line
language
optical character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013114202A
Other languages
English (en)
Other versions
JP2013250975A (ja
Inventor
屹峰 潘
屹峰 潘
俊 孫
俊 孫
源 何
源 何
直井 聡
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2013250975A publication Critical patent/JP2013250975A/ja
Application granted granted Critical
Publication of JP6115323B2 publication Critical patent/JP6115323B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

本発明は、文書処理装置、文書処理方法およびスキャナーに関し、特に入力された文書の向きを決定するために用いる文書処理装置、文書処理方法およびスキャナーに関する。
デジタル図書館や文書電子化のニーズが日々高まる中、大量の実際の媒体を有する文書(例えば、紙文書、フイルム文書等)を文書画像処理システム(Document Image Processing System,DIPS)を通じてスキャンし、且つ指定された形式の電子文書に変換する必要がある。また、文書画像処理システムの1つ重要なステップとして、スキャンした文書画像から文書の向き(例如、左から右へ、右から左へ、下から上へおよび上から下への4つの候補の方向がある)を自動的に識別する必要がある。この識別処理の性能はしばしば文書画像処理システム全体の性能に影響を及ぼすことがある。
従来の識別方法は主に以下の2種類がある。1つは、画像の特徴に基づく方法であり、もう1つは、光学文字認識(Optical Character Recognition,OCR)に基づく方法である。
しかしながら、文書の向きをよりよく認識するには、特にスキャンして得られた文書画像の質がよくないときは、前記方法のいずれを使用しても満足できる識別効果を得ることができない。
従って、少なくともこの課題を解決するために、本発明の発明者は文書の向きの識別を行う新しい方法を開示した。即ち、画像の特徴の情報と光学文字認識の情報を総合的に利用し、文書の言語を考慮して識別を行う方法である。
具体的に、本発明は文書処理設備を提供する。当該設備は、入力された文書から少なくとも1つのテキスト行を抽出するテキスト行抽出ユニットと;図形特徴認識処理を通じて、入力された文書の言語について光学文字認識処理を行う必要があるかを決定する言語分類ユニットと;入力された文書の言語について光学文字認識処理を行う必要があると決定されたときは、光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定する光学文字認識ユニットと;図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定する図形特徴認識ユニットと;決定された図形特徴認識信頼度および光学文字認識信頼度の少なくとも一方に基づいて前記少なくとも一部のテキスト行のそれぞれについて各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定する決定ユニットと、を備える。
本発明はまたスキャナーを提供する。当該スキャナーは、入力された文書の向きを決定するために用いる前記文書処理設備を備える。
本発明は、さらに文書処理方法を提供する。当該方法は、入力された文書から少なくとも1つのテキスト行を抽出するステップと;図形特徴認識処理を通じて入力された文書の言語について光学文字認識処理を行う必要があるかを決定するステップと;入力された文書の言語について光学文字認識を行う必要があると決定されたときは、光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定するステップと;図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定するステップと;決定された図形特徴認識信頼度および光学文字認識信頼度の少なくとも一方に基づいて前記少なくとも一部のテキスト行のそれぞれについて各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定するステップと、を含む。
本発明の実施例はさらにプログラムを提供する。当該プログラムは、コンピューター設備に、入力された文書の向きを決定する前記文書処理方法を実行させる。
本発明の実施例は、さらにコンピューター読み取り可能な記録媒体を提供する。当該コンピューター読み取り可能な記録媒体に、コンピューター設備に実行させることができるプログラムが記録されている。前記プログラムを実行するときは前記コンピューター設備に前記文書処理方法を実行させる。
本発明に開示された文書処理装置、文書処理方法およびスキャナーは、文書の向きの識別を効果良く行うことができる。特にスキャンして得られた文書画像の質がよくないときは、文書の向きの識別を効果良く行うことができる。
以上、本発明の技術的方案を簡単に説明して本発明の基本的な理解を提供する。この簡単な説明は本発明に対する網羅的なものではないことは理解されるところである。また、前記概略的な説明は、本発明の肝心部分又は重要部分を決定する意図がなく、本発明の範囲を限定する意図もない。その目的は、簡単な形式で幾つかの概念を提供して後述のより詳しい説明の先行説明とすることに過ぎない。
以下、図面を参照しながら本発明の好ましい実施例について詳細な説明を行うことにより、本発明の技術的方案の前記および他の利点がより明確なものになるだろう。
以下の図面を参照しながら行う詳細な説明により、本発明をよく理解することができる。全ての図面において、同一又は類似の構成要素は、同一又は類似の符号で示される。前記図面は、以下の詳細な説明とともに本明細書に含まれ、且つ本明細書の一部を構成し、例を挙げて本発明の好ましい実施例を説明し本発明の原理と利点を解釈するために用いられる。
図面に示された各構成要素は、単に本発明を簡潔且つ明瞭に説明するために示されたものであり、比例して描いたものではない。例えば、本発明の実施例を理解しやすいために、図面の中の一部の構成要素のサイズは、他の構成要素に対して拡大されて描かれていることは、当業者に理解されるところである。
本発明の実施例に係る情報処理装置の構成を概略的に示すブロック図。 グレースケール画像を有する文書を例示する概略図。 候補テキスト行の、2値化後の文書を例示する概略図。 選択されたテキスト行を例示する概略図。 1つの2値化後のテキスト行を例示する概略図。 本発明の実施例に係る文書処理の工程を示すフローチャート。 本発明の実施例に係る情報処理方法と情報処理装置を実現できる情報処理設備のハートウェアの構成を示す概略図。
以下、本発明の例示的な実施例について、付属の図面を参照しつつ説明する。明瞭にするために、明細書には実際の実施形態の技術的特徴がすべて記載しているわけではない。しかし、実際の実施例の開発に当たって開発者の具体的な目標を達成するために実施形態に特定した決定を下る必要があることは理解されるところである。例えば、システムおよび業務内容の制限条件を満たすこと。また、これらの制限条件は実施形態によって変わることがある。さらに、開発作業は非常に複雑で時間がかかるものだが、当該内容の公開によって恩恵を受ける当業者にとってこのような開発作業は恒例の任務に過ぎないことも理解されるところである。
ここで説明すべきなのは、必要以上の詳細な説明により本発明がぼやけってしまうのを防ぐために図面には本発明と密接な関係を持つ装置の構造および/又は処理ステップのみを示し、本発明と密接な関係を有さない他の詳細は省略されている。
本明細書に使われる用語は、単に特定の例示的な実施例を説明するためのものであり、本発明を限定するものではない。例えば、単数の形式の用語「1」、「1つ」や、「これ」、「それ」は、コンテキストに他の状況を明記した場合を除き、複数の形式を含むこともできる。用語「含む」、「備える」、「有する」はいずれもオーペンエンドであり、そしてこれにより、記載の特徴、整数、ステップ、操作、構成要素、部材及び/又はこれらの組み合わせが存在することを意味する。ここに記載の方法のステップ、処理及び操作は、実行の順番が明確に順番付けされた場合を除き、記載または図示の特定の順番で実行しなければならないわけではない。また、付加または代替可能なステップを利用することができる、と理解されるところである。
本発明の実施例は、文書処理設備を提供する。当該設備は、入力された文書から少なくとも1つのテキスト行を抽出するテキスト行抽出ユニットと;図形特徴認識処理により、入力された文書の言語について光学文字認識処理を行う必要があるかを決定する言語分類ユニットと;入力された文書の言語について光学文字認識を行う必要があると決定されたときは、光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定する光学文字認識ユニットと;図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定する図形特徴認識ユニットと;決定された図形特徴認識信頼度および光学文字認識信頼度の少なくとも一方に基づいて前記少なくとも一部のテキスト行のそれぞれについて各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定する決定ユニットと、を備える。
本発明の実施例は、さらにスキャナーを提供する。当該スキャナーは前記文書処理設備を使用して入力された文書の向きを決定する。
本発明の実施例は、さらに文書処理方法を提供する。当該方法は、入力された文書から少なくとも1つのテキスト行を抽出するステップと;図形特徴認識処理により、入力された文書の言語について光学文字認識処理を行う必要があるかを決定するステップと;入力された文書の言語について光学文字認識を行う必要があると決定されたときは、光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定するステップと;図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定するステップと;決定された図形特徴認識信頼度および光学文字認識信頼度の少なくとも一方に基づいて前記少なくとも一部のテキスト行のそれぞれについて各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定するステップと、を含む。
(文書処理装置の実施例)
まず、図1を参照して本発明の実施例に係る文書処理装置100について説明する。
文書処理装置100は、ズーミングユニット101、2値化ユニット102と、テキスト行抽出ユニット103と、言語分類ユニット104と、光学文字認識ユニット105と、図形特徴認識ユニット106と、決定ユニット107を備える。
文書処理装置100は外部から文書を受け取る。当該文書は、実際の媒体を有する文書(例えば、紙文書、フイルム文書等)をスキャンして得たものであり、また、例えば、実際の媒体を有する文書を撮影して得た写真、或いは文書を含むその他の画像ファイルであっても良い。
入力された文書はまずズーミングユニット101に送られる。ズーミングユニット101は、入力された文書をズーミングし、且つズーミングした後の文書を2値化ユニット102に提供する。
ここで行うズーミングとは、通常、後処理に必要な計算量を減らすために、一定の比例で入力された文書の画像をズーミングし、或いは入力された文書の画像を一定の大きさまでズーミングすることである。勿論、実際のニーズに応じて、入力された文書の画像について拡大又はその他の必要な処理を行うことができる。例えば、スキャンしたときは紙文書の置き方による傾き又はしわを補正する。これらは当業者に周知されたため、ここでは詳しく説明しない。
注意すべきなのは、図1に破線のブロックで示したズーミングユニット101は必須のものではない。例えば、入力された文書の画像がすでに適切な大きさの画像である場合、ズーミングユニット101を設ける必要はない。入力された画像を直接2値化ユニット102に提供することができる。
2値化ユニット102は、ズーミングユニット101からズーミングした後の文書を受け取り、或いは入力された文書を直接受け取った場合、入力された文書を2値化画像文書に変換し、変換された文書は、テキスト行を抽出するためにテキスト行抽出ユニット103に提供される。
ここで行う2値化処理は、一般的な意味での既知の2値化処理であり、例えば、入力された文書が有するグレースケール画像を、その後画像中の文字の部分の処理をしやすいために前景色と背景に分ける。例えば、図2はグレースケール画像を有する文書を例示する概略図であり、図3は2値化後の文書を例示する概略図である。注意すべきなのは、図3には矩形状のブロックで後に説明する候補テキスト行を示している。これらの矩形状のブロックは2値化処理を経て得た結果ではない。また、注意すべきなのは、図2と図3のページはさかさまの状態であるが、これは文書の向きを決定する処理においてはよくあるケースである。
例えば大津(Otsu)方法またはニブラック(Niblack)方法により2値化を行うことができる。勿論、本発明はこれに限らず、その他の適当な方法を使用することができる。
2値化処理の詳細について、例えば、
(外1)
Figure 0006115323
とTorfinn Taxtの《Evaluation of Binarization Methods for Document Images》(IEEE Trans,Pattern Anal,Mach,Intell,17(3):312-315(1995))を参照することができる。
また、ここで行う2値化処理は、入力された文書が有するカラー画像について行うこともできることは当業者に理解されるところである。また、2値化処理を行わなくてもよい場合、例えば、入力された文書の原本が2値化処理を行う必要のない白黒画像である場合もある。従って、図1に破線のブロックで示されている2値化ユニット102は必須のものではない。2値化ユニット102を設けず、ズーミングユニット101が提供したズーミングした後の文書、又は直接入力された文書を直接テキスト行抽出ユニット103に提供することができる。
テキスト行抽出ユニット103はズーミングユニット101、又は2値化ユニット102から送られた文書、或いは直接入力された文書に基づいて少なくとも1つのテキスト行を抽出する。
具体的に、テキスト行抽出ユニット103は、例えば、まず画像の中の連結部分(Connected Component,CC)の分析に基づいて候補となる文字を抽出し、それから、文字間における空間的位置関係に基づいて隣接する文字を直列に連結し、図3に矩形状のブロックで示したように候補テキスト行を形成する。注意すべきなのは、これらの候補テキスト行には、本当のテキスト行ではないものが存在する可能性がある。例えば、図3の左下方にある2つの矩形状のブロックはそのようなものである。従って、中から文書中の文字列である可能性の最も高い候補テキスト行を選択する必要があり、且つ選択された候補テキスト行をテキスト行とする。注意すべきなのは、ここでのテキスト行は、少なくとも1つのテキスト行を含む。図4は選択されたテキスト行を例示する概略図である。
テキスト行を選択するときは、候補テキスト行の高さや、長さ、候補テキスト行について行ったテクスチャ分析の結果、又は以上の要素の組み合わせに基づいて少なくとも1つの候補テキスト行をテキスト行として選択する。テキスト行を選択する方法は、当業者に周知されたため、ここでは説明を省略する。また、当業者が実際のニーズに応じて任意の適当な処理方法を選択してテキスト行を抽出することができる。
本実施例においては、説明しやすいために、図4に示されたように、文書中の文字列である可能性のある候補テキスト行を5行選択してテキスト行とする。ただし、本発明はこれに限られない。その他の所定の数の候補テキスト行を選択してテキスト行とすることもできる。通常選択されたテキスト行の数は5行より多く、例えば20行である。
好ましくは、候補テキスト行を選択するときは、各候補テキストについてそのテキスト行信頼度を算出することができる。当該候補テキスト行が文書中の文字列である可能性が高いほど、当該候補テキスト行のテキスト行信頼度が高い。例えば、図4に示されている5行のテキスト行41、42、43、44および45については上から下へテキスト行信頼度が次第に低くなる。即ち、最上方のテキスト行41のテキスト行信頼度が最も高くて、一番下のテキスト行45のテキスト行信頼度が最も低い。また、テキスト行信頼度の計算方法も公知のものであり、実際のニーズに応じて任意の適当な処理方法を選択してテキスト行信頼度を算出することができることは、当業者に理解されるところである。
算出された候補テキスト行信頼度に基づいて所定の数の候補テキストを選択してテキスト行とすることができ、また、所定の数の候補テキストを選択してテキスト行とするのではなく、テキスト行信頼度が予め設定した閾値より高い少なくとも1行の候補テキストをテキスト行とすることもできる。さらに、本発明はこれに限られない。この閾値は予め設定したものであっても良いし、例えば、現在の文書のすべての候補テキスト行についてのテキスト行信頼度の分布状況等によって設定することもできる。例えば、閾値を現在の文書のすべての候補テキスト行についてのテキスト行信頼度の平均値、中央値又は任意の他の適当な値に設定することができる。
テキスト行抽出ユニット103は、抽出されたテキスト行と、好ましくはこれらのテキスト行のテキスト行信頼度とを言語分類ユニット104と光学文字認識ユニット105と図形特徴認識ユニット106に提供する。
言語分類ユニット104は、受け取ったテキスト行についてその図形の特徴に基づいて言語分類をし、入力された文書の言語について光学文字認識処理を行う必要があるかを決定する。具体的に、例えば、テキスト行のテクスチャ特徴に基づいて、例えば2Dランレングスのヒストグラム(2D Run-Length Histogram)方法と人工ニューラルネットワーク(Artificial Neural Network)分類方法を利用してテキスト行の属する言語類別について分類を行う。ここで言及した、2Dランレングスのヒストグラム方法と人工ニューラルネットワーク分類方法を利用して言語分類を行うことの詳細について、例えばShijian Lu、Linlin LiとChew Lim Tanの《Identification of Scripts and Orientations of Degraded Document Images》(Pattern Anal,Appl,13(4),469-475(2010))およびRanjith UnnikrishnanとRay Smithの《Combined Script and Page Orientation Estimation Using the Tesseract OCR Engine》(MOCR,2009)を参照することができるため、ここでは詳細な説明を省略する。
前記言語分類により、例えば、テキスト行の属する言語を中国語と日本語類、韓国語類、ラテン語類、正向きアラビア語類、逆向きアラビア語類、正向きインド語類と逆向きインド語類に分類することができる。
注意すべきなのは、各類には1種類以上の文字を含む。例えば、ラテン語類にはラテン語と類似する特徴を持つ文字、例えばキリル文字(例えば、セルビア語文字とロシア語文字)とギリシャアルファベット文字(例えばギリシャ文字)を含むことができる。正向きアラビア語類と逆向きアラビア語類はそれぞれ正向きと逆向きのアラビアアルファベット文字(例えばアラビア語等)。正向きインド語類と逆向きインド語類は、それぞれ正向きと逆向きのサンスクリット語、タミル語、カンナダ語、ベンガル語等を含む。
このように分類する理由は、本発明の発明者は研究を通じて、前の3種類の言語、即ち中国語と日本語類、韓国語類とラテン語類の文書について単に文書の図形の特徴だけでテキスト行の向きを決定することが不可能であることを判明したからである。特に画像の質が悪ければなおさらである。このような状況下において、これらの種類の言語のテキストについて光学文字認識処理を行い、これらのテキスト行向きを決定する必要がある。その後の4種類の言語、即ち正向きアラビア語類、逆向きアラビア語類、正向きインド語類と逆向きインド語類については、言語の類別が判明されると同時に、これらのテキスト行向きもすでに判明されているため、さらに光学文字認識を行う必要がない。
各テキスト行について言語の分類を行うことにより文書全体の言語分類を行うことができる。例えば、テキスト行信頼度の高いものから低いものへの順番で、行ごとに各テキスト行の各候補言語に対するテキスト行言語信頼度を決定することができる。決定されたテキスト行言語信頼度に基づいて各候補言語に対する現在の言語信頼度を決定し、且つ現在の言語信頼度の中の最大値が所定の条件を満たしたときは、当該現在の言語信頼度が対応する候補言語を、入力された文書の属する言語とする。また、その他の順番で行ごとに各テキスト行についてテキスト行言語信頼度を決定することができることは、当業者に理解されるところである。
注意すべきなのは、ここでいう「各候補言語」とは、上述の分類方法により分類した各種の言語類、または他の方法で分類した各言語類(当該分類方法について、当該分類の中の言語について光学文字認識処理を行い文書の向きを決定する必要があるかを決定することに有利であればよい)、または具体的な各言語であっても良い。
テキスト行の属する言語が或る候補言語(又は相応する言語類)である可能性が高いほど、当該テキスト行の当該候補言語(又は相応する言語類)に対するテキスト行言語信頼度が高い。例えば、或るテキスト行について、その属する可能性の最も高い言語(又は相応する言語類)のテキスト行言語信頼度を1に設定し、当該テキスト行の他の言語(又は相応する言語類)に対するテキスト行言語信頼度を0に設定する。また、本発明はこれに限らず、例えば、テキスト行の属する言語が或る候補言語(又は相応する言語類)である確率を、当該テキスト行の当該候補言語(又は相応する言語類)に対するテキスト行言語信頼度とすることができる。また、他の適当なテキスト行言語信頼度の設定方法を採用することもできる。
また、或る候補言語(又は相応する言語類)の現在の言語信頼度を、この候補言語(又は相応する言語類)に対する、すでに言語分類された各テキスト行のテキスト行言語信頼度に関連するように設定することができる。例えば、毎回新たに決定されたテキスト行の各候補言語(又は相応する言語類)に対するテキスト行言語信頼度を、相応する各候補言語(又は相応する言語類)の現在の言語信頼度に加算し、各候補言語(又は相応する言語類)の現在の言語信頼度を獲得する。
現在の言語信頼度の中の最大値が所定の条件を満たしたときは、当該現在の言語信頼度が対応する候補言語(又は相応する言語類)を、入力された文書の属する言語に決定する。前記所定の条件とは、例えば、現在の言語信頼度の中の最大値が或る所定の閾値より大きいことである。また、本発明はこれに限らず、例えば、当該条件は、現在の言語信頼度の中の最大値は、2番目に大きい値+或る所定の量より大きいであること、或いは任意の他の適切な条件であっても良い。
このようにして、言語分類ユニット104はテキスト行の属する言語(又は相応する言語類)を決定することにより、文書の属する言語を決定し、さらに文書の属する言語について光学文字認識処理を行う必要があるかを決定することができる。言語分類ユニット104は決定の結果を光学文字認識ユニット105と画像特徴認識ユニット106に提供する。
言語分類ユニット104が、入力された文書の言語について光学文字認識を行う必要があると決定されたときは、光学文字認識ユニット105は、テキスト行抽出ユニット103が選択したテキスト行の中の少なくとも一部について光学文字認識処理を行うことにより、処理後の各テキスト行について各候補方向における光学文字認識信頼度を決定する。また、光学文字認識処理が当該技術分野の慣用手段であることは、当業者に理解されることであるため、ここではその詳細な説明を省略する。また、当業者に理解されるように、ここでの候補方向とは、通常、上から下へ、下から上へ、左から右へ、右から左への4種類ある。勿論、本発明はこれに限らず、特定の状況下においては、例えば、テキスト行が斜めになっている場合、他の候補方向も有りうる。
注意すべきなのは、光学文字認識ユニット105は、光学文字認識処理を決定するときは、言語分類ユニット104が決定した言語又は相応する言語類を参照することができる。例えば、光学文字認識ユニット105は光学文字認識処理を決定するときは、決定された言語又は言語類に関連する辞書を利用することができる。これにより光学文字認識処理の効率を高めることができる。
テキスト行は、或る候補方向において行われた光学文字認識処理を通じて認識された文字の比率が高いほど、数が多いほど、行った光学文字認識の認識結果の信頼度が高いほど、当該テキスト行の当該候補方向における光学文字認識信頼度が高い。例えば、或るテキスト行の光学文字認識結果が最もよい候補方向の光学文字認識信頼度を1に設定し、当該テキスト行の他の候補方向における光学文字認識信頼度を0に設定することができる。また、本発明はこれに限らず、例えば、テキスト行の各候補方向における光学文字認識信頼度を0〜1の間の数字に設定し、或いは他の適切な光学文字認識信頼度設定方法を採用することができる。
また、一部の言語のテキスト行について、例えば、ラテン語のテキスト行について、当該テキスト行の向きはテキスト行の文字進め方向であるしかないため、光学文字認識処理を行うときは、この2つの方向だけを考慮して光学文字認識処理を行えばよい。従って、当該テキスト行の当該2つの候補方向における光学文字認識信頼度だけを算出すればよい。当該テキスト行の他の候補方向における光学文字認識信頼度は0、或いは当該方向における光学文字認識信頼度が抑制されたことを表す他の値であっても良い。これにより計算の量を減らすことができ、文書処理装置100の効率を高めることができる。
注意すべきなのは、すべての言語のテキスト行向きがテキスト行の文字進め方向に沿うわけではない。1つ代表的な例は中国語である。大部分の現代中国語の本は文字が横書きであるが、多くの古代中国語の本の中国語の文字は縦書きである。類似する状況は日本語にも存在する。従って、もし言語分類ユニット104は、文書の属する言語が中国語又は日本語であると決定したときは、全部4つの候補方向において光学文字認識処理を行う必要があり、且つ当該テキスト行の全部4つの候補方向における光学文字認識信頼度を算出する必要がある。
光学文字認識ユニット105は、後に説明する決定ユニット107が文書の向きを決定するまでに、信頼度の高いテキスト行から信頼度の低いテキスト行への順番で行ごとに少なくとも一部のテキスト行について光学文字認識信頼度を決定することができる。光学文字認識処理には計算量が大きいため、このようにして光学文字認識ユニット105は少なくとも一部のテキスト行だけについて光学文字認識処理を行い、すでに文書の向きが決定された後の必要でない光学文字認識処理を避けることができ、文書処理装置100の効率を高めることができる。例えば、もし行ごとに図4のテキスト行41、42、43について光学文字認識処理を行った後に、決定ユニット107はすでに文書の向きを決定したら、続けてテキスト行44と45について光学文字認識処理を行う必要がなくなり、計算量を減らすことができ、文書処理装置100の効率を高めることができる。
また、光学文字認識ユニット105は、テキスト行の信頼度を計算していない状態においても、任意の順番で行ごとに少なくとも一部のテキスト行について光学文字認識信頼度を決定し、或いは行ごとに光学文字認識処理を行うのではなく、すべてのテキスト行を統一して光学文字認識信頼度を決定することもできる。
光学文字認識ユニット105は決定された光学文字認識信頼度を決定ユニット107に提供する。特に、光学文字認識ユニット105が行ごとに少なくとも一部のテキスト行について光学文字認識信頼度を決定する場合、光学文字認識処理ユニット105は、1つのテキスト行について各候補方向における光学文字認識信頼度を決定した度にそれを決定ユニット107に提供する。
図形特徴認識ユニット106は、図形特徴認識を行うことにより各テキスト行抽出ユニット103が選択したテキスト行について各候補方向における図形特徴認識信頼度を決定する。
以下、ラテン語の文字からなる1文字列を例として、図形特徴により文字列の異なる候補方向における図形特徴認識信頼度を決定する例を示す。
図5は1つの2値化後のテキスト行を例示する概略図である。当該テキスト行は図4に示されているテキスト行41、42、43、44、45のいずれでもない。図5には、テキスト行の上下ベースラインを示してあり、その1は第一ベースライン、2は第二ベースラインである。これらのベースラインは、テキスト行の圧倒的に大部分の図形がベースラインの間にあるように決定したものである。普通の向きのラテン文(左から右への向きを有する)について、下から“はみ出す”文字(即ち、筆画が部分的に下ベースラインより低い)と比較すると、上から「はみ出す」文字(即ち、筆画が部分的に上ベースラインより高い)は、数及び/又は使用の頻度において優位にあるため、ラテン語のテキスト行について、画像中に上ベースラインをはみ出す部分は下ベースラインをはみ出す部分より多いはずである。しかし、図5においては、画像中に第二ベースライン2をはみ出した部分は第一ベースライン1をはみ出した部分より多いため、第一、第二ベースラインをはみ出した部分の統計上の特徴により図5のテキスト行がさかさまになっている可能性が高いと決定できる。即ち、図5のテキスト行は左から右への候補方向における図形特徴認識信頼度が低く、右から左への候補方向における図形特徴認識信頼度が高い。上から下へと下から上への候補方向については、当該テキスト行がラテン語のテキスト行であり且つ当該テキスト行が上下方向に伸びるものではないことがすでに分かったので、必然的に当該テキスト行向きが上から下へまたは下から上への向きではないことになる。従って、当該テキスト行の上から下へと下から上への候補方向における図形特徴認識信頼度は0である。
また、本発明はこれに限らず、或るテキスト行について、図形特徴認識処理により可能性が最も高いと決定された候補方向における図形特徴認識信頼度を1に設定し、当該テキスト行の他の候補方向における図形特徴認識信頼度を0に設定し、或いは他の適当な図形特徴認識信頼度の設定方法を採用することができる。
また、本発明は上述の図形特徴認識の例に限らず、例えば異なる言語類別について、他の適当な図形特徴を用いて文字列の各候補方向における図形特徴認識信頼度を決定することができる。以上言及した各種の図形特徴認識処理は当該技術分野の公知技術であるためここでは詳細な説明を省略する。
上述したように、図形特徴認識ユニット106は、図形特徴認識処理を行うと決定するときは、言語分類ユニット104が決定した言語又は相応する言語類を参照して相応する認識方法および/または基準を選択することができる。特に、言語分類ユニット104は、すでに図形特徴認識処理を経て、入力された文書の言語について光学文字認識処理を行う必要がないと決定したときは、即ち、言語分類ユニット104はすでに文書の言語を決定すると同時に文書の向きを決定したときは、直接各テキスト行のテキスト行言語信頼度に基づいて当該テキスト行の図形特徴認識信頼度を決定することができる。例えば、各テキスト行のテキスト行言語信頼度を直接当該テキスト行の図形特徴認識信頼度とすることができる。
また、言語分類ユニット104の決定結果がどうであろうと、言語分類ユニット104は、図形特徴認識処理により当該テキスト行の各候補言語についてのテキスト行言語信頼度を決定すると同時に,行った図形特徴認識処理により当該テキスト行の図形特徴認識信頼度を決定することができる。即ち、画像特徴認識ユニット106の役割は言語分類ユニット104によって実現することができる。従って、ハードウェアにおいて単独の画像特徴認識ユニット106を省略することができ、文書処理装置100の効率をさらに高めることができる。
図形特徴認識ユニット106は上述のように決定した図形特徴認識信頼度を決定ユニット107に提供する。
決定ユニット107は、光学文字認識ユニット105から受け取った光学文字認識信頼度および画像特徴認識ユニット106から受け取った図形特徴認識信頼度のうち少なくとも一方に基づいて、少なくとも一部のテキスト行の中の各行について各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定する。ここで言う「少なくとも一部のテキスト行」とは、テキスト行について光学文字認識処理を行う必要がある場合には、すでに光学文字認識処理を行い且つ光学文字認識信頼度を獲得したテキスト行を指し、テキスト行について光学文字認識処理を行う必要がない場合には、図形特徴認識処理を行い且つ図形特徴認識信頼度を獲得したすべてのテキスト行を指す。
また、テキスト行について光学文字認識処理を行う必要があるときは、決定ユニット107は、光学文字認識信頼度と図形特徴認識信頼度との両方に基づいて総合信頼度を決定することもできるし、光学文字認識信頼度だけに基づいて総合信頼度を決定することもできる。また、テキスト行について光学文字認識処理を行う必要がないときは、決定ユニット107は図形特徴認識信頼度だけに基づいて総合信頼度を決定することができる。
具体的に、決定ユニット107は、光学文字認識信頼度と図形特徴認識信頼度との両方に基づいて総合信頼度を決定するときは、当該テキスト行の当該候補方向における総合信頼度と、当該テキスト行の当該候補方向における光学文字認識信頼度および図形特徴認識信頼度との間に正の相関関係があれば、テキスト行の各候補方向における総合信頼度を当該テキスト行の当該候補方向における光学文字認識信頼度と図形特徴認識信頼度の平均値、積または他の適当な形式に設定することができる。また、総合信頼度を決定するときは、決定ユニット107は、テキスト行抽出ユニット103が提供したテキスト行信頼度を参考にすることができる。例えば、テキスト行の各候補方向における総合信頼度を、当該テキスト行のテキスト行信頼度と、当該テキスト行の当該候補方向における光学文字認識信頼度および図形特徴認識信頼度との積の平均値に設定することができる。勿論、本発明はこれに限らず、当該テキスト行の当該候補方向における総合信頼度と当該テキスト行のテキスト行信頼度との間に正の相関関係があればよい。
また、各テキスト行の各候補方向における総合信頼度に基づいて、例えば、上述した決定処理を経たすべてのテキスト行の各候補方向における総合信頼度の和を得ることができ、且つ総合信頼度の和が最も大きい候補方向を文書全体の向きとすることができる。
特に、光学文字認識ユニット105は、テキスト行信頼度の高い方から低い方への順番で少なくとも一部のテキスト行について行ごとに光学文字認識信頼度を決定するときは、決定ユニット107は、テキスト行信頼度の高い方から低い方への順番で少なくとも一部のテキスト行について行ごとに総合信頼度を決定する。また、決定された総合信頼度に基づいて各候補方向における現在の信頼度を決定し、且つ現在の信頼度の中の最大値が所定の条件を満たしたときは、当該現在の信頼度が対応する候補方向を入力された文書の向きとする。
このようにして、決定ユニット107は、一部のテキスト行について行ごとに決定処理を行い、もし現在行われた決定処理により文書の向きがすでに決定されたのであれば、他のテキスト行について計算量の多い光学文字認識処理を行う必要はない。従って、文書処理装置100の効率を高めることができる。例えば、図4のテキスト行41、42、43について行ごとに決定処理を行った後に、決定ユニット107がすでに文書の向きを決定したのであれば、光学文字認識ユニット105はもうテキスト行44と45について光学文字認識処理を行わない。従って、計算量を減らすことができ、文書処理装置100の効率を高めることができる。
具体的に、各候補方向における現在の信頼度を設定するときは、例えば、毎回新たに決定されたテキスト行の各候補方向における総合信頼度を、対応する各候補方向における現在の信頼度に加算して、各候補方向における現在の信頼度を獲得することができる。
また、決定された総合信頼度とテキスト行信頼度に基づいて現在の信頼度を決定することができる。例えば、テキスト行信頼度の高いテキスト行の総合信頼度が現在の信頼度において比較的に高い重みを占めるようにすることができる。
現在の信頼度の中の最大値が所定の条件を満たした場合、当該現在の信頼度が対応する候補方向を、入力された文書の向きとすることができる。当該所定の条件は、例えば、現在の信頼度の中の最大値が或る所定の閾値より高いことである。また、本発明はこれに限らず、例えば、当該条件は、現在の言語信頼度の中の最大値は、2番目に大きい値+或る所定の量より大きいであること、又は任意の他の適当な条件であっても良い。
また、言語分類ユニット104がすでに文書の言語を決定したと同時に文書の向きをも決定したときは、各テキスト行について光学文字認識処理を行う必要がないため、各テキスト行のテキスト行言語信頼度に基づいて当該テキスト行の図形特徴認識信頼度を直接に決定することができる。よって、各テキスト行のテキスト行言語信頼度により当該テキスト行の総合信頼度を直接に決定することができる。さらに、決定ユニット107は、総合信頼度又は現在の信頼度を算出せず、直接言語分類ユニット104が決定した文書の向きに基づき文書の向きを獲得することができる。これにより、計算量をさらに減らすことができ、文書処理装置100の効率を高めることができる。
上述した文書処理装置100により、同時に図形特徴認識処理と光学文字認識処理を通じて文書の向きを決定することができ、さらに好ましい例として文書の属する言語により決定に必要な計算量をできるだけ減らすことができる。従って、本発明の実施例に係る文書処理装置は、文書の向きを効率よく決定することができ、特に文書の画質が劣化するときの文書の向きの決定に適する。
(文書処理方法の実施例)
以下、図6を参照しながら本発明の実施例に係る文書処理方法について説明する。当該文書処理方法は、例えば、文書処理装置100により実行される。図6は本発明の実施例に係る文書処理のプロセスを示すフローチャートである。
処理開始後、まずステップS601に入る。ステップS601において、入力された文書をズーミングし、さらにステップS602の処理に進む。ステップS601は、例えば、上述したズーミングユニット101に類似する機能を持つユニットにより実行されることができる。従って、ステップS601についての詳細な技術的説明は上述したズーミングユニット101についての説明を参照することができるため、ここでは詳細な説明を省略する。また、ズーミングユニット101を説明したときは説明したように、図6にある破線ブロックで示されているステップS601は必須のものではなく、ステップS601をスキップして後続のステップを直接実行することができる。
また、ステップS602において、入力された文書を2値化画像の文書に変換し、さらにステップS603の処理に進む。ステップS602は、例えば、上述した2値化ユニット102に類似する機能を持つユニットにより実行される。従って、ステップS602についての詳細な技術的説明は上述した2値化ユニット102についての説明を参照することができるため、ここでは詳細な説明を省略する。また、2値化ユニット102を説明したときは説明したように、図6にある破線ブロックで示されているステップS602は必須のものではなく、ステップS602をスキップして後続のステップを直接実行することができる。
ステップS603において、文書中の文字列である可能性が最も高い画像を少なくとも1つ抽出してテキスト行とする。それからステップS604の処理に進む。ステップS603は、例えば上述したテキスト行抽出ユニット103に類似する機能を持つユニットにより実行される。従って、ステップS603についての詳細な技術的説明は上述したテキスト行抽出ユニット103についての説明を参照することができるため、ここでは詳細な説明を省略する。
ステップS604において、受け取ったテキスト行についてその図形特徴に基づいて言語分類を行い、入力された文書の言語について光学文字認識処理を行う必要があるかを決定する。光学文字認識処理を行う必要があると決定したときは、ステップS605に進む。そうでなければ、ステップS606に進む。ステップS604は、例えば上述した言語分類ユニット104に類似する機能を持つユニットにより実行される。従って、ステップS604についての詳細な技術的説明は上述した言語分類ユニット104についての説明を参照することができるため、ここでは詳細な説明を省略する。
ステップS605において、光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定し、それからステップS606に進む。ステップS605は、例えば上述した光学文字認識ユニット105に類似する機能を持つユニットにより実行される。従って、ステップS605についての詳細な技術的説明は上述した光学文字認識ユニット105についての説明を参照することができるため、ここでは詳細な説明を省略する。
ステップS606において、図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定し、それからステップS607に進む。ステップS606は、例えば上述した図形特徴認識ユニット106に類似する機能を持つユニットにより実行される。従って、ステップS606についての詳細な技術的説明は上述した図形特徴認識ユニット106についての説明を参照することができるため、ここでは詳細な説明を省略する。また、前に図形特徴認識ユニット106について説明したときは言及されたように、ステップS606での処理をステップS604に併合して実行することもできる。また、前に決定ユニット107について説明したときは言及されたように、ステップS605を実行した後に、ステップS606を実行せず、ステップS606をスキップして直接その後の処理を実行することができる。
ステップS607において、図形特徴認識信頼度および光学文字認識信頼度の中の少なくとも一方に基づいて総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定する。それから処理を終了する。ステップS607は、例えば上述した決定ユニット107に類似する機能を持つユニットにより実行される。従って、ステップS607についての詳細な技術的説明は、上述した決定ユニット107についての説明を参照することができるため、ここでは詳細な説明を省略する。
このようにして、上述した情報処理方法により、同時に図形特徴認識処理と光学文字認識処理を通じて文書の向きを決定することができ、さらに好ましい例として文書の属する言語により決定に必要な計算量をできるだけ減らすことができる。従って、本発明の実施例に係る文書処理装置は、文書の向きを効率よく決定することができ、特に文書の画質が劣化するときの文書の向きの決定に適する。
(ハートウェアの構成に関する実施例)
本発明の実施例に係る文書処理装置における各構成ユニット、サブユニット等は、ソフトウェア、ファームウェア、ハードウェア又はその任意の組み合わせの方式により構成することができる。ソフトウェア又はファームウェアにより実現する場合、記録媒体又はネットワークから専用ハードウェアの構造を有する機器(例えば図7に示された汎用機器700)に当該ソフトウェア又はファームウェアを構成するプログラムをインストールし、当該機器は、各種のプログラムがインストールされた後に、前記各構成ユニットやサブユニットの機能を実現することができる。
図7は、本発明の実施例に係る情報処理方法と情報処理装置を実現できる情報処理設備のハートウェアの構成を示す概略図。
図7において、セントラルプロセッシングユニット(CPU)701は、読み取り専用メモリ(ROM)702に記憶されたプログラム又は記録部708からランダムアクセスメモリ(RAM)703にアップロードしたプログラムに従って各種の処理を実行する。RAM703には、必要に応じてCPU701が各種の処理等を実行するときは必要なデータを保存する。CPU701と、ROM702と、RAM703はバス704を介して互いに接続しあう。入力/出力インタフェース705もバス704に接続される。
以下の機器も入力/出力インタフェース705に接続する:入力部706(キーボード、マウス等を含む)、出力部707(例えばブラウン管(CRT)、液晶ディスプレイ(LCD)等のモニタやスピーカー等を含む)、記録部708(ハードディスク等を含む)、通信部709(ネットワークインタフェースカード、例えばローカルエリアネットワーク(LAN)カード、及びモデム等を含む)。通信部709はネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ710も入力/出力インタフェース705に接続することができる。取り外し可能な媒体711、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置等は、必要に応じてドライブ710に設置することができ、その中から読み取ったコンピュータープログラムが必要に応じて記録部708に保存することができる。
ソフトウェアを介して前記一連の処理を実行する場合、ネットワーク、例えばインターネット、又は記録媒体、例えば取り外し可能な媒体711からソフトウェアを構成するプログラムをインストールする。
当業者が理解されるように、ここでの記録媒体は、図7に示されたような、中にプログラムが記録され、設備と分離して配布しユーザにプログラムを提供する取り外し可能な媒体711に限らない。取り外し可能な媒体711の例として、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(コンパクトディスク(CD)による読み出し専用メモリー(CD-ROM)とデジタル多用途ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)を含む)と半導体記憶装置などを含む。また、記録媒体は、ROM702や記録部708に含まれるハードディスクであっても良い。その中にプログラムが記録され、且つそれを記録する設備と一緒にユーザに配布される。
本発明のもう1つの実施様態は、機械読み取り可能な命令コードを含むプログラムを提供する。当該機械読み取り可能な命令コードが機械に読み取りされ、実行されるときは本発明の実施例に係る文書処理方法を実行することができる。また、当該プログラムを保持する媒体、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体記憶装置等の各種の記録媒体も本発明の技術的方案に含まれる。
また、本発明の実施例に係る文書処理方法の各操作プロセスも、機械読み取り可能な各種の記録媒体に記憶されたコンピューター実行可能なプログラムにより実現することができる。
注意すべきなのは、本発明の実施例に係る文書処理装置の各構成ユニットは、単独なものであってもよいし、1つのユニットで複数の構成ユニットの機能を実現することも可能である。
また、本発明の文書処理方法の各ステップは、必ずしも本発明に記載の順番で行うとは限らない。並行して実行してもよいし、呼び出して実行することもできる。例えば、ステップS601は必ずしもステップS602の前に実行するとは限らず、ステップS602の後で実行してもよいし、両ステップを並行して実行することもできる。ステップS605も必ずしもステップS606の前に実行するとは限らず、ステップS606の後で実行してもよいし、両ステップを並行して実行することもできる。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
文書処理設備であって、
入力された文書から少なくとも1つのテキスト行を抽出するテキスト行抽出ユニットと、
図形特徴認識処理により、入力された文書の言語について光学文字認識処理を行う必要があるかを決定する言語分類ユニットと、
入力された文書の言語について光学文字認識を行う必要があると決定されたときは,光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定する光学文字認識ユニットと、
図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定する図形特徴認識ユニットと、
決定された図形特徴認識信頼度および光学文字認識信頼度の少なくとも一方に基づいて前記少なくとも一部のテキスト行のそれぞれについて各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定する決定ユニットと、
を備える文書処理設備。
(付記2)
前記言語分類ユニットは、入力された文書の言語が中国語、日本語、韓国語、又はラテン語の文字を使用する言語であると決定したときは、入力された文書の言語について光学文字認識処理を行う必要があると決定する、
付記1に記載の文書処理設備。
(付記3)
前記テキスト行抽出ユニットは、各テキスト行のそれぞれが文書中の文字列である可能性を算出して且つテキスト行信頼度とし、
前記光学文字認識ユニットは、前記決定ユニットが文書の向きを決定するまでにテキスト行信頼度の高い方から低い方への順番で各テキスト行について行ごとに光学文字認識信頼度を決定する、
付記1又は2に記載の文書処理設備。
(付記4)
前記決定ユニットは、テキスト行信頼度の高い方から低い方への順番で前記少なくとも一部のテキスト行について行ごとに総合信頼度を決定する,決定された総合信頼度に基づいて各候補方向における現在の信頼度を決定し、且つ現在の信頼度の中の最大値が第一所定条件を満たしたときは、当該現在の信頼度が対応する候補方向を入力された文書の向きとして決定する、
付記3に記載の文書処理設備。
(付記5)
前記決定ユニットは、決定された総合信頼度とテキスト行信頼度に基づいて各候補方向における現在の信頼度を決定する、
付記4に記載の文書処理設備。
(付記6)
前記テキスト行抽出ユニットは、各テキスト行のそれぞれが文書中の文字列である可能性を算出してテキスト行信頼度とし、
前記言語分類ユニットは、テキスト行信頼度の高い方から低い方への順番で各テキスト行について行ごとに各候補言語のテキスト行言語信頼度を決定し、決定されたテキスト行言語信頼度に基づいて各候補言語の現在の言語信頼度を決定し、且つ現在の言語信頼度の中の最大値が第二所定条件を満たしたときは、当該現在の言語信頼度が対応する候補言語を入力された文書の属する言語として決定する、
付記3に記載の文書処理設備。
(付記7)
入力された文書をズーミングし、且つズーミングされた文書を前記テキスト行抽出ユニットに提供し、テキスト行を抽出するために用いるズーミングユニットをさらに備える、
付記1乃至6の何れかに記載の文書処理設備。
(付記8)
入力された文書を2値化画像文書に変換し、且つテキスト行を抽出するために前記テキスト行抽出ユニットに提供する2値化ユニットをさらに備える、
付記1乃至7の何れかに記載の文書処理設備。
(付記9)
入力された文書の向きを決定するために用いる付記1乃至8の何れかに記載の文書処理設備を備えるスキャナー。
(付記10)
文書処理方法であって、
入力された文書から少なくとも1つのテキスト行を抽出するテキスト行抽出ステップと、
図形特徴認識処理により入力された文書の言語について光学文字認識処理を行う必要があるかを決定する言語分類ステップと、
入力された文書の言語について光学文字認識を行う必要があると決定されたときは,光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定する光学文字認識ステップと、
図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定する図形特徴認識ステップと、
決定された図形特徴認識信頼度および光学文字認識信頼度の少なくとも一方に基づいて前記少なくとも一部のテキスト行のそれぞれについて各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定する決定ステップと、
を含む文書処理方法。
(付記11)
前記言語分類ステップにおいて、入力された文書の言語が中国語、日本語、韓国語又はラテン語の文字を使用する言語であると決定したときは、入力された文書について言語光学文字認識処理を行う必要があると決定する、
付記10に記載の文書処理方法。
(付記12)
前記テキスト行抽出ステップにおいて、各テキスト行のそれぞれが文書中の文字列である可能性を算出してテキスト行信頼度とし、且つ
前記光学文字認識ステップにおいて、前記決定ステップで文書の向きを決定するまでに
テキスト行信頼度の高い方から低い方への順番で各テキスト行について行ごとに光学文字認識信頼度を決定する、
付記10又は11に記載の文書処理方法。
(付記13)
前記決定ステップにおいて、テキスト行信頼度の高い方から低い方への順番で前記少なくとも一部のテキスト行について行ごとに総合信頼度を決定し、決定された総合信頼度に基づいて各候補方向における現在の信頼度を決定し、且つ現在の信頼度の中の最大値が第一所定条件を満たしたときは、当該現在の信頼度が対応する候補方向を入力された文書の向きとして決定する、
付記12に記載の文書処理方法。
(付記14)
前記決定ステップにおいて、決定された総合信頼度とテキスト行信頼度に基づいて各候補方向における現在の信頼度を決定する、
付記13に記載の文書処理方法。
(付記15)
前記テキスト行抽出ステップにおいて、各テキスト行のそれぞれが文書中の文字列である可能性を算出してテキスト行信頼度とし、且つ
前記言語分類ステップにおいて、テキスト行信頼度の高い方から低い方への順番で各テキスト行について行ごとに各候補言語のテキスト行言語信頼度を決定し、決定されたテキスト行言語信頼度に基づいて各候補言語の現在の言語信頼度を決定し、且つ現在の言語信頼度の中の最大値が第二所定条件を満たしたときは、当該現在の言語信頼度が対応する候補言語を入力された文書が属する言語とする、
付記10乃至14に記載の文書処理方法。
(付記16)
入力された文書をズーミングするズーミングステップをさらに含み、且つズーミングされた文書は前記テキスト行抽出ステップでテキスト行を抽出するために用いられる、
付記10乃至15の何れかに記載の文書処理方法。
(付記17)
入力された文書を2値化画像文書に変換する2値化ステップをさらに含み、且つ変換された2値化画像文書は前記テキスト行抽出ステップでテキスト行を抽出するために用いられる、
付記10乃至16に記載の文書処理方法。
(付記18)
プログラムであって、
入力された文書の向きを決定するためにコンピューター設備に付記10乃至17の何れかに記載の文書処理方法を実行させるプログラム。
(付記19)
コンピューター読み取り可能な記録媒体であって、
前記記録媒体にはコンピューター設備により実行されるプログラムが保持され、前記プログラムが実行されるときは、前記コンピューター設備に付記10乃至17のいずれかに記載の文書処理方法を実行させるコンピューター読み取り可能な記録媒体。
本発明の技術方案とその特徴を詳細に説明してきたが、添付の請求の範囲の要旨と範囲内に本発明に対する様々な変更、改善又は均等物を設計することができるものと認めるべきである。また、本発明の範囲は、明細書に記載された過程、設備、製造、物質の構造、手段、方法およびステップの具体的な実施例に限られない。当業者が本発明の開示内容から理解されるように、本発明によれば、上述した実施例と基本的に同じ機能を有し、基本的に同じ効果を奏する現在と将来に開発される過程、設備、製造、物質の構造、手段、方法およびステップを使用又は実行することができる。従って、添付の請求の範囲はこのような過程、設備、製造、物質の構造、手段、方法およびステップを含む。
以上、図面を参照しながら本発明の実施例について説明してきたが、上述した実施形態は本発明の技術方案を説明するためのものであり、本発明の技術方案を限定するものではない。当業者は添付の請求の範囲の要旨と範囲内に上述した実施形態に対する様々な変更、変形又は均等物を設計することができるものと認めるべきである。従って、本発明の範囲は添付の請求の範囲およびその均等物による範囲とみなされる。

Claims (10)

  1. 文書処理設備であって、
    入力された文書から少なくとも1つのテキスト行を抽出するテキスト行抽出ユニットと、
    図形特徴認識処理により、入力された文書の言語について光学文字認識処理を行う必要があるかを決定する言語分類ユニットと、
    入力された文書の言語について光学文字認識を行う必要があると決定されたときは、光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定する光学文字認識ユニットと、
    図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定する図形特徴認識ユニットと、
    決定された図形特徴認識信頼度および光学文字認識信頼度の少なくとも一方に基づいて前記少なくとも一部のテキスト行のそれぞれについて各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて入力された文書の向きを決定する決定ユニットと、
    備える文書処理設備。
  2. 前記言語分類ユニットは、入力された文書の言語が中国語、日本語、韓国語又はラテン語の文字を使用する言語であると決定したときは、入力された文書について言語光学文字認識処理を行う必要があると決定する、
    請求項1に記載の文書処理設備。
  3. 前記テキスト行抽出ユニットは、各テキスト行のそれぞれが文書中の文字列である可能性を算出してテキスト行信頼度とし、且つ
    前記光学文字認識ユニットは、前記決定ユニットが文書の向きを決定するまでに、テキスト行信頼度の高い方から低い方への順番で各テキスト行について行ごとに光学文字認識信頼度を決定する、
    請求項1又は2に記載の文書処理設備。
  4. 前記決定ユニットは、テキスト行信頼度の高い方から低い方への順番で前記少なくとも一部のテキスト行について行ごとに総合信頼度を決定し、決定された総合信頼度に基づいて各候補方向における現在の信頼度を決定し、且つ現在の信頼度の中の最大値が第一所定条件を満たしたときは、当該現在の信頼度が対応する候補方向を入力された文書の向きとして決定する、
    請求項3に記載の文書処理設備。
  5. 前記決定ユニットは、決定された総合信頼度とテキスト行信頼度に基づいて各候補方向における現在の信頼度を決定する、
    請求項4に記載の文書処理設備。
  6. 前記テキスト行抽出ユニットは、各テキスト行のそれぞれが文書中の文字列である可能性を算出してテキスト行信頼度とし、且つ
    前記言語分類ユニットは、テキスト行信頼度の高い方から低い方への順番で各テキスト行について行ごとに各候補言語のテキスト行言語信頼度を決定し、決定されたテキスト行言語信頼度に基づいて各候補言語の現在の言語信頼度を決定し、且つ現在の言語信頼度の中の最大値が第二所定条件を満たしたときは、当該現在の言語信頼度が対応する候補言語を入力された文書の属する言語として決定する、
    請求項1又は2に記載の文書処理設備。
  7. 入力された文書をズーミングし、且つズーミングされた文書を前記テキスト行抽出ユニットに提供し、テキスト行を抽出するために用いるズーミングユニットをさらに備える、
    請求項1又は2に記載の文書処理設備。
  8. 入力された文書を2値化画像文書に変換した後に前記テキスト行抽出ユニットに提供しテキスト行を抽出するために用いる2値化ユニットをさらに備える、
    請求項1又は2に記載の文書処理設備。
  9. 入力された文書の向きを決定するために用いる請求項1乃至8の何れかに記載の文書処理設備を備えるスキャナー。
  10. 入力された文書から少なくとも1つのテキスト行を抽出するステップと、
    図形特徴認識処理により、入力された文書の言語について光学文字認識処理を行う必要があるかを決定するステップと、
    入力された文書の言語について光学文字認識を行う必要があると決定されたときは、光学文字認識処理を行うことにより少なくとも一部のテキスト行のそれぞれについて各候補方向における光学文字認識信頼度を決定するステップと、
    図形特徴認識処理を行うことにより各テキスト行について各候補方向における図形特徴認識信頼度を決定するステップと、
    決定された図形特徴認識信頼度および光学文字認識信頼度の少なくとも一方に基づいて前記少なくとも一部のテキスト行のそれぞれについて各候補方向における総合信頼度を決定し、且つ総合信頼度に基づいて、入力された文書の向きを決定するステップと、
    を含む文書処理方法。
JP2013114202A 2012-05-31 2013-05-30 文書処理装置、文書処理方法およびスキャナー Active JP6115323B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210177541.2 2012-05-31
CN201210177541.2A CN103455806B (zh) 2012-05-31 2012-05-31 文档处理装置、文档处理方法以及扫描仪

Publications (2)

Publication Number Publication Date
JP2013250975A JP2013250975A (ja) 2013-12-12
JP6115323B2 true JP6115323B2 (ja) 2017-04-19

Family

ID=48628255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013114202A Active JP6115323B2 (ja) 2012-05-31 2013-05-30 文書処理装置、文書処理方法およびスキャナー

Country Status (4)

Country Link
US (1) US9070035B2 (ja)
EP (1) EP2669847B1 (ja)
JP (1) JP6115323B2 (ja)
CN (1) CN103455806B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335372B (zh) * 2014-06-12 2019-01-22 富士通株式会社 文档处理装置、方法以及确定文档图像的朝向的设备
CN105574530B (zh) * 2014-10-08 2019-11-22 富士通株式会社 提取文档中的文本行的方法和装置
CN105787415B (zh) * 2014-12-18 2020-04-07 富士通株式会社 文档图像的处理装置、方法以及扫描仪
CN105989341A (zh) * 2015-02-17 2016-10-05 富士通株式会社 文字识别方法和装置
CN106156766B (zh) * 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
CN106156794B (zh) * 2016-07-01 2020-12-25 北京旷视科技有限公司 基于文字风格识别的文字识别方法及装置
WO2018037519A1 (ja) * 2016-08-24 2018-03-01 株式会社Pfu モバイル端末、画像処理方法、および、プログラム
CN106778756B (zh) * 2016-12-07 2020-04-21 杭州佛学院 梵文天城体印刷字符拉丁转写图像识别方法
CN107679074B (zh) 2017-08-25 2021-05-04 百度在线网络技术(北京)有限公司 一种图片生成方法与设备
US10621279B2 (en) * 2017-11-27 2020-04-14 Adobe Inc. Conversion quality evaluation for digitized forms
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
CN108509960B (zh) * 2018-04-20 2022-04-22 科大讯飞股份有限公司 一种文本朝向检测方法及装置
CN110533020B (zh) * 2018-05-25 2022-08-12 腾讯科技(深圳)有限公司 一种文字信息的识别方法、装置及存储介质
CN109034159B (zh) * 2018-05-28 2021-05-28 北京捷通华声科技股份有限公司 图像信息提取方法和装置
US10824854B2 (en) * 2018-06-18 2020-11-03 Sap Se Systems and methods for extracting data from an image
CN110096257B (zh) * 2019-04-10 2023-04-07 沈阳哲航信息科技有限公司 一种基于智能识别的设计图形自动化评判系统及方法
US11687796B2 (en) 2019-04-17 2023-06-27 International Business Machines Corporation Document type-specific quality model
CN110266906B (zh) * 2019-06-21 2021-04-06 同略科技有限公司 档案智能数字化加工流水方法、系统、终端和存储介质
RU2721186C1 (ru) * 2019-07-22 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Оптическое распознавание символов документов с некопланарными областями
US11551461B2 (en) * 2020-04-10 2023-01-10 I.R.I.S. Text classification

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5812697A (en) * 1994-06-10 1998-09-22 Nippon Steel Corporation Method and apparatus for recognizing hand-written characters using a weighting dictionary
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
US5889884A (en) * 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image
JPH11338974A (ja) * 1998-05-28 1999-12-10 Canon Inc 文書処理方法及び装置、記憶媒体
JP2001043310A (ja) * 1999-07-30 2001-02-16 Fujitsu Ltd 文書画像補正装置および補正方法
US6993205B1 (en) * 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
JP4607633B2 (ja) * 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP4869841B2 (ja) * 2006-03-14 2012-02-08 株式会社リコー 画像処理装置、画像方向判別方法、および画像方向判別プログラム
US8144989B2 (en) * 2007-06-21 2012-03-27 Sharp Laboratories Of America, Inc. Methods and systems for identifying text orientation in a digital image
CN101833648B (zh) * 2009-03-13 2012-05-02 汉王科技股份有限公司 文本图像的校正方法
CN101882215B (zh) * 2009-05-25 2013-01-09 汉王科技股份有限公司 判断文本区域排版方向的方法
US8400453B2 (en) * 2011-06-30 2013-03-19 Google Inc. Rendering a text image following a line

Also Published As

Publication number Publication date
CN103455806B (zh) 2017-06-13
EP2669847A3 (en) 2014-10-15
JP2013250975A (ja) 2013-12-12
CN103455806A (zh) 2013-12-18
US9070035B2 (en) 2015-06-30
US20130322757A1 (en) 2013-12-05
EP2669847B1 (en) 2017-11-01
EP2669847A2 (en) 2013-12-04

Similar Documents

Publication Publication Date Title
JP6115323B2 (ja) 文書処理装置、文書処理方法およびスキャナー
US10706320B2 (en) Determining a document type of a digital document
US9384409B1 (en) Word segmentation for document image using recursive segmentation
JP4516778B2 (ja) データ処理システム
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
RU2634195C1 (ru) Способ и устройство для определения пригодности документа для оптического распознавания символов (ocr)
JP6188976B2 (ja) 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
RU2640296C1 (ru) Способ и устройство для определения пригодности документа для оптического распознавания символов (ocr) на сервере
JP4522468B2 (ja) 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体
JP5561100B2 (ja) 隠蔽された文字の復元方法及び画像処理装置
CN112861865B (zh) 一种基于ocr技术的辅助审计方法
RU2581786C1 (ru) Определение преобразований изображения для повышения качества оптического распознавания символов
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
US11288536B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US20220051009A1 (en) Systems and methods for automatic context-based annotation
JP2011018311A (ja) 画像検索装置、画像検索プログラムおよび記録媒体
Banik et al. Segmentation of Bangla words in scene images
Dey et al. A comparative study of margin noise removal algorithms on marnr: A margin noise dataset of document images
Elmore et al. A morphological image preprocessing suite for ocr on natural scene images
CN111881778B (zh) 文本检测的方法、装置、设备和计算机可读介质
WO2021098861A1 (zh) 识别文本的方法、装置、识别设备和存储介质
JP5213338B2 (ja) 文字認識装置、文字認識方法、コンピュータプログラム
JP2010186343A (ja) コンテンツ識別方法及び装置
CN116740742A (zh) 非完整框线表格的提取方法、装置、设备及存储介质
JP5691281B2 (ja) 文字認識装置、文字認識プログラム及び文字認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170306

R150 Certificate of patent or registration of utility model

Ref document number: 6115323

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150