JP6817251B2 - 文字認識装置および文字認識方法 - Google Patents

文字認識装置および文字認識方法 Download PDF

Info

Publication number
JP6817251B2
JP6817251B2 JP2018111354A JP2018111354A JP6817251B2 JP 6817251 B2 JP6817251 B2 JP 6817251B2 JP 2018111354 A JP2018111354 A JP 2018111354A JP 2018111354 A JP2018111354 A JP 2018111354A JP 6817251 B2 JP6817251 B2 JP 6817251B2
Authority
JP
Japan
Prior art keywords
character
dimensional
data
points
book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018111354A
Other languages
English (en)
Other versions
JP2019215630A (ja
Inventor
中西 徹
徹 中西
全健 金
全健 金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018111354A priority Critical patent/JP6817251B2/ja
Priority to CN201910480016.XA priority patent/CN110580476B/zh
Priority to US16/432,252 priority patent/US20190377941A1/en
Publication of JP2019215630A publication Critical patent/JP2019215630A/ja
Application granted granted Critical
Publication of JP6817251B2 publication Critical patent/JP6817251B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • G06K7/1408Methods for optical code recognition the method being specifically adapted for the type of code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • G06K7/1408Methods for optical code recognition the method being specifically adapted for the type of code
    • G06K7/14172D bar codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • G06V30/373Matching; Classification using a special pattern or subpattern alphabet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • General Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Character Discrimination (AREA)

Description

本発明は、書物に記載されている文字を認識する文字認識装置および文字認識方法に関する。
読むために書物を開くことにより、書物が傷むことがある。特に、古い書物は、開くと傷んだり破損したりする可能性がある。例えば、イタリアで発見された、古代ローマ時代に噴火によって焦げてしまった巻物状の古文献がある。この古文献は、全体が黒ずんでいるため肉眼による判読が難しく、かつ、脆いので開くことができない。そこで、このような書物に対してX線位相コントラスト断層撮影を行うことにより、書物を傷ませることなく、書物の三次元データを取得する。
また、上記のような三次元データから、書物の各ページに相当する二次元データを生成する書物電子化装置が知られている。特許文献1に開示されている書物電子化装置は、書物の三次元データを用いて、書物のページに対応するページ領域を特定し、ページ領域における文字列または図形(認識前)を2次元平面にマッピングすることにより、書物に記された文字列または図形(認識前)を含む二次元ページデータを生成する。なお、ここにおける文字列または図形は、認識前の複数の点のことを意味し、当該複数の点から文字列または図形が認識される。
国際公開2017/131184号公報
上述の書物電子化装置による二次元ページデータ生成の次の工程として、書物に記載された文字列または図形を認識する工程がある。当該工程では、二次元ページデータが含む、インクに対応する値(例えば、X線の反射光の強度)を有する複数の点(NODE,ノード)を走査することにより、文字または図形を認識する。
上記の認識工程において、二次元ページデータは、インク以外にも背景に対応する値を有する点も含むため、それらの背景に対応する点を含めた複数の点を走査する必要があり、文字を認識するまでに時間を要するという問題がある。
本発明の一態様は、上記の問題点に鑑みてなされたものであり、その目的は、二次元ページデータから文字を効率的に認識することができる文字認識装置および文字認識方法を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る文字認識装置は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、前記特有点のデータを格納する格納部と、を備え、前記認識部は、前記格納部に格納された前記特有点のデータを参照して文字を認識し、過去の文字認識結果に基づいて、前記特有点のデータを生成する特有点データ生成部を備え、前記特有点データ生成部は、認識した文字の特有点を決定し、前記認識した文字の特有点のデータとして前記格納部に追加格納する
上記の課題を解決するために、本発明の一態様に係る文字認識装置は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、を備え、前記認識部は、前記インクに対応する値を有する複数の点から文字の前記特有点のうち一部の前記特有点を抽出することにより、当該文字を認識する。
上記の課題を解決するために、本発明の一態様に係る文字認識方法は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成工程と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成工程と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点のうち一部の前記特有点を抽出することにより、当該文字を認識する認識工程と、を含む。
本発明の一態様によれば、二次元ページデータから文字を効率的に認識することができる。
本発明の実施形態1に係る書物電子化装置の要部構成を示すブロック図である。 上記書物電子化装置の処理の流れの一例を示すフローチャートである。 上記書物電子化装置が備える文字領域決定部が決定した1つの領域における各ノードを示す図である。 文字「あ」の特有点を示す図である。 上記書物電子化装置が備える文字決定部がある領域において、文字「あ」の特有点を抽出した様子を示す図である。 本発明の実施形態2に係る書物電子化装置の要部構成を示すブロック図である。 (a)および(b)は、上記書物電子化装置が備える特有点データ生成部による特有点データの生成方法の一例を説明するための図である。 (a)および(b)は、上記書物電子化装置が備える特有点データ生成部による特有点データの生成方法の一例を説明するための図である。 (a)〜(c)は、上記書物電子化装置が備える特有点データ生成部による特有点データの生成方法の他の一例を説明するための図である。
〔実施形態1〕
以下、本発明の一実施形態について、詳細に説明する。
(書物電子化装置1Aの構成)
図1は、本実施形態における書物電子化装置1A(文字認識装置)の要部構成を示すブロック図である。図1に示すように、書物電子化装置1Aは、三次元データ生成部10と、二次元ページデータ生成部20と、文字認識部30A(認識部)とを備えている。
三次元データ生成部10は、書物を撮像し、当該書物の三次元データを生成する。三次元データ生成部10は、図1に示すように、X線照射装置11と、検出器12とを備えている。
X線照射装置11は、書物にX線を照射する。X線照射装置11は、例えば、X線照射の出力(波長)を調整可能に構成されており、所望の波長のX線を書物へ照射することが可能である。
検出器12は、書物に照射されたX線を検出する。検出器12は、X線の検出位置とその位置でのX線の強度とを含む検出値を取得するように構成されている。検出器12は、取得した検出値を三次元データとして二次元ページデータ生成部20(より詳細には、位置指定部21)に出力する。
二次元ページデータ生成部20は、三次元データ生成部10によって生成された三次元データから、インクに対応する値または背景に対応する値を有する複数の点(ノード)の情報を含む二次元ページデータを生成する。二次元ページデータ生成部20は、図1に示すように、位置指定部21と、面特定部22と、データ生成部23とを備えている。
位置指定部21は、検出器12から出力された三次元データのデータ値に基づき、ページ領域を特定するための初期点を指定する。ページ領域とは、三次元データのうちの、書物の各ページに対応する部分であり、当該各ページに対応するある面上に存在するノードの集合である。位置指定部21は、初期点の情報を面特定部22に出力する。
面特定部22は、位置指定部21によって指定された初期点に繋がるページ領域を特定する。面特定部22は、ページ領域に対応する点の集合、および各点のデータ値をデータ生成部23に出力する。
データ生成部23は、面特定部によって特定されたページ領域のデータを二次元の(平面の)ページデータ(以降では、二次元ページデータと称する)に変換する。二次元ページデータは、インクに対応する値または背景に対応する値を有する複数の点の情報を含み、書物のページ内における複数の文字または図形の位置関係(文字などの配置)の情報を含んでいる。データ生成部23は、生成した二次元ページデータを文字認識部30A(より詳細には、文字領域決定部32)に出力する。
文字認識部30Aは、二次元ページデータ生成部20によって生成された二次元ページデータに含まれるインクに対応する値を有する複数の点から文字の複数の特有点(必須文字構成点)を抽出(特定)することにより、当該文字を認識する。文字認識部30Aは、図1に示すように、格納部31と、文字領域決定部32と、文字決定部33とを備える。
格納部31は、文字の特有点が格納している。換言すれば、格納部31には、文字(例えば、ひらがな、カタカナ、漢字、アルファベット、数字など)の特有点が記憶されている。本明細書における「特有点」とは、文字を構成するのに必須となる点である。1つの文字に対する特有点の数は、とくに制限されることなく、文字によって異なっていてもよい。例えば、後述する「あ」の場合には、特有点の数は20である。
文字領域決定部32は、データ生成部23が生成した二次元ページデータから1つの文字の領域を決定する。1つの文字の領域の決定方法は、公知の技術を用いることができる。文字領域決定部32は、1つの二次元ページデータに記載されているすべての文字のそれぞれについて、領域を決定する。
文字決定部33は、文字領域決定部32が決定した1つの文字の領域に記載されている文字を決定する。具体的には、文字決定部33は、まず、格納部31に格納されている文字の特有点の情報を読み込む。次に、文字決定部33は、読み込んだ特有点に対応する点のノードがインクに対応するノードであるかどうかを判定する。換言すれば、文字決定部33は、格納部31に格納された特有点のデータを参照して、二次元ページデータに含まれるインクに対応する値を有する複数のノードから文字の複数の特有点を抽出する。そして、文字決定部33は、すべての特有点に対応する点のノードがインクに対応するノードである場合に、当該領域に当該文字が記載されていると決定(認識)する。
(書物電子化装置1Aの処理の一例)
図2は、書物電子化装置1Aの処理(文字認識方法)の流れの一例を示すフローチャートである。図2に示すように、書物電子化装置1Aにおける処理では、まず、三次元データ生成部10が書物を撮像し、当該書物の三次元データを生成する(S1、三次元データ生成工程)。具体的には、X線照射装置11により書物にX線を照射し、検出器12により当該X線を検出する。X線照射装置11は、閉じたままの書物に対してX線を照射する。X線照射装置11から照射されたX線の一部は、書物中のインクによって吸収される。
検出器12は、書物を通過したX線の、特定の位置と強度とを含む検出値を検出し、検出した検出値を三次元データとして二次元ページデータ生成部20(より詳細には、位置指定部21)に出力する。書物中のインクが存在する領域を通過したX線は、書物の媒体(紙)を通過したX線よりも弱い強度のX線として検出器12に検出される、上記検出値の集合は、このような弱い強度のX線が検出された点を含む三次元データを構成する。当該三次元データは、インクや紙面(背景)の位置情報と、当該位置におけるX線の強度の情報とを含むデータである。このように、X線で書物を撮像することによって、書物中のインクの三次元データが取得される。
次に、二次元ページデータ生成部20が、三次元データ生成部10によって生成された三次元データから、インクに対応する値または背景に対応する値を有する複数の点(ノード)の情報を含む二次元ページデータを生成する(S2、二次元ページデータ生成工程)。具体的には、まず、位置指定部21が、三次元データにおいて、重なっている媒体の少なくとも一枚(書物が冊子であれば1頁)と交差するように、線状の経路を指定する。当該経路は、例えば、書物が冊子の場合では、書物の表紙と裏表紙とを貫通し、書物のすべてのページと交差する直線である。
そして、位置指定部21は、上記経路上における、シートのデータ値と隙間のデータ値とを分ける閾値に対応する点をページ領域の初期点として指定する。位置指定部21は、例えば、複数のページ領域に対応する複数の初期点を指定する。位置指定部21は、初期点の情報を面特定部22に出力する。
次に、面特定部22が、上記初期点から決まるページ領域の位置を特定する。ページ領域は、例えば、三次元データの直交座標中に、当該直交座標を構成する単位セルを横切るように配置されている。面特定部22は、例えば、ページ領域が横断する単位セルの辺において上記閾値以上である点を上記ページ領域に対応する点とし、上記ページ領域を特定する。
次に、データ生成部23が、面特定部22が特定したページ領域の各点のデータ値を二次元平面上にマッピングすることによって二次元ページデータを生成する。二次元ページデータの各点のデータ値は、概ねシート(背景)およびインクのいずれかに対応する。マッピングの方法には、公知の方法(例えば、鞍点特徴を利用した三次元メッシュ展開など)を用いることができる。
次に、文字認識部30Aが、データ生成部23が生成した二次元ページデータに含まれる文字を認識する(認識工程)。
具体的には、まず、文字領域決定部32が、データ生成部23が生成した二次元ページデータにおいて各文字の領域を決定する(S3)。
次に、文字決定部33が、文字領域決定部32が決定したそれぞれ領域に記載されている文字を決定する。ここでは、1つの領域に「あ」が記載されている例について説明する。図3は、文字領域決定部32が決定した1つの領域における各ノードを示す図である。図3に示すように、当該領域は、インクに対応するノードであるノード40Aと、背景に対応するノード40Bと有しており、ノード40Aによって文字「あ」が形成されている。なお、図3では、簡略化のため、各ノードのそれぞれが認識できる程度に大きく図示しているが、実際のノード間の間隔は、数μm程度である。そのため、インクに対応するノードであるノード40Aは、ノード群となる。この図示方法については、後述する図4、5、および7〜9においても同様である。
文字決定部33は、まず、格納部31から、各文字の特有点を読み出し、読み出した特有点に対応する点のノードが、インクに対応するノードであるかどうかを判定する。
図4は、文字「あ」の特有点50を示す図である。図5は、文字決定部33が上記領域において、文字「あ」の特有点を抽出した様子を示す図である。図4および図5に示すように、文字決定部33は、文字「あ」のすべての特有点に対応するノードがノード40Aであると判定した場合、文字決定部33は、当該領域に記載されている文字を「あ」であると判定する。
次に、文字決定部33は、二次元ページデータにおいて、まだ文字が決定されていない領域があるかどうかを判定する(S5)。まだ文字が決定されていない領域が存在する場合(S5でNO)、文字決定部33は、次の領域について、ステップS4を行う。一方、すべての領域について文字を決定した場合、書物電子化装置1Aは、処理を終了する。
従来の書物電子化装置では、文字を認識するために、二次元ページデータにおけるすべてのノードを用いていた。これに対して、本実施形態における書物電子化装置1Aでは、上述のように、文字の特有点のみを用いて文字を認識する。これにより、文字を認識するための処理を少なくすることができる。その結果、文字を認識するための時間を短縮することができる。換言すれば、書物電子化装置1Aは、二次元ページデータから文字を効率的に認識することができる。
なお、本実施形態では、すべての特有点に対応する点のノードがインクに対応するノードである場合に、当該領域に当該文字が記載されていると特定する態様であったが、これに限られない。例えば、複数の特有点のうち、所定の割合(例えば、80%)以上の特有点に対応する点のノードがインクに対応するノードである場合に、当該領域に当該文字が記載されていると特定してもよい。これにより、処理時間をさらに短縮することができる。
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
図6は、本実施形態における書物電子化装置1Bの要部構成を示すブロック図である。書物電子化装置1Bは、実施形態1における文字認識部30Aに代えて文字認識部30B(認識部)を備えている。
文字認識部30Bは、文字領域決定部32と、特有点データ生成部34と、格納部35と、文字決定部36とを備える。
特有点データ生成部34は、過去の文字認識結果に基づいて、文字の特有点のデータを生成する。具体的には、特有点データ生成部34は、文字領域決定部32が決定した1つの文字の領域におけるすべてのノードを解析して、当該文字の特有点(必須文字構成点)を決定する。特有点データ生成部34は、生成した特有点のデータを格納部35に格納する。
特有点データ生成部34による特有点データの生成方法の一例について、図7および図8を参照しながら説明する。図7の(a)および(b)、並びに図8の(a)および(b)は、特有点データ生成部34による特有点データの生成方法の一例を説明するための図である。
特有点データ生成部34は、まず、書物に記載されている文字を認識して記憶する。次に、特有点データ生成部34は、1つの文字の全てのノードが含まれる領域(以降では、単一文字領域と称する)を決定する。
次に、図7の(a)に示すように、記憶した文字(詳細には、文字のノード)をそれぞれ単一文字領域にプロットする。以降では、文字「G」の特有点データの生成方法について説明する。図7の(b)に示すように、次に、特有点データ生成部34は、例えば、文字「G」と文字「C」とを重ね、文字「G」のノード40Aのうち、文字「C」のノードと重複しないノードであるノード40Cを抽出する。
次に、特有点データ生成部34は、抽出したノード40Cを他の文字と重ねる。図8の(a)は、抽出したノード40Cを文字「A」と重ね合わせた例を示す図である。
次に、特有点データ生成部34は、図8の(b)に示すように、ノード40Cのうち、他の文字と重ならないノード40Cを抽出し、当該ノード40Cを文字「G」の特有点50であると決定する。
ここで、特有点データ生成部34による特有点データの生成方法の他の一例について、図9を参照しながら説明する。図9の(a)〜(c)は、特有点データ生成部34による特有点データの生成方法の他の一例を説明するための図である。ここでは、文字「C」の特有点データの生成方法について説明する。
文字「C」については、図9の(a)に示すように、文字「G」と文字「C」とを重ねた場合、文字「C」のすべてのノード40Aが文字「G」のノード40Aと重複する。このような場合、特有点データ生成部34は、図9の(b)に示すように、他の文字と重複する可能性が小さいノードであるノード40D(第2特有点)を抽出する。そして、特有点データ生成部34は、図9の(c)に示すように、(1)抽出したノード40Dがあり、かつ、(2)文字「G」の特有点50が無い場合に、当該文字が「C」であると特定する。換言すれば、特有点データ生成部34は、ノード40Dと、文字「G」の特有点50とを、文字「C」の特有点であると決定する。
文字決定部36は、文字領域決定部32が決定した1つの文字の領域に記載されている文字を決定する。具体的には、文字決定部36は、まず、格納部35に格納されている文字の特有点の情報を読み込む。次に、文字決定部36は、読み込んだ特有点に対応する点のノードがインクに対応するノードであるかどうかを判定する。換言すれば、文字決定部36は、格納部35に格納された特有点のデータを参照して、二次元ページデータに含まれるインクに対応する値を有する複数のノードから文字の複数の特有点を抽出する。そして、文字決定部36は、すべての特有点に対応する点のノードがインクに対応するノードである場合に、当該領域に当該文字が記載されていると決定(認識)する。
以上のように、本実施形態における書物電子化装置1Bでは、特有点データ生成部34により、文字の特有点を生成する。そのため、例えば、手書きの文字などの文字のように、特有点が独自のものである場合においても、文字を効率良く認識することができる。
〔ソフトウェアによる実現例〕
書物電子化装置1A・1Bの制御ブロック(特に文字認識部30Aおよび文字認識部30B)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、書物電子化装置1A・1Bは、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る文字認識装置は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、を備える。
本発明の態様2に係る文字認識装置は、上記態様1において、前記特有点のデータを格納する格納部をさらに備え、前記認識部は、前記格納部に格納された前記特有点のデータを参照して文字を認識する。
本発明の態様3に係る文字認識装置は、上記態様1において、前記認識部は、過去の文字認識結果に基づいて、前記特有点のデータを生成する特有点データ生成部を備え、特有点データ生成部が生成した前記特有点のデータを参照して文字を認識する。
本発明の態様4に係る文字認識装置は、上記態様1〜3のいずれかにおいて、前記認識部は、前記インクに対応する値を有する複数の点から文字の前記特有点のうち一部の前記特有点を抽出することにより、当該文字を認識する。
本発明の態様5に係る文字認識方法は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成工程と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成工程と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識工程と、を含む。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1A、1B 書物電子化装置(文字認識装置)
10 三次元データ生成部
20 二次元ページデータ生成部
30A、30B 文字認識部(認識部)
31 格納部
34 特有点データ生成部
50 特有点

Claims (3)

  1. 書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、
    前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、
    前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、
    前記特有点のデータを格納する格納部と、を備え、
    前記認識部は、
    前記格納部に格納された前記特有点のデータを参照して文字を認識し、
    過去の文字認識結果に基づいて、前記特有点のデータを生成する特有点データ生成部を備え、
    前記特有点データ生成部は、認識した文字の特有点を決定し、前記認識した文字の特有点のデータとして前記格納部に追加格納することを特徴とする文字認識装置。
  2. 書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、
    前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、
    前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、を備え、
    前記認識部は、前記インクに対応する値を有する複数の点から文字の前記特有点のうち一部の前記特有点を抽出することにより、当該文字を認識することを特徴とする、文字認識装置。
  3. 書物を撮像し、前記書物の三次元データを生成する三次元データ生成工程と、
    前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成工程と、
    前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点のうち一部の前記特有点を抽出することにより、当該文字を認識する認識工程と、を含むことを特徴とする文字認識方法。
JP2018111354A 2018-06-11 2018-06-11 文字認識装置および文字認識方法 Active JP6817251B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018111354A JP6817251B2 (ja) 2018-06-11 2018-06-11 文字認識装置および文字認識方法
CN201910480016.XA CN110580476B (zh) 2018-06-11 2019-06-04 文字识别装置以及文字识别方法
US16/432,252 US20190377941A1 (en) 2018-06-11 2019-06-05 Character recognition apparatus and character recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018111354A JP6817251B2 (ja) 2018-06-11 2018-06-11 文字認識装置および文字認識方法

Publications (2)

Publication Number Publication Date
JP2019215630A JP2019215630A (ja) 2019-12-19
JP6817251B2 true JP6817251B2 (ja) 2021-01-20

Family

ID=68765035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018111354A Active JP6817251B2 (ja) 2018-06-11 2018-06-11 文字認識装置および文字認識方法

Country Status (3)

Country Link
US (1) US20190377941A1 (ja)
JP (1) JP6817251B2 (ja)
CN (1) CN110580476B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591513B (zh) * 2020-04-30 2024-03-29 北京字节跳动网络技术有限公司 用于处理图像的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4638784B2 (ja) * 2005-07-19 2011-02-23 オリンパスイメージング株式会社 画像出力装置及びプログラム
US20100033772A1 (en) * 2008-08-08 2010-02-11 Craig Steven Borison Multi-page Scanner/Copier and technique/method to simultaneously scan without separating pages or uncoupling documents or books
CN105894586B (zh) * 2016-03-29 2019-02-22 北方工业大学 一种三维图书模型的单侧页面提取方法
CN107563382A (zh) * 2017-09-21 2018-01-09 曾传德 基于特征捕捉技术的文本识别方法

Also Published As

Publication number Publication date
CN110580476B (zh) 2023-05-23
US20190377941A1 (en) 2019-12-12
CN110580476A (zh) 2019-12-17
JP2019215630A (ja) 2019-12-19

Similar Documents

Publication Publication Date Title
US5748809A (en) Active area identification on a machine readable form using form landmarks
US10496904B2 (en) Book electronization method and book electronization device
TW200931326A (en) Identification and verification of an unknown document according to an Eigen image process
CN106991422A (zh) 字符切割方法、装置及计算机可读存储介质和电子设备
JP6817251B2 (ja) 文字認識装置および文字認識方法
Reza et al. Table localization and segmentation using GAN and CNN
JP6362094B2 (ja) 印刷検品装置、印刷検品方法及びプログラム
US11188747B2 (en) System and method for masking text within images
JP6797869B2 (ja) 書物電子化装置および書物電子化方法
Dhandra et al. Word level script identification in bilingual documents through discriminating features
US10885402B2 (en) Book electronization apparatus and book electronization method
JP6746634B2 (ja) 書物電子化装置および書物電子化方法
JP6561684B2 (ja) スキャナ装置、及びプログラム
JP7328797B2 (ja) 端末装置、文字認識システム及び文字認識方法
JP2017084299A (ja) 画像処理装置および画像処理方法
US20230186711A1 (en) Data generation apparatus, data generation method, and computer-readable recording medium
JPS59163678A (ja) 特徴点検出回路
Wanigapura et al. Handwritten computer program recognition, compilation & execution application
Kiatphaisansophon et al. Efficient Text Bounding Box Identification Using Mask R-CNN: Case of Thai Documents
KR20240079054A (ko) 전자 서식 문서 생성 장치
JPS6222186A (ja) 図面読取り装置
KR20170023441A (ko) 문서 인식 장치 및 문서 인식 방법
US20190251404A1 (en) Character recognition device and character recognition method
Srivasthav Hand Written Character Recognition Using Template Matching
JP2004280530A (ja) 帳票処理システム及び帳票処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201224

R150 Certificate of patent or registration of utility model

Ref document number: 6817251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150