JP6817251B2

JP6817251B2 - 文字認識装置および文字認識方法

Info

Publication number: JP6817251B2
Application number: JP2018111354A
Authority: JP
Inventors: 中西　徹; 徹中西; 全健金
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2021-01-20
Anticipated expiration: 2038-06-11
Also published as: CN110580476B; US20190377941A1; CN110580476A; JP2019215630A

Description

本発明は、書物に記載されている文字を認識する文字認識装置および文字認識方法に関する。

読むために書物を開くことにより、書物が傷むことがある。特に、古い書物は、開くと傷んだり破損したりする可能性がある。例えば、イタリアで発見された、古代ローマ時代に噴火によって焦げてしまった巻物状の古文献がある。この古文献は、全体が黒ずんでいるため肉眼による判読が難しく、かつ、脆いので開くことができない。そこで、このような書物に対してＸ線位相コントラスト断層撮影を行うことにより、書物を傷ませることなく、書物の三次元データを取得する。

また、上記のような三次元データから、書物の各ページに相当する二次元データを生成する書物電子化装置が知られている。特許文献１に開示されている書物電子化装置は、書物の三次元データを用いて、書物のページに対応するページ領域を特定し、ページ領域における文字列または図形（認識前）を２次元平面にマッピングすることにより、書物に記された文字列または図形（認識前）を含む二次元ページデータを生成する。なお、ここにおける文字列または図形は、認識前の複数の点のことを意味し、当該複数の点から文字列または図形が認識される。

国際公開２０１７／１３１１８４号公報

上述の書物電子化装置による二次元ページデータ生成の次の工程として、書物に記載された文字列または図形を認識する工程がある。当該工程では、二次元ページデータが含む、インクに対応する値（例えば、Ｘ線の反射光の強度）を有する複数の点（ＮＯＤＥ，ノード）を走査することにより、文字または図形を認識する。

上記の認識工程において、二次元ページデータは、インク以外にも背景に対応する値を有する点も含むため、それらの背景に対応する点を含めた複数の点を走査する必要があり、文字を認識するまでに時間を要するという問題がある。

本発明の一態様は、上記の問題点に鑑みてなされたものであり、その目的は、二次元ページデータから文字を効率的に認識することができる文字認識装置および文字認識方法を実現することを目的とする。

上記の課題を解決するために、本発明の一態様に係る文字認識装置は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、前記特有点のデータを格納する格納部と、を備え、前記認識部は、前記格納部に格納された前記特有点のデータを参照して文字を認識し、過去の文字認識結果に基づいて、前記特有点のデータを生成する特有点データ生成部を備え、前記特有点データ生成部は、認識した文字の特有点を決定し、前記認識した文字の特有点のデータとして前記格納部に追加格納する。

上記の課題を解決するために、本発明の一態様に係る文字認識装置は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、を備え、前記認識部は、前記インクに対応する値を有する複数の点から文字の前記特有点のうち一部の前記特有点を抽出することにより、当該文字を認識する。

上記の課題を解決するために、本発明の一態様に係る文字認識方法は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成工程と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成工程と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点のうち一部の前記特有点を抽出することにより、当該文字を認識する認識工程と、を含む。

本発明の一態様によれば、二次元ページデータから文字を効率的に認識することができる。

本発明の実施形態１に係る書物電子化装置の要部構成を示すブロック図である。上記書物電子化装置の処理の流れの一例を示すフローチャートである。上記書物電子化装置が備える文字領域決定部が決定した１つの領域における各ノードを示す図である。文字「あ」の特有点を示す図である。上記書物電子化装置が備える文字決定部がある領域において、文字「あ」の特有点を抽出した様子を示す図である。本発明の実施形態２に係る書物電子化装置の要部構成を示すブロック図である。（ａ）および（ｂ）は、上記書物電子化装置が備える特有点データ生成部による特有点データの生成方法の一例を説明するための図である。（ａ）および（ｂ）は、上記書物電子化装置が備える特有点データ生成部による特有点データの生成方法の一例を説明するための図である。（ａ）〜（ｃ）は、上記書物電子化装置が備える特有点データ生成部による特有点データの生成方法の他の一例を説明するための図である。

〔実施形態１〕
以下、本発明の一実施形態について、詳細に説明する。

（書物電子化装置１Ａの構成）
図１は、本実施形態における書物電子化装置１Ａ（文字認識装置）の要部構成を示すブロック図である。図１に示すように、書物電子化装置１Ａは、三次元データ生成部１０と、二次元ページデータ生成部２０と、文字認識部３０Ａ（認識部）とを備えている。

三次元データ生成部１０は、書物を撮像し、当該書物の三次元データを生成する。三次元データ生成部１０は、図１に示すように、Ｘ線照射装置１１と、検出器１２とを備えている。

Ｘ線照射装置１１は、書物にＸ線を照射する。Ｘ線照射装置１１は、例えば、Ｘ線照射の出力（波長）を調整可能に構成されており、所望の波長のＸ線を書物へ照射することが可能である。

検出器１２は、書物に照射されたＸ線を検出する。検出器１２は、Ｘ線の検出位置とその位置でのＸ線の強度とを含む検出値を取得するように構成されている。検出器１２は、取得した検出値を三次元データとして二次元ページデータ生成部２０（より詳細には、位置指定部２１）に出力する。

二次元ページデータ生成部２０は、三次元データ生成部１０によって生成された三次元データから、インクに対応する値または背景に対応する値を有する複数の点（ノード）の情報を含む二次元ページデータを生成する。二次元ページデータ生成部２０は、図１に示すように、位置指定部２１と、面特定部２２と、データ生成部２３とを備えている。

位置指定部２１は、検出器１２から出力された三次元データのデータ値に基づき、ページ領域を特定するための初期点を指定する。ページ領域とは、三次元データのうちの、書物の各ページに対応する部分であり、当該各ページに対応するある面上に存在するノードの集合である。位置指定部２１は、初期点の情報を面特定部２２に出力する。

面特定部２２は、位置指定部２１によって指定された初期点に繋がるページ領域を特定する。面特定部２２は、ページ領域に対応する点の集合、および各点のデータ値をデータ生成部２３に出力する。

データ生成部２３は、面特定部によって特定されたページ領域のデータを二次元の（平面の）ページデータ（以降では、二次元ページデータと称する）に変換する。二次元ページデータは、インクに対応する値または背景に対応する値を有する複数の点の情報を含み、書物のページ内における複数の文字または図形の位置関係（文字などの配置）の情報を含んでいる。データ生成部２３は、生成した二次元ページデータを文字認識部３０Ａ（より詳細には、文字領域決定部３２）に出力する。

文字認識部３０Ａは、二次元ページデータ生成部２０によって生成された二次元ページデータに含まれるインクに対応する値を有する複数の点から文字の複数の特有点（必須文字構成点）を抽出（特定）することにより、当該文字を認識する。文字認識部３０Ａは、図１に示すように、格納部３１と、文字領域決定部３２と、文字決定部３３とを備える。

格納部３１は、文字の特有点が格納している。換言すれば、格納部３１には、文字（例えば、ひらがな、カタカナ、漢字、アルファベット、数字など）の特有点が記憶されている。本明細書における「特有点」とは、文字を構成するのに必須となる点である。１つの文字に対する特有点の数は、とくに制限されることなく、文字によって異なっていてもよい。例えば、後述する「あ」の場合には、特有点の数は２０である。

文字領域決定部３２は、データ生成部２３が生成した二次元ページデータから１つの文字の領域を決定する。１つの文字の領域の決定方法は、公知の技術を用いることができる。文字領域決定部３２は、１つの二次元ページデータに記載されているすべての文字のそれぞれについて、領域を決定する。

文字決定部３３は、文字領域決定部３２が決定した１つの文字の領域に記載されている文字を決定する。具体的には、文字決定部３３は、まず、格納部３１に格納されている文字の特有点の情報を読み込む。次に、文字決定部３３は、読み込んだ特有点に対応する点のノードがインクに対応するノードであるかどうかを判定する。換言すれば、文字決定部３３は、格納部３１に格納された特有点のデータを参照して、二次元ページデータに含まれるインクに対応する値を有する複数のノードから文字の複数の特有点を抽出する。そして、文字決定部３３は、すべての特有点に対応する点のノードがインクに対応するノードである場合に、当該領域に当該文字が記載されていると決定（認識）する。

（書物電子化装置１Ａの処理の一例）
図２は、書物電子化装置１Ａの処理（文字認識方法）の流れの一例を示すフローチャートである。図２に示すように、書物電子化装置１Ａにおける処理では、まず、三次元データ生成部１０が書物を撮像し、当該書物の三次元データを生成する（Ｓ１、三次元データ生成工程）。具体的には、Ｘ線照射装置１１により書物にＸ線を照射し、検出器１２により当該Ｘ線を検出する。Ｘ線照射装置１１は、閉じたままの書物に対してＸ線を照射する。Ｘ線照射装置１１から照射されたＸ線の一部は、書物中のインクによって吸収される。

検出器１２は、書物を通過したＸ線の、特定の位置と強度とを含む検出値を検出し、検出した検出値を三次元データとして二次元ページデータ生成部２０（より詳細には、位置指定部２１）に出力する。書物中のインクが存在する領域を通過したＸ線は、書物の媒体（紙）を通過したＸ線よりも弱い強度のＸ線として検出器１２に検出される、上記検出値の集合は、このような弱い強度のＸ線が検出された点を含む三次元データを構成する。当該三次元データは、インクや紙面（背景）の位置情報と、当該位置におけるＸ線の強度の情報とを含むデータである。このように、Ｘ線で書物を撮像することによって、書物中のインクの三次元データが取得される。

次に、二次元ページデータ生成部２０が、三次元データ生成部１０によって生成された三次元データから、インクに対応する値または背景に対応する値を有する複数の点（ノード）の情報を含む二次元ページデータを生成する（Ｓ２、二次元ページデータ生成工程）。具体的には、まず、位置指定部２１が、三次元データにおいて、重なっている媒体の少なくとも一枚（書物が冊子であれば１頁）と交差するように、線状の経路を指定する。当該経路は、例えば、書物が冊子の場合では、書物の表紙と裏表紙とを貫通し、書物のすべてのページと交差する直線である。

そして、位置指定部２１は、上記経路上における、シートのデータ値と隙間のデータ値とを分ける閾値に対応する点をページ領域の初期点として指定する。位置指定部２１は、例えば、複数のページ領域に対応する複数の初期点を指定する。位置指定部２１は、初期点の情報を面特定部２２に出力する。

次に、面特定部２２が、上記初期点から決まるページ領域の位置を特定する。ページ領域は、例えば、三次元データの直交座標中に、当該直交座標を構成する単位セルを横切るように配置されている。面特定部２２は、例えば、ページ領域が横断する単位セルの辺において上記閾値以上である点を上記ページ領域に対応する点とし、上記ページ領域を特定する。

次に、データ生成部２３が、面特定部２２が特定したページ領域の各点のデータ値を二次元平面上にマッピングすることによって二次元ページデータを生成する。二次元ページデータの各点のデータ値は、概ねシート（背景）およびインクのいずれかに対応する。マッピングの方法には、公知の方法（例えば、鞍点特徴を利用した三次元メッシュ展開など）を用いることができる。

次に、文字認識部３０Ａが、データ生成部２３が生成した二次元ページデータに含まれる文字を認識する（認識工程）。

具体的には、まず、文字領域決定部３２が、データ生成部２３が生成した二次元ページデータにおいて各文字の領域を決定する（Ｓ３）。

次に、文字決定部３３が、文字領域決定部３２が決定したそれぞれ領域に記載されている文字を決定する。ここでは、１つの領域に「あ」が記載されている例について説明する。図３は、文字領域決定部３２が決定した１つの領域における各ノードを示す図である。図３に示すように、当該領域は、インクに対応するノードであるノード４０Ａと、背景に対応するノード４０Ｂと有しており、ノード４０Ａによって文字「あ」が形成されている。なお、図３では、簡略化のため、各ノードのそれぞれが認識できる程度に大きく図示しているが、実際のノード間の間隔は、数μｍ程度である。そのため、インクに対応するノードであるノード４０Ａは、ノード群となる。この図示方法については、後述する図４、５、および７〜９においても同様である。

文字決定部３３は、まず、格納部３１から、各文字の特有点を読み出し、読み出した特有点に対応する点のノードが、インクに対応するノードであるかどうかを判定する。

図４は、文字「あ」の特有点５０を示す図である。図５は、文字決定部３３が上記領域において、文字「あ」の特有点を抽出した様子を示す図である。図４および図５に示すように、文字決定部３３は、文字「あ」のすべての特有点に対応するノードがノード４０Ａであると判定した場合、文字決定部３３は、当該領域に記載されている文字を「あ」であると判定する。

次に、文字決定部３３は、二次元ページデータにおいて、まだ文字が決定されていない領域があるかどうかを判定する（Ｓ５）。まだ文字が決定されていない領域が存在する場合（Ｓ５でＮＯ）、文字決定部３３は、次の領域について、ステップＳ４を行う。一方、すべての領域について文字を決定した場合、書物電子化装置１Ａは、処理を終了する。

従来の書物電子化装置では、文字を認識するために、二次元ページデータにおけるすべてのノードを用いていた。これに対して、本実施形態における書物電子化装置１Ａでは、上述のように、文字の特有点のみを用いて文字を認識する。これにより、文字を認識するための処理を少なくすることができる。その結果、文字を認識するための時間を短縮することができる。換言すれば、書物電子化装置１Ａは、二次元ページデータから文字を効率的に認識することができる。

なお、本実施形態では、すべての特有点に対応する点のノードがインクに対応するノードである場合に、当該領域に当該文字が記載されていると特定する態様であったが、これに限られない。例えば、複数の特有点のうち、所定の割合（例えば、８０％）以上の特有点に対応する点のノードがインクに対応するノードである場合に、当該領域に当該文字が記載されていると特定してもよい。これにより、処理時間をさらに短縮することができる。

〔実施形態２〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

図６は、本実施形態における書物電子化装置１Ｂの要部構成を示すブロック図である。書物電子化装置１Ｂは、実施形態１における文字認識部３０Ａに代えて文字認識部３０Ｂ（認識部）を備えている。

文字認識部３０Ｂは、文字領域決定部３２と、特有点データ生成部３４と、格納部３５と、文字決定部３６とを備える。

特有点データ生成部３４は、過去の文字認識結果に基づいて、文字の特有点のデータを生成する。具体的には、特有点データ生成部３４は、文字領域決定部３２が決定した１つの文字の領域におけるすべてのノードを解析して、当該文字の特有点（必須文字構成点）を決定する。特有点データ生成部３４は、生成した特有点のデータを格納部３５に格納する。

特有点データ生成部３４による特有点データの生成方法の一例について、図７および図８を参照しながら説明する。図７の（ａ）および（ｂ）、並びに図８の（ａ）および（ｂ）は、特有点データ生成部３４による特有点データの生成方法の一例を説明するための図である。

特有点データ生成部３４は、まず、書物に記載されている文字を認識して記憶する。次に、特有点データ生成部３４は、１つの文字の全てのノードが含まれる領域（以降では、単一文字領域と称する）を決定する。

次に、図７の（ａ）に示すように、記憶した文字（詳細には、文字のノード）をそれぞれ単一文字領域にプロットする。以降では、文字「Ｇ」の特有点データの生成方法について説明する。図７の（ｂ）に示すように、次に、特有点データ生成部３４は、例えば、文字「Ｇ」と文字「Ｃ」とを重ね、文字「Ｇ」のノード４０Ａのうち、文字「Ｃ」のノードと重複しないノードであるノード４０Ｃを抽出する。

次に、特有点データ生成部３４は、抽出したノード４０Ｃを他の文字と重ねる。図８の（ａ）は、抽出したノード４０Ｃを文字「Ａ」と重ね合わせた例を示す図である。

次に、特有点データ生成部３４は、図８の（ｂ）に示すように、ノード４０Ｃのうち、他の文字と重ならないノード４０Ｃを抽出し、当該ノード４０Ｃを文字「Ｇ」の特有点５０であると決定する。

ここで、特有点データ生成部３４による特有点データの生成方法の他の一例について、図９を参照しながら説明する。図９の（ａ）〜（ｃ）は、特有点データ生成部３４による特有点データの生成方法の他の一例を説明するための図である。ここでは、文字「Ｃ」の特有点データの生成方法について説明する。

文字「Ｃ」については、図９の（ａ）に示すように、文字「Ｇ」と文字「Ｃ」とを重ねた場合、文字「Ｃ」のすべてのノード４０Ａが文字「Ｇ」のノード４０Ａと重複する。このような場合、特有点データ生成部３４は、図９の（ｂ）に示すように、他の文字と重複する可能性が小さいノードであるノード４０Ｄ（第２特有点）を抽出する。そして、特有点データ生成部３４は、図９の（ｃ）に示すように、（１）抽出したノード４０Ｄがあり、かつ、（２）文字「Ｇ」の特有点５０が無い場合に、当該文字が「Ｃ」であると特定する。換言すれば、特有点データ生成部３４は、ノード４０Ｄと、文字「Ｇ」の特有点５０とを、文字「Ｃ」の特有点であると決定する。

文字決定部３６は、文字領域決定部３２が決定した１つの文字の領域に記載されている文字を決定する。具体的には、文字決定部３６は、まず、格納部３５に格納されている文字の特有点の情報を読み込む。次に、文字決定部３６は、読み込んだ特有点に対応する点のノードがインクに対応するノードであるかどうかを判定する。換言すれば、文字決定部３６は、格納部３５に格納された特有点のデータを参照して、二次元ページデータに含まれるインクに対応する値を有する複数のノードから文字の複数の特有点を抽出する。そして、文字決定部３６は、すべての特有点に対応する点のノードがインクに対応するノードである場合に、当該領域に当該文字が記載されていると決定（認識）する。

以上のように、本実施形態における書物電子化装置１Ｂでは、特有点データ生成部３４により、文字の特有点を生成する。そのため、例えば、手書きの文字などの文字のように、特有点が独自のものである場合においても、文字を効率良く認識することができる。

〔ソフトウェアによる実現例〕
書物電子化装置１Ａ・１Ｂの制御ブロック（特に文字認識部３０Ａおよび文字認識部３０Ｂ）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、書物電子化装置１Ａ・１Ｂは、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも１つのプロセッサ（制御装置）を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも１つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る文字認識装置は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、を備える。

本発明の態様２に係る文字認識装置は、上記態様１において、前記特有点のデータを格納する格納部をさらに備え、前記認識部は、前記格納部に格納された前記特有点のデータを参照して文字を認識する。

本発明の態様３に係る文字認識装置は、上記態様１において、前記認識部は、過去の文字認識結果に基づいて、前記特有点のデータを生成する特有点データ生成部を備え、特有点データ生成部が生成した前記特有点のデータを参照して文字を認識する。

本発明の態様４に係る文字認識装置は、上記態様１〜３のいずれかにおいて、前記認識部は、前記インクに対応する値を有する複数の点から文字の前記特有点のうち一部の前記特有点を抽出することにより、当該文字を認識する。

本発明の態様５に係る文字認識方法は、書物を撮像し、前記書物の三次元データを生成する三次元データ生成工程と、前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成工程と、前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識工程と、を含む。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１Ａ、１Ｂ書物電子化装置（文字認識装置）
１０三次元データ生成部
２０二次元ページデータ生成部
３０Ａ、３０Ｂ文字認識部（認識部）
３１格納部
３４特有点データ生成部
５０特有点

Claims

書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、
前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、
前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、
前記特有点のデータを格納する格納部と、を備え、
前記認識部は、
前記格納部に格納された前記特有点のデータを参照して文字を認識し、
過去の文字認識結果に基づいて、前記特有点のデータを生成する特有点データ生成部を備え、
前記特有点データ生成部は、認識した文字の特有点を決定し、前記認識した文字の特有点のデータとして前記格納部に追加格納することを特徴とする文字認識装置。
書物を撮像し、前記書物の三次元データを生成する三次元データ生成部と、
前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成部と、
前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点を抽出することにより、当該文字を認識する認識部と、を備え、
前記認識部は、前記インクに対応する値を有する複数の点から文字の前記特有点のうち一部の前記特有点を抽出することにより、当該文字を認識することを特徴とする、文字認識装置。
書物を撮像し、前記書物の三次元データを生成する三次元データ生成工程と、
前記三次元データから、インクに対応する値または背景に対応する値を有する複数の点の情報を含む二次元ページデータを生成する二次元ページデータ生成工程と、
前記二次元ページデータに含まれる前記インクに対応する値を有する複数の点から文字の複数の特有点のうち一部の前記特有点を抽出することにより、当該文字を認識する認識工程と、を含むことを特徴とする文字認識方法。