JP5790082B2 - 文書認識装置、文書認識方法、プログラム及び記憶媒体 - Google Patents
文書認識装置、文書認識方法、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP5790082B2 JP5790082B2 JP2011077222A JP2011077222A JP5790082B2 JP 5790082 B2 JP5790082 B2 JP 5790082B2 JP 2011077222 A JP2011077222 A JP 2011077222A JP 2011077222 A JP2011077222 A JP 2011077222A JP 5790082 B2 JP5790082 B2 JP 5790082B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- ruby
- determination
- character
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Description
第1の手法は、特許文献1の従来技術として記載されている手法である(特許文献1の[0002]、[0003]、図7参照)。横書きの文書画像を例にして説明する。まず行方向に第1射影(黒画素の分布を示す。)を取り、行の高さを得る。次に、第1射影と垂直方向に第2射影(黒画素の分布を示す。)を取り、行の長さ及び画像ブロック(ドット分布の外接矩形等)を抽出する。次に、各画像ブロックの幅の平均等から、基準文字サイズを求める。そして、先に得られた複数の画像ブロックを結合したときに、その幅が基準文字サイズになる場合にはそれらの画像ブロックを結合して1文字分の文字矩形領域として決定する。また、画像ブロックが基準文字サイズの整数倍になっていれば、それを基準文字サイズで整数等分して1文字分の文字矩形領域を決定する。
第2の手法は、特許文献2の従来技術として記載されている手法である(特許文献2の[0002]参照)。まず、入力文字列画像から図形としてまとまりのある黒画素の連結パターンを抽出し、抽出された各々のパターンについて、その外接矩形を求める。次に、これらの矩形を1つの行を構成する要素と判断する統合規則(例えば、矩形相互の水平、垂直方向の距離が所定範囲内にあれば統合する。)に従い統合し、得られる行矩形により行の切り出しを行っている。
尚、ルビは、「モノルビ」と「グループルビ」の2種類に分けることができる。親文字が「漢字」、ルビが「フリガナ」の場合を例に説明すると、「モノルビ」とは、漢字1文字ごと振られるルビであり、「グループルビ」とは、単語単位に振られるルビである。また、「モノルビ」の特別な場合として、「圏点」(傍点、ルビ点とも言う。)がある。「圏点」は、注意すべき所を示すために、文章中の文字のわきに付ける小さな点などである。また、「グループルビ」の特別な場合として、「当て字」(宛字、借り字とも言う。)がある。「当て字」は、日本語を漢字で書く場合に、漢字の音や訓を、その字の意味に関係なく当てるものである。
第2の手法の場合、ルビが存在する行(ルビ行)が、本文行と同様に切り出され、ルビ行の文字認識結果が本文行の文字認識結果と混ざって出力されてしまうという問題がある。また、第2の手法では、行を構成する文字の文字間や大きさがほぼ均等であることを前提条件としている。ところが、ある本文行内において、ルビが付与されている異なる親文字同士が極端に離れている場合は、ルビ行を構成する文字の文字間が大きく開くことになり、前提条件を満たさない。その結果、統合規則に反し、ルビ行として切り出されないという問題もある。
特許文献1に記載の手法では、通常の射影処理によって行切り出しが正常に行えなかった文字矩形領域に対し、文字サイズを利用して行と行間の境界位置を割り出し、ルビ文字領域と本文文字領域を分割し、それぞれの文字認識結果を対応付けて出力させる。
また、特許文献2に記載の手法では、基準行を特定し、基準行の行高の1/2以下の行高である行を「ルビ行」と特定し、ルビ行と本文行の文字認識結果を別々に出力させる。
また、特許文献3に記載の手法では、名刺の氏名(=親文字)にふられるルビのように、文字行内において個々の親文字が極端に離れていたとしても、ルビ文字の領域を連結して1つのルビ文字列領域として抽出し、このルビ文字列領域に近接し、かつこのルビ文字列領域の長辺の長さによって区切られる文字列領域を親文字の文字列として特定する。
また、特許文献2では、そもそも親文字を特定することに言及しておらず、特許文献1と同様の課題がある。
また、特許文献3の手法は名刺に対するものであり、一般の日本語文書(教科書、実用書、小説など)に対してそのまま適用できるものではない。更に、特許文献3の手法では、文書作成者の意図により、文書画像中においてモノルビ、グループルビといったルビ種別を使い分けていたとしても、全てグループルビとして出力されてしまうため、ルビ種別情報が失われてしまうという課題もある。つまり、教科書や低年齢向けの教材等、教育的配慮の為にモノルビが使用される場合、その認識結果を全て修正する必要があり、手間がかかる。
文書画像から文書認識処理を経てリフロー型電子書籍用データを作成する場合、グループルビのままでは、改行によるルビ区切り位置の決定を自動処理することができない。つまり、ルビ区切り位置の決定を自動処理させるためには、内部的にモノルビとしての情報を保持しておく必要がある。
第1の発明によって、ルビ文字の対象となる親文字を正しく特定することができる。
第2の発明によって、グループルビや親文字よりも長いルビが付与されていても、親文字を正しく特定できる。
これによって、ルビ文字の認識結果にルビ種別情報を付加することができる。例えば、文書作成者の意図により、文書画像中においてモノルビ、グループルビといったルビ種別を使い分けていた場合、そのルビ種別情報を失うことがない。
これによって、文書画像から文書認識処理を経てリフロー型電子書籍用データを作成する場合、ルビ区切り位置の決定を自動処理させるための内部的な情報を出力することができる。つまり、リフロー型電子書籍において、ルビ区切り位置の決定を自動処理させることができる。
これによって、行間文字列に対する仮のルビ種別を決定することができる。
これによって、「圏点」を正しく認識し、仮決定手段による処理の前に除外することができ、仮決定手段による処理の精度が向上する。
これによって、入力画像の入力から認識結果等の出力まで一貫して、文書認識装置による自動処理を実現することができる。
前記入力画像の文章領域を、本文行領域と行間領域とに分別する領域分別ステップと、前記行間領域の文字列である行間文字列を抽出し、前記行間文字列ごとに、前記本文行領域の文字列の中から、仮決定の親文字列である仮親文字列を決定する仮決定ステップと、前記本文行領域及び前記行間領域の文字を認識する文字認識ステップと、前記文字認識ステップによる前記仮親文字列の認識結果を参照キーとして前記ルビ辞書を参照することによって得られる前記ルビ候補の少なくとも1つと、前記文字認識ステップによる前記行間文字列の認識結果が一致するか否かの判定であるルビ一致判定を行い、前記ルビ一致判定の結果に基づいて、前記仮親文字列を本決定の親文字列である本親文字列として決定する、或いは、前記仮親文字列に含まれる一部の文字を除いた残りの文字列を前記本親文字列として決定する本決定ステップと、を実行し、前記仮決定ステップは、前記本文行領域の文字列の中で、前記行間文字列の開始位置から終了位置までを包含する最小文字数の文字列である包含文字列が存在するか否かの判定である第4判定を行い、
前記第4判定において「真」と判定した場合、前記包含文字列を前記仮親文字列として決定し、前記第4判定において「偽」と判定した場合、前記本文行領域の文字列の中で、前記行間文字列の開始位置から終了位置までに包含される最大文字数の文字列である被包含文字列を前記仮親文字列として決定する文書認識方法である。
第3の発明によって、ルビ文字の対象となる親文字を正しく特定することができる。
第4の発明を汎用のコンピュータにインストールすることによって、第1、第2の発明の文書認識装置を得ることができる。
第5の発明によって、第4の発明のプログラムを配布することができる。
・文字領域(本文の1文字単位の領域)は、略正方形である。
・文字列領域(本文の1行単位の領域)は、略四角形である。
・文字列領域に含まれる文字の大きさは、殆どが同一とする。
・文字列領域中の文字の配置は、直線的である。
・文字列領域中の隣接する文字同士は、極めて近接している。
・文字列領域中の文字の間隔は、一定である。
尚、本発明の技術的思想は、上記の前提を満たす入力画像に限定されるわけではない。上記の前提を満たさない入力画像であっても、公知の技術によって上記の前提が満たされる画像に変換するか、又は必要に応じて一部の処理を設計変更することによって、本発明は適用可能である。
図1は、文書認識装置1のハードウエア構成図である。尚、図1のハードウエア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部12、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
これらの各プログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
通信制御部14は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他のコンピュータ間との通信制御を行う。ネットワークは、有線、無線を問わない。
入力部15を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
表示部16は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
文書認識装置1の記憶部12は、記憶手段21として機能する。尚、外部記憶装置が記憶手段21として機能しても良い。
また、文書認識装置1の制御部11は、図2に示すレイアウト解析手段22〜出力手段27として機能する。
図3は、フリガナ辞書31の一例を示す図である。図3に示すように、フリガナ辞書31は、「漢字」(1文字分)を主キーとし、フリガナ候補となる候補1〜候補4等が対応付けられている。
図3では、例えば、漢字「誕」に対して、候補1「タン」、候補2「う(まれる)」、候補3「いつわ(る)」が対応付けられている。
レイアウト解析手段22は、入力画像32に対してレイアウト解析処理を行い、文章領域33と図表領域34とに分割し、文章領域33を抽出する。
図5は、文字矩形領域41を説明する図である。図6は、本文行領域42、行間領域43及び行間文字列44を説明する図である。
次に、領域分別手段23は、切り出された「みなし行」に含まれる「みなし文字」の切り出しを行う。「みなし文字」の切り出しの段階では、本文文字とルビ文字が区別されていない。より詳細には、領域分別手段23は、図5に示すように、1文字分を含む文字矩形領域41を抽出し、文字矩形領域41の上端部及び下端部のy座標[yAs、yAe]を取得し、RAM等に保存する。尚、横書きの文章であれば、領域分別手段23は、文字矩形領域41の左端部及び右端部のx座標を取得する。
次に、領域分別手段23は、「みなし文字サイズ」に基づく「みなし行高」を決定し、この「みなし行高」を横幅(横書きの文章であれば、縦幅)とする領域を本文行領域42とする。
また、領域分別手段23は、本文行領域42同士の間の領域を行間領域43とする。尚、領域分別手段23は、文章領域33の中で最も右端の本文行領域42(横書きの文章であれば、最も上端の本文行領域42)については、その右側の領域(横書きの文章であれば、その上側の領域)も、行間領域43とする。
そして、領域分別手段23は、本文行領域42と、その右側(縦書きの文章であれば、その上側)に位置する行間領域43とを対応付けて、RAM等に記憶する。
図6には、行間文字列44の一例が図示されている。図6に示すように、行間領域43は、1又は複数の行間文字列44を含む場合もあるし、行間文字列44を1つも含まない場合もある。例えば、仮決定手段24が、レイアウト解析手段22に行間領域43を受け渡すと、レイアウト解析手段22が、行間領域43に対してレイアウト解析処理を行って行間文字列44を特定し、仮決定手段24に行間文字列44を返す。
また、仮決定手段24は、仮ルビ種別(=仮決定のルビ種別)も決定する。仮ルビ種別は、「モノルビ」及び「グループルビ」を含む。
仮決定手段24の詳細は、図7等を参照しながら後述する。
また、本決定手段26は、本ルビ種別(=本決定のルビ種別)も決定する。本ルビ種別は、「モノルビ」、「モノルビ化可能なグループルビ」、及び「当て字のグループルビ」を含む。本ルビ種別は、更に「圏点」を含んでも良い。
本決定手段26の詳細は、図12等を参照しながら後述する。
(1)入力画像の文章領域を、本文行領域と行間領域とに分別する領域分別ステップ。
(2)行間領域の文字列である行間文字列を抽出し、行間文字列ごとに、本文行領域の文字列の中から仮親文字列を決定する仮決定ステップ。
(3)本文行領域及び行間領域の文字を認識する文字認識ステップ。
(4)文字認識ステップによる仮親文字列の認識結果を参照キーとしてルビ辞書を参照することによって得られるルビ候補の少なくとも1つと、文字認識ステップによる行間文字列の認識結果が一致するか否かの判定であるルビ一致判定を行い、ルビ一致判定の結果に基づいて、仮親文字列を本親文字列として決定する、或いは、仮親文字列に含まれる一部の文字を除いた残りの文字列を本親文字列として決定する本決定ステップ。
図7は、仮決定手段24の処理の流れを示すフローチャートである。図7では、1つの行間文字列44に対する一連の処理を図示している。制御部11は、抽出された行間文字列44ごとに、図7のフローチャートを実行する。
図8では、行間文字列44は、[C・・・D]である。本文行領域42の文字列の中で行間文字列44の開始位置から終了位置までを包含する最小文字数の文字列は、文字列[A・・・B]であるから、制御部11は、文字列[A・・・B]を包含文字列45とする。
制御部11は、S2の判定が「真」の場合(S2のYes)、包含文字列[A・・・B]を仮親文字列とする(S3)。
一方、制御部11は、S2の判定が「偽」の場合(S2のNo)、[yAs、yBe]⊂[ys、ye]となる被包含文字列[A・・・B]を仮親文字列とする(S4)。被包含文字列[A・・・B]とは、本文行領域42の文字列の中で、行間文字列44の開始位置から終了位置までに包含される最大文字数の文字列である。
図9では、行間文字列44は、[C・・・D]である。本文行領域42の文字列の中で、行間文字列44の開始位置から終了位置までに包含される最大文字数の文字列は、文字列[A・・・B]であるから、制御部11は、文字列[A・・・B]を被包含文字列46とする。
制御部11は、S3の処理の後、行間文字列44の全ての文字が、仮親文字列の2つの文字に跨らないか否かを確認する(S5)。
制御部11は、行間文字列44の全ての文字が、仮親文字列の2つの文字に跨らないと判定した場合、つまり、S5の判定が「真」の場合(S5のYes)、仮ルビ種別を「モノルビ(圏点を含む。)」とする(S6)。
一方、制御部11は、行間文字列44のいずれかの文字が、仮親文字列の2つの文字に跨ると判定した場合、つまり、S5の判定が「偽」の場合(S5のNo)、仮ルビ種別を「グループルビ」とする(S7)。また、制御部11は、S4の処理の後も、仮ルビ種別を「グループルビ」とする(S7)。
図10では、仮親文字列47は、「漢字」である。また、行間文字列44は、「かんじ」である。行間文字列44の「か」及び「ん」は、仮親文字列47の1文字目「漢」の開始位置から終了位置までに含まれ、仮親文字列47の2文字目「字」に跨っていない。また、行間文字列44の「じ」は、仮親文字列47の2文字目「字」の開始位置から終了位置までに含まれ、仮親文字列47の1文字目「漢」に跨っていない。従って、制御部11は、図10に示す行間文字列44の仮ルビ種別を「モノルビ」とする。
図11では、仮親文字列47は、「漢字」である。また、行間文字列44は、「かんじ」である。行間文字列44の「か」は、仮親文字列47の1文字目「漢」の開始位置から終了位置までに含まれ、仮親文字列47の2文字目「字」に跨っていない。また、行間文字列44の「じ」は、仮親文字列47の2文字目「字」の開始位置から終了位置までに含まれ、仮親文字列47の1文字目「漢」に跨っていない。一方、行間文字列44の「ん」は、仮親文字列47の1文字目「漢」と、仮親文字列47の2文字目「字」とに跨っている。従って、制御部11は、図10に示す行間文字列44の仮ルビ種別を「グループルビ」とする。
図12は、本決定手段26の処理の流れを示すフローチャートである。図12では、1つの行間文字列44に対する一連の処理を図示している。制御部11は、抽出された行間文字列44ごとに、図12のフローチャートを実行する。
本決定手段26によって、長いルビ文字列であって、本来対応する親文字以外の文字にもかかってしまっている場合においても、対象となる親文字の特定が可能となる。更に、グループルビについて、当て字なのか、それともモノルビ化可能か、について判定することができる。
尚、グループルビと判断される場合には、本決定手段26は、対応する親文字列とグループルビの対応を「単語辞書」として記憶手段21等に登録するようにしても良い。これによって、文書内に同様の単語とルビが出現した場合、「単語辞書」を参照することによって、より効率良くルビの対応を特定することができる。
制御部11は、行間文字列44の仮ルビ種別が「モノルビ」か否か確認する(S11)。
制御部11は、S11の判定が「真」の場合(S11のYes)、S12に進む。また、制御部11は、S11の判定が「偽」の場合(S11のNo)、S16に進む。
制御部11は、認識結果が「圏点」の場合、つまり、S12の判定が「真」の場合(S12のYes)、本親文字列=仮親文字列、本ルビ種別=「圏点」とし、処理を終了する(S13)。
一方、制御部11は、認識結果が「圏点」ではない場合、つまり、S12の判定が「偽」の場合(S12のNo)、S14に進む。
制御部11は、S14の判定が「真」の場合(S14のYes)、本親文字列=仮親文字列、本ルビ種別=「モノルビ」とし、処理を終了する(S15)。
一方、制御部11は、S14の判定が「偽」の場合(S14のNo)、S16に進む。
制御部11は、S16の判定が「真」の場合(S16のYes)、本親文字列=一致と判定された文字のみ、本ルビ種別=「モノルビ化可能なグループルビ」とし、処理を終了する(S17)。
一方、制御部11は、S16の判定が「偽」の場合(S16のNo)、S18に進む。
制御部11は、S18の判定が「真」の場合(S18のYes)、本親文字列=一致と判定された文字のみ、本ルビ種別=「モノルビ化可能なグループルビ」とし、処理を終了する(S17)。
一方、制御部11は、S18の判定が「偽」の場合(S18のNo)、本親文字列=仮親文字列、本ルビ種別=「当て字のグループルビ」とし、処理を終了する(S19)。
図13は、第1の例を示す図、図14は、第1の例の一時記憶データ51を示す図、図15は、第1の例の属性情報52を示す図である。
制御部11は、図7に示す処理の後、図14に示すように、行間文字列44ごとに、一時記憶データ51をRAM等に記憶する。図7に示す処理が終了した時点では、一時記憶データ51に「行間文字列」、「仮親文字列」、「仮ルビ種別」が記憶されている。
「仮ルビ種別」が“モノルビ”(圏点ではない。)であるから、制御部11は、S14のルビ一致判定を行う(図12のS11、S12参照)。
制御部11は、仮親文字列47の{誕}を参照キーとして図3に示すフリガナ辞書31を参照する。参照結果として、フリガナ候補「タン」が得られる。これは、行間文字列44の{/た/ん}と一致することから、ルビ一致判定は「一致」となる。
次に、制御部11は、仮親文字列47の{生}を参照キーとして図3に示すフリガナ辞書31を参照する。参照結果として得られるフリガナ候補「セイ」、「ショウ」、「い(きる)」、「なま」等のいずれも、行間文字列44の{/じ/ょ}と一致しないことから、ルビ一致判定は「不一致」となる。
そして、制御部11は、S14の判定を「偽」とする。
制御部11は、仮親文字列47の{誕}を参照キーとして図3に示すフリガナ辞書31を参照する。参照結果として、フリガナ候補「タン」が得られる。これは、行間文字列44の{/た/ん}と一致することから、ルビ一致判定は「一致」となる。
次に、制御部11は、仮親文字列47の{生}を参照キーとして図3に示すフリガナ辞書31を参照する。参照結果として、フリガナ候補「ショウ」が得られる。制御部11は、行間文字列44の{/じ}以降を1文字ずつ増やして、フリガナ候補「ショウ」と一致するか否か確認していく。つまり、制御部11は、{/じ}→{/じ/ょ}→{/じ/ょ/う}→{/じ/ょ/う/び}の順に、フリガナ候補「ショウ」と一致するか否か確認する。行間文字列44の{/じ/ょ/う}とフリガナ候補「ショウ」が一致することから、ルビ一致判定は「一致」となる。
次に、制御部11は、仮親文字列47の{日}を参照キーとして図3に示すフリガナ辞書31を参照する。参照結果として、フリガナ候補「ひ」が得られる。これは、行間文字列44の{/び}と一致することから、ルビ一致判定は「一致」となる。
そして、制御部11は、S16の判定を「真」とする。
第1の例では、S16のルビ一致判定が全て「一致」であるから、制御部11は、本親文字列=「誕生日」、本ルビ種別=「モノルビ化可能なグループルビ」とする(図12のS17参照)。
属性情報52は、例えば、「本文文字」、「本文文字の位置」、「ルビ有無」、「位置から判断されるルビ」、「モノルビ化したルビ」などのデータを含む。
「本文文字」は、本文行領域42に含まれる文字である。「本文文字の位置」は、例えば、「本文文字」の文字矩形領域41の左上座標及び右下座標である。「ルビ有無」は、「本文文字」を含む単語に対応付けられるルビの有無であり、ルビが有る場合には本ルビ種別である。「位置から判断されるルビ」は、「本文文字」の文字矩形領域41の位置から判断されるルビである。「モノルビ化したルビ」は、図12に示すS16又はS18のルビ一致判定において、一致と判定された文字である。
本文文字が「誕」に対しては、「本文文字の位置」が“(x1、y1)、(x2、y2)”、「ルビ有無」が“モノルビ化可能なグループルビ”、「位置から判断されるルビ」が“たん”、「モノルビ化したルビ」が“たん”である。
本文文字が「生」に対しては、「本文文字の位置」が“(x3、y3)、(x4、y4)”、「ルビ有無」が“モノルビ化可能なグループルビ”、「位置から判断されるルビ」が“じょ”、「モノルビ化したルビ」が“じょう”である。
本文文字が「日」に対しては、「本文文字の位置」が“(x5、y5)、(x6、y6)”、「ルビ有無」が“モノルビ化可能なグループルビ”、「位置から判断されるルビ」が“うび”、「モノルビ化したルビ」が“び”である。
図16は、第2の例を示す図、図17は、第2の例の一時記憶データ51を示す図、図18は、第2の例の属性情報52を示す図である。
制御部11は、図7に示す処理の後、図14に示すように、行間文字列44ごとに、一時記憶データ51をRAM等に記憶する。図7に示す処理が終了した時点では、一時記憶データ51に「行間文字列」、「仮親文字列」、「仮ルビ種別」が記憶されている。
「仮ルビ種別」が“モノルビ”であるから、制御部11は、S14のルビ一致判定を行う(図12のS11、S12参照)。
制御部11は、仮親文字列47の{秋}を参照キーとしてフリガナ辞書31を参照し、参照結果としてフリガナ候補を得る。参照結果として得られるフリガナ候補のいずれも、行間文字列44の{/こ/す}と一致しないことから、ルビ一致判定は「不一致」となる。
そして、制御部11は、S14の判定を「偽」とする。
制御部11は、仮親文字列47の{秋}を参照キーとしてフリガナ辞書31を参照し、参照結果としてフリガナ候補を得る。制御部11は、行間文字列44の{/こ}以降を1文字ずつ増やして、フリガナ候補と一致するか否か確認していく。つまり、制御部11は、{/こ}→{/こ/す}→{/こ/す/も}→{/こ/す/も/す}の順に、フリガナ候補と一致するか否か確認する。行間文字列44とフリガナ候補はいずれも一致しないことから、ルビ一致判定は「不一致」となる。
そして、制御部11は、S14の判定を「偽」とする。
制御部11は、仮親文字列47の{桜}を参照キーとしてフリガナ辞書31を参照し、参照結果としてフリガナ候補を得る。制御部11は、行間文字列44の{/こ}以降を1文字ずつ増やして、フリガナ候補と一致するか否か確認していく。つまり、制御部11は、{/こ}→{/こ/す}→{/こ/す/も}→{/こ/す/も/す}の順に、フリガナ候補と一致するか否か確認する。行間文字列44とフリガナ候補はいずれも一致しないことから、ルビ一致判定は「不一致」となる。
そして、制御部11は、S18の判定を「偽」とする。
第2の例では、S18の判定が「偽」であるから、制御部11は、本親文字列=「秋桜」、本ルビ種別=「当て字のグループルビ」とする。
第2の例では、本文文字が「秋」、「桜」の2つである。
本文文字が「秋」に対しては、「本文文字の位置」が“(x7、y7)、(x8、y8)”、「ルビ有無」が“当て字のグループルビ”、「位置から判断されるルビ」が“こす”、「モノルビ化したルビ」が“−”(なし)である。
本文文字が「桜」に対しては、「本文文字の位置」が“(x9、y9)、(x10、y10)”、「ルビ有無」が“当て字のグループルビ”、「位置から判断されるルビ」が“もす”、「モノルビ化したルビ」が“−”(なし)である。
(1)一般の日本語文書(教科書、実用書、小説など)を含む様々な文書において、ルビの対象となる親文字を正しく特定できる。特に、グループルビや親文字よりも長いルビが付与されていても、親文字を正しく特定できる。
(2)文書作成者の意図により、文書画像中においてモノルビ、グループルビといったルビ種別を使い分けていた場合、そのルビ種別情報を失うことなく、属性情報として出力することができる。つまり、教科書や低年齢向けの教材等、教育的配慮の為にモノルビが使用される場合、その認識結果を手作業によって修正する必要がない。
(3)文書画像から文書認識処理を経てリフロー型電子書籍用データを作成する場合、ルビ区切り位置の決定を自動処理させるための内部的な情報を、属性情報として出力することができる。つまり、リフロー型電子書籍において、ルビ区切り位置の決定を自動処理させることができる。
21………記憶手段
22………レイアウト解析手段
23………領域分別手段
24………仮決定手段
25………文字認識手段
26………本決定手段
27………出力手段
31………フリガナ辞書
32………入力画像
33………文章領域
34………図表領域
41………文字矩形領域
42………本文行領域
43………行間領域
44………行間文字列
45………包含文字列
46………被包含文字列
47………仮親文字列
51………一時記憶データ
52………属性情報
Claims (10)
- ルビを含む文書の画像を入力画像とし、前記文書を認識する文書認識装置であって、
親文字に対するルビ候補を示すルビ辞書を記憶するルビ辞書記憶手段と、
前記入力画像の文章領域を、本文行領域と行間領域とに分別する領域分別手段と、
前記行間領域の文字列である行間文字列を抽出し、前記行間文字列ごとに、前記本文行領域の文字列の中から、仮決定の親文字列である仮親文字列を決定する仮決定手段と、
前記本文行領域及び前記行間領域の文字を認識する文字認識手段と、
前記文字認識手段による前記仮親文字列の認識結果を参照キーとして前記ルビ辞書を参照することによって得られる前記ルビ候補の少なくとも1つと、前記文字認識手段による前記行間文字列の認識結果が一致するか否かの判定であるルビ一致判定を行い、前記ルビ一致判定の結果に基づいて、前記仮親文字列を本決定の親文字列である本親文字列として決定する、或いは、前記仮親文字列に含まれる一部の文字を除いた残りの文字列を前記本親文字列として決定する本決定手段と、
を具備し、
前記仮決定手段は、
前記本文行領域の文字列の中で、前記行間文字列の開始位置から終了位置までを包含する最小文字数の文字列である包含文字列が存在するか否かの判定である第4判定を行い、
前記第4判定において「真」と判定した場合、前記包含文字列を前記仮親文字列として決定し、
前記第4判定において「偽」と判定した場合、前記本文行領域の文字列の中で、前記行間文字列の開始位置から終了位置までに包含される最大文字数の文字列である被包含文字列を前記仮親文字列として決定する文書認識装置。 - ルビを含む文書の画像を入力画像とし、前記文書を認識する文書認識装置であって、
親文字に対するルビ候補を示すルビ辞書を記憶するルビ辞書記憶手段と、
前記入力画像の文章領域を、本文行領域と行間領域とに分別する領域分別手段と、
前記行間領域の文字列である行間文字列を抽出し、前記行間文字列ごとに、前記本文行領域の文字列の中から、仮決定の親文字列である仮親文字列を決定する仮決定手段と、
前記本文行領域及び前記行間領域の文字を認識する文字認識手段と、
前記文字認識手段による前記仮親文字列の認識結果を参照キーとして前記ルビ辞書を参照することによって得られる前記ルビ候補の少なくとも1つと、前記文字認識手段による前記行間文字列の認識結果が一致するか否かの判定であるルビ一致判定を行い、前記ルビ一致判定の結果に基づいて、前記仮親文字列を本決定の親文字列である本親文字列として決定する、或いは、前記仮親文字列に含まれる一部の文字を除いた残りの文字列を前記本親文字列として決定する本決定手段と、を具備し、
前記仮決定手段は、更に、仮決定のルビ種別である仮ルビ種別を決定し、
前記仮ルビ種別は、「モノルビ」及び「グループルビ」を含み、
前記本決定手段は、
前記行間文字列の前記仮ルビ種別が「モノルビ」の場合、前記仮親文字列に含まれる全ての文字について、前記ルビ一致判定が「一致」であるか否かの判定である第1判定を行い、
前記第1判定において「真」と判定した場合、前記仮親文字列を前記本親文字列として決定し、
前記第1判定において「偽」と判定した場合、及び、前記行間文字列の前記仮ルビ種別が「グループルビ」の場合、前記仮親文字列に含まれる先頭文字から連続する少なくとも1文字以上について、前記ルビ一致判定が「一致」であるか否かの判定である第2判定を行い、
前記第2判定において「真」と判定した場合、前記第2判定において「一致」と判定された文字のみを前記本親文字列として決定し、
前記第2判定において「偽」と判定した場合、前記仮親文字列に含まれる2文字目から連続する少なくとも1文字以上について、前記ルビ一致判定が「一致」であるか否かの判定である第3判定を行い、
前記第3判定において「真」と判定した場合、前記第3判定において「一致」と判定された文字のみを前記本親文字列として決定し、
前記第3判定において「偽」と判定した場合、前記仮親文字列を前記本親文字列として決定する文書認識装置。 - 前記本決定手段は、更に、本決定のルビ種別である本ルビ種別を決定し、
前記本ルビ種別は、「モノルビ」、「モノルビ化可能なグループルビ」、及び「当て字のグループルビ」を含み、
前記本決定手段は、
前記第1判定において「真」と判定した場合、前記本ルビ種別を「モノルビ」と決定し、
前記第2判定において「真」と判定した場合、及び、前記第3判定において「真」と判定した場合、前記本ルビ種別を「モノルビ化可能なグループルビ」と決定し、
前記第3判定において「偽」と判定した場合、前記本ルビ種別を「当て字のグループルビ」と決定する
請求項2に記載の文書認識装置。 - 前記文字認識手段による認識結果、前記本親文字列、及び前記本ルビ種別を出力する出力手段、
を更に具備し、
前記出力手段は、前記本ルビ種別が「モノルビ化可能なグループルビ」の場合には、前記本親文字列に含まれる文字ごとに、モノルビ化したルビを付加して出力する
請求項3に記載の文書認識装置。 - 前記仮決定手段は、
前記本文行領域の文字列の中で、前記行間文字列の開始位置から終了位置までを包含する最小文字数の文字列である包含文字列が存在するか否かの判定である第4判定を行い、
前記第4判定において「真」と判定した場合、前記行間文字列に含まれる全ての文字が、前記仮親文字列に含まれる2つの文字に跨らないか否かの判定である第5判定を行い、
前記第5判定において「真」と判定した場合、前記仮ルビ種別を「モノルビ」と決定し、
前記第4判定において「偽」と判定した場合、及び、前記第5判定において「偽」と判定した場合、前記仮ルビ種別を「グループルビ」と決定する
請求項2に記載の文書認識装置。 - 前記本ルビ種別は、更に、「圏点」を含み、
前記本決定手段は、
前記行間文字列の前記仮ルビ種別が「モノルビ」の場合、前記第1判定の前に、前記文字認識手段による前記行間文字列の認識結果が「圏点」を示すものか否かの判定である第6判定を行う
請求項3又は請求項4に記載の文書認識装置。 - 前記入力画像に対してレイアウト解析を行って前記文章領域を抽出し、更に、前記行間領域に対してレイアウト解析を行って前記行間文字列を抽出するレイアウト解析手段、
を更に具備する請求項1乃至請求項6のいずれかに記載の文書認識装置。 - ルビを含む文書の画像を入力画像とし、前記文書を認識する文書認識方法であって、
親文字に対するルビ候補を示すルビ辞書を記憶するルビ辞書記憶手段を具備するコンピュータが、
前記入力画像の文章領域を、本文行領域と行間領域とに分別する領域分別ステップと、
前記行間領域の文字列である行間文字列を抽出し、前記行間文字列ごとに、前記本文行領域の文字列の中から、仮決定の親文字列である仮親文字列を決定する仮決定ステップと、
前記本文行領域及び前記行間領域の文字を認識する文字認識ステップと、
前記文字認識ステップによる前記仮親文字列の認識結果を参照キーとして前記ルビ辞書を参照することによって得られる前記ルビ候補の少なくとも1つと、前記文字認識ステップによる前記行間文字列の認識結果が一致するか否かの判定であるルビ一致判定を行い、前記ルビ一致判定の結果に基づいて、前記仮親文字列を本決定の親文字列である本親文字列として決定する、或いは、前記仮親文字列に含まれる一部の文字を除いた残りの文字列を前記本親文字列として決定する本決定ステップと、
を実行し、
前記仮決定ステップは、
前記本文行領域の文字列の中で、前記行間文字列の開始位置から終了位置までを包含する最小文字数の文字列である包含文字列が存在するか否かの判定である第4判定を行い、
前記第4判定において「真」と判定した場合、前記包含文字列を前記仮親文字列として決定し、
前記第4判定において「偽」と判定した場合、前記本文行領域の文字列の中で、前記行間文字列の開始位置から終了位置までに包含される最大文字数の文字列である被包含文字列を前記仮親文字列として決定する文書認識方法。 - コンピュータを請求項1乃至請求項7のいずれかに記載の文書認識装置として機能させる為のプログラム。
- コンピュータを請求項1乃至請求項7のいずれかに記載の文書認識装置として機能させる為のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011077222A JP5790082B2 (ja) | 2011-03-31 | 2011-03-31 | 文書認識装置、文書認識方法、プログラム及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011077222A JP5790082B2 (ja) | 2011-03-31 | 2011-03-31 | 文書認識装置、文書認識方法、プログラム及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012212293A JP2012212293A (ja) | 2012-11-01 |
JP5790082B2 true JP5790082B2 (ja) | 2015-10-07 |
Family
ID=47266194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011077222A Expired - Fee Related JP5790082B2 (ja) | 2011-03-31 | 2011-03-31 | 文書認識装置、文書認識方法、プログラム及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5790082B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7211920B2 (ja) | 2019-09-19 | 2023-01-24 | 東芝ライフスタイル株式会社 | 洗濯機 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045637A (ja) * | 2014-08-21 | 2016-04-04 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム。 |
JP6543290B2 (ja) * | 2017-02-28 | 2019-07-10 | シナノケンシ株式会社 | 電子図書製作用プログラム |
JP2019144840A (ja) * | 2018-02-20 | 2019-08-29 | シナノケンシ株式会社 | ルビ設定プログラム及びルビ設定装置 |
CN113052179A (zh) * | 2021-03-09 | 2021-06-29 | 安徽淘云科技股份有限公司 | 多音字处理方法、装置、电子设备及存储介质 |
CN113342997B (zh) * | 2021-05-18 | 2022-11-11 | 成都快眼科技有限公司 | 一种基于文本行匹配的跨图文本阅读方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63188284A (ja) * | 1987-01-31 | 1988-08-03 | Toshiba Corp | 文字読取装置 |
JP2002056357A (ja) * | 2000-08-10 | 2002-02-20 | Ricoh Co Ltd | 文字認識装置、その方法および記録媒体 |
-
2011
- 2011-03-31 JP JP2011077222A patent/JP5790082B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7211920B2 (ja) | 2019-09-19 | 2023-01-24 | 東芝ライフスタイル株式会社 | 洗濯機 |
Also Published As
Publication number | Publication date |
---|---|
JP2012212293A (ja) | 2012-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2437152C2 (ru) | Устройство обработки изображений, способ и компьютерная программа обработки изображений | |
CN101443790B (zh) | 数字图像中的非回流内容的有效处理 | |
US6466694B2 (en) | Document image processing device and method thereof | |
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
JP4742404B2 (ja) | 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
JP5790082B2 (ja) | 文書認識装置、文書認識方法、プログラム及び記憶媒体 | |
US20090055159A1 (en) | Translation apparatus, translation method and computer readable medium | |
US8201084B2 (en) | Image processing apparatus and computer readable medium | |
US8923618B2 (en) | Information output device and information output method | |
WO2004090743A2 (en) | Enhanced readability with flowed bitmaps | |
JP2006276914A (ja) | 翻訳処理方法、文書処理装置およびプログラム | |
CN112801084A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
JP5950700B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
AU2011265574B2 (en) | Image processing apparatus, image processing program, and image processing method | |
CN111695414A (zh) | 文档处理方法及装置、电子设备、计算机可读存储介质 | |
JP5895828B2 (ja) | 情報処理装置及びプログラム | |
US8165404B2 (en) | Method and apparatus for creating document data, and computer program product | |
CN113111881A (zh) | 信息处理装置及记录媒体 | |
JP7127365B2 (ja) | 文字切り出し装置、文字切り出し方法、及びプログラム | |
JP4589370B2 (ja) | 文書画像処理装置および方法 | |
JP2021157627A (ja) | 情報処理装置 | |
CN117542056A (zh) | 图文数据生成文本的方法、装置、存储介质及处理器 | |
JP2008077667A (ja) | 文書画像処理装置および方法 | |
JP2005167522A (ja) | 印刷システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5790082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |