JP2009289038A - 文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体 - Google Patents

文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2009289038A
JP2009289038A JP2008141019A JP2008141019A JP2009289038A JP 2009289038 A JP2009289038 A JP 2009289038A JP 2008141019 A JP2008141019 A JP 2008141019A JP 2008141019 A JP2008141019 A JP 2008141019A JP 2009289038 A JP2009289038 A JP 2009289038A
Authority
JP
Japan
Prior art keywords
character string
character
horizontal
characters
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008141019A
Other languages
English (en)
Inventor
Kei Iwata
圭 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2008141019A priority Critical patent/JP2009289038A/ja
Publication of JP2009289038A publication Critical patent/JP2009289038A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列に含まれる所定の文字列パターンを効率的に抽出する文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体を提供することにある。
【解決手段】文字列抽出装置1は、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出装置1であって、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリスト32と、混在文字列の文字認識結果とを照合し、混在文字列の文字認識結果から、横書き文字列パターンリスト32に一致する横書き文字列を抽出する。
【選択図】図1

Description

本発明は、縦書き文字列と横書き文字列とが混在する文字列から、横書きの文字認識を行うことなく、前記横書き文字列に含まれる所定の文字列パターンを抽出する文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体に関するものである。
新聞、雑誌、論文などの紙文書に含まれる情報を保存する場合、紙文書のまま保存すると嵩張るため、スキャナ等で画像データに変換してから保存することが多い。そして、保存された大量の画像データから特定の文書を検索するためには、紙面に含まれる文字情報を文字として認識したうえで保存する必要がある。そこで、スキャナ等により紙文書を画像として取り込み、その画像から文字情報を認識する文字認識装置が考案されている。文字認識装置は、文書画像上の文字および該文字のパターンを登録した辞書を使って文字認識(文字マッチング)を行うことにより文書画像上の文字を認識している。
ここで、紙文書には様々なレイアウトが存在する。例えば、紙面に記載された文章がいくつかの段落に分かれている場合や、ページや段落ごとに縦書きと横書きとが入れ替わる場合、あるいは文章、図、表、写真が混在する場合などがある。また、近年のインターネットの普及によって、文書中にホームページアドレス、電子メールアドレス等が記載されるケースも増えている。ホームページアドレスなどは、英数字と記号とで構成される文字列であるため、通常は横書き文書中に記載されるが、縦書き文書中に記載されることも多い。そして、縦書き文書において、そのような英数字と記号とで構成される文字列を1文字ずつ縦に並べて記載すると非常に読みづらくなるため、通常は、文字を90度回転させて記載する、つまり紙面を90度回転させて横書き文字列となるように記載する。その結果、1つの文字列において、縦書き文字列と横書き文字列とが混在する混在文字列が文書中に現れる。
その混在文字列を文字認識する場合、ほとんどの文字列が縦書き文字列によって構成されているため、縦書き用のマッチング辞書が使用される。そのため、横書き文字列は縦書き文字列として認識されてしまい、横書き文字列を正確に認識することができない。そこで、文字列を90度回転させて文字認識するという方法が提案されている。しかしながら、縦書き文字列は回転処理によって横書き文字列になってしまうため、その横書き文字列は、縦書き用のマッチング辞書の文字パターンと一致せず正確に認識されなくなる。
そこで、文字列を90度回転させたパターンを辞書に持たせるという方法が考えられる。しかしながら、通常、横書き文字は縦書き文書中にごく一部しか含まれていないため、大部分の縦書き文字部分も90度回転させたうえで上記他の辞書で文字認識することになれば、結果的に文字認識の効率は著しく悪化する。
そこで、特許文献1に記載の文字認識装置は、縦書き用マッチング辞書によってリジェクトされたリジェクト文字(文字認識結果の悪い文字)の画像を90度回転し、横書き文字用のマッチング辞書によって当該画像を認識することで横書き文字を認識する方法を提案している。
特開昭62−120586号公報(昭和62年6月1日公開)
しかしながら、文書には、縦書き文字、横書き文字のみではなく、図や写真等の文字ではない非文字部分も含まれることが多い。従って、当該文書に含まれる文字の認識を行う場合、文字認識の効率を下げないために、予め非文字部分を除去処理しておく必要がある。この点、特許文献1には、文書中に非文字部分が含まれる構成が記載されていない。従って、文書に図や写真等が含まれる場合には、非文字部分についても文字認識しようとするため、その文字認識の効率は著しく低下する。また、その分だけ文字認識に多大な時間がかかってしまう。
そして、特許文献1に記載の文字認識装置には次のような問題がある。一般的に、縦書き文字列に含まれる横書き文字列は、URL、電話番号、電子メールアドレス、郵便番号等の特定の情報である場合が多く、これらの情報のみを抽出したいという要求もある。つまり、これら特定の情報のみを抽出して、その他の横書き文字列は、記憶容量の問題、文字認識に要する時間を抑制する、といった理由から抽出を望まないことが多い。そのような要求に対して、特許文献1に記載の文字認識装置は、紙文書に含まれる横書き文字列をすべて文字認識する機能しか備えていない。つまり、横書き文字列に含まれる一部の特定の情報のみを抽出するという機能を備えていない。従って、特許文献1に記載の文字認識装置は、縦書き文字列に混在する横書き文字列中に含まれるURL等の特定の情報のみを抽出する、あるいは該抽出した情報を表示したいという要求に応えることができない。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列に含まれる所定の文字列パターンを効率的に抽出する文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体を提供することにある。
本発明に係る文字列抽出装置は、前記課題を解決するために、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出装置であって、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、前記混在文字列の文字認識結果とを照合し、前記混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出手段を備えることを特徴としている。
縦書き文字列に含まれる横書き文字列は、例えばURL等の特定の情報を示すことが多い。そして、その特定の情報を示す横書き文字列を文字認識すると、文字認識結果の悪いリジェクト文字と文字認識結果の良好な文字の配置に規則性を見出すことができる。そこで、その規則性が予めリスト化された横書き文字列パターンリストを用いることにより、本発明に係る文字列抽出装置は、混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する上記の特定情報に対応付けられた横書き文字列のみを抽出することができる。また、文字認識結果と前記横書き文字列パターンリストとが一致しない場合には、文字認識結果には特定の情報が含まれていないと考えられ、横書き文字列の抽出は行われない。このようにして、本発明に係る文字列抽出装置は、前記横書き文字列パターンリストを用いることにより、文字認識結果から、横書き文字列パターンリストに一致する横書き文字列のみを効率的に抽出することができる。
本発明に係る文字列抽出装置では、前記横書き文字列パターンリストは、少なくとも、URL、電子メールアドレス、電話番号、あるいは郵便番号に関連付けられてなることが好ましい。
縦書き文字列に含まれる横書き文字列に、URL、電子メールアドレス、電話番号、あるいは郵便番号などの特定の情報が含まれている場合がある。このような場合、横書き文字列パターンリストが、上記URL等と関連付けてなることにより、URL等を含む横書き文字列を縦書き文字列から効率よく抽出することができる。また、横書き文字列が、上記URL等とは異なる文字列である場合、それらは横書き文字列パターンリストに含まれていないため、文字列抽出手段は、その横書き文字列を抽出することはない。従って、横書き文字列パターンリストに関連付けられてなるURL等のみを横書き文字列から抽出することができる。言い換えると、抽出する文字列を必要なものに限定することができ、横書き文字列の必要でない部分の抽出を省略することができる。従って、抽出対象文字を絞ることにより、抽出にかかる時間を短縮することができる。さらに、予め登録された所定の文字列パターンリストを用いることで、抽出対象文字の誤認も防ぐことができる。
本発明に係る文字列抽出装置では、前記文字認識結果の良好な文字には、少なくとも、括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号が含まれることが好ましい。
括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号などの文字は、縦書き文字列、横書き文字列の何れに含まれても、その特徴点を抽出しやすく、良好な文字認識を得ることができる。すなわち、上記各文字は、良好に文字認識される典型的な文字であるといえる。従って、例えば、“:”、“/”、“アットマーク”が文字認識されると、その横書き文字列はURL、電子メールアドレスを示すものであると認識でき、それらの文字に基づいて容易に横書き文字列を抽出することができる。
本発明に係る文字列抽出装置は、前記文字列抽出手段が抽出した横書き文字列を示す情報に基づいて、前記混在文字列から、横書き文字列を含む領域を特定する領域特定手段を備えることが好ましい。
本発明に係る文字列抽出装置では、前記領域特定手段による領域の特定は、半角文字のピッチで行われることが好ましい。
本発明に係る文字列抽出装置は、前記領域特定手段が特定した前記領域を回転して、その結果を出力する回転出力手段を備えることが好ましい。
領域特定手段は、抽出された横書き文字列を示す情報に基づいて、混在文字列から、横書き文字列部分を構成するすべての文字を含む領域(外接矩形)を特定することができる。そして、回転出力手段は、さらに当該領域を回転させて表示装置に出力することができる。それにより、例えば上記領域を90度、あるいは270度回転させることにより、ユーザにとって見やすい画像を提供することができる。
また、領域特定手段による領域の認定は、半角文字のピッチで行うことができる。これは、縦書き文字列に含まれる横書き文字列は、アルファベットや数字などの半角文字であることが多いため、半角文字のピッチで文字を切り出して認識することにより、縦書き文字列に含まれる横書き文字列の文字認識を容易に行えるためである。従って、一部に横書き文字列が混在した縦書き文字列を認識する文字認識において、日本語文字(全角文字)のピッチで切り出して認識することにより発生する誤認識をなくすことができる。
本発明に係る文字列抽出方法は、前記課題を解決するために、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出方法であって、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、前記混在文字列の文字認識結果とを照合し、前記混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出ステップを含むことを特徴としている。
前記の構成によれば、本発明に係る文字列抽出方法は、混在文字列の文字認識結果から、横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出ステップを備えている。従って、横書き文字列パターンリストを用いることで、文字認識結果から、横書き文字列を効率よく抽出することができる。
本発明に係る文字列抽出プログラムは、前記課題を解決するために、上記の文字列抽出装置を動作させる文字列抽出プログラムであって、コンピュータを上記の各手段として機能させることを特徴としている。
前記の構成によれば、本発明に係る文字列抽出プログラムは、汎用のコンピュータに、本発明に係る文字列抽出方法を実行させ、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を効率よく抽出することができる。
本発明に係る記録媒体は、前記課題を解決するために、上記の文字列抽出プログラムをコンピュータに読み取り可能に記録している。
前記の構成によれば、本発明に係る文字列抽出プログラムを記録したコンピュータに読み取り可能な記録媒体は、該記録媒体から汎用のコンピュータに、文字列抽出プログラムをインストールし、上記文字列抽出方法を実行させることができる。その結果、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を効率よく抽出することができる。
本発明に係る文字列抽出装置は、以上のように、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、混在文字列の文字認識結果とを照合することにより、混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出手段を備える構成である。
また、本発明に係る文字列抽出方法は、以上のように、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、混在文字列の文字認識結果とを照合することにより、混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出ステップを有する構成である。
従って、本発明に係る文字列抽出装置および文字列抽出方法は、横書き文字列パターンリストを用いることで、文字認識結果から横書き文字列を効率よく抽出することができるという効果を奏する。
〔実施の形態1〕
以下、本実施の形態に係る文字列抽出装置1について説明する。なお、ここでは、縦書き文字列、横書き文字列、図表、写真等が混在する文書をスキャナによって取り込み、取り込んだ画像に含まれる横書き文字列から所定の文字列パターンを抽出する、という例を用いて文字列抽出装置1について説明する。
図1は、本実施の形態に係る文字列抽出装置1を用いた文字列抽出処理のブロック図である。図1に示すように、本実施の形態に係る文字列抽出処理は、横書き文字列に含まれる所定の文字列パターンを抽出する文字列抽出装置1と、複数の文字で構成された行画像の1つ1つの文字の特徴情報を抽出して文字列抽出装置1に出力するマッチング装置10と、文字列抽出装置1によって得られた文字列抽出結果を表示する表示装置20と、縦書き用マッチング辞書31および横書き文字列パターンリスト32を記憶する記憶装置30とによって行われる。
マッチング装置10は、縦・横書き文字列入力部11と、2値化処理部12と、文字領域抽出部13と、文字矩形抽出部14と、縦書判定部15と、行抽出部16と、マッチング部17と、を備える。なお、図1では、マッチング装置10は、文字列抽出装置1の外部に配設される構成であるが、文字列抽出装置1の内部に配設される構成であってもよい。
縦・横書き文字列入力部11は、縦書き文字列、横書き文字列、図表、写真等が混在する文書をスキャナによって取り込む。2値化処理部12は、スキャナで取り込まれた多値画像の文書を2値画像入力する。なお、以下の説明においては、2値画像の文字に該当する画素を黒、背景に該当する画素を白であるとして説明する。
文字領域抽出部13は、入力された2値画像のうち黒画素の分布を調べ、全体画像を1つ1つが意味のある領域に分割し、その中から文字の書かれている文字領域を抽出する文字領域抽出を行う。文字矩形抽出部14は、抽出された文字領域内において、2値画像の黒画素の連結を文字矩形として抽出する文字矩形抽出を行う。ここで、文字矩形とは、分離文字においては文字の一部分の矩形であり、また文字が接触している場合は複数の文字が接触した矩形となるため、必ずしも1つの矩形で1つの文字の全体を表すものではない。
縦書判定部15は、抽出された文字領域について、文字領域内の文字矩形間の間隔、文字矩形のサイズなどの情報を使用して、その文字領域が横書きであるか縦書きであるかを判定する縦横書き判定を行う。行抽出部16は、抽出された文字領域において、抽出された文字矩形間の位置関係や、判定された縦書き横書き情報などを使用して、文書の行にあたる画像領域を抽出する行抽出を行う。
マッチング部17は、縦書き文字の特徴が登録されて縦書き文字の読み取りが可能な、記憶装置30が記憶する縦書き用マッチング辞書31を用いて、抽出された行を構成する文字を順番に認識する行認識処理を行う。詳細は後述するが、マッチング部17における行認識処理は、文字切り出し処理、特徴抽出処理、マッチング処理、及び文字列生成処理を行い、行を構成する文字を順番に認識して、その結果を文字列抽出装置1に出力している。
文字列抽出装置1は、記憶装置30が記憶する横書き文字列パターンリスト32を用いて、横書き文字列に含まれる所定の文字列パターンを抽出する文字列抽出部2(文字列抽出手段)を備える。詳細は後述するが、横書き文字列パターンリスト32は、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなるリストである。
表示装置20は、文字列抽出装置1によって抽出された横書き文字列に含まれる所定の文字列パターンを表示する装置であり、一般的なディスプレーであってよい。なお、図1では、表示装置20は、文字列抽出装置1の外部に配設される構成であるが、文字列抽出装置1の内部に配設される構成であってもよい。
記憶装置30は、縦書き用マッチング辞書31および横書き文字列パターンリスト32を記憶するものである。縦書き用マッチング辞書31は、縦書き文字の特徴が登録されて、縦書き文字の読み取りが可能な辞書である。横書き文字列パターンリスト32は、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなるリストであり、その詳細は後述する。なお、図1では、記憶装置30は、文字列抽出装置1の外部に配設される構成であるが、文字列抽出装置1の内部に配設される構成であってもよい。
次に、上記構成によって行われる文字列抽出処理のフローを図2、図3により説明する。図2は、文字列抽出処理の全体の流れを示すフローチャートである。図3は、行認識処理の詳細を示すフローチャート図である。
まずは図2に基づいて説明する。最初に、縦書き文字列、横書き文字列、図表、写真等が混在する文書が、スキャナによって縦・横書き文字列入力部11に取り込まれる(S1)。次に、スキャナで取り込まれた多値画像の文書が2値化処理部12によって2値画像入力される(S2)。続いて、入力された2値画像の黒画素の分布を調べ、全体画像を1つ1つが意味のある領域に分割し、その中から文字の書かれている文字領域を抽出する文字領域抽出が行われる(S3)。なお、この文字領域抽出は文字領域抽出部13によって行われる。そして、抽出された文字領域内において、2値画像の黒画素の連結を文字矩形として抽出する文字矩形抽出が文字矩形抽出部14によって行われる(S4)。次に、縦書判定部15により、抽出された文字領域について、文字領域内の文字矩形間の間隔、文字矩形のサイズなどの情報を使用して、その文字領域が横書きであるか縦書きであるかが判定される(S5)。その後、行抽出部16により、抽出された文字領域において、抽出された文字矩形間の位置関係や、判定された縦書き横書き情報などを使用して、文書の行にあたる画像領域を抽出する行抽出が行われる(S6)。そして、縦書き文字の特徴が登録されて、縦書き文字の読み取りが可能な縦書き用マッチング辞書を用いて、抽出された行を構成する文字を順番に認識する行認識処理がマッチング部17によって行われる(S7)。
ここで、行認識処理の詳細を図3により説明する。まず、複数の文字で構成された行画像を1つ1つの文字画像に分離する文字切り出し処理が行われる(S20)。次に、文字切り出し処理によって分離した1つ1つの文字画像について、その特徴情報を抽出する特徴抽出処理が行われる(S21)。続いて、抽出した特徴と文字の標準パターン特徴を登録した縦書き用マッチング辞書との照合を行い、1つ1つの文字がどの文字の特徴に近いかが調べられ、その結果を認識文字候補としてその類似度とともに記憶するマッチング処理が行われる(S22)。このとき、認識対象の文字領域が横書きである場合は、横書きに使用される文字の特徴を登録した横書き用のマッチング辞書を、縦書きである場合は縦書きに使用される文字の特徴を登録した縦書き用のマッチング辞書が使用される。なお、本実施の形態では縦書き用のマッチング辞書を使用している。
次に、生成した認識文字候補の中から妥当なものを順番に選択して組み合わせることにより、認識結果文字列を生成する文字列生成処理が行われる(S23)。このように、行認識では、文字切り出し処理、特徴抽出処理、マッチング処理、及び文字列生成処理を行い、行を構成する文字を順番に認識している。
ここで、再び図2を参照して、S7の行認識処理以降のフローを説明する。上述した行認識処理では、抽出したすべての行に対して行認識を実行することが求められる。そこで、S8では、マッチング部17が、文字領域に含まれるすべての行について行認識が終了したか否かを確認し、終了していない場合はS7へ戻り、その場合は、まだ認識していない行の認識が上記の方法によって行われる。文字領域に含まれるすべての行の認識が終わると、次にS9に進む。S9では、マッチング部17が、文字領域が横書きである場合は処理を終了し、縦書きである場合はS10へ進む。S10では、後述する横書き文字列パターンリストを用いて、認識結果文字列の中に横書き文字列が現れるかどうかを確認する横書き文字列抽出処理が文字列抽出部2によって行われる。
次に、その横書き文字列抽出処理の詳細を、図1、図4〜図7により説明する。図4は、横書き文字列を含む縦書き文書の一例である。図4の文書には、URL(uniform resource locator)を示す“http://www.abcdef.or.jp/”と記載された横書き文字列が、縦書き文字列によって構成された文書の一部に含まれている。
図5は、マッチング装置10、及び縦書き用マッチング辞書31を用いる上記の方法により図4の文書を文字抽出した結果である。この文字認識結果が、マッチング部17から文字列抽出装置1への出力となる。図5に示すように、図4の文書を文字認識すると87文字の認識結果文字が得られる。なお、図5の“間叫仔:\\胡棚狛」関こ七\”は、“http://www.abcdef.or.jp/”の文字認識結果が悪くてリジェクトされたリジェクト文字を示す。本実施の形態では、縦書き用マッチング辞書により縦書き文字列を文字認識しているため、横書き文字列の文字認識結果は悪くなる。なお、縦書き用マッチング辞書による文字認識では、横書き文字列に含まれる括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号などの文字は、その特徴点が明確であり、縦書き文字列、横書き文字列の何れに含まれていても文字認識しやすい。従って、横書き文字列に含まれる“:”、“/”は良好に文字認識される。
次に、記憶装置30に記憶された横書き文字列パターンリスト32の詳細を図6により説明する。図6は、URLに係る横書き文字列パターンリストの一例を示す図である。先頭の2重丸は文字列の開始を表し、それ以外の2重丸は文字列の終了を表す。“Rj”はリジェクト文字(認識結果の悪い文字)を表す。例えば1つ目のリスト〔URL1〕の(1)の文字列は、括弧で囲まれたURLを表しているが、始めに“(”が認識され、リジェクト文字の1回以上の繰り返しがあり、“:”が認識され、“\”が2回認識され、リジェクト文字の1回以上の繰り返しがあり、最後に“)”が認識されるパターンを示している。
(2)の文字列は、(1)と同様に括弧で囲まれたURLを表しており、始めに“(”が認識され、リジェクト文字の1回以上の繰り返しがあり、“:”が認識され、“\”が2回認識される。ここまでは(1)の文字列と同じであるが、その後リジェクト文字の1回以上の繰り返しと“\”の組み合わせの1回以上の繰り返しがあり、最後に“)”が認識されるパターンを示している。
(3)の文字列は、(1)と同様に括弧で囲まれたURLを表しており、始めに“(”が認識され、リジェクト文字の1回以上の繰り返しがあり、“:”が認識され、“\”が2回認識される。その後リジェクト文字の1回以上の繰り返しと“\”の組み合わせの1回以上の繰り返しがある。ここまでは(2)の文字列と同じであるが、その後リジェクト文字の1回以上の繰り返しがあり、最後に“)”が認識されるパターンを示している。
図6の2つ目のリスト〔URL2〕の(4)の文字列は、1つ目のリストの(1)〜(3)とは異なり、最初にリジェクト文字の1回以上の繰り返しが認識され、“:”が認識され、“\”が2回認識され、リジェクト文字の1回以上の繰り返しが認識されるパターンを示している。
(5)の文字列は、最初にリジェクト文字の1回以上の繰り返しが認識され、“:”が認識され、“\”が2回認識され、リジェクト文字の1回以上の繰り返しが認識されるまでは(4)の文字列と同じであるが、最後に“\”が認識されるパターンを示している。
(6)の文字列は、最初にリジェクト文字の1回以上の繰り返しが認識され、“:”が認識され、“\”が2回認識され、リジェクト文字の1回以上の繰り返しが認識され、“\”が認識されるまでは(5)の文字列と同じであるが、最後にリジェクト文字の1回以上の繰り返しが認識されるパターンを示している。
そして、文字列抽出装置1の文字列抽出部2は、マッチング部17が縦書き用マッチング辞書31を用いて文字認識した図5の結果と、図6の横書き文字列パターンリストとを照合して、図5の文字認識結果から、横書き文字列に含まれる所定の文字列パターンを抽出している。
ここで、より具体的に、文字列抽出部2によって行われる横書き文字列抽出処理の流れを図7により説明する。なお、ここでは、図4の横書きURLを含む縦書き文書に対して、図1のマッチング部17までの処理を行って図5の文字認識結果が得られたものとする。そして、図6の横書き文字列パターンリストを用いて、図5の文字認識結果からURLに係る部分を抽出する。また、図5に示すように、マッチング部17により行われた文字認識処理により認識された長さnの認識結果文字列の個々の文字を、順番にC[0]からC[n−1]として表す。図5において認識結果文字列は87文字であるため、C[0]は“今”、C[1]は“後”、最後の文字のC[86]は“。”である。
図7は、横書き文字列抽出処理の流れを示したフローチャート図であり、文字列抽出部2において行われる横書き文字列抽出処理の流れを説明するための図である。
まず、i=0として処理が開始する(S30)。次に、S31では、i=nであるか否かを調べる。図5よりn=87であるため、S31では「No」となり、S32へ進む。S32では、C[0]すなわち“今”を取得する。S33では、C[0]の“今”が、図6の横書き文字列パターンリストの先頭文字に含まれているか否かを調べる。S34では、横書き文字列パターンリストに“今”で始まるパターンの項目が存在するか否かが確認される。ここでは、横書き文字列パターンリストに“今”で始まるパターンの項目が存在しないため、次にS39へ進む。S39ではiに1を加算してi=1としてS31へ進む。i=1から16についても同様に処理が進み、i=17においてS32ではC[17]に当たる“(”を取得する。
図6の横書き文字列パターンリストには“(”で始まる文字列パターンとして[URL1]が存在するため、S34では「Yes」となり、S35へ処理が進む。S35では、C[18]以降の文字列“土)ハイキング…”が、[URL1]の文字列パターンに一致するか否かを調べる。[URL1]の文字列パターンにおいては、次はRj(リジェクト文字)の1回以上の繰り返しであるため、認識結果文字列の次の文字であるC[18]の“土”には一致しないことがわかる。よって文字列のパターンが一致しないため、S36は「No」と判断され、次にS39へ処理が進む。
i=18から61についても同様に処理が進み、i=62において、S32でC[62]に当たる“(”を取得する。C[17]の場合と同様に、図6の横書きパターンリストには“(”で始まる文字列パターンとして[URL1]が存在するため、S34では「Yes」となり、次にS35へ処理が進む。S35ではC[63]以降の文字列“間叫仔:\\胡棚狛)関こ七\)…”が、[URL1]の文字列パターンに一致するか否かを調べる。[URL1]の文字列パターンにおいては、次はリジェクト文字の1回以上の繰り返しである。この例においては、C[63]からC[65]の“間”“叫”“仔”はいずれもリジェクト文字であり、文字列パターンに一致するため、次の文字との比較に進む。文字列パターンでは、次からの3文字は順番に“:”“\”“\”であるが、認識結果文字列のC[66]からC[68]に“:”“\”“\”が認識されているため、次の文字との比較に進む。
ここから[URL1]の文字列パターンでは(1)(2)(3)の文字列パターンに分岐する。まず、文字列パターン(1)について比較を行う。文字列パターン(1)では、次はリジェクト文字の1回以上の繰り返しである。そして、図5の認識結果文字列のC[69]からC[75]において“胡”“棚”“狛”“」”“関”“こ”“七”というリジェクト文字が繰り返し認識されているため、その次の文字の比較に進む。文字列パターン(1)では、次は“)”が出現して終了する。しかし、認識結果文字列の次の文字C[76]では“\”が認識されており、文字列パターン(1)とは一致しないことになる。
従って、次に文字列パターン(2)との比較が行われる。文字列パターン(2)では、(1)と同様に、次はリジェクト文字の1回以上の繰り返しである。そして、図7の認識結果文字列のC[69]からC[75]にリジェクト文字の繰り返しが認識されているため、次の文字の比較に進む。次の文字は“\”であるが、認識結果文字列の次の文字C[76]では“\”が認識されており、その次の文字の比較に進む。次は“)” が出現して終了するが、認識結果文字列の次の文字C[76]では“)”が認識されており、文字列パターン(2)と一致する。
従って、S36では、文字列のパターンが一致する項目があるため「Yes」となり、次にS37へ進む。S37ではパターンにマッチしたC[62]からC[77]までの文字列“(間叫仔:\\胡棚狛)関こ七\)”を抽出してS38へ進む。S38ではj=77であるため、i=78としてS31へ進む。以降は同様に処理が行われ、S31でi=87となったときに処理が終了する。このようにして抽出された“(間叫仔:\\胡棚狛)関こ七\)”が、図1の文字列抽出部2から出力され、その抽出結果が表示装置20に横書き文字列抽出結果として表示される。
次に、本実施の形態に係る文字列抽出装置1によって行われる横書き文字列抽出の効果を説明する。
本実施の形態に係る文字列抽出装置1は、文字列抽出部2が、予め横書き文字列パターンリスト32に登録されたURLを示す文字列パターンと、マッチング装置10によって行われる混在文字列の文字認識結果とを照合し、混在文字列の文字認識結果から、URLを示す文字列パターンに一致する横書き文字列のみを抽出する。
これにより、文字列抽出装置1は、URLに係る文字列パターンが登録された横書き文字列パターンリスト32を用いることで、文字認識結果から、URLに係る横書き文字列を効率よく抽出することができる。
また、縦書き文字列に含まれる横書き文字列には、URL、電子メールアドレス、電話番号、あるいは郵便番号などの特定の情報が含まれていることが多い。従って、横書き文字列パターンリスト32は、URL以外にも、例えば図8に示すように、電話番号、電子メールアドレス、郵便番号と関連付けることもできる。横書き文字列パターンリストが、電話番号、電子メールアドレス、郵便番号等の特定の情報と関連付けられていることにより、文字認識結果から、それらの文字列を含む横書き文字列を効率よく抽出できる。逆に、URL、電子メールアドレス等以外の必要としていない文字列パターンを横書き文字列パターンリストに含めないことにより、URL等の限られた文字列のみを横書き文字列から効率的に抽出し、その他の横書き文字列を抽出しないように設定することもできる。つまり、横書き文字列として記載された文字列の中から、必要な情報のみを効率的に抽出することができる。
なお、URL、電話番号、電子メールアドレス、郵便番号以外のパターンも、当然のことながら、横書き文字列パターンリストに関連付けることができる。
また、文字認識結果の良好な文字には、括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号などの文字が含まれる。従って、例えば、“:”、“/”、“アットマーク”などが文字認識されると、その横書き文字列は、URL、電子メールアドレスを示すものであると認識される。従って、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字(例えば“:”、“/” 、“アットマーク”)とが規則的に配置されてなる横書き文字列パターンリストを用いることにより、文字認識結果から、URL、電子メールアドレスを効率的に抽出することができる。
このようにして、本実施の形態に係る文字列抽出装置1を用いることにより、横書き文字列パターンリストを用いることで、文字認識結果から横書き文字列を効率よく抽出することができる。
〔実施の形態2〕
以下、本実施の形態に係る文字列抽出装置5について説明する。なお、図1を参照して前述した構成要素と同一の構成要素には同一の参照符号を付している。従って、これらの構成要素の詳細な説明は省略する。
図9に示すように、文字列抽出装置5は、文字列抽出部2に加え、さらに、文字列抽出部2が抽出した横書き文字列を示す情報に基づいて、混在文字列から、横書き文字列を含む領域を特定する領域特定部6(領域特定手段)と、領域特定部6が特定した領域を90度回転して、その結果を出力する回転出力部7(回転出力手段)とを備える。そして、回転出力部7から出力された結果は、表示装置25に表示される構成である。
次に、上記構成によって行われる文字列抽出処理フローを図10により説明する。なお、図2を参照して前述したステップと同一のステップには同一の参照符号を付している。従って、これらのステップの詳細な説明は省略する。
図10において、S10までは図2のS10と同様の処理が行われる。従って、図4に示す横書きのURLを含む縦書き文書から、図5のC[62]からC[77]までの文字が抽出されている。S11の領域特定では、C[62]からC[77]までの抽出結果に基づいて、混在文字列から、“(http://www.abcdef.or.jp/)”を含む領域が特定される。これは、上述した領域特定部6によって行われる。そして、S12では、回転出力部7によって、取得した当該領域を90度回転した2値画像が作成される。その作成された2値化画像は、図9の表示装置25に表示される。なお、図11は、図10のS1〜S12までの工程によって得られた結果を示すものであり、混在文字列に含まれる、URLを示す横書き文字列“(http://www.abcdef.or.jp/)”が90度回転して表示されている。
次に、上記処理動作において、本実施の形態に係る文字列抽出装置5によって行われる横書き文字列抽出の効果を説明する。なお、実施の形態1において説明した効果と同一の効果については、その詳細な説明は省略する。
先述の実施形態は、混在文字列に含まれるURL等の横書き文字列を抽出する構成に関するものであった。つまり、その文字列抽出は、URL等の情報が横書き文字列に含まれることを確認するためのものであって、混在文字列に記載されたURLをそのまま正確に取得することまでは必要としない場合に有効であった。一方、本実施の形態に係る文字列抽出では、抽出されたURL等の横書き文字列を示す情報に基づいて、混在文字列から、横書き文字列部分を構成するすべての文字を含む領域(外接矩形)を特定し、さらに当該領域を90度回転させている。これにより、縦書き文字列中に含まれるURL等の特定の情報を正確に取得することができる。
あるいは、本実施の形態では、次のような方法によって、90度回転した横書き文字列を文字認識することもできる。つまり、特定された上記領域を90度回転したうえで再びマッチング装置10に入力し、縦書き用マッチング辞書31を用いて、その横書き文字列部分の文字の再認識を行う構成である。再認識処理は図3のフローチャートを用いて説明した行認識処理を、当該部分の文字列に適用することにより実現される。このようにして、文字認識結果として“( HYPERLINK "http://www.evnetannai.co.jp" http://www.abcdef.or.jp/)”を取得できる。図12は、図5の認識結果文字列から抽出した横書き文字列を再認識した後の文字列に置き換えた例であり、領域特定部6が特定して90度回転した領域に対して行認識処理を行い、他の文字列部分と共に表示装置25に表示した結果を示している。上記方法により、図4に示す縦書き文字列と横書き文字列とを文字認識し、その結果を表示することができる。
このように、領域特定部6は、抽出された横書き文字列を示す情報に基づいて、混在文字列から、横書き文字列部分を構成するすべての文字を含む領域(外接矩形)を特定することができる。そして、回転出力部7は、さらに当該領域を90度回転させて表示装置25に出力することができる。これにより、抽出された横書き文字列について、そこに含まれる文字を正確に認識することができ、正しい文字認識結果を得ることができる。
なお、図11の例では、抽出した横書き文字列は1つの行内含まれている。しかしながら、抽出した文字列が複数の行に亘る場合には、複数回の認識結果を取得して結合することにより、再認識結果を得ることができる。また、本実施の形態では、抽出された横書き文字列部分の領域を90度回転したうえで再認識を行っているが、その他の方法として、抽出した特徴情報を回転して、回転処理された後の文字に対して使用されるマッチング辞書との照合を行う方法なども考えられる。
また、本実施の形態では、抽出された横書き文字列部分の領域を90度回転することとして説明した。しかしながら、その回転角度は90度に限られず、ユーザが表示装置で確認できるのであれば、180度、270度、あるいは他の角度であってもよい。
また、領域特定部6による領域の認定は、半角文字のピッチで行う構成とすることもできる。これは、縦書き文字列に含まれる横書き文字列は、アルファベットや数字などの半角文字であることが多いため、半角文字のピッチで文字を切り出して認識することにより、縦書き文字列に含まれる横書き文字列の文字認識を容易に行えるためである。従って、その構成を備えることにより、一部に横書き文字列が混在した縦書き文字列を認識する文字認識において、日本語文字(全角文字)のピッチで切り出して認識することにより発生する誤認識をなくすことができる。
このように、本実施の形態に係る文字列抽出は、文字認識結果から抽出された横書き文字列部分を再認識し、再認識文字列に置き換えて認識結果文字列を出力することができ、それにより、横書き文字列部分についても正しい認識結果文字列を出力することができる。
なお、上記実施形態の文字列抽出装置の各部や各処理ステップは、CPUなどの演算手段が、ROM(Read Only Memory)やRAMなどの記憶手段に記憶されたプログラムを実行し、キーボードなどの入力手段、ディスプレイなどの出力手段、あるいは、インターフェース回路などの通信手段を制御することにより実現することができる。したがって、これらの手段を有するコンピュータが、上記プログラムを記録した記録媒体を読み取り、当該プログラムを実行するだけで、本実施形態の文字列抽出装置の各種機能および各種処理を実現することができる。また、上記プログラムをリムーバブルな記録媒体に記録することにより、任意のコンピュータ上で上記の各種機能および各種処理を実現することができる。
この記録媒体としては、マイクロコンピュータで処理を行うために図示しないメモリ、例えばROMのようなものがプログラムメディアであっても良いし、また、図示していないが外部記憶装置としてプログラム読取り装置が設けられ、そこに記録媒体を挿入することにより読取り可能なプログラムメディアであっても良い。
また、何れの場合でも、格納されているプログラムは、マイクロプロセッサがアクセスして実行される構成であることが好ましい。さらに、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータのプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であることが好ましい。なお、このダウンロード用のプログラムは予め本体装置に格納されているものとする。
また、上記プログラムメディアとしては、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フレキシブルディスクやハードディスク等の磁気ディスクやCD/MO/MD/DVD等のディスクのディスク系、ICカード(メモリカードを含む)等のカード系、あるいはマスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する記録媒体等がある。
また、インターネットを含む通信ネットワークを接続可能なシステム構成であれば、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する記録媒体であることが好ましい。
さらに、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであることが好ましい。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本発明は、縦書き文字列と横書き文字列とが混在する文字列から、横書きの文字認識を行うことなく、前記横書き文字列に含まれる所定の文字列パターンを抽出する文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体に適用することができる。
本実施の形態に係る文字列抽出装置を用いた文字列抽出処理のブロック図である。 本実施の形態に係る文字列抽出処理の全体の流れを示すフローチャートである。 本実施の形態に係る行認識処理の詳細を示すフローチャート図である。 横書き文字列を含む縦書き文書の一例である。 本実施の形態に係る文字列抽出の結果を示す例である。 URLに係る横書き文字列パターンリストの一例を示す図である。 本実施の形態に係る横書き文字列抽出処理の流れを示したフローチャート図である。 電話番号、電子メールアドレス、郵便番号に対応する横書き文字列パターンリストの一例を示す図である。 本実施の形態に係る他の文字列抽出装置を用いた文字列抽出処理のブロック図である。 本実施の形態に係る他の文字列抽出処理の全体の流れを示すフローチャートである。 図10のS1〜S12までの工程によって得られた結果を示す図である。 図5の認識結果文字列から抽出された横書き文字列を再認識した後の文字列に置き換えた例である。
符号の説明
1、5 文字列抽出装置
2 文字列抽出部(文字列抽出手段)
6 領域特定部(領域特定手段)
7 回転出力部(回転出力手段)
10 マッチング装置
11 縦・横書き文字列入力部
12 2値化処理部
13 文字領域抽出部
14 文字矩形抽出部
15 縦書判定部
16 行抽出部
17 マッチング部
20、25 表示装置
30 記憶装置
31 縦書き用マッチング辞書
32 横書き文字列パターンリスト

Claims (9)

  1. 縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出装置であって、
    文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、前記混在文字列の文字認識結果とを照合し、前記混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出手段を備えることを特徴とする文字列抽出装置。
  2. 前記横書き文字列パターンリストは、少なくとも、URL、電子メールアドレス、電話番号、あるいは郵便番号に関連付けられてなることを特徴とする請求項1に記載の文字列抽出装置。
  3. 前記文字認識結果の良好な文字には、少なくとも、括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号が含まれることを特徴とする請求項1又は2に記載の文字列抽出装置。
  4. 前記文字列抽出手段が抽出した横書き文字列を示す情報に基づいて、前記混在文字列から、横書き文字列を含む領域を特定する領域特定手段を備えることを特徴とする請求項1〜3の何れか1項に記載の文字列抽出装置。
  5. 前記領域特定手段による領域の特定は、半角文字のピッチで行われることを特徴とする請求項4に記載の文字列抽出装置。
  6. 前記領域特定手段が特定した前記領域を回転して、その結果を出力する回転出力手段を備えることを特徴とする請求項4又は5に記載の文字列抽出装置。
  7. 縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出方法であって、
    文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、前記混在文字列の文字認識結果とを照合し、前記混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出ステップを含むことを特徴とする文字列抽出方法。
  8. 請求項1から6のいずれか1項に記載の文字列抽出装置を動作させる文字列抽出プログラムであって、コンピュータを上記の各手段として機能させるための文字列抽出プログラム。
  9. 請求項8に記載の文字列抽出プログラムを記録したコンピュータに読み取り可能な記録媒体。
JP2008141019A 2008-05-29 2008-05-29 文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体 Pending JP2009289038A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008141019A JP2009289038A (ja) 2008-05-29 2008-05-29 文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008141019A JP2009289038A (ja) 2008-05-29 2008-05-29 文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2009289038A true JP2009289038A (ja) 2009-12-10

Family

ID=41458198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008141019A Pending JP2009289038A (ja) 2008-05-29 2008-05-29 文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2009289038A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013136628A1 (ja) * 2012-03-14 2013-09-19 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013136628A1 (ja) * 2012-03-14 2013-09-19 オムロン株式会社 キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
JP2013191104A (ja) * 2012-03-14 2013-09-26 Omron Corp キーワード検出装置、その制御方法および制御プログラム、並びに表示機器
CN104126188A (zh) * 2012-03-14 2014-10-29 欧姆龙株式会社 关键字检测装置、其控制方法及控制程序,以及显示设备

Similar Documents

Publication Publication Date Title
US9373030B2 (en) Automated document recognition, identification, and data extraction
US9201879B2 (en) Method, apparatus and system for generating a feature vector
US7929770B2 (en) Handwriting processing apparatus and method
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
CN112825561A (zh) 字幕显示方法、系统、计算机设备及可读存储介质
JP6795195B2 (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
CN107122785B (zh) 文本识别模型建立方法和装置
JP2018147178A (ja) コンテナ番号読取り装置、コンテナ番号読取り方法およびコンテナ番号読取りプログラム
JP4672692B2 (ja) 単語認識システムおよび単語認識プログラム
JP2008282094A (ja) 文字認識処理装置
JP2009289038A (ja) 文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体
CN115688166A (zh) 信息脱敏处理方法、装置、计算机设备及可读存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN113850258A (zh) 一种提取文档中文本行的方法、系统、设备及存储介质
JP6561684B2 (ja) スキャナ装置、及びプログラム
CN112949514A (zh) 一种扫描文档信息处理方法、装置、电子设备及存储介质
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
CN110163203B (zh) 字符识别方法、装置、存储介质及计算机设备
CN112784825A (zh) 图片中文字的识别方法、关键字检索方法、装置及设备
JP2014044555A (ja) 画像処理装置、画像処理システム及びプログラム
CN112639816A (zh) 图像信息处理装置、图像信息处理方法和图像信息处理程序
CN107402930B (zh) 网页文本的修改方法及装置
JP2006092226A (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2006330873A (ja) 指紋照合装置、方法およびプログラム