JP2009289038A

JP2009289038A - 文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体

Info

Publication number: JP2009289038A
Application number: JP2008141019A
Authority: JP
Inventors: Kei Iwata; 圭岩田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-05-29
Filing date: 2008-05-29
Publication date: 2009-12-10

Abstract

【課題】縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列に含まれる所定の文字列パターンを効率的に抽出する文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体を提供することにある。
【解決手段】文字列抽出装置１は、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出装置１であって、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリスト３２と、混在文字列の文字認識結果とを照合し、混在文字列の文字認識結果から、横書き文字列パターンリスト３２に一致する横書き文字列を抽出する。
【選択図】図１

Description

本発明は、縦書き文字列と横書き文字列とが混在する文字列から、横書きの文字認識を行うことなく、前記横書き文字列に含まれる所定の文字列パターンを抽出する文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体に関するものである。

新聞、雑誌、論文などの紙文書に含まれる情報を保存する場合、紙文書のまま保存すると嵩張るため、スキャナ等で画像データに変換してから保存することが多い。そして、保存された大量の画像データから特定の文書を検索するためには、紙面に含まれる文字情報を文字として認識したうえで保存する必要がある。そこで、スキャナ等により紙文書を画像として取り込み、その画像から文字情報を認識する文字認識装置が考案されている。文字認識装置は、文書画像上の文字および該文字のパターンを登録した辞書を使って文字認識（文字マッチング）を行うことにより文書画像上の文字を認識している。

ここで、紙文書には様々なレイアウトが存在する。例えば、紙面に記載された文章がいくつかの段落に分かれている場合や、ページや段落ごとに縦書きと横書きとが入れ替わる場合、あるいは文章、図、表、写真が混在する場合などがある。また、近年のインターネットの普及によって、文書中にホームページアドレス、電子メールアドレス等が記載されるケースも増えている。ホームページアドレスなどは、英数字と記号とで構成される文字列であるため、通常は横書き文書中に記載されるが、縦書き文書中に記載されることも多い。そして、縦書き文書において、そのような英数字と記号とで構成される文字列を１文字ずつ縦に並べて記載すると非常に読みづらくなるため、通常は、文字を９０度回転させて記載する、つまり紙面を９０度回転させて横書き文字列となるように記載する。その結果、１つの文字列において、縦書き文字列と横書き文字列とが混在する混在文字列が文書中に現れる。

その混在文字列を文字認識する場合、ほとんどの文字列が縦書き文字列によって構成されているため、縦書き用のマッチング辞書が使用される。そのため、横書き文字列は縦書き文字列として認識されてしまい、横書き文字列を正確に認識することができない。そこで、文字列を９０度回転させて文字認識するという方法が提案されている。しかしながら、縦書き文字列は回転処理によって横書き文字列になってしまうため、その横書き文字列は、縦書き用のマッチング辞書の文字パターンと一致せず正確に認識されなくなる。

そこで、文字列を９０度回転させたパターンを辞書に持たせるという方法が考えられる。しかしながら、通常、横書き文字は縦書き文書中にごく一部しか含まれていないため、大部分の縦書き文字部分も９０度回転させたうえで上記他の辞書で文字認識することになれば、結果的に文字認識の効率は著しく悪化する。

そこで、特許文献１に記載の文字認識装置は、縦書き用マッチング辞書によってリジェクトされたリジェクト文字（文字認識結果の悪い文字）の画像を９０度回転し、横書き文字用のマッチング辞書によって当該画像を認識することで横書き文字を認識する方法を提案している。
特開昭６２−１２０５８６号公報（昭和６２年６月１日公開）

しかしながら、文書には、縦書き文字、横書き文字のみではなく、図や写真等の文字ではない非文字部分も含まれることが多い。従って、当該文書に含まれる文字の認識を行う場合、文字認識の効率を下げないために、予め非文字部分を除去処理しておく必要がある。この点、特許文献１には、文書中に非文字部分が含まれる構成が記載されていない。従って、文書に図や写真等が含まれる場合には、非文字部分についても文字認識しようとするため、その文字認識の効率は著しく低下する。また、その分だけ文字認識に多大な時間がかかってしまう。

そして、特許文献１に記載の文字認識装置には次のような問題がある。一般的に、縦書き文字列に含まれる横書き文字列は、ＵＲＬ、電話番号、電子メールアドレス、郵便番号等の特定の情報である場合が多く、これらの情報のみを抽出したいという要求もある。つまり、これら特定の情報のみを抽出して、その他の横書き文字列は、記憶容量の問題、文字認識に要する時間を抑制する、といった理由から抽出を望まないことが多い。そのような要求に対して、特許文献１に記載の文字認識装置は、紙文書に含まれる横書き文字列をすべて文字認識する機能しか備えていない。つまり、横書き文字列に含まれる一部の特定の情報のみを抽出するという機能を備えていない。従って、特許文献１に記載の文字認識装置は、縦書き文字列に混在する横書き文字列中に含まれるＵＲＬ等の特定の情報のみを抽出する、あるいは該抽出した情報を表示したいという要求に応えることができない。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列に含まれる所定の文字列パターンを効率的に抽出する文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体を提供することにある。

本発明に係る文字列抽出装置は、前記課題を解決するために、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出装置であって、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、前記混在文字列の文字認識結果とを照合し、前記混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出手段を備えることを特徴としている。

縦書き文字列に含まれる横書き文字列は、例えばＵＲＬ等の特定の情報を示すことが多い。そして、その特定の情報を示す横書き文字列を文字認識すると、文字認識結果の悪いリジェクト文字と文字認識結果の良好な文字の配置に規則性を見出すことができる。そこで、その規則性が予めリスト化された横書き文字列パターンリストを用いることにより、本発明に係る文字列抽出装置は、混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する上記の特定情報に対応付けられた横書き文字列のみを抽出することができる。また、文字認識結果と前記横書き文字列パターンリストとが一致しない場合には、文字認識結果には特定の情報が含まれていないと考えられ、横書き文字列の抽出は行われない。このようにして、本発明に係る文字列抽出装置は、前記横書き文字列パターンリストを用いることにより、文字認識結果から、横書き文字列パターンリストに一致する横書き文字列のみを効率的に抽出することができる。

本発明に係る文字列抽出装置では、前記横書き文字列パターンリストは、少なくとも、ＵＲＬ、電子メールアドレス、電話番号、あるいは郵便番号に関連付けられてなることが好ましい。

縦書き文字列に含まれる横書き文字列に、ＵＲＬ、電子メールアドレス、電話番号、あるいは郵便番号などの特定の情報が含まれている場合がある。このような場合、横書き文字列パターンリストが、上記ＵＲＬ等と関連付けてなることにより、ＵＲＬ等を含む横書き文字列を縦書き文字列から効率よく抽出することができる。また、横書き文字列が、上記ＵＲＬ等とは異なる文字列である場合、それらは横書き文字列パターンリストに含まれていないため、文字列抽出手段は、その横書き文字列を抽出することはない。従って、横書き文字列パターンリストに関連付けられてなるＵＲＬ等のみを横書き文字列から抽出することができる。言い換えると、抽出する文字列を必要なものに限定することができ、横書き文字列の必要でない部分の抽出を省略することができる。従って、抽出対象文字を絞ることにより、抽出にかかる時間を短縮することができる。さらに、予め登録された所定の文字列パターンリストを用いることで、抽出対象文字の誤認も防ぐことができる。

本発明に係る文字列抽出装置では、前記文字認識結果の良好な文字には、少なくとも、括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号が含まれることが好ましい。

括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号などの文字は、縦書き文字列、横書き文字列の何れに含まれても、その特徴点を抽出しやすく、良好な文字認識を得ることができる。すなわち、上記各文字は、良好に文字認識される典型的な文字であるといえる。従って、例えば、“：”、“／”、“アットマーク”が文字認識されると、その横書き文字列はＵＲＬ、電子メールアドレスを示すものであると認識でき、それらの文字に基づいて容易に横書き文字列を抽出することができる。

本発明に係る文字列抽出装置は、前記文字列抽出手段が抽出した横書き文字列を示す情報に基づいて、前記混在文字列から、横書き文字列を含む領域を特定する領域特定手段を備えることが好ましい。

本発明に係る文字列抽出装置では、前記領域特定手段による領域の特定は、半角文字のピッチで行われることが好ましい。

本発明に係る文字列抽出装置は、前記領域特定手段が特定した前記領域を回転して、その結果を出力する回転出力手段を備えることが好ましい。

領域特定手段は、抽出された横書き文字列を示す情報に基づいて、混在文字列から、横書き文字列部分を構成するすべての文字を含む領域（外接矩形）を特定することができる。そして、回転出力手段は、さらに当該領域を回転させて表示装置に出力することができる。それにより、例えば上記領域を９０度、あるいは２７０度回転させることにより、ユーザにとって見やすい画像を提供することができる。

また、領域特定手段による領域の認定は、半角文字のピッチで行うことができる。これは、縦書き文字列に含まれる横書き文字列は、アルファベットや数字などの半角文字であることが多いため、半角文字のピッチで文字を切り出して認識することにより、縦書き文字列に含まれる横書き文字列の文字認識を容易に行えるためである。従って、一部に横書き文字列が混在した縦書き文字列を認識する文字認識において、日本語文字（全角文字）のピッチで切り出して認識することにより発生する誤認識をなくすことができる。

本発明に係る文字列抽出方法は、前記課題を解決するために、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出方法であって、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、前記混在文字列の文字認識結果とを照合し、前記混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出ステップを含むことを特徴としている。

前記の構成によれば、本発明に係る文字列抽出方法は、混在文字列の文字認識結果から、横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出ステップを備えている。従って、横書き文字列パターンリストを用いることで、文字認識結果から、横書き文字列を効率よく抽出することができる。

本発明に係る文字列抽出プログラムは、前記課題を解決するために、上記の文字列抽出装置を動作させる文字列抽出プログラムであって、コンピュータを上記の各手段として機能させることを特徴としている。

前記の構成によれば、本発明に係る文字列抽出プログラムは、汎用のコンピュータに、本発明に係る文字列抽出方法を実行させ、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を効率よく抽出することができる。

本発明に係る記録媒体は、前記課題を解決するために、上記の文字列抽出プログラムをコンピュータに読み取り可能に記録している。

前記の構成によれば、本発明に係る文字列抽出プログラムを記録したコンピュータに読み取り可能な記録媒体は、該記録媒体から汎用のコンピュータに、文字列抽出プログラムをインストールし、上記文字列抽出方法を実行させることができる。その結果、縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を効率よく抽出することができる。

本発明に係る文字列抽出装置は、以上のように、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、混在文字列の文字認識結果とを照合することにより、混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出手段を備える構成である。

また、本発明に係る文字列抽出方法は、以上のように、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、混在文字列の文字認識結果とを照合することにより、混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出ステップを有する構成である。

従って、本発明に係る文字列抽出装置および文字列抽出方法は、横書き文字列パターンリストを用いることで、文字認識結果から横書き文字列を効率よく抽出することができるという効果を奏する。

〔実施の形態１〕
以下、本実施の形態に係る文字列抽出装置１について説明する。なお、ここでは、縦書き文字列、横書き文字列、図表、写真等が混在する文書をスキャナによって取り込み、取り込んだ画像に含まれる横書き文字列から所定の文字列パターンを抽出する、という例を用いて文字列抽出装置１について説明する。

図１は、本実施の形態に係る文字列抽出装置１を用いた文字列抽出処理のブロック図である。図１に示すように、本実施の形態に係る文字列抽出処理は、横書き文字列に含まれる所定の文字列パターンを抽出する文字列抽出装置１と、複数の文字で構成された行画像の１つ１つの文字の特徴情報を抽出して文字列抽出装置１に出力するマッチング装置１０と、文字列抽出装置１によって得られた文字列抽出結果を表示する表示装置２０と、縦書き用マッチング辞書３１および横書き文字列パターンリスト３２を記憶する記憶装置３０とによって行われる。

マッチング装置１０は、縦・横書き文字列入力部１１と、２値化処理部１２と、文字領域抽出部１３と、文字矩形抽出部１４と、縦書判定部１５と、行抽出部１６と、マッチング部１７と、を備える。なお、図１では、マッチング装置１０は、文字列抽出装置１の外部に配設される構成であるが、文字列抽出装置１の内部に配設される構成であってもよい。

縦・横書き文字列入力部１１は、縦書き文字列、横書き文字列、図表、写真等が混在する文書をスキャナによって取り込む。２値化処理部１２は、スキャナで取り込まれた多値画像の文書を２値画像入力する。なお、以下の説明においては、２値画像の文字に該当する画素を黒、背景に該当する画素を白であるとして説明する。

文字領域抽出部１３は、入力された２値画像のうち黒画素の分布を調べ、全体画像を１つ１つが意味のある領域に分割し、その中から文字の書かれている文字領域を抽出する文字領域抽出を行う。文字矩形抽出部１４は、抽出された文字領域内において、２値画像の黒画素の連結を文字矩形として抽出する文字矩形抽出を行う。ここで、文字矩形とは、分離文字においては文字の一部分の矩形であり、また文字が接触している場合は複数の文字が接触した矩形となるため、必ずしも１つの矩形で１つの文字の全体を表すものではない。

縦書判定部１５は、抽出された文字領域について、文字領域内の文字矩形間の間隔、文字矩形のサイズなどの情報を使用して、その文字領域が横書きであるか縦書きであるかを判定する縦横書き判定を行う。行抽出部１６は、抽出された文字領域において、抽出された文字矩形間の位置関係や、判定された縦書き横書き情報などを使用して、文書の行にあたる画像領域を抽出する行抽出を行う。

マッチング部１７は、縦書き文字の特徴が登録されて縦書き文字の読み取りが可能な、記憶装置３０が記憶する縦書き用マッチング辞書３１を用いて、抽出された行を構成する文字を順番に認識する行認識処理を行う。詳細は後述するが、マッチング部１７における行認識処理は、文字切り出し処理、特徴抽出処理、マッチング処理、及び文字列生成処理を行い、行を構成する文字を順番に認識して、その結果を文字列抽出装置１に出力している。

文字列抽出装置１は、記憶装置３０が記憶する横書き文字列パターンリスト３２を用いて、横書き文字列に含まれる所定の文字列パターンを抽出する文字列抽出部２（文字列抽出手段）を備える。詳細は後述するが、横書き文字列パターンリスト３２は、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなるリストである。

表示装置２０は、文字列抽出装置１によって抽出された横書き文字列に含まれる所定の文字列パターンを表示する装置であり、一般的なディスプレーであってよい。なお、図１では、表示装置２０は、文字列抽出装置１の外部に配設される構成であるが、文字列抽出装置１の内部に配設される構成であってもよい。

記憶装置３０は、縦書き用マッチング辞書３１および横書き文字列パターンリスト３２を記憶するものである。縦書き用マッチング辞書３１は、縦書き文字の特徴が登録されて、縦書き文字の読み取りが可能な辞書である。横書き文字列パターンリスト３２は、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなるリストであり、その詳細は後述する。なお、図１では、記憶装置３０は、文字列抽出装置１の外部に配設される構成であるが、文字列抽出装置１の内部に配設される構成であってもよい。

次に、上記構成によって行われる文字列抽出処理のフローを図２、図３により説明する。図２は、文字列抽出処理の全体の流れを示すフローチャートである。図３は、行認識処理の詳細を示すフローチャート図である。

まずは図２に基づいて説明する。最初に、縦書き文字列、横書き文字列、図表、写真等が混在する文書が、スキャナによって縦・横書き文字列入力部１１に取り込まれる（Ｓ１）。次に、スキャナで取り込まれた多値画像の文書が２値化処理部１２によって２値画像入力される（Ｓ２）。続いて、入力された２値画像の黒画素の分布を調べ、全体画像を１つ１つが意味のある領域に分割し、その中から文字の書かれている文字領域を抽出する文字領域抽出が行われる（Ｓ３）。なお、この文字領域抽出は文字領域抽出部１３によって行われる。そして、抽出された文字領域内において、２値画像の黒画素の連結を文字矩形として抽出する文字矩形抽出が文字矩形抽出部１４によって行われる（Ｓ４）。次に、縦書判定部１５により、抽出された文字領域について、文字領域内の文字矩形間の間隔、文字矩形のサイズなどの情報を使用して、その文字領域が横書きであるか縦書きであるかが判定される（Ｓ５）。その後、行抽出部１６により、抽出された文字領域において、抽出された文字矩形間の位置関係や、判定された縦書き横書き情報などを使用して、文書の行にあたる画像領域を抽出する行抽出が行われる（Ｓ６）。そして、縦書き文字の特徴が登録されて、縦書き文字の読み取りが可能な縦書き用マッチング辞書を用いて、抽出された行を構成する文字を順番に認識する行認識処理がマッチング部１７によって行われる（Ｓ７）。

ここで、行認識処理の詳細を図３により説明する。まず、複数の文字で構成された行画像を１つ１つの文字画像に分離する文字切り出し処理が行われる（Ｓ２０）。次に、文字切り出し処理によって分離した１つ１つの文字画像について、その特徴情報を抽出する特徴抽出処理が行われる（Ｓ２１）。続いて、抽出した特徴と文字の標準パターン特徴を登録した縦書き用マッチング辞書との照合を行い、１つ１つの文字がどの文字の特徴に近いかが調べられ、その結果を認識文字候補としてその類似度とともに記憶するマッチング処理が行われる（Ｓ２２）。このとき、認識対象の文字領域が横書きである場合は、横書きに使用される文字の特徴を登録した横書き用のマッチング辞書を、縦書きである場合は縦書きに使用される文字の特徴を登録した縦書き用のマッチング辞書が使用される。なお、本実施の形態では縦書き用のマッチング辞書を使用している。

次に、生成した認識文字候補の中から妥当なものを順番に選択して組み合わせることにより、認識結果文字列を生成する文字列生成処理が行われる（Ｓ２３）。このように、行認識では、文字切り出し処理、特徴抽出処理、マッチング処理、及び文字列生成処理を行い、行を構成する文字を順番に認識している。

ここで、再び図２を参照して、Ｓ７の行認識処理以降のフローを説明する。上述した行認識処理では、抽出したすべての行に対して行認識を実行することが求められる。そこで、Ｓ８では、マッチング部１７が、文字領域に含まれるすべての行について行認識が終了したか否かを確認し、終了していない場合はＳ７へ戻り、その場合は、まだ認識していない行の認識が上記の方法によって行われる。文字領域に含まれるすべての行の認識が終わると、次にＳ９に進む。Ｓ９では、マッチング部１７が、文字領域が横書きである場合は処理を終了し、縦書きである場合はＳ１０へ進む。Ｓ１０では、後述する横書き文字列パターンリストを用いて、認識結果文字列の中に横書き文字列が現れるかどうかを確認する横書き文字列抽出処理が文字列抽出部２によって行われる。

次に、その横書き文字列抽出処理の詳細を、図１、図４〜図７により説明する。図４は、横書き文字列を含む縦書き文書の一例である。図４の文書には、ＵＲＬ（uniform resource locator）を示す“http://www.abcdef.or.jp/”と記載された横書き文字列が、縦書き文字列によって構成された文書の一部に含まれている。

図５は、マッチング装置１０、及び縦書き用マッチング辞書３１を用いる上記の方法により図４の文書を文字抽出した結果である。この文字認識結果が、マッチング部１７から文字列抽出装置１への出力となる。図５に示すように、図４の文書を文字認識すると８７文字の認識結果文字が得られる。なお、図５の“間叫仔：＼＼胡棚狛」関こ七＼”は、“http://www.abcdef.or.jp/”の文字認識結果が悪くてリジェクトされたリジェクト文字を示す。本実施の形態では、縦書き用マッチング辞書により縦書き文字列を文字認識しているため、横書き文字列の文字認識結果は悪くなる。なお、縦書き用マッチング辞書による文字認識では、横書き文字列に含まれる括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号などの文字は、その特徴点が明確であり、縦書き文字列、横書き文字列の何れに含まれていても文字認識しやすい。従って、横書き文字列に含まれる“：”、“／”は良好に文字認識される。

次に、記憶装置３０に記憶された横書き文字列パターンリスト３２の詳細を図６により説明する。図６は、ＵＲＬに係る横書き文字列パターンリストの一例を示す図である。先頭の２重丸は文字列の開始を表し、それ以外の２重丸は文字列の終了を表す。“Ｒj”はリジェクト文字（認識結果の悪い文字）を表す。例えば1つ目のリスト〔ＵＲＬ１〕の（１）の文字列は、括弧で囲まれたＵＲＬを表しているが、始めに“（”が認識され、リジェクト文字の１回以上の繰り返しがあり、“：”が認識され、“＼”が2回認識され、リジェクト文字の１回以上の繰り返しがあり、最後に“）”が認識されるパターンを示している。

（２）の文字列は、（１）と同様に括弧で囲まれたＵＲＬを表しており、始めに“（”が認識され、リジェクト文字の１回以上の繰り返しがあり、“：”が認識され、“＼”が2回認識される。ここまでは（１）の文字列と同じであるが、その後リジェクト文字の１回以上の繰り返しと“＼”の組み合わせの1回以上の繰り返しがあり、最後に“）”が認識されるパターンを示している。

（３）の文字列は、（１）と同様に括弧で囲まれたＵＲＬを表しており、始めに“（”が認識され、リジェクト文字の１回以上の繰り返しがあり、“：”が認識され、“＼”が2回認識される。その後リジェクト文字の１回以上の繰り返しと“＼”の組み合わせの1回以上の繰り返しがある。ここまでは（２）の文字列と同じであるが、その後リジェクト文字の１回以上の繰り返しがあり、最後に“）”が認識されるパターンを示している。

図６の２つ目のリスト〔ＵＲＬ２〕の（４）の文字列は、1つ目のリストの（１）〜（３）とは異なり、最初にリジェクト文字の１回以上の繰り返しが認識され、“：”が認識され、“＼”が2回認識され、リジェクト文字の１回以上の繰り返しが認識されるパターンを示している。

（５）の文字列は、最初にリジェクト文字の１回以上の繰り返しが認識され、“：”が認識され、“＼”が2回認識され、リジェクト文字の１回以上の繰り返しが認識されるまでは（４）の文字列と同じであるが、最後に“＼”が認識されるパターンを示している。

（６）の文字列は、最初にリジェクト文字の１回以上の繰り返しが認識され、“：”が認識され、“＼”が2回認識され、リジェクト文字の１回以上の繰り返しが認識され、“＼”が認識されるまでは（５）の文字列と同じであるが、最後にリジェクト文字の１回以上の繰り返しが認識されるパターンを示している。

そして、文字列抽出装置１の文字列抽出部２は、マッチング部１７が縦書き用マッチング辞書３１を用いて文字認識した図５の結果と、図６の横書き文字列パターンリストとを照合して、図５の文字認識結果から、横書き文字列に含まれる所定の文字列パターンを抽出している。

ここで、より具体的に、文字列抽出部２によって行われる横書き文字列抽出処理の流れを図７により説明する。なお、ここでは、図４の横書きＵＲＬを含む縦書き文書に対して、図１のマッチング部１７までの処理を行って図５の文字認識結果が得られたものとする。そして、図６の横書き文字列パターンリストを用いて、図５の文字認識結果からＵＲＬに係る部分を抽出する。また、図５に示すように、マッチング部１７により行われた文字認識処理により認識された長さｎの認識結果文字列の個々の文字を、順番にＣ［０］からＣ［ｎ−１］として表す。図５において認識結果文字列は８７文字であるため、Ｃ［０］は“今”、Ｃ［１］は“後”、最後の文字のＣ［８６］は“。”である。

図７は、横書き文字列抽出処理の流れを示したフローチャート図であり、文字列抽出部２において行われる横書き文字列抽出処理の流れを説明するための図である。

まず、ｉ＝０として処理が開始する（Ｓ３０）。次に、Ｓ３１では、ｉ＝ｎであるか否かを調べる。図５よりｎ＝８７であるため、Ｓ３１では「Ｎｏ」となり、Ｓ３２へ進む。Ｓ３２では、Ｃ［０］すなわち“今”を取得する。Ｓ３３では、Ｃ［０］の“今”が、図６の横書き文字列パターンリストの先頭文字に含まれているか否かを調べる。Ｓ３４では、横書き文字列パターンリストに“今”で始まるパターンの項目が存在するか否かが確認される。ここでは、横書き文字列パターンリストに“今”で始まるパターンの項目が存在しないため、次にＳ３９へ進む。Ｓ３９ではｉに１を加算してｉ＝１としてＳ３１へ進む。ｉ＝１から１６についても同様に処理が進み、ｉ＝１７においてＳ３２ではＣ［１７］に当たる“（”を取得する。

図６の横書き文字列パターンリストには“（”で始まる文字列パターンとして［ＵＲＬ1］が存在するため、Ｓ３４では「Ｙｅｓ」となり、Ｓ３５へ処理が進む。Ｓ３５では、Ｃ［１８］以降の文字列“土）ハイキング…”が、［ＵＲＬ1］の文字列パターンに一致するか否かを調べる。［ＵＲＬ1］の文字列パターンにおいては、次はRj（リジェクト文字）の1回以上の繰り返しであるため、認識結果文字列の次の文字であるＣ［１８］の“土”には一致しないことがわかる。よって文字列のパターンが一致しないため、Ｓ３６は「Ｎｏ」と判断され、次にＳ３９へ処理が進む。

ｉ＝１８から６１についても同様に処理が進み、ｉ＝６２において、Ｓ３２でＣ［６２］に当たる“（”を取得する。Ｃ［１７］の場合と同様に、図６の横書きパターンリストには“（”で始まる文字列パターンとして［ＵＲＬ1］が存在するため、Ｓ３４では「Ｙｅｓ」となり、次にＳ３５へ処理が進む。Ｓ３５ではＣ［６３］以降の文字列“間叫仔：＼＼胡棚狛）関こ七＼）…”が、［ＵＲＬ1］の文字列パターンに一致するか否かを調べる。［ＵＲＬ1］の文字列パターンにおいては、次はリジェクト文字の1回以上の繰り返しである。この例においては、Ｃ［６３］からＣ［６５］の“間”“叫”“仔”はいずれもリジェクト文字であり、文字列パターンに一致するため、次の文字との比較に進む。文字列パターンでは、次からの3文字は順番に“：”“＼”“＼”であるが、認識結果文字列のＣ［６６］からＣ［６８］に“：”“＼”“＼”が認識されているため、次の文字との比較に進む。

ここから［ＵＲＬ1］の文字列パターンでは（１）（２）（３）の文字列パターンに分岐する。まず、文字列パターン（１）について比較を行う。文字列パターン（１）では、次はリジェクト文字の1回以上の繰り返しである。そして、図５の認識結果文字列のＣ［６９］からＣ［７５］において“胡”“棚”“狛”“」”“関”“こ”“七”というリジェクト文字が繰り返し認識されているため、その次の文字の比較に進む。文字列パターン（１）では、次は“）”が出現して終了する。しかし、認識結果文字列の次の文字Ｃ［７６］では“＼”が認識されており、文字列パターン（１）とは一致しないことになる。

従って、次に文字列パターン（２）との比較が行われる。文字列パターン（２）では、（１）と同様に、次はリジェクト文字の1回以上の繰り返しである。そして、図７の認識結果文字列のＣ［６９］からＣ［７５］にリジェクト文字の繰り返しが認識されているため、次の文字の比較に進む。次の文字は“＼”であるが、認識結果文字列の次の文字Ｃ［７６］では“＼”が認識されており、その次の文字の比較に進む。次は“）” が出現して終了するが、認識結果文字列の次の文字Ｃ［７６］では“）”が認識されており、文字列パターン（２）と一致する。

従って、Ｓ３６では、文字列のパターンが一致する項目があるため「Ｙｅｓ」となり、次にＳ３７へ進む。Ｓ３７ではパターンにマッチしたＣ［６２］からＣ［７７］までの文字列“（間叫仔：＼＼胡棚狛）関こ七＼）”を抽出してＳ３８へ進む。Ｓ３８ではｊ＝７７であるため、ｉ＝７８としてＳ３１へ進む。以降は同様に処理が行われ、Ｓ３１でｉ＝８７となったときに処理が終了する。このようにして抽出された“（間叫仔：＼＼胡棚狛）関こ七＼）”が、図１の文字列抽出部２から出力され、その抽出結果が表示装置２０に横書き文字列抽出結果として表示される。

次に、本実施の形態に係る文字列抽出装置１によって行われる横書き文字列抽出の効果を説明する。

本実施の形態に係る文字列抽出装置１は、文字列抽出部２が、予め横書き文字列パターンリスト３２に登録されたＵＲＬを示す文字列パターンと、マッチング装置１０によって行われる混在文字列の文字認識結果とを照合し、混在文字列の文字認識結果から、ＵＲＬを示す文字列パターンに一致する横書き文字列のみを抽出する。

これにより、文字列抽出装置１は、ＵＲＬに係る文字列パターンが登録された横書き文字列パターンリスト３２を用いることで、文字認識結果から、ＵＲＬに係る横書き文字列を効率よく抽出することができる。

また、縦書き文字列に含まれる横書き文字列には、ＵＲＬ、電子メールアドレス、電話番号、あるいは郵便番号などの特定の情報が含まれていることが多い。従って、横書き文字列パターンリスト３２は、ＵＲＬ以外にも、例えば図８に示すように、電話番号、電子メールアドレス、郵便番号と関連付けることもできる。横書き文字列パターンリストが、電話番号、電子メールアドレス、郵便番号等の特定の情報と関連付けられていることにより、文字認識結果から、それらの文字列を含む横書き文字列を効率よく抽出できる。逆に、ＵＲＬ、電子メールアドレス等以外の必要としていない文字列パターンを横書き文字列パターンリストに含めないことにより、ＵＲＬ等の限られた文字列のみを横書き文字列から効率的に抽出し、その他の横書き文字列を抽出しないように設定することもできる。つまり、横書き文字列として記載された文字列の中から、必要な情報のみを効率的に抽出することができる。

なお、ＵＲＬ、電話番号、電子メールアドレス、郵便番号以外のパターンも、当然のことながら、横書き文字列パターンリストに関連付けることができる。

また、文字認識結果の良好な文字には、括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号などの文字が含まれる。従って、例えば、“：”、“／”、“アットマーク”などが文字認識されると、その横書き文字列は、ＵＲＬ、電子メールアドレスを示すものであると認識される。従って、文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字（例えば“：”、“／” 、“アットマーク”）とが規則的に配置されてなる横書き文字列パターンリストを用いることにより、文字認識結果から、ＵＲＬ、電子メールアドレスを効率的に抽出することができる。

このようにして、本実施の形態に係る文字列抽出装置１を用いることにより、横書き文字列パターンリストを用いることで、文字認識結果から横書き文字列を効率よく抽出することができる。
〔実施の形態２〕
以下、本実施の形態に係る文字列抽出装置５について説明する。なお、図１を参照して前述した構成要素と同一の構成要素には同一の参照符号を付している。従って、これらの構成要素の詳細な説明は省略する。

図９に示すように、文字列抽出装置５は、文字列抽出部２に加え、さらに、文字列抽出部２が抽出した横書き文字列を示す情報に基づいて、混在文字列から、横書き文字列を含む領域を特定する領域特定部６（領域特定手段）と、領域特定部６が特定した領域を９０度回転して、その結果を出力する回転出力部７（回転出力手段）とを備える。そして、回転出力部７から出力された結果は、表示装置２５に表示される構成である。

次に、上記構成によって行われる文字列抽出処理フローを図１０により説明する。なお、図２を参照して前述したステップと同一のステップには同一の参照符号を付している。従って、これらのステップの詳細な説明は省略する。

図１０において、Ｓ１０までは図２のＳ１０と同様の処理が行われる。従って、図４に示す横書きのＵＲＬを含む縦書き文書から、図５のＣ［６２］からＣ［７７］までの文字が抽出されている。Ｓ１１の領域特定では、Ｃ［６２］からＣ［７７］までの抽出結果に基づいて、混在文字列から、“(http://www.abcdef.or.jp/)”を含む領域が特定される。これは、上述した領域特定部６によって行われる。そして、Ｓ１２では、回転出力部７によって、取得した当該領域を９０度回転した２値画像が作成される。その作成された２値化画像は、図９の表示装置２５に表示される。なお、図１１は、図１０のＳ１〜Ｓ１２までの工程によって得られた結果を示すものであり、混在文字列に含まれる、ＵＲＬを示す横書き文字列“(http://www.abcdef.or.jp/)”が９０度回転して表示されている。

次に、上記処理動作において、本実施の形態に係る文字列抽出装置５によって行われる横書き文字列抽出の効果を説明する。なお、実施の形態１において説明した効果と同一の効果については、その詳細な説明は省略する。

先述の実施形態は、混在文字列に含まれるＵＲＬ等の横書き文字列を抽出する構成に関するものであった。つまり、その文字列抽出は、ＵＲＬ等の情報が横書き文字列に含まれることを確認するためのものであって、混在文字列に記載されたＵＲＬをそのまま正確に取得することまでは必要としない場合に有効であった。一方、本実施の形態に係る文字列抽出では、抽出されたＵＲＬ等の横書き文字列を示す情報に基づいて、混在文字列から、横書き文字列部分を構成するすべての文字を含む領域（外接矩形）を特定し、さらに当該領域を９０度回転させている。これにより、縦書き文字列中に含まれるＵＲＬ等の特定の情報を正確に取得することができる。

あるいは、本実施の形態では、次のような方法によって、９０度回転した横書き文字列を文字認識することもできる。つまり、特定された上記領域を９０度回転したうえで再びマッチング装置１０に入力し、縦書き用マッチング辞書３１を用いて、その横書き文字列部分の文字の再認識を行う構成である。再認識処理は図３のフローチャートを用いて説明した行認識処理を、当該部分の文字列に適用することにより実現される。このようにして、文字認識結果として“( HYPERLINK "http://www.evnetannai.co.jp" http://www.abcdef.or.jp/)”を取得できる。図１２は、図５の認識結果文字列から抽出した横書き文字列を再認識した後の文字列に置き換えた例であり、領域特定部６が特定して９０度回転した領域に対して行認識処理を行い、他の文字列部分と共に表示装置２５に表示した結果を示している。上記方法により、図４に示す縦書き文字列と横書き文字列とを文字認識し、その結果を表示することができる。

このように、領域特定部６は、抽出された横書き文字列を示す情報に基づいて、混在文字列から、横書き文字列部分を構成するすべての文字を含む領域（外接矩形）を特定することができる。そして、回転出力部７は、さらに当該領域を９０度回転させて表示装置２５に出力することができる。これにより、抽出された横書き文字列について、そこに含まれる文字を正確に認識することができ、正しい文字認識結果を得ることができる。

なお、図１１の例では、抽出した横書き文字列は１つの行内含まれている。しかしながら、抽出した文字列が複数の行に亘る場合には、複数回の認識結果を取得して結合することにより、再認識結果を得ることができる。また、本実施の形態では、抽出された横書き文字列部分の領域を９０度回転したうえで再認識を行っているが、その他の方法として、抽出した特徴情報を回転して、回転処理された後の文字に対して使用されるマッチング辞書との照合を行う方法なども考えられる。

また、本実施の形態では、抽出された横書き文字列部分の領域を９０度回転することとして説明した。しかしながら、その回転角度は９０度に限られず、ユーザが表示装置で確認できるのであれば、１８０度、２７０度、あるいは他の角度であってもよい。

また、領域特定部６による領域の認定は、半角文字のピッチで行う構成とすることもできる。これは、縦書き文字列に含まれる横書き文字列は、アルファベットや数字などの半角文字であることが多いため、半角文字のピッチで文字を切り出して認識することにより、縦書き文字列に含まれる横書き文字列の文字認識を容易に行えるためである。従って、その構成を備えることにより、一部に横書き文字列が混在した縦書き文字列を認識する文字認識において、日本語文字（全角文字）のピッチで切り出して認識することにより発生する誤認識をなくすことができる。

このように、本実施の形態に係る文字列抽出は、文字認識結果から抽出された横書き文字列部分を再認識し、再認識文字列に置き換えて認識結果文字列を出力することができ、それにより、横書き文字列部分についても正しい認識結果文字列を出力することができる。

なお、上記実施形態の文字列抽出装置の各部や各処理ステップは、ＣＰＵなどの演算手段が、ＲＯＭ（Read Only Memory）やＲＡＭなどの記憶手段に記憶されたプログラムを実行し、キーボードなどの入力手段、ディスプレイなどの出力手段、あるいは、インターフェース回路などの通信手段を制御することにより実現することができる。したがって、これらの手段を有するコンピュータが、上記プログラムを記録した記録媒体を読み取り、当該プログラムを実行するだけで、本実施形態の文字列抽出装置の各種機能および各種処理を実現することができる。また、上記プログラムをリムーバブルな記録媒体に記録することにより、任意のコンピュータ上で上記の各種機能および各種処理を実現することができる。

この記録媒体としては、マイクロコンピュータで処理を行うために図示しないメモリ、例えばＲＯＭのようなものがプログラムメディアであっても良いし、また、図示していないが外部記憶装置としてプログラム読取り装置が設けられ、そこに記録媒体を挿入することにより読取り可能なプログラムメディアであっても良い。

また、何れの場合でも、格納されているプログラムは、マイクロプロセッサがアクセスして実行される構成であることが好ましい。さらに、プログラムを読み出し、読み出されたプログラムは、マイクロコンピュータのプログラム記憶エリアにダウンロードされて、そのプログラムが実行される方式であることが好ましい。なお、このダウンロード用のプログラムは予め本体装置に格納されているものとする。

また、上記プログラムメディアとしては、本体と分離可能に構成される記録媒体であり、磁気テープやカセットテープ等のテープ系、フレキシブルディスクやハードディスク等の磁気ディスクやＣＤ／ＭＯ／ＭＤ／ＤＶＤ等のディスクのディスク系、ＩＣカード（メモリカードを含む）等のカード系、あるいはマスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、フラッシュＲＯＭ等による半導体メモリを含めた固定的にプログラムを担持する記録媒体等がある。

また、インターネットを含む通信ネットワークを接続可能なシステム構成であれば、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する記録媒体であることが好ましい。

さらに、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用のプログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであることが好ましい。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本発明は、縦書き文字列と横書き文字列とが混在する文字列から、横書きの文字認識を行うことなく、前記横書き文字列に含まれる所定の文字列パターンを抽出する文字列抽出装置、文字列抽出方法、文字列抽出プログラム、及びコンピュータに読み取り可能な記録媒体に適用することができる。

本実施の形態に係る文字列抽出装置を用いた文字列抽出処理のブロック図である。本実施の形態に係る文字列抽出処理の全体の流れを示すフローチャートである。本実施の形態に係る行認識処理の詳細を示すフローチャート図である。横書き文字列を含む縦書き文書の一例である。本実施の形態に係る文字列抽出の結果を示す例である。ＵＲＬに係る横書き文字列パターンリストの一例を示す図である。本実施の形態に係る横書き文字列抽出処理の流れを示したフローチャート図である。電話番号、電子メールアドレス、郵便番号に対応する横書き文字列パターンリストの一例を示す図である。本実施の形態に係る他の文字列抽出装置を用いた文字列抽出処理のブロック図である。本実施の形態に係る他の文字列抽出処理の全体の流れを示すフローチャートである。図１０のＳ１〜Ｓ１２までの工程によって得られた結果を示す図である。図５の認識結果文字列から抽出された横書き文字列を再認識した後の文字列に置き換えた例である。

符号の説明

１、５文字列抽出装置
２文字列抽出部（文字列抽出手段）
６領域特定部（領域特定手段）
７回転出力部（回転出力手段）
１０マッチング装置
１１縦・横書き文字列入力部
１２２値化処理部
１３文字領域抽出部
１４文字矩形抽出部
１５縦書判定部
１６行抽出部
１７マッチング部
２０、２５表示装置
３０記憶装置
３１縦書き用マッチング辞書
３２横書き文字列パターンリスト

Claims

縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出装置であって、
文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、前記混在文字列の文字認識結果とを照合し、前記混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出手段を備えることを特徴とする文字列抽出装置。
前記横書き文字列パターンリストは、少なくとも、ＵＲＬ、電子メールアドレス、電話番号、あるいは郵便番号に関連付けられてなることを特徴とする請求項１に記載の文字列抽出装置。
前記文字認識結果の良好な文字には、少なくとも、括弧、コロン、スラッシュ、バックスラッシュ、ハイフン、アットマーク、あるいは郵便記号が含まれることを特徴とする請求項１又は２に記載の文字列抽出装置。
前記文字列抽出手段が抽出した横書き文字列を示す情報に基づいて、前記混在文字列から、横書き文字列を含む領域を特定する領域特定手段を備えることを特徴とする請求項１〜３の何れか1項に記載の文字列抽出装置。
前記領域特定手段による領域の特定は、半角文字のピッチで行われることを特徴とする請求項４に記載の文字列抽出装置。
前記領域特定手段が特定した前記領域を回転して、その結果を出力する回転出力手段を備えることを特徴とする請求項４又は５に記載の文字列抽出装置。
縦書き文字列と横書き文字列とが混在する混在文字列から、横書き文字列を抽出する文字列抽出方法であって、
文字認識結果の悪いリジェクト文字と、文字認識結果の良好な文字とが規則的に配置されてなる横書き文字列パターンリストと、前記混在文字列の文字認識結果とを照合し、前記混在文字列の文字認識結果から、前記横書き文字列パターンリストに一致する横書き文字列を抽出する文字列抽出ステップを含むことを特徴とする文字列抽出方法。
請求項１から６のいずれか１項に記載の文字列抽出装置を動作させる文字列抽出プログラムであって、コンピュータを上記の各手段として機能させるための文字列抽出プログラム。
請求項８に記載の文字列抽出プログラムを記録したコンピュータに読み取り可能な記録媒体。