JP2004240643A - 文字認識システム、文字認識方法およびプログラム - Google Patents
文字認識システム、文字認識方法およびプログラム Download PDFInfo
- Publication number
- JP2004240643A JP2004240643A JP2003028264A JP2003028264A JP2004240643A JP 2004240643 A JP2004240643 A JP 2004240643A JP 2003028264 A JP2003028264 A JP 2003028264A JP 2003028264 A JP2003028264 A JP 2003028264A JP 2004240643 A JP2004240643 A JP 2004240643A
- Authority
- JP
- Japan
- Prior art keywords
- character
- region
- image
- character region
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【解決手段】文字画像領域判定部3によって区分された複数個の文字領域が存在する場合、文字認識部4は、各文字領域に対して文字部分をテキストデータとして抽出し、文字領域順序判定部5は、この文字認識された各文字領域の順序を決定するにあたり、文字領域の最終文字を含む一文と、その比較する文字領域の先頭文字を含む一文を結合して形態素解析等の自然言語処理を実行し、その成否によって文字領域の順序を決定する。
【選択図】図1
Description
【発明の属する技術分野】
本発明は、文字認識技術に係り、特に文字認識した文字領域間を結合して自然言語処理して文字領域間の順序を決定する文字認識システム、文字認識方法およびプログラムに関する。
【0002】
【従来の技術】
印刷物をスキャナで取りこみ、文字認識を行う文字認識装置の普及が進んでいる。文字認識装置で文書を認識する際、多段組が採られる文書を認識するときに、単純に文字だけを認識するだけでは足りず、複数ある文字領域の構造を把握し、把握した順番で認識を行うことが多い。現在の技術では、縦書き文書は右上から左下に、横書きの文書では左上から右下へと大きな流れで記事のブロックをつないで認識する手段が多く用いられている。
【0003】
従って、新聞記事、原稿画像等に複数の文字領域が混在している場合又は文字領域の配置が複雑で読む順序を決定することが困難である場合等においては、2つの文字領域の連続性を、特定した文字領域の最後の文と、その文字領域と異なる文字領域の最初の文を比較し、1つの文としての確からしさを用いることで判定することが知られている(特許文献1参照)。
【0004】
【特許文献1】
特開平8−180131号公報(第11頁)
【発明が解決しようとする課題】
上述したように、新聞記事等において複数の文字領域の配置が一様でない場合では、記事のレイアウトが複雑で、縦書き文書の右上から左下へという文字認識の流れ、横書き文書の左上から右下へという文字認識の流れというルールでは判断できず、ユーザが記事の順番を指定しなくてはならず、煩わしいという問題点があった。
【0005】
そこで本発明は上記の問題を解決するためになされたものであり、複雑なレイアウトを有する新聞記事等において、区分された複数の文字領域の順序をユーザが指定せずに、各々の文字領域内の文字を認識し、各文字領域の順序を判定する文字認識システム、文字認識方法およびプログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
上述目的を達成するために、本発明の文字認識システムは、電子化された画像イメージを取得する取得手段と、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定手段と、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識手段と、文字認識された各文字領域の順序を決定するにあたり、第1の文字領域と第2の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、第1の文字領域と第2の文字領域は連続する文字領域であると判定する文字領域順序判定手段とを具備することを特徴としている。
【0007】
また、本発明の文字認識システムは、電子化された画像イメージを取得する取得手段と、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定手段と、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識手段と、文字認識された各文字領域の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定手段を具備することを特徴としている。
【0008】
次に、本発明の文字認識方法は、電子化された画像イメージを取得する取得ステップと、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定ステップと、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識ステップと、文字認識された各文字認識の順序を決定するにあたり、第1の文字領域と第2の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、第1の文字領域と第2の文字領域は連続する文字領域であると判定する文字領域順序判定ステップとを具備することを特徴としている。
【0009】
また、本発明の文字認識方法は、電子化された画像イメージを取得する取得ステップと、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定ステップと、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識ステップと、文字認識された各文字認識の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定ステップを具備することを特徴としている。
【0010】
次に、本発明のプログラムは、コンピュータに、電子化された画像イメージを取得する取得機能と、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定機能と、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識機能と、文字認識された各文字認識の順序を決定するにあたり、第1の文字領域と第2の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、第1の文字領域と第2の文字領域は連続する文字領域であると判定する文字領域順序判定機能を実現させることを特徴としている。
【0011】
また、本発明のプログラムは、コンピュータに、電子化された画像イメージを取得する取得機能と、取得された画像イメージから文字領域又は画像領域を判定する文字領域判定機能と、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識機能と、文字認識された各文字認識の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定機能を実現させることを特徴としている。
【0012】
なお、本明細書に使用する自然言語とは、社会の中で自然に発生し自然に用いられている言語のことを表わし、例えばプログラム言語のような人為的に規定された人工言語の反意語である。また、自然言語処理とは、この自然言語で記述された文章の意味を計算機によって明らかにすることである。自然言語処理には、形態素解析、構文解析、意味解析等があり、それぞれ以下の意味を有する。
形態素解析とは、自然言語で記述された文を形態素、つまり、意味を有する最小の言語単位に分割し、品詞、活用等を認識する処理である。構文解析とは、自然言語で記述された文がどのような規則によって記述されたかを算出し、個々の具体的な文の構文構造を求める処理である。意味解析とは、自然言語で記述された文の意味的な妥当性を判定し、意味構造を抽出することである。なお、構文とは、1つの文がどのような構造になっているかを示すものであると定義する。
【0013】
【発明の実施の形態】
(第1の実施の形態)
以下、本発明における第1の実施の形態について図面を参照して説明する。
まず、本発明の文字認識システムの概要について図1を参照して説明する。
図1は本発明における文字認識システムの構成を示すブロック図である。入力部1は、電子化された画像イメージ又は電子化されていない原稿を電子化した画像イメージを取得し、制御部6に入力するためのものであり、CD−ROM、MO、HDD、DVD、スキャナ又はデジタルカメラ等である。表示部2は、入力部1から入力された画像イメージの他、文字領域判定結果、文字認識結果又は文字領域順序判定結果等を表示するものであり、CRT又は液晶モニタ等で構成される。
【0014】
文字画像領域判定部3は、入力された画像イメージから文字領域又は画像領域を判定する。文字領域又は画像領域が判定された後、文字認識部4は画像として入力された文字領域の文字部分をテキストデータとして抽出する。文字領域順序判定部5は、文字画像領域判定部3で判定された文字領域の順序を判定し、この判定手段として形態素解析等の自然言語処理を行う。また、文字領域順序判定部5は、画像イメージの画像領域については順序判定せず、文字領域についてのみ順序判定する。
【0015】
制御部6は、OS(オペレーティング・システム)の他、入力された画像イメージに対してどの部分が文字であるかを判定する文字画像領域判定部3の動作制御、文字領域判定された文字領域内の文字である部分をテキストデータとして抽出する文字認識部4の動作制御、文字領域の順序を判定する文字領域順序判定部5の動作制御をする機能を持っている。
次に、本発明の文字認識システムの動作について図2、図3および図6乃至図11を参照して説明する。以下、複数個の文字領域が存在する原稿を文字認識する場合について説明する。
【0016】
図2は第1の実施の形態における文字領域判定処理、文字認識処理を主に説明するフローチャートであり、図3は第1の実施の形態における文字領域順序判定処理を主に説明するフローチャートである。以下、図2又は図3のフローチャートを説明するにあたり、必要なパラメータを定義する。文字領域が複数個ある場合、文字領域の順序を判定するのに複数個ある文字領域のうち選択した1つの文字領域をN番目の文字領域、そのN番目の文字領域と比較する文字領域をM番目の文字領域とする。
【0017】
また、N番目の文字領域の最終文字を含む一文とM番目の文字領域の先頭文字を含む一文を結合した文を文字領域結合部としてL(N−M)と表記する。文字領域順序判定部5は、この文字領域結合部LをN番目の文字領域とM番目の文字領域が連続するか否かを判定するために使用し、Lを自然言語処理した結果、成功したときはN番目の文字領域とM番目の文字領域は連続していると判定する。また、Lを自然言語処理した結果、成功しなかったときはN番目の文字領域とM番目の文字領域は連続しないと判定する。
【0018】
図6乃至図9は、本発明における文字認識システムの具体的動作を説明する図である。図6は、入力部1で認識して取得した画像イメージを示す図である。図7は、文字画像領域判定部3が図6に示す画像イメージを文字領域判定した結果を表わす図であり、付された符号は縦書き文書における文字領域の順序を右上方向から左下方向へ割り振るルールに従って仮に付与した文字領域の順序を示す符号である。図8は、図7に示す各文字領域に対して、文字認識され画像イメージから文字部分をテキストデータとして抽出された結果を表わす。図8中の各文字領域におけるフォントの種類は全て同じフォントとし、文字領域「気象庁によると、関東甲信と東海の梅雨明」のフォントは大きさが他の文字領域と異なるとする。図9は、文字領域順序判定部5が判定した結果、最終的に得られた文字領域の順序を表わす図である。
【0019】
次に、文字領域間の連続性の一次的判定について図10および図11を参照して説明する。
図10は、例えば日本語において、文字領域の最終文字が句点、読点又はそれ以外のものであるときに、次の文字領域の先頭文字として可能性のある記号又は文字の一例をまとめた図である。文字領域の最終文字が句点であるとき、次の文字領域の先頭文字としてあり得るものは新しい段落が始まるときの字下げに見られる空白であり、次の文字領域の先頭文字として読点又は句点はあり得ない。
【0020】
文字領域の最終文字が読点であるとき、次の文字領域の先頭文字として空白、読点又は句点はあり得ない。文字領域の最終文字が句点又は読点以外のものであるとき、次の文字領域の先頭文字が字下げなどされているような空白であるときは、その文字領域が見出しであるときに限ってあり得、その文字領域が見出しでないときは空白が次の文字領域の先頭文字としてはあり得ない。この他、次の文字領域の先頭文字として句点又は読点はあり得る。
【0021】
一方、図11は、例えば日本語において、文字領域の先頭文字が句点、読点又は空白であるときに、前の文字領域の最終文字として可能性のある記号又は文字の一例をまとめた図である。文字領域の先頭文字が句点であるとき、前の文字領域の最終文字としてあり得るものは文字であり、読点又は句点はあり得ない。
文字領域の先頭文字が読点であるとき、前の文字領域の最終文字としてあり得るのは文字であり、読点又は句点はあり得ない。文字領域の先頭文字が先頭形態を表わす空白であるとき、前の文字領域の最終文字が文字であるときは、前の文字領域が見出しであるときに限ってあり得、その文字領域が見出しでないときは空白が前の文字領域の最終文字としてはあり得ない。この他、前の文字領域の最終文字として句点はあり得るが読点はあり得ない。このように、図10および図11を用いて文字領域の連続性について一次的判定を行う。
【0022】
以下、文字認識システムの動作について図2および図3を参照して説明する。図2において、スキャナ等で電子化された画像イメージ又は予め電子化された画像イメージが入力部1から入力され、制御部6は図6に示すような画像イメージを取得する(S1)。文字画像領域判定部3は、入力された画像イメージに対して文字領域の判定をする(S2)。文字領域判定の後、文字認識部4は、図7に示すような領域判定された各文字領域の文字部分をテキストデータとして抽出する文字認識を実行する(S3)。この文字認識の処理後、図7の画像イメージは図8に示すようになり、文字領域順序判定部5は文字領域が複数個あるかどうかを判定する(S4)。文字領域が1個である場合、制御部6はこのまま文字認識システムの動作を終了する。
【0023】
図3において、文字領域が複数個ある場合(図7の例では文字領域は全部で4個、画像領域は1個である。)、文字領域順序判定部5は、ある特定の文字領域とその文字領域と比較する文字領域の連続性を判定するため、その特定の文字領域の順序を表わすパラメータ(Nとする。)を設定し、パラメータNを初期化する(S5)。
まず、文字領域順序判定部5は、文章が縦書きの場合には画像イメージの右上から左下へと、文章が横書きの場合には画像イメージの左上から右下へという流れで読み込むルールに従って、文字領域の順序を仮判定し、番号を仮付与する(S6)。そして、1番目(N=1)として仮付与された文字領域の最終文字が文の終了形態であるか否かを判定する(S7)。ここでいう文字領域の最終文字が文の終了形態とは、例えば文字領域の最終文字がピリオド若しくは句点であるとき又はその文字領域が見出しであることを示す。また、文字領域の先頭文字が文の先頭形態であるとは、例えば英語の英単語が大文字であるとき又は英語に限らず日本語等においても段落が始まるときの空白であることを示す。
【0024】
1番目(N=1)の文字領域の最終文字が文の終了形態である場合(S7のYes)、図10の文字領域間の一次的判定により、次の文字領域の先頭文字は空白がくるはずであり、この文字領域は1番目の文字領域として仮付与された順序どおりに1番目の文字領域として判定される。
図8の例では、縦書き文書の文字領域順序のルールによると、「東海〜関東地方梅雨明け」が1番目の文字領域であると仮判定される。このとき、「・・・梅雨明け」の最終文字は句点ではないが、2番目として仮付与された文字領域の先頭文字が空白であるので、1番目の文字領域は見出しであるとして判定され、「東海〜関東地方梅雨明け」の文字領域は1番目の文字領域と判定される。
【0025】
次に、N番目の文字領域は画像イメージにある文字領域のうち最後の文字領域である否かを判定する(S8)。N番目の文字領域が最後の文字領域であるとき(S8のYes)、制御部6は文字認識システムを終了する。N番目が最後の文字領域でないとき(S8のNo)、Nをインクリメントし(S9)、N+1番目の文字領域の最終文字が文の終了形態であるか否かを判定する(S7)。
図8の例では、1番目の次にも文字領域は存在するので、N=2として2番目の文字領域「20日、日本列島の太平洋側は、高気圧に覆わ」の最終文字が文の終了形態であるか否かを判定する。このとき、2番目の文字領域の最終文字は「・・・高気圧に覆わ」というように文の終了形態でないので、この文字領域の次の文字領域が存在することになる。
【0026】
N番目の文字領域の最終文字が文の終了形態でないとき(S7のNo)、N番目の文字領域と比較する文字領域が必要となり、文字領域順序判定部5は、その比較する文字領域の順序を表わすパラメータ(Mとする。)を初期化する(S10)。N番目の文字領域とM番目の文字領域が同一の文字領域であるか否かを判定する(S11)。N番目の文字領域とM番目の文字領域が同一であるとき(S11のYes)、M番目の文字領域は画像イメージにある文字領域のうち最後の文字領域であるか否かを判定する(S12)。M番目の文字領域が最後の文字領域であるとき(S12のYes)、M番目の文字領域とN番目の文字領域は同じ文字領域であるので、制御部6は文字認識システムを終了する。
【0027】
図8の例では、2番目(N=2)の文字領域と比較する文字領域が「20日、日本列島の太平洋側は、高気圧に覆わ」であるとき、同じ文字領域で比較することはないので、比較する文字領域を他の文字領域に切り替える。
M番目の文字領域が画像イメージの最後の文字領域でないとき(S12のNo)、Mをインクリメントし(S13)、M+1番目の文字領域はN番目の文字領域とは同一であるか否かを判定する(S11)。N番目とM+1番目の文字領域は同一でないとき(S11のNo)、M+1番目の文字領域の先頭文字が文の先頭形態であるか否かを判定する(S14)。
【0028】
M番目の文字領域の先頭文字が文の先頭形態になっている場合、N番目の文字領域の最終文字は文の終了形態になっているので、M番目の文字領域とN番目の文字領域とを比較する必要はなく、文字領域の先頭文字が文の先頭形態ではない他の文字領域を探す(S14のYes)。
図8の例では、3番目として仮付与された文字領域「各地ではこの夏一番の暑さを記録した。」の文字領域の先頭文字は文の先頭形態ではないので、2番目として仮付与された文字領域「20日、日本列島の太平洋側は高気圧に覆わ」の最終文字が文の終了形態でなく、この2番目の文字領域の次に3番目の文字領域はこないと判定される。従って、文字領域の最終文字が文の終了形態である他の文字領域を探す。
【0029】
M番目の文字領域の先頭文字が文の先頭形態である場合(S14のYes)、文字領域順序判定部5は、N番目の文字領域の最終文字を含む一文とM番目の文字領域の先頭文字を含む一文を結合して文字領域結合部L(N−M)を作成し(S15)、形態素解析を行う(S16)。文字領域順序判定部5は形態素解析が成功したか否かを判定し(S17)、形態素解析に成功したとき(S17のYes)、M番目の文字領域はN番目の文字領域の次の文字領域として判定する(S18)。
【0030】
形態素解析が成功しなかったとき(S17のNo)、文字領域順序判定部5はM番目の文字領域はN番目の文字領域の次の文字領域でないと判定し、M番目の文字領域は画像イメージにある文字領域のうちの最後の文字領域でないので、Mをインクリメントし、M+1番目以降の文字領域の先頭文字を含む一文とN番目の文字領域の最終文字を含む一文を結合して文字領域結合部L(N−(M+1))を作成し、N番目の文字領域に連続する文字領域が見つかるまで形態素解析を繰り返す。
【0031】
図8の例では、2番目(N=2)として仮付与された文字領域と比較する文字領域を4番目として仮付与された文字領域「れ、四国から関東地方は梅雨が明けた。」とする。この4番目の文字領域の先頭文字は文の先頭形態でないので、2番目の文字領域の最終文字を含む一文と4番目の文字領域の先頭文字を含む一文を結合して文字領域結合部L(2−4)を作成し、形態素解析を実行する。このとき、形態素解析が成功するので、2番目の文字領域の次に4番目の文字領域がくることになる。つまり、「20日、日本列島の太平洋側は、高気圧に覆われ、四国から関東地方は梅雨が明けた。」となる。また、5番目として仮付与された文字領域「気象庁によると、関東甲信と東海の梅雨明」は形態素解析するべき文字領域がないので、この場合は仮付与された番号どおりに5番目の文字領域として判定される。
【0032】
形態素解析が成功したあとは、N番目の文字領域が画像イメージの最後の文字領域であるかどうかを判定し(S8)、最後の文字領域でないとき、Nをインクリメントし(S9)、以下同様な作業を繰り返す。こうして、文字領域の順序を判定する。
このように、本発明における第1の実施の形態によれば、入力された画像イメージに複数個の文字領域又は画像領域が存在するとき、各文字領域に対し文字分分をテキストデータとして抽出し、この抽出された各文字領域の順序を判定するにあたり、文字領域順序判定部5は、文字領域の最終文字を含む一文と他の文字領域の先頭文字を含む一文を結合して文字領域結合部Lを作成し、このLに対し形態素解析する。この形態素解析が成功したとき、文字領域順序判定部5は、この文字領域結合部を構成した文字領域は連続すると判定し、文字領域の順序を判定することができる。
【0033】
(第2の実施の形態)
次に、本発明における第2の実施の形態について図面を参照して説明する。第2の実施の形態における文字認識システムの概要の説明(図1参照)は、第1の実施の形態と同様であるので、ここでは省略する。
以下、文字認識システムの動作について図4乃至図11を用いて説明する。なお、図10および図11について第1の実施の形態で説明したので、ここでは説明を省略する。
図4は、第2の実施の形態における文字認識システムの動作を説明するフローチャートである。なお、第1の実施の形態におけるフローチャートで使用した文字領域のパラメータを表すNをこの第2の実施の形態においても使用する。
【0034】
図5は、第2の実施の形態において文字領域間の連続性を所定の項目により比較する処理を説明するフローチャートである。所定の項目とは、文字フォントの種類、文字フォントの大きさ、文字領域の連続性である。なお、第1の実施の形態と同様、複数個の文字領域が存在する原稿を使用する具体例を用いて説明する。図6乃至図9の説明は、既に第1の実施の形態で説明したので、図面の説明はここでは省略する。
【0035】
それでは、文字認識システムの動作を図4および図5を参照して説明する。
図4において、スキャナ等で電子化された画像イメージ又は予め電子化された画像イメージが入力部1から入力され、制御部6は図5に示すような画像イメージを取得する(S21)。文字画像領域判定部3は、入力された画像イメージに対し文字領域の判定をする(S22)。文字領域判定の後、文字認識部4は、図7に示すような文字領域判定された各文字領域の文字部分をテキストデータとして抽出する文字認識を実行する(S23)。この文字認識の処理後、図7の画像イメージは図8に示すようになり、文字領域順序判定部5は文字領域が複数個あるかどうかを判定する(S24)。文字領域が1個である場合、制御部6はこのまま文字認識システムの動作を終了する。
【0036】
文字領域が複数個ある場合、文字領域順序判定部5は、ある特定の文字領域とその他の文字領域との連続性を判定するため、その特定の文字領域の順序を表わすパラメータ(Nとする)を設定し、パラメータNを初期化する(S25)。
まず、文字領域順序判定部5は、文章が縦書きの場合には画像イメージの右上から左下へと、文章が横書きの場合には画像イメージの左上から右下へという流れで読み込むルールに従って、文字領域の順序を仮判定し、番号を仮付与する(S26)。そして、1番目(N=1)として仮付与された文字領域の最終文字が文の終了形態であるか否かを判定する(S27)。
【0037】
N番目の文字領域の最終文字が文の終了形態でないとき(S27のNo)、図5において、N番目の文字領域の最終文字とその他の文字領域の先頭文字とを比較する(S30)。文字領域順序判定部5は、N番目の文字領域の最終文字と同種の文字フォントである先頭文字を持つ文字領域があるか否かを検索し(S301)、同種の文字フォントの先頭文字を持たない文字領域をN番目の文字領域と連続する文字領域でないと判定する(S302)。
【0038】
図8の例では、2番目(N=2)として仮付与された文字領域の最終文字「・・・気圧に覆わ」の「わ」とその他の文字領域の先頭文字、つまり、「れ、四国から・・・」の「れ」、「各地ではこの・・・」の「各」又は「気象庁による・・・」の「気」を比較し、文字フォントの種類が同一のものを検索する。ここでは、すべてゴシック体の文字フォントであることから、2番目の文字領域に連続する文字領域を絞り込むことはできないと判定する。
【0039】
次に、文字領域順序判定部5は、N番目の文字領域の最終文字と同じ大きさである文字である先頭文字を持つ文字領域があるか否かを検索し(S303)、文字フォントの大きさが同一でない文字領域をN番目の文字領域と連続する文字領域でないと判定する(S304)。
図8の例では、2番目(N=2)として仮付与された文字領域の最終文字「・・・気圧に覆わ」の「わ」とその他の文字領域の先頭文字、つまり、「れ、四国から・・・」の「れ」、「各地ではこの・・・」の「各」、「気象庁による・・・」の「気」を比較し、文字フォントの大きさが同一のものを検索する。ここでは、図8に示す「気象庁による・・・」の文字領域の文字フォントの大きさは2番目(N=2)の文字領域の最終文字「・・・気圧に覆われ」と異なるので、この「気象庁による・・・」の文字領域は、2番目(N=2)の文字領域の最終文字に連続する文字領域ではないと判定する。
【0040】
次に、文字領域順序判定部5は、N番目の文字領域の最終文字とその他の文字領域の先頭文字をそれぞれ結合し、図10に従って文字領域間の連続性を判定する(S305)。この文字領域間の連続性は、N番目の文字領域の最終文字が句点であるとき、読点であるとき、又は句点若しくは読点以外のものであるときに場合分けし、それぞれの場合に対して文字連続性を判定する。文字領域順序判定部5は、文字領域の連続性として適していない文字領域はN番目の文字領域と連続する文字領域でないと判定する(S306)。
【0041】
図8の例では、S304の処理で除かれた文字領域「気象庁による・・・」以外の文字領域に対して、仮付与された2番目(N=2)の文字領域「20日、日本列島の太平洋側は高気圧に覆わ」の最終文字「わ」と、文字領域「れ、四国から・・・」の「れ」又は文字領域「各地ではこの夏1番の暑さを記録した。」の「各」をそれぞれ図10に従って比較する。ここでは、比較する対象が記号や空白ではなく文字であるので、図10による文字領域間の連続性を判定することはできない。
【0042】
文字領域順序判定部5は、以上の項目に対してN番目の文字領域の最終文字と他の文字領域の先頭文字を比較した結果、全ての項目に該当する文字領域があるか否かを判定する(S307)。この判定の結果、全ての項目に該当しない文字領域(仮に、M番目とする。)が存在するときの非常手段として、N番目の文字領域の最終文字を含む一文と上述した該当しない文字領域の先頭文字を含む一文を結合して文字領域結合部L(N−M)を作成し、形態素解析等の自然言語処理を実行する(S308)。この形態素解析をする対象は、常に一つとは限らず複数個ある場合もあり得る。全ての項目に該当する文字領域が存在するとき、文字領域順序判定部5は、この該当する文字領域はN番目の文字領域の次の文字領域であると判定する(S31)。
【0043】
図8の例では、2番目(N=2)として仮付与された文字領域「20日、・・・高気圧に覆わ」と4番目(N=4)として仮付与された文字領域「れ、四国から・・・明けた。」の文字領域を結合してL(2−4)を作成し形態素解析をすると成功し、一方2番目(N=2)の文字領域「20日、・・・高気圧に覆わ」と3番目(N=3)として仮付与された文字領域「各地では・・・記録した。」の文字領域を結合してL(2−3)を作成し形態素解析をしても失敗するため、2番目の文字領域の次の文字領域は4番目の文字領域と判定されることになる。
【0044】
上記した文字領域の連続性判定処理後に、N番目の文字領域が最後の文字領域であるかどうかを判定し(S28)、最後の文字領域でないとき、Nをインクリメントし(S29)、以下同様な作業を繰り返す。こうして、文字領域の順序を判定する。
このように、本発明における第2の実施の形態によれば、入力された画像イメージに複数個の文字領域又は画像領域が存在するとき、各文字領域に対し文字部分をテキストデータとして抽出し、この抽出された各文字領域の順序を判定するにあたり、文字領域順序判定部5は、文字領域の最終文字とその他の文字領域の先頭文字をそれぞれ比較し、所定の項目を用いて各々の文字領域における連続性を判定し、その連続性を判定しきれないときは、文字領域の最終文字を含む一文とその比較する文字領域の先頭文字を含む一文を結合して文字領域結合部Lを作成し、このLに対し形態素解析する。この形態素解析が成功したとき、文字領域順序判定部5は、このLを構成した文字領域は連続すると判定し、文字領域の順序を判定することができる。
【0045】
なお、本発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない限りで種々変形して実施できる。例えば、形態素解析の対象として文字領域結合部を使用しているが、文字領域そのもの全体を結合してもよい。また、文字領域の順序の判定方法として形態素解析を実施しているが、構文解析または意味解析等の他の自然言語処理を用いて解析してもよい。
【0046】
【発明の効果】
以上の本発明によれば、文字領域及び画像領域で構成される複雑なレイアウトを有する新聞記事又は画像イメージ等に対して、各文字領域の順序をユーザが選択することなく、各文字領域の連続性を形態素解析等の自然言語処理により順序判定することができる。
【図面の簡単な説明】
【図1】本発明の文字認識システム全体の構成を説明するブロック図。
【図2】本発明における第1の実施の形態における文字領域判定処理、文字認識判定処理を主に説明するフローチャート。
【図3】本発明における第1の実施の形態における文字領域順序判定処理を主に説明するフローチャート。
【図4】本発明における第2の実施の形態を説明するフローチャート。
【図5】本発明における第2の実施の形態について文字領域間の連続性を判定する処理を説明するフローチャート。
【図6】文字認識を行う前の画像イメージを示した図。
【図7】文字認識を行う前の画像イメージを文字領域判定した結果を示す図。
【図8】文字認識の結果を示す図。
【図9】文字領域の判定結果を示す図。
【図10】文字領域の最終文字に続き得る記号又は文字の判定図。
【図11】文字領域の先頭文字に続き得る記号又は文字の判定図。
【符号の説明】
1・・・入力部
2・・・表示部
3・・・文字領域判定部
4・・・文字認識部
5・・・文字領域順序判定部
6・・・制御部
Claims (15)
- 電子化された画像イメージを取得する取得手段と、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定手段と、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識手段と、
前記文字認識された各文字領域の順序を決定するにあたり、第1の文字領域と第2の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、前記第1の文字領域と前記第2の文字領域は連続する文字領域であると判定する文字領域順序判定手段とを具備することを特徴とする文字認識システム。 - 電子化された画像イメージを取得する取得手段と、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定手段と、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識手段と、
前記文字認識された各文字領域の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定手段を具備することを特徴とする文字認識システム。 - 前記文字領域順序判定手段は、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定し、さらに、前記任意の文字領域と他の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、これら文字領域は連続する文字領域であると判定することを特徴とする請求項2記載の文字認識システム。
- 前記文字領域順序判定手段は、文字領域であると判定された前記各文字領域に対して仮の文字領域順序番号を付与し、この自然言語処理が成功したとき、前記仮付与された文字領域順序を前記自然言語処理による文字領域の順序に変更することを特徴とする請求項1または3記載の文字認識システム。
- 前記自然言語処理手段は、形態素解析、構文解析または意味解析のいずれか1つを実行することを特徴とする請求項1または請求項4記載の文字認識システム。
- 電子化された画像イメージを取得する取得ステップと、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定ステップと、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識ステップと、
前記文字認識された各文字認識の順序を決定するにあたり、第1の文字領域と第2の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、前記第1の文字領域と前記第2の文字領域は連続する文字領域であると判定する文字領域順序判定ステップとを具備することを特徴とする文字認識方法。 - 電子化された画像イメージを取得する取得ステップと、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定ステップと、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識ステップと、
前記文字認識された各文字認識の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定ステップを具備することを特徴とする文字認識方法。 - 前記文字領域順序判定ステップは、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定し、さらに、前記任意の文字領域と他の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、これら文字領域は連続する文字領域であると判定することを特徴とする請求項7記載の文字認識方法。
- 前記文字領域順序判定ステップは、文字領域であると判定された前記各文字領域に対して仮の文字領域順序番号を付与し、この自然言語処理が成功したとき、前記仮付与された文字領域順序を前記自然言語処理による文字領域の順序に変更することを特徴とする請求項6または8記載の文字認識方法。
- 前記自然言語処理ステップは、形態素解析、構文解析または意味解析のいずれか1つを実行することを特徴とする請求項6または請求項8記載の文字認識方法。
- コンピュータに、
電子化された画像イメージを取得する取得機能と、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定機能と、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識機能と、
前記文字認識された各文字認識の順序を決定するにあたり、第1の文字領域と第2の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、前記第1の文字領域と前記第2の文字領域は連続する文字領域であると判定する文字領域順序判定機能を実現させることを特徴とするプログラム。 - コンピュータに、
電子化された画像イメージを取得する取得機能と、
前記取得された画像イメージから文字領域又は画像領域を判定する文字領域判定機能と、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識機能と、
前記文字認識された各文字認識の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定機能を実現させることを特徴とするプログラム。 - 前記文字領域順序判定機能は、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定し、さらに、前記任意の文字領域と他の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、これら文字領域は連続すると判定することを特徴とする請求項12記載のプログラム。
- 前記文字領域順序判定機能は、文字領域であると判定された前記各文字領域に対して仮の文字領域順序番号を付与し、この自然言語処理が成功したとき、前記仮付与された文字領域順序を前記自然言語処理による文字領域の順序に変更することを特徴とする請求項11または13記載のプログラム。
- 前記自然言語処理機能は、形態素解析、構文解析または意味解析のいずれか1つを実現させることを特徴とする請求項11または請求項13記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003028264A JP2004240643A (ja) | 2003-02-05 | 2003-02-05 | 文字認識システム、文字認識方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003028264A JP2004240643A (ja) | 2003-02-05 | 2003-02-05 | 文字認識システム、文字認識方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004240643A true JP2004240643A (ja) | 2004-08-26 |
Family
ID=32955772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003028264A Pending JP2004240643A (ja) | 2003-02-05 | 2003-02-05 | 文字認識システム、文字認識方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004240643A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012216059A (ja) * | 2011-03-31 | 2012-11-08 | Fujitsu Ltd | 検出プログラム、検出装置、および検出方法 |
JP2021033804A (ja) * | 2019-08-28 | 2021-03-01 | 西日本電信電話株式会社 | 構造化文書作成装置とその方法 |
JP2022017202A (ja) * | 2020-07-13 | 2022-01-25 | ネクストヴイピーユー(シャンハイ)カンパニー リミテッド | レイアウト解析方法、読取り支援デバイス、回路および媒体 |
US11367296B2 (en) | 2020-07-13 | 2022-06-21 | NextVPU (Shanghai) Co., Ltd. | Layout analysis |
-
2003
- 2003-02-05 JP JP2003028264A patent/JP2004240643A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012216059A (ja) * | 2011-03-31 | 2012-11-08 | Fujitsu Ltd | 検出プログラム、検出装置、および検出方法 |
JP2021033804A (ja) * | 2019-08-28 | 2021-03-01 | 西日本電信電話株式会社 | 構造化文書作成装置とその方法 |
JP2022017202A (ja) * | 2020-07-13 | 2022-01-25 | ネクストヴイピーユー(シャンハイ)カンパニー リミテッド | レイアウト解析方法、読取り支援デバイス、回路および媒体 |
US11367296B2 (en) | 2020-07-13 | 2022-06-21 | NextVPU (Shanghai) Co., Ltd. | Layout analysis |
JP7132654B2 (ja) | 2020-07-13 | 2022-09-07 | ネクストヴイピーユー(シャンハイ)カンパニー リミテッド | レイアウト解析方法、読取り支援デバイス、回路および媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3356536B2 (ja) | 機械翻訳装置 | |
JP4502114B2 (ja) | データベース検索装置 | |
JP2018136900A (ja) | 文章解析装置及び文章解析プログラム | |
EP2031490A2 (en) | Electronic dictionary, search method for and electronic dictionary, and search program for an alectronic dictionary | |
JP2004240643A (ja) | 文字認識システム、文字認識方法およびプログラム | |
EP4080399A1 (en) | Information processing program, information processing method, and information processing device | |
JP2002259363A (ja) | 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体 | |
CN115203445A (zh) | 多媒体资源搜索方法、装置、设备及介质 | |
EP2030659B1 (en) | Word search device, method, and program | |
JPH0528324A (ja) | 英文字認識装置 | |
JPH0969109A (ja) | 文書検索方法及び文書検索装置 | |
JP2004206659A (ja) | 読み情報決定方法及び装置及びプログラム | |
JP2842271B2 (ja) | 手書き文字列入力装置 | |
JP2007316834A (ja) | 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム | |
JPH05181912A (ja) | 文書検索装置 | |
JPH10307839A (ja) | テキスト検索装置及び方法 | |
JPH0797370B2 (ja) | 文字・音声入力変換方式 | |
JP2000099635A (ja) | 文字列予測装置及び文字列予測方法 | |
JP2990905B2 (ja) | 辞書登録支援装置 | |
JPH0628396A (ja) | 電子化辞書装置 | |
JP2019096246A (ja) | 情報処理装置および情報処理方法 | |
JPH04120679A (ja) | 英文字認識装置 | |
JP2011070269A (ja) | 文字変換装置と方法およびダイヤ情報表示システムと方法ならびにプログラム | |
JP2004013863A (ja) | 文書検索用文字処理方法およびシステム | |
JP2010146509A (ja) | 文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050131 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050322 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20050328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080121 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080304 |