JP2004240643A

JP2004240643A - 文字認識システム、文字認識方法およびプログラム

Info

Publication number: JP2004240643A
Application number: JP2003028264A
Authority: JP
Inventors: Naoko Takigawa; 直子瀧川; Etsuo Ito; 悦雄伊藤; Takashi Shibuya; 貴志澁谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-02-05
Filing date: 2003-02-05
Publication date: 2004-08-26

Abstract

【課題】複雑なレイアウトを有する新聞記事等において、区分された複数の文字領域の順序をユーザが選択せず、各文字領域内の文字をテキストデータとして抽出し、各文字領域の順序を決定する文字認識システム、文字認識方法およびプログラムを提供する。
【解決手段】文字画像領域判定部３によって区分された複数個の文字領域が存在する場合、文字認識部４は、各文字領域に対して文字部分をテキストデータとして抽出し、文字領域順序判定部５は、この文字認識された各文字領域の順序を決定するにあたり、文字領域の最終文字を含む一文と、その比較する文字領域の先頭文字を含む一文を結合して形態素解析等の自然言語処理を実行し、その成否によって文字領域の順序を決定する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文字認識技術に係り、特に文字認識した文字領域間を結合して自然言語処理して文字領域間の順序を決定する文字認識システム、文字認識方法およびプログラムに関する。
【０００２】
【従来の技術】
印刷物をスキャナで取りこみ、文字認識を行う文字認識装置の普及が進んでいる。文字認識装置で文書を認識する際、多段組が採られる文書を認識するときに、単純に文字だけを認識するだけでは足りず、複数ある文字領域の構造を把握し、把握した順番で認識を行うことが多い。現在の技術では、縦書き文書は右上から左下に、横書きの文書では左上から右下へと大きな流れで記事のブロックをつないで認識する手段が多く用いられている。
【０００３】
従って、新聞記事、原稿画像等に複数の文字領域が混在している場合又は文字領域の配置が複雑で読む順序を決定することが困難である場合等においては、２つの文字領域の連続性を、特定した文字領域の最後の文と、その文字領域と異なる文字領域の最初の文を比較し、１つの文としての確からしさを用いることで判定することが知られている（特許文献１参照）。
【０００４】
【特許文献１】
特開平８−１８０１３１号公報（第１１頁）
【発明が解決しようとする課題】
上述したように、新聞記事等において複数の文字領域の配置が一様でない場合では、記事のレイアウトが複雑で、縦書き文書の右上から左下へという文字認識の流れ、横書き文書の左上から右下へという文字認識の流れというルールでは判断できず、ユーザが記事の順番を指定しなくてはならず、煩わしいという問題点があった。
【０００５】
そこで本発明は上記の問題を解決するためになされたものであり、複雑なレイアウトを有する新聞記事等において、区分された複数の文字領域の順序をユーザが指定せずに、各々の文字領域内の文字を認識し、各文字領域の順序を判定する文字認識システム、文字認識方法およびプログラムを提供することを目的とする。
【０００６】
【課題を解決するための手段】
上述目的を達成するために、本発明の文字認識システムは、電子化された画像イメージを取得する取得手段と、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定手段と、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識手段と、文字認識された各文字領域の順序を決定するにあたり、第１の文字領域と第２の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、第１の文字領域と第２の文字領域は連続する文字領域であると判定する文字領域順序判定手段とを具備することを特徴としている。
【０００７】
また、本発明の文字認識システムは、電子化された画像イメージを取得する取得手段と、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定手段と、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識手段と、文字認識された各文字領域の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定手段を具備することを特徴としている。
【０００８】
次に、本発明の文字認識方法は、電子化された画像イメージを取得する取得ステップと、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定ステップと、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識ステップと、文字認識された各文字認識の順序を決定するにあたり、第１の文字領域と第２の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、第１の文字領域と第２の文字領域は連続する文字領域であると判定する文字領域順序判定ステップとを具備することを特徴としている。
【０００９】
また、本発明の文字認識方法は、電子化された画像イメージを取得する取得ステップと、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定ステップと、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識ステップと、文字認識された各文字認識の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定ステップを具備することを特徴としている。
【００１０】
次に、本発明のプログラムは、コンピュータに、電子化された画像イメージを取得する取得機能と、取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定機能と、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識機能と、文字認識された各文字認識の順序を決定するにあたり、第１の文字領域と第２の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、第１の文字領域と第２の文字領域は連続する文字領域であると判定する文字領域順序判定機能を実現させることを特徴としている。
【００１１】
また、本発明のプログラムは、コンピュータに、電子化された画像イメージを取得する取得機能と、取得された画像イメージから文字領域又は画像領域を判定する文字領域判定機能と、判定された文字領域が複数あるとき、画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識機能と、文字認識された各文字認識の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定機能を実現させることを特徴としている。
【００１２】
なお、本明細書に使用する自然言語とは、社会の中で自然に発生し自然に用いられている言語のことを表わし、例えばプログラム言語のような人為的に規定された人工言語の反意語である。また、自然言語処理とは、この自然言語で記述された文章の意味を計算機によって明らかにすることである。自然言語処理には、形態素解析、構文解析、意味解析等があり、それぞれ以下の意味を有する。
形態素解析とは、自然言語で記述された文を形態素、つまり、意味を有する最小の言語単位に分割し、品詞、活用等を認識する処理である。構文解析とは、自然言語で記述された文がどのような規則によって記述されたかを算出し、個々の具体的な文の構文構造を求める処理である。意味解析とは、自然言語で記述された文の意味的な妥当性を判定し、意味構造を抽出することである。なお、構文とは、１つの文がどのような構造になっているかを示すものであると定義する。
【００１３】
【発明の実施の形態】
（第１の実施の形態）
以下、本発明における第１の実施の形態について図面を参照して説明する。
まず、本発明の文字認識システムの概要について図１を参照して説明する。
図１は本発明における文字認識システムの構成を示すブロック図である。入力部１は、電子化された画像イメージ又は電子化されていない原稿を電子化した画像イメージを取得し、制御部６に入力するためのものであり、ＣＤ−ＲＯＭ、ＭＯ、ＨＤＤ、ＤＶＤ、スキャナ又はデジタルカメラ等である。表示部２は、入力部１から入力された画像イメージの他、文字領域判定結果、文字認識結果又は文字領域順序判定結果等を表示するものであり、ＣＲＴ又は液晶モニタ等で構成される。
【００１４】
文字画像領域判定部３は、入力された画像イメージから文字領域又は画像領域を判定する。文字領域又は画像領域が判定された後、文字認識部４は画像として入力された文字領域の文字部分をテキストデータとして抽出する。文字領域順序判定部５は、文字画像領域判定部３で判定された文字領域の順序を判定し、この判定手段として形態素解析等の自然言語処理を行う。また、文字領域順序判定部５は、画像イメージの画像領域については順序判定せず、文字領域についてのみ順序判定する。
【００１５】
制御部６は、ＯＳ（オペレーティング・システム）の他、入力された画像イメージに対してどの部分が文字であるかを判定する文字画像領域判定部３の動作制御、文字領域判定された文字領域内の文字である部分をテキストデータとして抽出する文字認識部４の動作制御、文字領域の順序を判定する文字領域順序判定部５の動作制御をする機能を持っている。
次に、本発明の文字認識システムの動作について図２、図３および図６乃至図１１を参照して説明する。以下、複数個の文字領域が存在する原稿を文字認識する場合について説明する。
【００１６】
図２は第１の実施の形態における文字領域判定処理、文字認識処理を主に説明するフローチャートであり、図３は第１の実施の形態における文字領域順序判定処理を主に説明するフローチャートである。以下、図２又は図３のフローチャートを説明するにあたり、必要なパラメータを定義する。文字領域が複数個ある場合、文字領域の順序を判定するのに複数個ある文字領域のうち選択した１つの文字領域をＮ番目の文字領域、そのＮ番目の文字領域と比較する文字領域をＭ番目の文字領域とする。
【００１７】
また、Ｎ番目の文字領域の最終文字を含む一文とＭ番目の文字領域の先頭文字を含む一文を結合した文を文字領域結合部としてＬ（Ｎ−Ｍ）と表記する。文字領域順序判定部５は、この文字領域結合部ＬをＮ番目の文字領域とＭ番目の文字領域が連続するか否かを判定するために使用し、Ｌを自然言語処理した結果、成功したときはＮ番目の文字領域とＭ番目の文字領域は連続していると判定する。また、Ｌを自然言語処理した結果、成功しなかったときはＮ番目の文字領域とＭ番目の文字領域は連続しないと判定する。
【００１８】
図６乃至図９は、本発明における文字認識システムの具体的動作を説明する図である。図６は、入力部１で認識して取得した画像イメージを示す図である。図７は、文字画像領域判定部３が図６に示す画像イメージを文字領域判定した結果を表わす図であり、付された符号は縦書き文書における文字領域の順序を右上方向から左下方向へ割り振るルールに従って仮に付与した文字領域の順序を示す符号である。図８は、図７に示す各文字領域に対して、文字認識され画像イメージから文字部分をテキストデータとして抽出された結果を表わす。図８中の各文字領域におけるフォントの種類は全て同じフォントとし、文字領域「気象庁によると、関東甲信と東海の梅雨明」のフォントは大きさが他の文字領域と異なるとする。図９は、文字領域順序判定部５が判定した結果、最終的に得られた文字領域の順序を表わす図である。
【００１９】
次に、文字領域間の連続性の一次的判定について図１０および図１１を参照して説明する。
図１０は、例えば日本語において、文字領域の最終文字が句点、読点又はそれ以外のものであるときに、次の文字領域の先頭文字として可能性のある記号又は文字の一例をまとめた図である。文字領域の最終文字が句点であるとき、次の文字領域の先頭文字としてあり得るものは新しい段落が始まるときの字下げに見られる空白であり、次の文字領域の先頭文字として読点又は句点はあり得ない。
【００２０】
文字領域の最終文字が読点であるとき、次の文字領域の先頭文字として空白、読点又は句点はあり得ない。文字領域の最終文字が句点又は読点以外のものであるとき、次の文字領域の先頭文字が字下げなどされているような空白であるときは、その文字領域が見出しであるときに限ってあり得、その文字領域が見出しでないときは空白が次の文字領域の先頭文字としてはあり得ない。この他、次の文字領域の先頭文字として句点又は読点はあり得る。
【００２１】
一方、図１１は、例えば日本語において、文字領域の先頭文字が句点、読点又は空白であるときに、前の文字領域の最終文字として可能性のある記号又は文字の一例をまとめた図である。文字領域の先頭文字が句点であるとき、前の文字領域の最終文字としてあり得るものは文字であり、読点又は句点はあり得ない。
文字領域の先頭文字が読点であるとき、前の文字領域の最終文字としてあり得るのは文字であり、読点又は句点はあり得ない。文字領域の先頭文字が先頭形態を表わす空白であるとき、前の文字領域の最終文字が文字であるときは、前の文字領域が見出しであるときに限ってあり得、その文字領域が見出しでないときは空白が前の文字領域の最終文字としてはあり得ない。この他、前の文字領域の最終文字として句点はあり得るが読点はあり得ない。このように、図１０および図１１を用いて文字領域の連続性について一次的判定を行う。
【００２２】
以下、文字認識システムの動作について図２および図３を参照して説明する。図２において、スキャナ等で電子化された画像イメージ又は予め電子化された画像イメージが入力部１から入力され、制御部６は図６に示すような画像イメージを取得する（Ｓ１）。文字画像領域判定部３は、入力された画像イメージに対して文字領域の判定をする（Ｓ２）。文字領域判定の後、文字認識部４は、図７に示すような領域判定された各文字領域の文字部分をテキストデータとして抽出する文字認識を実行する（Ｓ３）。この文字認識の処理後、図７の画像イメージは図８に示すようになり、文字領域順序判定部５は文字領域が複数個あるかどうかを判定する（Ｓ４）。文字領域が１個である場合、制御部６はこのまま文字認識システムの動作を終了する。
【００２３】
図３において、文字領域が複数個ある場合（図７の例では文字領域は全部で４個、画像領域は１個である。）、文字領域順序判定部５は、ある特定の文字領域とその文字領域と比較する文字領域の連続性を判定するため、その特定の文字領域の順序を表わすパラメータ（Ｎとする。）を設定し、パラメータＮを初期化する（Ｓ５）。
まず、文字領域順序判定部５は、文章が縦書きの場合には画像イメージの右上から左下へと、文章が横書きの場合には画像イメージの左上から右下へという流れで読み込むルールに従って、文字領域の順序を仮判定し、番号を仮付与する（Ｓ６）。そして、１番目（Ｎ＝１）として仮付与された文字領域の最終文字が文の終了形態であるか否かを判定する（Ｓ７）。ここでいう文字領域の最終文字が文の終了形態とは、例えば文字領域の最終文字がピリオド若しくは句点であるとき又はその文字領域が見出しであることを示す。また、文字領域の先頭文字が文の先頭形態であるとは、例えば英語の英単語が大文字であるとき又は英語に限らず日本語等においても段落が始まるときの空白であることを示す。
【００２４】
１番目（Ｎ＝１）の文字領域の最終文字が文の終了形態である場合（Ｓ７のＹｅｓ）、図１０の文字領域間の一次的判定により、次の文字領域の先頭文字は空白がくるはずであり、この文字領域は１番目の文字領域として仮付与された順序どおりに１番目の文字領域として判定される。
図８の例では、縦書き文書の文字領域順序のルールによると、「東海〜関東地方梅雨明け」が１番目の文字領域であると仮判定される。このとき、「・・・梅雨明け」の最終文字は句点ではないが、２番目として仮付与された文字領域の先頭文字が空白であるので、１番目の文字領域は見出しであるとして判定され、「東海〜関東地方梅雨明け」の文字領域は１番目の文字領域と判定される。
【００２５】
次に、Ｎ番目の文字領域は画像イメージにある文字領域のうち最後の文字領域である否かを判定する（Ｓ８）。Ｎ番目の文字領域が最後の文字領域であるとき（Ｓ８のＹｅｓ）、制御部６は文字認識システムを終了する。Ｎ番目が最後の文字領域でないとき（Ｓ８のＮｏ）、Ｎをインクリメントし（Ｓ９）、Ｎ＋１番目の文字領域の最終文字が文の終了形態であるか否かを判定する（Ｓ７）。
図８の例では、１番目の次にも文字領域は存在するので、Ｎ＝２として２番目の文字領域「２０日、日本列島の太平洋側は、高気圧に覆わ」の最終文字が文の終了形態であるか否かを判定する。このとき、２番目の文字領域の最終文字は「・・・高気圧に覆わ」というように文の終了形態でないので、この文字領域の次の文字領域が存在することになる。
【００２６】
Ｎ番目の文字領域の最終文字が文の終了形態でないとき（Ｓ７のＮｏ）、Ｎ番目の文字領域と比較する文字領域が必要となり、文字領域順序判定部５は、その比較する文字領域の順序を表わすパラメータ（Ｍとする。）を初期化する（Ｓ１０）。Ｎ番目の文字領域とＭ番目の文字領域が同一の文字領域であるか否かを判定する（Ｓ１１）。Ｎ番目の文字領域とＭ番目の文字領域が同一であるとき（Ｓ１１のＹｅｓ）、Ｍ番目の文字領域は画像イメージにある文字領域のうち最後の文字領域であるか否かを判定する（Ｓ１２）。Ｍ番目の文字領域が最後の文字領域であるとき（Ｓ１２のＹｅｓ）、Ｍ番目の文字領域とＮ番目の文字領域は同じ文字領域であるので、制御部６は文字認識システムを終了する。
【００２７】
図８の例では、２番目（Ｎ＝２）の文字領域と比較する文字領域が「２０日、日本列島の太平洋側は、高気圧に覆わ」であるとき、同じ文字領域で比較することはないので、比較する文字領域を他の文字領域に切り替える。
Ｍ番目の文字領域が画像イメージの最後の文字領域でないとき（Ｓ１２のＮｏ）、Ｍをインクリメントし（Ｓ１３）、Ｍ＋１番目の文字領域はＮ番目の文字領域とは同一であるか否かを判定する（Ｓ１１）。Ｎ番目とＭ＋１番目の文字領域は同一でないとき（Ｓ１１のＮｏ）、Ｍ＋１番目の文字領域の先頭文字が文の先頭形態であるか否かを判定する（Ｓ１４）。
【００２８】
Ｍ番目の文字領域の先頭文字が文の先頭形態になっている場合、Ｎ番目の文字領域の最終文字は文の終了形態になっているので、Ｍ番目の文字領域とＮ番目の文字領域とを比較する必要はなく、文字領域の先頭文字が文の先頭形態ではない他の文字領域を探す（Ｓ１４のＹｅｓ）。
図８の例では、３番目として仮付与された文字領域「各地ではこの夏一番の暑さを記録した。」の文字領域の先頭文字は文の先頭形態ではないので、２番目として仮付与された文字領域「２０日、日本列島の太平洋側は高気圧に覆わ」の最終文字が文の終了形態でなく、この２番目の文字領域の次に３番目の文字領域はこないと判定される。従って、文字領域の最終文字が文の終了形態である他の文字領域を探す。
【００２９】
Ｍ番目の文字領域の先頭文字が文の先頭形態である場合（Ｓ１４のＹｅｓ）、文字領域順序判定部５は、Ｎ番目の文字領域の最終文字を含む一文とＭ番目の文字領域の先頭文字を含む一文を結合して文字領域結合部Ｌ（Ｎ−Ｍ）を作成し（Ｓ１５）、形態素解析を行う（Ｓ１６）。文字領域順序判定部５は形態素解析が成功したか否かを判定し（Ｓ１７）、形態素解析に成功したとき（Ｓ１７のＹｅｓ）、Ｍ番目の文字領域はＮ番目の文字領域の次の文字領域として判定する（Ｓ１８）。
【００３０】
形態素解析が成功しなかったとき（Ｓ１７のＮｏ）、文字領域順序判定部５はＭ番目の文字領域はＮ番目の文字領域の次の文字領域でないと判定し、Ｍ番目の文字領域は画像イメージにある文字領域のうちの最後の文字領域でないので、Ｍをインクリメントし、Ｍ＋１番目以降の文字領域の先頭文字を含む一文とＮ番目の文字領域の最終文字を含む一文を結合して文字領域結合部Ｌ（Ｎ−（Ｍ＋１））を作成し、Ｎ番目の文字領域に連続する文字領域が見つかるまで形態素解析を繰り返す。
【００３１】
図８の例では、２番目（Ｎ＝２）として仮付与された文字領域と比較する文字領域を４番目として仮付与された文字領域「れ、四国から関東地方は梅雨が明けた。」とする。この４番目の文字領域の先頭文字は文の先頭形態でないので、２番目の文字領域の最終文字を含む一文と４番目の文字領域の先頭文字を含む一文を結合して文字領域結合部Ｌ（２−４）を作成し、形態素解析を実行する。このとき、形態素解析が成功するので、２番目の文字領域の次に４番目の文字領域がくることになる。つまり、「２０日、日本列島の太平洋側は、高気圧に覆われ、四国から関東地方は梅雨が明けた。」となる。また、５番目として仮付与された文字領域「気象庁によると、関東甲信と東海の梅雨明」は形態素解析するべき文字領域がないので、この場合は仮付与された番号どおりに５番目の文字領域として判定される。
【００３２】
形態素解析が成功したあとは、Ｎ番目の文字領域が画像イメージの最後の文字領域であるかどうかを判定し（Ｓ８）、最後の文字領域でないとき、Ｎをインクリメントし（Ｓ９）、以下同様な作業を繰り返す。こうして、文字領域の順序を判定する。
このように、本発明における第１の実施の形態によれば、入力された画像イメージに複数個の文字領域又は画像領域が存在するとき、各文字領域に対し文字分分をテキストデータとして抽出し、この抽出された各文字領域の順序を判定するにあたり、文字領域順序判定部５は、文字領域の最終文字を含む一文と他の文字領域の先頭文字を含む一文を結合して文字領域結合部Ｌを作成し、このＬに対し形態素解析する。この形態素解析が成功したとき、文字領域順序判定部５は、この文字領域結合部を構成した文字領域は連続すると判定し、文字領域の順序を判定することができる。
【００３３】
（第２の実施の形態）
次に、本発明における第２の実施の形態について図面を参照して説明する。第２の実施の形態における文字認識システムの概要の説明（図１参照）は、第１の実施の形態と同様であるので、ここでは省略する。
以下、文字認識システムの動作について図４乃至図１１を用いて説明する。なお、図１０および図１１について第１の実施の形態で説明したので、ここでは説明を省略する。
図４は、第２の実施の形態における文字認識システムの動作を説明するフローチャートである。なお、第１の実施の形態におけるフローチャートで使用した文字領域のパラメータを表すＮをこの第２の実施の形態においても使用する。
【００３４】
図５は、第２の実施の形態において文字領域間の連続性を所定の項目により比較する処理を説明するフローチャートである。所定の項目とは、文字フォントの種類、文字フォントの大きさ、文字領域の連続性である。なお、第１の実施の形態と同様、複数個の文字領域が存在する原稿を使用する具体例を用いて説明する。図６乃至図９の説明は、既に第１の実施の形態で説明したので、図面の説明はここでは省略する。
【００３５】
それでは、文字認識システムの動作を図４および図５を参照して説明する。
図４において、スキャナ等で電子化された画像イメージ又は予め電子化された画像イメージが入力部１から入力され、制御部６は図５に示すような画像イメージを取得する（Ｓ２１）。文字画像領域判定部３は、入力された画像イメージに対し文字領域の判定をする（Ｓ２２）。文字領域判定の後、文字認識部４は、図７に示すような文字領域判定された各文字領域の文字部分をテキストデータとして抽出する文字認識を実行する（Ｓ２３）。この文字認識の処理後、図７の画像イメージは図８に示すようになり、文字領域順序判定部５は文字領域が複数個あるかどうかを判定する（Ｓ２４）。文字領域が１個である場合、制御部６はこのまま文字認識システムの動作を終了する。
【００３６】
文字領域が複数個ある場合、文字領域順序判定部５は、ある特定の文字領域とその他の文字領域との連続性を判定するため、その特定の文字領域の順序を表わすパラメータ（Ｎとする）を設定し、パラメータＮを初期化する（Ｓ２５）。
まず、文字領域順序判定部５は、文章が縦書きの場合には画像イメージの右上から左下へと、文章が横書きの場合には画像イメージの左上から右下へという流れで読み込むルールに従って、文字領域の順序を仮判定し、番号を仮付与する（Ｓ２６）。そして、１番目（Ｎ＝１）として仮付与された文字領域の最終文字が文の終了形態であるか否かを判定する（Ｓ２７）。
【００３７】
Ｎ番目の文字領域の最終文字が文の終了形態でないとき（Ｓ２７のＮｏ）、図５において、Ｎ番目の文字領域の最終文字とその他の文字領域の先頭文字とを比較する（Ｓ３０）。文字領域順序判定部５は、Ｎ番目の文字領域の最終文字と同種の文字フォントである先頭文字を持つ文字領域があるか否かを検索し（Ｓ３０１）、同種の文字フォントの先頭文字を持たない文字領域をＮ番目の文字領域と連続する文字領域でないと判定する（Ｓ３０２）。
【００３８】
図８の例では、２番目（Ｎ＝２）として仮付与された文字領域の最終文字「・・・気圧に覆わ」の「わ」とその他の文字領域の先頭文字、つまり、「れ、四国から・・・」の「れ」、「各地ではこの・・・」の「各」又は「気象庁による・・・」の「気」を比較し、文字フォントの種類が同一のものを検索する。ここでは、すべてゴシック体の文字フォントであることから、２番目の文字領域に連続する文字領域を絞り込むことはできないと判定する。
【００３９】
次に、文字領域順序判定部５は、Ｎ番目の文字領域の最終文字と同じ大きさである文字である先頭文字を持つ文字領域があるか否かを検索し（Ｓ３０３）、文字フォントの大きさが同一でない文字領域をＮ番目の文字領域と連続する文字領域でないと判定する（Ｓ３０４）。
図８の例では、２番目（Ｎ＝２）として仮付与された文字領域の最終文字「・・・気圧に覆わ」の「わ」とその他の文字領域の先頭文字、つまり、「れ、四国から・・・」の「れ」、「各地ではこの・・・」の「各」、「気象庁による・・・」の「気」を比較し、文字フォントの大きさが同一のものを検索する。ここでは、図８に示す「気象庁による・・・」の文字領域の文字フォントの大きさは２番目（Ｎ＝２）の文字領域の最終文字「・・・気圧に覆われ」と異なるので、この「気象庁による・・・」の文字領域は、２番目（Ｎ＝２）の文字領域の最終文字に連続する文字領域ではないと判定する。
【００４０】
次に、文字領域順序判定部５は、Ｎ番目の文字領域の最終文字とその他の文字領域の先頭文字をそれぞれ結合し、図１０に従って文字領域間の連続性を判定する（Ｓ３０５）。この文字領域間の連続性は、Ｎ番目の文字領域の最終文字が句点であるとき、読点であるとき、又は句点若しくは読点以外のものであるときに場合分けし、それぞれの場合に対して文字連続性を判定する。文字領域順序判定部５は、文字領域の連続性として適していない文字領域はＮ番目の文字領域と連続する文字領域でないと判定する（Ｓ３０６）。
【００４１】
図８の例では、Ｓ３０４の処理で除かれた文字領域「気象庁による・・・」以外の文字領域に対して、仮付与された２番目（Ｎ＝２）の文字領域「２０日、日本列島の太平洋側は高気圧に覆わ」の最終文字「わ」と、文字領域「れ、四国から・・・」の「れ」又は文字領域「各地ではこの夏１番の暑さを記録した。」の「各」をそれぞれ図１０に従って比較する。ここでは、比較する対象が記号や空白ではなく文字であるので、図１０による文字領域間の連続性を判定することはできない。
【００４２】
文字領域順序判定部５は、以上の項目に対してＮ番目の文字領域の最終文字と他の文字領域の先頭文字を比較した結果、全ての項目に該当する文字領域があるか否かを判定する（Ｓ３０７）。この判定の結果、全ての項目に該当しない文字領域（仮に、Ｍ番目とする。）が存在するときの非常手段として、Ｎ番目の文字領域の最終文字を含む一文と上述した該当しない文字領域の先頭文字を含む一文を結合して文字領域結合部Ｌ（Ｎ−Ｍ）を作成し、形態素解析等の自然言語処理を実行する（Ｓ３０８）。この形態素解析をする対象は、常に一つとは限らず複数個ある場合もあり得る。全ての項目に該当する文字領域が存在するとき、文字領域順序判定部５は、この該当する文字領域はＮ番目の文字領域の次の文字領域であると判定する（Ｓ３１）。
【００４３】
図８の例では、２番目（Ｎ＝２）として仮付与された文字領域「２０日、・・・高気圧に覆わ」と４番目（Ｎ＝４）として仮付与された文字領域「れ、四国から・・・明けた。」の文字領域を結合してＬ（２−４）を作成し形態素解析をすると成功し、一方２番目（Ｎ＝２）の文字領域「２０日、・・・高気圧に覆わ」と３番目（Ｎ＝３）として仮付与された文字領域「各地では・・・記録した。」の文字領域を結合してＬ（２−３）を作成し形態素解析をしても失敗するため、２番目の文字領域の次の文字領域は４番目の文字領域と判定されることになる。
【００４４】
上記した文字領域の連続性判定処理後に、Ｎ番目の文字領域が最後の文字領域であるかどうかを判定し（Ｓ２８）、最後の文字領域でないとき、Ｎをインクリメントし（Ｓ２９）、以下同様な作業を繰り返す。こうして、文字領域の順序を判定する。
このように、本発明における第２の実施の形態によれば、入力された画像イメージに複数個の文字領域又は画像領域が存在するとき、各文字領域に対し文字部分をテキストデータとして抽出し、この抽出された各文字領域の順序を判定するにあたり、文字領域順序判定部５は、文字領域の最終文字とその他の文字領域の先頭文字をそれぞれ比較し、所定の項目を用いて各々の文字領域における連続性を判定し、その連続性を判定しきれないときは、文字領域の最終文字を含む一文とその比較する文字領域の先頭文字を含む一文を結合して文字領域結合部Ｌを作成し、このＬに対し形態素解析する。この形態素解析が成功したとき、文字領域順序判定部５は、このＬを構成した文字領域は連続すると判定し、文字領域の順序を判定することができる。
【００４５】
なお、本発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない限りで種々変形して実施できる。例えば、形態素解析の対象として文字領域結合部を使用しているが、文字領域そのもの全体を結合してもよい。また、文字領域の順序の判定方法として形態素解析を実施しているが、構文解析または意味解析等の他の自然言語処理を用いて解析してもよい。
【００４６】
【発明の効果】
以上の本発明によれば、文字領域及び画像領域で構成される複雑なレイアウトを有する新聞記事又は画像イメージ等に対して、各文字領域の順序をユーザが選択することなく、各文字領域の連続性を形態素解析等の自然言語処理により順序判定することができる。
【図面の簡単な説明】
【図１】本発明の文字認識システム全体の構成を説明するブロック図。
【図２】本発明における第１の実施の形態における文字領域判定処理、文字認識判定処理を主に説明するフローチャート。
【図３】本発明における第１の実施の形態における文字領域順序判定処理を主に説明するフローチャート。
【図４】本発明における第２の実施の形態を説明するフローチャート。
【図５】本発明における第２の実施の形態について文字領域間の連続性を判定する処理を説明するフローチャート。
【図６】文字認識を行う前の画像イメージを示した図。
【図７】文字認識を行う前の画像イメージを文字領域判定した結果を示す図。
【図８】文字認識の結果を示す図。
【図９】文字領域の判定結果を示す図。
【図１０】文字領域の最終文字に続き得る記号又は文字の判定図。
【図１１】文字領域の先頭文字に続き得る記号又は文字の判定図。
【符号の説明】
１・・・入力部
２・・・表示部
３・・・文字領域判定部
４・・・文字認識部
５・・・文字領域順序判定部
６・・・制御部

Claims

電子化された画像イメージを取得する取得手段と、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定手段と、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識手段と、
前記文字認識された各文字領域の順序を決定するにあたり、第１の文字領域と第２の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、前記第１の文字領域と前記第２の文字領域は連続する文字領域であると判定する文字領域順序判定手段とを具備することを特徴とする文字認識システム。
電子化された画像イメージを取得する取得手段と、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定手段と、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識手段と、
前記文字認識された各文字領域の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定手段を具備することを特徴とする文字認識システム。
前記文字領域順序判定手段は、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定し、さらに、前記任意の文字領域と他の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、これら文字領域は連続する文字領域であると判定することを特徴とする請求項２記載の文字認識システム。
前記文字領域順序判定手段は、文字領域であると判定された前記各文字領域に対して仮の文字領域順序番号を付与し、この自然言語処理が成功したとき、前記仮付与された文字領域順序を前記自然言語処理による文字領域の順序に変更することを特徴とする請求項１または３記載の文字認識システム。
前記自然言語処理手段は、形態素解析、構文解析または意味解析のいずれか１つを実行することを特徴とする請求項１または請求項４記載の文字認識システム。
電子化された画像イメージを取得する取得ステップと、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定ステップと、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識ステップと、
前記文字認識された各文字認識の順序を決定するにあたり、第１の文字領域と第２の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、前記第１の文字領域と前記第２の文字領域は連続する文字領域であると判定する文字領域順序判定ステップとを具備することを特徴とする文字認識方法。
電子化された画像イメージを取得する取得ステップと、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定ステップと、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識ステップと、
前記文字認識された各文字認識の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定ステップを具備することを特徴とする文字認識方法。
前記文字領域順序判定ステップは、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定し、さらに、前記任意の文字領域と他の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、これら文字領域は連続する文字領域であると判定することを特徴とする請求項７記載の文字認識方法。
前記文字領域順序判定ステップは、文字領域であると判定された前記各文字領域に対して仮の文字領域順序番号を付与し、この自然言語処理が成功したとき、前記仮付与された文字領域順序を前記自然言語処理による文字領域の順序に変更することを特徴とする請求項６または８記載の文字認識方法。
前記自然言語処理ステップは、形態素解析、構文解析または意味解析のいずれか１つを実行することを特徴とする請求項６または請求項８記載の文字認識方法。
コンピュータに、
電子化された画像イメージを取得する取得機能と、
前記取得された画像イメージから文字領域又は画像領域を判定する文字画像領域判定機能と、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識機能と、
前記文字認識された各文字認識の順序を決定するにあたり、第１の文字領域と第２の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、前記第１の文字領域と前記第２の文字領域は連続する文字領域であると判定する文字領域順序判定機能を実現させることを特徴とするプログラム。
コンピュータに、
電子化された画像イメージを取得する取得機能と、
前記取得された画像イメージから文字領域又は画像領域を判定する文字領域判定機能と、
前記判定された文字領域が複数あるとき、前記画像イメージから各文字領域の文字部分をテキストデータとして抽出し、この文字部分から文字を認識する文字認識機能と、
前記文字認識された各文字認識の順序を決定するにあたり、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定する文字領域順序判定機能を実現させることを特徴とするプログラム。
前記文字領域順序判定機能は、任意の文字領域と他の文字領域の連続性を所定のルールに従って判定し、さらに、前記任意の文字領域と他の文字領域を結合して文字領域結合部を作成し、この文字領域結合部を自然言語処理し、この自然言語処理が成功したとき、これら文字領域は連続すると判定することを特徴とする請求項１２記載のプログラム。
前記文字領域順序判定機能は、文字領域であると判定された前記各文字領域に対して仮の文字領域順序番号を付与し、この自然言語処理が成功したとき、前記仮付与された文字領域順序を前記自然言語処理による文字領域の順序に変更することを特徴とする請求項１１または１３記載のプログラム。
前記自然言語処理機能は、形態素解析、構文解析または意味解析のいずれか１つを実現させることを特徴とする請求項１１または請求項１３記載のプログラム。