JP2013164728A - 画像内の文字に係る言語を判定する情報処理装置 - Google Patents
画像内の文字に係る言語を判定する情報処理装置 Download PDFInfo
- Publication number
- JP2013164728A JP2013164728A JP2012027344A JP2012027344A JP2013164728A JP 2013164728 A JP2013164728 A JP 2013164728A JP 2012027344 A JP2012027344 A JP 2012027344A JP 2012027344 A JP2012027344 A JP 2012027344A JP 2013164728 A JP2013164728 A JP 2013164728A
- Authority
- JP
- Japan
- Prior art keywords
- language
- ocr
- character recognition
- character
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/246—Division of the character sequences into groups prior to recognition; Selection of dictionaries using linguistic properties, e.g. specific for English or German language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
【課題】OCR処理の効率を改善する。
【解決手段】本発明に係る情報処理装置は、言語グループを1つ選択し、選択した言語グループから言語を1つ選択して、選択した言語について画像に含まれる文字をOCR処理する。得られたOCR処理結果から、画像内の識別された文字と、OCR処理に係る言語との間の類似の度合いを示す適合率を算出する。そして、適合率が所定の値以下の場合、他の言語グループに属する言語を選択して、再度OCR処理を実行する。
【選択図】図7
【解決手段】本発明に係る情報処理装置は、言語グループを1つ選択し、選択した言語グループから言語を1つ選択して、選択した言語について画像に含まれる文字をOCR処理する。得られたOCR処理結果から、画像内の識別された文字と、OCR処理に係る言語との間の類似の度合いを示す適合率を算出する。そして、適合率が所定の値以下の場合、他の言語グループに属する言語を選択して、再度OCR処理を実行する。
【選択図】図7
Description
本発明はクラウド、webサーバ、パーソナルコンピュータ、原稿読取装置、OCR装置などの情報システムにおいて、OCR処理を実施する情報処理装置に関する。
画像に含まれる文字の認識を行うOCR(Optical Character Recognition)では、一般的に、認識対象とする言語をユーザーが予め指定して、画像から指定された言語に係る文字を識別する。
複数言語についてOCR処理が可能なシステムでは、ある言語についてOCR処理を実行し、その結果から適合率を算出する。そして、適合率があらかじめ定めた閾値以上であればその言語であると判断する。一方、閾値以下の場合は順次他の言語についてOCR処理を実行して、適合率が閾値以上となる言語を判定する技術が知られている(特許文献1参照。)。
従来技術のようにOCR処理において言語を順次変更しつつOCR処理を実行する場合、処理対象言語の順番によっては、該当する言語についての処理が最後となり、結局、複数ある言語のすべてについてOCR処理を実行しなければならない場合がある。また、画像内の言語をOCR処理するための言語データを保持していなかった場合は、すべての言語のOCR処理を実行したうえで、認識外の言語であると決定することになる。そのため、予め決められた順で言語を1つずつ変更してOCR処理を行う場合、処理効率が悪いという課題があった。
上記課題を解決するために本発明に係る情報処理装置は、画像を入力する入力手段と、複数の言語を複数のグループに分類した言語グループの中から1つの言語グループを選択する第1の選択手段と、前記第1の選択手段が選択した言語グループに属する言語を1つ選択する第2の選択手段と、前記入力手段で入力された前記画像に含まれる文字に対して、前記第2の選択手段で選択された言語に適した文字認識処理を実行する文字認識処理手段と、前記文字認識処理手段による文字認識結果に基づいて、前記第2の選択手段により選択された言語との間の類似の度合いを示す適合率を算出する算出手段と、前記算出された適合率が第1の閾値以上の場合は、前記文字認識処理された文字が、前記第2の選択手段により選択された言語に係る文字であると判定して該文字認識結果を出力するように制御し、前記算出された適合率が第2の閾値以上で且つ前記第1の閾値よりも小さい場合は、当該選択中の言語グループに属する他の言語の中から未処理の新たな言語を前記第2の選択手段で選択させ、当該選択させた新たな言語にしたがって前記文字認識処理手段で処理を実行するように制御し、前記算出された適合率が前記第2の閾値よりも小さい場合は、当該選択中の言語グループと異なる新たな言語グループを前記第1の選択手段で選択させ、当該選択させた新たな言語グループにしたがって前記第2の選択手段と前記文字認識処理手段とで各処理を実行するように制御する制御手段と、を有することを特徴とする。
複数言語のOCR処理における処理効率を改善する。
以下、本発明を実施するための最良の形態について図面を用いて説明する。
(実施例1)
本実施例は、OCRシステムにおいて、特にクライアントPCにより、本発明に係るOCR処理が実行される。しかし、本発明に係るOCR処理は、クライアントPCだけではなく、webサービスのサーバやクラウドコンピューティングで実施することも可能である。また、本発明はスキャナ、複合機などの原稿読み取り装置内において実施することも可能である。OCRシステムには、認識率を重視するシステムと高速性を重視するシステムとがあるが、本発明では特に高速性を重視するものである。
(実施例1)
本実施例は、OCRシステムにおいて、特にクライアントPCにより、本発明に係るOCR処理が実行される。しかし、本発明に係るOCR処理は、クライアントPCだけではなく、webサービスのサーバやクラウドコンピューティングで実施することも可能である。また、本発明はスキャナ、複合機などの原稿読み取り装置内において実施することも可能である。OCRシステムには、認識率を重視するシステムと高速性を重視するシステムとがあるが、本発明では特に高速性を重視するものである。
図1は、本発明に係るOCR処理を実施する情報処理装置の構成の一例を示すブロック図である。
図1において、1はCPUであり、データ処理を行い、情報処理装置9内の各種装置を制御する。2はメモリであり、CPUが読み書きするためのデータを保持する。3はHDD(Hard Disc Drive)であり、各種データが格納されている。4は入力装置であり、キーボード、ポインティングデバイスなどから構成され、ユーザーからの入力を受け付ける。5はディスプレイなどの出力装置であり、CPU1からの命令に基づいてデータを出力する。6は媒体読取装置であり、FD,CD-ROM, メモリカード等の記憶媒体からデータを読み取る。7はスキャナ、複合機などの原稿読取装置であり、読み取られた画像は例えばHDD3に格納される。なお、HDD3は、HDDまたはそれらの複数の装置の組み合わせで構成されていてもよい。また、それぞれの装置がネットワークを介して接続されていても、本発明を制約するものではない。
図2は、OCR処理を実行する旨のOCR命令が入力されると、CPU1がOCRモジュール(OCRプログラム)を実行することによってOCR処理を行い、処理結果を出力するまでの処理の概念を示す図である。CPU1は、HDD3(もしくは媒体読取装置6を介してその他の記憶媒体)から、OSプログラムやOCRプログラムやその他の各種アプリケーションプログラムをメモリ2にロードして実行する。入力装置4からOCR命令が入力されると、CPU1はOCRモジュール11に基づく処理を実行する。CPU1は、OCRモジュール11に応じて実行した処理の処理結果をHDD3に格納させ、また、出力装置5に出力する。なお、OCRモジュール11は、OSプログラム10の制御下で動作する。
CPU1(コンピュータ)は、OCRモジュール(OCRプログラム)を実行することにより、図3のブロック図に示すような各処理部として機能する。
12は入力受付部であり、OCR処理の対象となる画像の入力を受け付ける。13はOCR処理制御部であり、OCR処理に係る各部を制御する。
OCR処理制御部13は、処理内容決定部14、OCR言語判断部15、OCR言語グループ判断部16、及びOCR結果出力部17を含む。処理内容決定部14は、OCR処理部18で処理するOCR言語の集合であるOCR言語グループ、及びOCR言語を選択する。
OCR処理部18は、選択されたOCR言語を用いて適合率を算出する。適合率は、OCR処理により識別された文字と、選択されたOCR言語との間の類似の度合いを示すものである。なお、適合率については、図5を用いて後に説明する。
OCR言語判断部15は、適合率に基づいて、画像内の文字が、選択したOCR言語であるかどうかを判断する。
OCR言語グループ判断部16は、画像内の言語が、選択したOCR言語が属するOCR言語グループにあるかどうかを判断する。
OCR結果出力部17は、OCR結果である認識された文字列をテキストファイルなどの文章ファイルとして出力する。
次に、図4を用いて、本願発明の特徴となるOCR言語グループについて説明する。OCR言語は、類似する言語ごとにOCR言語グループに分類することができる。例えば、中国語、台湾語、日本語を1つのOCR言語グループ(漢字系言語グループ)に分類することができる。また、英語、ドイツ語、フランス語を1つのOCR言語グループ(ラテン系言語グループ)に分類することができる。各OCR言語グループは、ある文字画像に対してOCR処理を実行した場合に、OCR言語の適合率が類似する値を示すOCR言語群ごとにグループを構成するように分類されている。
例えば、日本語が含まれる画像に対してOCR処理を実行する場合、英語を用いてOCR処理を行っても、フランス語を用いてOCR処理を行っても、適合率が0%となる可能性が高い。一方、日本語が含まれる画像に対して日本語と同一の言語グループに属する中国語や台湾語を用いてOCR処理を行った場合、漢字部分を認識することができるため数十%の適合率が得られる。このことから、類似する言語同士では適合率が高い値となる。一方、別のOCR言語グループに属するOCR言語を用いてOCR処理を行うと、適合率は0%に近い値となる。また、同一OCR言語グループ内の別のOCR言語でOCRを行うと、適合率は画像に含まれる言語を用いてOCR処理を行った場合より低い適合率になりうる。しかし、画像に含まれる言語が属するOCR言語グループとは別のOCR言語グループに属するOCR言語を用いてOCR処理を行った場合よりも高い適合率となる。本発明では、類似する言語同士では、ある画像に対してOCR処理を行った時の適合率も類似することの特徴を利用する。詳細は図7を用いて後述する。
次に、図5を用いて、OCR処理部18による処理の詳細について説明する。
OCR処理部18は、入力画像と、OCR処理に用いるOCR言語とを入力する。そして、入力したOCR言語でOCR処理を行い、OCR言語により認識した文字と、適合率とをOCR処理結果として出力する。
具体的には、OCR処理部18は、文字領域解析処理(501)、文字認識処理(502)、適合率算出処理(503)の順に処理を実行する。
まず、文字領域解析処理(501)で、入力画像における文字領域を特定する。
次に、文字認識処理(502)で、文字領域解析処理(501)により特定された文字領域に対して、指定されたOCR言語での文字認識処理を行い、文字を識別する。そして、識別した文字をテキストファイルなどに書き込む。テキストファイルは、PDFやWordなどの文章ファイルに文字情報を埋め込んだものでもよい。
次に、適合率算出処理(503)を行う。適合率は、適用したOCR言語の合致度を表すものである。なお、適合率は、画像中の文字の形状に基づいてOCR処理部18が保持する文字形状辞書との一致度を求めること、又は認識結果のテキストと、OCR処理部18が保持する単語辞書との一致度などから求めることができる。なお、本実施例では、適合率の単位を%とする。
次に、図6を用いて、本発明の情報処理に係る処理手順について説明する。
まず、入力受付部12は入力画像を取得する(S601)。
次に処理内容決定部14は、OCR言語グループ選択処理を行う(S602)。OCR言語グループ選択処理(S602)は、あらかじめ定められたOCR言語グループの優先順位に基づいて、OCR言語グループを第1の選択として1つ選択する。なお、優先順位については図7を用いて説明する。
次に、処理内容決定部14は、第2の選択として、S602で選択されたOCR言語グループに属するOCR言語の中からOCR言語の選択処理(S603)を行う。ここで、OCR言語は、予め定められたOCR言語の優先順位に基づいて選択される。なお、優先順位については図7を用いて説明する。
OCR処理部18は、選択されたOCR言語用の認識アルゴリズムや認識辞書を用いて、OCR処理を入力画像に対して実行する(S604)。この処理は、図5に示す、文字領域解析処理(501)、文字認識処理(502)に対応する。
次に、OCR処理部18は、文字認識処理の結果に基づいて、適合率を算出する(S605)。この処理は、図5に示す適合率算出処理(503)に対応する。
次に、OCR言語判断部15は、適合率が第1の閾値以上であるか判定することにより、入力画像に含まれる文字が、現在選択されているOCR言語と一致するかどうかを判断する(S606)。なお、当該判断の詳細については、図7を用いて後述する。
現在選択されているOCR言語が、入力画像に含まれる文字に係る言語であると判断した場合(S606:YES)、OCR結果出力部17は、当該現在選択されているOCR言語を用いてOCR処理を実行し、その処理結果を出力する(S610)。
一方、現在選択されているOCR言語ではないと判断した場合(S606:NO)、OCR言語グループ判断部16は、適合率が第2の閾値以上であるか判定する。そして、入力画像に含まれる文字が該当OCR言語グループに属する文字の可能性があるかの判断を行う(S607)。当該判断の詳細については、図7を用いて後述する。該当する言語グループであると判断した場合(S607:YES)、OCR言語グループ判断部16は、現在選択されているOCR言語グループに属する未処理の他のOCR言語が存在するかどうかを判断する(S608)。
現在選択されているOCR言語グループに属する未処理のOCR言語が存在する場合(S608:YES)、OCR言語選択処理(S603)に戻る。現在選択されているOCR言語グループで未処理OCR言語が存在しない場合(S608:NO)、OCR言語グループ判断部16は未処理の他のOCR言語グループが存在するかの判断を行う(S609)。また、S607において、入力画像に含まれる文字が該当OCR言語グループに属する文字である可能性がないと判断した場合(S607:NO)も、未処理の他のOCR言語グループが存在するかの判断を行う(S609)。
S609で未処理の他のOCR言語グループが存在すると判断した場合、OCR言語グループ選択処理(S602)に戻る。
S609で未処理の他のOCR言語グループが存在しないと判断した場合、OCR結果出力処理(S610)を行う。ここでは、エラーとして終了してもよいし、適合率が最大であったOCR処理結果を出力してもよい。
次に、図7(A)を用いて、適合率、OCR言語、OCR言語グループ、優先順位について説明する。本実施例では、OCR言語及びOCR言語グループについて判断する際に、2つの閾値を用いる。
図7に示す、第1の閾値である閾値1、及び第2の閾値である閾値2は、選択したOCR言語が、入力画像に含まれる文字に係る言語であるかどうか判断する際に使用する閾値である。閾値2は閾値1より小さい値に設定される。例えば、閾値1を90%、閾値2を10%などの値に定める。
次に、OCR言語、及びOCR言語グループを選択する際に用いる優先順位について説明する。なお、OCR言語グループ選択処理(S602)、OCR言語選択処理(S603)において、優先順位に基づいてOCR言語グループ、OCR言語が選択される。
優先順位の例について、図7(A)を用いて説明する。符号701に示すように、OCR言語グループの優先順位が、1位をラテン系、2位を漢字系、3位をアラビア系、4位をバーコードに設定されている。また、ラテン系のOCR言語グループでは、OCR言語の優先順位が、1位を英語、2位をドイツ語、3位をフランス語、4位をイタリア語に設定されている。
同様にして、漢字系、アラビア系、バーコードのOCR言語グループにもOCR言語優先順位が設定されている。
OCR言語グループの優先順位及びOCR言語の優先順位は、あらかじめ定められた値を用いる。また、本実施例における入力受付処理(S601)の後に、画像解析が可能な場合は、入力画像に対して言語グループ、言語ごとに特有の画像特徴量である、エッジの解析や、画像濃度の解析を行った結果により、優先順位を決定するようにしてもよい。
図7(A)に示す例では、まず、OCR言語グループの優先順位が1位のラテン系において、OCR言語の優先順位が1位の英語によるOCR処理が実行され、適合率が求められる。このとき、英語用のOCR処理により得られる適合率が、閾値2より低かった場合、別言語グループと判断され、ドイツ語用、フランス語用、イタリア語用のOCR処理をスキップする。
次に、OCR言語グループの優先順位が2位の漢字系において、OCR言語の優先順位が1位の中国語用のOCR処理が実行され、適合率が求められる。中国語用のOCR処理の結果、適合率が閾値2以上(第2の閾値以上)であり、かつ閾値1より低い場合、さらに、漢字系の他のOCR言語によるOCR処理が実施される。すなわち、漢字系におけるOCR言語の優先順位が2位の日本語用のOCR処理が実行される。この結果、適合率が閾値1以上(第1の閾値以上)であれば、日本語によるOCR処理の結果を出力し、処理を終了する。
また、図7(B)に示すように、該当言語がない場合でも、すべての言語のOCRを適用する必要がなく、OCR言語グループにおいてOCR言語優先順位が1位の言語に対してのみ適合率を求めればよい。従って、OCR言語グループの数だけOCR処理を行えばよく、図7(B)に示す例では4回のOCR処理のみが行われる。
このように、優先順位に従ってOCR言語グループが選択される。そして、選択されたOCR言語グループにおいて、優先順位に従ってOCR言語が選択され、選択されたOCR言語によるOCR処理が実行される。このとき、求められた適合率が閾値2より低い場合は、現在選択されたOCR言語グループよりも下位のOCR言語グループが新たに選択される。そして、新たに選択されたOCR言語グループに属する、優先順位が1位のOCR言語が選択され、OCR処理が実行される。
なお本実施例では閾値1、閾値2をすべてのOCR言語で同一の値としたが、OCR言語グループ内の類似傾向や、各言語によるOCR処理の精度差などを考慮し、OCR言語ごとに異なる閾値を使用してもよい。
なお、OCR処理は、図5で示したように、画像中の文字の領域を特定する文字領域解析(501)、特定した領域中の文字を判断する文字認識(502)というステップで行われる。また、同一OCR言語グループ内では文字形状が類似しているため、文字領域解析(501)を再利用することができる。
なお、OCRモジュールの文字領域認識、文字認識が独立している場合、同一言語グループ内では、文字領域解析結果を再利用しないと効率が悪くなってしまう。この文字領域解析を再利用する処理のフローを図8に示す。以下、図5と異なる処理について説明する。
文字領域解析を再利用する処理では、図5に示したOCR処理を、文字領域解析処理(S801)、文字認識処理(S802)に分ける。処理内容決定部14がOCR言語グループ選択処理(S602)を行った後、OCR処理部18が文字領域解析処理(S801)を行う。
次に、処理内容決定部14がOCR言語選択処理(S603)を行った後、OCR処理部18は文字認識処理(S604)を行う。OCR言語グループ判断部16で、画像中の文字が、選択中のOCR言語グループの別OCR言語に属する文字の可能性があると判断された場合(S607:YES)、文字領域解析の結果を保存する(S803)。同OCR言語グループに未処理の他のOCR言語が存在すると判断された場合(S804)、領域解析処理後のOCR言語選択処理に戻り、保存された文字領域解析結果を使用する。これにより、同一グループ内で文字領域解析処理を再利用することができ、処理時間を短縮することができる。
(実施例2)
複数言語についてOCR処理を実行することが可能なOCRモジュールを複数備えて、1つのモジュールを用いて多数の言語についてOCR処理を実行したい場合がある。そのような場合、同一OCRモジュールに係るOCR言語を考慮せずに実施形態1に係る処理を行うと、同一のOCRモジュールを複数回起動することがありうる。このような場合、OCRモジュールのロード、初期化を何度も行うことになるので、処理時間が増加し、効率が悪いという課題がある。
複数言語についてOCR処理を実行することが可能なOCRモジュールを複数備えて、1つのモジュールを用いて多数の言語についてOCR処理を実行したい場合がある。そのような場合、同一OCRモジュールに係るOCR言語を考慮せずに実施形態1に係る処理を行うと、同一のOCRモジュールを複数回起動することがありうる。このような場合、OCRモジュールのロード、初期化を何度も行うことになるので、処理時間が増加し、効率が悪いという課題がある。
ここで、OCRモジュールの一例について図9を用いて説明する。例えば、OCRモジュール2で英語によるOCR処理を行い、次にOCRモジュール3でドイツ語によるOCR処理を行い、次にOCRモジュール2でフランス語によるOCR処理を行った場合、OCRモジュール2を2回ロード、初期化することになる。よって、このように同一のモジュールを複数回ロードすることは、効率の悪い処理である。
本実施例では、なるべくモジュールをまたがず、高速に処理できるよう考慮したOCRモジュール切り替えの判断を行う。
OCR処理による適合率の算出と閾値を用いた判断により、入力画像に含まれる文字に係る言語が、同一OCR言語グループ内に属する別のOCR言語と判断された場合、同OCRモジュール内の同OCR言語グループの別OCR言語を優先的に選択する。また、別言語グループと判断された場合、同OCRモジュール内の別OCR言語グループを優先的に選択する。このように、同OCRモジュール内のOCR言語グループ、OCR言語を優先的に選択することで、モジュールの切り替え回数を減らし、適切なOCR言語を効率よく選択することができる。
以下、基本的なシステム構成は実施例1と同一であり、実施例1との差異について説明する。
図10は、図3に示す情報処理装置において、OCR処理部18内に、OCRモジュールがさらに複数存在する(例えば、符号20乃至22に示すモジュール)。また、モジュール切替判断部19は、モジュールの切り替えの判断を行う。
図11は、実施例2に係る情報処理の処理手順の一例を示すフローチャートである。図11では、図8のフローチャートにおいて、モジュール切り替え処理がさらに追加されている。本フローチャートは、OCR言語グループ内で文字領域解析を再利用する場合のフローチャートである。なお、OCR処理が文字領域解析(S801)と文字認識処理(S802)が分離不可能な場合、S801では文字領域解析を行わず、文字認識処理(S802)において文字領域解析と文字認識処理を行う。
以下図8との差異について説明する。
入力受付部12が入力画像を取得(S601)した後、処理内容決定部14は、OCRモジュール選択処理を行う(S602)。OCRモジュール選択処理(S602)は、あらかじめ定められたOCRモジュールの優先順位に基づいて選択する。OCRモジュールの優先順位については後述する。
OCR言語グループ判断部16において、該当言語グループと判断された場合(S607)、文字領域解析結果保存処理(S803)を行う。
次に、OCR言語グループ判断部16は、現在選択されているOCRモジュール内に、現在選択されているOCR言語グループにおいて、未処理のOCR言語があるかどうかを判断する(S1102)。
未処理のOCR言語が存在する場合、モジュール切替判断部19はOCRモジュールを切り替えず、OCR言語選択処理(S603)に戻る。
一方、未処理のOCR言語が存在しない場合(S1102;No)、モジュール切替判断部19は、他モジュールに属する、現在選択されているOCR言語グループで未処理OCR言語が存在するかについて判断する(S1103)。
未処理のOCR言語が存在する場合(S1103;YES)、モジュール切替判断部19は、現在選択されているOCR言語グループで未処理OCR言語をもつモジュールに切り替え(S1104)、OCR言語選択処理(S904)に戻る。
モジュール切替処理(S1104)では、現在選択されているOCR言語グループで未処理OCR言語をもつモジュールが複数ある場合、OCRモジュールの優先順位をもとに選択する。他モジュールに選択されたOCR言語グループで未処理OCR言語が存在しない場合は、S1105に移る。S607において該当OCR言語グループではないと判断された場合、モジュール切替判断部19は選択されたモジュールに未処理言語グループが存在するかの判断を行う(S1105)。選択されたモジュールに未処理言語グループが存在する場合は、モジュール切替判断部19はモジュールを切り替えず、OCR言語グループ選択処理(S602)に戻る。現在選択されているモジュールに未処理言語グループが存在しない場合は、他モジュールに未処理言語グループが存在するかの判断を行う(S1106)。他モジュールに未処理言語グループが存在する場合、未処理言語グループを持つモジュールに切り替えて(S1107)、OCR言語グループ選択処理(S602)に戻る。モジュール切替処理(S1107)は、未処理言語グループを持つモジュールが複数ある場合は、OCRモジュールの優先順位をもとに選択する。他モジュールに未処理言語グループが存在しない場合は、すべてのOCR言語グループでOCRを行い、画像中の文字言語と一致するものがなかったと判断したことになり、OCR結果出力処理(S510)に移る。ここでは、エラーとして終了してもよいし、適合率が最大であったOCR処理結果を出力してもよい。
次に、OCRモジュールの優先順位について図12を用いて説明する。図12に示すように、各OCRモジュールにより分類されているOCR言語に対し、予め実験して求めておいた性能値を関連付ける。この性能値は、各OCRモジュールの各言語のOCR処理の性能を表すものであり、標準的なデータをOCR処理して、求めた適合率に基づいて相対的に決定することができる。
例えば、適合率が高かったものから順に、A, B, Cの三段階に分けて、各OCR言語について性能値を設定する。なお、OCR言語グループ優先順位が1位と判断されたOCR言語グループに含まれる言語をもつOCRモジュールからOCRモジュール優先順位をつける。その中でも、OCR言語グループ優先順位が1位と判断されたOCR言語グループに含まれる、高い性能値のOCR言語をもつOCRモジュールから順にOCRモジュールの優先順位を上位にする。
例えば、OCR言語グループの優先順位が1位と判断された言語グループがラテン系の場合、ラテン系において性能値の高いAを含む、OCRモジュール3をOCRモジュールの優先順位1位と判定する。
次に、性能値の高いBを含むOCRモジュール2をOCRモジュール優先順位2位に、OCRモジュール3をOCRモジュールの優先順位3位とする優先順位をつける。このように、性能値の高いモジュールから選択することで、性能の高いOCR結果を効率よく得ることができる。この優先順位はOCRモジュール選択処理(S1101)、OCRモジュール切替処理(S1104)(S1107)において、選択肢が複数ある場合に用いられる。
Claims (9)
- 画像を入力する入力手段と、
複数の言語を複数のグループに分類した言語グループの中から1つの言語グループを選択する第1の選択手段と、
前記第1の選択手段が選択した言語グループに属する言語を1つ選択する第2の選択手段と、
前記入力手段で入力された前記画像に含まれる文字に対して、前記第2の選択手段で選択された言語に適した文字認識処理を実行する文字認識処理手段と、
前記文字認識処理手段による文字認識結果に基づいて、前記文字認識処理された文字と、前記第2の選択手段により選択された言語との間の類似の度合いを示す適合率を算出する算出手段と、
前記算出された適合率が第1の閾値以上の場合は、前記文字認識処理された文字が、前記第2の選択手段により選択された言語に係る文字であると判定して該文字認識結果を出力するように制御し、
前記算出された適合率が第2の閾値以上で且つ前記第1の閾値よりも小さい場合は、当該選択中の言語グループに属する他の言語の中から未処理の新たな言語を前記第2の選択手段で選択させ、当該選択させた新たな言語にしたがって前記文字認識処理手段で処理を実行するように制御し、
前記算出された適合率が前記第2の閾値よりも小さい場合は、当該選択中の言語グループと異なる新たな言語グループを前記第1の選択手段で選択させ、当該選択させた新たな言語グループにしたがって前記第2の選択手段と前記文字認識処理手段とで各処理を実行するように制御する制御手段と、
を有することを特徴とする情報処理装置。 - 前記第1の選択手段は、言語グループのそれぞれに関連付けられた優先順位に基づいて言語グループを選択することを特徴とする請求項1に記載の情報処理装置。
- 前記第2の選択手段は、同一の言語グループに属する言語のそれぞれに関連付けられた優先順位に基づいて言語を選択することを特徴とする請求項1又は2に記載の情報処理装置。
- 画像に含まれる文字を文字認識するモジュールを複数備える情報処理装置であって、
画像を入力する入力手段と、
1つのモジュールを選択する第1の選択手段と、
前記第1の選択手段が選択したモジュールに属する言語を1つ選択する第2の選択手段と、
前記入力手段で入力された前記画像に含まれる文字に対して、前記第2の選択手段で選択された言語に適した文字認識処理を実行する文字認識処理手段と、
前記文字認識処理手段による文字認識結果に基づいて、前記文字認識処理された文字と、前記第2の選択手段により選択された言語との間の類似の度合いを示す適合率を算出する算出手段と、
前記算出された適合率が第1の閾値以上の場合、前記文字認識処理された文字が、前記第2の選択手段により選択された言語に係る文字であると判定して該文字認識結果を出力するように制御し、
前記算出された適合率が第2の閾値以上で且つ前記第1の閾値よりも小さい場合は、当該選択中のモジュールに属する他の言語の中から未処理の新たな言語を前記第2の選択手段で選択させ、当該選択させた新たな言語にしたがって前記文字認識処理手段で処理を実行するように制御し、
前記算出された適合率が前記第2の閾値よりも小さい場合は、新たなモジュールを前記第1の選択手段で選択させ、当該選択させた新たなモジュールにしたがって前記第2の選択手段と前記文字認識処理手段とで各処理を実行するように制御する制御手段と、
を有することを特徴とする情報処理装置。 - 前記第1の選択手段は、モジュールのそれぞれに関連付けられた優先順位に基づいてモジュールを選択することを特徴とする請求項4に記載の情報処理装置。
- 前記第2の選択手段は、同一のモジュールに属する言語のそれぞれに関連付けられた優先順位に基づいて言語を選択することを特徴とする請求項4又は5に記載の情報処理装置。
- 同一のモジュールに属する言語のそれぞれに関連付けられた優先順位は、前記判定の精度に基づくことを特徴とする請求項6に記載の情報処理装置。
- コンピュータを、請求項1乃至7のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
- 請求項8に記載のプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012027344A JP2013164728A (ja) | 2012-02-10 | 2012-02-10 | 画像内の文字に係る言語を判定する情報処理装置 |
US13/757,101 US8831364B2 (en) | 2012-02-10 | 2013-02-01 | Information processing apparatus for determining matching language for characters in image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012027344A JP2013164728A (ja) | 2012-02-10 | 2012-02-10 | 画像内の文字に係る言語を判定する情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013164728A true JP2013164728A (ja) | 2013-08-22 |
Family
ID=48945583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012027344A Pending JP2013164728A (ja) | 2012-02-10 | 2012-02-10 | 画像内の文字に係る言語を判定する情報処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8831364B2 (ja) |
JP (1) | JP2013164728A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016066157A (ja) * | 2014-09-24 | 2016-04-28 | 富士ゼロックス株式会社 | 情報処理装置、情報処理システム及びプログラム |
JP2020160609A (ja) * | 2019-03-25 | 2020-10-01 | 東芝テック株式会社 | プログラム及び文字認識方法 |
WO2021192818A1 (ja) * | 2020-03-24 | 2021-09-30 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび順序情報 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9798943B2 (en) * | 2014-06-09 | 2017-10-24 | I.R.I.S. | Optical character recognition method |
US10607381B2 (en) | 2014-07-07 | 2020-03-31 | Canon Kabushiki Kaisha | Information processing apparatus |
US9563812B2 (en) * | 2015-04-08 | 2017-02-07 | Toshiba Tec Kabushiki Kaisha | Image processing apparatus, image processing method and computer-readable storage medium |
JP6808330B2 (ja) | 2016-02-26 | 2021-01-06 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06150061A (ja) | 1992-11-04 | 1994-05-31 | Sharp Corp | 文書認識装置 |
JP2006252049A (ja) * | 2005-03-09 | 2006-09-21 | Fuji Xerox Co Ltd | 翻訳システム、翻訳方法およびプログラム |
US8401841B2 (en) * | 2006-08-31 | 2013-03-19 | Orcatec Llc | Retrieval of documents using language models |
US8296168B2 (en) * | 2006-09-13 | 2012-10-23 | University Of Maryland | System and method for analysis of an opinion expressed in documents with regard to a particular topic |
US8639708B2 (en) * | 2007-08-31 | 2014-01-28 | Microsoft Corporation | Fact-based indexing for natural language search |
US8224641B2 (en) * | 2008-11-19 | 2012-07-17 | Stratify, Inc. | Language identification for documents containing multiple languages |
-
2012
- 2012-02-10 JP JP2012027344A patent/JP2013164728A/ja active Pending
-
2013
- 2013-02-01 US US13/757,101 patent/US8831364B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016066157A (ja) * | 2014-09-24 | 2016-04-28 | 富士ゼロックス株式会社 | 情報処理装置、情報処理システム及びプログラム |
JP2020160609A (ja) * | 2019-03-25 | 2020-10-01 | 東芝テック株式会社 | プログラム及び文字認識方法 |
JP7274322B2 (ja) | 2019-03-25 | 2023-05-16 | 東芝テック株式会社 | プログラム及び文字認識方法 |
WO2021192818A1 (ja) * | 2020-03-24 | 2021-09-30 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび順序情報 |
JP2021152689A (ja) * | 2020-03-24 | 2021-09-30 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび順序情報 |
Also Published As
Publication number | Publication date |
---|---|
US20130208991A1 (en) | 2013-08-15 |
US8831364B2 (en) | 2014-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013164728A (ja) | 画像内の文字に係る言語を判定する情報処理装置 | |
US8996356B1 (en) | Techniques for predictive input method editors | |
KR20210042864A (ko) | 테이블 식별 방법, 장치, 기기, 매체 및 컴퓨터 프로그램 | |
CN108959257B (zh) | 一种自然语言解析方法、装置、服务器及存储介质 | |
RU2693916C1 (ru) | Распознавание символов с использованием иерархической классификации | |
CN111860479A (zh) | 光学字符识别方法、装置、电子设备及存储介质 | |
US20140297276A1 (en) | Editing apparatus, editing method, and computer program product | |
RU2652461C1 (ru) | Дифференциальная классификация с использованием нескольких нейронных сетей | |
JP2022091123A (ja) | 帳票情報抽出方法、装置、電子デバイス及び記憶媒体 | |
JP2022052716A (ja) | 非構造化文書からのセマンティックデータの照会 | |
CN114495102A (zh) | 文本识别方法、文本识别网络的训练方法及装置 | |
KR20220038477A (ko) | 텍스트 라인 추출 | |
CN103617046A (zh) | 一种扫描和提取目标系统源代码中待翻译的资源的方法和装置 | |
CN104704510A (zh) | 识别在文档中使用的语言并且基于识别的语言执行ocr识别的方法和装置 | |
US11562554B1 (en) | Workload reduction for non-maximum suppression operation | |
US20190114542A1 (en) | Electronic apparatus and control method thereof | |
JP6191440B2 (ja) | スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法 | |
US11068463B2 (en) | System and method for managing log data | |
CN113553428A (zh) | 文档分类方法、装置及电子设备 | |
CN115809325B (zh) | 文档处理模型训练方法、文档处理方法、装置及设备 | |
KR102138748B1 (ko) | 라인 단위의 문자열을 검출 및 정렬하기 위한 방법 및 시스템 | |
JP7390442B2 (ja) | 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム | |
RU2626657C1 (ru) | Определение последовательности команд вывода текста в pdf документах | |
US20230245482A1 (en) | End to end trainable document extraction | |
US20220198142A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program |