JP6003705B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP6003705B2 JP6003705B2 JP2013026808A JP2013026808A JP6003705B2 JP 6003705 B2 JP6003705 B2 JP 6003705B2 JP 2013026808 A JP2013026808 A JP 2013026808A JP 2013026808 A JP2013026808 A JP 2013026808A JP 6003705 B2 JP6003705 B2 JP 6003705B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- character string
- search
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
請求項1の発明は、複数の文字認識結果の各々の文字をノードとし、隣接する文字画像のノード間をリンクで結ぶネットワークを構築するネットワーク構築手段と、前記ネットワーク内の第1の切れ目候補を決定する第1の決定手段と、前記ネットワーク内の前記第1の切れ目候補とは異なる第2の切れ目候補を決定する第2の決定手段と、前記第1の切れ目候補と前記第2の切れ目候補の間にあるノードによって構成される文字列候補の組み合わせの中から複数個の文字列候補を被検索対象として抽出する抽出手段を具備し、前記抽出手段は、前記第1の切れ目候補と前記第2の切れ目候補の間にあるノードによって構成される文字列候補の組み合わせの評価値を算出し、該評価値に基づいて複数個の文字列候補を抽出し、文字認識結果ファイルとして、文全体の第1候補と、前記抽出手段によって抽出された複数の文字列候補を加えて、検索用のファイルを作成することを特徴とする情報処理装置である。
以下、既に知られている技術内容を例にして説明する。
前述の準文字を統合して、文字画像を決定する。複数の準文字を統合して1つの文字画像を形成する場合もあれば、1つの準文字が1つの文字となる場合もある。文字画像を決定するとは、文字の切り出し位置を決定することと同値であるから、以下では文字切り出し位置の決定という場合もある。
準文字の統合のパターンは複数存在する。複数存在するパターンの中で、最も文字画像として評価の高いものを選択することによって、最終的な文字切り出し位置を決定する。
図32の例に対しては、全ての文字切り出しパターンは、図33に示す例のようになる。つまり、図33(a)の例では、パターン1として3つの文字画像(外接矩形3210、外接矩形3220、外接矩形3230)、図33(b)の例では、パターン2として2つの文字画像(外接矩形3210と3220、外接矩形3230)、図33(c)の例では、パターン3として1つの文字画像(外接矩形3210と3220と3230)、図33(d)の例では、パターン4として2つの文字画像(外接矩形3210、外接矩形3220と3230)を示している。
ここで、どれか1つのアークには、1つの文字画像の候補が対応している。例えば、始点ノード3400と中間ノード3420(ノード2)を結ぶアークには、「化」という文字画像(文字切り出しパターン3404)が対応している。1つのアークに対応する文字に対して、その文字の評価値を決定することができる。これを「アーク評価値」と呼ぶこととする。
アーク評価値は、文字の形状情報や、文字認識における認識確度(認識対象の準文字が文字認識結果である文字コードであることの確信度)などから算出する。アーク評価値の算出方法はさまざまある。例えば、(1)特開平9−185681号公報、(2)特開平8−161432号公報、(3)特開平10−154207号公報、(4)特開昭61−175878号公報、(5)特開平3−37782号公報、(6)特開平11−203406号公報等に記載の従来技術に示されている手法等がある。
文字切り出し位置を決定するため、複数のパスの中で、最もパス評価値の高いパスを選択する。パスが選択できれば、文字切り出し位置が確定して、文字を切り出すことができる。そして、切り出した文字(文字画像)を文字認識した結果も確定することになる。
例えば、図35の例で、太線のパスが選択されたとする。この場合、文字切り出し位置は、始点3400と、中間ノード3420(ノード2)と、終点3490の3点となる。そして、確定した文字認識結果は、「化」(文字切り出しパターン3404)、「学」(文字切り出しパターン3422)となる。
そこで、特開平3−225579号公報に記載の技術では、図34の例に示されたようなネットワーク内の複数のパスから最も評価値の高いパスを探索する方法として、ダイナミックプログラミング手法を用いることが述べられている。
ここでは、ダイナミックプログラミング手法の中で、このようなネットワークの最良パスを探索するのに適したビタビ法の説明を行う。
このネットワークにおいて、途中に複数のノード(中間ノード3611、中間ノード3612、中間ノード3613等)を介して始点ノードから終点ノードに達するとする。途中のノードを中間ノードと呼ぶこととする。
各ノードとノードの間にはリンクが張られている。このリンクにはそのリンク固有の評価値(リンク値)が割り当てられている。始点ノード3600から終点ノード3690に向かうパスは複数存在する。パスは、複数のリンクから成り立つことになる。パスが含む複数のリンクのリンク値の和が、パスの評価値となる。
例えば、リンク値は、ノード間の距離であるとする。この場合、パス評価値が最小のパスは、始点ノードから終点ノードに向かうパスの中で、最小距離のパスということになる。あるいは、パス評価値が最大のパスを求める問題とすることも可能である。
例えば、今、ノードx(中間ノード3621)に左から入力されるリンクがすでに、1に限定されているとする。同様に、ノードy(中間ノード3622)、ノードz(中間ノード3623)に関しても1に限定されているとする。このとき、ノードX(中間ノード3631)に左から入力されるリンクを限定する。ノードX(中間ノード3631)には、ノードx(中間ノード3621)、ノードy(中間ノード3622)、ノードz(中間ノード3623)の3つのノードからリンクが張られている。このとき、ノードX(中間ノード3631)を通るパスとして、最適な可能性があるのは、ノードx(中間ノード3621)、ノードy(中間ノード3622)、ノードz(中間ノード3623)からノードX(中間ノード3631)に向かうリンクのいずれかである。この3つのうちで最適なものだけを残し、残りの2つを削除する。このようにして、ノードX(中間ノード3631)に左から入力されるパス(リンク)を1に限定する。ノードY(中間ノード3632)、ノードZ(中間ノード3633)に関しても同様に左から入力されるパスを1に限定する。
このような手順を左のノードA(中間ノード3611)、ノードB(中間ノード3612)、ノードC(中間ノード3613)から順に右の方向に行う。最終的にノードP(中間ノード3681)、ノードQ(中間ノード3682)、ノードR(中間ノード3683)に入る3つのパスに限定する。この3つのパスの中で最適なものを選択すればよい。
このようなビタビ法を用いた最適パス選定方法を、図34に例示のネットワークにも同様に適用し得る。文字切り出し位置をノードとする。また、アーク評価値を前述のリンク値とすればよい。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
ネットワーク構築モジュール120は、文字認識処理モジュール110、パス切出モジュール140と接続されている。ネットワーク構築モジュール120は、文字認識処理モジュール110から文字認識結果を受け取り、その複数の文字認識結果の各々の文字をノードとし、隣接する準文字のノード間をリンクで結ぶネットワークを構築する。具体的には、前述したネットワークを生成する。
左端決定モジュール142は、第1の切れ目候補を、ネットワーク内の先頭から最後尾まで移動させるようにしてもよい。例えば、ネットワーク内の先頭ノードから最後尾ノードまで欠けることなく、第1の切れ目候補を選択した場合は、ネットワーク内で表される全ての文字列候補を抽出することができるようになる。
左端決定モジュール142は、第1の切れ目候補を、その第1の切れ目候補の文字画像を含む文字列内における文字画像間の距離が閾値よりも大又は以上である箇所とするようにしてもよい。対象とする画像が、英語のように分かち書きされているような場合(単語と単語の間に空白が存在する場合)は、単語に相当する文字列候補とするためである。
右端決定モジュール144は、第1の切れ目候補の文字画像から予め定められた距離だけ離れた位置を第2の切れ目候補として決定するようにしてもよい。ここで「距離」は、例えば、画素数、mm(ミリメートル)等で規定される。第1の切れ目候補からの距離は、前述の文字認識結果内の位置、大きさを用いて算出すればよい。予め定められた距離としては、例えば、予め知られている単語の長さの距離としてもよい。
右端決定モジュール144は、第1の切れ目候補の文字画像の高さ又はその第1の切れ目候補の文字画像を含む文字列の高さに基づいた距離だけ離れた位置を第2の切れ目候補として決定するようにしてもよい。「高さに基づいた距離」としては、高さに予め定められた値を乗算等して算出した距離がある。つまり、文字の大きさ(文字の高さ)に応じて文字列候補の長さを決定しようとするものである。
また、Nベスト抽出モジュール150は、第1の切れ目候補と第2の切れ目候補の間にあるノードによって構成される文字列候補の組み合わせの評価値を算出し、その評価値に基づいて複数個の文字列候補を抽出するようにしてもよい。
被検索文記憶モジュール160は、Nベスト抽出モジュール150、検索モジュール180と接続されている。Nベスト抽出モジュール150によって抽出された文字列候補を被検索対象として記憶している。
検索モジュール180は、被検索文記憶モジュール160、検索文受付モジュール170と接続されている。検索モジュール180は、被検索文記憶モジュール160に格納された文字列候補(つまり、Nベスト抽出モジュール150によって抽出された文字列候補)を被検索文字列として、検索文字列を検索する。
検索文受付モジュール170、検索モジュール180による処理内容については、図26〜図28を用いて後述する。
ステップS202では、文字認識処理モジュール110が、画像を受け付ける。
ステップS204では、文字認識処理モジュール110が、文字認識を行う。
ステップS206では、ネットワーク構築モジュール120が、文字認識結果を用いてネットワークを構築する。
ステップS208では、被検索文生成モジュール130が、被検索文を生成し、被検索文記憶モジュール160に格納する。
ステップS302では、検索文受付モジュール170が、検索文を受け付ける。
ステップS304では、検索モジュール180が、被検索文記憶モジュール160に記憶されている被検索文から検索文を検索する。
ステップS306では、検索モジュール180が、検索結果を出力する。
文字認識処理モジュール110は、画像受付モジュール410、文字列抽出モジュール420、切出位置抽出モジュール430、文字候補抽出モジュール440を有している。
文字列抽出モジュール420が対象とする画像は、横書きあるいは縦書きの、1列のみの文字列画像である。なお、ここで、列とは、横書きの場合は横に並ぶ列であり、縦書きの場合は縦に並ぶ列である。
したがって、文字列抽出モジュール420は、画像受付モジュール410が受け付けた画像が1列のみの文字列画像であれば、そのまま用いればよい。画像受付モジュール410が受け付けた画像は、複数の文字列が存在するものである場合がある。このような複数文字列を単一の文字列になるように分離する手法としては、従来よりさまざまものが提案されているため、それらを用いればよい。単一の文字列となるように分離する例としてもさまざまな方式があるため、そのうちのいずれかを用いればよい。例えば、(1)特開平4−311283号公報、(2)特開平3−233789号公報、(3)特開平5−73718号公報、(4)特開2000−90194号公報、等を用いればよい。これら以外の方法であってもよい。
ステップS502では、画像受付モジュール410が、対象となる画像を受け付ける。
ステップS504では、文字列抽出モジュール420が、画像から文字列画像を抽出する。
ステップS506では、切出位置抽出モジュール430が、文字列画像を対象として切り出し位置を抽出する。
ステップS508では、文字候補抽出モジュール440が、切り出された文字画像を文字認識する。
ステップS510では、文字候補抽出モジュール440が、複数の文字認識結果を文字画像の文字候補として抽出する。
本実施の形態は、パス評価値の高いパスを出力することによって、複数の文字列候補を抽出するものである。また、パスの探索にダイナミックプログラミングの手法を用いてもよい。
本実施の形態のネットワークにおいては、始点ノード、終点ノード、複数の中間ノードがある。また、各ノード間のリンクには、リンク値を与える。始点ノードから1あるいは複数の中間ノードを介して、終点ノードに至るパスは、介するノードに依存したリンクを通ることになる。始点ノードから終点ノードに至るパスのパス評価値は、そのパスが通ったリンクのリンク値の重み付け和として表すことができる。
本実施の形態のネットワーク構築モジュール120は、1つの文字列画像に対して、複数の文字認識結果が存在しているときに、前述のノード、リンク、パスの構成(ネットワーク構造)を生成するものである。ネットワーク構造が与えられれば、ネットワーク構築モジュール120によってビタビ法などの手法を用いて、最適パスを探索することも可能である。
まず、切出位置抽出モジュール430の抽出する文字切り出し位置が固定(一種類)の場合について説明する。
図6は、記号例を示す説明図である。記号の種類として、長方形610、横棒である接続線620、622、624、627、628、円弧630、丸である文字候補642、644、646がある。
図6の例において、長方形610A、610B、610C、610D(図7に例示する長方形610)は、それぞれ準文字を表す。
また、横棒である接続線620、622、624、626、628は、文字切り出し位置を示す(図8に例示する接続線620、接続線622)。準文字は文字切り出し位置を介して、隣接する準文字につながっている。
さらに、丸で表されている文字候補642A、644A等は、1つの準文字を1文字として認識したときの、複数の文字候補を示す。円弧630A、630B、630C、630Dは、下の1つの準文字だけを対象に文字認識を行っていることを示している。
本実施の形態では、準文字の複数の文字候補をノードとして捉える。さらに、隣接する準文字の文字候補と、リンクを接続する。図10の例にリンクを太線で記入して示す。
ここでリンク値生成処理が生成するリンク値としては、リンク左右のノードの相互作用を示すものを使ってもよい。具体的には、リンクの左の文字候補とリンクの右の文字候補が連続して日本語の文章中に出現する確率(バイグラム)を用いる。
このようにノードとリンクを構成することによって、全てのネットワーク構造が規定できる。ネットワーク構造が規定できれば、ビタビ法等により、最適パスを選択できる。
前述では、リンク値として、ノード間の相互作用を示すもの(文章中に出現する確率)だけを用いたが、さらにノード単独の評価値を用いるようにしてもよい。ここでは、ビタビ法を用いて最適パスを探索するものとする。左から順にノードの左から入るリンクをノード毎に1つだけに限定していく処理を行う。
今、図10の例で文字候補642B、644B、646Bのリンクを限定する段階であるとする。
ここで、文字候補642B、644B、646Bと、左側にある文字候補642A、644A、646A間のリンク値を生成する。リンク値としては、各ノード間の相互作用を表すバイグラムなどの値と、各ノード内部の値の両方を用いる。ノード内部の値とは、例えば、文字候補642Bの文字の認識確度などがある。
つまり、ノード間情報はリンクの内部に存在していて、ノード内情報はリンクの端点に存在する。このような発生位置、又は概念が異なる値を一度に扱う。
本実施の形態では、リンクの評価値として、リンクの内部に存在する値(例えば、バイグラムの値)と、リンクの一方の端点のみに存在する値(例えば、文字候補642Bの文字認識確度)を用いる。他方の端点に存在する値(例えば、文字候補642Aの文字認識確度)は用いない。このようにすることで、リンクの内部の値と、リンクの端点の値をともに用いる評価が可能となる。
最終的には、文字列の評価値(パス評価値)として、(1)式で、全てのリンクの評価値を加算することになる。そのため、リンクの評価値の中に、リンクの内部の評価値と、リンクの一方の端点の評価値が含まれていれば、パス評価値の中に全てのリンク内部の評価値とリンク端点の評価値が1つずつ含まれることになる。
なお、複数の値を特徴量ベクトルとして把握し、リンク値は、特徴量ベクトルを対象として、リンク評価値(スカラー値)を出力する関数で実現できる。
前述では、リンク左右のノードの相互情報としてバイグラムを用いていた。この場合、リンク情報として2つのノード間の関係情報を用いていることになる。
ビタビ法を用いる場合、例えば、ノードである文字候補642A、644A、646Aの左側のリンク数はすでに1個に限定されていることになる。この場合には、2以上のノードの情報を用いてリンク情報を構築することが可能となる。
例えば、2つの連続する文字の生起確率であるバイグラムではなく、3つの連続する文字の生起確率であるトライグラムを用いることも可能となる。
今、リンク値生成処理では、ノードである文字候補642B、644B、646Bの左側のリンク値を生成しようとする。
例えば、文字候補642A−文字候補642B間のリンク値を算出する。バイグラムであれば、文字候補642Aと文字候補642Bが連続する生起確率を求めればよい。ここで、トライグラムを求める場合を説明する。文字候補642Aの左側のリンクは1つに限定されているため、実は、文字候補642Aの左の文字も確定していることになる。この文字を保持するノードをGとする。トライグラムとしては、ノードG−ノード(文字候補642A)−ノード(文字候補642B)の3つの文字に関する生起確率を求めればよい。
以上のように求めたトライグラムをノード(文字候補642A)−ノード(文字候補642B)間のリンク値として生成すればよい。同様に、Ngramであっても、求めることが可能となる。
文字切り出し位置が確定していない場合(つまり、切出位置抽出モジュール430が複数の文字切り出し位置を抽出した場合であり、具体的には、「化」のように、「イ」と「ヒ」、あるいは、「化」のどちらになるか分からない場合)、文字候補の選択と、文字切り出し位置の選択を行うようにしてもよい。文字切り出し位置が確定していない場合、文字候補の選択は、文字切り出し位置の選択となる。
図11は、文字切り出し位置が複数ある場合の処理例を示す説明図である。ここでは、円弧の記号の意味が追加されている。円弧が下にある複数の準文字(長方形)を指し示す場合、その円弧はその複数の準文字を統合した画像を1文字とみなして認識することを示す。円弧1110Aは、長方形610Aと長方形610Bを統合した画像を1文字とみなして文字認識結果として文字候補1122A、1124A、1126Aを有している。また、円弧1110Cは、長方形610A、610B、610C、610Dを統合した画像を1文字とみなして文字認識結果として文字候補1122C、1124C、1126Cを有している。
図12の例に示すように、円弧630Aと円弧630Bの下に2つの準文字(長方形610A、長方形610B)「イ」と「ヒ」がある場合に、その2つを含む円弧1110の上の文字候補(文字候補1122、1124、1126)は、「イ」と「ヒ」を統合した1つの準文字「化」を認識したときの複数の文字候補に相当する。
ここでは、文字切り出し位置に注目する。今、図13の矢印で示す文字切り出し位置に関連するノードのリンクを対象とする。この文字切り出し位置でリンクされるノードには、
(1)左側ノード:矢印の文字切り出し位置に円弧の右側が存在するノード(斜線でハッチングしたノード、文字候補1342A、文字候補1344A、文字候補1362A、文字候補1364A、文字候補1372A、文字候補1374A等)と、
(2)右側ノード:矢印の文字切り出し位置に円弧の左側が存在するノード(内部が白のノード、文字候補1342B、文字候補1344B、文字候補1362B、文字候補1364B、文字候補1372B、文字候補1374B等)
の2種類がある。このとき、左側ノードと、右側ノード間にリンクを形成することによって、グラフ構造を構築することができる。
例えば、全ての左側ノードが、全ての右側ノードに直接接続できるようにリンクを形成すればよい。さらに、全ての文字切り出し位置において、前述のように、左側ノードと右側ノードのリンクを形成し、さらに、左側が文字列の端点の場合には始点ノードに接続し、また、右側が文字列の端点の場合には終端ノードに接続すれば、全てのグラフ構造を構築することができる。
特に、この場合には、文字切り出し位置が確定していないため、ノード内部の評価値として、文字の形状情報を用いることができる。文字形状情報の例として、文字の縦横比や、文字左右の空白量、等を用いることができる。
例えば、ノードD(文字候補「会」)に左から3本のリンクが接続されているとする。そして、そのリンクはそれぞれノードA(文字列候補「ヒ学」)、ノードB(文字列候補「化学」)、ノードC(文字列候補「ト学」)から接続されているとする。
ノードA、B、Cには、さらに左からノードが接続されているが、その部分は説明では省略している。ノードAの文字列候補は「ヒ学」、ノードBの文字列候補は「化学」、ノードCの文字列候補は「ト学」となっている。
ここで、ノードDに左から接続されるリンクを対象とする。ノードAからのパスであれば、文字列候補は「ヒ学会」であり、ノードBからのパスであれば、文字列候補は「化学会」であり、ノードCからのパスであれば、文字列候補は「ト学会」となる。被検索文生成モジュール130は、左端から右端に向かう複数のパスがあるので、そのパスの中から被検索対象である文字列候補を抽出すればよい。
文字列画像の左端を始点、文字列画像の右端を終点として、始点から終点に向かう複数のパスを対象とする。なお、一つの準文字に対して、複数の候補が存在する場合があり、これら複数の候補も加味して、複数のパスを対象とする。前述したように、始点から終点までの各パスに評価値を与えることができる。この評価値の高いものから順にN個の文字認識出力(文字列候補)を得ることができる。このN個の文字認識出力をNベストと呼ぶこととする。
一般に、被検索文は長い。そのため、被検索文の先頭から終点を全て包含した文に対して、Nベストを取得しても、検索語にヒットする文字列を取得できる可能性は低くなる。
例えば、2ベストを用いて説明する。「EEGHIJKL<MOPQR」が第1位文字列とする。第2位文字列は、例えば、この第1位文字列のうち1文字だけが置換されたものになり、「EEGHIJKL<MOPQP」である。これは、最後の「R」が「P」に置換されたものである。正解は、「EFGHIJKL<MOPQP」であったとする。つまり、「P」の認識確度が、2番目の認識文字「F」の認識確度よりも高い場合に、このような第2位文字列となる。ここで、検索語「EFG」で検索を行ったとしても、2ベスト(「EEGHIJKL<MOPQR」、「EEGHIJKL<MOPQP」)内には、その検索語はないので、一致しない(ヒットしない)という結果になる。
そして、Nベストを抽出した結果、文字認識結果として、複数の結果をつなぎ合わせたテキストコードを出力すればよい。このテキストコードを検索することによって、Nベストのどれがヒットしても、文書を検索することができる。つまり、文字認識結果ファイルとして、文全体の第1候補に加えて、文の部分文字列のNベストを付与して、検索用のテキストファイルを作成する。
ステップS1602では、左端決定モジュール142が、Nベスト左端位置を決定する。Nベストを抽出するための文字列の左端を「Nベスト左端」、Nベストを抽出するための文字列の右端を「Nベスト右端」と記す。
ステップS1604では、パス切出モジュール140が、文字認識結果の文字列が終了したか否かを判断し、終了した場合は処理を終了し(ステップS1699)、それ以外の場合はステップS1606へ進む。
ステップS1606では、右端決定モジュール144が、Nベスト右端位置を決定する。
ステップS1608では、Nベスト抽出モジュール150が、Nベスト左端位置からNベスト右端位置までの文字によって構成されるNベストを抽出する。
ステップS1610では、Nベスト抽出モジュール150が、抽出したNベストを被検索文記憶モジュール160に格納する。
準文字は、文字切れ目候補で区切られた文字、又は、文字部分となる。準文字は、画素として、連結領域の塊を一つの準文字としてもよいし、複数の連結領域をまとめて一つの準文字としてもよい。あるいは、連結領域であっても、連結部分が細い場合には分割して複数の準文字としてもよい。
図17(a)の例に示す矩形は、準文字の外接矩形である。
以下では、図17(b)の例に示すように、一つの矩形が、一つの準文字であるとみなした説明を行う。
例えば、「化学」という文字列であれば、矩形の一つ一つに「イ」(「化」のへん)、「ヒ」(「化」の旁)、「学」が入る。
本実施の形態では、例えば、Nベストを抽出するための文字列の左端を、全ての文字切れ目候補で行う。そして、Nベストを抽出するための文字列の右端を、例えば、その左端からの準文字の個数(ノード数)で規定する。
図18は、準文字の個数を3として動作を示す例である。なお、前述したように、準文字の個数は3以外であってもよい。2以上であって、ネットワーク全体の始点から終点までの全ての準文字の個数未満であればよい。
まずNベスト左端を対象とする画像の左端とする(ステップS1602)。Nベスト左端から右方向へ3個の準文字分の位置をNベスト右端とする(ステップS1606)。
Nベスト左端を始点、Nベスト右端を終点とするパスの中で、Nベストを決定する。決定したNベスト(N個の文字列)を抽出する(ステップS1608、図18(a))。
次に、1個分、準文字を右にシフトして(2巡目のステップS1602)、同様の処理を行う(図18(b))。
対象とする文字列の終端に到達すれば(ステップS1604)、終了とする(ステップS1699、図18(c))。
ここで求めたNベスト結果を、文字認識結果ファイルとして被検索文記憶モジュール160に記憶する(ステップS1610)ことで、検索が可能となる。
Nベスト左端とNベスト右端の距離は、準文字個数でなくともよい。
例えば、Nベスト左端に位置する準文字の高さ又はその準文字を含む文字列の高さをH(画素)とする。予め定められた数値(例えば、10(画素)等)をAとし、Nベスト左端とNベスト右端の距離を、X=H×A等として定める。
この値Xに最も近い位置の切れ目位置をNベスト右端とする。又は、値Xを最初に超える切れ目位置をNベスト右端とする。
なお、高さを「画素」単位で計測したが、「画素」ではなく、「mm(ミリメートル)」等の物理量であってもよい。
また、値XをHとは関係なく予め定められた値としてもよい。つまり、Nベスト左端から予め定められた距離(値X)だけ離れた位置をNベスト右端としてもよい。
Nベスト左端は、全ての文字切れ目候補を網羅する必要はない。例えば、Nベスト左端位置を、ネットワーク内の先頭から最後尾まで、予め定められた数毎に移動させてもよい。例えば、図20(a)に示すように、一つおきに移動させてもよい。
また、Nベスト左端を、準文字間の間隔が閾値よりも大きい又は以上である箇所としてもよい。例えば、図20(b)に示すように、準文字間が離れている箇所がNベスト左端となる。閾値としては、予め定められた値であってもよいし、その文字列における準文字間の距離の統計値(例えば、平均値、最頻値、中央値等又はそれらに定数を乗算したもの等)としてもよい。
例えば、図21に示すように、準文字数を3とする場合、連続した3つの準文字を選択すればよい。左から順に選択してもよいし、ランダムに選択してもよい。
また、準文字の個数を複数用いてもよい。例えば、準文字個数を3個と4個として、Nベスト左端を固定したときに、2種のNベスト右端を抽出してもよい。図22(a)の例のように、まず3個でNベストを抽出し、次に図22(b)の例のように4個で抽出してもよい。
文字認識処理モジュール110は、文字列画像全体を文字認識する。ここでは文字認識誤りが発生し得る。例えば、図23(a)に示すように「化学の組織論」という文字列画像を文字認識した場合、文字認識結果の第1候補は「イヒ学の組織論」のように文字切り出しの誤りが発生して、文字認識誤りが発生している。なお、「イヒ」の部分を「化」と文字認識しているものが、第2候補以下にある。
被検索文生成モジュール130は、文字認識結果を部分に分割して、複数の文字列候補を抽出する。その複数の文字列候補中に正解が存在する場合がある。例えば、図23(b)に示すように予め定められた長さの文字列画像を文字認識した結果は、「化学の」、「イヒ学の」となる。
そして、複数の文字列候補を抽出する箇所をずらして、さらに複数の文字列候補を抽出する。例えば、図23(c)に示すように準文字「イ」と準文字「ヒ」の間から始まる文字列画像を文字認識した結果は、「ヒ学の」、「ヒ字の」となる。
最終結果として、例えば、図24に示すように認識結果を抽出する。このように、第1候補の文字列「イヒ学の組織論」では、「化学」は検索できないが、図24に示すように認識結果のテキストファイルであれば、「化学」が検索可能となる。
ユーザは、図26の例に示すような「検索」窓に検索語であるテキストコードを打ち込み、データベース等に蓄積されている画像を検索する。なお、検索対象となる実体は、画像に対応する文字認識結果ファイルである。つまり、画像や、文字認識結果ファイルは、データベース等に蓄積されている。画像と文字認識結果ファイルとの間にはリンクが張られているため、文字認識結果ファイルが検索できれば、画像ファイルも検索可能である。
図25の例に示すように、文字認識が正しければ、「ABC」の検索語に対し、文書Aが検索できる。文字認識が誤っている場合(「EFG」が正解であるが、第1候補は「EEG」となった場合)、第1候補のみからなる文字認識結果ファイルでは「EFG」の検索語を入れても、文書Bを検索できない。本実施の形態では、被検索文の拡張を行って、文書Bの文字認識結果ファイルでは、「EEG」、「HIJ」の文字認識結果の第1候補に加えて、3つの準文字からなる文字認識の第2候補以下である「EFG」、「H1J」等も記憶しているので、検索を可能とする。
図3の例に示したフローチャートのステップS304として、図27の例に示すような処理を行ってもよい。
ステップS2702では、検索モジュール180が、検索文の文字数と一致する文字数のNベストを選択する。例えば、複数種の文字数のNベストが文字認識結果ファイル内に記憶されている場合は、検索文の文字数と一致するものを選択する。
ステップS2704では、検索モジュール180が、選択したNベストによって構成されている被検索文から検索する。
ステップS2802では、検索文の文字数とNベストの文字数の比較を行い、一致するNベストがある場合はステップS2804へ進み、検索文の文字数が短い場合はステップS2808へ進み、検索文の文字数が長い場合はステップS2812へ進む。
ステップS2804では、検索モジュール180が、検索文の文字数と一致する文字数のNベストを選択する。
ステップS2806では、検索モジュール180が、選択したNベストによって構成されている被検索文から検索する。
ステップS2810では、選択したNベストによって構成される被検索文に対して、前方一致検索を行う。
ステップS2812では、検索文の文字数に近いNベストを選択する。
ステップS2814では、検索文の文字数以上になるようにNベストを連結する。この連結は、対象のNベスト同士の全ての組み合わせを生成するように行う。
ステップS2816では、連結したNベストによって構成される被検索文に対して、前方一致検索を行う。
前述の実施の形態においては、横書きの文字列を前提として、左が始点で右が終点であるような記述の仕方を行ってきた。しかし、前述の説明は、縦書きや、右から左に記述する文字列でも同様に成り立つ。例えば、縦書きの場合は、「左」を「上」、「右」を「下」とする変換を行えばよい。右から左に記述する文字列の場合は、「左」を「右」、「右」を「左」とする変換を行えばよい。
なお、数式を用いて説明したが、数式には、その数式と同等のものが含まれる。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…ネットワーク構築モジュール
130…被検索文生成モジュール
140…パス切出モジュール
142…左端決定モジュール
144…右端決定モジュール
150…Nベスト抽出モジュール
160…被検索文記憶モジュール
170…検索文受付モジュール
180…検索モジュール
410…画像受付モジュール
420…文字列抽出モジュール
430…切出位置抽出モジュール
440…文字候補抽出モジュール
Claims (8)
- 複数の文字認識結果の各々の文字をノードとし、隣接する文字画像のノード間をリンクで結ぶネットワークを構築するネットワーク構築手段と、
前記ネットワーク内の第1の切れ目候補を決定する第1の決定手段と、
前記ネットワーク内の前記第1の切れ目候補とは異なる第2の切れ目候補を決定する第2の決定手段と、
前記第1の切れ目候補と前記第2の切れ目候補の間にあるノードによって構成される文字列候補の組み合わせの中から複数個の文字列候補を被検索対象として抽出する抽出手段
を具備し、
前記抽出手段は、前記第1の切れ目候補と前記第2の切れ目候補の間にあるノードによって構成される文字列候補の組み合わせの評価値を算出し、該評価値に基づいて複数個の文字列候補を抽出し、
文字認識結果ファイルとして、文全体の第1候補と、前記抽出手段によって抽出された複数の文字列候補を加えて、検索用のファイルを作成する
ことを特徴とする情報処理装置。 - 前記第1の決定手段は、前記第1の切れ目候補を、前記ネットワーク内の先頭から最後尾まで移動させる
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第1の決定手段は、前記第1の切れ目候補を、該第1の切れ目候補の文字画像を含む文字列内における文字画像間の距離が閾値よりも大又は以上である箇所とする
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記第2の決定手段は、前記第1の切れ目候補から予め定められたノード数離れた位置を前記第2の切れ目候補として決定する
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 - 前記第2の決定手段は、前記第1の切れ目候補の文字画像から予め定められた距離だけ離れた位置を前記第2の切れ目候補として決定する
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 - 前記第2の決定手段は、前記第1の切れ目候補の文字画像の高さ又は該第1の切れ目候補の文字画像を含む文字列の高さに基づいた距離だけ離れた位置を前記第2の切れ目候補として決定する
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 - 検索文字列を受け付ける受付手段と、
前記抽出手段によって抽出された文字列候補を被検索文字列として、前記検索文字列を検索する検索手段
をさらに具備することを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。 - コンピュータを、
複数の文字認識結果の各々の文字をノードとし、隣接する文字画像のノード間をリンクで結ぶネットワークを構築するネットワーク構築手段と、
前記ネットワーク内の第1の切れ目候補を決定する第1の決定手段と、
前記ネットワーク内の前記第1の切れ目候補とは異なる第2の切れ目候補を決定する第2の決定手段と、
前記第1の切れ目候補と前記第2の切れ目候補の間にあるノードによって構成される文字列候補の組み合わせの中から複数個の文字列候補を被検索対象として抽出する抽出手段
として機能させ、
前記抽出手段は、前記第1の切れ目候補と前記第2の切れ目候補の間にあるノードによって構成される文字列候補の組み合わせの評価値を算出し、該評価値に基づいて複数個の文字列候補を抽出し、
文字認識結果ファイルとして、文全体の第1候補と、前記抽出手段によって抽出された複数の文字列候補を加えて、検索用のファイルを作成する
ことを特徴とする情報処理プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013026808A JP6003705B2 (ja) | 2013-02-14 | 2013-02-14 | 情報処理装置及び情報処理プログラム |
US14/031,517 US9280725B2 (en) | 2013-02-14 | 2013-09-19 | Information processing apparatus, information processing method, and non-transitory computer readable medium |
KR1020130127623A KR101685472B1 (ko) | 2013-02-14 | 2013-10-25 | 정보 처리 장치, 정보 처리 방법, 및 기억 매체 |
CN201310545408.2A CN103995816B (zh) | 2013-02-14 | 2013-11-06 | 信息处理设备和信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013026808A JP6003705B2 (ja) | 2013-02-14 | 2013-02-14 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014157409A JP2014157409A (ja) | 2014-08-28 |
JP6003705B2 true JP6003705B2 (ja) | 2016-10-05 |
Family
ID=51297462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013026808A Expired - Fee Related JP6003705B2 (ja) | 2013-02-14 | 2013-02-14 | 情報処理装置及び情報処理プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9280725B2 (ja) |
JP (1) | JP6003705B2 (ja) |
KR (1) | KR101685472B1 (ja) |
CN (1) | CN103995816B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016181468A1 (ja) * | 2015-05-11 | 2016-11-17 | 株式会社東芝 | パターン認識装置、パターン認識方法およびプログラム |
JP6900164B2 (ja) * | 2016-09-27 | 2021-07-07 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2018088116A (ja) * | 2016-11-29 | 2018-06-07 | キヤノン株式会社 | 情報処理装置、プログラム、情報処理方法 |
JP7102103B2 (ja) * | 2017-03-31 | 2022-07-19 | キヤノン株式会社 | 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム |
JP7095345B2 (ja) * | 2018-03-22 | 2022-07-05 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理システム及びプログラム |
US10685261B2 (en) * | 2018-06-11 | 2020-06-16 | GM Global Technology Operations LLC | Active segmention of scanned images based on deep reinforcement learning for OCR applications |
JP7387363B2 (ja) * | 2019-09-30 | 2023-11-28 | キヤノン株式会社 | データ入力支援装置、データ入力支援方法及びプログラム |
CN111984689B (zh) * | 2020-08-21 | 2023-07-25 | 北京百度网讯科技有限公司 | 信息检索的方法、装置、设备以及存储介质 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61175878A (ja) | 1985-01-31 | 1986-08-07 | Mitsubishi Electric Corp | 文書読取り装置 |
JPH0337782A (ja) | 1989-07-04 | 1991-02-19 | Mitsubishi Electric Corp | 文字パターン切り出し装置 |
JPH03233789A (ja) | 1990-02-09 | 1991-10-17 | Hitachi Ltd | Icカードおよび情報処理装置 |
JP2872768B2 (ja) | 1990-07-10 | 1999-03-24 | 沖電気工業株式会社 | 文字切出し装置 |
JP2899383B2 (ja) | 1990-08-06 | 1999-06-02 | 沖電気工業株式会社 | 文字切出し装置 |
JP2963508B2 (ja) | 1990-08-20 | 1999-10-18 | 沖電気工業株式会社 | 文字切出し装置 |
JP2957729B2 (ja) | 1991-04-09 | 1999-10-06 | 沖電気工業株式会社 | 行方向判定装置 |
JP3095470B2 (ja) | 1991-09-13 | 2000-10-03 | 松下電器産業株式会社 | 文字認識装置 |
JPH05114047A (ja) | 1991-10-23 | 1993-05-07 | Oki Electric Ind Co Ltd | 文字切り出し装置 |
JPH05128308A (ja) | 1991-11-08 | 1993-05-25 | Sumitomo Electric Ind Ltd | 文字認識装置 |
JP3187899B2 (ja) * | 1991-12-25 | 2001-07-16 | 松下電器産業株式会社 | 文字認識装置 |
JP2998054B2 (ja) * | 1994-03-22 | 2000-01-11 | 株式会社エヌ・ティ・ティ・データ | 文字認識方法及び文字認識装置 |
JPH08161432A (ja) | 1994-12-02 | 1996-06-21 | Seiko Epson Corp | 文字切り出し方法および文字切り出し装置 |
JP3457094B2 (ja) * | 1995-04-21 | 2003-10-14 | 松下電器産業株式会社 | 文字認識装置及び文字認識方法 |
JPH0954814A (ja) | 1995-08-04 | 1997-02-25 | At & T Corp | 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム |
JP3313272B2 (ja) | 1996-01-08 | 2002-08-12 | 株式会社日立製作所 | 住所読み取り方法および識別関数重みベクトル生成方法 |
JPH10154207A (ja) | 1996-11-21 | 1998-06-09 | Oki Electric Ind Co Ltd | 文字切出し方法および文字切出し装置 |
JPH10207985A (ja) * | 1997-01-27 | 1998-08-07 | Oki Electric Ind Co Ltd | 文字切り出し方法および文字切り出し装置 |
US6128606A (en) * | 1997-03-11 | 2000-10-03 | At&T Corporation | Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph |
US6324302B1 (en) * | 1997-05-30 | 2001-11-27 | Ricoh Company, Ltd. | Method and a system for substantially eliminating erroneously recognized non-solid lines |
JP3601658B2 (ja) * | 1997-12-19 | 2004-12-15 | 富士通株式会社 | 文字列抽出装置及びパターン抽出装置 |
JPH11203406A (ja) | 1998-01-20 | 1999-07-30 | Ricoh Co Ltd | 文字切り出し方法、文字認識方法、文字認識装置および記録媒体 |
JP3852218B2 (ja) | 1998-09-10 | 2006-11-29 | 富士ゼロックス株式会社 | 画像処理方法および画像処理装置 |
CN1145872C (zh) * | 1999-01-13 | 2004-04-14 | 国际商业机器公司 | 手写汉字自动分割和识别方法以及使用该方法的系统 |
JP2001306598A (ja) * | 2000-04-20 | 2001-11-02 | Fuji Xerox Co Ltd | データ入力フォーム検索システム、データ入力フォーム検索方法、及び、コンピュータ読み取り可能な記録媒体 |
JP4421134B2 (ja) | 2001-04-18 | 2010-02-24 | 富士通株式会社 | 文書画像検索装置 |
JP4349183B2 (ja) * | 2004-04-01 | 2009-10-21 | 富士ゼロックス株式会社 | 画像処理装置および画像処理方法 |
JP4756447B2 (ja) * | 2005-02-28 | 2011-08-24 | 富士ゼロックス株式会社 | 教材処理装置、教材処理方法および教材処理プログラム |
JP4750476B2 (ja) | 2005-06-07 | 2011-08-17 | キヤノン株式会社 | 文書検索装置及び方法と記憶媒体 |
JP2007233913A (ja) * | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2008192032A (ja) * | 2007-02-07 | 2008-08-21 | Fuji Xerox Co Ltd | 文書処理装置、文書処理方法、プログラム |
JP5090983B2 (ja) | 2008-03-25 | 2012-12-05 | シャープ株式会社 | 情報処理装置、情報処理方法、情報処理プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体 |
CN100589119C (zh) * | 2008-05-23 | 2010-02-10 | 中南民族大学 | 多字体多字号的基于彝文字符集的印刷体字符识别方法 |
JP5672828B2 (ja) * | 2010-08-03 | 2015-02-18 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP5716328B2 (ja) * | 2010-09-14 | 2015-05-13 | 株式会社リコー | 情報処理装置、情報処理方法、および情報処理プログラム |
JP5699570B2 (ja) * | 2010-11-30 | 2015-04-15 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP5807342B2 (ja) * | 2011-02-21 | 2015-11-10 | 富士ゼロックス株式会社 | 文字認識装置及びプログラム |
JP5508359B2 (ja) * | 2011-08-03 | 2014-05-28 | シャープ株式会社 | 文字認識装置、文字認識方法及びプログラム |
-
2013
- 2013-02-14 JP JP2013026808A patent/JP6003705B2/ja not_active Expired - Fee Related
- 2013-09-19 US US14/031,517 patent/US9280725B2/en not_active Expired - Fee Related
- 2013-10-25 KR KR1020130127623A patent/KR101685472B1/ko active IP Right Grant
- 2013-11-06 CN CN201310545408.2A patent/CN103995816B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014157409A (ja) | 2014-08-28 |
KR101685472B1 (ko) | 2016-12-20 |
KR20140102589A (ko) | 2014-08-22 |
US9280725B2 (en) | 2016-03-08 |
US20140226904A1 (en) | 2014-08-14 |
CN103995816A (zh) | 2014-08-20 |
CN103995816B (zh) | 2018-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6003705B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5699570B2 (ja) | 画像処理装置及び画像処理プログラム | |
US8131087B2 (en) | Program and apparatus for forms processing | |
JP5647919B2 (ja) | 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
US10438097B2 (en) | Recognition device, recognition method, and computer program product | |
JP5942361B2 (ja) | 画像処理装置及び画像処理プログラム | |
KR101790544B1 (ko) | 정보 처리 장치, 정보 처리 방법, 및 기억 매체 | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6007720B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
JP6547301B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6003375B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5636691B2 (ja) | 画像処理装置及び画像処理プログラム | |
US20180012111A1 (en) | Recognition device, recognition method, and computer program product | |
JP2016009235A (ja) | 情報処理装置及び情報処理プログラム | |
JP5942661B2 (ja) | 情報処理装置及び情報処理プログラム | |
Mondal et al. | Exemplary sequence cardinality: An effective application for word spotting | |
JP5032557B2 (ja) | パターン認識装置およびパターン認識方法 | |
JP2013246473A (ja) | 画像処理装置及び画像処理プログラム | |
JP2014109810A (ja) | 情報処理装置及び情報処理プログラム | |
JP2022051198A (ja) | Ocr処理装置、ocr処理方法、及びプログラム | |
JP5636766B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2007257249A (ja) | 文字認識方法及びその装置及びそのプログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6003705 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |