JP2016009235A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2016009235A
JP2016009235A JP2014128027A JP2014128027A JP2016009235A JP 2016009235 A JP2016009235 A JP 2016009235A JP 2014128027 A JP2014128027 A JP 2014128027A JP 2014128027 A JP2014128027 A JP 2014128027A JP 2016009235 A JP2016009235 A JP 2016009235A
Authority
JP
Japan
Prior art keywords
evaluation
module
character string
character
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014128027A
Other languages
English (en)
Inventor
瑛一 田中
Eiichi Tanaka
瑛一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2014128027A priority Critical patent/JP2016009235A/ja
Publication of JP2016009235A publication Critical patent/JP2016009235A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】文字列を対象として、その文字列内の切り出し位置と認識結果を出力するにあたって、文字列内のつながりに関する評価とは別個に、始端、終端、改行、又はこれらの組み合わせに対する評価を行うようにした情報処理装置を提供する。【解決手段】情報処理装置の受付手段は、文字列から複数の切り出し位置候補によって切り出された認識対象と該認識対象の認識結果を受け付け、第1の評価手段は、連接している2つの認識対象と認識結果に対して、前記文字列内のつながりに関する評価を行い、第2の評価手段は、前記文字列の始端、終端、改行、又はこれらの組み合わせの認識対象と認識結果に対して、該文字列の始端、終端、改行、又はこれらの組み合わせに関する評価を行い、出力手段は、前記第1の評価手段による評価結果と前記第2の評価手段による評価結果を用いて、前記文字列としての評価値が最大又は最小となる、切り出し位置と認識結果を出力する。【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、文字の接触や続け書き等に頑健な文字列の読み取りを実現することを課題とし、文字切り出し・特徴抽出手段は文字列画像から切り出し位置候補を検出し、文字列読み取り手段は、切り出し位置候補に基づき文字列画像から文字パタン候補を抽出し、文字出現確率計算手段を用いて考え得るあらゆる読み取り結果の妥当性を検証し、文字出現確率計算手段は文字列読み取り手段より、文字パタン候補、文字コード、文字状態、及び文字パタン候補の直前に位置する文字パタン候補の文字コード、文字状態を受け取り、直前の文字パタン候補との形状的な接続の妥当性を文字状態遷移確率を用いて評価し、また文字パタン候補があるカテゴリに属する妥当性を文字テンプレートを用いて評価し、文字パタン候補がある状態、ある文字カテゴリに属する尤度(得点) を計算し、文字列読み取り手段は文字列全体での認識得点が最大となる文字列の切り出し認識結果を探索し出力することが開示されている。
特許文献2には、文字切り出し特徴の適切な組み合わせを実現することによって、文字列の連続筆記を可能とするものであり、文字切り出しに失敗した場合にも容易に修正ができ、ユーザに負担の少ない文字切り出し装置を実現することを目的とし、入力手段で入力された筆跡データから基本セグメント抽出手段で基本セグメントを抽出し、次に前記ストローク集合抽出手段で前記基本セグメントを組み合わせてなるストローク集合を抽出し、さらに、ネットワーク構成手段で前記ストローク集合をノードとし、そのノード間をリンク接続したネットワークを構成し、該ストローク集合抽出手段で抽出されたストローク集合の文字としての評価値を前記ノードの重み、前記ストローク集合間の文字間としての評価値を前記リンクの重みとし、しかる後、前記文字切り出し位置決定手段で、前記ネットワーク構成手段で構成されたネットワークの経路探索することによって文字切り出し位置を決定することによって適切な文字切り出し特徴の組み合わせを実現できることが開示されている。
非特許文献1〜4には、認識技術における機械学習手法が開示されている。
特開2000−207495号公報 特開平06−124364号公報
Xiang−Dong Zhou, Cheng−Lin Liu, and Masaki Nakagawa."Online handwritten Japanese character string recognition using conditional random fields," In Proceedings of the 2009 10th International Conference on Document Analysis and Recognition,ICDAR‘09, pp.521−525, Washington,DC,USA,2009. IEEE Computer Society. McCallum, A.,Freitag, D., & Pereira, F. "Maximum entropy Markov models for information extraction and segmentation," Proc. ICML 2000, pp.591−598, Stanford, California, 2000. John D. Lafferty, Andrew McCallum, and Fernando C. N. Pereira."Conditional random fields: Probabilistic models for segmenting and labeling sequence data," In Proceedings of the Eighteenth International Conference on Machine Learning, ICML ‘01, pp. 282−289, San Francisco, CA, USA, 2001. Morgan Kaufmann Publishers Inc. Peng, Jian and Bo, Liefeng and Xu, Jinbo, "Conditional Neural Fields," NIPS, vol 2, pp.6, 2009.
本発明は、文字列を対象として、その文字列内の切り出し位置と認識結果を出力するにあたって、文字列内のつながりに関する評価とは別個に、始端、終端、改行、又はこれらの組み合わせに対する評価を行うようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文字列から複数の切り出し位置候補によって切り出された認識対象と該認識対象の認識結果を受け付ける受付手段と、連接している2つの認識対象と認識結果に対して、前記文字列内のつながりに関する評価を行う第1の評価手段と、前記文字列の始端、終端、改行、又はこれらの組み合わせの認識対象と認識結果に対して、該文字列の始端、終端、改行、又はこれらの組み合わせに関する評価を行う第2の評価手段と、前記第1の評価手段による評価結果と前記第2の評価手段による評価結果を用いて、前記文字列としての評価値が最大又は最小となる、切り出し位置と認識結果を出力する出力手段を具備することを特徴とする情報処理装置である。
請求項2の発明は、前記文字列は文字列の画像であり、前記認識対象は文字の画像であり、前記文字列の画像から切り出し位置候補を検出する検出手段と、前記検出手段によって検出された切り出し位置候補によって切り出される文字の画像を識別する識別手段をさらに具備し、前記受付手段は、前記文字の画像と前記識別手段による識別結果を受け付けることを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記文字列は文字列のストロークであり、前記認識対象は文字のストロークであり、前記文字列のストロークから切り出し位置候補を検出する検出手段と、前記検出手段によって検出された切り出し位置候補によって切り出される文字のストロークを識別する識別手段をさらに具備し、前記受付手段は、前記文字のストロークと前記識別手段による識別結果を受け付けることを特徴とする請求項1に記載の情報処理装置である。
請求項4の発明は、文書の画像から前記文字列の画像へ分割する分割手段をさらに具備し、前記検出手段は、前記分割手段によって分割された文字列の画像を対象として、切り出し位置候補を検出することを特徴とする請求項2に記載の情報処理装置である。
請求項5の発明は、文書のストロークから前記文字列のストロークへ分割する分割手段をさらに具備し、前記検出手段は、前記分割手段によって分割された文字列のストロークを対象として、切り出し位置候補を検出することを特徴とする請求項3に記載の情報処理装置である。
請求項6の発明は、前記文書について、文字列の位置を示す位置情報と該文字列の属性を示す属性情報を受け付ける第2の受付手段をさらに具備し、前記分割手段は、前記位置情報を用いて分割を行い、前記出力手段は、前記位置情報に対応する切り出し位置と認識結果に対して、該位置情報に対応する属性情報を付与して出力することを特徴とする請求項4又は5に記載の情報処理装置である。
請求項7の発明は、コンピュータを、文字列から複数の切り出し位置候補によって切り出された認識対象と該認識対象の認識結果を受け付ける受付手段と、連接している2つの認識対象と認識結果に対して、前記文字列内のつながりに関する評価を行う第1の評価手段と、前記文字列の始端、終端、改行、又はこれらの組み合わせの認識対象と認識結果に対して、該文字列の始端、終端、改行、又はこれらの組み合わせに関する評価を行う第2の評価手段と、前記第1の評価手段による評価結果と前記第2の評価手段による評価結果を用いて、前記文字列としての評価値が最大又は最小となる、切り出し位置と認識結果を出力する出力手段として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、文字列を対象として、その文字列内の切り出し位置と認識結果を出力するにあたって、文字列内のつながりに関する評価とは別個に、始端、終端、改行、又はこれらの組み合わせに対する評価を行うことができる。
請求項2の情報処理装置によれば、文字列の画像を対象として、その文字列内の切り出し位置と認識結果を出力することができる。
請求項3の情報処理装置によれば、文字列のストロークを対象として、その文字列内の切り出し位置と認識結果を出力することができる。
請求項4の情報処理装置によれば、文書の画像を対象として、その文書の文字列内の切り出し位置と認識結果を出力することができる。
請求項5の情報処理装置によれば、文書のストロークを対象として、その文書の文字列内の切り出し位置と認識結果を出力することができる。
請求項6の情報処理装置によれば、切り出し位置と認識結果に対して、その位置情報に対応する属性情報を付与して出力することができる。
請求項7の情報処理プログラムによれば、文字列を対象として、その文字列内の切り出し位置と認識結果を出力するにあたって、文字列内のつながりに関する評価とは別個に、始端、終端、改行、又はこれらの組み合わせに対する評価を行うことができる。
第1の実施の形態の構成例についての概念的なモジュール構成図である。 第2の実施の形態の構成例についての概念的なモジュール構成図である。 第3の実施の形態の構成例についての概念的なモジュール構成図である。 第4の実施の形態の構成例についての概念的なモジュール構成図である。 第4の実施の形態による処理例を示すフローチャートである。 第4の実施の形態による処理例を示すフローチャートである。 第5の実施の形態の構成例についての概念的なモジュール構成図である。 第6の実施の形態の構成例についての概念的なモジュール構成図である。 第7の実施の形態の構成例についての概念的なモジュール構成図である。 第8の実施の形態の構成例についての概念的なモジュール構成図である。 第9の実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態の技術例を示すための説明図である。 本実施の形態で用いる技術例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
まず、本実施の形態を説明する前に、その前提となる技術と後述する実施の形態で共通して用いる技術について説明する。なお、この説明は、本実施の形態の理解を容易にすることを主な目的とするものである。
前提となる技術の基本的な仕組みを説明する。
図12は、認識対象となる文字列パタンの例である。「神奈川県」と筆記されている。文字パタンは、画像又はストロークからなる。具体的には、単文字枠1210Aには、手書きの「神」、単文字枠1210Bには、手書きの「奈」、単文字枠1210Cには、手書きの「川」、単文字枠1210Dには、手書きの「県」が記載されている。図12は単文字枠1210が与えられているため、単文字の領域が既知である。そこで、まず図13に示す例のように図12の例に示す文字列パタンを単文字パタン列に分離する。続いて、各単文字パタンを識別し、認識結果であるテキストコードと識別の確度等の特徴量を出力する。これを単文字識別と呼ぶ。単文字識別は、1つの認識対象に対して、複数の識別候補を出力することから、図14の例に示す文字列認識結果の候補ラティス(文字列認識ラティス)が作成される。図14に示す例において、各文字はテキストコードを表す。具体的には、単文字枠1210B内の認識対象「奈」の認識結果として2つのテキストコード「茶」、「奈」があり、他の認識対象についても複数の認識結果としてのテキストコードがあり、これらをノードとして、隣接する文字の組み合わせをリンクによって接続している。この場合の正解の認識結果のテキストコード列は、1つ目の文字の1番目のノード「神」、2つ目の文字の2番目のノード「奈」、3つ目の文字の1番目のノード「川」、4つ目の文字の3番目のノード「県」の組み合わせである。なお、bos、eosとは、文字列の開始と終了を表す便宜的なノードであり、実体は無くてもよい。
文字列認識は図14の例に示す文字列認識ラティスから正解である経路を算出し出力する。以下、その代表的な方法を説明する。
いま、図13の単文字枠1210内の単文字パタンをxとする。また、単文字パタン列をX={x,…,x}とする。なお、Nは単文字パタン列長(認識対象である文字列パタンの文字数)である。また、このxに対応する、図14の例に示す文字列認識ラティスのノードであるテキストコードをyとする。テキストコード列をY={y,…,y}とする。文字列認識とは、入力Xに対して、最適な経路であるYを探索する処理といえる。この探索問題を、図15の例に示すグラフを利用して定式化する。図15の例に示すグラフは、マルコフチェインと呼ばれ、隣り合う文字どうしが影響し合い、Yを決定するようなモデルである。図15中ではyを記号「○」で図示する。また、評価関数E(yn−1,y,X,Θ)によって隣り合うyどうしから評価値が算出される。これを記号「■」で図示する。なお、Θは評価パラメタである。また、Xは既知の定数であるため、図示を省略する。
最適なYは、評価関数E(yn−1,y,X,Θ)に基づいて数式1を解くことで得られる。
Figure 2016009235
なお、数式1は、max−sum algorithmと呼ばれる公知の手法で高速に解けることが知られている。
また、数式1のargminはargmaxでもよく、これは評価関数の設定に依存する。
以下、もう1つの例として、図16の例に示すような単文字領域が未知の場合について説明する。日本語など、文字どうしの境界が曖昧な場合は、単文字領域が未知となる。しかし、この場合においても、上記とほぼ同様の文字列認識の仕組みが成り立つ。
図16の例に示す通り、単文字領域が未知であるため、まず図17の例に示すように、単文字パタンをさらに細かい単位に過分割する。これを準文字パタンと呼ぶ。過分割のため単文字パタンは未知である。そこで図17の例に示すように、単数、又は、連続する複数の準文字パタン組み合わせに対して、それぞれ単文字識別を行う。図17の例では、正しい準文字パタンの組み合わせのみの単文字識別結果を図示しているが、実際は、最初の「ネ」という準文字パタンや、2〜4番目の「申奈ノ」という組み合わせの準文字パタンに対しても単文字識別を行うため、複雑な文字列認識ラティスが形成される。
この例においても、図14の例に示す文字列認識ラティスとほぼ同様に、最適な経路を探索可能である。いま、図17の例に示す準文字パタンをxとする。また、準文字パタン列をX={x,…,x}とする。なおMは準文字パタン列長であり、必ずしも単文字数ではないことに注意が必要である。また、文字列認識ラティスのノードであるテキストコードをyとする。テキストコード列をY={y,…,y}とする。なお、N≦Mである。前述した例と同様に、文字列認識は、入力Xに対して、最適なYを探索する処理である。この探索問題を、図18のグラフを利用して定式化する。図18のグラフはセミマルコフチェインと呼ばれる。前例のマルコフチェインと異なる点は、テキストコードyだけでなく、単文字パタンをなす準文字パタンの組み合わせが未知という点である。よって、本例では準文字パタンの開始番号bと終了番号eも探索の対象に含まれる。そこで、図18の例に示す通り、n番目の単文字をなすグループをs={y,b,e}とする。評価関数は、E(sn−1,s,X,Θ)である。文字列認識は、準文字パタン列Xに対して、最適なグループ列S={s,…,s}を探索する処理といえる。
ただし、文字列が単文字(すなわち、N=1)の可能性があるため、図18の例に示す通り、仮想的なグループs={y,0,0}を設定する必要がある。これを仮想グループと呼び、図では記号「●」で示す。なお、仮想グループは既知の定数である。
単文字領域が未知の場合は、既知の場合と比較して複雑ではあるが、最適なグループ列の探索は、図15に示す例と同様に、max−sum algorithmによって高速に解けることが知られている。
以上に説明したように、前提となる技術は、隣り合う単文字どうしから定義される評価値に基づいて、最適な文字列を探索する技術である。
特許文献1、2や非特許文献1に示される技術は、単一の評価関数を利用する。評価関数E(yn−1,y,X,Θ)は、隣り合う単文字パタンどうしに関する設計、又は、学習によって推定される。しかし、実際に認識対象の文字列パタンの中には必ずしも隣り合わない単文字パタンが存在する。それは以下の3つである。
(1)始端
(2)終端
(3)改行部分
まず、(1)について説明する。先行方式は、図18の例に示す仮想ノードにより、始端を評価している。しかし、仮想ノードは発見的又は経験的な手法で設定される定数である。例えば、全ての単文字パタンのサイズの平均から仮想ノードである単文字パタンのサイズを決定し、文字コードとして“bos”を設定する。しかし、以上のように設定された仮想ノードは本来存在しないものであるため、認識にとってはノイズとなり、認識性能を低下させる要因となる。
次に、(2)について説明する。先行方式は終端を評価する仕組みが無い。なお、最も単純には、(1)と同様に仮想ノードを利用する対策が考えられるが、この場合は(1)と同様の問題を持つ。
最後に(3)について説明する。先行方式には改行部分を評価する仕組みが無い。例えば、図19の例に示すような一見2つの文字列パタンを持つ入力に対して、図20の例に示すように、2つの互いに独立な文字列認識グラフを想定し、それぞれを認識する。しかし、図19の例において「神奈川県足柄上郡」は住所であり「県」と「足」の部分は、テキストコードとして高い出現頻度を持つことが期待される。先行方式では、「県」と「足」の関係を評価する仕組みが無く、これは認識性能を低下させる要因となる。
また、文字列の始端/終端/改行部分と、文字列の途中とで、最適な評価関数と評価パラメタが異なる場合が考えられる。例えば、あるテキストコードで開始/終了/改行しやすい(例えば、「、」や「。」、等)出現頻度が高い、形状的な特徴が異なる場合(例えば、始端、終端、改行部分では文字を丁寧に筆記する、等)などが考えられる。しかし、先行方式はこれら全ての部分で単一の評価関数と評価パラメタを利用する。これは、認識率を低下させる要因となる。
本実施の形態は、始端/終端/改行部分において、専用の評価関数と評価パラメタを利用する。この様子を図21の例に示す。
図21の例において、始端/終端/改行部分以外の部分において用いるE(sn−1,s,X,Θ)は先行方式と同一の評価関数と評価パラメタである。これらによって評価値を得ることを、以下では連接評価と呼ぶ。
また、Ebeg(s,X,Θbeg)は始端専用の評価関数と評価パラメタである。始端グループsを入力とする。また、仮想ノードは不要である。これらによって評価値を得ることを、以下では始端評価と呼ぶ。
また、Eend(s,X,Θend)は終端専用の評価関数と評価パラメタである。終端グループsを入力とする。また、仮想ノードは不要である。これらによって評価値を得ることを、以下では終端評価と呼ぶ。
また、Eret(sn’−1,sn’,X,Θret)は改行専用の評価関数と評価パラメタである。改行直前グループsn’−1と改行直後グループsn’を入力とする。これらによって評価値を得ることを、以下では改行評価と呼ぶ。
本実施の形態によれば、これら専用評価関数と評価パラメタによって、仮想ノードが不要となる。また、改行が評価される。さらに、各部分で適した評価関数と評価パラメタが設定可能である。
なお、本実施の形態における、最適経路の探索は数式2、数式3の通りである。なお、この場合も、max−sum algorithmによって高速に解ける。
Figure 2016009235
Figure 2016009235
なお、準文字領域切り出し、単文字識別、自然言語評価は、既存の手法を用いればよい。
また、連接評価は、特許文献1、2や非特許文献1に示される技術の特徴量抽出や評価関数を利用すればよい。例えば、数式4、数式5、数式6のような例がある。
Figure 2016009235
Figure 2016009235
Figure 2016009235
なお、
Figure 2016009235
は、前述の評価パラメタΘである。また、K,Lは、評価パラメタのサイズである。また、f(sn−1,s,X)は、特徴量抽出関数である。また、σ(・)は、シグモイド関数等を用いればよい。
それぞれ、数式4は線形な評価関数(いわゆる一層のニューロ関数)、数式5、数式6は非線形な評価関数(いわゆる2層以上のニューロ関数)である。うち、数式6は評価パラメタを異なるテキストコード(y)間で共有する評価関数である。
さらに、始端評価、終端評価、改行評価は、連接評価が参照する特徴量のうち、始端、終端、改行で定義できないものを取り除けばよい。又は、連接評価にない特徴量を設定してもよい。数式4、数式5、数式6と対応するものとして、例えば、数式8、数式9、数式10のような例がある。
Figure 2016009235
Figure 2016009235
Figure 2016009235
なお、
Figure 2016009235
は、評価パラメタΘbegである。また、
Figure 2016009235
は、評価パラメタのサイズである。また、
Figure 2016009235
は、特徴量抽出関数である。なお、数式8、数式9、数式10は、始端評価に関する評価関数であるが、終端評価、改行評価に関する評価関数は、「beg」の部分を「end」、「ret」とすればよい。
特徴量抽出関数は、準文字パタン列Xから特徴量を取り出す。特徴量は、単文字識別機が出力する確信度や、連続する2つのグループの間隙の大きさや、グループの大きさやその差等の形状情報、又は、n−gramと一般に呼ばれるグループに割り当てられたテキストコードの出現頻度とすればよい。
また、最適な評価パラメタ{Θ,Θbeg,Θend,Θret}を学習により推定することが可能である。これは、特許文献1、非特許文献1〜4に示される技術の機械学習手法を利用すればよい。
また、本実施の形態は手書き又は活字に依存しないで適用可能である。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。本実施の形態は、文字列認識技術に属する。文字列認識とは、画像又はストロークである文字列パタンを対象として、その文字列パタンに対応するテキストコードを出力する処理である。
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
第1の実施の形態である情報処理装置は、認識結果を出力するものであって、図1の例に示すように、文字列認識ラティス受付モジュール110、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール140、連接評価モジュール150、始端評価パラメタ記憶モジュール160、始端評価モジュール170、認識結果出力モジュール180を有している。
文字列認識ラティス受付モジュール110は、最適経路選択モジュール120と接続されており、最適経路選択モジュール120に文字列認識ラティス115を渡す。文字列認識ラティス受付モジュール110は、文字列から複数の切り出し位置候補によって切り出された認識対象とその認識対象の認識結果を受け付ける。ここで、「認識対象」(以下、単文字パタンともいう)は、切り出し位置候補によって切り出された1つの文字となり得る対象であって、文字認識の対象となるものである。なお、単文字パタンには準文字パタンを含んでもよい。この準文字パタンの場合は、切り出し位置によっては、必ずしも1つの文字として成り立っているとは限らない。例えば、文字の一部分(偏、旁等)であってもよいし、1文字に他の文字(又は一部分)が付加されたものであってもよいし、文字の一部分に他の文字(又は一部分)が付加されたもの等であってもよい。また、認識対象は、画像(文字画像)であってもよいし、1つ以上のストロークから構成されているストローク群(文字ストローク群)であってもよい。具体的には、文字列認識ラティス受付モジュール110は、前述した文字列認識ラティス115を受け付け、その文字列認識ラティス115を最適経路選択モジュール120に渡す。この文字列認識ラティス115は、認識対象とその認識対象の認識結果を少なくとも含む。認識対象としては、認識対象そのものである文字画像又は文字ストローク群である。また、「複数の切り出し位置候補」とは、文字列内の文字を切り出すための位置であって、確定したものではなく、複数の候補がある。したがって、1つの文字列に対して、複数の切り出し位置候補があり、さらに、その切り出し位置候補によって切り出された認識対象には、複数の認識結果がある。
最適経路選択モジュール120は、文字列認識ラティス受付モジュール110、評価種判別モジュール130、認識結果出力モジュール180と接続されており、文字列認識ラティス受付モジュール110から文字列認識ラティス115を受け取り、評価種判別モジュール130に評価グループ122を渡し、評価種判別モジュール130から評価値138を受け取り、認識結果出力モジュール180に最適経路177を渡す。最適経路選択モジュール120は、文字列認識ラティス115内のグループを選択して、評価グループ122として、評価種判別モジュール130に渡す。評価グループ122は、前述したようにs={y,b,e}である。そして、評価グループ122に対する評価値138を、評価種判別モジュール130から受け取る。これらの処理を、文字列認識ラティス115内の全てのグループに対して行う。
そして、最適経路選択モジュール120は、連接評価モジュール150による評価結果(評価値155)と始端評価モジュール170による評価結果(評価値175)を用いて、文字列としての評価値が最大又は最小となる、切り出し位置と認識結果を認識結果出力モジュール180に渡す。具体的には、文字列認識ラティス115の経路内の評価グループ122に対応する評価値138の合計値が最大又は最小となる経路を最適経路177として認識結果出力モジュール180に渡す。もちろんのことながら、評価グループ122には、切り出し位置と認識結果が含まれている。より具体的には、最適経路選択モジュール120は、文字列認識ラティス115に対して、数式1、数式2、数式3を解き、最適経路177を出力する。
評価種判別モジュール130は、最適経路選択モジュール120、連接評価モジュール150、始端評価モジュール170と接続されている。評価種判別モジュール130は、評価グループ122は連接評価をすべきグループかそれ以外かを判別し、評価を切り替えて評価値を得る。つまり、評価種判別モジュール130は、最適経路選択モジュール120から評価グループ122を受け取り、評価グループ122が始端であれば始端評価モジュール170に評価グループ134(評価グループ122)を渡し、始端評価モジュール170から評価値175を受け取り、最適経路選択モジュール120に評価値138(評価値175)を渡す。評価グループ122が始端であるか否かは、その文字列における最初の準文字パタンを含んでいるか否かを判断すればよい。また、評価グループ122が始端以外であれば連接評価モジュール150に評価グループ132(評価グループ122)を渡し、連接評価モジュール150から評価値155を受け取り、最適経路選択モジュール120に評価値138(評価値155)を渡す。なお、終端、改行については、従来技術(仮想グループを設定する等)を用いてもよい。評価グループ122が始端であるか否かは、その文字列における最初の準文字パタンを含んでいるか否かを判断すればよい。
連接評価モジュール150は、評価種判別モジュール130、連接評価パラメタ記憶モジュール140と接続されており、評価種判別モジュール130から評価グループ132を受け取り、評価種判別モジュール130に評価値155を渡す。連接評価モジュール150は、連接している2つの認識対象と認識結果に対して、前記文字列内のつながりに関する評価を行う。具体的には、連接評価モジュール150は、連接している2つの認識対象と認識結果の特徴量の抽出を行い、その特徴量を用いて文字列内のつながりに関する評価を行う。評価値を算出するためにパラメタを用いる。
連接評価パラメタ記憶モジュール140は、連接評価モジュール150と接続されている。連接評価パラメタ記憶モジュール140は、連接評価モジュール150によって評価値が算出される際に用いられるパラメタを記憶している。
始端評価モジュール170は、評価種判別モジュール130、始端評価パラメタ記憶モジュール160と接続されており、評価種判別モジュール130から評価グループ134を受け取り、評価種判別モジュール130に評価値175を渡す。始端評価モジュール170は、文字列の始端の認識対象と認識結果に対して、その文字列の始端に関する評価を行う。具体的には、始端評価モジュール170は、始端の認識対象と認識結果の特徴量の抽出を行い、その特徴量を用いて文字列の始端に関する評価を行う。評価値を算出するためにパラメタを用いる。ここで抽出する特徴量は、連接評価モジュール150が抽出する特徴量とは異なる特徴量である。また、評価値を算出するためのパラメタは、連接評価モジュール150が評価値を算出するために用いるパラメタとは異なるパラメタである。ここで「異なる」とは、「全ての要素が同一」ではないことをいい、一部の要素が同一であってもよい。つまり、一方の要素は他方の要素全てを含んでいても他方の要素以外の要素を含んでいれば「異なる」こととなり、一方の要素は他方の要素の一部を含んでいるが全てを含んでいなければ「異なる」こととなる。
始端評価パラメタ記憶モジュール160は、始端評価モジュール170と接続されている。始端評価パラメタ記憶モジュール160は、始端評価モジュール170によって評価値が算出される際に用いられるパラメタを記憶している。
認識結果出力モジュール180は、最適経路選択モジュール120と接続されており、最適経路選択モジュール120から最適経路177を受け取る。認識結果出力モジュール180は、得られた最適経路177を本実施の形態による出力に変換する。例えば、テキストコード列への変換や、認識に利用した各文字の単文字識別の確度を含むテキストコード列への変換等がある。出力するとは、例えば、ディスプレイ等の表示装置に表示すること、文書記憶装置へ認識対象の文書画像等に対応させてテキストコード列を書き込むこと、メモリーカード等の記憶媒体に記憶すること、他の情報処理装置(翻訳処理装置等)へ渡すこと等が含まれる。
図2は、第2の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、前述した実施の形態と同種の部位には同一符号を付し重複した説明を省略する(以下同じ)。
第2の実施の形態は、文字列認識ラティス受付モジュール110、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール140、連接評価モジュール150、終端評価パラメタ記憶モジュール260、終端評価モジュール270、認識結果出力モジュール180を有している。
評価種判別モジュール130は、最適経路選択モジュール120、連接評価モジュール150、終端評価モジュール270と接続されている。評価種判別モジュール130は、評価グループ122は連接評価をすべきグループかそれ以外かを判別し、評価を切り替えて評価値を得る。つまり、評価種判別モジュール130は、最適経路選択モジュール120から評価グループ122を受け取り、評価グループ122が終端であれば終端評価モジュール270に評価グループ134(評価グループ122)を渡し、終端評価モジュール270から評価値275を受け取り、最適経路選択モジュール120に評価値138(評価値275)を渡す。評価グループ122が終端であるか否かは、その文字列における最後の準文字パタンを含んでいるか否かを判断すればよい。また、評価グループ122が終端以外であれば連接評価モジュール150に評価グループ132(評価グループ122)を渡し、連接評価モジュール150から評価値155を受け取り、最適経路選択モジュール120に評価値138(評価値155)を渡す。なお、始端、改行については、従来技術を用いてもよい。
終端評価モジュール270は、評価種判別モジュール130、終端評価パラメタ記憶モジュール260と接続されており、評価種判別モジュール130から評価グループ134を受け取り、評価種判別モジュール130に評価値275を渡す。終端評価モジュール270は、文字列の終端の認識対象と認識結果に対して、その文字列の終端に関する評価を行う。具体的には、終端評価モジュール270は、終端の認識対象と認識結果の特徴量の抽出を行い、その特徴量を用いて文字列の終端に関する評価を行う。評価値を算出するためにパラメタを用いる。ここで抽出する特徴量は、連接評価モジュール150が抽出する特徴量とは異なる特徴量を少なくとも含む。また、評価値を算出するためのパラメタは、連接評価モジュール150が評価値を算出するために用いるパラメタとは異なるパラメタを少なくとも含む。
終端評価パラメタ記憶モジュール260は、終端評価モジュール270と接続されている。終端評価パラメタ記憶モジュール260は、終端評価モジュール270によって評価値が算出される際に用いられるパラメタを記憶している。
図3は、第3の実施の形態の構成例についての概念的なモジュール構成図を示している。
第3の実施の形態は、文字列認識ラティス受付モジュール110、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール140、連接評価モジュール150、改行評価パラメタ記憶モジュール360、改行評価モジュール370、認識結果出力モジュール180を有している。
評価種判別モジュール130は、最適経路選択モジュール120、連接評価モジュール150、改行評価モジュール370と接続されている。評価種判別モジュール130は、評価グループ122は連接評価をすべきグループかそれ以外かを判別し、評価を切り替えて評価値を得る。つまり、評価種判別モジュール130は、最適経路選択モジュール120から評価グループ122を受け取り、評価グループ122が改行であれば改行評価モジュール370に評価グループ134(評価グループ122)を渡し、改行評価モジュール370から評価値375を受け取り、最適経路選択モジュール120に評価値138(評価値375)を渡す。評価グループ122が改行であるか否かは、複数の文字列の境界であるか否かを判断してもよいし、第1の文字列(例えば、1行目の文字列)における最後の準文字パタンを含んでいるか否かによって判断してもよいし、第2の文字列(例えば、2行目の文字列)における最初の準文字パタンを含んでいるか否かによって判断してもよいし、第1の文字列における最後の準文字パタンを含んでおり、第2の文字列における最初の準文字パタンを含んでいるか否かによって判断してもよいし、改行を示すテキストコード(改行コード)を含んでいるか否かによって判断してもよい。また、評価グループ122が改行以外であれば連接評価モジュール150に評価グループ132(評価グループ122)を渡し、連接評価モジュール150から評価値155を受け取り、最適経路選択モジュール120に評価値138(評価値155)を渡す。なお、始端、終端については、従来技術を用いてもよい。
改行評価モジュール370は、評価種判別モジュール130、改行評価パラメタ記憶モジュール360と接続されており、評価種判別モジュール130から評価グループ134を受け取り、評価種判別モジュール130に評価値375を渡す。改行評価モジュール370は、文字列の改行の認識対象と認識結果に対して、その文字列の改行に関する評価を行う。具体的には、改行評価モジュール370は、改行の認識対象と認識結果の特徴量の抽出を行い、その特徴量を用いて文字列の改行に関する評価を行う。評価値を算出するためにパラメタを用いる。ここで抽出する特徴量は、連接評価モジュール150が抽出する特徴量とは異なる特徴量を少なくとも含む。また、評価値を算出するためのパラメタは、連接評価モジュール150が評価値を算出するために用いるパラメタとは異なるパラメタを少なくとも含む。
改行評価パラメタ記憶モジュール360は、改行評価モジュール370と接続されている。改行評価パラメタ記憶モジュール360は、改行評価モジュール370によって評価値が算出される際に用いられるパラメタを記憶している。
図4は、第4の実施の形態の構成例についての概念的なモジュール構成図を示している。
第4の実施の形態は、文字列認識ラティス受付モジュール110、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール140、連接評価モジュール150、始端評価パラメタ記憶モジュール160、始端評価モジュール170、認識結果出力モジュール180、終端評価パラメタ記憶モジュール260、終端評価モジュール270、改行評価パラメタ記憶モジュール360、改行評価モジュール370を有している。
評価種判別モジュール130は、最適経路選択モジュール120、連接評価モジュール150、始端評価モジュール170、終端評価モジュール270、改行評価モジュール370と接続されている。評価種判別モジュール130は、評価グループ122は連接評価をすべきグループかそれ以外かを判別し、評価を切り替えて評価値を得る。つまり、評価種判別モジュール130は、最適経路選択モジュール120から評価グループ122を受け取り、評価グループ122が始端であれば始端評価モジュール170に評価グループ134(評価グループ122)を渡し、始端評価モジュール170から評価値175を受け取り、最適経路選択モジュール120に評価値138(評価値175)を渡す。また、評価グループ122が終端であれば終端評価モジュール270に評価グループ134(評価グループ122)を渡し、終端評価モジュール270から評価値275を受け取り、最適経路選択モジュール120に評価値138(評価値275)を渡す。また、評価グループ122が改行であれば改行評価モジュール370に評価グループ134(評価グループ122)を渡し、改行評価モジュール370から評価値375を受け取り、最適経路選択モジュール120に評価値138(評価値375)を渡す。また、評価グループ122が始端、終端、改行以外であれば連接評価モジュール150に評価グループ132(評価グループ122)を渡し、連接評価モジュール150から評価値155を受け取り、最適経路選択モジュール120に評価値138(評価値155)を渡す。なお、始端評価パラメタ記憶モジュール160と始端評価モジュール170、終端評価パラメタ記憶モジュール260と終端評価モジュール270、改行評価パラメタ記憶モジュール360と改行評価モジュール370の組み合わせのうち、いずれか2つの組み合わせを用いてもよい。
図5、図6は、第4の実施の形態による処理例(最適経路探索の処理例)を示すフローチャートである。図5、図6はmax−sum algorithmを用いた処理例である。まず、図5の例に示す処理を行い、続いて図6の例に示す処理を行うことにより、最適経路が得られる。
なお、図5、図6に示す処理例において、Sは最終出力である最適経路を表す。また、Mは準文字数を表す。また、beginning[m]はm番目の準文字で始まるグループの集合を表す。beginning[m][i]はそのi番目の要素を表す。また、beginning[m].size()はその数を表す。また、s.endはグループsの最後の準文字番号を表す。また、is_return(s,s’)はグループの組(s,s’)が改行であるか否かを判別する。なお、これらは文字列認識ラティスに予め記録される情報である。
また、energy_end(s)はグループsの終端評価を表す。また、energy_begin(s)はグループsの始端評価を表す。また、energy_return(s,s’)はグループの組(s,s’)の改行評価を表す。また、energy(s,s’)はグループの組(s,s’)の連接評価を表す。
なお、第1の実施の形態、第2の実施の形態、第3の実施の形態においても、図5、図6の処理フローの部分を適用すればよい。
ステップS502では、mにMを代入する。
ステップS504では、m>0であるか否かを判断し、m>0である場合はステップS506へ進み、それ以外の場合は処理を終了する(ステップS599)。
ステップS506では、iに1を代入する。
ステップS508では、i<beginning[m].size()+1であるか否かを判断し、i<beginning[m].size()+1である場合はステップS510へ進み、それ以外の場合はステップS538へ進む。
ステップS510では、sにbeginning[m][i]を代入する。
ステップS512では、s.end=Mであるか否かを判断し、s.end=Mである場合はステップS534へ進み、それ以外の場合はステップS514へ進む。
ステップS514では、s.epropにfloat_maxを代入し、s.sprevにNULLを代入する。
ステップS516では、jに1を代入する。
ステップS518では、j<beginning[s.end+1].size()+1であるか否かを判断し、j<beginning[s.end+1].size()+1である場合はステップS520へ進み、それ以外の場合はステップS536へ進む。
ステップS520では、s’にbeginning[s.end+1][j]を代入する。
ステップS522では、Is_return(s,s’)であるか否かを判断し、Is_return(s,s’)である場合はステップS524へ進み、それ以外の場合はステップS526へ進む。
ステップS524では、eにenergy_return(s,s’)を代入する。
ステップS526では、eにenergy(s,s’)を代入する。
ステップS528では、s.eprop>s’.e+eであるか否かを判断し、s.eprop>s’.e+eである場合はステップS530へ進み、それ以外の場合はステップS532へ進む。
ステップS530では、s.epropにs’.eprop+eを代入し、s.sprevにs’を代入する。
ステップS532では、jにj+1を代入し、ステップS518に戻る。
ステップS534では、s.epropにenergy_end(s)を代入し、s.sprevにNULLを代入する。
ステップS536では、iにi+1を代入し、ステップS508に戻る。
ステップS538では、mにm−1を代入し、ステップS504に戻る。
なお、ステップS512でyesとなる場合は、対象のグループが終端である場合である。ステップS522でyesとなる場合は、対象のグループが改行である場合である。
図6は、第4の実施の形態による処理例を示すフローチャートである。
ステップS602では、eminにfloat_maxを代入し、sminにNULLを代入する。
ステップS604では、i<beginning[0].size()+1であるか否かを判断し、i<beginning[0].size()+1である場合はステップS606へ進み、それ以外の場合はステップS614へ進む。
ステップS606では、sにbeginning[0][i]を代入する。
ステップS608では、emin>energy_begin(s)+s.epropであるか否かを判断し、emin>energy_begin(s)+s.epropである場合はステップS610へ進み、それ以外の場合はステップS612へ進む。
ステップS610では、eminにs.epropを代入し、sminにsを代入する。
ステップS612では、iにi+1を代入し、ステップS604に戻る。
ステップS614では、smin≠NULLであるか否かを判断し、smin≠NULLである場合はステップS616へ進み、それ以外の場合は処理を終了する(ステップS699)。
ステップS616では、S.push(smin)とする。
ステップS618では、sminにs.sprevを代入し、ステップS614に戻る。
なお、ステップS608は、対象のグループが改行であるか否かの判断を行っている。
図7は、第5の実施の形態の構成例についての概念的なモジュール構成図を示している。第5の実施の形態は、評価パラメタを共有するものである。本実施の形態は、省メモリ化を行う場合に用いられる。
第5の実施の形態は、文字列認識ラティス受付モジュール110、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール740、連接評価モジュール150、始端評価モジュール170、認識結果出力モジュール180を有している。
連接評価モジュール150は、評価種判別モジュール130、連接評価パラメタ記憶モジュール740と接続されており、評価種判別モジュール130から評価グループ132を受け取り、評価種判別モジュール130に評価値155を渡す。
連接評価パラメタ記憶モジュール740は、連接評価モジュール150、始端評価モジュール170と接続されている。
始端評価モジュール170は、評価種判別モジュール130、連接評価パラメタ記憶モジュール740と接続されており、評価種判別モジュール130から評価グループ134を受け取り、評価種判別モジュール130に評価値175を渡す。
例えば、始端評価のための特徴量が、連接評価のための特徴量の部分であれば、連接評価パラメタの一部を参照する。例えば、数式14のように単一グループの特徴量(数式15)と隣り合うグループの特徴量(数式16)から連接評価のための特徴量(数式17)を作成し、同様に数式18のように評価パラメタ(数式19)を作成する。
Figure 2016009235
Figure 2016009235
Figure 2016009235
Figure 2016009235
Figure 2016009235
Figure 2016009235
このうえで、始端評価のための特徴量と評価パラメタを数式20と数式21のように共有する。ただし、数式18と数式21は数式4と数式8に基づくものである。なお、数式14の右辺の上の要素は1つの準文字パタンだけの特徴量であり、下の要素は2つの準文字パタンによる特徴量である。
Figure 2016009235
Figure 2016009235
なお、始端に限らず、終端、改行の評価パラメタとの共有が混在していてもよい。
つまり、図7の例に示す始端評価モジュール170を終端評価モジュール270又は改行評価モジュール370としてもよいし、図4の例に示す始端評価パラメタ記憶モジュール160、終端評価パラメタ記憶モジュール260、改行評価パラメタ記憶モジュール360のうちの2つ以上を連接評価パラメタ記憶モジュール140とともに1つの連接評価パラメタ記憶モジュール740としてもよい。
図8は、第6の実施の形態の構成例についての概念的なモジュール構成図を示している。
第6の実施の形態は、画像受付モジュール810、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール140、連接評価モジュール150、始端評価パラメタ記憶モジュール160、始端評価モジュール170、認識結果出力モジュール180を有している。文字列画像を認識するようにしたものであり、第1の実施の形態における文字列を文字列の画像として、認識対象を文字の画像としたものである。つまり、第1の実施の形態の文字列認識ラティス受付モジュール110を画像受付モジュール810、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850としたものである。具体的には、1行毎の文字画像認識を行うものである。なお、始端評価に限らず、終端評価、改行評価を行ってもよいし、これらが混在していてもよい。つまり、第2〜第5の実施の形態についても、文字列認識ラティス受付モジュール110を画像受付モジュール810、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850としてもよい。
画像受付モジュール810は、準文字画像切り出しモジュール820と接続されており、準文字画像切り出しモジュール820に文字列画像815を渡す。画像受付モジュール810は、文字列画像815を受け付け、その文字列画像815を準文字画像切り出しモジュール820に渡す。なお、文字列画像815は複数あってもよい。
準文字画像切り出しモジュール820は、画像受付モジュール810、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850と接続されており、画像受付モジュール810から文字列画像815を受け取り、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850に準文字画像825を渡す。準文字画像切り出しモジュール820は、文字列画像815から切り出し位置候補を検出する。つまり、文字列画像815を準文字画像825に分割する。そして、準文字画像825を単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850に渡す。
単文字領域作成モジュール830は、準文字画像切り出しモジュール820、単文字識別モジュール840、文字列認識ラティス受付モジュール850と接続されており、準文字画像切り出しモジュール820から準文字画像825を受け取り、単文字識別モジュール840、文字列認識ラティス受付モジュール850に単文字領域835を渡す。単文字領域作成モジュール830は、隣り合う準文字画像825を組み合わせて単文字領域835(単独の準文字画像825を示す単文字領域835であってもよい)を生成して、その単文字領域835を単文字識別モジュール840、文字列認識ラティス受付モジュール850に渡す。
単文字識別モジュール840は、準文字画像切り出しモジュール820、単文字領域作成モジュール830、文字列認識ラティス受付モジュール850と接続されており、準文字画像切り出しモジュール820から準文字画像825を、単文字領域作成モジュール830から単文字領域835を受け取り、文字列認識ラティス受付モジュール850にテキストコード・特徴量845を渡す。単文字識別モジュール840は、準文字画像切り出しモジュール820によって検出された切り出し位置候補によって切り出される文字の画像を識別する。つまり、単文字領域作成モジュール830による処理結果である単文字領域835内の準文字画像825を文字認識する。例えば、単文字領域835と準文字画像825の組み合わせから作成される単文字画像の識別結果(テキストコードと確度等の特徴量(テキストコード・特徴量845))を出力する。
文字列認識ラティス受付モジュール850は、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、最適経路選択モジュール120と接続されており、準文字画像切り出しモジュール820から準文字画像825を、単文字領域作成モジュール830から単文字領域835を、単文字識別モジュール840からテキストコード・特徴量845を受け取り、最適経路選択モジュール120に文字列認識ラティス115を渡す。文字列認識ラティス受付モジュール850は、文字の画像(準文字画像825、単文字領域835)と単文字識別モジュール840による識別結果(テキストコード・特徴量845)を受け付ける。
最適経路選択モジュール120は、文字列認識ラティス受付モジュール850、評価種判別モジュール130、認識結果出力モジュール180と接続されており、文字列認識ラティス受付モジュール850から文字列認識ラティス115を受け取り、評価種判別モジュール130に評価グループ122を渡し、評価種判別モジュール130から評価値138を受け取り、認識結果出力モジュール180に最適経路177を渡す。
なお、始端と終端は、文字列の始端と終端として得られる。また、改行は、文字列認識ラティス作成モジュール850が判別すればよい。例えば、複数与えられた文字列画像815どうしの境界を改行とすればよい。
図9は、第7の実施の形態の構成例についての概念的なモジュール構成図を示している。
第7の実施の形態は、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール140、連接評価モジュール150、始端評価パラメタ記憶モジュール160、始端評価モジュール170、認識結果出力モジュール180、ストローク受付モジュール910、準文字ストローク切り出しモジュール920、単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950を有している。文字列ストロークを認識するようにしたものであり、第1の実施の形態における文字列を文字列のストロークとして、認識対象を文字のストロークとしたものである。つまり、第1の実施の形態の文字列認識ラティス受付モジュール110をストローク受付モジュール910、準文字ストローク切り出しモジュール920、単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950としたものである。具体的には、1行毎のオンライン文字認識を行うものである。なお、始端評価に限らず、終端評価、改行評価を行ってもよいし、これらが混在していてもよい。つまり、第2〜第5の実施の形態についても、文字列認識ラティス受付モジュール110をストローク受付モジュール910、準文字ストローク切り出しモジュール920、単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950としてもよい。
ストローク受付モジュール910は、準文字ストローク切り出しモジュール920と接続されており、準文字ストローク切り出しモジュール920に文字列ストローク915を渡す。なお、文字列ストローク915は複数あってもよい。
準文字ストローク切り出しモジュール920は、ストローク受付モジュール910、単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950と接続されており、ストローク受付モジュール910から文字列ストローク915を受け取り、単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950に準文字ストローク925を渡す。準文字ストローク切り出しモジュール920は、文字列ストローク915から切り出し位置候補を検出する。つまり、文字列ストローク915を準文字ストローク925に分割する。そして、準文字ストローク925を単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950に渡す。
単文字領域作成モジュール930は、準文字ストローク切り出しモジュール920、単文字識別モジュール940、文字列認識ラティス受付モジュール950と接続されており、準文字ストローク切り出しモジュール920から準文字ストローク925を受け取り、単文字識別モジュール940、文字列認識ラティス受付モジュール950に単文字領域935を渡す。単文字領域作成モジュール930は、隣り合う準文字ストローク925を組み合わせて単文字領域935(単独の準文字ストローク925を示す単文字領域935であってもよい)を生成して、その単文字領域935を単文字識別モジュール940、文字列認識ラティス受付モジュール950に渡す。
単文字識別モジュール940は、準文字ストローク切り出しモジュール920、単文字領域作成モジュール930、文字列認識ラティス受付モジュール950と接続されており、準文字ストローク切り出しモジュール920から準文字ストローク925を、単文字領域作成モジュール930から単文字領域935を受け取り、文字列認識ラティス受付モジュール950にテキストコード・特徴量945を渡す。単文字識別モジュール940は、準文字ストローク切り出しモジュール920によって検出された切り出し位置候補によって切り出される文字のストロークを識別する。つまり、単文字領域作成モジュール930による処理結果である単文字領域935内の準文字ストローク925を文字認識する。例えば、単文字領域935と準文字画像925の組み合わせから作成される単文字画像の識別結果(テキストコードと確度等の特徴量(テキストコード・特徴量945))を出力する。
文字列認識ラティス受付モジュール950は、準文字ストローク切り出しモジュール920、単文字領域作成モジュール930、単文字識別モジュール940、最適経路選択モジュール120と接続されており、準文字ストローク切り出しモジュール920から準文字ストローク925を、単文字領域作成モジュール930から単文字領域935を、単文字識別モジュール940からテキストコード・特徴量945を受け取り、最適経路選択モジュール120に文字列認識ラティス115を渡す。文字列認識ラティス受付モジュール950は、文字の画像(準文字ストローク925、単文字領域935)と単文字識別モジュール940による識別結果(テキストコード・特徴量945)を受け付ける。
最適経路選択モジュール120は、文字列認識ラティス受付モジュール950、評価種判別モジュール130、認識結果出力モジュール180と接続されており、文字列認識ラティス受付モジュール950から文字列認識ラティス115を受け取り、評価種判別モジュール130に評価グループ122を渡し、評価種判別モジュール130から評価値138を受け取り、認識結果出力モジュール180に最適経路177を渡す。
なお、始端と終端は、文字列の始端と終端として得られる。また、改行は、文字列認識ラティス作成モジュール950が判別すればよい。例えば、複数与えられた文字列ストローク915どうしの境界を改行とすればよい。
図10は、第8の実施の形態の構成例についての概念的なモジュール構成図を示している。
第8の実施の形態は、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール140、連接評価モジュール150、始端評価パラメタ記憶モジュール160、始端評価モジュール170、認識結果出力モジュール180、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850、画像受付モジュール1010、文字列画像切り出しモジュール1020を有している。文書画像を認識するようにしたものであり、第6の実施の形態の画像受付モジュール810を画像受付モジュール1010、文字列画像切り出しモジュール1020としたものである。なお、始端評価に限らず、終端評価、改行評価を行ってもよいし、これらが混在していてもよい。つまり、第2〜第5の実施の形態についても、文字列認識ラティス受付モジュール110を画像受付モジュール1010、文字列画像切り出しモジュール1020、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850としてもよい。
画像受付モジュール1010は、文字列画像切り出しモジュール1020と接続されており、文字列画像切り出しモジュール1020に文書画像1015を渡す。
文字列画像切り出しモジュール1020は、画像受付モジュール1010、準文字画像切り出しモジュール820と接続されており、画像受付モジュール1010から文書画像1015を受け取り、準文字画像切り出しモジュール820に文字列画像815を渡す。文字列画像切り出しモジュール1020は、文書画像1015から文字列画像815へ分割する。
準文字画像切り出しモジュール820は、文字列画像切り出しモジュール1020、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850と接続されており、文字列画像切り出しモジュール1020から文字列画像815を受け取り、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850に準文字画像825を渡す。
なお、第8の実施の形態について、文書の画像ではなく、文書のストロークを認識するようにしてもよい。つまり、第7の実施の形態のストローク受付モジュール910を文書ストローク受付モジュール(画像受付モジュール1010に相当)、文字列ストローク切り出しモジュール(文字列画像切り出しモジュール1020に相当)としてもよい。具体的には、文書毎のオンライン文字認識を行うものである。文書ストローク受付モジュールは、文書のストロークを受け付ける。文字列ストローク切り出しモジュールは、文書のストロークから文字列のストロークへ分割する。なお、始端評価に限らず、終端評価、改行評価を行ってもよいし、これらが混在していてもよい。つまり、第2〜第5の実施の形態についても、文字列認識ラティス受付モジュール110を文書ストローク受付モジュール、文字列ストローク切り出しモジュール、準文字ストローク切り出しモジュール920、単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950としてもよい。準文字ストローク切り出しモジュール920は、文字列ストローク切り出しモジュールによって分割された文字列のストロークを対象として、切り出し位置候補を検出する。
図11は、第9の実施の形態の構成例についての概念的なモジュール構成図を示している。
第9の実施の形態は、最適経路選択モジュール120、評価種判別モジュール130、連接評価パラメタ記憶モジュール140、連接評価モジュール150、始端評価パラメタ記憶モジュール160、始端評価モジュール170、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850、画像受付モジュール1010、帳票情報受付モジュール1110、文字列画像切り出しモジュール1120、認識結果出力モジュール1180を有している。帳票に関する情報を有している帳票画像を認識するようにしたものであり、第8の実施の形態の文字列画像切り出しモジュール1020を文字列画像切り出しモジュール1120とし、認識結果出力モジュール180を認識結果出力モジュール1180とし、帳票情報受付モジュール1110を付加したものである。なお、始端評価に限らず、終端評価、改行評価を行ってもよいし、これらが混在していてもよい。つまり、第2〜第5の実施の形態についても、文字列認識ラティス受付モジュール110を画像受付モジュール1010、帳票情報受付モジュール1110、文字列画像切り出しモジュール1120、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850とし、認識結果出力モジュール180を認識結果出力モジュール1180としてもよい。第9の実施の形態は、構造的な文字認識結果を得る場合に用いられる。例えば、「“名前”を筆記された部分の認識結果のみを収集する」といった処理を行う場合に用いられる。具体的には、属性情報1117が“名前”である欄の認識結果を認識結果出力モジュール1180が出力する。
画像受付モジュール1010は、文字列画像切り出しモジュール1120と接続されており、文字列画像切り出しモジュール1120に文書画像1015を渡す。
帳票情報受付モジュール1110は、文字列画像切り出しモジュール1120、認識結果出力モジュール1180と接続されており、文字列画像切り出しモジュール1120に位置情報1115を、認識結果出力モジュール1180に属性情報1117を渡す。文字列画像切り出しモジュール1120は、文書画像1015(帳票画像)について、文字列の位置を示す位置情報1115とその文字列の属性を示す属性情報1117を受け付ける。つまり、文書画像1015に対応する位置情報1115と属性情報1117を受け付ける。
文字列画像切り出しモジュール1120は、画像受付モジュール1010、準文字画像切り出しモジュール820、帳票情報受付モジュール1110と接続されており、画像受付モジュール1010から文書画像1015を、帳票情報受付モジュール1110から位置情報1115を受け取り、準文字画像切り出しモジュール820に文字列画像815を渡す。文字列画像切り出しモジュール1120は、位置情報1115を用いて、文書画像1015から文字列画像815への分割を行う。位置情報1115として、筆記すべき領域を示す情報(具体的には、領域を示す矩形の対角の座標情報)等がある。
準文字画像切り出しモジュール820は、文字列画像切り出しモジュール1120、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850と接続されており、文字列画像切り出しモジュール1120から文字列画像815を受け取り、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850に準文字画像825を渡す。
最適経路選択モジュール120は、文字列認識ラティス受付モジュール850、評価種判別モジュール130、認識結果出力モジュール1180と接続されており、文字列認識ラティス受付モジュール850から文字列認識ラティス115を受け取り、評価種判別モジュール130に評価グループ122を渡し、評価種判別モジュール130から評価値138を受け取り、認識結果出力モジュール1180に最適経路177を渡す。
認識結果出力モジュール1180は、帳票情報受付モジュール1110、最適経路選択モジュール120と接続されており、帳票情報受付モジュール1110から属性情報1117を、最適経路選択モジュール120から最適経路177を受け取る。認識結果出力モジュール1180は、位置情報1115に対応する切り出し位置と認識結果に対して、その位置情報に対応する属性情報1117を付与して出力する。例えば、テキストコードに属性として“名前”を付加して出力すること等を行う。
なお、第9の実施の形態について、文書の画像ではなく、文書のストロークを認識するようにしてもよい。つまり、第7の実施の形態のストローク受付モジュール910を文書ストローク受付モジュール(画像受付モジュール1010に相当)、帳票情報受付モジュール1110、文字列ストローク切り出しモジュール(文字列画像切り出しモジュール1120に相当)とし、認識結果出力モジュール180を認識結果出力モジュール1180としてもよい。具体的には、帳票に関する情報を有している帳票毎のオンライン文字認識を行うものである。文書ストローク受付モジュールは、文書のストロークを受け付ける。文字列ストローク切り出しモジュールは、帳票情報受付モジュール1110からの位置情報1115を用いて文書のストロークから文字列のストロークへ分割する。なお、始端評価に限らず、終端評価、改行評価を行ってもよいし、これらが混在していてもよい。つまり、第2〜第5の実施の形態についても、文字列認識ラティス受付モジュール110を文書ストローク受付モジュール、帳票情報受付モジュール1110、文字列ストローク切り出しモジュール、準文字ストローク切り出しモジュール920、単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950とし、認識結果出力モジュール180を認識結果出力モジュール1180としてもよい。準文字ストローク切り出しモジュール920は、文字列ストローク切り出しモジュールによって分割された文字列のストロークを対象として、切り出し位置候補を検出する。
図22を参照して、本実施の形態の情報処理装置のハードウェア構成例について説明する。図22に示す構成は、例えばパーソナルコンピュータ(PC)等によって構成されるものであり、スキャナ等のデータ読み取り部2217と、プリンタ等のデータ出力部2218を備えたハードウェア構成例を示している。
CPU(Central Processing Unit)2201は、前述の実施の形態において説明した各種のモジュール、すなわち、文字列認識ラティス受付モジュール110、最適経路選択モジュール120、評価種判別モジュール130、連接評価モジュール150、始端評価モジュール170、認識結果出力モジュール180、終端評価モジュール270、改行評価モジュール370、画像受付モジュール810、準文字画像切り出しモジュール820、単文字領域作成モジュール830、単文字識別モジュール840、文字列認識ラティス受付モジュール850、ストローク受付モジュール910、準文字ストローク切り出しモジュール920、単文字領域作成モジュール930、単文字識別モジュール940、文字列認識ラティス受付モジュール950、画像受付モジュール1010、文字列画像切り出しモジュール1020、帳票情報受付モジュール1110、文字列画像切り出しモジュール1120、認識結果出力モジュール1180等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
ROM(Read Only Memory)2202は、CPU2201が使用するプログラムや演算パラメタ等を格納する。RAM(Random Access Memory)2203は、CPU2201の実行において使用するプログラムや、その実行において適宜変化するパラメタ等を格納する。これらはCPUバス等から構成されるホストバス2204により相互に接続されている。
ホストバス2204は、ブリッジ2205を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス2206に接続されている。
キーボード2208、マウス等のポインティングデバイス2209は、操作者により操作される入力デバイスである。ディスプレイ2210は、液晶表示装置又はCRT(Cathode Ray Tube)等があり、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)2211は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU2201によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、文字列認識ラティス115、評価グループ122、評価値138、最適経路177、連接評価パラメタ、始端評価パラメタ、終端評価パラメタ、改行評価パラメタ、等が格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ2212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体2213に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース2207、外部バス2206、ブリッジ2205、及びホストバス2204を介して接続されているRAM2203に供給する。リムーバブル記録媒体2213も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート2214は、外部接続機器2215を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート2214は、インタフェース2207、及び外部バス2206、ブリッジ2205、ホストバス2204等を介してCPU2201等に接続されている。通信部2216は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部2217は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部2218は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
なお、図22に示す情報処理装置のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図22に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図22に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)等に組み込まれていてもよい。
なお、前述の各種の実施の形態を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に追加する、入れ替えをする等も含む)、また、各モジュールの処理内容として背景技術で説明した技術を採用してもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
110…文字列認識ラティス受付モジュール
115…文字列認識ラティス
120…最適経路選択モジュール
122…評価グループ
130…評価種判別モジュール
132…評価グループ
134…評価グループ
138…評価値
140…連接評価パラメタ記憶モジュール
150…連接評価モジュール
155…評価値
160…始端評価パラメタ記憶モジュール
170…始端評価モジュール
175…評価値
177…最適経路
180…認識結果出力モジュール
260…終端評価パラメタ記憶モジュール
270…終端評価モジュール
275…評価値
360…改行評価パラメタ記憶モジュール
370…改行評価モジュール
375…評価値
740…連接評価パラメタ記憶モジュール
810…画像受付モジュール
815…文字列画像
820…準文字画像切り出しモジュール
825…準文字画像
830…単文字領域作成モジュール
835…単文字領域
840…単文字識別モジュール
845…テキストコード・特徴量
850…文字列認識ラティス受付モジュール
910…ストローク受付モジュール
915…文字列ストローク
920…準文字ストローク切り出しモジュール
925…準文字ストローク
930…単文字領域作成モジュール
935…単文字領域
940…単文字識別モジュール
945…テキストコード・特徴量
950…文字列認識ラティス受付モジュール
1010…画像受付モジュール
1015…文書画像
1020…文字列画像切り出しモジュール
1110…帳票情報受付モジュール
1115…位置情報
1117…属性情報
1120…文字列画像切り出しモジュール
1180…認識結果出力モジュール

Claims (7)

  1. 文字列から複数の切り出し位置候補によって切り出された認識対象と該認識対象の認識結果を受け付ける受付手段と、
    連接している2つの認識対象と認識結果に対して、前記文字列内のつながりに関する評価を行う第1の評価手段と、
    前記文字列の始端、終端、改行、又はこれらの組み合わせの認識対象と認識結果に対して、該文字列の始端、終端、改行、又はこれらの組み合わせに関する評価を行う第2の評価手段と、
    前記第1の評価手段による評価結果と前記第2の評価手段による評価結果を用いて、前記文字列としての評価値が最大又は最小となる、切り出し位置と認識結果を出力する出力手段
    を具備することを特徴とする情報処理装置。
  2. 前記文字列は文字列の画像であり、前記認識対象は文字の画像であり、
    前記文字列の画像から切り出し位置候補を検出する検出手段と、
    前記検出手段によって検出された切り出し位置候補によって切り出される文字の画像を識別する識別手段
    をさらに具備し、
    前記受付手段は、前記文字の画像と前記識別手段による識別結果を受け付ける
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記文字列は文字列のストロークであり、前記認識対象は文字のストロークであり、
    前記文字列のストロークから切り出し位置候補を検出する検出手段と、
    前記検出手段によって検出された切り出し位置候補によって切り出される文字のストロークを識別する識別手段
    をさらに具備し、
    前記受付手段は、前記文字のストロークと前記識別手段による識別結果を受け付ける
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 文書の画像から前記文字列の画像へ分割する分割手段
    をさらに具備し、
    前記検出手段は、前記分割手段によって分割された文字列の画像を対象として、切り出し位置候補を検出する
    ことを特徴とする請求項2に記載の情報処理装置。
  5. 文書のストロークから前記文字列のストロークへ分割する分割手段
    をさらに具備し、
    前記検出手段は、前記分割手段によって分割された文字列のストロークを対象として、切り出し位置候補を検出する
    ことを特徴とする請求項3に記載の情報処理装置。
  6. 前記文書について、文字列の位置を示す位置情報と該文字列の属性を示す属性情報を受け付ける第2の受付手段
    をさらに具備し、
    前記分割手段は、前記位置情報を用いて分割を行い、
    前記出力手段は、前記位置情報に対応する切り出し位置と認識結果に対して、該位置情報に対応する属性情報を付与して出力する
    ことを特徴とする請求項4又は5に記載の情報処理装置。
  7. コンピュータを、
    文字列から複数の切り出し位置候補によって切り出された認識対象と該認識対象の認識結果を受け付ける受付手段と、
    連接している2つの認識対象と認識結果に対して、前記文字列内のつながりに関する評価を行う第1の評価手段と、
    前記文字列の始端、終端、改行、又はこれらの組み合わせの認識対象と認識結果に対して、該文字列の始端、終端、改行、又はこれらの組み合わせに関する評価を行う第2の評価手段と、
    前記第1の評価手段による評価結果と前記第2の評価手段による評価結果を用いて、前記文字列としての評価値が最大又は最小となる、切り出し位置と認識結果を出力する出力手段
    として機能させるための情報処理プログラム。
JP2014128027A 2014-06-23 2014-06-23 情報処理装置及び情報処理プログラム Pending JP2016009235A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014128027A JP2016009235A (ja) 2014-06-23 2014-06-23 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014128027A JP2016009235A (ja) 2014-06-23 2014-06-23 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2016009235A true JP2016009235A (ja) 2016-01-18

Family

ID=55226769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014128027A Pending JP2016009235A (ja) 2014-06-23 2014-06-23 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2016009235A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024018546A1 (ja) * 2022-07-19 2024-01-25 日本電信電話株式会社 情報処理装置、情報処理方法および情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024018546A1 (ja) * 2022-07-19 2024-01-25 日本電信電話株式会社 情報処理装置、情報処理方法および情報処理プログラム

Similar Documents

Publication Publication Date Title
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP6003705B2 (ja) 情報処理装置及び情報処理プログラム
JP2011146028A (ja) 文字認識方法及び文字認識装置
JP2012118650A (ja) 画像処理装置及び画像処理プログラム
JP2015169978A (ja) 画像処理装置及び画像処理プログラム
JP5343617B2 (ja) 文字認識プログラム、文字認識方法および文字認識装置
JP5942361B2 (ja) 画像処理装置及び画像処理プログラム
JP7172351B2 (ja) 文字列認識装置及び文字列認識プログラム
JP5672828B2 (ja) 画像処理装置及び画像処理プログラム
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
JP5365440B2 (ja) 画像処理装置及び画像処理プログラム
JP2016009235A (ja) 情報処理装置及び情報処理プログラム
JP6201838B2 (ja) 情報処理装置及び情報処理プログラム
JP6511942B2 (ja) 情報処理装置および情報処理プログラム
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
JP6547301B2 (ja) 情報処理装置及び情報処理プログラム
US20150043832A1 (en) Information processing apparatus, information processing method, and computer readable medium
JP5724341B2 (ja) 画像処理装置及び画像処理プログラム
JP2017010187A (ja) 画像処理装置及び画像処理プログラム
JP6260350B2 (ja) 画像処理装置及び画像処理プログラム
JP5821648B2 (ja) 情報処理装置及び情報処理プログラム
JP5949248B2 (ja) 情報処理装置及び情報処理プログラム
JP6003375B2 (ja) 画像処理装置及び画像処理プログラム
JP6260181B2 (ja) 情報処理装置及び情報処理プログラム
JP6281309B2 (ja) 画像処理装置及び画像処理プログラム