JP7021496B2

JP7021496B2 - 情報処理装置及びプログラム

Info

Publication number: JP7021496B2
Application number: JP2017198734A
Authority: JP
Inventors: 俊一木村; 聡久保田
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2022-02-17
Anticipated expiration: 2037-10-12
Also published as: JP2019074807A

Description

本発明は、情報処理装置及びプログラムに関する。

受付手段が、画像内の文字領域内にある文字画像についての文字情報を受け付け、認識手段が、文字領域内の文字画像を文字認識し、選択手段が、認識手段による複数の文字認識結果の中から、受付手段によって受け付けられた文字情報と合致する文字認識結果を選択する画像処理装置は、知られている（例えば、特許文献１参照）。

特開２０１３－２３８９９９号公報

ここで、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、例えばデータエントリ業務において入力画像に関連付けて入力された入力テキストと認識テキストとが同じ場合にのみ、文字認識の学習用データとする構成を採用したのでは、学習用データの量が少なくなるので、文字認識の認識率が低下する。

本発明の目的は、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストと認識テキストとが同じ場合にのみ、文字認識の学習用データとするよう構成された場合に比較して、学習用データの量を多くすることにある。

請求項１に記載の発明は、入力画像を取得する画像取得手段と、前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段とを備え、前記予め定められた条件は、前記認識テキストの表記を変換することにより得られた変換結果と、前記入力テキストとに関する第１の条件であることを特徴とする情報処理装置である。
請求項２に記載の発明は、前記第１の条件は、前記変換結果が前記入力テキストに合致するという条件であることを特徴とする請求項１に記載の情報処理装置である。
請求項３に記載の発明は、前記第１の条件は、前記変換結果が、前記入力画像の文字認識を行うことにより得られた複数の認識テキストの表記を変換することにより得られた複数の変換結果のうち、前記入力テキストに合致するものである、という条件であることを特徴とする請求項１に記載の情報処理装置である。
請求項４に記載の発明は、２以上の変換結果が前記入力テキストに合致する場合に、前記認識テキストは、当該２以上の変換結果を得るために表記が変換された２以上の認識テキストから認識確度に応じて選択されたものであることを特徴とする請求項３に記載の情報処理装置である。
請求項５に記載の発明は、入力画像を取得する画像取得手段と、前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段とを備え、前記予め定められた条件は、前記認識テキストと、前記入力テキストの表記を逆変換することにより得られた複数の逆変換結果とに関する第２の条件であることを特徴とする情報処理装置である。
請求項６に記載の発明は、前記第２の条件は、前記認識テキストが前記複数の逆変換結果の何れかに合致するという条件であることを特徴とする請求項５に記載の情報処理装置である。
請求項７に記載の発明は、前記第２の条件は、前記認識テキストが、前記入力画像の文字認識を行うことにより得られた複数の認識テキストのうち、前記複数の逆変換結果の何れかに合致するものである、という条件であることを特徴とする請求項５に記載の情報処理装置である。
請求項８に記載の発明は、２以上の認識テキストが前記複数の逆変換結果の何れかに合致する場合に、前記認識テキストは、当該２以上の認識テキストから認識確度に応じて選択されたものであることを特徴とする請求項７に記載の情報処理装置である。
請求項９に記載の発明は、前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、複数の文字列様式にそれぞれ合致する複数の文字列認識結果であることを特徴とする請求項３又は請求項７に記載の情報処理装置である。
請求項１０に記載の発明は、前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、当該文字列の各文字について当該各文字の文字認識を行うことにより得られた少なくとも１つの文字認識結果の何れかをそれぞれ含む複数の文字列認識結果であることを特徴とする請求項３又は請求項７に記載の情報処理装置である。
請求項１１に記載の発明は、前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、当該文字列の各文字について当該各文字の文字認識を行うことにより得られた少なくとも１つの文字認識結果の何れを含むかに応じてそれぞれに与えられた評価値に基づいて決定された複数の文字列認識結果であることを特徴とする請求項３又は請求項７に記載の情報処理装置である。
請求項１２に記載の発明は、入力画像を取得する画像取得手段と、前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段とを備え、前記出力手段は、前記入力画像と、前記認識テキストとを、当該認識テキストの認識確度が予め定められた閾値よりも小さい場合には、前記学習用データとして出力しないことを特徴とする情報処理装置である。
請求項１３に記載の発明は、入力画像を取得する画像取得手段と、前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、前記入力テキストが当該入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する出力手段とを備えたことを特徴とする情報処理装置である。
請求項１４に記載の発明は、前記入力画像中の文字の表記を変換することは、当該文字が示す情報を処理するために必要な変換処理として予め定められた変換処理を行うことを含むことを特徴とする請求項１３に記載の情報処理装置である。
請求項１５に記載の発明は、前記変換処理は、前記文字が示す情報の内容を変換せずに、当該文字が表す情報の表現形式を変換する処理であることを特徴とする請求項１４に記載の情報処理装置である。
請求項１６に記載の発明は、前記変換処理は、前記文字が示す情報の内容を、当該情報の上位概念を表すように変換する処理であることを特徴とする請求項１４に記載の情報処理装置である。
請求項１７に記載の発明は、コンピュータに、入力画像を取得する機能と、前記入力画像に関連付けて入力された入力テキストを取得する機能と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能とを実現させ、前記予め定められた条件は、前記認識テキストの表記を変換することにより得られた変換結果と、前記入力テキストとに関する第１の条件である、プログラムである。
請求項１８に記載の発明は、コンピュータに、入力画像を取得する機能と、前記入力画像に関連付けて入力された入力テキストを取得する機能と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能とを備え、前記予め定められた条件は、前記認識テキストと、前記入力テキストの表記を逆変換することにより得られた複数の逆変換結果とに関する第２の条件である、プログラムである。
請求項１９に記載の発明は、コンピュータに、入力画像を取得する機能と、前記入力画像に関連付けて入力された入力テキストを取得する機能と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、前記入力テキストが当該入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する機能とを実現させるためのプログラムである。

請求項１の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項２の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像と関連付けて入力された入力テキストの表記が変換されていても、入力テキストと認識テキストとの合致を検証することにより、文字認識の学習用データとすることができる。
請求項３の発明によれば、入力画像の文字認識を行うことにより１つの認識テキストのみを得る場合に比較して、入力画像の文字認識を行うことにより得られた認識テキストに誤認識があったとしても、文字認識の学習用データの量を多くすることができる。
請求項４の発明によれば、複数の認識テキストが入力テキストに合致する場合に、有用な認識テキストを文字認識の学習用データに含めることができる。
請求項５の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項６の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像と関連付けて入力された入力テキストの表記が変換されていても、入力テキストと認識テキストとの合致を検証することにより、文字認識の学習用データとすることができる。
請求項７の発明によれば、入力画像の文字認識を行うことにより１つの認識テキストのみを得る場合に比較して、入力画像の文字認識を行うことにより得られた認識テキストに誤認識があったとしても、文字認識の学習用データの量を多くすることができる。
請求項８の発明によれば、複数の認識テキストが入力テキストに合致する場合に、有用な認識テキストを文字認識の学習用データに含めることができる。
請求項９の発明によれば、入力画像の文字認識を行うことにより得られる複数の認識テキストを有用なものとすることができる。
請求項１０の発明によれば、入力画像の文字認識を行うことにより得られる複数の認識テキストを有用なものとすることができる。
請求項１１の発明によれば、入力画像の文字認識を行うことにより得られる複数の認識テキストを有用なものとすることができる。
請求項１２の発明によれば、有用でない認識テキストを文字認識の学習用データから除外することができる。
請求項１３の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項１４の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストに対して、入力画像中の文字が示す情報を処理するために必要な変換処理として予め定められた変換処理が行われていても、文字認識の学習用データとすることができる。
請求項１５の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストに対して、入力画像中の文字が示す情報の内容を変換せずに、その文字が表す情報の表現形式を変換する処理が行われていても、文字認識の学習用データとすることができる。
請求項１６の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストに対して、入力画像中の文字が示す情報の内容を、その情報の上位概念を表すように変換する処理が行われていても、文字認識の学習用データとすることができる。
請求項１７の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項１８の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項１９の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。

本発明の第１の実施の形態の概略動作を示した模式図である。本発明の第１の実施の形態の概略動作を示した模式図である。本発明の第１の実施の形態における学習用データ生成装置の機能構成例を示したブロック図である。本発明の第１の実施の形態における学習用データ生成装置の動作例を示したフローチャートである。本発明の第２の実施の形態の概略動作を示した模式図である。本発明の第２の実施の形態における学習用データ生成装置の機能構成例を示したブロック図である。本発明の第２の実施の形態における学習用データ生成装置の動作例を示したフローチャートである。本発明の第３の実施の形態の概略動作を示した模式図である。本発明の第３の実施の形態における学習用データ生成装置の機能構成例を示したブロック図である。本発明の第３の実施の形態における学習用データ生成装置の動作例を示したフローチャートである。本発明の第４の実施の形態の概略動作を示した模式図である。本発明の第４の実施の形態における学習用データ生成装置の機能構成例を示したブロック図である。本発明の第４の実施の形態における学習用データ生成装置の動作例を示したフローチャートである。本発明の第１乃至第４の実施の形態における学習用データ生成装置のハードウェア構成例を示した図である。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。

［本発明の実施の形態の背景］
文字認識器の学習には、学習用画像と正解テキストとからなる学習用データが必要となる。このうち、学習用画像は、文字列を画像化した文字列画像である。一文字だけを画像化した単文字画像も、一文字しかない場合の文字列画像と考えられるので、文字列画像に含まれる。また、正解テキストとは、文字列の各文字に対する文字コードを並べた文字列テキストデータである。一文字に対する文字コードも、一文字しかない場合の文字列テキストデータと考えられるので、文字列テキストデータに含まれる。

ここで、学習用画像は、例えば、文字列が印刷又は筆記された紙をスキャン又は撮影することにより取得される。或いは、文字列のフォントデータを画像化することによって取得してもよいし、タブレット等の入力装置から入力された文字列のデータを画像化することによって取得してもよい。これに対し、正解テキストを入手するためには、人が手でキーパンチを行う必要がある。正解テキストが誤っている場合、学習結果も誤ることになるため、正解テキストは正確である必要がある。そのため、正解テキストの作成には、人手による入力作業や確認作業といった多大な手間やコストが必要となる。

従って、一般に行われているデータエントリ業務で入力されたテキストを正解テキストとして用いることが考えられる。元々データエントリ業務のために使われていたコストによって正解テキストが作成されるので、正解テキストを作成するためのコストが抑えられるからである。

ここで、データエントリ業務とは、画像データの中でテキストとして処理される可能性がある項目について、人がキーパンチによりテキストのデータを入力する業務である。つまり、画像データをテキストのデータに変換する業務である。或いは、画像データにＯＣＲ（Optical Character Recognition）を実施した認識結果を人がキーパンチで修正することによりテキストのデータを入力する業務でもよい。データエントリ業務の結果として入力されたテキストのデータは、例えば電子的なデータとしてデータベースに格納され、各種の処理で用いられる。以下、このようにして入力され、データベースに格納されたテキストのデータを「入力済みテキスト」と呼ぶことにする。この入力済みテキストは、処理に応じた精度を保証することが求められる。従って、入力済みテキストを用いると、所望の精度で入力された正解テキストが取得される。

しかしながら、入力済みテキストを正解テキストとして用いる場合、以下の問題がある。例えば、人がテキストを入力する際に、画像中に記載されている内容をそのまま入力するとは限らないので、入力されたテキストをそのまま正解テキストとして用いることができない場合があるという問題である。入力済みテキストをそのまま業務フローに流したいため、紙に書いてある内容を人が解釈してデータベースに格納するのに適した形式に表記変換してしまうのがその理由である。或いは、キーボードに制限がある場合、そのキーボードで入力できるように表記変換するという理由もある。

以下、この表記変換について、年を示すデータ項目を例にとって、説明する。ここでは、年を記入することのみが指示された記入枠があるとする。このような記入枠には、様々な形式で記入が行われる可能性がある。例えば、「１９９６年」、「１９９６」、「平成８年」、「‘９６年」等である。これに対し、データベースには、この記入枠に紐付けられたデータ項目があり、このデータ項目に、年のデータを、西暦の年表記における４桁の数字で格納しなければならないとする。この場合、人は、様々な形式で記入された年を、西暦の年表記における４桁の数字に変換して入力しなければならない。

その結果、データベースには入力済みテキストとして４桁の数字が格納される。一方、記入枠内には、年を示す文字列が様々な形式で筆記されている。これらの文字列は全て入力済みテキストと同じ意味を持っているので、同じものとして扱うことが望ましい。

［本発明の実施の形態の概要］
そこで、本発明の実施の形態では、画像中に記載されている文字と、入力済みテキストとが異なっていても、文字認識器の学習ができるようにした。具体的には、画像中の文字と入力済みテキストとが異なっていても予め定められた条件を満たしていれば、画像中の文字とこれにＯＣＲを実施することで得られたＯＣＲ結果とを文字認識器の学習用データとして採用するようにした。尚、この予め定められた条件としては、画像中の文字にＯＣＲを実施して得られたＯＣＲ結果に対して表記変換を行うことで得られた表記変換結果と、入力済みテキストとに関する条件（以下、「第１の条件」という）がある。或いは、画像中の文字にＯＣＲを実施して得られたＯＣＲ結果と、入力済みテキストに対して逆表記変換を行うことで得られた複数の逆表記変換結果とに関する条件（以下、「第２の条件」という）もある。

［第１の実施の形態］
第１の実施の形態は、上述した第１の条件として、表記変換結果が入力済みテキストに合致するという条件を採用した場合の実施の形態である。

まず、第１の実施の形態の概略動作について説明する。

図１－１及び図１－２（ａ），（ｂ）は、第１の実施の形態の概略動作を示した模式図である。

最初に、データエントリ業務により、帳票に記入された文字列を人が確認しキーパンチによりテキストデータとしてデータベースに入力する作業を説明する。データエントリ業務の従事者は、図１－２（ａ）に示す帳票１８ａに記されたデータをキーパンチしてデータベース１９に入力する。帳票にはそれぞれを識別する帳票ＩＤが記載され、この帳票ＩＤと共に記入されたテキストの文字列が入力される。帳票１８ａには、帳票ＩＤとして「１２３４」が割り当てられており、生年月日の欄には「１９９６年１０月９日」、氏名の欄には「山本太郎」が手書き文字で記入されている。データベース１９に登録すべきデータの表記としては、帳票ＩＤは４桁の数字であり、生年月日は、年が西暦の年表記の４桁の数字であり、月日がそれぞれ２桁の数字からなる合計４桁の数字である。また、名前は、姓と名の間に空白を開けずに表記した文字列である。データエントリ業務の従事者は、この帳票１８ａを見ながら、帳票ＩＤとして「１２３４」、生年月日として「１９９６１００９」、名前として「山本太郎」のそれぞれの文字列のテキストデータを、データベース１９の表記に合わせて入力する。図１－２（ｂ）に示す帳票１８ｂについても、帳票ＩＤとして「５６７８」、生年月日として「１９９６０５１３」、名前として「田中一郎」のそれぞれの文字列のテキストデータを、データベース１９の表記に合わせて入力する。これにより、図１－１でデータベース１９内に記載した形式のデータが、データベース１９に入力される。このデータが入力済みテキストとして利用されることになる。

次に、入力画像と入力済みテキストを合致させて学習用データを出力する処理を説明する。

図１－１の左側には、ＯＣＲ部１２が、入力された帳票１８ａの年の枠に書かれた「１９９６年」を画像化した入力画像にＯＣＲを実施し、正しく認識してＯＣＲ結果「１９９６年」を取得した場合について示している。この場合は、表記変換部１３が、ＯＣＲ結果「１９９６年」に対し、各種の年表記を西暦の年表記における４桁の数字に変換する表記変換を行って、表記変換結果「１９９６」を取得する。そして、突合部１６が、表記変換結果「１９９６」と、データベース１９に格納された、入力画像すなわち入力された帳票１８ａに割り当てられた帳票ＩＤ「１２３４」に対応する入力済みテキスト「１９９６」とを突合し、表記変換結果と入力済みテキストとが合致すると判定する。従って、入力画像が学習用画像として採用され、ＯＣＲ結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。尚、上記の帳票ＩＤ「１２３４」は、帳票１８ａを読み込んだ画像からＯＣＲで取得してもよいし、帳票１８ａの右上部分に付加されたバーコード画像を認識することにより取得してもよい。

一方、図１－１の右側には、ＯＣＲ部１２が、入力された帳票１８ｂの年の枠に書かれた「平成８年」を画像化した入力画像にＯＣＲを実施し、誤って認識してＯＣＲ結果「平成９年」を取得した場合について示している。この場合は、表記変換部１３が、ＯＣＲ結果「平成９年」に対し、各種の年表記を西暦の年表記における４桁の数字に変換する表記変換を行って、表記変換結果「１９９７」を取得する。そして、突合部１６が、表記変換結果「１９９７」と、データベース１９に格納された入力画像すなわち入力された帳票１８ｂに割り当てられた帳票ＩＤ「５６７８」に対応する入力済みテキスト「１９９６」とを突合し、表記変換結果と入力済みテキストとが合致しないと判定する。従って、入力画像及びＯＣＲ結果は学習用データとして採用されない。尚、上記の帳票ＩＤ「５６７８」は、帳票１８ｂを読み込んだ画像からＯＣＲで取得してもよいし、帳票１８ｂの右上部分に付加されたバーコード画像を認識することにより取得してもよい。

次に、このような概略動作を行う学習用データ生成装置について詳細に説明する。

図２は、第１の実施の形態における学習用データ生成装置１０の機能構成例を示したブロック図である。図示するように、第１の実施の形態における学習用データ生成装置１０は、入力画像受付部１１と、ＯＣＲ部１２と、表記変換部１３と、入力済みテキスト受付部１４と、突合部１６と、学習用データ出力部１７とを備える。

入力画像受付部１１は、外部から入力画像が入力されると、これを受け付けて出力する。本実施の形態では、入力画像を取得する画像取得手段の一例として、入力画像受付部１１を設けている。

ＯＣＲ部１２は、入力画像受付部１１にて受け付けた入力画像にＯＣＲを適用して、ＯＣＲ結果であるテキストを出力する。本実施の形態では、入力画像の文字認識を行うことにより得られた認識テキストの一例として、ＯＣＲ結果を用いている。

表記変換部１３は、ＯＣＲ部１２により出力されたＯＣＲ結果に対して表記変換を行い、表記変換結果であるテキストを出力する。本実施の形態では、認識テキストの表記を変換することにより得られた変換結果の一例として、表記変換結果を用いている。

入力済みテキスト受付部１４は、例えば入力画像に関連付けてデータエントリされた入力済みテキストが外部から入力されると、これを受け付けて出力する。本実施の形態では、入力画像に関連付けて入力された入力テキストの一例として、入力済みテキストを用いており、入力テキストを取得するテキスト取得手段の一例として、入力済みテキスト受付部１４を設けている。

突合部１６は、表記変換部１３により出力された表記変換結果と、入力済みテキスト受付部１４にて受け付けた入力済みテキストとが同じであるかどうかを判定する突合を行う。そして、表記変換結果と入力済みテキストとが同じであると判定すれば、つまり、突合の結果が合致であれば、合致信号を出力し、表記変換結果と入力済みテキストとが同じでないと判定すれば、つまり、突合の結果が非合致であれば、非合致信号を出力する。

学習用データ出力部１７は、入力画像受付部１１から入力画像を受け取り、ＯＣＲ部１２からＯＣＲ結果を受け取り、突合部１６から合致信号又は非合致信号を受け取る。そして、突合部１６から合致信号を受け取った場合は、入力画像受付部１１から受け取った入力画像を学習用画像とし、ＯＣＲ部１２から受け取ったＯＣＲ結果を正解テキストとし、これらのペアを学習用データとして出力し、突合部１６から非合致信号を受け取った場合は、入力画像受付部１１から受け取った入力画像及びＯＣＲ部１２から受け取ったＯＣＲ結果を出力しない。本実施の形態では、入力画像と認識テキストとを、認識テキストと入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段の一例として、学習用データ出力部１７を設けている。

図３は、第１の実施の形態における学習用データ生成装置１０の動作例を示したフローチャートである。

図示するように、学習用データ生成装置１０では、まず、入力画像受付部１１が、入力画像の入力を受け付け、入力済みテキスト受付部１４が、入力画像に対してデータエントリされた入力済みテキストの入力を受け付ける（ステップ１０１）。

すると、ＯＣＲ部１２が、ステップ１０１で受け付けた入力画像にＯＣＲを適用して、ＯＣＲ結果であるテキストを出力する（ステップ１０２）。そして、表記変換部１３が、ステップ１０２で出力されたＯＣＲ結果に対して表記変換を行って、表記変換結果であるテキストを出力する（ステップ１０３）。

これにより、突合部１６が、ステップ１０３で出力された表記変換結果と、ステップ１０１で受け付けた入力済みテキストとを突合する（ステップ１０４）。

その後、学習用データ出力部１７が、ステップ１０４における突合の結果が合致であるかどうかを判定する（ステップ１０５）。その結果、突合の結果が合致であると判定すれば、ステップ１０１で受け付けた入力画像及びステップ１０２で出力されたＯＣＲ結果のペアを学習用データとして出力し（ステップ１０６）、処理を終了する。一方、突合の結果が非合致であると判定すれば、ステップ１０１で受け付けた入力画像及びステップ１０２で出力されたＯＣＲ結果を学習データとして出力することなく、処理を終了する。

ここで、ある文字に対して表記変換を行うとは、データエントリ業務の観点から捉えると、その文字が示す情報を処理するために必要な変換処理として予め定められた変換処理を行うことであると言うことができる。以下、第１の実施の形態における表記変換の例を示す。尚、本明細書では、主として年表記に関する表記変換を例示するが、以下に示す通り、表記変換は年表記に限るものではない。

（１）年表記の変換
年の様々な表記形式を標準的な表記形式に変換することが考えられる。例えば、「＊年」を「＊」に変換するように、西暦の年表記の「年」を除去する変換がある。また、「平成＊年」を「ＹＹＹＹ」に変換するように、平成の年表記を西暦の年表記における４桁の数字とする変換もある。これは、「平成」だけでなく、他の元号について適用可能である。更に、「‘？？年」を「１９？？」とする変換や、「‘？？年」を「２０？？」とする変換もある。更にまた、「平成＊」を「ＹＹＹＹ」に変換するように、平成の年表記（「年」がない）を西暦の年表記における４桁の数字とする変換もある。これも、「平成」だけでなく、他の元号について適用可能である。尚、上記において、「＊」は任意の数字とし、「？」は任意の１桁の数字とする。

（２）日付表記の変換
日付の様々な表記形式を標準的な表記形式に変換することが考えられる。例えば、「ＹＹＹＹ年ＭＭ月ＤＤ日」を「ＹＹＹＹ／ＭＭ／ＤＤ」とする変換がある。

（３）住所表記の変換
住所の様々な表記形式を標準的な表記形式に変換することが考えられる。例えば、「一丁目５番６号」を「１－５－６」とする変換がある。

（４）アルファベットの大文字及び小文字間の変換
アルファベットの大文字を小文字で入力する仕様の場合は、大文字を小文字に変換することが考えられる。或いは、メールアドレスの大文字と小文字とが混在した表記形式を標準的な表記形式に変換することが考えられる。

（５）漢数字及びアラビア数字間の変換
漢数字をアラビア数字で入力する仕様の場合は、漢数字をアラビア数字に変換することが考えられる。例えば、「千五十」を「１０５０」とする変換がある。

（６）旧字体から新字体への変換
例えば旧字体が入力できない場合等に、旧字体を新字体に変換することが考えられる。

（７）同じ概念を表す標準的な表記への変換
ある概念を表すのに通常よく用いられる表記をその概念を表す標準的な表記に変換することが考えられる。例えば、「盲腸」を「急性虫垂炎」とする変換がある。

（８）上位概念を表す表記への変換
ある概念を表す表記をその概念の上位概念を表す表記に変換することが考えられる。例えば、ある菓子を表す表記を、その菓子のカテゴリー（チョコレート菓子等）を表す表記とする変換がある。

尚、このうち、（１）～（７）の表記変換は、文字が示す情報の内容を変換せずにその文字が表す情報の表現形式を変換する表記変換の一例である。また、（８）の表記変換は、文字が示す情報の内容をその情報の上位概念を表すように変換する表記変換の一例である。

［第２の実施の形態］
第２の実施の形態は、上述した第２の条件として、ＯＣＲ結果が複数の逆表記変換結果の何れかに合致するという条件を採用した場合の実施の形態である。

まず、第２の実施の形態の概略動作について説明する。

図４は、第２の実施の形態の概略動作を示した模式図である。

第２の実施の形態では、図の中央に示すように、逆表記変換部２５が、データベース２９に格納された入力画像に対応する入力済みテキスト「１９９６」に対し、西暦の年表記における４桁の数字を各種の年表記に変換する逆表記変換を行って、複数の逆表記変換結果「１９９６」、「１９９６年」、「平成８年」、「‘９６」、「平成８」、「９６」を取得する。

図の左側には、ＯＣＲ部２２が、「１９９６年」を画像化した入力画像にＯＣＲを実施し、正しく認識してＯＣＲ結果「１９９６年」を取得した場合について示している。この場合は、突合部２６が、ＯＣＲ結果「１９９６年」と、複数の逆表記変換結果「１９９６」、「１９９６年」、「平成８年」、「‘９６」、「平成８」、「９６」とを突合し、ＯＣＲ結果に合致する逆表記変換結果が複数の逆表記変換結果の中にあると判定する。従って、入力画像が学習用画像として採用され、ＯＣＲ結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。

一方、図の右側には、ＯＣＲ部２２が、「平成８年」を画像化した入力画像にＯＣＲを実施し、誤って認識してＯＣＲ結果「平成９年」を取得した場合について示している。この場合は、突合部２６が、ＯＣＲ結果「平成９年」と、複数の逆表記変換結果「１９９６」、「１９９６年」、「平成８年」、「‘９６」、「平成８」、「９６」とを突合し、ＯＣＲ結果に合致する逆表記変換結果が複数の逆表記変換結果の中にないと判定する。従って、入力画像及びＯＣＲ結果は学習用データとして採用されない。

図５は、第２の実施の形態における学習用データ生成装置２０の機能構成例を示したブロック図である。図示するように、第２の実施の形態における学習用データ生成装置２０は、入力画像受付部２１と、ＯＣＲ部２２と、入力済みテキスト受付部２４と、逆表記変換部２５と、突合部２６と、学習用データ出力部２７とを備える。

入力画像受付部２１、ＯＣＲ部２２、入力済みテキスト受付部２４、及び、学習用データ出力部２７は、それぞれ、第１の実施の形態における入力画像受付部１１、ＯＣＲ部１２、入力済みテキスト受付部１４、及び、学習用データ出力部１７と同じなので、説明を省略する。

逆表記変換部２５は、入力済みテキスト受付部２４にて受け付けた入力済みテキストに対して逆表記変換を行い、複数の逆表記変換結果であるテキストを出力する。本実施の形態では、入力テキストの表記を変換することにより得られた複数の変換結果の一例として、複数の逆表記変換結果を用いている。

突合部２６は、ＯＣＲ部２２により出力されたＯＣＲ結果が、逆表記変換部２５により出力された複数の逆表記変換結果の中にあるかどうかを判定する突合を行う。そして、ＯＣＲ結果が複数の逆表記変換結果の中にあると判定すれば、つまり、突合の結果が合致であれば、合致信号を出力し、ＯＣＲ結果が複数の逆表記変換結果の中にないと判定すれば、つまり、突合の結果が非合致であれば、非合致信号を出力する。

図６は、第２の実施の形態における学習用データ生成装置２０の動作例を示したフローチャートである。

図示するように、学習用データ生成装置２０では、まず、入力画像受付部２１が、入力画像の入力を受け付け、入力済みテキスト受付部２４が、入力画像に対してデータエントリされた入力済みテキストの入力を受け付ける（ステップ２０１）。

すると、ＯＣＲ部２２が、ステップ２０１で受け付けた入力画像にＯＣＲを適用して、ＯＣＲ結果であるテキストを出力する（ステップ２０２）。

また、逆表記変換部２５が、ステップ２０１で受け付けた入力済みテキストに対して逆表記変換を行って、複数の逆表記変換結果であるテキストを出力する（ステップ２０３）。

これにより、突合部２６が、ステップ２０２で出力されたＯＣＲ結果と、ステップ２０３で出力された複数の逆表記変換結果とを突合する（ステップ２０４）。

その後、学習用データ出力部２７が、ステップ２０４における突合の結果が合致であるかどうかを判定する（ステップ２０５）。その結果、突合の結果が合致であると判定すれば、ステップ２０１で受け付けた入力画像及びステップ２０２で出力されたＯＣＲ結果のペアを学習用データとして出力し（ステップ２０６）、処理を終了する。一方、突合の結果が非合致であると判定すれば、ステップ２０１で受け付けた入力画像及びステップ２０２で出力されたＯＣＲ結果を学習データとして出力することなく、処理を終了する。

尚、上記では、学習用データとしてＯＣＲ結果を出力することとしたが、ステップ２０５で合致すると判定された逆表記変換結果も同じテキストであるため、これを学習用データとして出力してもよい。

ここで、ある文字を逆表記変換するとは、表記変換を行うとその文字となるテキストを全て列挙することである。尚、表記変換については、第１の実施の形態で述べたので、説明を省略する。

［第３の実施の形態］
第３の実施の形態は、上述した第１の条件として、複数の表記変換結果の中に入力済みテキストに合致する表記変換結果があるという条件を採用した場合の実施の形態である。

まず、第３の実施の形態の概略動作について説明する。

図７は、第３の実施の形態の概略動作を示した模式図である。

図の左側には、ＯＣＲ部３２が、「１９９６年」を画像化した入力画像にＯＣＲを実施し、正しく認識した結果を第１の候補として含み、誤って認識した結果も第２の候補として含む複数のＯＣＲ結果「１９９６年」、「１９９８年」を取得した場合について示している。この場合は、表記変換部３３が、複数のＯＣＲ結果「１９９６年」、「１９９８年」に対し、各種の年表記を西暦の年表記における４桁の数字に変換する表記変換を行って、複数の表記変換結果「１９９６」、「１９９８」を取得する。そして、突合部３６が、複数の表記変換結果「１９９６」、「１９９８」と、データベース３９に格納された入力画像に対応する入力済みテキスト「１９９６」とを突合し、複数の表記変換結果の中に入力済みテキストに合致する表記変換結果があると判定する。従って、入力画像が学習用画像として採用され、複数のＯＣＲ結果のうちの入力済みテキストに合致する表記変換結果の元となるＯＣＲ結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。

一方、図の右側には、ＯＣＲ部３２が、「平成８年」を画像化した入力画像にＯＣＲを実施し、誤って認識した結果を第１の候補として含み、正しく認識した結果も第２の候補として含む複数のＯＣＲ結果「平成９年」、「平成８年」を取得した場合について示している。この場合は、表記変換部３３が、複数のＯＣＲ結果「平成９年」、「平成８年」に対し、各種の年表記を西暦の年表記における４桁の数字に変換する表記変換を行って、複数の表記変換結果「１９９７」、「１９９６」を取得する。そして、突合部３６が、複数の表記変換結果「１９９７」、「１９９６」と、データベース３９に格納された入力画像に対応する入力済みテキスト「１９９６」とを突合し、複数の表記変換結果の中に入力済みテキストに合致する表記変換結果があると判定する。従って、この場合も、入力画像が学習用画像として採用され、複数のＯＣＲ結果のうちの入力済みテキストに合致する表記変換結果の元となるＯＣＲ結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。

図８は、第３の実施の形態における学習用データ生成装置３０の機能構成例を示したブロック図である。図示するように、第３の実施の形態における学習用データ生成装置３０は、入力画像受付部３１と、ＯＣＲ部３２と、表記変換部３３と、入力済みテキスト受付部３４と、突合部３６と、学習用データ出力部３７とを備える。

入力画像受付部３１及び入力済みテキスト受付部３４は、それぞれ、第１の実施の形態における入力画像受付部１１及び入力済みテキスト受付部１４と同じなので、説明を省略する。

ＯＣＲ部３２は、入力画像受付部３１にて受け付けた入力画像にＯＣＲを適用して、複数のＯＣＲ結果であるテキストを出力する。本実施の形態では、入力画像の文字認識を行うことにより得られた複数の認識テキストの一例として、複数のＯＣＲ結果を用いている。

表記変換部３３は、ＯＣＲ部３２により出力された複数のＯＣＲ結果に対して表記変換を行い、複数の表記変換結果であるテキストを出力する。本実施の形態では、複数の認識テキストの表記を変換することにより得られた複数の変換結果の一例として、複数の表記変換結果を用いている。

突合部３６は、表記変換部３３により出力された複数の表記変換結果の中に、入力済みテキスト受付部３４にて受け付けた入力済みテキストがあるかどうかを判定する突合を行う。そして、複数の表記変換結果の中に入力済みテキストがあると判定すれば、つまり、突合の結果が合致であれば、合致信号を出力し、複数の表記変換結果の中に入力済みテキストがないと判定すれば、つまり、突合の結果が非合致であれば、非合致信号を出力する。

学習用データ出力部３７は、入力画像受付部３１から入力画像を受け取り、ＯＣＲ部３２から複数のＯＣＲ結果を受け取り、突合部３６から合致信号又は非合致信号を受け取る。そして、突合部３６から合致信号を受け取った場合は、入力画像受付部３１から受け取った入力画像を学習用画像とし、ＯＣＲ部３２から受け取った複数のＯＣＲ結果のうち入力済みテキストに合致する表記変換結果の元となるＯＣＲ結果を正解テキストとし、これらのペアを学習用データとして出力し、突合部３６から非合致信号を受け取った場合は、入力画像受付部３１から受け取った入力画像及びＯＣＲ部３２から受け取った複数のＯＣＲ結果の何れも出力しない。本実施の形態では、入力画像と認識テキストとを、認識テキストと入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段の一例として、学習用データ出力部３７を設けている。

図９は、第３の実施の形態における学習用データ生成装置３０の動作例を示したフローチャートである。

図示するように、学習用データ生成装置３０では、まず、入力画像受付部３１が、入力画像の入力を受け付け、入力済みテキスト受付部３４が、入力画像に対してデータエントリされた入力済みテキストの入力を受け付ける（ステップ３０１）。

すると、ＯＣＲ部３２が、ステップ３０１で受け付けた入力画像にＯＣＲを適用して、複数のＯＣＲ結果であるテキストを出力する（ステップ３０２）。そして、表記変換部３３が、ステップ３０２で出力された複数のＯＣＲ結果に対して表記変換を行って、複数の表記変換結果であるテキストを出力する（ステップ３０３）。

これにより、突合部３６が、ステップ３０３で出力された複数の表記変換結果と、ステップ３０１で受け付けた入力済みテキストとを突合する（ステップ３０４）。

その後、学習用データ出力部３７が、ステップ３０４における突合の結果が合致であるかどうかを判定する（ステップ３０５）。その結果、突合の結果が合致であると判定すれば、ステップ３０１で受け付けた入力画像及びステップ３０２で出力された複数のＯＣＲ結果のうち入力済みテキストに合致した表記変換結果の元となるＯＣＲ結果のペアを学習用データとして出力し（ステップ３０６）、処理を終了する。一方、突合の結果が非合致であると判定すれば、ステップ３０１で受け付けた入力画像及びステップ３０２で出力された複数のＯＣＲ結果の何れも学習データとして出力することなく、処理を終了する。

ここで、表記変換については、第１の実施の形態で述べたので、説明を省略する。

また、第３の実施の形態においてＯＣＲ部３２が複数のＯＣＲ結果を取得する方法の例を示す。

第一に、ＯＣＲ部３２は、入力画像中の各文字について文字認識結果の複数の候補を得ることができる。従って、ＯＣＲ部３２が、文字ごとに文字認識結果を別の候補に変更することにより、複数のＯＣＲ結果を取得する方法がある。この場合、複数のＯＣＲ結果は、入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、文字列の各文字について各文字の文字認識を行うことにより得られた少なくとも１つの文字認識結果の何れかをそれぞれ含む複数の文字列認識結果の一例である。

第二に、ＯＣＲ部３２が、例えば特開２０１２－１１８６５０号公報に示されるように、文字認識結果の候補を用いてグラフ構造を生成し、文頭から文末に至る全てのパスを文字列認識結果の候補とする。その際、ＯＣＲ部３２が、パスの評価値を算出し、この評価値が上位のものから予め定められた個数のパス、つまり、文字列認識結果を選択することにより、複数のＯＣＲ結果を取得する方法がある。この場合、複数のＯＣＲ結果は、入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、文字列の各文字について各文字の文字認識を行うことにより得られた少なくとも１つの文字認識結果の何れを含むかに応じてそれぞれに与えられた評価値に基づいて決定された複数の文字列認識結果の一例である。

第三に、ＯＣＲ部３２が、例えば特開２０１４－２１８８３号公報に示されるように、正規表現に合致する文字列認識結果だけを取得する方法がある。この方法は、正規表現で限定することによって、より確からしい文字列認識結果を取得する方法である。ここで、正規表現としては、例えば、「平成￥ｄ｛１，２｝年」がある。これは、「平成？年」又は「平成？？年」を意味する。また、「￥ｄ｛４｝」もある。これは、「？？？？」を意味する。更に、「西暦￥ｄ｛４｝年」もある。これは、「西暦？？？？年」を意味する。尚、上記において、「？」は、アラビア数字１文字を示すものとする。この場合、複数のＯＣＲ結果は、入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、複数の文字列様式にそれぞれ合致する複数の文字列認識結果の一例である。また、正規表現は、文字列様式の一例である。

更に、突合部３６による突合で複数の表記変換結果が入力済みテキストに合致すると判定された場合に、学習用データ出力部３７が複数の表記変換結果の元となる複数のＯＣＲ結果から１つのＯＣＲ結果を選択する方法について説明する。

この場合、学習用データ出力部３７は、文字列認識結果における確度に応じて１つのＯＣＲ結果を選択すればよい。例えば、文字列認識結果における確度が最大のＯＣＲ結果を選択すればよい。ここで、文字列認識結果における確度としては、特開２０１２－１１８６５０号公報や特開２０１６－２１２４７３号公報に示されているもの等、様々なものを用いてよい。或いは、単文字認識結果における確度、確信度、距離等の値を用いて、文字列中の文字の確度の最小値、最大値、平均値、中央値等の統計的な値を求め、これを文字列認識結果における確度として用いてもよい。

［第４の実施の形態］
第４の実施の形態は、上述した第２の条件として、複数のＯＣＲ結果の中に複数の逆表記変換結果の何れかに合致するＯＣＲ結果があるという条件を採用した場合の実施の形態である。

まず、第４の実施の形態の概略動作について説明する。

図１０は、第４の実施の形態の概略動作を示した模式図である。

第４の実施の形態では、図の中央に示すように、逆表記変換部４５が、データベース４９に格納された入力画像に対応する入力済みテキスト「１９９６」に対し、西暦の年表記における４桁の数字を各種の年表記に変換する逆表記変換を行って、複数の逆表記変換結果「１９９６」、「１９９６年」、「平成８年」、「‘９６」、「平成８」、「９６」を取得する。

図の左側には、ＯＣＲ部４２が、「１９９６年」を画像化した入力画像にＯＣＲを実施し、正しく認識した結果を第１の候補として含み、誤って認識した結果も第２の候補として含む複数のＯＣＲ結果「１９９６年」、「１９９８年」を取得した場合について示している。この場合は、突合部４６が、複数のＯＣＲ結果「１９９６年」、「１９９８年」と、複数の逆表記変換結果「１９９６」、「１９９６年」、「平成８年」、「‘９６」、「平成８」、「９６」とを突合し、複数のＯＣＲ結果の中に複数の逆表記変換結果の何れかに合致するＯＣＲ結果があると判定する。従って、入力画像が学習用画像として採用され、複数のＯＣＲ結果のうちの複数の逆表記変換結果の何れかに合致するＯＣＲ結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。

一方、図の右側には、ＯＣＲ部４２が、「平成８年」を画像化した入力画像にＯＣＲを実施し、誤って認識した結果を第１の候補として含み、正しく認識した結果も第２の候補として含む複数のＯＣＲ結果「平成９年」、「平成８年」を取得した場合について示している。この場合は、突合部４６が、複数のＯＣＲ結果「平成９年」、「平成８年」と、複数の逆表記変換結果「１９９６」、「１９９６年」、「平成８年」、「‘９６」、「平成８」、「９６」とを突合し、複数のＯＣＲ結果の中に複数の逆表記変換結果の何れかに合致するＯＣＲ結果があると判定する。従って、この場合も、入力画像が学習用画像として採用され、複数のＯＣＲ結果のうちの複数の逆表記変換結果の何れかに合致するＯＣＲ結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。

図１１は、第４の実施の形態における学習用データ生成装置４０の機能構成例を示したブロック図である。図示するように、第４の実施の形態における学習用データ生成装置４０は、入力画像受付部４１と、ＯＣＲ部４２と、入力済みテキスト受付部４４と、逆表記変換部４５と、突合部４６と、学習用データ出力部４７とを備える。

入力画像受付部４１及び入力済みテキスト受付部４４は、それぞれ、第１の実施の形態における入力画像受付部１１及び入力済みテキスト受付部１４と同じなので、説明を省略する。

ＯＣＲ部４２は、入力画像受付部４１にて受け付けた入力画像にＯＣＲを適用して、複数のＯＣＲ結果であるテキストを出力する。本実施の形態では、入力画像の文字認識を行うことにより得られた複数の認識テキストの一例として、複数のＯＣＲ結果を用いている。

逆表記変換部４５は、入力済みテキスト受付部４４にて受け付けた入力済みテキストに対して逆表記変換を行い、複数の逆表記変換結果であるテキストを出力する。本実施の形態では、入力テキストの表記を変換することにより得られた複数の変換結果の一例として、複数の逆表記変換結果を用いている。

突合部４６は、ＯＣＲ部４２により出力された複数のＯＣＲ結果の中に、逆表記変換部４５により出力された複数の逆表記変換結果の何れかがあるかどうかを判定する突合を行う。そして、複数のＯＣＲ結果の中に複数の逆表記変換結果の何れかがあると判定すれば、つまり、突合の結果が合致であれば、合致信号を出力し、複数のＯＣＲ結果の中に複数の逆表記変換結果の何れもないと判定すれば、つまり、突合の結果が非合致であれば、非合致信号を出力する。

学習用データ出力部４７は、入力画像受付部４１から入力画像を受け取り、ＯＣＲ部４２から複数のＯＣＲ結果を受け取り、突合部４６から合致信号又は非合致信号を受け取る。そして、突合部４６から合致信号を受け取った場合は、入力画像受付部４１から受け取った入力画像を学習用画像とし、ＯＣＲ部４２から受け取った複数のＯＣＲ結果のうち複数の逆表記変換結果の何れかに合致するＯＣＲ結果を正解テキストとし、これらのペアを学習用データとして出力し、突合部４６から非合致信号を受け取った場合は、入力画像受付部４１から受け取った入力画像及びＯＣＲ部４２から受け取った複数のＯＣＲ結果の何れも出力しない。本実施の形態では、入力画像と認識テキストとを、認識テキストと入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段の一例として、学習用データ出力部４７を設けている。

図１２は、第４の実施の形態における学習用データ生成装置４０の動作例を示したフローチャートである。

図示するように、学習用データ生成装置４０では、まず、入力画像受付部４１が、入力画像の入力を受け付け、入力済みテキスト受付部４４が、入力画像に対してデータエントリされた入力済みテキストの入力を受け付ける（ステップ４０１）。

すると、ＯＣＲ部４２が、ステップ４０１で受け付けた入力画像にＯＣＲを適用して、複数のＯＣＲ結果であるテキストを出力する（ステップ４０２）。

また、逆表記変換部４５が、ステップ４０１で受け付けた入力済みテキストに対して逆表記変換を行って、複数の逆表記変換結果であるテキストを出力する（ステップ４０３）。

これにより、突合部４６が、ステップ４０２で出力された複数のＯＣＲ結果と、ステップ４０３で出力された複数の逆表記変換結果とを突合する（ステップ４０４）。

その後、学習用データ出力部４７が、ステップ４０４における突合の結果が合致であるかどうかを判定する（ステップ４０５）。その結果、突合の結果が合致であると判定すれば、ステップ４０１で受け付けた入力画像及びステップ４０２で出力された複数のＯＣＲ結果のうち複数の逆表記変換結果の何れかに合致したＯＣＲ結果とのペアを学習用データとして出力し（ステップ４０６）、処理を終了する。一方、突合の結果が非合致であると判定すれば、ステップ４０１で受け付けた入力画像及びステップ４０２で出力された複数のＯＣＲ結果の何れも学習データとして出力することなく、処理を終了する。

ここで、逆表記変換については、第２の実施の形態で述べたので、説明を省略する。

また、第４の実施の形態においてＯＣＲ部４２が複数のＯＣＲ結果を取得する方法は、第３の実施の形態においてＯＣＲ部３２が複数のＯＣＲ結果を取得する方法と同じなので、説明を省略する。

更に、突合部４６による突合で複数のＯＣＲ結果が複数の逆表記変換結果の何れかに合致すると判定された場合に、学習用データ出力部４７が複数のＯＣＲ結果から１つのＯＣＲ結果を選択する方法について説明する。

この場合、学習用データ出力部４７は、文字列認識結果における確度に応じて１つのＯＣＲ結果を選択すればよい。例えば、文字列認識結果における確度が最大のＯＣＲ結果を選択すればよい。ここで、文字列認識結果における確度としては、特開２０１２－１１８６５０号公報や特開２０１６－２１２４７３号公報に示されているもの等、様々なものを用いてよい。或いは、単文字認識結果における確度、確信度、距離等の値を用いて、文字列中の文字の確度の最小値、最大値、平均値、中央値等の統計的な値を求め、これを文字列認識結果における確度として用いてもよい。

［変形例］
第１乃至第４の実施の形態において、突合部１６～４６による突合の結果が合致であったとしても、学習用データ出力部１７～４７が入力画像及びＯＣＲ結果を学習用データとして出力しない、という構成としてもよい。即ち、文字列の認識結果における確度値が予め定めた閾値以下である場合には学習用データとして採用しないようにしてもよい。

［学習用データ生成装置のハードウェア構成］
第１乃至第４の実施の形態における学習用データ生成装置１０～４０は、汎用のコンピュータにより実現される。そこで、学習用データ生成装置１０～４０がコンピュータ９０により実現されるものとして、このコンピュータ９０のハードウェア構成について説明する。

図１３は、コンピュータ９０のハードウェア構成を示した図である。図示するように、コンピュータ９０は、演算手段であるＣＰＵ９１と、記憶手段であるメインメモリ９２及びＨＤＤ（Hard Disk Drive）９３とを備える。ここで、ＣＰＵ９１は、ＯＳ（Operating System）やアプリケーション等の各種ソフトウェアを実行し、上述した各処理部を実現する。また、メインメモリ９２は、各種ソフトウェアやその実行に用いるデータ等を記憶し、ＨＤＤ９３は、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶し、これらの一方又は両方が各記憶部を実現する。更に、コンピュータ９０は、外部との通信を行うための通信インターフェース（図では「通信Ｉ／Ｆ」と表記）９４と、ディスプレイ等の表示デバイス９５と、キーボードやマウス等の入力デバイス９６とを備える。

［プログラム］
第１乃至第４の本実施の形態における学習用データ生成装置１０～４０が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。

即ち、第１乃至第４の実施の形態を実現するプログラムは、コンピュータに、入力画像を取得する機能と、入力画像に関連付けて入力された入力テキストを取得する機能と、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、認識テキストと入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能とを実現させるためのプログラムとして捉えられる。

また、第１乃至第４の実施の形態を実現するプログラムは、コンピュータに、入力画像を取得する機能と、入力画像に関連付けて入力された入力テキストを取得する機能と、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力テキストが入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する機能とを実現させるためのプログラムとしても捉えられる。

尚、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、ＣＤ－ＲＯＭ等の記録媒体に格納して提供することも可能である。

１０，２０，３０，４０…学習用データ生成装置、１１，２１，３１，４１…入力画像受付部、１２，２２，３２，４２…ＯＣＲ部、１３，３３…表記変換部、１４，２４，３４，４４…入力済みテキスト受付部、２５，４５…逆表記変換部、１６，２６，３６，４６…突合部、１７，２７，３７，４７…学習用データ出力部

Claims

入力画像を取得する画像取得手段と、
前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、
前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段と
を備え、
前記予め定められた条件は、前記認識テキストの表記を変換することにより得られた変換結果と、前記入力テキストとに関する第１の条件であることを特徴とする情報処理装置。
前記第１の条件は、前記変換結果が前記入力テキストに合致するという条件であることを特徴とする請求項１に記載の情報処理装置。
前記第１の条件は、前記変換結果が、前記入力画像の文字認識を行うことにより得られた複数の認識テキストの表記を変換することにより得られた複数の変換結果のうち、前記入力テキストに合致するものである、という条件であることを特徴とする請求項１に記載の情報処理装置。
２以上の変換結果が前記入力テキストに合致する場合に、前記認識テキストは、当該２以上の変換結果を得るために表記が変換された２以上の認識テキストから認識確度に応じて選択されたものであることを特徴とする請求項３に記載の情報処理装置。
入力画像を取得する画像取得手段と、
前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、
前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段と
を備え、
前記予め定められた条件は、前記認識テキストと、前記入力テキストの表記を逆変換することにより得られた複数の逆変換結果とに関する第２の条件であることを特徴とする情報処理装置。
前記第２の条件は、前記認識テキストが前記複数の逆変換結果の何れかに合致するという条件であることを特徴とする請求項５に記載の情報処理装置。
前記第２の条件は、前記認識テキストが、前記入力画像の文字認識を行うことにより得られた複数の認識テキストのうち、前記複数の逆変換結果の何れかに合致するものである、という条件であることを特徴とする請求項５に記載の情報処理装置。
２以上の認識テキストが前記複数の逆変換結果の何れかに合致する場合に、前記認識テキストは、当該２以上の認識テキストから認識確度に応じて選択されたものであることを特徴とする請求項７に記載の情報処理装置。
前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、複数の文字列様式にそれぞれ合致する複数の文字列認識結果であることを特徴とする請求項３又は請求項７に記載の情報処理装置。
前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、当該文字列の各文字について当該各文字の文字認識を行うことにより得られた少なくとも１つの文字認識結果の何れかをそれぞれ含む複数の文字列認識結果であることを特徴とする請求項３又は請求項７に記載の情報処理装置。
前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、当該文字列の各文字について当該各文字の文字認識を行うことにより得られた少なくとも１つの文字認識結果の何れを含むかに応じてそれぞれに与えられた評価値に基づいて決定された複数の文字列認識結果であることを特徴とする請求項３又は請求項７に記載の情報処理装置。
入力画像を取得する画像取得手段と、
前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、
前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段と
を備え、
前記出力手段は、前記入力画像と、前記認識テキストとを、当該認識テキストの認識確度が予め定められた閾値よりも小さい場合には、前記学習用データとして出力しないことを特徴とする情報処理装置。
入力画像を取得する画像取得手段と、
前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、
前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、前記入力テキストが当該入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する出力手段と
を備えたことを特徴とする情報処理装置。
前記入力画像中の文字の表記を変換することは、当該文字が示す情報を処理するために必要な変換処理として予め定められた変換処理を行うことを含むことを特徴とする請求項１３に記載の情報処理装置。
前記変換処理は、前記文字が示す情報の内容を変換せずに、当該文字が表す情報の表現形式を変換する処理であることを特徴とする請求項１４に記載の情報処理装置。
前記変換処理は、前記文字が示す情報の内容を、当該情報の上位概念を表すように変換する処理であることを特徴とする請求項１４に記載の情報処理装置。
コンピュータに、
入力画像を取得する機能と、
前記入力画像に関連付けて入力された入力テキストを取得する機能と、
前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能と
を実現させ、
前記予め定められた条件は、前記認識テキストの表記を変換することにより得られた変換結果と、前記入力テキストとに関する第１の条件である、プログラム。
コンピュータに、
入力画像を取得する機能と、
前記入力画像に関連付けて入力された入力テキストを取得する機能と、
前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能と
を備え、
前記予め定められた条件は、前記認識テキストと、前記入力テキストの表記を逆変換することにより得られた複数の逆変換結果とに関する第２の条件である、プログラム。
コンピュータに、
入力画像を取得する機能と、
前記入力画像に関連付けて入力された入力テキストを取得する機能と、
前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、前記入力テキストが当該入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する機能と
を実現させるためのプログラム。