JP7021496B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7021496B2
JP7021496B2 JP2017198734A JP2017198734A JP7021496B2 JP 7021496 B2 JP7021496 B2 JP 7021496B2 JP 2017198734 A JP2017198734 A JP 2017198734A JP 2017198734 A JP2017198734 A JP 2017198734A JP 7021496 B2 JP7021496 B2 JP 7021496B2
Authority
JP
Japan
Prior art keywords
recognition
text
input image
input
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017198734A
Other languages
English (en)
Other versions
JP2019074807A (ja
Inventor
俊一 木村
聡 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2017198734A priority Critical patent/JP7021496B2/ja
Publication of JP2019074807A publication Critical patent/JP2019074807A/ja
Application granted granted Critical
Publication of JP7021496B2 publication Critical patent/JP7021496B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
受付手段が、画像内の文字領域内にある文字画像についての文字情報を受け付け、認識手段が、文字領域内の文字画像を文字認識し、選択手段が、認識手段による複数の文字認識結果の中から、受付手段によって受け付けられた文字情報と合致する文字認識結果を選択する画像処理装置は、知られている(例えば、特許文献1参照)。
特開2013-238999号公報
ここで、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、例えばデータエントリ業務において入力画像に関連付けて入力された入力テキストと認識テキストとが同じ場合にのみ、文字認識の学習用データとする構成を採用したのでは、学習用データの量が少なくなるので、文字認識の認識率が低下する。
本発明の目的は、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストと認識テキストとが同じ場合にのみ、文字認識の学習用データとするよう構成された場合に比較して、学習用データの量を多くすることにある。
請求項1に記載の発明は、入力画像を取得する画像取得手段と、前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段とを備え、前記予め定められた条件は、前記認識テキストの表記を変換することにより得られた変換結果と、前記入力テキストとに関する第1の条件であることを特徴とする情報処理装置である。
請求項2に記載の発明は、前記第1の条件は、前記変換結果が前記入力テキストに合致するという条件であることを特徴とする請求項1に記載の情報処理装置である。
請求項3に記載の発明は、前記第1の条件は、前記変換結果が、前記入力画像の文字認識を行うことにより得られた複数の認識テキストの表記を変換することにより得られた複数の変換結果のうち、前記入力テキストに合致するものである、という条件であることを特徴とする請求項1に記載の情報処理装置である。
請求項4に記載の発明は、2以上の変換結果が前記入力テキストに合致する場合に、前記認識テキストは、当該2以上の変換結果を得るために表記が変換された2以上の認識テキストから認識確度に応じて選択されたものであることを特徴とする請求項3に記載の情報処理装置である。
請求項5に記載の発明は、入力画像を取得する画像取得手段と、前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段とを備え、前記予め定められた条件は、前記認識テキストと、前記入力テキストの表記を逆変換することにより得られた複数の逆変換結果とに関する第2の条件であることを特徴とする情報処理装置である。
請求項6に記載の発明は、前記第2の条件は、前記認識テキストが前記複数の逆変換結果の何れかに合致するという条件であることを特徴とする請求項5に記載の情報処理装置である。
請求項7に記載の発明は、前記第2の条件は、前記認識テキストが、前記入力画像の文字認識を行うことにより得られた複数の認識テキストのうち、前記複数の逆変換結果の何れかに合致するものである、という条件であることを特徴とする請求項5に記載の情報処理装置である。
請求項8に記載の発明は、2以上の認識テキストが前記複数の逆変換結果の何れかに合致する場合に、前記認識テキストは、当該2以上の認識テキストから認識確度に応じて選択されたものであることを特徴とする請求項7に記載の情報処理装置である。
請求項9に記載の発明は、前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、複数の文字列様式にそれぞれ合致する複数の文字列認識結果であることを特徴とする請求項3又は請求項7に記載の情報処理装置である。
請求項10に記載の発明は、前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、当該文字列の各文字について当該各文字の文字認識を行うことにより得られた少なくとも1つの文字認識結果の何れかをそれぞれ含む複数の文字列認識結果であることを特徴とする請求項3又は請求項7に記載の情報処理装置である。
請求項11に記載の発明は、前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、当該文字列の各文字について当該各文字の文字認識を行うことにより得られた少なくとも1つの文字認識結果の何れを含むかに応じてそれぞれに与えられた評価値に基づいて決定された複数の文字列認識結果であることを特徴とする請求項3又は請求項7に記載の情報処理装置である。
請求項12に記載の発明は、入力画像を取得する画像取得手段と、前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段とを備え、前記出力手段は、前記入力画像と、前記認識テキストとを、当該認識テキストの認識確度が予め定められた閾値よりも小さい場合には、前記学習用データとして出力しないことを特徴とする情報処理装置である。
請求項13に記載の発明は、入力画像を取得する画像取得手段と、前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、前記入力テキストが当該入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する出力手段とを備えたことを特徴とする情報処理装置である。
請求項14に記載の発明は、前記入力画像中の文字の表記を変換することは、当該文字が示す情報を処理するために必要な変換処理として予め定められた変換処理を行うことを含むことを特徴とする請求項13に記載の情報処理装置である。
請求項15に記載の発明は、前記変換処理は、前記文字が示す情報の内容を変換せずに、当該文字が表す情報の表現形式を変換する処理であることを特徴とする請求項14に記載の情報処理装置である。
請求項16に記載の発明は、前記変換処理は、前記文字が示す情報の内容を、当該情報の上位概念を表すように変換する処理であることを特徴とする請求項14に記載の情報処理装置である。
請求項17に記載の発明は、コンピュータに、入力画像を取得する機能と、前記入力画像に関連付けて入力された入力テキストを取得する機能と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能とを実現させ、前記予め定められた条件は、前記認識テキストの表記を変換することにより得られた変換結果と、前記入力テキストとに関する第1の条件である、プログラムである。
請求項18に記載の発明は、コンピュータに、入力画像を取得する機能と、前記入力画像に関連付けて入力された入力テキストを取得する機能と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能とを備え、前記予め定められた条件は、前記認識テキストと、前記入力テキストの表記を逆変換することにより得られた複数の逆変換結果とに関する第2の条件である、プログラムである。
請求項19に記載の発明は、コンピュータに、入力画像を取得する機能と、前記入力画像に関連付けて入力された入力テキストを取得する機能と、前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、前記入力テキストが当該入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する機能とを実現させるためのプログラムである。
請求項1の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項2の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像と関連付けて入力された入力テキストの表記が変換されていても、入力テキストと認識テキストとの合致を検証することにより、文字認識の学習用データとすることができる。
請求項3の発明によれば、入力画像の文字認識を行うことにより1つの認識テキストのみを得る場合に比較して、入力画像の文字認識を行うことにより得られた認識テキストに誤認識があったとしても、文字認識の学習用データの量を多くすることができる。
請求項4の発明によれば、複数の認識テキストが入力テキストに合致する場合に、有用な認識テキストを文字認識の学習用データに含めることができる。
請求項5の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項6の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像と関連付けて入力された入力テキストの表記が変換されていても、入力テキストと認識テキストとの合致を検証することにより、文字認識の学習用データとすることができる。
請求項7の発明によれば、入力画像の文字認識を行うことにより1つの認識テキストのみを得る場合に比較して、入力画像の文字認識を行うことにより得られた認識テキストに誤認識があったとしても、文字認識の学習用データの量を多くすることができる。
請求項8の発明によれば、複数の認識テキストが入力テキストに合致する場合に、有用な認識テキストを文字認識の学習用データに含めることができる。
請求項9の発明によれば、入力画像の文字認識を行うことにより得られる複数の認識テキストを有用なものとすることができる。
請求項10の発明によれば、入力画像の文字認識を行うことにより得られる複数の認識テキストを有用なものとすることができる。
請求項11の発明によれば、入力画像の文字認識を行うことにより得られる複数の認識テキストを有用なものとすることができる。
請求項12の発明によれば、有用でない認識テキストを文字認識の学習用データから除外することができる。
請求項13の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項14の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストに対して、入力画像中の文字が示す情報を処理するために必要な変換処理として予め定められた変換処理が行われていても、文字認識の学習用データとすることができる。
請求項15の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストに対して、入力画像中の文字が示す情報の内容を変換せずに、その文字が表す情報の表現形式を変換する処理が行われていても、文字認識の学習用データとすることができる。
請求項16の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストに対して、入力画像中の文字が示す情報の内容を、その情報の上位概念を表すように変換する処理が行われていても、文字認識の学習用データとすることができる。
請求項17の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項18の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
請求項19の発明によれば、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力画像に関連付けて入力された入力テキストの表記が変換されていても、文字認識の学習用データとすることができる。
本発明の第1の実施の形態の概略動作を示した模式図である。 本発明の第1の実施の形態の概略動作を示した模式図である。 本発明の第1の実施の形態における学習用データ生成装置の機能構成例を示したブロック図である。 本発明の第1の実施の形態における学習用データ生成装置の動作例を示したフローチャートである。 本発明の第2の実施の形態の概略動作を示した模式図である。 本発明の第2の実施の形態における学習用データ生成装置の機能構成例を示したブロック図である。 本発明の第2の実施の形態における学習用データ生成装置の動作例を示したフローチャートである。 本発明の第3の実施の形態の概略動作を示した模式図である。 本発明の第3の実施の形態における学習用データ生成装置の機能構成例を示したブロック図である。 本発明の第3の実施の形態における学習用データ生成装置の動作例を示したフローチャートである。 本発明の第4の実施の形態の概略動作を示した模式図である。 本発明の第4の実施の形態における学習用データ生成装置の機能構成例を示したブロック図である。 本発明の第4の実施の形態における学習用データ生成装置の動作例を示したフローチャートである。 本発明の第1乃至第4の実施の形態における学習用データ生成装置のハードウェア構成例を示した図である。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
[本発明の実施の形態の背景]
文字認識器の学習には、学習用画像と正解テキストとからなる学習用データが必要となる。このうち、学習用画像は、文字列を画像化した文字列画像である。一文字だけを画像化した単文字画像も、一文字しかない場合の文字列画像と考えられるので、文字列画像に含まれる。また、正解テキストとは、文字列の各文字に対する文字コードを並べた文字列テキストデータである。一文字に対する文字コードも、一文字しかない場合の文字列テキストデータと考えられるので、文字列テキストデータに含まれる。
ここで、学習用画像は、例えば、文字列が印刷又は筆記された紙をスキャン又は撮影することにより取得される。或いは、文字列のフォントデータを画像化することによって取得してもよいし、タブレット等の入力装置から入力された文字列のデータを画像化することによって取得してもよい。これに対し、正解テキストを入手するためには、人が手でキーパンチを行う必要がある。正解テキストが誤っている場合、学習結果も誤ることになるため、正解テキストは正確である必要がある。そのため、正解テキストの作成には、人手による入力作業や確認作業といった多大な手間やコストが必要となる。
従って、一般に行われているデータエントリ業務で入力されたテキストを正解テキストとして用いることが考えられる。元々データエントリ業務のために使われていたコストによって正解テキストが作成されるので、正解テキストを作成するためのコストが抑えられるからである。
ここで、データエントリ業務とは、画像データの中でテキストとして処理される可能性がある項目について、人がキーパンチによりテキストのデータを入力する業務である。つまり、画像データをテキストのデータに変換する業務である。或いは、画像データにOCR(Optical Character Recognition)を実施した認識結果を人がキーパンチで修正することによりテキストのデータを入力する業務でもよい。データエントリ業務の結果として入力されたテキストのデータは、例えば電子的なデータとしてデータベースに格納され、各種の処理で用いられる。以下、このようにして入力され、データベースに格納されたテキストのデータを「入力済みテキスト」と呼ぶことにする。この入力済みテキストは、処理に応じた精度を保証することが求められる。従って、入力済みテキストを用いると、所望の精度で入力された正解テキストが取得される。
しかしながら、入力済みテキストを正解テキストとして用いる場合、以下の問題がある。例えば、人がテキストを入力する際に、画像中に記載されている内容をそのまま入力するとは限らないので、入力されたテキストをそのまま正解テキストとして用いることができない場合があるという問題である。入力済みテキストをそのまま業務フローに流したいため、紙に書いてある内容を人が解釈してデータベースに格納するのに適した形式に表記変換してしまうのがその理由である。或いは、キーボードに制限がある場合、そのキーボードで入力できるように表記変換するという理由もある。
以下、この表記変換について、年を示すデータ項目を例にとって、説明する。ここでは、年を記入することのみが指示された記入枠があるとする。このような記入枠には、様々な形式で記入が行われる可能性がある。例えば、「1996年」、「1996」、「平成8年」、「‘96年」等である。これに対し、データベースには、この記入枠に紐付けられたデータ項目があり、このデータ項目に、年のデータを、西暦の年表記における4桁の数字で格納しなければならないとする。この場合、人は、様々な形式で記入された年を、西暦の年表記における4桁の数字に変換して入力しなければならない。
その結果、データベースには入力済みテキストとして4桁の数字が格納される。一方、記入枠内には、年を示す文字列が様々な形式で筆記されている。これらの文字列は全て入力済みテキストと同じ意味を持っているので、同じものとして扱うことが望ましい。
[本発明の実施の形態の概要]
そこで、本発明の実施の形態では、画像中に記載されている文字と、入力済みテキストとが異なっていても、文字認識器の学習ができるようにした。具体的には、画像中の文字と入力済みテキストとが異なっていても予め定められた条件を満たしていれば、画像中の文字とこれにOCRを実施することで得られたOCR結果とを文字認識器の学習用データとして採用するようにした。尚、この予め定められた条件としては、画像中の文字にOCRを実施して得られたOCR結果に対して表記変換を行うことで得られた表記変換結果と、入力済みテキストとに関する条件(以下、「第1の条件」という)がある。或いは、画像中の文字にOCRを実施して得られたOCR結果と、入力済みテキストに対して逆表記変換を行うことで得られた複数の逆表記変換結果とに関する条件(以下、「第2の条件」という)もある。
[第1の実施の形態]
第1の実施の形態は、上述した第1の条件として、表記変換結果が入力済みテキストに合致するという条件を採用した場合の実施の形態である。
まず、第1の実施の形態の概略動作について説明する。
図1-1及び図1-2(a),(b)は、第1の実施の形態の概略動作を示した模式図である。
最初に、データエントリ業務により、帳票に記入された文字列を人が確認しキーパンチによりテキストデータとしてデータベースに入力する作業を説明する。データエントリ業務の従事者は、図1-2(a)に示す帳票18aに記されたデータをキーパンチしてデータベース19に入力する。帳票にはそれぞれを識別する帳票IDが記載され、この帳票IDと共に記入されたテキストの文字列が入力される。帳票18aには、帳票IDとして「1234」が割り当てられており、生年月日の欄には「1996年10月9日」、氏名の欄には「山本太郎」が手書き文字で記入されている。データベース19に登録すべきデータの表記としては、帳票IDは4桁の数字であり、生年月日は、年が西暦の年表記の4桁の数字であり、月日がそれぞれ2桁の数字からなる合計4桁の数字である。また、名前は、姓と名の間に空白を開けずに表記した文字列である。データエントリ業務の従事者は、この帳票18aを見ながら、帳票IDとして「1234」、生年月日として「19961009」、名前として「山本太郎」のそれぞれの文字列のテキストデータを、データベース19の表記に合わせて入力する。図1-2(b)に示す帳票18bについても、帳票IDとして「5678」、生年月日として「19960513」、名前として「田中一郎」のそれぞれの文字列のテキストデータを、データベース19の表記に合わせて入力する。これにより、図1-1でデータベース19内に記載した形式のデータが、データベース19に入力される。このデータが入力済みテキストとして利用されることになる。
次に、入力画像と入力済みテキストを合致させて学習用データを出力する処理を説明する。
図1-1の左側には、OCR部12が、入力された帳票18aの年の枠に書かれた「1996年」を画像化した入力画像にOCRを実施し、正しく認識してOCR結果「1996年」を取得した場合について示している。この場合は、表記変換部13が、OCR結果「1996年」に対し、各種の年表記を西暦の年表記における4桁の数字に変換する表記変換を行って、表記変換結果「1996」を取得する。そして、突合部16が、表記変換結果「1996」と、データベース19に格納された、入力画像すなわち入力された帳票18aに割り当てられた帳票ID「1234」に対応する入力済みテキスト「1996」とを突合し、表記変換結果と入力済みテキストとが合致すると判定する。従って、入力画像が学習用画像として採用され、OCR結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。尚、上記の帳票ID「1234」は、帳票18aを読み込んだ画像からOCRで取得してもよいし、帳票18aの右上部分に付加されたバーコード画像を認識することにより取得してもよい。
一方、図1-1の右側には、OCR部12が、入力された帳票18bの年の枠に書かれた「平成8年」を画像化した入力画像にOCRを実施し、誤って認識してOCR結果「平成9年」を取得した場合について示している。この場合は、表記変換部13が、OCR結果「平成9年」に対し、各種の年表記を西暦の年表記における4桁の数字に変換する表記変換を行って、表記変換結果「1997」を取得する。そして、突合部16が、表記変換結果「1997」と、データベース19に格納された入力画像すなわち入力された帳票18bに割り当てられた帳票ID「5678」に対応する入力済みテキスト「1996」とを突合し、表記変換結果と入力済みテキストとが合致しないと判定する。従って、入力画像及びOCR結果は学習用データとして採用されない。尚、上記の帳票ID「5678」は、帳票18bを読み込んだ画像からOCRで取得してもよいし、帳票18bの右上部分に付加されたバーコード画像を認識することにより取得してもよい。
次に、このような概略動作を行う学習用データ生成装置について詳細に説明する。
図2は、第1の実施の形態における学習用データ生成装置10の機能構成例を示したブロック図である。図示するように、第1の実施の形態における学習用データ生成装置10は、入力画像受付部11と、OCR部12と、表記変換部13と、入力済みテキスト受付部14と、突合部16と、学習用データ出力部17とを備える。
入力画像受付部11は、外部から入力画像が入力されると、これを受け付けて出力する。本実施の形態では、入力画像を取得する画像取得手段の一例として、入力画像受付部11を設けている。
OCR部12は、入力画像受付部11にて受け付けた入力画像にOCRを適用して、OCR結果であるテキストを出力する。本実施の形態では、入力画像の文字認識を行うことにより得られた認識テキストの一例として、OCR結果を用いている。
表記変換部13は、OCR部12により出力されたOCR結果に対して表記変換を行い、表記変換結果であるテキストを出力する。本実施の形態では、認識テキストの表記を変換することにより得られた変換結果の一例として、表記変換結果を用いている。
入力済みテキスト受付部14は、例えば入力画像に関連付けてデータエントリされた入力済みテキストが外部から入力されると、これを受け付けて出力する。本実施の形態では、入力画像に関連付けて入力された入力テキストの一例として、入力済みテキストを用いており、入力テキストを取得するテキスト取得手段の一例として、入力済みテキスト受付部14を設けている。
突合部16は、表記変換部13により出力された表記変換結果と、入力済みテキスト受付部14にて受け付けた入力済みテキストとが同じであるかどうかを判定する突合を行う。そして、表記変換結果と入力済みテキストとが同じであると判定すれば、つまり、突合の結果が合致であれば、合致信号を出力し、表記変換結果と入力済みテキストとが同じでないと判定すれば、つまり、突合の結果が非合致であれば、非合致信号を出力する。
学習用データ出力部17は、入力画像受付部11から入力画像を受け取り、OCR部12からOCR結果を受け取り、突合部16から合致信号又は非合致信号を受け取る。そして、突合部16から合致信号を受け取った場合は、入力画像受付部11から受け取った入力画像を学習用画像とし、OCR部12から受け取ったOCR結果を正解テキストとし、これらのペアを学習用データとして出力し、突合部16から非合致信号を受け取った場合は、入力画像受付部11から受け取った入力画像及びOCR部12から受け取ったOCR結果を出力しない。本実施の形態では、入力画像と認識テキストとを、認識テキストと入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段の一例として、学習用データ出力部17を設けている。
図3は、第1の実施の形態における学習用データ生成装置10の動作例を示したフローチャートである。
図示するように、学習用データ生成装置10では、まず、入力画像受付部11が、入力画像の入力を受け付け、入力済みテキスト受付部14が、入力画像に対してデータエントリされた入力済みテキストの入力を受け付ける(ステップ101)。
すると、OCR部12が、ステップ101で受け付けた入力画像にOCRを適用して、OCR結果であるテキストを出力する(ステップ102)。そして、表記変換部13が、ステップ102で出力されたOCR結果に対して表記変換を行って、表記変換結果であるテキストを出力する(ステップ103)。
これにより、突合部16が、ステップ103で出力された表記変換結果と、ステップ101で受け付けた入力済みテキストとを突合する(ステップ104)。
その後、学習用データ出力部17が、ステップ104における突合の結果が合致であるかどうかを判定する(ステップ105)。その結果、突合の結果が合致であると判定すれば、ステップ101で受け付けた入力画像及びステップ102で出力されたOCR結果のペアを学習用データとして出力し(ステップ106)、処理を終了する。一方、突合の結果が非合致であると判定すれば、ステップ101で受け付けた入力画像及びステップ102で出力されたOCR結果を学習データとして出力することなく、処理を終了する。
ここで、ある文字に対して表記変換を行うとは、データエントリ業務の観点から捉えると、その文字が示す情報を処理するために必要な変換処理として予め定められた変換処理を行うことであると言うことができる。以下、第1の実施の形態における表記変換の例を示す。尚、本明細書では、主として年表記に関する表記変換を例示するが、以下に示す通り、表記変換は年表記に限るものではない。
(1)年表記の変換
年の様々な表記形式を標準的な表記形式に変換することが考えられる。例えば、「*年」を「*」に変換するように、西暦の年表記の「年」を除去する変換がある。また、「平成*年」を「YYYY」に変換するように、平成の年表記を西暦の年表記における4桁の数字とする変換もある。これは、「平成」だけでなく、他の元号について適用可能である。更に、「‘??年」を「19??」とする変換や、「‘??年」を「20??」とする変換もある。更にまた、「平成*」を「YYYY」に変換するように、平成の年表記(「年」がない)を西暦の年表記における4桁の数字とする変換もある。これも、「平成」だけでなく、他の元号について適用可能である。尚、上記において、「*」は任意の数字とし、「?」は任意の1桁の数字とする。
(2)日付表記の変換
日付の様々な表記形式を標準的な表記形式に変換することが考えられる。例えば、「YYYY年MM月DD日」を「YYYY/MM/DD」とする変換がある。
(3)住所表記の変換
住所の様々な表記形式を標準的な表記形式に変換することが考えられる。例えば、「一丁目5番6号」を「1-5-6」とする変換がある。
(4)アルファベットの大文字及び小文字間の変換
アルファベットの大文字を小文字で入力する仕様の場合は、大文字を小文字に変換することが考えられる。或いは、メールアドレスの大文字と小文字とが混在した表記形式を標準的な表記形式に変換することが考えられる。
(5)漢数字及びアラビア数字間の変換
漢数字をアラビア数字で入力する仕様の場合は、漢数字をアラビア数字に変換することが考えられる。例えば、「千五十」を「1050」とする変換がある。
(6)旧字体から新字体への変換
例えば旧字体が入力できない場合等に、旧字体を新字体に変換することが考えられる。
(7)同じ概念を表す標準的な表記への変換
ある概念を表すのに通常よく用いられる表記をその概念を表す標準的な表記に変換することが考えられる。例えば、「盲腸」を「急性虫垂炎」とする変換がある。
(8)上位概念を表す表記への変換
ある概念を表す表記をその概念の上位概念を表す表記に変換することが考えられる。例えば、ある菓子を表す表記を、その菓子のカテゴリー(チョコレート菓子等)を表す表記とする変換がある。
尚、このうち、(1)~(7)の表記変換は、文字が示す情報の内容を変換せずにその文字が表す情報の表現形式を変換する表記変換の一例である。また、(8)の表記変換は、文字が示す情報の内容をその情報の上位概念を表すように変換する表記変換の一例である。
[第2の実施の形態]
第2の実施の形態は、上述した第2の条件として、OCR結果が複数の逆表記変換結果の何れかに合致するという条件を採用した場合の実施の形態である。
まず、第2の実施の形態の概略動作について説明する。
図4は、第2の実施の形態の概略動作を示した模式図である。
第2の実施の形態では、図の中央に示すように、逆表記変換部25が、データベース29に格納された入力画像に対応する入力済みテキスト「1996」に対し、西暦の年表記における4桁の数字を各種の年表記に変換する逆表記変換を行って、複数の逆表記変換結果「1996」、「1996年」、「平成8年」、「‘96」、「平成8」、「96」を取得する。
図の左側には、OCR部22が、「1996年」を画像化した入力画像にOCRを実施し、正しく認識してOCR結果「1996年」を取得した場合について示している。この場合は、突合部26が、OCR結果「1996年」と、複数の逆表記変換結果「1996」、「1996年」、「平成8年」、「‘96」、「平成8」、「96」とを突合し、OCR結果に合致する逆表記変換結果が複数の逆表記変換結果の中にあると判定する。従って、入力画像が学習用画像として採用され、OCR結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。
一方、図の右側には、OCR部22が、「平成8年」を画像化した入力画像にOCRを実施し、誤って認識してOCR結果「平成9年」を取得した場合について示している。この場合は、突合部26が、OCR結果「平成9年」と、複数の逆表記変換結果「1996」、「1996年」、「平成8年」、「‘96」、「平成8」、「96」とを突合し、OCR結果に合致する逆表記変換結果が複数の逆表記変換結果の中にないと判定する。従って、入力画像及びOCR結果は学習用データとして採用されない。
次に、このような概略動作を行う学習用データ生成装置について詳細に説明する。
図5は、第2の実施の形態における学習用データ生成装置20の機能構成例を示したブロック図である。図示するように、第2の実施の形態における学習用データ生成装置20は、入力画像受付部21と、OCR部22と、入力済みテキスト受付部24と、逆表記変換部25と、突合部26と、学習用データ出力部27とを備える。
入力画像受付部21、OCR部22、入力済みテキスト受付部24、及び、学習用データ出力部27は、それぞれ、第1の実施の形態における入力画像受付部11、OCR部12、入力済みテキスト受付部14、及び、学習用データ出力部17と同じなので、説明を省略する。
逆表記変換部25は、入力済みテキスト受付部24にて受け付けた入力済みテキストに対して逆表記変換を行い、複数の逆表記変換結果であるテキストを出力する。本実施の形態では、入力テキストの表記を変換することにより得られた複数の変換結果の一例として、複数の逆表記変換結果を用いている。
突合部26は、OCR部22により出力されたOCR結果が、逆表記変換部25により出力された複数の逆表記変換結果の中にあるかどうかを判定する突合を行う。そして、OCR結果が複数の逆表記変換結果の中にあると判定すれば、つまり、突合の結果が合致であれば、合致信号を出力し、OCR結果が複数の逆表記変換結果の中にないと判定すれば、つまり、突合の結果が非合致であれば、非合致信号を出力する。
図6は、第2の実施の形態における学習用データ生成装置20の動作例を示したフローチャートである。
図示するように、学習用データ生成装置20では、まず、入力画像受付部21が、入力画像の入力を受け付け、入力済みテキスト受付部24が、入力画像に対してデータエントリされた入力済みテキストの入力を受け付ける(ステップ201)。
すると、OCR部22が、ステップ201で受け付けた入力画像にOCRを適用して、OCR結果であるテキストを出力する(ステップ202)。
また、逆表記変換部25が、ステップ201で受け付けた入力済みテキストに対して逆表記変換を行って、複数の逆表記変換結果であるテキストを出力する(ステップ203)。
これにより、突合部26が、ステップ202で出力されたOCR結果と、ステップ203で出力された複数の逆表記変換結果とを突合する(ステップ204)。
その後、学習用データ出力部27が、ステップ204における突合の結果が合致であるかどうかを判定する(ステップ205)。その結果、突合の結果が合致であると判定すれば、ステップ201で受け付けた入力画像及びステップ202で出力されたOCR結果のペアを学習用データとして出力し(ステップ206)、処理を終了する。一方、突合の結果が非合致であると判定すれば、ステップ201で受け付けた入力画像及びステップ202で出力されたOCR結果を学習データとして出力することなく、処理を終了する。
尚、上記では、学習用データとしてOCR結果を出力することとしたが、ステップ205で合致すると判定された逆表記変換結果も同じテキストであるため、これを学習用データとして出力してもよい。
ここで、ある文字を逆表記変換するとは、表記変換を行うとその文字となるテキストを全て列挙することである。尚、表記変換については、第1の実施の形態で述べたので、説明を省略する。
[第3の実施の形態]
第3の実施の形態は、上述した第1の条件として、複数の表記変換結果の中に入力済みテキストに合致する表記変換結果があるという条件を採用した場合の実施の形態である。
まず、第3の実施の形態の概略動作について説明する。
図7は、第3の実施の形態の概略動作を示した模式図である。
図の左側には、OCR部32が、「1996年」を画像化した入力画像にOCRを実施し、正しく認識した結果を第1の候補として含み、誤って認識した結果も第2の候補として含む複数のOCR結果「1996年」、「1998年」を取得した場合について示している。この場合は、表記変換部33が、複数のOCR結果「1996年」、「1998年」に対し、各種の年表記を西暦の年表記における4桁の数字に変換する表記変換を行って、複数の表記変換結果「1996」、「1998」を取得する。そして、突合部36が、複数の表記変換結果「1996」、「1998」と、データベース39に格納された入力画像に対応する入力済みテキスト「1996」とを突合し、複数の表記変換結果の中に入力済みテキストに合致する表記変換結果があると判定する。従って、入力画像が学習用画像として採用され、複数のOCR結果のうちの入力済みテキストに合致する表記変換結果の元となるOCR結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。
一方、図の右側には、OCR部32が、「平成8年」を画像化した入力画像にOCRを実施し、誤って認識した結果を第1の候補として含み、正しく認識した結果も第2の候補として含む複数のOCR結果「平成9年」、「平成8年」を取得した場合について示している。この場合は、表記変換部33が、複数のOCR結果「平成9年」、「平成8年」に対し、各種の年表記を西暦の年表記における4桁の数字に変換する表記変換を行って、複数の表記変換結果「1997」、「1996」を取得する。そして、突合部36が、複数の表記変換結果「1997」、「1996」と、データベース39に格納された入力画像に対応する入力済みテキスト「1996」とを突合し、複数の表記変換結果の中に入力済みテキストに合致する表記変換結果があると判定する。従って、この場合も、入力画像が学習用画像として採用され、複数のOCR結果のうちの入力済みテキストに合致する表記変換結果の元となるOCR結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。
次に、このような概略動作を行う学習用データ生成装置について詳細に説明する。
図8は、第3の実施の形態における学習用データ生成装置30の機能構成例を示したブロック図である。図示するように、第3の実施の形態における学習用データ生成装置30は、入力画像受付部31と、OCR部32と、表記変換部33と、入力済みテキスト受付部34と、突合部36と、学習用データ出力部37とを備える。
入力画像受付部31及び入力済みテキスト受付部34は、それぞれ、第1の実施の形態における入力画像受付部11及び入力済みテキスト受付部14と同じなので、説明を省略する。
OCR部32は、入力画像受付部31にて受け付けた入力画像にOCRを適用して、複数のOCR結果であるテキストを出力する。本実施の形態では、入力画像の文字認識を行うことにより得られた複数の認識テキストの一例として、複数のOCR結果を用いている。
表記変換部33は、OCR部32により出力された複数のOCR結果に対して表記変換を行い、複数の表記変換結果であるテキストを出力する。本実施の形態では、複数の認識テキストの表記を変換することにより得られた複数の変換結果の一例として、複数の表記変換結果を用いている。
突合部36は、表記変換部33により出力された複数の表記変換結果の中に、入力済みテキスト受付部34にて受け付けた入力済みテキストがあるかどうかを判定する突合を行う。そして、複数の表記変換結果の中に入力済みテキストがあると判定すれば、つまり、突合の結果が合致であれば、合致信号を出力し、複数の表記変換結果の中に入力済みテキストがないと判定すれば、つまり、突合の結果が非合致であれば、非合致信号を出力する。
学習用データ出力部37は、入力画像受付部31から入力画像を受け取り、OCR部32から複数のOCR結果を受け取り、突合部36から合致信号又は非合致信号を受け取る。そして、突合部36から合致信号を受け取った場合は、入力画像受付部31から受け取った入力画像を学習用画像とし、OCR部32から受け取った複数のOCR結果のうち入力済みテキストに合致する表記変換結果の元となるOCR結果を正解テキストとし、これらのペアを学習用データとして出力し、突合部36から非合致信号を受け取った場合は、入力画像受付部31から受け取った入力画像及びOCR部32から受け取った複数のOCR結果の何れも出力しない。本実施の形態では、入力画像と認識テキストとを、認識テキストと入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段の一例として、学習用データ出力部37を設けている。
図9は、第3の実施の形態における学習用データ生成装置30の動作例を示したフローチャートである。
図示するように、学習用データ生成装置30では、まず、入力画像受付部31が、入力画像の入力を受け付け、入力済みテキスト受付部34が、入力画像に対してデータエントリされた入力済みテキストの入力を受け付ける(ステップ301)。
すると、OCR部32が、ステップ301で受け付けた入力画像にOCRを適用して、複数のOCR結果であるテキストを出力する(ステップ302)。そして、表記変換部33が、ステップ302で出力された複数のOCR結果に対して表記変換を行って、複数の表記変換結果であるテキストを出力する(ステップ303)。
これにより、突合部36が、ステップ303で出力された複数の表記変換結果と、ステップ301で受け付けた入力済みテキストとを突合する(ステップ304)。
その後、学習用データ出力部37が、ステップ304における突合の結果が合致であるかどうかを判定する(ステップ305)。その結果、突合の結果が合致であると判定すれば、ステップ301で受け付けた入力画像及びステップ302で出力された複数のOCR結果のうち入力済みテキストに合致した表記変換結果の元となるOCR結果のペアを学習用データとして出力し(ステップ306)、処理を終了する。一方、突合の結果が非合致であると判定すれば、ステップ301で受け付けた入力画像及びステップ302で出力された複数のOCR結果の何れも学習データとして出力することなく、処理を終了する。
ここで、表記変換については、第1の実施の形態で述べたので、説明を省略する。
また、第3の実施の形態においてOCR部32が複数のOCR結果を取得する方法の例を示す。
第一に、OCR部32は、入力画像中の各文字について文字認識結果の複数の候補を得ることができる。従って、OCR部32が、文字ごとに文字認識結果を別の候補に変更することにより、複数のOCR結果を取得する方法がある。この場合、複数のOCR結果は、入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、文字列の各文字について各文字の文字認識を行うことにより得られた少なくとも1つの文字認識結果の何れかをそれぞれ含む複数の文字列認識結果の一例である。
第二に、OCR部32が、例えば特開2012-118650号公報に示されるように、文字認識結果の候補を用いてグラフ構造を生成し、文頭から文末に至る全てのパスを文字列認識結果の候補とする。その際、OCR部32が、パスの評価値を算出し、この評価値が上位のものから予め定められた個数のパス、つまり、文字列認識結果を選択することにより、複数のOCR結果を取得する方法がある。この場合、複数のOCR結果は、入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、文字列の各文字について各文字の文字認識を行うことにより得られた少なくとも1つの文字認識結果の何れを含むかに応じてそれぞれに与えられた評価値に基づいて決定された複数の文字列認識結果の一例である。
第三に、OCR部32が、例えば特開2014-21883号公報に示されるように、正規表現に合致する文字列認識結果だけを取得する方法がある。この方法は、正規表現で限定することによって、より確からしい文字列認識結果を取得する方法である。ここで、正規表現としては、例えば、「平成¥d{1,2}年」がある。これは、「平成?年」又は「平成??年」を意味する。また、「¥d{4}」もある。これは、「????」を意味する。更に、「西暦¥d{4}年」もある。これは、「西暦????年」を意味する。尚、上記において、「?」は、アラビア数字1文字を示すものとする。この場合、複数のOCR結果は、入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、複数の文字列様式にそれぞれ合致する複数の文字列認識結果の一例である。また、正規表現は、文字列様式の一例である。
更に、突合部36による突合で複数の表記変換結果が入力済みテキストに合致すると判定された場合に、学習用データ出力部37が複数の表記変換結果の元となる複数のOCR結果から1つのOCR結果を選択する方法について説明する。
この場合、学習用データ出力部37は、文字列認識結果における確度に応じて1つのOCR結果を選択すればよい。例えば、文字列認識結果における確度が最大のOCR結果を選択すればよい。ここで、文字列認識結果における確度としては、特開2012-118650号公報や特開2016-212473号公報に示されているもの等、様々なものを用いてよい。或いは、単文字認識結果における確度、確信度、距離等の値を用いて、文字列中の文字の確度の最小値、最大値、平均値、中央値等の統計的な値を求め、これを文字列認識結果における確度として用いてもよい。
[第4の実施の形態]
第4の実施の形態は、上述した第2の条件として、複数のOCR結果の中に複数の逆表記変換結果の何れかに合致するOCR結果があるという条件を採用した場合の実施の形態である。
まず、第4の実施の形態の概略動作について説明する。
図10は、第4の実施の形態の概略動作を示した模式図である。
第4の実施の形態では、図の中央に示すように、逆表記変換部45が、データベース49に格納された入力画像に対応する入力済みテキスト「1996」に対し、西暦の年表記における4桁の数字を各種の年表記に変換する逆表記変換を行って、複数の逆表記変換結果「1996」、「1996年」、「平成8年」、「‘96」、「平成8」、「96」を取得する。
図の左側には、OCR部42が、「1996年」を画像化した入力画像にOCRを実施し、正しく認識した結果を第1の候補として含み、誤って認識した結果も第2の候補として含む複数のOCR結果「1996年」、「1998年」を取得した場合について示している。この場合は、突合部46が、複数のOCR結果「1996年」、「1998年」と、複数の逆表記変換結果「1996」、「1996年」、「平成8年」、「‘96」、「平成8」、「96」とを突合し、複数のOCR結果の中に複数の逆表記変換結果の何れかに合致するOCR結果があると判定する。従って、入力画像が学習用画像として採用され、複数のOCR結果のうちの複数の逆表記変換結果の何れかに合致するOCR結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。
一方、図の右側には、OCR部42が、「平成8年」を画像化した入力画像にOCRを実施し、誤って認識した結果を第1の候補として含み、正しく認識した結果も第2の候補として含む複数のOCR結果「平成9年」、「平成8年」を取得した場合について示している。この場合は、突合部46が、複数のOCR結果「平成9年」、「平成8年」と、複数の逆表記変換結果「1996」、「1996年」、「平成8年」、「‘96」、「平成8」、「96」とを突合し、複数のOCR結果の中に複数の逆表記変換結果の何れかに合致するOCR結果があると判定する。従って、この場合も、入力画像が学習用画像として採用され、複数のOCR結果のうちの複数の逆表記変換結果の何れかに合致するOCR結果が正解テキストとして採用され、学習用画像と正解テキストからなる学習用データが出力される。
次に、このような概略動作を行う学習用データ生成装置について詳細に説明する。
図11は、第4の実施の形態における学習用データ生成装置40の機能構成例を示したブロック図である。図示するように、第4の実施の形態における学習用データ生成装置40は、入力画像受付部41と、OCR部42と、入力済みテキスト受付部44と、逆表記変換部45と、突合部46と、学習用データ出力部47とを備える。
入力画像受付部41及び入力済みテキスト受付部44は、それぞれ、第1の実施の形態における入力画像受付部11及び入力済みテキスト受付部14と同じなので、説明を省略する。
OCR部42は、入力画像受付部41にて受け付けた入力画像にOCRを適用して、複数のOCR結果であるテキストを出力する。本実施の形態では、入力画像の文字認識を行うことにより得られた複数の認識テキストの一例として、複数のOCR結果を用いている。
逆表記変換部45は、入力済みテキスト受付部44にて受け付けた入力済みテキストに対して逆表記変換を行い、複数の逆表記変換結果であるテキストを出力する。本実施の形態では、入力テキストの表記を変換することにより得られた複数の変換結果の一例として、複数の逆表記変換結果を用いている。
突合部46は、OCR部42により出力された複数のOCR結果の中に、逆表記変換部45により出力された複数の逆表記変換結果の何れかがあるかどうかを判定する突合を行う。そして、複数のOCR結果の中に複数の逆表記変換結果の何れかがあると判定すれば、つまり、突合の結果が合致であれば、合致信号を出力し、複数のOCR結果の中に複数の逆表記変換結果の何れもないと判定すれば、つまり、突合の結果が非合致であれば、非合致信号を出力する。
学習用データ出力部47は、入力画像受付部41から入力画像を受け取り、OCR部42から複数のOCR結果を受け取り、突合部46から合致信号又は非合致信号を受け取る。そして、突合部46から合致信号を受け取った場合は、入力画像受付部41から受け取った入力画像を学習用画像とし、OCR部42から受け取った複数のOCR結果のうち複数の逆表記変換結果の何れかに合致するOCR結果を正解テキストとし、これらのペアを学習用データとして出力し、突合部46から非合致信号を受け取った場合は、入力画像受付部41から受け取った入力画像及びOCR部42から受け取った複数のOCR結果の何れも出力しない。本実施の形態では、入力画像と認識テキストとを、認識テキストと入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段の一例として、学習用データ出力部47を設けている。
図12は、第4の実施の形態における学習用データ生成装置40の動作例を示したフローチャートである。
図示するように、学習用データ生成装置40では、まず、入力画像受付部41が、入力画像の入力を受け付け、入力済みテキスト受付部44が、入力画像に対してデータエントリされた入力済みテキストの入力を受け付ける(ステップ401)。
すると、OCR部42が、ステップ401で受け付けた入力画像にOCRを適用して、複数のOCR結果であるテキストを出力する(ステップ402)。
また、逆表記変換部45が、ステップ401で受け付けた入力済みテキストに対して逆表記変換を行って、複数の逆表記変換結果であるテキストを出力する(ステップ403)。
これにより、突合部46が、ステップ402で出力された複数のOCR結果と、ステップ403で出力された複数の逆表記変換結果とを突合する(ステップ404)。
その後、学習用データ出力部47が、ステップ404における突合の結果が合致であるかどうかを判定する(ステップ405)。その結果、突合の結果が合致であると判定すれば、ステップ401で受け付けた入力画像及びステップ402で出力された複数のOCR結果のうち複数の逆表記変換結果の何れかに合致したOCR結果とのペアを学習用データとして出力し(ステップ406)、処理を終了する。一方、突合の結果が非合致であると判定すれば、ステップ401で受け付けた入力画像及びステップ402で出力された複数のOCR結果の何れも学習データとして出力することなく、処理を終了する。
ここで、逆表記変換については、第2の実施の形態で述べたので、説明を省略する。
また、第4の実施の形態においてOCR部42が複数のOCR結果を取得する方法は、第3の実施の形態においてOCR部32が複数のOCR結果を取得する方法と同じなので、説明を省略する。
更に、突合部46による突合で複数のOCR結果が複数の逆表記変換結果の何れかに合致すると判定された場合に、学習用データ出力部47が複数のOCR結果から1つのOCR結果を選択する方法について説明する。
この場合、学習用データ出力部47は、文字列認識結果における確度に応じて1つのOCR結果を選択すればよい。例えば、文字列認識結果における確度が最大のOCR結果を選択すればよい。ここで、文字列認識結果における確度としては、特開2012-118650号公報や特開2016-212473号公報に示されているもの等、様々なものを用いてよい。或いは、単文字認識結果における確度、確信度、距離等の値を用いて、文字列中の文字の確度の最小値、最大値、平均値、中央値等の統計的な値を求め、これを文字列認識結果における確度として用いてもよい。
[変形例]
第1乃至第4の実施の形態において、突合部16~46による突合の結果が合致であったとしても、学習用データ出力部17~47が入力画像及びOCR結果を学習用データとして出力しない、という構成としてもよい。即ち、文字列の認識結果における確度値が予め定めた閾値以下である場合には学習用データとして採用しないようにしてもよい。
[学習用データ生成装置のハードウェア構成]
第1乃至第4の実施の形態における学習用データ生成装置10~40は、汎用のコンピュータにより実現される。そこで、学習用データ生成装置10~40がコンピュータ90により実現されるものとして、このコンピュータ90のハードウェア構成について説明する。
図13は、コンピュータ90のハードウェア構成を示した図である。図示するように、コンピュータ90は、演算手段であるCPU91と、記憶手段であるメインメモリ92及びHDD(Hard Disk Drive)93とを備える。ここで、CPU91は、OS(Operating System)やアプリケーション等の各種ソフトウェアを実行し、上述した各処理部を実現する。また、メインメモリ92は、各種ソフトウェアやその実行に用いるデータ等を記憶し、HDD93は、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶し、これらの一方又は両方が各記憶部を実現する。更に、コンピュータ90は、外部との通信を行うための通信インターフェース(図では「通信I/F」と表記)94と、ディスプレイ等の表示デバイス95と、キーボードやマウス等の入力デバイス96とを備える。
[プログラム]
第1乃至第4の本実施の形態における学習用データ生成装置10~40が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。
即ち、第1乃至第4の実施の形態を実現するプログラムは、コンピュータに、入力画像を取得する機能と、入力画像に関連付けて入力された入力テキストを取得する機能と、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、認識テキストと入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能とを実現させるためのプログラムとして捉えられる。
また、第1乃至第4の実施の形態を実現するプログラムは、コンピュータに、入力画像を取得する機能と、入力画像に関連付けて入力された入力テキストを取得する機能と、入力画像と、入力画像の文字認識を行うことにより得られた認識テキストとを、入力テキストが入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する機能とを実現させるためのプログラムとしても捉えられる。
尚、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD-ROM等の記録媒体に格納して提供することも可能である。
10,20,30,40…学習用データ生成装置、11,21,31,41…入力画像受付部、12,22,32,42…OCR部、13,33…表記変換部、14,24,34,44…入力済みテキスト受付部、25,45…逆表記変換部、16,26,36,46…突合部、17,27,37,47…学習用データ出力部

Claims (19)

  1. 入力画像を取得する画像取得手段と、
    前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、
    前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段と
    を備え、
    前記予め定められた条件は、前記認識テキストの表記を変換することにより得られた変換結果と、前記入力テキストとに関する第1の条件であることを特徴とする情報処理装置。
  2. 前記第1の条件は、前記変換結果が前記入力テキストに合致するという条件であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1の条件は、前記変換結果が、前記入力画像の文字認識を行うことにより得られた複数の認識テキストの表記を変換することにより得られた複数の変換結果のうち、前記入力テキストに合致するものである、という条件であることを特徴とする請求項1に記載の情報処理装置。
  4. 2以上の変換結果が前記入力テキストに合致する場合に、前記認識テキストは、当該2以上の変換結果を得るために表記が変換された2以上の認識テキストから認識確度に応じて選択されたものであることを特徴とする請求項3に記載の情報処理装置。
  5. 入力画像を取得する画像取得手段と、
    前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、
    前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段と
    を備え、
    前記予め定められた条件は、前記認識テキストと、前記入力テキストの表記を逆変換することにより得られた複数の逆変換結果とに関する第2の条件であることを特徴とする情報処理装置。
  6. 前記第2の条件は、前記認識テキストが前記複数の逆変換結果の何れかに合致するという条件であることを特徴とする請求項5に記載の情報処理装置。
  7. 前記第2の条件は、前記認識テキストが、前記入力画像の文字認識を行うことにより得られた複数の認識テキストのうち、前記複数の逆変換結果の何れかに合致するものである、という条件であることを特徴とする請求項5に記載の情報処理装置。
  8. 2以上の認識テキストが前記複数の逆変換結果の何れかに合致する場合に、前記認識テキストは、当該2以上の認識テキストから認識確度に応じて選択されたものであることを特徴とする請求項7に記載の情報処理装置。
  9. 前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、複数の文字列様式にそれぞれ合致する複数の文字列認識結果であることを特徴とする請求項3又は請求項7に記載の情報処理装置。
  10. 前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、当該文字列の各文字について当該各文字の文字認識を行うことにより得られた少なくとも1つの文字認識結果の何れかをそれぞれ含む複数の文字列認識結果であることを特徴とする請求項3又は請求項7に記載の情報処理装置。
  11. 前記複数の認識テキストは、前記入力画像中の文字列の文字認識を行うことにより得られた複数の文字列認識結果であって、当該文字列の各文字について当該各文字の文字認識を行うことにより得られた少なくとも1つの文字認識結果の何れを含むかに応じてそれぞれに与えられた評価値に基づいて決定された複数の文字列認識結果であることを特徴とする請求項3又は請求項7に記載の情報処理装置。
  12. 入力画像を取得する画像取得手段と、
    前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、
    前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する出力手段と
    を備え、
    前記出力手段は、前記入力画像と、前記認識テキストとを、当該認識テキストの認識確度が予め定められた閾値よりも小さい場合には、前記学習用データとして出力しないことを特徴とする情報処理装置。
  13. 入力画像を取得する画像取得手段と、
    前記入力画像に関連付けて入力された入力テキストを取得するテキスト取得手段と、
    前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、前記入力テキストが当該入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する出力手段と
    を備えたことを特徴とする情報処理装置。
  14. 前記入力画像中の文字の表記を変換することは、当該文字が示す情報を処理するために必要な変換処理として予め定められた変換処理を行うことを含むことを特徴とする請求項13に記載の情報処理装置。
  15. 前記変換処理は、前記文字が示す情報の内容を変換せずに、当該文字が表す情報の表現形式を変換する処理であることを特徴とする請求項14に記載の情報処理装置。
  16. 前記変換処理は、前記文字が示す情報の内容を、当該情報の上位概念を表すように変換する処理であることを特徴とする請求項14に記載の情報処理装置。
  17. コンピュータに、
    入力画像を取得する機能と、
    前記入力画像に関連付けて入力された入力テキストを取得する機能と、
    前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能と
    を実現させ、
    前記予め定められた条件は、前記認識テキストの表記を変換することにより得られた変換結果と、前記入力テキストとに関する第1の条件である、プログラム。
  18. コンピュータに、
    入力画像を取得する機能と、
    前記入力画像に関連付けて入力された入力テキストを取得する機能と、
    前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、当該認識テキストと前記入力テキストとが異なっていても予め定められた条件を満たしていれば、文字認識の学習用データとして出力する機能と
    を備え、
    前記予め定められた条件は、前記認識テキストと、前記入力テキストの表記を逆変換することにより得られた複数の逆変換結果とに関する第2の条件である、プログラム。
  19. コンピュータに、
    入力画像を取得する機能と、
    前記入力画像に関連付けて入力された入力テキストを取得する機能と、
    前記入力画像と、当該入力画像の文字認識を行うことにより得られた認識テキストとを、前記入力テキストが当該入力画像中の文字の表記を変換したものであっても、文字認識の学習用データとして出力する機能と
    を実現させるためのプログラム。
JP2017198734A 2017-10-12 2017-10-12 情報処理装置及びプログラム Active JP7021496B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017198734A JP7021496B2 (ja) 2017-10-12 2017-10-12 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017198734A JP7021496B2 (ja) 2017-10-12 2017-10-12 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2019074807A JP2019074807A (ja) 2019-05-16
JP7021496B2 true JP7021496B2 (ja) 2022-02-17

Family

ID=66545187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017198734A Active JP7021496B2 (ja) 2017-10-12 2017-10-12 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7021496B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6722929B1 (ja) * 2019-09-27 2020-07-15 AI inside株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN117917702A (zh) * 2022-10-20 2024-04-23 华为技术有限公司 一种数据处理方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134715A (ja) 1999-11-05 2001-05-18 Oki Electric Ind Co Ltd 知識処理を行なう文字認識システム
JP2013238999A (ja) 2012-05-15 2013-11-28 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2015069256A (ja) 2013-09-27 2015-04-13 株式会社日立製作所 文字識別システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3887088B2 (ja) * 1997-12-08 2007-02-28 富士通株式会社 文字認識装置、文字認識方法及びコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134715A (ja) 1999-11-05 2001-05-18 Oki Electric Ind Co Ltd 知識処理を行なう文字認識システム
JP2013238999A (ja) 2012-05-15 2013-11-28 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2015069256A (ja) 2013-09-27 2015-04-13 株式会社日立製作所 文字識別システム

Also Published As

Publication number Publication date
JP2019074807A (ja) 2019-05-16

Similar Documents

Publication Publication Date Title
JP6528147B2 (ja) 会計データ入力支援システム、方法およびプログラム
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
US8340425B2 (en) Optical character recognition with two-pass zoning
US10963717B1 (en) Auto-correction of pattern defined strings
RU2634194C1 (ru) Верификация результатов оптического распознавания символов
US9305245B2 (en) Methods and systems for evaluating handwritten documents
US9286526B1 (en) Cohort-based learning from user edits
JP7038988B2 (ja) 画像処理方法及び画像処理システム
JP6055297B2 (ja) 文字認識装置及び方法、文字認識プログラム
US11663408B1 (en) OCR error correction
EP3757881A1 (en) Documentation determination device and documentation determination program
JP7021496B2 (ja) 情報処理装置及びプログラム
JP2015069256A (ja) 文字識別システム
KR102282025B1 (ko) 컴퓨터를 이용한 문서 분류 및 문자 추출 방법
EP2138959A1 (en) Word recognizing method and word recognizing program
JP2020016946A (ja) 情報処理装置、情報処理方法、プログラム及び帳票読取システム
JP5357711B2 (ja) 文書処理装置
JP2020184275A (ja) 画像処理装置、画像処理方法、及びプログラム
US11972208B2 (en) Information processing device and information processing method
JP2022075467A (ja) データ処理装置、データ処理方法及びプログラム
JP2007280413A (ja) 財務諸表自動入力装置
WO2023047858A1 (ja) 情報処理装置及びプログラム
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
US11574490B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
US11315351B2 (en) Information processing device, information processing method, and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220118

R150 Certificate of patent or registration of utility model

Ref document number: 7021496

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150