JP7388677B2 - 入力支援装置、入力支援方法、及びプログラム - Google Patents

入力支援装置、入力支援方法、及びプログラム Download PDF

Info

Publication number
JP7388677B2
JP7388677B2 JP2019054629A JP2019054629A JP7388677B2 JP 7388677 B2 JP7388677 B2 JP 7388677B2 JP 2019054629 A JP2019054629 A JP 2019054629A JP 2019054629 A JP2019054629 A JP 2019054629A JP 7388677 B2 JP7388677 B2 JP 7388677B2
Authority
JP
Japan
Prior art keywords
information
character string
character recognition
similarity
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019054629A
Other languages
English (en)
Other versions
JP2020154974A (ja
Inventor
涼子 井上
勉 佐野
弘司 井上
佳代子 高木
卓実 吉村
俊介 野原
聖 山脇
亮子 鈴木
政広 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2019054629A priority Critical patent/JP7388677B2/ja
Publication of JP2020154974A publication Critical patent/JP2020154974A/ja
Priority to JP2023148263A priority patent/JP2023160974A/ja
Application granted granted Critical
Publication of JP7388677B2 publication Critical patent/JP7388677B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、光学的文字認識(OCR:Optical Character Recognition/Reader)を用いたデータ入力において、入力処理を支援するための、入力支援装置、及び入力支援方法に関し、更には、これらを実現するためのプログラムに関する。
近年、コンピュータシステムの発展により、様々なデータがコンピュータ上で処理及び蓄積されている。このため、紙に記載された情報を、OCRによって、コンピュータが利用可能なデジタルデータに変換する必要性がある。
このような紙の情報からデジタルデータへの変換が必要な例としては、例えば、金融機関による為替処理が挙げられる。具体的には、従来から、金融機関においては、顧客が紙に記入した為替の振込依頼票にOCRを行うことによって、紙に記載された情報をデジタルデータに変換している。
但し、OCRでは、紙に記載されている全ての文字を完全に認識することは難しいため、オペレータは、OCRによる認識が不十分な情報を、タイピングによって補完する必要がある。また、オペレータによるタイピングは完全であるとは限らず、タイピングミスが生じる可能性がある。
このため、従来から入力を支援するシステムが提案されている(例えば、特許文献1参照)。このようなシステムは、過去の取引で用いられた情報、例えば、依頼人情報、受取人情報等を蓄積し、認識率の高い情報及びタイピングされた情報をキーにして、蓄積された情報から、補完すべき情報を検索する機能を備えている。このようなシステムによれば、オペレータにおけるタイピングミスが軽減されると考えられる。
特開2003-6441号公報
ところで、近年においては、人材不足が叫ばれていることから、データ入力のような単純作業における人手を減らして、省力化を図ることが求められている。しかしながら、上述のシステムは、オペレータの入力時に候補を提示する機能しか有しておらず、上述のシステムを導入しても、オペレータの数を減らすことができるわけではない。上述のシステムには、省力化を図れないという問題がある。
本発明の目的の一例は、上記問題を解消し、OCRを用いたデータ入力処理における省力化を図り得る、入力支援装置、入力支援方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面における入力支援装置は、
光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ワイルドカード変換部と、
一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、検索処理部と、
抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、情報推定部と、
を備えている、
ことを特徴とする。
また、上記目的を達成するため、本発明の一側面における入力支援方法は、
(a)光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
(b)一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
(c)抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を有する、
ことを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
(a)光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
(b)一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
(c)抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を実行させる、ことを特徴とする。
以上のように、本発明によれば、OCRを用いたデータ入力処理における省力化を図ることができる。
図1は、本発明の実施の形態における入力支援装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態における入力支援装置の構成を具体的に示すブロック図である。 図3は、本発明の実施の形態において不読率算出部によって行われる処理の一例を説明する図である。 図4は、本発明の実施の形態においてワイルドカード変換部による変換処理の結果の一例を示す図である。 図5は、本発明の実施の形態において検索処理部による検索処理の結果の一例を示す図である。 図6は、本発明の実施の形態において情報推定部による類似度の算出結果の一例を示す図である。 図7は、本発明の実施の形態において情報推定部による第2の類似度の算出結果の一例を示す図である。 図8は、本発明の実施の形態における入力支援装置の動作を示すフロー図である。 図9は、本発明の実施の形態における入力支援装置10を実現するコンピュータの一例を示すブロック図である。
(実施の形態)
以下、本発明の実施の形態における入力支援装置、入力支援方法、及びプログラムについて、図1~図9を参照しながら説明する。
[装置構成]
最初に、図1を用いて、本実施の形態における入力支援装置の概略構成について説明する。図1は、本発明の実施の形態における入力支援装置の概略構成を示すブロック図である。
図1に示す、本実施の形態における入力支援装置10は、OCRを用いたデータ入力において、入力処理を支援するための装置である。図1に示すように、入力支援装置10は、ワイルドカード変換部11と、検索処理部12と、情報推定部13とを備えている。
ワイルドカード変換部11は、光学的文字認識(OCR)によって生成された文字列(以下「OCR文字列」と表記する。)の一部をワイルドカードに変換する。検索処理部12は、一部がワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベース20を検索して、該当する文字列を複数抽出する。情報推定部13は、抽出された複数の文字列それぞれについて、各文字列とOCRの結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、OCRの対象となっていた情報と推定する。
このように、入力支援装置10では、OCR文字列をそのまま使うのでなく、一部がワイルドカードに変換された文字列を用いて検索が行われる。また、これにより、候補となる文字列が複数得られ、その中から、OCR文字列との類似度に基づいて、OCR文字列が表している情報が推定される。つまり、入力支援装置10によれば、OCRされた文字列から、人手による補正入力を経ることなく、正確な文字列データを得ることができるので、OCRを用いたデータ入力処理における省力化が図られる。
続いて、図2~図7を用いて、本実施の形態における入力支援装置の構成及び機能をより具体的に説明する。図2は、本発明の実施の形態における入力支援装置の構成を具体的に示すブロック図である。
図2に示すように、本実施の形態における入力支援装置10は、上述したワイルドカード変換部11、検索処理部12、及び情報推定部13に加えて、不読率算出部14を備えている。また、入力支援装置10には、データベース20が接続されている。
また、本実施の形態では、OCRの対象は、項目毎に仕切られた情報の集合で構成されたデータであり、OCRによって、項目毎に文字列が生成されているとする。OCRの対象の具体例としては、紙媒体に記載され、且つ、複数の項目で仕切られた、例えば、為替処理に用いる申込書が挙げられる。
更に、本実施の形態では、データベース20は、上述した項目毎に、文字列で構成された情報を登録しているとする。具体的には、データベースは、過去の申込書に記載された情報のデジタルデータを蓄積している。なお、図1及び図2の例では、データベース20は、入力支援装置10の外に設けられているが、これは一例である。データベース20は
、入力支援装置10の内部に設けられていても良い。
不読率算出部14は、項目毎に、OCR文字列について、不読率を算出する。具体的には、不読率算出部14は、OCRによって認識されなかった文字数を全体の文字数で除算することによって不読率を算出する。
また、本実施の形態では、不読率算出部14は、算出した不読率が閾値以上であるかどうかを判定する。この場合、ワイルドカード変換部11、検索処理部12、及び情報推定部13は、不読率が閾値未満となった項目について、処理を実行する。
このように不読率が高い項目については処理対象から外されることにより、検索処理部12による検索の精度の低下が抑制され、結果、情報推定部13による推定の精度の低下も抑制される。図3は、本発明の実施の形態において不読率算出部によって行われる処理の一例を説明する図である。
図3の例では、項目毎のOCR文字列が示されている。また、図3に示すように、項目毎に不読率の閾値が設定されているので、不読率算出部14は、項目毎に、対応する閾値と不読率とを比較して、不読率が閾値以上となる文字列を特定する。具体的には、不読率算出部14は、図3の例では、不読率が閾値以上である項目として、「口座番号」を特定する。
ワイルドカード変換部11は、本実施の形態では、項目毎に、OCRによって生成された文字列の一部をワイルドカードに変換する。図4は、本発明の実施の形態においてワイルドカード変換部による変換処理の結果の一例を示す図である。
図4の例では、図3で示された項目「電話番号」と「依頼人名」とを対象にして、文字列の1つがワイルドカード「*」に変換されている。その結果、項目毎に、複数の文字列(以下「ワイルドカード文字列」と表記する。)が生成されている。
検索処理部12は、本実施の形態では、項目毎に、ワイルドカード変換部11で生成された各ワイルドカード文字列を用いて、データベース20を検索して、該当する文字列を複数抽出する。図5は、本発明の実施の形態において検索処理部による検索処理の結果の一例を示す図である。
図5の例では、上図は、項目「電話番号」のワイルドカード文字列をクエリとして検索した場合の検索結果を示し、下図は、項目「依頼人名」のワイルドカード文字列をクエリとして検索した場合の検索結果を示している。また、本実施の形態では、データベース20は、申込書毎に各項目のデータをひとまとまりにして管理しているため、検索結果には、検索対象となった項目のデータだけでなく、それに紐付けられている他の項目のデータも含まれている。つまり、検索結果としては、該当する文字列を含むレコードが取得される。
情報推定部13は、本実施の形態では、検索処理部12で項目毎に抽出された複数の文字列それぞれについて、OCR文字列との類似度を算出する。この場合の類似度としては、例えば、コサイン類似度が挙げられる。コサイン類似度の算出手法としては、既知の算出手法が挙げられる。図6は、本発明の実施の形態において情報推定部による類似度の算出結果の一例を示す図である。
図6の例では、図5の上図及び下図に示した検索結果と図3に示したOCR文字列とから算出されたコサイン類似度が示されている。なお、図5において、電話番号が「852
42812」となっている文字列と、「85422812」となっている文字列とは、上図と下図とで重複している。このため、図6においては、重複しているうちの一方は削除されている。
更に、本実施の形態では、情報推定部13は、算出した類似度(コサイン類似度)に基づいて、検索によって抽出された文字列それぞれに対して優先度を設定する。具体的には、情報推定部13は、類似度が最も高い文字列の優先度を最上位とする。そして、情報推定部13は、優先度が最上位の文字列を、OCRの対象となっていた情報であるとする。また、情報推定部13は、最初に算出した類似度(コサイン類似度)について、その値が規定値以上であるかどうかを判定し、規定値以上である場合にのみ、上述の推定を行っても良い。類似度が低い場合は、推定精度が低下する可能性が高いためである。
加えて、図6の例では、最も高い優先度が設定された文字列が2以上存在している。この場合、本実施の形態では、情報推定部13は、上述の類似度(コサイン類似度)の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、OCR文字列との第2の類似度を算出する。そして、情報推定部13は、算出した第2の類似度に基づいて、最も高い優先度が設定された文字列のうちの1つを、OCRの対象となっていた情報と推定する。また、情報推定部13は、OCRの対象となっていた情報であると推定した文字列を、外部の装置等に出力する。図7は、本発明の実施の形態において情報推定部による第2の類似度の算出結果の一例を示す図である。
図7の例では、図6において優先度が最上位であった2つの文字列に対して、第2の類似度が算出されている。第2の類似度としては、例えば、JARO Distanceが挙げられる。JARO Distanceの算出手法としては、既知の算出手法が挙げられる。なお、本実施の形態では、最初の類似度として、JARO Distanceが算出され、第2の類似度として、コサイン類似度が算出されていても良い。また、本実施の形態では、これらの一方と別の類似度が算出されても良いし、これら以外の2種類の類似度が算出されても良い。
[装置動作]
次に、本発明の実施の形態における入力支援装置10の動作について図8を用いて説明する。図8は、本発明の実施の形態における入力支援装置の動作を示すフロー図である。以下の説明においては、適宜図1~図7を参照する。また、本実施の形態では、入力支援装置10を動作させることによって、入力支援方法が実施される。よって、本実施の形態における入力支援方法の説明は、以下の入力支援装置10の動作説明に代える。
図8に示すように、最初に、不読率算出部14は、OCRによって生成された、項目毎の文字列の中から、1つの項目を選択する(ステップA1)。次に、不読率算出部14は、選択した項目について不読率を算出する(ステップA2)。続いて、不読率算出部14は、ステップA2で算出した不読率が閾値以上であるかどうかを判定する(ステップA3)。
ステップA3の判定の結果、不読率が閾値以上である場合は、不読率算出部14は、ステップA1を再度実行する。
一方、ステップA3の判定の結果、不読率が閾値以上でない場合(閾値未満)は、ワイルドカード変換部11は、図4に示したように、選択した項目の文字列の一部をワイルドカードに変換して複数のワイルドカード文字列を生成する(ステップA4)。
次に、検索処理部12は、ステップA4で生成されたワイルドカード文字列を用いて、
データベース20を検索して、図5に示したように、該当する文字列を含むレコードを抽出する(ステップA5)。また、ステップA5では、検索処理部12は、検索によって抽出したレコードを検索リストとして保持する。なお、検索処理部12は、検索によってレコードが抽出されなかった場合は、空の検索リストを保持する。
次に、検索処理部12は、全ての項目について検索を終了したかどうかを判定する(ステップA6)。そして、ステップA6の判定の結果、全ての項目について検索を終了していない場合は、検索処理部12は、不読率算出部14に対して、再度、ステップA1を実行するように指示する。これにより、新たに選択された項目に対して、再度ステップA1~A5が実行される。
一方、全ての項目について検索を終了している場合は、検索処理部12は、ステップA5の検索によってレコードが抽出されているかどうかを判定する(ステップA7)。具体的には、検索処理部12は、検索リストにレコードが含まれているかどうかを判定する。そして、検索処理部12は、判定の結果を、情報推定部13に通知する。
ステップA7の判定の結果、検索によってレコードが抽出されていない場合は、情報推定部13は、OCR文字列のみを、外部に出力する(ステップA15)。
一方、ステップA7の判定の結果、検索によってレコードが抽出されている場合は、情報推定部13は、レコードそれぞれについて、OCR文字列との類似度(コサイン類似度)を算出する(ステップA8)。
次に、情報推定部13は、ステップA8で算出した類似度に基づいて、検索によって抽出された各レコードに優先度を設定する(ステップA9)。次に、情報推定部13は、最も高い優先度が設定されたレコード(最上位のレコード)について、その類似度が規定値以上であるかどうかを判定する(ステップA10)。
ステップA10の判定の結果、最上位のレコードの類似度が規定値未満である場合は、情報推定部13は、ステップA15を実行し、OCR文字列のみを、外部に出力する。一方、ステップA10の判定の結果、最上位のレコードの類似度が規定値以上である場合は、情報推定部13は、最上位のレコードが2以上存在しているかどうかを判定する(ステップA11)。
ステップA11の判定の結果、最上位のレコードが1つである場合は、情報推定部13は、最上位のレコードを、外部に出力する(ステップA14)。
一方、ステップA11の判定の結果、最上位のレコードが2以上存在する場合は、情報推定部13は、図7に示したように、最上位のレコードそれぞれについて、OCR文字列との第2の類似度(JARO Distance)を算出する(ステップA12)。
そして、情報推定部13は、第2の類似度が最も高いレコードのみを、外部に出力する(ステップA13)。ステップA13、A14、又はA15が実行されると、入力支援装置10における処理は終了する。また、ステップA13及びA14において、情報推定部13は、出力対象となるレコードと共に、算出された類似度、項目毎の不読率等も出力することができる。
[実施の形態における効果]
以上のように、本実施の形態では、ワイルドカード文字列を用いて、データベース20に対して検索が行われるので、候補となるレコードが複数抽出される。そして、抽出され
たレコードとOCR文字列との類似度に基づいて、OCR文字列が示すレコードが推定される。また、最初に計算された類似度の値が同一のレコードが存在する場合は、再度、別の算出式によって第2の類似度が計算され、この第2の類似度に基づいて、OCR文字列が示すレコードが再度推定される。このため、本実施の形態によれば、OCRされた文字列から、人手による補正入力を経ることなく、正確な文字列データを得ることができるので、OCRを用いたデータ入力処理における省力化が図られる。
[プログラム]
本実施の形態におけるプログラムは、コンピュータに、図8に示すステップA1~A14を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における入力支援装置と入力支援方法とを実現することができる。この場合、コンピュータのプロセッサは、ワイルドカード変換部11、検索処理部12、情報推定部13、及び不読率算出部14として機能し、処理を行なう。
また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、ワイルドカード変換部11、検索処理部12、情報推定部13、及び不読率算出部14のいずれかとして機能しても良い。
ここで、本実施の形態におけるプログラムを実行することによって、入力支援装置10を実現するコンピュータについて図9を用いて説明する。図9は、本発明の実施の形態における入力支援装置10を実現するコンピュータの一例を示すブロック図である。
図9に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
なお、本実施の形態における入力支援装置10は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、入力支援装置10は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記15)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ワイルドカード変換部と、
一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、検索処理部と、
抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、情報推定部と、
を備えている、
ことを特徴とする入力支援装置。
(付記2)
付記1に記載の入力支援装置であって、
前記情報推定部が、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が2以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第2の類似度を算出し、
算出した前記第2の類似度に基づいて、最も高い優先度が設定された文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とする入力支援装置。
(付記3)
付記1または2に記載の入力支援装置であって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記ワイルドカード変換部が、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記検索処理部が、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とする入力支援装置。
(付記4)
付記3に記載の入力支援装置であって、
前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出
する、不読率算出部を更に備え、
前記ワイルドカード変換部、前記検索処理部、及び前記情報推定部が、前記不読率が閾値未満の項目について、処理を行う、
ことを特徴とする入力支援装置。
(付記5)
付記3または4に記載の入力支援装置であって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とする入力支援装置。
(付記6)
(a)光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
(b)一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
(c)抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を有する、
ことを特徴とする入力支援方法。
(付記7)
付記6に記載の入力支援方法であって、
前記(c)のステップにおいて、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が2以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第2の類似度を算出し、
算出した前記第2の類似度に基づいて、最も高い優先度が設定された文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とする入力支援方法。
(付記8)
付記6または7に記載の入力支援方法であって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記(a)のステップにおいて、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記(b)のステップにおいて、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とする入力支援方法。
(付記9)
付記8に記載の入力支援方法であって、
(d)前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出し、算出した前記不読率が閾値以上となる項目が存在する場合に、該当する項目の文字列を削除する、ステップを更に有し、
前記(a)のステップ、前記(b)のステップ、及び前記(c)のステップにおいて、削除された項目以外の項目毎に、処理を行う、
ことを特徴とする入力支援方法。
(付記10)
付記8または9に記載の入力支援方法であって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とする入力支援方法。
(付記11)
コンピュータに、
(a)光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
(b)一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
(c)抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を実行させる、プログラム。
(付記12)
付記11に記載のプログラムであって、
前記(c)のステップにおいて、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が2以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第2の類似度を算出し、
算出した前記第2の類似度に基づいて、最も高い優先度が設定された文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とするプログラム。
(付記13)
付記11または12に記載のプログラムであって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記(a)のステップにおいて、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記(b)のステップにおいて、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とするプログラム。
(付記14)
付記13に記載のプログラムであって、
前記コンピュータに、
(d)前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出し、算出した前記不読率が閾値以上となる項目が存在する場合に、該当する項目の文字列を削除する、ステップを更に実行させ、
前記(a)のステップ、前記(b)のステップ、及び前記(c)のステップにおいて、削除された項目以外の項目毎に、処理を行わせる、
ことを特徴とするプログラム。
(付記15)
付記13または14に記載のプログラムであって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とするプログラム。
以上のように、本発明によれば、OCRを用いたデータ入力処理における省力化を図ることができる。本発明は、OCRで得られたデータの処理が必要となるシステム、例えば、為替処理システム等に有用である。
10 入力支援装置
11 ワイルドカード変換部
12 検索処理部
13 情報推定部
14 不読率算出部
20 データベース
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (12)

  1. 光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ワイルドカード変換部と、
    一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、検索処理部と、
    抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、情報推定部と、
    を備え
    前記ワイルドカード変換部が、
    前記光学的文字認識によって認識された文字のみからなる文字列については、当該文字列の一部をワイルドカードに変換し、
    前記光学的文字認識によって認識された文字と認識されなかった不読文字からなる文字列については、少なくとも前記不読文字を含む当該文字列の一部をワイルドカードに変換し、
    前記情報推定部が、
    算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
    最も高い優先度が設定された文字列が2以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第2の類似度を算出し、
    算出した前記第2の類似度に基づいて、最も高い優先度が設定された文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する
    ことを特徴とする入力支援装置。
  2. 請求項に記載の入力支援装置であって、
    前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
    前記ワイルドカード変換部が、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
    前記検索処理部が、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
    ことを特徴とする入力支援装置。
  3. 請求項に記載の入力支援装置であって、
    前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出する、不読率算出部を更に備え、
    前記ワイルドカード変換部、前記検索処理部、及び前記情報推定部が、前記不読率が閾値未満の項目について、処理を行う、
    ことを特徴とする入力支援装置。
  4. 請求項またはに記載の入力支援装置であって、
    前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
    前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
    ことを特徴とする入力支援装置。
  5. (a)光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
    (b)一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報
    が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
    (c)抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
    を有し、
    前記(a)のステップにおいて、
    前記光学的文字認識によって認識された文字のみからなる文字列については、当該文字列の一部をワイルドカードに変換し、
    前記光学的文字認識によって認識された文字と認識されなかった不読文字からなる文字列については、少なくとも前記不読文字を含む当該文字列の一部をワイルドカードに変換し、
    前記(c)のステップにおいて、
    算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
    最も高い優先度が設定された文字列が2以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第2の類似度を算出し、
    算出した前記第2の類似度に基づいて、最も高い優先度が設定された文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する
    ことを特徴とする入力支援方法。
  6. 請求項に記載の入力支援方法であって、
    前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
    前記(a)のステップにおいて、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
    前記(b)のステップにおいて、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
    ことを特徴とする入力支援方法。
  7. 請求項に記載の入力支援方法であって、
    (d)前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出する、ステップを更に有し、
    前記(a)のステップ、前記(b)のステップ、及び前記(c)のステップにおいて、前記不読率が閾値未満の項目について、処理を行う、
    ことを特徴とする入力支援方法。
  8. 請求項またはに記載の入力支援方法であって、
    前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
    前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
    ことを特徴とする入力支援方法。
  9. コンピュータに、
    (a)光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
    (b)一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
    (c)抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結
    果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
    を実行させ
    前記(a)のステップにおいて、
    前記光学的文字認識によって認識された文字のみからなる文字列については、当該文字列の一部をワイルドカードに変換し、
    前記光学的文字認識によって認識された文字と認識されなかった不読文字からなる文字列については、少なくとも前記不読文字を含む当該文字列の一部をワイルドカードに変換し、
    前記(c)のステップにおいて、
    算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
    最も高い優先度が設定された文字列が2以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第2の類似度を算出し、
    算出した前記第2の類似度に基づいて、最も高い優先度が設定された文字列のうちの1つを、前記光学的文字認識の対象となっていた情報と推定する、プログラム。
  10. 請求項に記載のプログラムであって、
    前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
    前記(a)のステップにおいて、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
    前記(b)のステップにおいて、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
    ことを特徴とするプログラム。
  11. 請求項10に記載のプログラムであって、
    前記コンピュータに、
    (d)前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出し、算出した前記不読率が閾値以上となる項目が存在する場合に、該当する項目の文字列を削除する、ステップを更に実行させ、
    前記(a)のステップ、前記(b)のステップ、及び前記(c)のステップにおいて、前記不読率が閾値未満の項目について、処理を行わせる、
    ことを特徴とするプログラム。
  12. 請求項10または11に記載のプログラムであって、
    前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
    前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
    ことを特徴とするプログラム。
JP2019054629A 2019-03-22 2019-03-22 入力支援装置、入力支援方法、及びプログラム Active JP7388677B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019054629A JP7388677B2 (ja) 2019-03-22 2019-03-22 入力支援装置、入力支援方法、及びプログラム
JP2023148263A JP2023160974A (ja) 2019-03-22 2023-09-13 入力支援装置、入力支援方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019054629A JP7388677B2 (ja) 2019-03-22 2019-03-22 入力支援装置、入力支援方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023148263A Division JP2023160974A (ja) 2019-03-22 2023-09-13 入力支援装置、入力支援方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020154974A JP2020154974A (ja) 2020-09-24
JP7388677B2 true JP7388677B2 (ja) 2023-11-29

Family

ID=72559339

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019054629A Active JP7388677B2 (ja) 2019-03-22 2019-03-22 入力支援装置、入力支援方法、及びプログラム
JP2023148263A Withdrawn JP2023160974A (ja) 2019-03-22 2023-09-13 入力支援装置、入力支援方法、及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023148263A Withdrawn JP2023160974A (ja) 2019-03-22 2023-09-13 入力支援装置、入力支援方法、及びプログラム

Country Status (1)

Country Link
JP (2) JP7388677B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139659A (ja) 2004-11-15 2006-06-01 Fujitsu Ltd 単語認識装置、単語認識方法、単語認識プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139659A (ja) 2004-11-15 2006-06-01 Fujitsu Ltd 単語認識装置、単語認識方法、単語認識プログラム

Also Published As

Publication number Publication date
JP2023160974A (ja) 2023-11-02
JP2020154974A (ja) 2020-09-24

Similar Documents

Publication Publication Date Title
US11514698B2 (en) Intelligent extraction of information from a document
US11055527B2 (en) System and method for information extraction with character level features
JP5617095B2 (ja) 新たな画像及びその情報を画像データベースに書き込むための方法、システム、及びプログラム
US10783152B2 (en) Information processing apparatus and data comparison method
US20210124976A1 (en) Apparatus and method for calculating similarity of images
US12106199B2 (en) Real-time predictions based on machine learning models
CN112084448B (zh) 相似信息处理方法以及装置
JP4148525B2 (ja) プログラムの実行に必要なデータをデータベースから先読みするシステム
CN111651552A (zh) 结构化信息确定方法、装置和电子设备
JP6565661B2 (ja) 画像処理システム、画像類似判定方法および画像類似判定プログラム
JP7388677B2 (ja) 入力支援装置、入力支援方法、及びプログラム
CN116228419A (zh) 信息处理方法、装置、设备及存储介质
JP7435990B2 (ja) 振込データ入力支援装置、振込データ入力支援方法、及びプログラム
US11527088B2 (en) Document template detection with optical character recognition
JP5588213B2 (ja) 帳票認識プログラム、帳票認識装置、および帳票認識方法
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
JP6485084B2 (ja) 画像探索装置、画像探索方法および画像探索プログラム
JP6485072B2 (ja) 画像探索装置、画像探索方法および画像探索プログラム
US20240078270A1 (en) Classifying documents using geometric information
JP7156376B2 (ja) 観測事象判定装置、観測事象判定方法、及びプログラム
US11627085B2 (en) Non-transitory computer-readable recording medium, service management device, and service management method
US20240290122A1 (en) System and method for processing documents for enhanced search
WO2020202324A1 (ja) 文書解析装置、文書解析方法、及びコンピュータ読み取り可能な記録媒体
JP2015127913A (ja) 文書構造解析方法、及び文書構造解析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230913

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231109

R151 Written notification of patent or utility model registration

Ref document number: 7388677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151