JP6710483B2

JP6710483B2 - 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体

Info

Publication number: JP6710483B2
Application number: JP2018536430A
Authority: JP
Inventors: 飛虎金; 燕薛; 芸米; 歓歓李; 一仇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-04-11
Filing date: 2017-06-30
Publication date: 2020-06-17
Anticipated expiration: 2037-06-30
Also published as: SG11201900263SA; CN107220648B; EP3432197A1; WO2018188199A1; AU2017408799B2; KR20190026641A; EP3432197A4; KR102171220B1; JP2019520615A; EP3432197B1; US10650231B2; CN107220648A; TW201837788A; TWI621077B; AU2017408799A1; US20190147239A1

Description

「関連出願の相互参照」
本願は、パリ条約に基づき、２０１７年４月１１日に中国国家知識産権局に出願された、中国特許出願第２０１７１０２３３６１３３号の「損害賠償請求書類の文字認識方法及びサーバ」と題する中国特許出願の優先権を主張し、当該出願の全体が参照により本願に援用される。

本発明は、コンピュータ技術分野に関し、特に損害賠償請求書類の文字認識方法、装置、サーバ及びコンピュータ読み取り可能な記憶媒体に関するものである。

大衆の保険加入意識の高まり、保険購入の顧客数の大幅な増加に伴い、保険会社が取り扱う必要がある顧客からの損害賠償請求が多くなり、保険会社の作業者が取り込む必要がある損害賠償請求書類の映像も益々増え、請求書類データの取り込み作業者の人員不足となり、同時に、請求書類データ取り込みの誤りが頻繁的に現れる。請求書類データ取り込みの誤りを効果的に減少し、請求書類データ取り込みの効率を向上させるために、現在、請求書類データ取り込み作業過程にＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学文字認識）技術を導入することで、損害賠償請求書類の映像の文字を自動的に認識して対応する入力欄位置に書き込む保険会社がある。

しかしながら、従来のＯＣＲ技術を利用する損害賠償請求書類の映像の文字認識手段は自身の認識エンジンを利用して損害賠償請求書類の映像全体における文字を一括で認識するだけであり、損害賠償請求書類の枠フォーマットによる認識精度に対する影響を考慮せず、請求書類中の枠線による文字認識への干渉も考慮しないため、従来の認識手段の認識精度が高くなく、検証するために多大な手間や物力を要する。

本発明は、損害賠償請求書類の認識精度を向上させるために、損害賠償請求書類の文字認識方法、装置、サーバ及びコンピュータ読み取り可能な記憶媒体を提供することを主な目的とする。

上記目的を実現するために、本発明の第一態様は損害賠償請求書類の文字認識方法を提供し、前記方法は、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得するステップと、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するステップと、を含む。

本出願の第二態様はさらに損害賠償請求書類の文字認識装置を提供し、前記文字認識装置は、
文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得するための分割モジュールと、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するための認識モジュールと、を含む。

本出願の第三態様は損害賠償請求書類の文字認識サーバを提供し、前記損害賠償請求書類の文字認識サーバは、損害賠償請求書類の文字認識プログラムが記憶されている記憶装置と、プロセッサと、を含み、前記損害賠償請求書類の文字認識プログラムが前記プロセッサによって実行されることにより、以下のステップを実現することができる。即ち、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得し、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。

本出願の第四態様はコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体に損害賠償請求書類の文字認識プログラムが記憶されており、前記損害賠償請求書類の文字認識プログラムが少なくとも１つのプロセッサによって実行されることにより、以下のステップを実現することができる。即ち、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得し、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。

従来技術と比べると、本発明の提供する損害賠償請求書類の文字認識方法、装置、サーバ及びコンピュータ読み取り可能な記憶媒体は、損害賠償請求書類の映像に文字認識を行う前に、前記損害賠償請求書類の枠フォーマットの枠線配列に応じてそれに領域分割を行い、予め決められた認識ルールを利用して前記損害賠償請求書類の各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。損害賠償請求書類の枠フォーマットによる認識精度に対する影響を考慮して、文字認識を行う前にまず損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、さらに分割領域ごとに文字を認識するため、損害賠償請求書類の映像全体における文字を一括で認識する時に請求書類中の枠線による文字認識への影響及び干渉を回避し、損害賠償請求書類における文字の認識精度を効果的に向上できる。

本発明に係る損害賠償請求書類の文字認識方法の第一実施例のフローチャートである。本発明に係る損害賠償請求書類の文字認識方法の第二実施例のフローチャートである。本発明に係る損害賠償請求書類の文字認識装置の第一実施例の機能モジュール模式図である。本発明に係る損害賠償請求書類の文字認識サーバの第一実施例の模式図である。

実施例と図面を組み合わせて本発明の目的の実現、機能特徴及び利点についてさらに説明する。

本発明の解決しようとする技術的問題、技術的解決手段及び有益な効果をより明らかにするために、以下、図面と実施例を組み合わせて本発明について詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するためのものではないことが理解される。

本発明は損害賠償請求書類の文字認識方法を提供する。

図１に示すように、図１は本発明に係る損害賠償請求書類の文字認識方法の第一実施例のフローチャートである。

第一実施例において、前記損害賠償請求書類の文字認識方法は、ステップＳ１０と、ステップＳ２０と、を含む。

ステップＳ１０：サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得する。

本実施例において、サーバは、ユーザーから送信された認識対象文字を含む損害賠償請求書類の映像の文字認識要求を受信でき、例えば、ユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末によって送信した文字認識要求を受信し、例えばユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末に予めインストールしているクライアントから送信された文字認識請求を受信し、又はユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末におけるブラウザシステムから送信された文字認識請求を受信する。

サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、損害賠償請求書類の映像においてその枠フォーマットに応じて横方向又は縦方向の枠線が配列されており、これらはユーザーが関連情報を書き込むための各入力欄を構成する。本実施例において、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得する。例えば、１つの実施形態において、通常は保険のタイプごとに対応する請求書類フォーマットテンプレートがあるため、予めユーザーがアップロードした請求書類タイプ（保険のタイプによって請求書類フォーマットが異なる可能性がある）に基づき、対応する請求書類テンプレートを取得し、そしてテンプレートのフォーマットに応じて分割できる。例えば受信した文字認識対象の損害賠償請求書類の映像の請求書類タイプに基づき、前記損害賠償請求書類の映像に対応する請求書類テンプレートを見つけ、そしてその対応する請求書類テンプレートに基づいて領域分割を行うことができる。前記分割領域が、前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域が枠線を含まない領域であり、それにより後続して分割領域ごとに文字認識を行う時に枠線による認識精度への干渉及び影響を回避し、前記分割領域がｅｘｃｅｌテーブルの各格子に類似し、すなわちｅｘｃｅｌテーブルの各格子は最小領域内において枠線を含まない領域である。

ステップＳ２０：予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。

前記損害賠償請求書類の枠フォーマットの枠線配列に応じて損害賠償請求書類の映像に領域分割を行って１つ又は複数の分割領域を取得した後、予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字、すなわち損害賠償請求書類の映像中の文字を認識する。例えば、予め決められた解析モデルを利用して各分割領域に適用する認識モデル又は認識方式を解析し、さらに解析された結果に基づいて分割領域ごとに各分割領域自身に適する認識モデル又は認識方式を利用して文字認識を行うことで、文字認識の精度を向上させる。例えば分割領域ごとに、文字認識の方式としては光学文字認識エンジンを利用して認識してもよいし、また他の認識エンジン又はトレーニングされた認識モデルを利用して認識してもよいと解析でき、ここで特に限定はない。各分割領域における文字を認識し、さらに各分割領域における文字を前記損害賠償請求書類の映像に対応する電子損害賠償請求書類のそれぞれの入力欄に自動的に書き込み、取り込むことができる。

本実施例は、損害賠償請求書類の映像に文字認識を行う前に、前記損害賠償請求書類の枠フォーマットの枠線配列に応じてそれに領域分割を行い、予め決められた認識ルールを利用して前記損害賠償請求書類の各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。損害賠償請求書類の枠フォーマットによる認識精度に対する影響を考慮して、文字認識を行う前にまず損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、さらに分割領域ごとに文字を認識するため、損害賠償請求書類の映像全体における文字を一括で認識する時に請求書類中の枠線による文字認識への影響及び干渉を回避し、損害賠償請求書類における文字の認識精度を効果的に向上できる。

図２に示すように、本発明の第二実施例は損害賠償請求書類の文字認識方法を提供し、上記実施例の上で、前記ステップＳ２０は、ステップＳ２０１と、ステップＳ２０２と、を含む。

ステップＳ２０１：予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析する。

ステップＳ２０２：予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識する。

本実施例において、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行って１つ又は複数の分割領域を取得した後、取得された分割領域に認識を行う前に、さらに予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、深層認識が不要な第一分割領域及び深層認識が必要な第二分割領域を解析する。例えば、現在自身の認識エンジンをＯＣＲ文字認識エンジンとすることを例として説明し、ＯＣＲ文字認識エンジンが正確に認識可能な領域又は認識率が高い領域を深層認識が不要な領域とすることができ、すなわち他の認識方式に頼ることなく、現在自身のＯＣＲ文字認識エンジンを利用して前記領域の文字を正確に認識できる。ＯＣＲ文字認識エンジンが認識不能な領域又は認識率が低い領域を深層認識が必要な領域とし、すなわち現在自身のＯＣＲ文字認識エンジンを利用して前記領域の文字を正確に認識できず、トレーニングされた認識モデルなどの他の認識方式に頼って文字認識を行う必要がある。

前記損害賠償請求書類の映像においてＯＣＲ文字認識エンジンを利用して正確に認識可能な第一分割領域及びＯＣＲ文字認識エンジンを利用して認識不能な第二分割領域を解析した後、解析された第一分割領域及び第二分割領域に対して異なる認識方式を採用して文字認識を行うことができる。予め決められたＯＣＲ文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を正確に認識する。予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を正確に認識する。前記予め決められた認識モデルは、大量の分割領域サンプルに対してトレーニングされた認識モデルであってもよいし、また自身のＯＣＲ文字認識エンジンの認識方式よりも複雑で、認識効果が高い認識エンジンであってもよく、ここで特に限定はない。

さらに、他の実施例において、前記予め決められた解析モデルは畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、略称ＣＮＮ）モデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである：
Ａ、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数（例えば、５０万個）の損害賠償請求書類の映像サンプルを取得し、
Ｂ、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいてＯＣＲ文字認識エンジンが誤って認識した第三分割領域及びＯＣＲ文字認識エンジンが正確に認識した第四分割領域を決め、
Ｃ、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
Ｄ、第一トレーニングセット及び第二トレーニングセットから第一所定割合（例えば、８０％）の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ第一トレーニングセット及び第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
Ｅ、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
Ｆ、検証通過率が所定閾値（例えば、９８％）以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、前記手順Ａ、Ｂ、Ｃ、Ｄ、Ｅを繰り返し実行する。

本実施例において大量の損害賠償請求書類の映像サンプルでトレーニングされた畳み込みニューラルネットワークモデルを利用して分割領域を解析し、損害賠償請求書類の各分割領域においてＯＣＲ文字認識エンジンを利用して文字を正確に認識可能な第一分割領域及びＯＣＲ文字認識エンジンを利用して文字を正確に認識不能な第二分割領域を正確に解析でき、後続して第一分割領域及び第二分割領域に対してそれぞれ異なる認識方式を採用して正確な文字認識操作を行うことに便利であり、それにより損害賠償請求書類における文字に対する認識精度を向上させる。

さらに、他の実施例において、前記予め決められた認識モデルは長期短期記憶（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、略称ＬＳＴＭ）モデルであり、前記予め決められた認識モデルのトレーニング手順は、
所定数（例えば、１０万）の領域サンプルを取得し、前記領域サンプルは履歴データにおいて複数の損害賠償請求書類にその枠フォーマットの枠線配列に応じて領域分割を行った後の分割領域サンプルであってもよい。１つの実施形態において、分割領域サンプルにおけるフォントを黒色に、背景を白色に一括で設定でき、それにより文字認識に便利である。かつ各分割領域サンプルを注記し、例えば各分割領域サンプルの名称を前記分割領域サンプルに含まれる文字に命名して注記する。
所定数の分割領域サンプルを所定割合（例えば、８：２）で第一データセット及び第二データセットに分け、第一データセットをトレーニングセットとし、第二データセットをテストセットとし、ただし、第一データセットのサンプル数の割合が第二データセットのサンプル数の割合以上である。
第一データセットをＬＳＴＭネットワークに送り込んでモデルトレーニングを行い、所定時間（例えば３０分間ごとに又は反復回数１０００回ごとに）おきに、第二データセットを使用してモデルをテストすることで、現在トレーニングされているモデルの効果を評価する。例えば、テストの時、トレーニングして取得されたモデルを使用して第二データセットにおける分割領域サンプルに文字認識を行い、かつトレーニングして取得されたモデルを利用して分割領域サンプルの文字認識結果と前記分割領域サンプルの注記とを比較することで、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差を算出する。具体的には、誤差を算出する時、編集距離を算出基準として採用でき、ただし、編集距離（ＥｄｉｔＤｉｓｔａｎｃｅ）は、Ｌｅｖｅｎｓｈｔｅｉｎ距離とも呼ばれ、２つの文字列の間、１つの文字列からもう１つの文字列へと変更するための最少編集操作回数である。許可された編集操作は１つの文字からもう１つの文字への置換、１つの文字の挿入、１つの文字の削除を含み、一般的には、編集距離が小さいほど、２つの文字列の類似度が高い。よって、編集距離を算出基準としてトレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差を算出する時、算出された誤差が小さいほど、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との類似度が高く、逆に、算出された誤差が大きいほど、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との類似度が低いことを示す。

前記分割領域サンプルの注記は前記分割領域サンプルの名称、すなわち前記分割領域サンプルに含まれる文字であるため、算出されたトレーニングで取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差はすなわちトレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルに含まれる文字との誤差であり、トレーニングして取得されたモデルに認識された文字と正確な文字との誤差を反映できる。第二データセットを使用してトレーニングされたモデルをテストするたびに誤差を記録し、かつ誤差の変化傾向を解析し、テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差が発散すると解析する場合、ａｃｔｉｖａｔｉｏｎ関数、ＬＳＴＭ層数、入出力の変数次元などのトレーニングパラメータを調整し、かつ再トレーニングすることで、テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差を収束させることができる。テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差が収束すると解析される場合、モデルトレーニングを終了し、生成されたトレーニングモデルをトレーニングされた前記予め決められた認識モデルとする。

本実施例において、ＯＣＲ文字認識エンジンが認識不能な領域に対し、トレーニングされたＬＳＴＭモデルを採用して認識し、ＬＳＴＭモデルが大量の分割領域サンプルでトレーニングされたものであり、かつ分割領域サンプルに対する文字認識の誤差が収束するモデルであるため、ＬＳＴＭモデル自身の長期記憶機能と結合して前記ＬＳＴＭモデルが分割領域における文字を認識する時、モデルに記憶されたコンテキスト情報などの長期情報を利用し、分割領域における文字をより正確に認識でき、それにより損害賠償請求書類における文字に対する認識精度がさらに向上する。

本発明は、さらに損害賠償請求書類の文字認識装置を提供する。

図３に示すように、図３は本発明に係る損害賠償請求書類の文字認識装置の第一実施例の機能モジュール模式図である。

第一実施例において、前記損害賠償請求書類の文字認識装置は、分割モジュール０１と、認識モジュール０２と、を含む。

分割モジュール０１は、文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得するために用いられる。

サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、損害賠償請求書類の映像においてその枠フォーマットに応じて横方向又は縦方向の枠線が配列されており、ユーザーが関連情報を書き込むための各入力欄を構成する。本実施例において、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得する。例えば、１つの実施形態において、通常保険のタイプごとに対応する請求書類フォーマットテンプレートがあるため、予めユーザーがアップロードした請求書類タイプ（保険のタイプによって請求書類フォーマットが異なる可能性がある）に基づき、対応する請求書類テンプレートを取得し、そしてテンプレートのフォーマットに応じて分割できる。例えば受信した文字認識対象の損害賠償請求書類の映像の請求書類タイプに基づき、前記損害賠償請求書類の映像に対応する請求書類テンプレートを見つけ、そしてその対応する請求書類テンプレートに基づいて領域分割を行うことができる。前記分割領域が、前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域が枠線を含まない領域であり、それにより後続して分割領域ごとに文字認識を行う時に枠線による認識精度への干渉及び影響を回避し、前記分割領域がｅｘｃｅｌテーブルの各格子に類似し、ｅｘｃｅｌテーブルの各格子がすなわち最小領域内において枠線を含まない領域である。

認識モジュール０２は、予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するために用いられる。

さらに、上記実施例の上で、前記認識モジュール０２は、さらに
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析し、
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することに用いられる。

本実施例において、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行って１つ又は複数の分割領域を取得した後、取得された分割領域に認識を行う前に、さらに予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、深層認識が不要な第一分割領域及び深層認識が必要な第二分割領域を解析する。例えば、現在自身の認識エンジンをＯＣＲ文字認識エンジンとすることを例として説明し、ＯＣＲ文字認識エンジンが正確に認識可能な領域又は認識率が高い領域を深層認識が不要な領域とすることができ、すなわち他の認識方式に頼ることなく、現在自身のＯＣＲ文字認識エンジンを利用して前記領域の文字を正確に認識できる。ＯＣＲ文字認識エンジンが認識不能な領域又は認識率が低い領域を深層認識が必要な領域とする、すなわち現在自身のＯＣＲ文字認識エンジンを利用して前記領域の文字を正確に認識できず、トレーニングされた認識モデルなどの他の認識方式に頼って文字認識を行う必要がある。

本実施例において大量の損害賠償請求書類の映像サンプルでトレーニングされた畳み込みニューラルネットワークモデルを利用して分割領域を解析し、損害賠償請求書類の各分割領域においてＯＣＲ文字認識エンジンを利用して文字を正確に認識可能な第一分割領域及びＯＣＲ文字認識エンジンを利用して文字を正確に認識不能な第二分割領域を正確に解析でき、後続して第一分割領域及び第二分割領域に対してそれぞれ異なる認識方式を採用して正確な文字認識操作を行うことに便利であり、それにより損害賠償請求書類における文字に対する認識精度が向上する。

さらに、他の実施例において、前記予め決められた認識モデルは長期短期記憶（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、略称ＬＳＴＭ）モデルであり、前記予め決められた認識モデルのトレーニング手順は、
所定数（例えば、１０万）の領域サンプルを取得し、前記領域サンプルは履歴データにおいて複数の損害賠償請求書類にその枠フォーマットの枠線配列に応じて領域分割を行った後の分割領域サンプルであってもよい。１つの実施形態において、分割領域サンプルにおけるフォントを黒色に、背景を白色に一括で設定でき、それにより文字認識に便利である。かつ各分割領域サンプルを注記し、例えば各分割領域サンプルの名称を前記分割領域サンプルに含まれる文字に命名して注記する。
所定数の分割領域サンプルを所定割合（例えば、８：２）で第一データセット及び第二データセットに分け、第一データセットをトレーニングセットとし、第二データセットをテストセットとし、ただし、第一データセットのサンプル数の割合は第二データセットのサンプル数の割合以上である。
第一データセットをＬＳＴＭネットワークに送り込んでモデルトレーニングを行い、所定時間（例えば３０分間ごとに又は反復回数１０００回ごとに）おきに、第二データセットを使用してモデルをテストすることで、現在トレーニングされているモデルの効果を評価する。例えば、テストの時、トレーニングして取得されたモデルを使用して第二データセットにおける分割領域サンプルに文字認識を行い、かつトレーニングして取得されたモデルを利用して分割領域サンプルの文字認識結果と前記分割領域サンプルの注記とを比較することで、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差を算出する。具体的には、誤差を算出する時、編集距離を算出基準として採用でき、ここで、編集距離（ＥｄｉｔＤｉｓｔａｎｃｅ）は、Ｌｅｖｅｎｓｈｔｅｉｎ距離とも呼ばれ、２つの文字列の間、１つの文字列からもう１つの文字列へと変更するための最少編集操作回数である。許可された編集操作は１つの文字からもう１つの文字への置換、１つの文字の挿入、１つの文字の削除を含み、一般的には、編集距離が小さいほど、２つの文字列の類似度が高い。よって、編集距離を算出基準としてトレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差を算出する時、算出された誤差が小さいほど、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との類似度が高く、逆に、算出された誤差が大きいほど、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との類似度が低いことを示す。

前記分割領域サンプルの注記が前記分割領域サンプルの名称すなわち前記分割領域サンプルに含まれる文字であるため、算出されたトレーニングで取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差はすなわちトレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルに含まれる文字との誤差であり、トレーニングして取得されたモデルに認識された文字と正確な文字との誤差を反映できる。第二データセットを使用してトレーニングされたモデルをテストするたびに誤差を記録し、かつ誤差の変化傾向を解析し、テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差が発散すると解析する場合、ａｃｔｉｖａｔｉｏｎ関数、ＬＳＴＭ層数、入出力の変数次元などのトレーニングパラメータを調整し、かつ再トレーニングすることで、テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差を収束させることができる。テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差が収束すると解析する場合、モデルトレーニングを終了し、生成されたトレーニングモデルをトレーニングされた前記予め決められた認識モデルとする。

本実施例において、ＯＣＲ文字認識エンジンが認識不能な領域に対し、トレーニングされたＬＳＴＭモデルを採用して認識し、ＬＳＴＭモデルが大量の分割領域サンプルでトレーニングされたものであり、かつ分割領域サンプルに対する文字認識の誤差が収束するモデルであるため、ＬＳＴＭモデル自身の長期記憶機能と結合して前記ＬＳＴＭモデルが分割領域における文字を認識する時、モデルに記憶されたコンテキスト情報などの長期情報を利用し、分割領域における文字をより正確に認識でき、それにより損害賠償請求書類における文字に対する認識精度をさらに向上させる。

本発明は、さらに損害賠償請求書類の文字認識サーバを提供する。

図４に示すように、図４は本発明に係る損害賠償請求書類の文字認識サーバの第一実施例の模式図である。

第一実施例において、前記損害賠償請求書類の文字認識サーバは、記憶装置１１と、プロセッサ１２と、通信バス１３と、ネットワークインタフェース１４と、を含む。そのうち、通信バス１３はこれらのモジュールの間の接続通信を実現するために用いられる。

記憶装置１１は、メモリと、少なくとも１種の読み取り可能な記憶媒体と、を含む。メモリは、損害賠償請求書類の文字認識サーバの動作にキャッシュを提供する。読み取り可能な記憶媒体は、例えばフラッシュメモリ、ハードディスク、マルチメディアカード、カード型記憶装置などの不揮発性記憶媒体であってもよい。幾つかの実施例において、前記読み取り可能な記憶媒体は、例えば前記損害賠償請求書類の文字認識サーバのハードディスク又はメモリなどの前記損害賠償請求書類の文字認識サーバの内部記憶ユニットであってもよい。別の実施例において、前記読み取り可能な記憶媒体は、例えば前記損害賠償請求書類の文字認識サーバに搭載されているプラグイン型ハードディスク、スマートメディアカード（ＳｍａｒｔＭｅｄｉａ(登録商標) Ｃａｒｄ、ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ、ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）などの前記損害賠償請求書類の文字認識サーバの外部記憶機器であってもよい。

本実施例において、前記記憶装置１１の読み取り可能な記憶媒体は、通常例えば損害賠償請求書類の文字認識プログラムなどの前記損害賠償請求書類の文字認識サーバにインストールされているアプリケーションソフトウェア及び各種データを記憶するために用いられる。また、前記記憶装置１１は、既に出力されたか又は出力されるデータを一時的に記憶するために用いられる。

幾つかの実施例において、プロセッサ１２は、中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）、マイクロプロセッサ又は他のデータ処理チップであってもよく、前記記憶装置１１に記憶されているプログラムコードの実行やデータ処理に用いられる。

ネットワークインタフェース１４は標準的な有線インタフェース、無線インタフェース（例えばＷＩ−ＦＩインタフェース）を含んでもよい。

図４はモジュール１１−１４を有する損害賠償請求書類の文字認識サーバのみを示すが、理解されるように、示される全てのモジュールを実施する必要はなく、また、より多くの又はより少ないモジュールを置き換えて実施することも可能である。

あるいは、前記損害賠償請求書類の文字認識サーバはまたユーザーインタフェースを含んでもよく、ユーザーインタフェースが標準的な有線インタフェース、無線インタフェースを含んでもよい。例えば、キーボード（Ｋｅｙｂｏａｒｄ）などの入力ユニット、有線又は無線ヘッドホンポート、外部電源（又は電池充電器）ポート、有線又は無線データポート、メモリカードポート、認識モジュールを有する装置に接続するためのポート、オーディオ入力／出力（Ｉ／Ｏ）ポート、ビデオＩ／Ｏポート、イヤホンポートなどである。前記ユーザーインタフェースは外部装置からの入力（例えば、データ情報、電力など）を受信して受信した入力を端末の１つ又は複数の素子に伝送するために用いられることが可能である。

あるいは、前記損害賠償請求書類の文字認識サーバはまたディスプレイを含んでもよく、ディスプレイがＬＥＤディスプレイ、液晶ディスプレイ、タッチ液晶ディスプレイ及びＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔ−ＥｍｉｔｔｉｎｇＤｉｏｄｅ、有機発光ダイオード）タッチディスプレイなどであってもよい。前記ディスプレイは、前記損害賠償請求書類の文字認識サーバにおいて処理された情報及び可視化されたユーザーインタフェースなどを表示するために用いられる。

図４に示す損害賠償請求書類の文字認識サーバの実施例において、記憶装置１１は損害賠償請求書類の文字認識プログラムを含んでもよく、プロセッサ１２が記憶装置１１に記憶されている損害賠償請求書類の文字認識プログラムを実行する時に、以下のステップを実現する。即ち、
文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得し、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。

好ましくは、前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
前記予め決められた認識ルールを利用して解析された各分割領域にそれぞれ文字認識を行うステップは、さらに
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することを含む。

好ましくは、前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである：
Ａ、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
Ｂ、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
Ｃ、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
Ｄ、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
Ｅ、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
Ｆ、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記手順Ａ、Ｂ、Ｃ、Ｄ、Ｅを繰り返し実行する。

好ましくは、前記予め決められた認識モデルは長期短期記憶ＬＳＴＭモデルであり、前記予め決められた認識モデルのトレーニング手順は、以下の通りである：
所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
前記第一データセットをＬＳＴＭネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする。

好ましくは、前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である。

本発明の損害賠償請求書類の文字認識サーバの具体的な実施形態は上記損害賠償請求書類の文字認識方法の具体的な実施形態とほぼ同じであるため、ここで説明を省略する。

本発明はさらにコンピュータ読み取り可能な記憶媒体を提供する。

前記コンピュータ読み取り可能な記憶媒体に損害賠償請求書類の文字認識プログラムが記憶されており、前記損害賠償請求書類の文字認識プログラムが少なくとも１つのプロセッサによって実行されることにより、以下のステップを実現する。即ち、
文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得し、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。

好ましくは、前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
前記予め決められた認識ルールを利用して、解析された各分割領域にそれぞれ文字認識を行うステップは、さらに
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することを含む。

好ましくは、前記予め決められた認識モデルは長期短期記憶ＬＳＴＭモデルであり、前記予め決められた認識モデルのトレーニング手順は、
所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
前記第一データセットをＬＳＴＭネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする。

本発明のコンピュータ読み取り可能な記憶媒体の具体的な実施形態は上記損害賠償請求書類の文字認識方法の具体的な実施形態とほぼ同じであるため、ここで説明を省略する。

なお、本明細書において、用語「含む」、「含有する」又はそれらの任意の他の変更態様は、非排他的に含むことを意図し、それにより一連の要素を含むプロセス、方法、物品や装置はそれらの要素を含むだけでなく、明確に列挙された他の要素を含み、又はこのようなプロセス、方法、物品や装置に固有の要素をさらに含む。より多くの制限がない場合に、語句「１つの．．．を含む」に限定される要素は、前記要素を含むプロセス、方法、物品や装置の中に他の同じ要素がさらに存在する場合は除外されない。

以上、本発明の実施形態について説明したが、当業者にとって理解できるように、上記実施例の方法はソフトウェア及び必要な汎用ハードウェアプラットフォームによって実現されてもよいし、ハードウェアによって実現されてもよいが、前者がより好ましい実施形態である場合が多い。このような理解に基づき、本発明の技術的解決手段は本質的に従来技術に対する貢献部分をソフトウェア製品の形式で表し、前記コンピュータソフトウェア製品は記憶媒体（例えばＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク）に記憶されており、１台の端末装置（携帯電話、コンピュータ、サーバ、エアコン又はネットワーク装置など）に本発明の様々な実施例に記載の方法を実行させるための幾つかの指令を含む。

以上、図面を参照しながら本発明の好適な実施例について説明したが、特許請求の範囲に係る発明を限定するものではない。上記本発明の実施例の番号は説明するためだけのものであり、実施例の優劣を表さない。また、フローチャートにはロジック順序を示したが、場合によっては、ここで記載した順序と異なる順序で示されたか又は説明されたステップを実行してもよい。

本発明の範囲と趣旨を逸脱しない限り、当業者であれば、種々の変形変更が可能である。例えば、ある実施例における特徴は他の実施例に適用してさらに別の実施例を取得することができる。本発明の精神と原則内で行われるいかなる変更、等価な置換、改善なども、いずれも本発明の保護範囲に含まれる。

Claims

損害賠償請求書類の文字認識方法であって、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得するステップと、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するステップと、を含み、
前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
前記予め決められた認識ルールを利用して解析された各分割領域にそれぞれ文字認識を行うステップは、
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することをさらに含む
ことを特徴とする損害賠償請求書類の文字認識方法。
前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである：
Ａ、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
Ｂ、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
Ｃ、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
Ｄ、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
Ｅ、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
Ｆ、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記ステップＡ、Ｂ、Ｃ、Ｄ、Ｅを繰り返し実行する
ことを特徴とする請求項１に記載の損害賠償請求書類の文字認識方法。
前記予め決められた認識モデルは長期短期記憶ＬＳＴＭモデルであり、前記予め決められた認識モデルのトレーニング手順は、
所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
前記第一データセットをＬＳＴＭネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする
ことを特徴とする請求項１又は２に記載の損害賠償請求書類の文字認識方法。
前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である
ことを特徴とする請求項１に記載の損害賠償請求書類の文字認識方法。
損害賠償請求書類の文字認識サーバであって、
損害賠償請求書類の文字認識プログラムが記憶されている記憶装置と、プロセッサと、を含み、前記損害賠償請求書類の文字認識プログラムが前記プロセッサによって実行されることにより、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得するステップと、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するステップと、を実現し、
前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
前記予め決められた認識ルールを利用して解析された各分割領域にそれぞれ文字認識を行うステップは、
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することをさらに含む
ことを特徴とする損害賠償請求書類の文字認識サーバ。
前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである：
Ａ、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
Ｂ、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
Ｃ、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
Ｄ、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
Ｅ、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
Ｆ、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記手順Ａ、Ｂ、Ｃ、Ｄ、Ｅを繰り返し実行する
ことを特徴とする請求項５に記載の損害賠償請求書類の文字認識サーバ。
前記予め決められた認識モデルは長期短期記憶ＬＳＴＭモデルであり、前記予め決められた認識モデルのトレーニング手順は、
所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
前記第一データセットをＬＳＴＭネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする
ことを特徴とする請求項５又は６に記載の損害賠償請求書類の文字認識サーバ。
前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である
ことを特徴とする請求項５に記載の損害賠償請求書類の文字認識サーバ。
コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ読み取り可能な記憶媒体に損害賠償請求書類の文字認識プログラムが記憶されており、前記損害賠償請求書類の文字認識プログラムが少なくとも１つのプロセッサによって実行されることにより、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、１つ又は複数の分割領域を取得するステップと、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するステップと、を実現し、
前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
前記予め決められた認識ルールを利用して解析された各分割領域にそれぞれ文字認識を行うステップは、
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することをさらに含む
ことを特徴とするコンピュータ読み取り可能な記憶媒体。