JP2019520615A - 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体 - Google Patents

損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体 Download PDF

Info

Publication number
JP2019520615A
JP2019520615A JP2018536430A JP2018536430A JP2019520615A JP 2019520615 A JP2019520615 A JP 2019520615A JP 2018536430 A JP2018536430 A JP 2018536430A JP 2018536430 A JP2018536430 A JP 2018536430A JP 2019520615 A JP2019520615 A JP 2019520615A
Authority
JP
Japan
Prior art keywords
predetermined
model
character recognition
training
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018536430A
Other languages
English (en)
Other versions
JP6710483B2 (ja
Inventor
飛虎 金
飛虎 金
燕 薛
燕 薛
芸 米
芸 米
歓歓 李
歓歓 李
一 仇
一 仇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2019520615A publication Critical patent/JP2019520615A/ja
Application granted granted Critical
Publication of JP6710483B2 publication Critical patent/JP6710483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本発明は損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体を開示し、前記方法は、サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得することと、予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識することとを含む。本発明は損害賠償請求書類の枠フォーマットによる認識精度に対する影響を考慮するため、文字認識を行う前にまず損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、さらに分割領域ごとに文字を認識することで、損害賠償請求書類の映像全体における文字を一括で認識する時に請求書類中の枠線による文字認識への影響及び干渉を回避し、損害賠償請求書類における文字の認識精度を効果的に向上できる。

Description

「関連出願の相互参照」
本願は、パリ条約に基づき、2017年4月11日に中国国家知識産権局に出願された、中国特許出願第2017102336133号の「損害賠償請求書類の文字認識方法及びサーバ」と題する中国特許出願の優先権を主張し、当該出願の全体が参照により本願に援用される。
本発明は、コンピュータ技術分野に関し、特に損害賠償請求書類の文字認識方法、装置、サーバ及びコンピュータ読み取り可能な記憶媒体に関するものである。
大衆の保険加入意識の高まり、保険購入の顧客数の大幅な増加に伴い、保険会社が取り扱う必要がある顧客からの損害賠償請求が多くなり、保険会社の作業者が取り込む必要がある損害賠償請求書類の映像も益々増え、請求書類データの取り込み作業者の人員不足となり、同時に、請求書類データ取り込みの誤りが頻繁的に現れる。請求書類データ取り込みの誤りを効果的に減少し、請求書類データ取り込みの効率を向上させるために、現在、請求書類データ取り込み作業過程にOCR(Optical Character Recognition、光学文字認識)技術を導入することで、損害賠償請求書類の映像の文字を自動的に認識して対応する入力欄位置に書き込む保険会社がある。
しかしながら、従来のOCR技術を利用する損害賠償請求書類の映像の文字認識手段は自身の認識エンジンを利用して損害賠償請求書類の映像全体における文字を一括で認識するだけであり、損害賠償請求書類の枠フォーマットによる認識精度に対する影響を考慮せず、請求書類中の枠線による文字認識への干渉も考慮しないため、従来の認識手段の認識精度が高くなく、検証するために多大な手間や物力を要する。
本発明は、損害賠償請求書類の認識精度を向上させるために、損害賠償請求書類の文字認識方法、装置、サーバ及びコンピュータ読み取り可能な記憶媒体を提供することを主な目的とする。
上記目的を実現するために、本発明の第一態様は損害賠償請求書類の文字認識方法を提供し、前記方法は、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得するステップと、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するステップと、を含む。
本出願の第二態様はさらに損害賠償請求書類の文字認識装置を提供し、前記文字認識装置は、
文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得するための分割モジュールと、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するための認識モジュールと、を含む。
本出願の第三態様は損害賠償請求書類の文字認識サーバを提供し、前記損害賠償請求書類の文字認識サーバは、損害賠償請求書類の文字認識プログラムが記憶されている記憶装置と、プロセッサと、を含み、前記損害賠償請求書類の文字認識プログラムが前記プロセッサによって実行されることにより、以下のステップを実現することができる。即ち、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得し、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。
本出願の第四態様はコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体に損害賠償請求書類の文字認識プログラムが記憶されており、前記損害賠償請求書類の文字認識プログラムが少なくとも1つのプロセッサによって実行されることにより、以下のステップを実現することができる。即ち、
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得し、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。
従来技術と比べると、本発明の提供する損害賠償請求書類の文字認識方法、装置、サーバ及びコンピュータ読み取り可能な記憶媒体は、損害賠償請求書類の映像に文字認識を行う前に、前記損害賠償請求書類の枠フォーマットの枠線配列に応じてそれに領域分割を行い、予め決められた認識ルールを利用して前記損害賠償請求書類の各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。損害賠償請求書類の枠フォーマットによる認識精度に対する影響を考慮して、文字認識を行う前にまず損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、さらに分割領域ごとに文字を認識するため、損害賠償請求書類の映像全体における文字を一括で認識する時に請求書類中の枠線による文字認識への影響及び干渉を回避し、損害賠償請求書類における文字の認識精度を効果的に向上できる。
本発明に係る損害賠償請求書類の文字認識方法の第一実施例のフローチャートである。 本発明に係る損害賠償請求書類の文字認識方法の第二実施例のフローチャートである。 本発明に係る損害賠償請求書類の文字認識装置の第一実施例の機能モジュール模式図である。 本発明に係る損害賠償請求書類の文字認識サーバの第一実施例の模式図である。
実施例と図面を組み合わせて本発明の目的の実現、機能特徴及び利点についてさらに説明する。
本発明の解決しようとする技術的問題、技術的解決手段及び有益な効果をより明らかにするために、以下、図面と実施例を組み合わせて本発明について詳細に説明する。本明細書に記載された具体的な実施例は、単に本発明を説明するためのものであり、本発明を限定するためのものではないことが理解される。
本発明は損害賠償請求書類の文字認識方法を提供する。
図1に示すように、図1は本発明に係る損害賠償請求書類の文字認識方法の第一実施例のフローチャートである。
第一実施例において、前記損害賠償請求書類の文字認識方法は、ステップS10と、ステップS20と、を含む。
ステップS10:サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得する。
本実施例において、サーバは、ユーザーから送信された認識対象文字を含む損害賠償請求書類の映像の文字認識要求を受信でき、例えば、ユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末によって送信した文字認識要求を受信し、例えばユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末に予めインストールしているクライアントから送信された文字認識請求を受信し、又はユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末におけるブラウザシステムから送信された文字認識請求を受信する。
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、損害賠償請求書類の映像においてその枠フォーマットに応じて横方向又は縦方向の枠線が配列されており、これらはユーザーが関連情報を書き込むための各入力欄を構成する。本実施例において、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得する。例えば、1つの実施形態において、通常は保険のタイプごとに対応する請求書類フォーマットテンプレートがあるため、予めユーザーがアップロードした請求書類タイプ(保険のタイプによって請求書類フォーマットが異なる可能性がある)に基づき、対応する請求書類テンプレートを取得し、そしてテンプレートのフォーマットに応じて分割できる。例えば受信した文字認識対象の損害賠償請求書類の映像の請求書類タイプに基づき、前記損害賠償請求書類の映像に対応する請求書類テンプレートを見つけ、そしてその対応する請求書類テンプレートに基づいて領域分割を行うことができる。前記分割領域が、前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域が枠線を含まない領域であり、それにより後続して分割領域ごとに文字認識を行う時に枠線による認識精度への干渉及び影響を回避し、前記分割領域がexcelテーブルの各格子に類似し、すなわちexcelテーブルの各格子は最小領域内において枠線を含まない領域である。
ステップS20:予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。
前記損害賠償請求書類の枠フォーマットの枠線配列に応じて損害賠償請求書類の映像に領域分割を行って1つ又は複数の分割領域を取得した後、予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字、すなわち損害賠償請求書類の映像中の文字を認識する。例えば、予め決められた解析モデルを利用して各分割領域に適用する認識モデル又は認識方式を解析し、さらに解析された結果に基づいて分割領域ごとに各分割領域自身に適する認識モデル又は認識方式を利用して文字認識を行うことで、文字認識の精度を向上させる。例えば分割領域ごとに、文字認識の方式としては光学文字認識エンジンを利用して認識してもよいし、また他の認識エンジン又はトレーニングされた認識モデルを利用して認識してもよいと解析でき、ここで特に限定はない。各分割領域における文字を認識し、さらに各分割領域における文字を前記損害賠償請求書類の映像に対応する電子損害賠償請求書類のそれぞれの入力欄に自動的に書き込み、取り込むことができる。
本実施例は、損害賠償請求書類の映像に文字認識を行う前に、前記損害賠償請求書類の枠フォーマットの枠線配列に応じてそれに領域分割を行い、予め決められた認識ルールを利用して前記損害賠償請求書類の各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。損害賠償請求書類の枠フォーマットによる認識精度に対する影響を考慮して、文字認識を行う前にまず損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、さらに分割領域ごとに文字を認識するため、損害賠償請求書類の映像全体における文字を一括で認識する時に請求書類中の枠線による文字認識への影響及び干渉を回避し、損害賠償請求書類における文字の認識精度を効果的に向上できる。
図2に示すように、本発明の第二実施例は損害賠償請求書類の文字認識方法を提供し、上記実施例の上で、前記ステップS20は、ステップS201と、ステップS202と、を含む。
ステップS201:予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析する。
ステップS202:予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識する。
本実施例において、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行って1つ又は複数の分割領域を取得した後、取得された分割領域に認識を行う前に、さらに予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、深層認識が不要な第一分割領域及び深層認識が必要な第二分割領域を解析する。例えば、現在自身の認識エンジンをOCR文字認識エンジンとすることを例として説明し、OCR文字認識エンジンが正確に認識可能な領域又は認識率が高い領域を深層認識が不要な領域とすることができ、すなわち他の認識方式に頼ることなく、現在自身のOCR文字認識エンジンを利用して前記領域の文字を正確に認識できる。OCR文字認識エンジンが認識不能な領域又は認識率が低い領域を深層認識が必要な領域とし、すなわち現在自身のOCR文字認識エンジンを利用して前記領域の文字を正確に認識できず、トレーニングされた認識モデルなどの他の認識方式に頼って文字認識を行う必要がある。
前記損害賠償請求書類の映像においてOCR文字認識エンジンを利用して正確に認識可能な第一分割領域及びOCR文字認識エンジンを利用して認識不能な第二分割領域を解析した後、解析された第一分割領域及び第二分割領域に対して異なる認識方式を採用して文字認識を行うことができる。予め決められたOCR文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を正確に認識する。予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を正確に認識する。前記予め決められた認識モデルは、大量の分割領域サンプルに対してトレーニングされた認識モデルであってもよいし、また自身のOCR文字認識エンジンの認識方式よりも複雑で、認識効果が高い認識エンジンであってもよく、ここで特に限定はない。
さらに、他の実施例において、前記予め決められた解析モデルは畳み込みニューラルネットワーク(Convolutional Neural Network、略称CNN)モデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである:
A、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数(例えば、50万個)の損害賠償請求書類の映像サンプルを取得し、
B、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいてOCR文字認識エンジンが誤って認識した第三分割領域及びOCR文字認識エンジンが正確に認識した第四分割領域を決め、
C、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
D、第一トレーニングセット及び第二トレーニングセットから第一所定割合(例えば、80%)の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ第一トレーニングセット及び第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
E、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
F、検証通過率が所定閾値(例えば、98%)以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、前記手順A、B、C、D、Eを繰り返し実行する。
本実施例において大量の損害賠償請求書類の映像サンプルでトレーニングされた畳み込みニューラルネットワークモデルを利用して分割領域を解析し、損害賠償請求書類の各分割領域においてOCR文字認識エンジンを利用して文字を正確に認識可能な第一分割領域及びOCR文字認識エンジンを利用して文字を正確に認識不能な第二分割領域を正確に解析でき、後続して第一分割領域及び第二分割領域に対してそれぞれ異なる認識方式を採用して正確な文字認識操作を行うことに便利であり、それにより損害賠償請求書類における文字に対する認識精度を向上させる。
さらに、他の実施例において、前記予め決められた認識モデルは長期短期記憶(Long Short−Term Memory、略称LSTM)モデルであり、前記予め決められた認識モデルのトレーニング手順は、
所定数(例えば、10万)の領域サンプルを取得し、前記領域サンプルは履歴データにおいて複数の損害賠償請求書類にその枠フォーマットの枠線配列に応じて領域分割を行った後の分割領域サンプルであってもよい。1つの実施形態において、分割領域サンプルにおけるフォントを黒色に、背景を白色に一括で設定でき、それにより文字認識に便利である。かつ各分割領域サンプルを注記し、例えば各分割領域サンプルの名称を前記分割領域サンプルに含まれる文字に命名して注記する。
所定数の分割領域サンプルを所定割合(例えば、8:2)で第一データセット及び第二データセットに分け、第一データセットをトレーニングセットとし、第二データセットをテストセットとし、ただし、第一データセットのサンプル数の割合が第二データセットのサンプル数の割合以上である。
第一データセットをLSTMネットワークに送り込んでモデルトレーニングを行い、所定時間(例えば30分間ごとに又は反復回数1000回ごとに)おきに、第二データセットを使用してモデルをテストすることで、現在トレーニングされているモデルの効果を評価する。例えば、テストの時、トレーニングして取得されたモデルを使用して第二データセットにおける分割領域サンプルに文字認識を行い、かつトレーニングして取得されたモデルを利用して分割領域サンプルの文字認識結果と前記分割領域サンプルの注記とを比較することで、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差を算出する。具体的には、誤差を算出する時、編集距離を算出基準として採用でき、ただし、編集距離(Edit Distance)は、Levenshtein距離とも呼ばれ、2つの文字列の間、1つの文字列からもう1つの文字列へと変更するための最少編集操作回数である。許可された編集操作は1つの文字からもう1つの文字への置換、1つの文字の挿入、1つの文字の削除を含み、一般的には、編集距離が小さいほど、2つの文字列の類似度が高い。よって、編集距離を算出基準としてトレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差を算出する時、算出された誤差が小さいほど、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との類似度が高く、逆に、算出された誤差が大きいほど、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との類似度が低いことを示す。
前記分割領域サンプルの注記は前記分割領域サンプルの名称、すなわち前記分割領域サンプルに含まれる文字であるため、算出されたトレーニングで取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差はすなわちトレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルに含まれる文字との誤差であり、トレーニングして取得されたモデルに認識された文字と正確な文字との誤差を反映できる。第二データセットを使用してトレーニングされたモデルをテストするたびに誤差を記録し、かつ誤差の変化傾向を解析し、テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差が発散すると解析する場合、activation関数、LSTM層数、入出力の変数次元などのトレーニングパラメータを調整し、かつ再トレーニングすることで、テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差を収束させることができる。テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差が収束すると解析される場合、モデルトレーニングを終了し、生成されたトレーニングモデルをトレーニングされた前記予め決められた認識モデルとする。
本実施例において、OCR文字認識エンジンが認識不能な領域に対し、トレーニングされたLSTMモデルを採用して認識し、LSTMモデルが大量の分割領域サンプルでトレーニングされたものであり、かつ分割領域サンプルに対する文字認識の誤差が収束するモデルであるため、LSTMモデル自身の長期記憶機能と結合して前記LSTMモデルが分割領域における文字を認識する時、モデルに記憶されたコンテキスト情報などの長期情報を利用し、分割領域における文字をより正確に認識でき、それにより損害賠償請求書類における文字に対する認識精度がさらに向上する。
本発明は、さらに損害賠償請求書類の文字認識装置を提供する。
図3に示すように、図3は本発明に係る損害賠償請求書類の文字認識装置の第一実施例の機能モジュール模式図である。
第一実施例において、前記損害賠償請求書類の文字認識装置は、分割モジュール01と、認識モジュール02と、を含む。
分割モジュール01は、文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得するために用いられる。
本実施例において、サーバは、ユーザーから送信された認識対象文字を含む損害賠償請求書類の映像の文字認識要求を受信でき、例えば、ユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末によって送信した文字認識要求を受信し、例えばユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末に予めインストールしているクライアントから送信された文字認識請求を受信し、又はユーザーが携帯電話、タブレットコンピュータ、セルフ端末機器などの端末におけるブラウザシステムから送信された文字認識請求を受信する。
サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、損害賠償請求書類の映像においてその枠フォーマットに応じて横方向又は縦方向の枠線が配列されており、ユーザーが関連情報を書き込むための各入力欄を構成する。本実施例において、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得する。例えば、1つの実施形態において、通常保険のタイプごとに対応する請求書類フォーマットテンプレートがあるため、予めユーザーがアップロードした請求書類タイプ(保険のタイプによって請求書類フォーマットが異なる可能性がある)に基づき、対応する請求書類テンプレートを取得し、そしてテンプレートのフォーマットに応じて分割できる。例えば受信した文字認識対象の損害賠償請求書類の映像の請求書類タイプに基づき、前記損害賠償請求書類の映像に対応する請求書類テンプレートを見つけ、そしてその対応する請求書類テンプレートに基づいて領域分割を行うことができる。前記分割領域が、前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域が枠線を含まない領域であり、それにより後続して分割領域ごとに文字認識を行う時に枠線による認識精度への干渉及び影響を回避し、前記分割領域がexcelテーブルの各格子に類似し、excelテーブルの各格子がすなわち最小領域内において枠線を含まない領域である。
認識モジュール02は、予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するために用いられる。
前記損害賠償請求書類の枠フォーマットの枠線配列に応じて損害賠償請求書類の映像に領域分割を行って1つ又は複数の分割領域を取得した後、予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字、すなわち損害賠償請求書類の映像中の文字を認識する。例えば、予め決められた解析モデルを利用して各分割領域に適用する認識モデル又は認識方式を解析し、さらに解析された結果に基づいて分割領域ごとに各分割領域自身に適する認識モデル又は認識方式を利用して文字認識を行うことで、文字認識の精度を向上させる。例えば分割領域ごとに、文字認識の方式としては光学文字認識エンジンを利用して認識してもよいし、また他の認識エンジン又はトレーニングされた認識モデルを利用して認識してもよいと解析でき、ここで特に限定はない。各分割領域における文字を認識し、さらに各分割領域における文字を前記損害賠償請求書類の映像に対応する電子損害賠償請求書類のそれぞれの入力欄に自動的に書き込み、取り込むことができる。
本実施例は、損害賠償請求書類の映像に文字認識を行う前に、前記損害賠償請求書類の枠フォーマットの枠線配列に応じてそれに領域分割を行い、予め決められた認識ルールを利用して前記損害賠償請求書類の各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。損害賠償請求書類の枠フォーマットによる認識精度に対する影響を考慮して、文字認識を行う前にまず損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、さらに分割領域ごとに文字を認識するため、損害賠償請求書類の映像全体における文字を一括で認識する時に請求書類中の枠線による文字認識への影響及び干渉を回避し、損害賠償請求書類における文字の認識精度を効果的に向上できる。
さらに、上記実施例の上で、前記認識モジュール02は、さらに
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析し、
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することに用いられる。
本実施例において、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行って1つ又は複数の分割領域を取得した後、取得された分割領域に認識を行う前に、さらに予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、深層認識が不要な第一分割領域及び深層認識が必要な第二分割領域を解析する。例えば、現在自身の認識エンジンをOCR文字認識エンジンとすることを例として説明し、OCR文字認識エンジンが正確に認識可能な領域又は認識率が高い領域を深層認識が不要な領域とすることができ、すなわち他の認識方式に頼ることなく、現在自身のOCR文字認識エンジンを利用して前記領域の文字を正確に認識できる。OCR文字認識エンジンが認識不能な領域又は認識率が低い領域を深層認識が必要な領域とする、すなわち現在自身のOCR文字認識エンジンを利用して前記領域の文字を正確に認識できず、トレーニングされた認識モデルなどの他の認識方式に頼って文字認識を行う必要がある。
前記損害賠償請求書類の映像においてOCR文字認識エンジンを利用して正確に認識可能な第一分割領域及びOCR文字認識エンジンを利用して認識不能な第二分割領域を解析した後、解析された第一分割領域及び第二分割領域に対して異なる認識方式を採用して文字認識を行うことができる。予め決められたOCR文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を正確に認識する。予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を正確に認識する。前記予め決められた認識モデルは、大量の分割領域サンプルに対してトレーニングされた認識モデルであってもよいし、また自身のOCR文字認識エンジンの認識方式よりも複雑で、認識効果が高い認識エンジンであってもよく、ここで特に限定はない。
さらに、他の実施例において、前記予め決められた解析モデルは畳み込みニューラルネットワーク(Convolutional Neural Network、略称CNN)モデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである:
A、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数(例えば、50万個)の損害賠償請求書類の映像サンプルを取得し、
B、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいてOCR文字認識エンジンが誤って認識した第三分割領域及びOCR文字認識エンジンが正確に認識した第四分割領域を決め、
C、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
D、第一トレーニングセット及び第二トレーニングセットから第一所定割合(例えば、80%)の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ第一トレーニングセット及び第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
E、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
F、検証通過率が所定閾値(例えば、98%)以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、前記手順A、B、C、D、Eを繰り返し実行する。
本実施例において大量の損害賠償請求書類の映像サンプルでトレーニングされた畳み込みニューラルネットワークモデルを利用して分割領域を解析し、損害賠償請求書類の各分割領域においてOCR文字認識エンジンを利用して文字を正確に認識可能な第一分割領域及びOCR文字認識エンジンを利用して文字を正確に認識不能な第二分割領域を正確に解析でき、後続して第一分割領域及び第二分割領域に対してそれぞれ異なる認識方式を採用して正確な文字認識操作を行うことに便利であり、それにより損害賠償請求書類における文字に対する認識精度が向上する。
さらに、他の実施例において、前記予め決められた認識モデルは長期短期記憶(Long Short−Term Memory、略称LSTM)モデルであり、前記予め決められた認識モデルのトレーニング手順は、
所定数(例えば、10万)の領域サンプルを取得し、前記領域サンプルは履歴データにおいて複数の損害賠償請求書類にその枠フォーマットの枠線配列に応じて領域分割を行った後の分割領域サンプルであってもよい。1つの実施形態において、分割領域サンプルにおけるフォントを黒色に、背景を白色に一括で設定でき、それにより文字認識に便利である。かつ各分割領域サンプルを注記し、例えば各分割領域サンプルの名称を前記分割領域サンプルに含まれる文字に命名して注記する。
所定数の分割領域サンプルを所定割合(例えば、8:2)で第一データセット及び第二データセットに分け、第一データセットをトレーニングセットとし、第二データセットをテストセットとし、ただし、第一データセットのサンプル数の割合は第二データセットのサンプル数の割合以上である。
第一データセットをLSTMネットワークに送り込んでモデルトレーニングを行い、所定時間(例えば30分間ごとに又は反復回数1000回ごとに)おきに、第二データセットを使用してモデルをテストすることで、現在トレーニングされているモデルの効果を評価する。例えば、テストの時、トレーニングして取得されたモデルを使用して第二データセットにおける分割領域サンプルに文字認識を行い、かつトレーニングして取得されたモデルを利用して分割領域サンプルの文字認識結果と前記分割領域サンプルの注記とを比較することで、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差を算出する。具体的には、誤差を算出する時、編集距離を算出基準として採用でき、ここで、編集距離(Edit Distance)は、Levenshtein距離とも呼ばれ、2つの文字列の間、1つの文字列からもう1つの文字列へと変更するための最少編集操作回数である。許可された編集操作は1つの文字からもう1つの文字への置換、1つの文字の挿入、1つの文字の削除を含み、一般的には、編集距離が小さいほど、2つの文字列の類似度が高い。よって、編集距離を算出基準としてトレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差を算出する時、算出された誤差が小さいほど、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との類似度が高く、逆に、算出された誤差が大きいほど、トレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルの注記との類似度が低いことを示す。
前記分割領域サンプルの注記が前記分割領域サンプルの名称すなわち前記分割領域サンプルに含まれる文字であるため、算出されたトレーニングで取得されたモデルの文字認識結果と前記分割領域サンプルの注記との誤差はすなわちトレーニングして取得されたモデルの文字認識結果と前記分割領域サンプルに含まれる文字との誤差であり、トレーニングして取得されたモデルに認識された文字と正確な文字との誤差を反映できる。第二データセットを使用してトレーニングされたモデルをテストするたびに誤差を記録し、かつ誤差の変化傾向を解析し、テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差が発散すると解析する場合、activation関数、LSTM層数、入出力の変数次元などのトレーニングパラメータを調整し、かつ再トレーニングすることで、テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差を収束させることができる。テスト時のトレーニングモデルによる分割領域サンプルに対する文字認識の誤差が収束すると解析する場合、モデルトレーニングを終了し、生成されたトレーニングモデルをトレーニングされた前記予め決められた認識モデルとする。
本実施例において、OCR文字認識エンジンが認識不能な領域に対し、トレーニングされたLSTMモデルを採用して認識し、LSTMモデルが大量の分割領域サンプルでトレーニングされたものであり、かつ分割領域サンプルに対する文字認識の誤差が収束するモデルであるため、LSTMモデル自身の長期記憶機能と結合して前記LSTMモデルが分割領域における文字を認識する時、モデルに記憶されたコンテキスト情報などの長期情報を利用し、分割領域における文字をより正確に認識でき、それにより損害賠償請求書類における文字に対する認識精度をさらに向上させる。
本発明は、さらに損害賠償請求書類の文字認識サーバを提供する。
図4に示すように、図4は本発明に係る損害賠償請求書類の文字認識サーバの第一実施例の模式図である。
第一実施例において、前記損害賠償請求書類の文字認識サーバは、記憶装置11と、プロセッサ12と、通信バス13と、ネットワークインタフェース14と、を含む。そのうち、通信バス13はこれらのモジュールの間の接続通信を実現するために用いられる。
記憶装置11は、メモリと、少なくとも1種の読み取り可能な記憶媒体と、を含む。メモリは、損害賠償請求書類の文字認識サーバの動作にキャッシュを提供する。読み取り可能な記憶媒体は、例えばフラッシュメモリ、ハードディスク、マルチメディアカード、カード型記憶装置などの不揮発性記憶媒体であってもよい。幾つかの実施例において、前記読み取り可能な記憶媒体は、例えば前記損害賠償請求書類の文字認識サーバのハードディスク又はメモリなどの前記損害賠償請求書類の文字認識サーバの内部記憶ユニットであってもよい。別の実施例において、前記読み取り可能な記憶媒体は、例えば前記損害賠償請求書類の文字認識サーバに搭載されているプラグイン型ハードディスク、スマートメディアカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュカード(Flash Card)などの前記損害賠償請求書類の文字認識サーバの外部記憶機器であってもよい。
本実施例において、前記記憶装置11の読み取り可能な記憶媒体は、通常例えば損害賠償請求書類の文字認識プログラムなどの前記損害賠償請求書類の文字認識サーバにインストールされているアプリケーションソフトウェア及び各種データを記憶するために用いられる。また、前記記憶装置11は、既に出力されたか又は出力されるデータを一時的に記憶するために用いられる。
幾つかの実施例において、プロセッサ12は、中央処理装置(Central Processing Unit、CPU)、マイクロプロセッサ又は他のデータ処理チップであってもよく、前記記憶装置11に記憶されているプログラムコードの実行やデータ処理に用いられる。
ネットワークインタフェース14は標準的な有線インタフェース、無線インタフェース(例えばWI−FIインタフェース)を含んでもよい。
図4はモジュール11−14を有する損害賠償請求書類の文字認識サーバのみを示すが、理解されるように、示される全てのモジュールを実施する必要はなく、また、より多くの又はより少ないモジュールを置き換えて実施することも可能である。
あるいは、前記損害賠償請求書類の文字認識サーバはまたユーザーインタフェースを含んでもよく、ユーザーインタフェースが標準的な有線インタフェース、無線インタフェースを含んでもよい。例えば、キーボード(Keyboard)などの入力ユニット、有線又は無線ヘッドホンポート、外部電源(又は電池充電器)ポート、有線又は無線データポート、メモリカードポート、認識モジュールを有する装置に接続するためのポート、オーディオ入力/出力(I/O)ポート、ビデオI/Oポート、イヤホンポートなどである。前記ユーザーインタフェースは外部装置からの入力(例えば、データ情報、電力など)を受信して受信した入力を端末の1つ又は複数の素子に伝送するために用いられることが可能である。
あるいは、前記損害賠償請求書類の文字認識サーバはまたディスプレイを含んでもよく、ディスプレイがLEDディスプレイ、液晶ディスプレイ、タッチ液晶ディスプレイ及びOLED(Organic Light−Emitting Diode、有機発光ダイオード)タッチディスプレイなどであってもよい。前記ディスプレイは、前記損害賠償請求書類の文字認識サーバにおいて処理された情報及び可視化されたユーザーインタフェースなどを表示するために用いられる。
図4に示す損害賠償請求書類の文字認識サーバの実施例において、記憶装置11は損害賠償請求書類の文字認識プログラムを含んでもよく、プロセッサ12が記憶装置11に記憶されている損害賠償請求書類の文字認識プログラムを実行する時に、以下のステップを実現する。即ち、
文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得し、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。
好ましくは、前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
前記予め決められた認識ルールを利用して解析された各分割領域にそれぞれ文字認識を行うステップは、さらに
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することを含む。
好ましくは、前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである:
A、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
B、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
C、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
D、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
E、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
F、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記手順A、B、C、D、Eを繰り返し実行する。
好ましくは、前記予め決められた認識モデルは長期短期記憶LSTMモデルであり、前記予め決められた認識モデルのトレーニング手順は、以下の通りである:
所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
前記第一データセットをLSTMネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする。
好ましくは、前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である。
本発明の損害賠償請求書類の文字認識サーバの具体的な実施形態は上記損害賠償請求書類の文字認識方法の具体的な実施形態とほぼ同じであるため、ここで説明を省略する。
本発明はさらにコンピュータ読み取り可能な記憶媒体を提供する。
前記コンピュータ読み取り可能な記憶媒体に損害賠償請求書類の文字認識プログラムが記憶されており、前記損害賠償請求書類の文字認識プログラムが少なくとも1つのプロセッサによって実行されることにより、以下のステップを実現する。即ち、
文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得し、
予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識する。
好ましくは、前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
前記予め決められた認識ルールを利用して、解析された各分割領域にそれぞれ文字認識を行うステップは、さらに
予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することを含む。
好ましくは、前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである:
A、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
B、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
C、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
D、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
E、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
F、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記手順A、B、C、D、Eを繰り返し実行する。
好ましくは、前記予め決められた認識モデルは長期短期記憶LSTMモデルであり、前記予め決められた認識モデルのトレーニング手順は、
所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
前記第一データセットをLSTMネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする。
好ましくは、前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である。
本発明のコンピュータ読み取り可能な記憶媒体の具体的な実施形態は上記損害賠償請求書類の文字認識方法の具体的な実施形態とほぼ同じであるため、ここで説明を省略する。
なお、本明細書において、用語「含む」、「含有する」又はそれらの任意の他の変更態様は、非排他的に含むことを意図し、それにより一連の要素を含むプロセス、方法、物品や装置はそれらの要素を含むだけでなく、明確に列挙された他の要素を含み、又はこのようなプロセス、方法、物品や装置に固有の要素をさらに含む。より多くの制限がない場合に、語句「1つの...を含む」に限定される要素は、前記要素を含むプロセス、方法、物品や装置の中に他の同じ要素がさらに存在する場合は除外されない。
以上、本発明の実施形態について説明したが、当業者にとって理解できるように、上記実施例の方法はソフトウェア及び必要な汎用ハードウェアプラットフォームによって実現されてもよいし、ハードウェアによって実現されてもよいが、前者がより好ましい実施形態である場合が多い。このような理解に基づき、本発明の技術的解決手段は本質的に従来技術に対する貢献部分をソフトウェア製品の形式で表し、前記コンピュータソフトウェア製品は記憶媒体(例えばROM/RAM、磁気ディスク、光ディスク)に記憶されており、1台の端末装置(携帯電話、コンピュータ、サーバ、エアコン又はネットワーク装置など)に本発明の様々な実施例に記載の方法を実行させるための幾つかの指令を含む。
以上、図面を参照しながら本発明の好適な実施例について説明したが、特許請求の範囲に係る発明を限定するものではない。上記本発明の実施例の番号は説明するためだけのものであり、実施例の優劣を表さない。また、フローチャートにはロジック順序を示したが、場合によっては、ここで記載した順序と異なる順序で示されたか又は説明されたステップを実行してもよい。
本発明の範囲と趣旨を逸脱しない限り、当業者であれば、種々の変形変更が可能である。例えば、ある実施例における特徴は他の実施例に適用してさらに別の実施例を取得することができる。本発明の精神と原則内で行われるいかなる変更、等価な置換、改善なども、いずれも本発明の保護範囲に含まれる。

Claims (20)

  1. 損害賠償請求書類の文字認識方法であって、
    サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得するステップと、
    予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するステップと、を含む
    ことを特徴とする損害賠償請求書類の文字認識方法。
  2. 前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
    予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
    前記予め決められた認識ルールを利用して解析された各分割領域にそれぞれ文字認識を行うステップは、
    予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することをさらに含む
    ことを特徴とする請求項1に記載の損害賠償請求書類の文字認識方法。
  3. 前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである:
    A、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
    B、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
    C、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
    D、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
    E、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
    F、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記ステップA、B、C、D、Eを繰り返し実行する
    ことを特徴とする請求項2に記載の損害賠償請求書類の文字認識方法。
  4. 前記予め決められた認識モデルは長期短期記憶LSTMモデルであり、前記予め決められた認識モデルのトレーニング手順は、
    所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
    所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
    前記第一データセットをLSTMネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
    トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
    トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする
    ことを特徴とする請求項2又は3に記載の損害賠償請求書類の文字認識方法。
  5. 前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である
    ことを特徴とする請求項1に記載の損害賠償請求書類の文字認識方法。
  6. 損害賠償請求書類の文字認識装置であって、
    文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得するための分割モジュールと、
    予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するための認識モジュールと、を含む
    ことを特徴とする損害賠償請求書類の文字認識装置。
  7. 前記認識モジュールは、
    予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析し、
    予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することにさらに用いられる
    ことを特徴とする請求項6に記載の損害賠償請求書類の文字認識装置。
  8. 前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである:
    A、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
    B、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
    C、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
    D、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
    E、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
    F、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記手順A、B、C、D、Eを繰り返し実行する
    ことを特徴とする請求項7に記載の損害賠償請求書類の文字認識装置。
  9. 前記予め決められた認識モデルは長期短期記憶LSTMモデルであり、前記予め決められた認識モデルのトレーニング手順は、
    所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
    所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
    前記第一データセットをLSTMネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
    トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
    トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする
    ことを特徴とする請求項7又は8に記載の損害賠償請求書類の文字認識装置。
  10. 前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である
    ことを特徴とする請求項6に記載の損害賠償請求書類の文字認識装置。
  11. 損害賠償請求書類の文字認識サーバであって、
    損害賠償請求書類の文字認識プログラムが記憶されている記憶装置と、プロセッサと、を含み、前記損害賠償請求書類の文字認識プログラムが前記プロセッサによって実行されることにより、
    サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得するステップと、
    予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するステップと、を実現する
    ことを特徴とする損害賠償請求書類の文字認識サーバ。
  12. 前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
    予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
    前記予め決められた認識ルールを利用して解析された各分割領域にそれぞれ文字認識を行うステップは、
    予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することをさらに含む
    ことを特徴とする請求項11に記載の損害賠償請求書類の文字認識サーバ。
  13. 前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである:
    A、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
    B、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
    C、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
    D、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
    E、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
    F、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記手順A、B、C、D、Eを繰り返し実行する
    ことを特徴とする請求項12に記載の損害賠償請求書類の文字認識サーバ。
  14. 前記予め決められた認識モデルは長期短期記憶LSTMモデルであり、前記予め決められた認識モデルのトレーニング手順は、
    所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
    所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
    前記第一データセットをLSTMネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
    トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
    トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする
    ことを特徴とする請求項12又は13に記載の損害賠償請求書類の文字認識サーバ。
  15. 前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である
    ことを特徴とする請求項11に記載の損害賠償請求書類の文字認識サーバ。
  16. コンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ読み取り可能な記憶媒体に損害賠償請求書類の文字認識プログラムが記憶されており、前記損害賠償請求書類の文字認識プログラムが少なくとも1つのプロセッサによって実行されることにより、
    サーバが文字認識対象の損害賠償請求書類の映像を受信した後、前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、1つ又は複数の分割領域を取得するステップと、
    予め決められた解析モデルを呼び出して取得された各分割領域を解析し、かつ予め決められた認識ルールを利用して解析された各分割領域についてそれぞれ文字認識を行うことで、各分割領域における文字を認識するステップと、を実現する
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
  17. 前記予め決められた解析モデルを呼び出して取得された各分割領域を解析するステップは、
    予め決められた解析モデルを呼び出して取得された各分割領域を解析することで、光学文字認識エンジンを利用して認識可能な第一分割領域及び光学文字認識エンジンを利用して認識不能な第二分割領域を解析することを含み、
    前記予め決められた認識ルールを利用して解析された各分割領域にそれぞれ文字認識を行うステップは、
    予め決められた光学文字認識エンジンを利用して各前記第一分割領域に文字認識を行うことで、各前記第一分割領域における文字を認識し、かつ予め決められた認識モデルを呼び出して各前記第二分割領域に文字認識を行うことで、各前記第二分割領域における文字を認識することをさらに含む
    ことを特徴とする請求項16に記載のコンピュータ読み取り可能な記憶媒体。
  18. 前記予め決められた解析モデルは畳み込みニューラルネットワークモデルであり、前記予め決められた解析モデルのトレーニング手順は、以下の通りである:
    A、予め決められた損害賠償請求書類の枠フォーマットに対し、前記損害賠償請求書類の枠フォーマットに基づく所定数の損害賠償請求書類の映像サンプルを取得し、
    B、各損害賠償請求書類の映像サンプルに対して前記損害賠償請求書類の枠フォーマットの枠線配列に応じて領域分割を行い、かつ各損害賠償請求書類の映像サンプルにおいて光学文字認識エンジンを利用して誤って認識した第三分割領域及び光学文字認識エンジンを利用して正確に認識した第四分割領域を決め、
    C、全ての第三分割領域を第一トレーニングセットに分類し、全ての第四分割領域を第二トレーニングセットに分類し、
    D、前記第一トレーニングセット及び前記第二トレーニングセットから第一所定割合の分割領域をトレーニング対象の分割領域としてそれぞれ抽出し、かつ前記第一トレーニングセット及び前記第二トレーニングセットにおける残りの分割領域を検証対象の分割領域とし、
    E、抽出された各トレーニング対象の分割領域を利用してモデルトレーニングを行うことで、前記予め決められた解析モデルを生成し、かつ各検証対象の分割領域を利用して生成された前記予め決められた解析モデルを検証し、
    F、検証通過率が所定閾値以上である場合、トレーニングが完了し、又は、検証通過率が所定閾値未満である場合、損害賠償請求書類の映像サンプルの数を増加し、かつ検証通過率が所定閾値以上になるまで、上記手順A、B、C、D、Eを繰り返し実行する
    ことを特徴とする請求項17に記載のコンピュータ読み取り可能な記憶媒体。
  19. 前記予め決められた認識モデルは長期短期記憶LSTMモデルであり、前記予め決められた認識モデルのトレーニング手順は、
    所定数の分割領域サンプルを取得し、各分割領域サンプルを前記分割領域サンプルに含まれる文字で注記し、
    所定数の分割領域サンプルを所定割合で第一データセット及び第二データセットに分け、かつ前記第一データセットをトレーニングセットとし、前記第二データセットをテストセットとし、
    前記第一データセットをLSTMネットワークに送り込んでモデルトレーニングを行い、所定時間おきに、トレーニングして取得されたモデルを使用して前記第二データセットにおける分割領域サンプルに文字認識を行い、かつ認識された文字と前記分割領域サンプルの注記とを比較することで、認識された文字と注記との誤差を算出し、
    トレーニングして取得されたモデル認識文字の誤差が発散すると、トレーニングして取得されたモデル認識文字の誤差が収束するようになるまで、予め設定されたトレーニングパラメータを調整して再トレーニングし、
    トレーニングして取得されたモデル認識文字の誤差が収束すると、モデルトレーニングを終了し、生成されたモデルをトレーニングされた前記予め決められた認識モデルとする
    ことを特徴とする請求項17又は18に記載のコンピュータ読み取り可能な記憶媒体。
  20. 前記分割領域は前記損害賠償請求書類の枠フォーマットの枠線で囲まれる最小単位の領域であり、かつ前記分割領域は枠線を含まない領域である
    ことを特徴とする請求項16に記載のコンピュータ読み取り可能な記憶媒体。
JP2018536430A 2017-04-11 2017-06-30 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体 Active JP6710483B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710233613.3 2017-04-11
CN201710233613.3A CN107220648B (zh) 2017-04-11 2017-04-11 理赔单据的字符识别方法及服务器
PCT/CN2017/091363 WO2018188199A1 (zh) 2017-04-11 2017-06-30 理赔单据的字符识别方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
JP2019520615A true JP2019520615A (ja) 2019-07-18
JP6710483B2 JP6710483B2 (ja) 2020-06-17

Family

ID=59927567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018536430A Active JP6710483B2 (ja) 2017-04-11 2017-06-30 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体

Country Status (9)

Country Link
US (1) US10650231B2 (ja)
EP (1) EP3432197B1 (ja)
JP (1) JP6710483B2 (ja)
KR (1) KR102171220B1 (ja)
CN (1) CN107220648B (ja)
AU (1) AU2017408799B2 (ja)
SG (1) SG11201900263SA (ja)
TW (1) TWI621077B (ja)
WO (1) WO2018188199A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766809B (zh) * 2017-10-09 2020-05-19 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN107798299B (zh) * 2017-10-09 2020-02-07 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN108319641A (zh) * 2017-12-21 2018-07-24 无锡雅座在线科技股份有限公司 菜品信息录入方法及装置
CN108198591A (zh) * 2017-12-28 2018-06-22 泰康保险集团股份有限公司 用于远程审核单据的方法与装置
CN110135225B (zh) * 2018-02-09 2021-04-09 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN108595519A (zh) * 2018-03-26 2018-09-28 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
EP3811292A4 (en) 2018-06-21 2022-04-13 Servicenow Canada Inc. DATA EXTRACTION FROM SHORT BUSINESS DOCUMENTS
CN109241857A (zh) * 2018-08-13 2019-01-18 杭州睿琪软件有限公司 一种单据信息的识别方法及系统
CN109190594A (zh) * 2018-09-21 2019-01-11 广东蔚海数问大数据科技有限公司 光学字符识别系统及信息提取方法
CN110569700B (zh) * 2018-09-26 2020-11-03 创新先进技术有限公司 优化损伤识别结果的方法及装置
CN109492549A (zh) * 2018-10-24 2019-03-19 杭州睿琪软件有限公司 一种训练样本集处理、模型训练方法及系统
CN109344838B (zh) * 2018-11-02 2023-11-24 长江大学 发票信息自动快速识别方法、系统以及装置
SG11201903592RA (en) * 2018-11-02 2020-06-29 Alibaba Group Holding Ltd Monitoring multiple system indicators
TWI684950B (zh) * 2018-12-12 2020-02-11 全友電腦股份有限公司 物種數據解析方法、系統及電腦程式產品
TWI703508B (zh) * 2018-12-19 2020-09-01 洽吧智能股份有限公司 字元影像識別方法與系統
CN109784341A (zh) * 2018-12-25 2019-05-21 华南理工大学 一种基于lstm神经网络的医疗单据识别方法
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
CN109903172A (zh) * 2019-01-31 2019-06-18 阿里巴巴集团控股有限公司 理赔信息提取方法和装置、电子设备
CN110084704A (zh) * 2019-03-15 2019-08-02 北京水滴互联科技有限公司 一种互助保障服务器、系统及互助保障方法
SG10201904825XA (en) 2019-05-28 2019-10-30 Alibaba Group Holding Ltd Automatic optical character recognition (ocr) correction
CN110610175A (zh) * 2019-08-06 2019-12-24 深圳市华付信息技术有限公司 一种ocr数据误标注清洗方法
US11481605B2 (en) 2019-10-25 2022-10-25 Servicenow Canada Inc. 2D document extractor
CN111291742B (zh) * 2020-02-10 2023-08-04 北京百度网讯科技有限公司 对象识别方法和装置、电子设备、存储介质
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、系统、设备及介质
US11972489B1 (en) 2020-04-24 2024-04-30 State Farm Mutual Automobile Insurance Company Claims process assistance using models
CN111259873B (zh) * 2020-04-26 2021-02-26 江苏联著实业股份有限公司 一种表格数据提取方法及装置
CN112686262B (zh) * 2020-12-28 2024-07-02 广州博士信息技术研究院有限公司 一种基于图像识别技术的提取数据并快速归档的方法
CN114241483A (zh) * 2021-12-08 2022-03-25 中信银行股份有限公司 单据图像栏位信息匹配方法、装置、设备及可读存储介质
CN116110068A (zh) * 2023-01-19 2023-05-12 广州盈尚信息科技有限公司 保单分析报表生成方法、装置、设备及可读存储介质
CN115981798B (zh) * 2023-03-21 2023-08-01 北京探境科技有限公司 文件解析方法、装置、计算机设备及可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04304586A (ja) 1991-04-01 1992-10-27 Mitsubishi Electric Corp 文字認識装置
JP2003256772A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字認識装置及び記録媒体
TW200802137A (en) 2006-06-16 2008-01-01 Univ Nat Chiao Tung Serial-type license plate recognition system
TWI355853B (en) 2008-04-25 2012-01-01 Hon Hai Prec Ind Co Ltd Image capturing device and image arranging method
KR101028670B1 (ko) * 2008-10-22 2011-04-12 엔에이치엔(주) 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP4856235B2 (ja) 2009-12-15 2012-01-18 富士通株式会社 帳票認識方法及び帳票認識装置
US8625113B2 (en) * 2010-09-24 2014-01-07 Ricoh Company Ltd System and method for distributed optical character recognition processing
CN102567764B (zh) 2012-01-13 2016-03-02 中国工商银行股份有限公司 一种提高电子影像识别效率的票据凭证及系统
JP5753828B2 (ja) 2012-09-27 2015-07-22 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理プログラム
CN103258198B (zh) 2013-04-26 2015-12-23 四川大学 一种表格文档图像中字符提取方法
US9716899B2 (en) 2013-06-27 2017-07-25 Qualcomm Incorporated Depth oriented inter-view motion vector prediction
JP6773400B2 (ja) * 2014-09-30 2020-10-21 メディア株式会社 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体
US9659213B2 (en) * 2015-07-03 2017-05-23 Cognizant Technology Solutions India Pvt. Ltd. System and method for efficient recognition of handwritten characters in documents
CN105654072B (zh) * 2016-03-24 2019-03-01 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
CN106557747B (zh) * 2016-11-15 2018-06-22 平安科技(深圳)有限公司 识别保险单号码的方法及装置
JP6401806B2 (ja) * 2017-02-14 2018-10-10 株式会社Pfu 日付識別装置、日付識別方法及び日付識別プログラム

Also Published As

Publication number Publication date
US10650231B2 (en) 2020-05-12
KR102171220B1 (ko) 2020-10-29
EP3432197B1 (en) 2022-07-06
AU2017408799B2 (en) 2019-10-10
CN107220648A (zh) 2017-09-29
EP3432197A1 (en) 2019-01-23
JP6710483B2 (ja) 2020-06-17
KR20190026641A (ko) 2019-03-13
US20190147239A1 (en) 2019-05-16
CN107220648B (zh) 2018-06-22
AU2017408799A1 (en) 2018-11-08
EP3432197A4 (en) 2019-06-19
TWI621077B (zh) 2018-04-11
TW201837788A (zh) 2018-10-16
SG11201900263SA (en) 2019-02-27
WO2018188199A1 (zh) 2018-10-18

Similar Documents

Publication Publication Date Title
JP6710483B2 (ja) 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体
US10049096B2 (en) System and method of template creation for a data extraction tool
US20190171904A1 (en) Method and apparatus for training fine-grained image recognition model, fine-grained image recognition method and apparatus, and storage mediums
WO2021184578A1 (zh) 基于ocr的目标字段识别方法、装置、电子设备及存储介质
WO2021151270A1 (zh) 图像结构化数据提取方法、装置、设备及存储介质
WO2018090641A1 (zh) 识别保险单号码的方法、装置、设备及计算机可读存储介质
CN109656652B (zh) 网页图表绘制方法、装置、计算机设备和存储介质
WO2020232902A1 (zh) 异常对象识别方法、装置、计算设备和存储介质
CN106649210B (zh) 一种数据转换方法及装置
CN107168635A (zh) 信息呈现方法和装置
CN114385694A (zh) 一种数据加工处理方法、装置、计算机设备及存储介质
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN117765544A (zh) 一种文档关键要素识别方法、装置、设备及介质
CN117234505A (zh) 一种交互页面生成方法、装置、设备及其存储介质
CN116704528A (zh) 票据识别核验方法、装置、计算机设备及存储介质
CN113722203A (zh) 程序测试方法及装置、电子设备和计算机可读存储介质
CN106909570B (zh) 一种数据转换方法及装置
CN113936286A (zh) 图像文本识别方法、装置、计算机设备及存储介质
CN112395450A (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN115145823B (zh) 一种ui自动化测试方法、装置、计算机设备及存储介质
CN114490620B (zh) 测试方法、装置、电子设备及存储介质
CN114495140B (zh) 表格的信息提取方法、系统、设备、介质及程序产品
CN114254625A (zh) 文件检查方法、设备及存储介质
CN117370817A (zh) 数据处理方法、装置、设备、介质和程序产品
CN117037178A (zh) 数据分类模型的训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180919

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200526

R150 Certificate of patent or registration of utility model

Ref document number: 6710483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250