JP2018111082A - 区分システム、認識支援装置、認識支援方法、および認識支援プログラム - Google Patents

区分システム、認識支援装置、認識支援方法、および認識支援プログラム Download PDF

Info

Publication number
JP2018111082A
JP2018111082A JP2017004205A JP2017004205A JP2018111082A JP 2018111082 A JP2018111082 A JP 2018111082A JP 2017004205 A JP2017004205 A JP 2017004205A JP 2017004205 A JP2017004205 A JP 2017004205A JP 2018111082 A JP2018111082 A JP 2018111082A
Authority
JP
Japan
Prior art keywords
processes
unit
delivery object
correct answer
delivery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017004205A
Other languages
English (en)
Other versions
JP6783671B2 (ja
Inventor
泰弘 大川
Yasuhiro Okawa
泰弘 大川
浜村 倫行
Tomoyuki Hamamura
倫行 浜村
赤木 琢磨
Takuma Akagi
琢磨 赤木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Infrastructure Systems and Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Infrastructure Systems and Solutions Corp filed Critical Toshiba Corp
Priority to JP2017004205A priority Critical patent/JP6783671B2/ja
Priority to EP17208737.1A priority patent/EP3349144A1/en
Priority to US15/861,940 priority patent/US11097316B2/en
Publication of JP2018111082A publication Critical patent/JP2018111082A/ja
Application granted granted Critical
Publication of JP6783671B2 publication Critical patent/JP6783671B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B07SEPARATING SOLIDS FROM SOLIDS; SORTING
    • B07CPOSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
    • B07C3/00Sorting according to destination
    • B07C3/10Apparatus characterised by the means used for detection ofthe destination
    • B07C3/14Apparatus characterised by the means used for detection ofthe destination using light-responsive detecting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B07SEPARATING SOLIDS FROM SOLIDS; SORTING
    • B07CPOSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
    • B07C2301/00Sorting according to destination
    • B07C2301/0066Check for destination address in a database or list
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Discrimination (AREA)
  • Sorting Of Articles (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】OCR処理に含まれる複数の処理を自動的に調整することができる区分システム、認識支援装置、認識支援方法、および認識支援プログラムを提供することである。
【解決手段】実施形態の区分システムは、配達物処理装置と、ビデオコーディング端末と、認識支援装置とを持つ。認識支援装置は、情報管理部と、正解導出部と、機械学習部とを持つ。情報管理部は、配達対象物を撮像した画像と打鍵情報とを取得する。正解導出部は、情報管理部により取得された打鍵情報に基づいて、配達対象物を撮像した画像に対する複数の処理ごとの正解をそれぞれ導出する。機械学習部は、正解導出部により導出された複数の処理ごとの正解を用いた機械学習を行うことで、複数の処理を調整する。
【選択図】図2

Description

本発明の実施形態は、区分システム、認識支援装置、認識支援方法、および認識支援プログラムに関する。
郵便局や物流センターなどにおいて、配達対象物を撮像した画像に対するOCR(Optical Character Recognition)処理によって住所を自動的に認識する処理が行われている。このOCR処理は、段階的に、或いはフィードバックをしながら複数の処理を行うものであるが、複数の処理ごとの正解を与えるのが困難なため、処理ごとのパラメータや手順、規則等を自動的に調整するのが困難であった。
特開2013−198886号公報
本発明が解決しようとする課題は、OCR処理に含まれる複数の処理を自動的に調整することができる区分システム、認識支援装置、認識支援方法、および認識支援プログラムを提供することである。
実施形態の区分システムは、配達物処理装置と、ビデオコーディング端末と、認識支援装置とを持つ。配達物処理装置は、配達対象物を撮像した画像に対して、複数の処理を含むOCR処理を行い、前記OCR処理によって読み取られた情報に対応する集積部に前記配達対象物を搬送する。ビデオコーディング端末は、前記配達物処理装置から、前記配達対象物を撮像した画像を受信し、前記受信した画像を表示すると共に、前記配達物を撮像した画像に対して入力された打鍵情報を前記配達物処理装置に送信する。認識支援装置は、情報管理部と、正解導出部と、機械学習部とを持つ。情報管理部は、前記配達対象物を撮像した画像と前記打鍵情報とを取得する。正解導出部は、前記情報管理部により取得された打鍵情報に基づいて、前記配達対象物を撮像した画像に対する前記複数の処理ごとの正解をそれぞれ導出する。機械学習部は、前記正解導出部により導出された複数の処理ごとの正解を用いた機械学習を行うことで、前記複数の処理を調整する。
実施形態に係る区分システム1に含まれる配達物処理装置10の構成の概略を示す図。 区分システム1の構成図。 OCR処理部25の機能構成図。 行抽出部25Aによる処理の内容を示す図。 宛先領域抽出部25Bによる処理の内容を示す図。 ワード候補抽出部25Cによる処理の内容を示す図。 文字候補抽出部25Dによる処理の内容を示す図。 個別文字認識部25Eによる処理の内容を示す図。 認識支援装置100の機能構成図。 抽出部25Aによる処理の結果において複数の候補が抽出される様子を示す図。 認識実行部120(OCR処理部25)による各段階の処理結果の揺れによって生じる分岐構造を模式的に示す図。 正解導出部130が各段階の正解を導出する様子を模式的に示す図。 認識実行部120(OCR処理部25)による各段階の処理結果の揺れによって、正解でない処理結果が得られる様子を示す図。 認識実行部120(OCR処理部25)による各段階の処理結果の揺れによって、正解でない処理結果が得られる様子を示す図。 誤った単語が正解と認識される様子を示す図。 打鍵情報によって絞り込みが行われる様子を示す図。 打鍵情報によって絞り込みが行われる様子を示す図。 認識支援装置100により実行される処理の流れの一例を示すフローチャート。
以下、実施形態の区分システム、認識支援装置、認識支援方法、および認識支援プログラムを、図面を参照して説明する。
図1は、実施形態に係る区分システム1に含まれる配達物処理装置10の構成の概略を示す図である。配達物処理装置10は、例えば郵便局などに設置される郵便物処理区分機、或いは物流センターなどに設置される荷物・小包処理区分機である(図では郵便物処理区分機を示している)。配達物処理装置10は、はがき、封書、小包、荷物などの配達対象物Sに記載または貼り付け等された宛先を認識し、その宛先に応じたスタッカに配達対象物Sを区分集積する装置である。
配達物処理装置10は、例えば、区分前処理部20と、区分部30とを備える。区分部30には、複数のスタッカ(集積部)40が設けられている。
図2は、区分システム1の構成図である。区分システム1では、配達物処理装置10と、VC(Video Coding、ビデオコーディング)端末90と、認識支援装置100とがネットワークNWを介して接続されている。ネットワークNWは、例えば、LAN(Local Area Network)やWAN(Wide Area Network)などである。なお、認識支援装置100の機能は、配達物処理装置10に統合されてもよい。
配達物処理装置10から順に説明する。配達物処理装置10の区分前処理部20は、例えば、供給部21と、取出部22と、排除集積部23と、バーコード読取部24と、OCR(Optical Character Recognition)処理部25と、VC依頼部26と、IJP27(Ink Jet Printer)とを備える。
供給部21では、例えば作業員による手作業で複数の配達対象物Sがセットされる。取出部22は、供給部21にセットされた配達対象物Sを1つずつ取出し、搬送路に供給する。この搬送路では、異物が混入している配達対象物Sや定型外の配達対象物Sが排除され、排除集積部23に集積される。
バーコード読取部24は、既にステルスバーコードが印刷された配達対象物Sからバーコードを読み込み、ステルスバーコードにエンコードされた情報をデコードして制御部50(後述)に出力する。この時点でステルスバーコードが印刷された配達対象物Sとは、例えば、後述するVC処理により識別情報が読み取られたが、区分先に応じたスタッカへの搬送が行われなかった配達対象物Sである。
OCR処理部25は、配達対象物Sを撮像するカメラ28によって撮像された画像(以下、撮像画像)に対してOCR処理を行って、配達対象物Sの郵便番号、宛先、差出人等の情報を読み取る。カメラ28は、例えばラインカメラである。なお、OCR処理の一部(例えば郵便番号以外の文字認識部分)は、ネットワークNWを介して接続された他のコンピュータにより分散処理されてもよい。OCR処理部25は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサがプログラムを実行することにより実現される。
VC依頼部26は、OCR処理部25によって情報の一部または全部が読み取れなかった配達対象物Sの撮像画像を、ネットワークNWを介してVC端末90に送信し、VC端末90から配達対象物Sに関する情報(例えば郵便番号や宛先)を受信する。以下、VC端末90から受信される情報を、打鍵情報と称する。VC端末90は、配達物処理装置10から受信した撮像画像をオペレータに表示し、オペレータにより入力された情報を配達物処理装置10に返信する。この撮像画像を表示して入力を受け付ける処理を、VC処理と称する。なお、本実施形態において、認識可能であった配達対象物Pを敢えてVC端末90に送信して打鍵情報を取得してもよい。
IJP27は、OCR処理部25またはVC依頼部26によって取得された配達対象物Sの情報をエンコードしたオブジェクトを、ステルスバーコードとして配達対象物Sに印刷する。このステルスバーコードは、IJP27に付設されたバーコード読取部によって読み取られ、ベリファイ処理が行われる。
図3は、OCR処理部25の機能構成図である。OCR処理部25は、以下に説明する複数の機能部がシーケンシャルに、或いは、互いにフィードバックを行いながら、それぞれ異なる処理を行うことで複数の処理を実行する。OCR処理部25は、例えば、行抽出部25Aと、宛先領域抽出部25Bと、ワード候補抽出部25Cと、文字候補抽出部25Dと、個別文字認識部25Eと、DBマッチング部25Fとを備える。なお、これらの機能部は、あくまで一例であり、機能部が統合、追加、変更などされてもよい。また、OCR処理部25は、住所データベース25Gを参照しながら処理を行う。住所データベース25Gは、配達物処理装置10に内蔵され、或いはネットワークNWを介してアクセス可能な記憶装置(不図示)に格納される。
行抽出部25Aは、撮像画像から住所認識対象となる行を抽出する。図4は、行抽出部25Aによる処理の内容を示す図である。図示するように、行抽出部25Aは、撮像画像IMの中から、文字と推定される一群の画像を包含し、ある程度の範囲内の高さと長さを有する領域を、行Rとして抽出する。
宛先領域抽出部25Bは、複数の行Rを含む領域を、宛先領域として抽出する。図5は、宛先領域抽出部25Bによる処理の内容を示す図である。図示するように、宛先領域抽出部25Bは、行抽出部25Aにより抽出された行Rのうち、宛先が記載されていると推定される行Rを包含する領域を、宛先領域Dとして抽出する。
ここで、図5に示すように、宛先領域Dが一意に定まらないケースが生じる。OCR処理部25は、各段階の処理において無理に一つの解を求めるのではなく、可能性のある選択肢を残しながら処理を進める。従って、後述するように、DBマッチング部25Fに与えられる認識結果は、分岐によって複数のパターンに分かれることになる。
ワード候補抽出部25Cは、宛先領域Dに含まれる行Rのそれぞれからワード候補を抽出する。図6は、ワード候補抽出部25Cによる処理の内容を示す図である。図示するように、ワード候補抽出部25Cは、一まとまりの意味を有する文字または記号(数字を含む)の集まりであると推定される領域を、ワード候補Wとして抽出する。
文字候補抽出部25Dは、ワード候補抽出部25Cにより抽出されたワード候補Wに含まれる個別の文字候補を抽出する。図7は、文字候補抽出部25Dによる処理の内容を示す図である。図示するように、文字候補抽出部25Dは、一つの文字または記号と推定される領域を、文字候補Lとして抽出する。
個別文字認識部25Eは、文字候補抽出部25Dにより抽出された文字候補のそれぞれについて、予め登録されている文字または記号のいずれに該当するかを判定し、個別文字認識を行う。図8は、個別文字認識部25Eによる処理の内容を示す図である。図示するように、個別文字認識部25Eは、文字候補Lのそれぞれについて個別文字認識を行う。
DBマッチング部25Fは、個別文字認識部25Eによる処理の結果である一連の文字または記号(文字列)と、住所データベース25Gに格納された住所とを比較し、住所データベース25Gに格納された住所のうち、個別文字認識部25Eによる処理の結果と最もマッチング率(得点)の高い住所を、配達対象物Pの宛先であると判定する。
図9は、認識支援装置100の機能構成図である。認識支援装置100は、例えば、情報管理部110と、認識実行部120と、正解導出部130と、機械学習部140と、記憶部160とを備える。情報管理部110、認識実行部120、正解導出部130、および機械学習部140は、例えば、CPUやGPUなどのプロセッサが認識支援プログラム170を実行することで実現される。また、これらの機能部のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアによって実現されてもよいし、ハードウェアとソフトウェアの協働によって実現されてもよい。
記憶部160は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリなどの記憶装置によって実現される。記憶部160には、認識プログラム162、修正認識プログラム164、打鍵情報166、撮像画像168、認識支援プログラム170、住所データベース172などの情報が格納される。住所データベース172は、住所データベース25Gと同じものである。
情報管理部110は、例えば、NIC(Network Interface Card)などのネットワークインターフェースと、ソフトウェア機能部とを併せ持つ。情報管理部110は、以下の機能を有する。
(1)情報管理部110は、配達物処理装置10から、運用中の認識プログラム(配達物処理装置10のOCR処理部25の各機能部を実現するためのプログラム)を取得し、認識プログラム162として記憶部160に格納する。
(2)情報管理部110は、機械学習部140によって生成された修正認識プログラム164を記憶部160から読み出し、配達物処理装置10に送信する。
(3)情報管理部110は、VC端末90から打鍵情報と撮像画像とをセットで取得し、打鍵情報166および撮像画像168の一部として記憶部160に格納する。打鍵情報166に含まれる各打鍵情報には、撮像画像との対応関係を示す識別情報が付与されているものとする。
認識実行部120は、認識プログラム162に基づいて動作し、撮像画像168に対して、配達物処理装置10のOCR処理部25と同様の処理を行う。
正解導出部130は、認識実行部120による認識結果について、打鍵情報166に基づく正解を導出する。前述したように、認識実行部120による認識結果(=OCR処理部25による認識結果)には、各段階の処理において、複数の候補が抽出される場合がある。図10は、一例として、抽出部25Aによる処理の結果において複数の候補が抽出される様子を示す図である。図10の上図は、図4に示す処理の結果と同様である。図10の下図は、上図と異なる処理の結果を示している。図示するように、「72−34,HORIKAWA−CHO」を一行として抽出する場合と、「SAIWAIKU,HORIKAWA−CHO」を一行として抽出する場合が考えられる。認識実行部120(OCR処理部25)は、このような場合、必ずしもいずれか一方を選択するのではなく、双方について可能性があるとみなし、双方の処理結果に基づいて後段の処理を実行する。この結果、認識実行部120(OCR処理部25)による処理結果は、上流側である行抽出部25Aの処理結果から下流側である個別文字認識部25Eの処理結果に向けて、ツリー状の分岐構造を示す場合がある。
図11は、認識実行部120(OCR処理部25)による各段階の処理結果の揺れによって生じる分岐構造を模式的に示す図である。このように処理結果が分かれる場合、DBマッチングを行っても一意に宛先を特定することができない場合がある。このため、各段階の処理についての正解を与えるのが困難であり、各段階の処理のチューニングが困難であるという課題があった。なお、実際には、分岐先に対して確率を割り当て、確率の低い分岐先は除外するなどといった処理が行われてよい。
これに対し、正解導出部130は、撮像画像168に含まれる撮像画像のそれぞれに対応付けられている打鍵情報から個別文字認識の結果に対する正解を導出し、これに基づいて各段階の処理の正解を導出する。前述したように、打鍵情報166は、例えば郵便番号である。正解導出部130は、まず、郵便番号を用いて住所データベース172を検索し、宛先住所のうち少なくとも一部を特定する。そして、特定した宛先住所に最もマッチする個別文字認識の処理結果を正解とし、更に、正解からツリー構造の上流側に辿った各処理の結果を正解として機械学習部140に与える。すなわち、正解導出部130は、処理の流れに関して下流側から順に正解を導出する。図12は、正解導出部130が各段階の正解を導出する様子を模式的に示す図である。
図13および図14は、認識実行部120(OCR処理部25)による各段階の処理結果の揺れによって、正解でない処理結果が得られる様子を示す図である。図13に示すようなワード候補Wが抽出された場合、文字候補抽出によって抽出される文字の候補は、図13の下図に示すようなパスで表される複数のパターンを有することになる。例えば、「TOSHIBA」の「TO」は、正しく二文字と認識されるとは限らず、一文字として認識される可能性もある。また「H」は、正しく一文字と認識されるとは限らず、例えば「1」と「2」の二文字と認識される可能性もある。
このように個別文字認識の結果が複数のパターンを示す場合、DBマッチングの結果に基づいて一つの結果が選択される。図14は、住所データベース25Gに格納された住所に含まれる単語リストの中で、個別文字認識の結果に該当し得る単語と、それぞれの得点とを示している。得点は、個別文字認識の結果に合致する程度が高いほど、高い点数となる。図示するように、正解である「TOSHIBA」ではない「TO5121134」なる単語が正解と認識される可能性がある。図15は、誤った単語が正解と認識される様子を示す図である。このように、最終的な個別文字認識の結果が誤りとなる可能性があるのであるから、それよりも前の段階の処理における正解を特定するのは容易ではない。このことが、OCR処理の各段階の処理を調整するのを困難にしている。
これに対し、図16および図17は、打鍵情報によって絞り込みが行われる様子を示す図である。図16に示すように、打鍵情報に対応する単語に制限して、個別認識結果に対応する単語を住所データベース25Gから検索すると、図14に示す単語の候補よりも少ない候補に絞り込むことが可能になる(一つに絞り込める場合もある)。この結果、図17に示すように、正解である「TOSHIBA」が選ばれることになる。
そして、機械学習部140は、各段階の処理について、前段階の処理結果を入力とし、正解導出部130により導出された正解を用いて機械学習を行い、各段階の処理における最適なパラメータや手順、規則等を導出する。得られた最適なパラメータや手順、規則等を認識プログラム162に適用したものが、修正認識プログラム164である。
機械学習部140は、ディープラーニングによって機械学習を行うと好適である。ディープラーニングとは、多層のニューラルネットワークにおいて、層間のパラメータを学習する手法である。ニューラルネットワークとしては、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)などが用いられる。また、初期値を絞り込むためのオードエンコーダが用いられる場合もある。なお、機械学習部140は、SVM(Support Vector Machine)やロジスティックス回帰、ベイジアンフィルタなど、他の手法による機械学習を行ってもよい。
機械学習部140によって学習される、各段階の処理における最適なパラメータや手順、規則等は様々であり、人によって予測し得ないものも含まれる。例えば、「色彩が全体的に赤色寄りである場合、個別文字の間隔が広い傾向にある」といった、一見、無意味に思える規則が学習される場合もあるが、こういった規則が多数組み合わされることで、人によって設定されたモデルよりも正解率の高い処理を行うことができる可能性がある。
図18は、認識支援装置100により実行される処理の流れの一例を示すフローチャートである。まず、情報管理部110が、撮像画像168から撮像画像を一つ選択する(ステップS100)。次に、認識実行部120が、OCR処理部25と同様の手法により認識処理を実行する(ステップS102)。
次に、正解導出部130が、S100で選択された撮像画像に対応する打鍵情報を参照し(ステップS104)、認識処理の各段階における正解を導出する(ステップS106)。正解導出部130は、各段階について、前段階の処理結果(最初の処理であれば原画像)と正解とを対応付けて記憶部160に格納する(ステップS108)。
次に、認識支援装置100は、S100において全ての撮像画像を選択したか否かを判定する(ステップS110)。S100において全ての撮像画像を選択していない場合、S100に処理が戻される。
S100において全ての撮像画像を選択した場合、機械学習部140が各段階の処理について機械学習を行い、認識プログラム162の最適なパラメータや手順、規則等を導出する(ステップS112)。そして、認識支援装置100は、学習結果(例えば修正認識プログラム164)を配達物処理装置10に送信する(ステップS114)。
以上説明した少なくともひとつの実施形態によれば、配達対象物Pを撮像した画像に対して、複数の処理を含むOCR処理を行い、OCR処理によって読み取られた情報に対応する集積部(スタッカ40)に配達対象物Pを搬送する配達物処理装置10と、配達物処理装置10から、配達対象物Pを撮像した画像を受信し、受信した画像をオペレータに表示すると共に、オペレータによって入力された打鍵情報を配達物処理装置10に送信するビデオコーディング端末(VC端末90)と、配達対象物Pを撮像した画像と打鍵情報とを取得する情報管理部110、情報管理部110により取得された打鍵情報に基づいて、配達対象物Pを撮像した画像に対する複数の処理ごとの正解をそれぞれ導出する正解導出部130、および、正解導出部130により導出された複数の処理ごとの正解を用いた機械学習を行うことで、複数の処理を調整する機械学習部140を有する認識支援装置100と、を持つことにより、OCR処理に含まれる複数の処理を自動的に調整することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
上記実施形態は、以下のように表現することができる。
配達物処理装置において撮像され、複数の処理を含むOCR処理の対象となる画像と、前記画像を視認したオペレータによって入力された打鍵情報とを取得する情報管理部、
前記情報管理部によって取得された打鍵情報に基づいて、前記配達対象物を撮像した画像に対する前記複数の処理ごとの正解を、処理の流れに関して下流側から順に導出する正解導出部、
を有する認識支援装置。
10…配達物処理装置、90…VC端末、100…認識支援装置、110…情報管理部、120…認識実行部、130…正解導出部、140…機械学習部、160…記憶部

Claims (8)

  1. 配達対象物を撮像した画像に対して、複数の処理を含むOCR処理を行い、前記OCR処理によって読み取られた情報に対応する集積部に前記配達対象物を搬送する配達物処理装置と、
    前記配達物処理装置から、前記配達対象物を撮像した画像を受信し、前記受信した画像を表示すると共に、前記配達物を撮像した画像に対して入力された打鍵情報を前記配達物処理装置に送信するビデオコーディング端末と、
    前記配達対象物を撮像した画像と前記打鍵情報とを取得する情報管理部、
    前記情報管理部により取得された打鍵情報に基づいて、前記配達対象物を撮像した画像に対する前記複数の処理ごとの正解をそれぞれ導出する正解導出部、および、
    前記正解導出部により導出された複数の処理ごとの正解を用いた機械学習を行うことで、前記複数の処理を調整する機械学習部を有する認識支援装置と、
    を備える区分システム。
  2. 前記機械学習部は、ディープラーニングによって前記機械学習を行う、
    請求項1記載の区分システム。
  3. 前記正解導出部は、前記配達対象物を撮像した画像に対する前記複数の処理ごとの正解を、処理の流れに関して下流側から順に導出する、
    請求項1または2記載の区分システム。
  4. 配達物処理装置において配達対象物を撮像した画像であって、複数の処理を含むOCR処理の対象となる画像と、前記画像に対して入力された打鍵情報とを取得する情報管理部、
    前記情報管理部によって取得された打鍵情報に基づいて、前記配達対象物を撮像した画像に対する前記複数の処理ごとの正解をそれぞれ導出する正解導出部、および、
    前記正解導出部により導出された複数の処理ごとの正解を用いた機械学習を行うことで、前記複数の処理を調整する機械学習部、
    を有する認識支援装置。
  5. 前記機械学習部は、ディープラーニングによって前記機械学習を行う、
    請求項4記載の認識支援装置。
  6. 前記正解導出部は、前記配達対象物を撮像した画像に対する前記複数の処理ごとの正解を、処理の流れに関して下流側から順に導出する、
    請求項4または5記載の認識支援装置。
  7. コンピュータが、
    配達物処理装置において配達対象物を撮像した画像であって、複数の処理を含むOCR処理の対象となる画像と、前記画像に対して入力された打鍵情報とを取得し、
    前記取得した打鍵情報に基づいて、前記配達対象物を撮像した画像に対する前記複数の処理ごとの正解をそれぞれ導出し、
    前記導出した複数の処理ごとの正解を用いた機械学習を行うことで、前記複数の処理を調整する、
    認識支援方法。
  8. コンピュータに、
    配達物処理装置において配達対象物を撮像した画像であって、複数の処理を含むOCR処理の対象となる画像と、前記画像に対して入力された打鍵情報とを取得させ、
    前記取得した打鍵情報に基づいて、前記配達対象物を撮像した画像に対する前記複数の処理ごとの正解をそれぞれ導出させ、
    前記導出した複数の処理ごとの正解を用いた機械学習を行うことで、前記複数の処理を調整させる、
    認識支援プログラム。
JP2017004205A 2017-01-13 2017-01-13 区分システム、認識支援装置、認識支援方法、および認識支援プログラム Active JP6783671B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017004205A JP6783671B2 (ja) 2017-01-13 2017-01-13 区分システム、認識支援装置、認識支援方法、および認識支援プログラム
EP17208737.1A EP3349144A1 (en) 2017-01-13 2017-12-20 Sorting system, recognition support apparatus, recognition support method, and recognition support program
US15/861,940 US11097316B2 (en) 2017-01-13 2018-01-04 Sorting system, recognition support apparatus, recognition support method, and recognition support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017004205A JP6783671B2 (ja) 2017-01-13 2017-01-13 区分システム、認識支援装置、認識支援方法、および認識支援プログラム

Publications (2)

Publication Number Publication Date
JP2018111082A true JP2018111082A (ja) 2018-07-19
JP6783671B2 JP6783671B2 (ja) 2020-11-11

Family

ID=60937552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017004205A Active JP6783671B2 (ja) 2017-01-13 2017-01-13 区分システム、認識支援装置、認識支援方法、および認識支援プログラム

Country Status (3)

Country Link
US (1) US11097316B2 (ja)
EP (1) EP3349144A1 (ja)
JP (1) JP6783671B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102054278B1 (ko) 2018-12-24 2019-12-10 한국해양과학기술원 머티리얼 핸들링 장비의 데이터베이스 구축 시스템, 그 동작 방법 및 구축 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115532620B (zh) * 2022-12-01 2023-05-16 杭州未名信科科技有限公司 一种纸浆模塑制品质检装置和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728766A (ja) * 1993-06-24 1995-01-31 Toshiba Corp パターン認識システム及び監視システム
JP2011194287A (ja) * 2010-03-17 2011-10-06 Toshiba Corp 集中情報処理装置及び集中情報処理システム
JP2015167905A (ja) * 2014-03-06 2015-09-28 株式会社東芝 配達物区分処理システム、および配達物区分処理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11226513A (ja) * 1998-02-18 1999-08-24 Toshiba Corp 郵便物宛先読取装置及び郵便物区分装置
US7362892B2 (en) * 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US20060245641A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Extracting data from semi-structured information utilizing a discriminative context free grammar
JP5003051B2 (ja) * 2006-08-01 2012-08-15 日本電気株式会社 郵便自動区分機及び郵便自動区分方法
US7925046B2 (en) * 2007-05-02 2011-04-12 Lockheed Martin Corporation Implicit video coding confirmation of automatic address recognition
US8311806B2 (en) * 2008-06-06 2012-11-13 Apple Inc. Data detection in a sequence of tokens using decision tree reductions
US8566349B2 (en) * 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
US20120072013A1 (en) * 2010-09-16 2012-03-22 Kabushiki Kaisha Toshiba Character recognition apparatus, sorting apparatus, sorting control apparatus, and character recognition method
JP5929404B2 (ja) 2012-03-26 2016-06-08 日本電気株式会社 ビデオコーディングシステム、品質管理方法、及びプログラム
SG10201408694WA (en) * 2014-12-26 2016-07-28 Mastercard Asia Pacific Pte Ltd Computer-aided card design validation
US9990564B2 (en) * 2016-03-29 2018-06-05 Wipro Limited System and method for optical character recognition
US11144718B2 (en) * 2017-02-28 2021-10-12 International Business Machines Corporation Adaptable processing components

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728766A (ja) * 1993-06-24 1995-01-31 Toshiba Corp パターン認識システム及び監視システム
JP2011194287A (ja) * 2010-03-17 2011-10-06 Toshiba Corp 集中情報処理装置及び集中情報処理システム
JP2015167905A (ja) * 2014-03-06 2015-09-28 株式会社東芝 配達物区分処理システム、および配達物区分処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102054278B1 (ko) 2018-12-24 2019-12-10 한국해양과학기술원 머티리얼 핸들링 장비의 데이터베이스 구축 시스템, 그 동작 방법 및 구축 방법

Also Published As

Publication number Publication date
JP6783671B2 (ja) 2020-11-11
US20180200760A1 (en) 2018-07-19
EP3349144A1 (en) 2018-07-18
US11097316B2 (en) 2021-08-24

Similar Documents

Publication Publication Date Title
JP6203084B2 (ja) 配達物区分処理システム、および配達物区分処理方法
US20100014706A1 (en) Method and apparatus for video coding by validation matrix
EP3065080A1 (en) Delivery processor and computer readable storage medium
JP2015058390A (ja) 仕分装置および仕分方法
KR20110030309A (ko) 패턴 인식 방법, 문자 인식 방법, 패턴 인식 장치 및 문자 인식 장치
JPH11238097A (ja) 郵便物宛先読取装置及び宛先読取方法
CN111177308B (zh) 一种文本内容的识别情绪方法
US20160267355A1 (en) Delivery system, method, and computer readable storage medium
US11097316B2 (en) Sorting system, recognition support apparatus, recognition support method, and recognition support program
US8170290B2 (en) Method for checking an imprint and imprint checking device
RU2597572C1 (ru) Устройство распознавания адреса, устройство сортировки, интегрированное устройство распознавания адреса и способ распознавания адреса
JP2008033851A (ja) 郵便自動区分機及び郵便自動区分方法
CN108090728B (zh) 一种基于智能终端的快递信息录入方法及录入系统
JP5407461B2 (ja) 郵便物誤区分データ収集システム、郵便物誤区分データ収集方法及びその制御プログラム
JP2022140466A (ja) 配達物処理装置、配達物処理方法、及び配達物処理プログラム
JP2014182618A (ja) 区分装置及びパターン認識装置
JP5911701B2 (ja) ビデオコーディングシステム、画像の表示優先度判定プログラムおよび小包処理装置
JP2014232436A (ja) 配送情報管理サーバ、及び、配送情報管理システム
JP6976158B2 (ja) 区分装置および区分システム
JP6730143B2 (ja) 配達物処理システム、配達物処理装置、および配達物処理プログラム
JP5609236B2 (ja) 書状物区分システムおよび宛先推定方法
JP6625853B2 (ja) 配達管理システム
JP5911702B2 (ja) ビデオコーディングシステム、帳票傾き補正プログラムおよび小包処理装置
JP6795936B2 (ja) 配達物処理装置
JP7143488B2 (ja) 配達物処理装置、配達物処理方法、及び配達物処理プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20170807

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170807

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190828

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201022

R150 Certificate of patent or registration of utility model

Ref document number: 6783671

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150