JP7351178B2 - 画像を処理する装置及び方法 - Google Patents

画像を処理する装置及び方法 Download PDF

Info

Publication number
JP7351178B2
JP7351178B2 JP2019196307A JP2019196307A JP7351178B2 JP 7351178 B2 JP7351178 B2 JP 7351178B2 JP 2019196307 A JP2019196307 A JP 2019196307A JP 2019196307 A JP2019196307 A JP 2019196307A JP 7351178 B2 JP7351178 B2 JP 7351178B2
Authority
JP
Japan
Prior art keywords
character
character block
classification
block
fcn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019196307A
Other languages
English (en)
Other versions
JP2020077413A (ja
Inventor
威 劉
俊 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020077413A publication Critical patent/JP2020077413A/ja
Application granted granted Critical
Publication of JP7351178B2 publication Critical patent/JP7351178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/23Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、画像処理分野に関し、特に、日本語受取人アドレスを含む画像を処理する装置及び方法に関する。
コンピュータのパフォーマンスの向上に伴って、OCR(Optical Character Recognition)技術が既に人々の日常生活に係る多くの分野に広く用いられている。例えば、OCR技術を用いて文書画像中の文字を認識することでそれを処理することができる。
受取人アドレスが良くあるものであり、例えば、小包、手紙などの郵便物上の受取人アドレスが挙げられる。日本語受取人アドレスについて言えば、それは、通常、3つの隣接する行に記される。3つの隣接する行の上の行に位置するアドレスセグメントが、アッパー(upper)アドレスと称される。アッパーアドレスは、都(道府県)、市、行政区のアドレス情報を含む。3つの隣接する行の真中の行に位置するアドレスセグメントがミドル(middle)アドレスと称される。ミドルアドレスにおける文字(Character)は、文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合Sから選択されるものである。3つの隣接する行の下の行に位置するアドレスセグメントがロウアー(lower)アドレスと称される。ロウアーアドレスは、ローカルな具体的なアドレス情報を含む。
オブジェクト上の受取人アドレスに基づいてオブジェクトを自動分類することが望ましい。また、分類(即ち、認識)の効率及び正確度を向上させることも望まれている。
本開示の目的は、日本語受取人アドレスを含む画像を処理する装置及び方法を提供することにある。
本開示の一側面によれば、画像を処理する装置が提供され、それは、畳み込みネットワーク(CNN)分類器又は全層畳み込みネットワーク(FCN)分類器を用いて画像中の文字ブロックを認識することで、画像中で所定の条件を満足するシード(seed)文字ブロックを選択するための選択ユニットであって、所定の条件は、該シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合Sの要素のうちの1つであるという条件である、選択ユニット;及び、シード文字ブロックを開始ブロックとして、画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定するための確定ユニットを含む。
本開示の他の側面によれば、画像を処理する方法が提供され、それは、次のようなステップを含み、即ち、畳み込みネットワーク分類器又は全層畳み込みネットワーク分類器を用いて画像中の文字ブロックを認識することで、画像中で所定の条件を満足するシード文字ブロックを選択し、所定の条件は、シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合の要素のうちの1つであるという条件であり;及び、シード文字ブロックを開始ブロックとして、画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定するステップである。
本開示の他の側面によれば、画像中の日本語受取人アドレスを認識する方法が提供され、それは、上述の方法でミドルアドレスの領域を確定し;FCN分類器の認識結果を用いて、画像中のミドルアドレスにおける文字を確定し;CNN分類器の認識結果を用いて、画像中のアッパーアドレスにおける文字を確定し;及び、CNN分類器の認識結果を用いて、画像中のロウアーアドレスにおける文字を確定するステップを含む。
本開示の他の側面によれば、日本語受取人アドレスを有する郵便物を分類する方法が提供される。該方法は、上述の方法で認識した日本語受取人アドレスに基づいて、郵便物に対して分類を行うステップを含む。
本開示の他の側面によれば、日本語受取人アドレスを有する郵便物を分類する装置が提供される。該装置は、上述の方法で認識した日本語受取人アドレスに基づいて、郵便物進に対して分類を行うように構成される。
本開示の他の側面によれば、記憶装置が提供される。記憶装置には、情報処理装置可読プログラムコードが記憶されており、情報処理装置上で該プログラムコードを実行するときに、該プログラムコードは、情報処理装置に、上述の方法を実行させる。
本開示の他の側面によれば、情報処理装置が提供され、それは、中央処理装置を含み、中央処理装置は、上述の方法を実行するように構成される。
上述の装置及び方法を用いることで少なくとも次のような効果を達成することができ、即ち、日本語受取人アドレスにおけるミドルアドレスを認識する効率及び正確度を向上させることができる。
本開示の一実施例において画像を処理する装置の例示ブロック図である。 本開示において処理される画像の一例を示す図である。 画像に対して細分割を行った後の各文字ブロックを示す図である。 本開示の一実施例においてシード文字ブロックを選択する方法の例示フローチャートである。 本開示の一実施例においてシード文字ブロックを選択する方法の例示フローチャートである。 本開示の他の実施例においてシード文字ブロックを選択する方法の例示フローチャートである。 本開示の一実施例において日本語受取人アドレスにおけるミドルアドレスの領域の左境界を確定する方法の例示フローチャートである。 本開示の一実施例において日本語受取人アドレスにおけるミドルアドレスの領域の右境界を確定する方法の例示フローチャートである。 本開示の一実施例において画像を処理する方法の例示フローチャートである。 本開示の一実施例において画像中の日本語受取人アドレスを認識する方法の例示フローチャートである。 本開示の一実施例における情報処理装置の例示ブロック図である。
以下、添付した図面を参照しながら、本開示を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本開示を限定するものでない。
本開示の一側面は、郵便物上の日本語受取人アドレスの画像に対して画像処理を行う装置に関する。
以下、図1をもとに、本開示による、画像を処理する装置を説明する。
図1は、本開示の一実施例において画像を処理する装置10の例示ブロック図である。
装置10は、選択ユニット11及び確定ユニット13を含む。選択ユニット11は、畳み込みネットワーク(CNN)分類器又は全層畳み込みネットワーク(FCN)分類器を用いて画像中の文字ブロックを認識することで、画像中から条件を満足するシード文字ブロックを選択するように構成され、該条件は、該シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合Sの要素のうちの1つであるという条件である。
確定ユニット13は、該シード文字ブロックを開始ブロックとして、画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定するように構成される。
本開示では、郵便物上の日本語受取人アドレスは、標準フォント(例えば、コンピュータが使用する各種の日本語フォント)の文字列、手書き形式の文字列、又はそれらの混合形式であっても良く、即ち、標準フォントの少なくとも1つの文字又は手書き形式の少なくとも1つの文字を含む。本開示による技術案は、特に、次のような画像の処理の場合に適し、即ち、該画像中の日本語受取人アドレスにおける少なくとも一部の文字が手書き文字である場合である。
装置10における画像は、郵便物上の日本語受取人アドレスに対応する画像である。該画像(一行日本語受取人アドレス画像とも言う)は、左から右へと同一行に順に配置されるアッパーアドレス、ミドルアドレス及びロウアーアドレスを含む。該画像は、例えば、次のような方法で得られても良く、即ち、郵便物上の日本語受取人アドレスの写真を取得し、その後、情報処理装置を用いて、写真中のミドルアドレスに対応するミドルアドレスブロック、及び、ロウアーアドレスに対応するロウアーアドレスブロックを、順に、アッパーアドレスに対応するアッパーアドレスブロックの後に配置する方法である。もちろん、郵便物上の日本語受取人アドレスが、アッパーアドレス、ミドルアドレス及びロウアーアドレスがこの順に一行に配置されるものである場合、該日本語受取人アドレスの写真を直接使用すれば良い。
図2は、本開示において処理される画像の例示画像200を示しており、それは、アッパーアドレスブロック201、ミドルアドレスブロック203及びロウアーアドレスブロック205を含む。なお、画像200には、図2中の矩形状フレーム及び矩形状フレームの下の4つの縦線が含まれず、この図に示されている4つの縦線は、各アドレスブロックが占める領域を示すためだけのものである。
装置10におけるCNN分類器は、ニューラルネットワークに基づく分類器である。該CNN分類器は、サンプルを用いて訓練されたものである。分類待ち文字ブロックについて、該CNN分類器は、認識結果としての少なくとも1つの候補文字、及び、各候補文字のCNN分類信頼度を与える(提供する)ことができる。該信頼度は、該文字ブロックがその対応する候補文字に分類される信頼性を示すために用いられ、即ち、各文字ブロックの各候補文字について、それは、対応するCNN分類信頼度を有する。与えられる候補文字の数は、CNN分類器の配置(設定)と関係がある。CNN分類器を設定することにより、それが目標文字ブロックを分類するときに、該目標文字ブロックの、特定文字集合に関してのCNN分類結果のみを与える(即ち、該目標文字ブロック内の文字が該特定文字集合中のどの文字に似ているか、及び、CNN分類信頼度を提供する)ようにさせることができる(該目標文字ブロックに対応する文字が該特定文字集合以外の文字に属する可能性があるかどうかに関わらない)。該特定文字集合は、例えば、文字集合S及び数字集合であっても良くであって、数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる。CNN分類器を用いて画像中の日本語アドレスにおける各文字に対して分類を行うときに、好ましくは、CNN分類器を設定することにより、各文字ブロックについて、最大信頼度を有する分類のみを出力するようにさせる。CNN分類器を用いて画像中の日本語アドレスにおける複数の文字に対して分類を行った後に、各文字の分類からなる集合には、同じ分類が含まれる可能性があるが、各同じ分類に対応する文字ブロックの位置が明らかに異なり、また、対応する信頼度も異なる可能性がある。
一行日本語受取人アドレス画像を分割して各文字ブロックの所在領域又は位置を確定することで、ターゲットを絞るような認識を行うに便利である。具体的な分割方法は、細分割(oversegmentation)方法であっても良い。
図3は、画像200に対して細分割を行った後の各文字ブロックを示している。図3では、矩形状フレームで各文字ブロックの所在領域を示している。一実施例では、各文字ブロックに基づいて隣接する文字ブロック間の間隙(即ち、間隙の幅)を計算し、複数の間隙の中央値を確定し、該中央値は、日本語受取人アドレスにおけるミドルアドレスの領域を判断するために用いることができ、これについては、後述する。
装置10におけるFCN分類器も、ニューラルネットワークに基づく分類器である。該FCN分類器は、サンプルを用いて訓練されたものである。分類待ち文字ブロックについて、該FCN分類器は、認識結果としての少なくとも1つの候補文字、及び、各候補文字のFCN分類信頼度を与える(提供する)ことができる。該信頼度は、該文字ブロックがその対応する候補文字に分類される信頼性を示すために用いられ、即ち、各文字ブロックの各候補文字について、それは、対応するFCN分類信頼度を有する。与えられる候補文字の数は、FCN分類器の配置(設定)と関係がある。該FCN分類器は、画像中の分類待ち文字ブロックが文字集合S中の文字に対応する信頼度を確定するように設定されても良い(分類待ち日本語ブロックが文字集合S中の文字以外の文字であるかどうかに関わらない)。例えば、該FCN分類器は、中心点がPkのところに位置する文字ブロックの、文字集合Sに関してのFCN分類結果(それは、少なくとも1つの候補文字、及び、各候補文字のFCN分類信頼度を含み、候補文字は、文字集合Sに属する)を与える(提供する)ように設定されても良く、このようにして、該FCN分類器は、中心点がPkのところに位置する文字ブロックの分類が文字集合S中の要素以外の要素(即ち、文字)であるかどうかについて判断しない。FCN分類器を用いて画像中の日本語アドレスにおける各文字に対して分類を行うときに、好ましくは、FCN分類器を設定することにより、各文字ブロックについて、最大信頼度を有する分類のみを出力するようにさせる。FCN分類器を用いて画像中の日本語アドレスにおける複数の文字に対して分類を行った後に、各文字の分類からなる集合には、同じ分類が含まれる可能性があるが、各同じ分類に対応する文字ブロックの位置が明らかに異なり、また、対応する信頼度も異なる可能性がある。
一実施例では、一行日本語受取人アドレス画像について、該FCN分類器は、文字集合Sに属する文字ブロックを見つけ、これらの文字ブロックの位置(例えば、座標)、信頼度、類別(即ち、文字集合S中のどの文字)を与えることができる。例えば、該一行日本語受取人アドレス画像中の、文字集合S以外の文字Xについては、類別が、文字集合S中の、文字Xに近い文字(類別)と選択され、信頼度が比較的小さい値であり、例えば、0又は0に近い値であり、また、該一行日本語受取人アドレス画像中の、文字集合Sに属する文字Yについては、類別が、文字集合S中のY文字(類別)及び/又はY文字に類似した文字(類別)と選択され、信頼度が比較的大きい値であり、例えば、255又は255に近い値である(そのうち、信頼度が0~255の間の数値で表され、数値が大きいほど、信頼度が高いとする)。
図4は、本開示の一実施例においてシード文字ブロックを選択する方法101aの例示フローチャートである。装置10における選択ユニット11は、方法101aを実現するように構成されても良い。
ステップ401では、CNN分類器を用いて、第一CNNシード文字ブロックが出現するかを確定する。CNN分類器を用いて画像中の文字ブロックに対して分類を行うときに第一CNNシード文字ブロックが出現する場合、ステップ421を実行し、即ち、第一CNNシード文字ブロックをシード文字ブロックとして選択する。そのうち、第一CNNシード文字ブロックは、次のような条件を満たし、即ち、該第一CNNシード文字ブロックの、第一文字サブ集合に関してのCNN分類の最大CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNNシード文字ブロックが、該第一CNNシード文字ブロックに直接隣接する数字ブロックを有するという条件であり、そのうち、第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、且つ数字ブロックは、次のような条件を満足し、即ち、該数字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きい。数字ブロックに直接隣接するケースは、次のようなケースを含み、即ち、数字ブロックが関心文字ブロックの左側にあり且つ関心文字ブロックに直接隣接し、及び、数字ブロックが関心文字ブロックの右側にあり且つ関心文字ブロックに直接隣接する。本開示では、このような2つのケースのうちの1つを満足すれば、関心文字ブロックが数字ブロックに直接隣接すると見なすことができる。
CNN分類器を用いて画像中の文字ブロックの分類を確定するときに、左から右へと1つずつ認識しても良く、右から左へと1つずつ認識しても良く、又は、他の所定の順序に従って認識しても良い。
ステップ401では、数字ブロックを確定するときに、依然としてCNN分類器を用いても良い。代替実施例では、数字ブロックを認識し得る他の分類器を用いて文字ブロックが数字ブロックであるかを確定しても良く、例えば、FCN分類器又は数字ブロック認識専用分類器を用いることができる。文字ブロックの位置は、文字ブロックの順番号(索引)で表されても良く、他の文字ブロックの中心位置の座標で表されても良く、この2種類の表し方法は、対応関係があり、互いに変換することができる。
ステップ401においてCNN分類器を用いて画像中の文字ブロックに対して分類を行う過程で最後まで第一CNNシード文字ブロックが出現しない(即ち、画像中の最後の1つの文字ブロックに対してCNN分類を行った後でも、条件を満足する第一CNNシード文字ブロックが出ない)場合、ステップ403を実行し、即ち、FCN分類器を用いて第一FCNシード文字ブロックが現れるかを確定する。FCN分類器を用いて画像中の文字ブロックに対して分類を行うときに第一FCNシード文字ブロックが出現する場合、ステップ423を実行し、即ち、第一FCNシード文字ブロックをシード文字ブロックとして選択し、そのうち、第一FCNシード文字ブロックは、次のような条件を満たし、即ち、該第一FCNシード文字ブロックの、第一文字サブ集合に関してのFCN分類の最大FCN分類信頼度が第一FCN閾値よりも大きく、且つ該第一FCNシード文字ブロックが、該第一FCNシード文字ブロックに直接隣接する数字ブロックを有するという条件である。
ステップ403では、数字ブロックを確定するときに、依然としてFCN分類器を用いても良い。代替実施例では、数字ブロックを認識し得る他の分類器を用いて、文字ブロックが数字ブロックであるかを確定することもでき、例えば、CNN分類器又は数字ブロック認識専用分類器を採用しても良い。
ステップ403においてFCN分類器を用いて画像中の文字ブロックに対して分類を行う過程で最後まで第一FCNシード文字ブロックが出ない(即ち、画像中の最後1つの文字ブロックに対してFCN分類を行った後でも、条件を満足する第一FCNシード文字ブロックが現れない)場合、ステップ405を実行し、即ち、FCN分類器を用いて、第二FCNシード文字ブロックが出現するかを確定する。FCN分類器を使用して画像中の複数の文字ブロックに対して分類を行うときに第二FCNシード文字ブロックが現れる場合、ステップ425を実行し、即ち、第二FCNシード文字ブロックをシード文字ブロックとして選択し、そのうち、第二FCNシード文字ブロックは、次のような条件を満足し、即ち、該第二FCNシード文字ブロックの、文字“-”に関してのFCN分類のFCN分類信頼度が第二FCN閾値よりも大きく、且つ該第二FCNシード文字ブロックが、該第二FCNシード文字ブロックに直接隣接する数字ブロックを有するという条件である。なお、数字ブロックを確定する方法は、ステップ403で採用される方法を参照することができ、例えば、FCN分類器を用いて数字ブロックを確定することができる。
ステップ405においてFCN分類器を使用して画像中の文字ブロックに対して分類を行う過程で最後まで第二FCNシード文字ブロックが現れない(即ち、画像中の最後1つの文字ブロックに対してFCN分類を行った後でも、条件を満足する第二FCNシード文字ブロックが出ない)場合、ステップ407を実行し、即ち、CNN分類器を用いて、第二CNNシード文字ブロックが出現するかを確定する。CNN分類器を用いて画像中の文字ブロックに対して分類を行うときに第二CNNシード文字ブロックが現れる場合、ステップ427を実行し、即ち、第二CNNシード文字ブロックをシード文字ブロックとして選択し、そのうち、第二CNNシード文字ブロックは、次のような条件を満たし、即ち、該第二CNNシード文字ブロックの、数字集合に関してのCNN分類の最大CNN分類信頼度が第二CNN閾値よりも大きく、且つ該第二CNNシード文字ブロックが、該第二CNNシード文字ブロックに直接隣接する数字ブロックを有するという条件である。そのうち、数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる。
ステップ407においてCNN分類器を採用して画像中の文字ブロックに対して分類を行う過程で最後まで第二CNNシード文字ブロックが出現しない(即ち、画像中の最後1つの文字ブロックに対してCNN分類を行った後でも、条件を満足する第二CNNシード文字ブロックが出ない)場合、ステップ409を実行し、即ち、FCN分類器を用いて、第三FCNシード文字ブロックが現れるかを確定する。FCN分類器を用いて画像中の文字ブロックに対して分類を行うときに第三FCNシード文字ブロックが出現する場合、ステップ429を実行し、即ち、第三FCNシード文字ブロックをシード文字ブロックとして選択し、そのうち、第三FCNシード文字ブロックは、次のような条件を満足し、即ち、該第三FCNシード文字ブロックの、数字集合に関するFCN分類の最大FCN分類信頼度が第三FCN閾値よりも大きく、且つ該第三FCNシード文字ブロックが、該第三FCNシード文字ブロックに直接隣接する数字ブロックを有するという条件である。なお、数字ブロックを確定する方法は、ステップ403で採用される方法を参照することができ、例えば、FCN分類器を用いて数字ブロックを確定することができる。
ステップ409においてFCN分類器を使用して画像中の文字ブロックに対して分類を行う過程で最後まで第三FCNシード文字ブロックが出ない(即ち、画像中の最後1つの文字ブロックに対してFCN分類を行った後でも、条件を満足する第三FCNシード文字ブロックが出現しない)場合、ステップ411を実行し、即ち、プロンプトメッセージを出力し、これにより、ユーザは、このような場合の画像についてその対応する処理を行うことができる。プロンプトメッセージは、シード文字ブロックが見つからないことを示す情報であっても良く、例えば、“シード文字ブロックが見つからない”や“シード文字ブロックが発見されない”である。
なお、上述の最後の1つの文字ブロックとは、画像中の文字列の末尾の文字ブロックでなく、画像中の文字列全体における文字ブロックを分類するときに該文字列における最後の1つの分類待ち文字ブロックを指す。
シード文字ブロックを選択する方法101aでは、CNN分類器及びFCN分類器を用いてシード文字ブロックを選択することで、正確且つ迅速にシード文字ブロックを確定することができる。また、ミドルアドレスにおける文字を3種類(第一文字サブ集合、文字“-”、及び数字集合)に分けることで、認識を行うときに種類に基づいて優先順位をつけて(優先度を分けて)認識を行うことは、認識の正確度の更なる向上に有利である。方法101aでは、1つの文字ブロックに対して認識を行った後に、それがシード文字ブロックであるかの判断を行い、シード文字ブロックである場合、選択ステップを行い、そして、方法101aが終了し、このようにして、処理時間の節約に有利である。
図5は、本開示の一実施例においてシード文字ブロックを選択する方法101bの例示フローチャートである。装置10における選択ユニット11は、方法101bを実現するように構成されても良い。
ステップ501では、CNN分類器を用いて、各文字ブロックに対して、文字集合Sに関しての分類を行うことで、各文字ブロックのCNN分類及び該CNN分類のCNN分類信頼度を確定する。そのうち、各文字ブロックについて言えば、そのCNN分類は、該文字ブロックの、文字集合Sに関してのCNN候補分類のうちの信頼度最大の分類であっても良い。本開示の一実施例では、CNN分類器の各文字ブロックに対しての認識結果(例えば、各文字ブロックについて、信頼度が高から低への順に従って並べ替えられた後の結果における前の5個の認識結果が記憶され、各認識結果は、分類及び信頼度を含む)を記憶しても良く、このようにして、その後の使用時に、文字ブロックに対して再び認識を行う必要がない。
ステップ503では、FCN分類器を用いて、画像中の各文字ブロックに対して、文字集合Sに関しての分類を行うことで、各文字ブロックのFCN分類及び該FCN分類のFCN分類信頼度を確定する。そのうち、各文字ブロックについて言えば、そのFCN分類は、該文字ブロックの文字集合Sに関してのFCN候補分類のうちの信頼度最大の分類であっても良い。本開示の一実施例では、FCN分類器の各文字ブロックに対しての認識結果(例えば、各文字ブロックについて、信頼度が高から低への順に並べ替えられた後の結果における前の5の認識結果が記憶され、各認識結果は、分類及び信頼度を含む)を記憶しても良く、このようにして、その後の使用時に、文字ブロックに対して再び認識を行う必要がない。
ステップ505では、各CNN分類からなるCNN分類集合に、次のような条件を満足する第一CNN分類が含まれるかを確定し、即ち、該第一CNN分類が第一文字サブ集合に属し、該第一CNN分類に対応する第一CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNN分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”かさなる。数字ブロックは、次のような条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である。
ステップ505においてCNN分類集合に第一CNN分類が含まれると確定される場合、ステップ525を実行し、即ち、第一CNN分類に対応する文字ブロックをシード文字ブロックとして選択する。
ステップ505においてCNN分類集合に第一CNN分類が含まれないと確定される場合、ステップ507を実行し、即ち、各FCN分類からなるFCN分類集合に、次のような条件を満たす第一FCN分類が含まれるかを確定し、即ち、該第一FCN分類が第一文字サブ集合に属し、該第一FCN分類に対応する第一FCN分類信頼度が第一FCN閾値よりも大きく、且つ該第一FCN分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。数字ブロックの判断は、生成済みのFCN分類結果を直接使用しても良く、他の分類器を使用しても良い。
ステップ507においてFCN分類集合に第一FCN分類が含まれると確定される場合、ステップ527を実行し、即ち、第一FCN分類に対応する文字ブロックをシード文字ブロックと確定する。
ステップ507においてFCN分類集合に第一FCN分類が含まれないと確定される場合、ステップ509を実行し、即ち、FCN分類集合に、次のような条件を満たす第二FCN分類が含まれるかを確定し、即ち、該第二FCN分類が文字“-”であり、該第二FCN分類に対応する第二FCN分類信頼度が第二FCN閾値よりも高く、且つ該第二FCN分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。
ステップ509においてFCN分類集合に第二FCN分類が含まれると確定される場合、ステップ529を実行し、即ち、第二FCN分類に対応する文字ブロックをシード文字ブロックとして選択する。
ステップ509においてFCN分類集合に第二FCN分類が含まれないと確定される場合、ステップ511を実行し、即ち、CNN分類集合に、次のような条件を満たす第二CNN分類が含まれるかを確定し、即ち、該第二CNN分類が数字集合に属し、該第二CNN分類に対応する第二CNN分類信頼度が第二CNN閾値よりも大きく、且つ該第二CNN分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。数字集合は、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる。
ステップ511においてCNN分類集合に第二CNN分類が含まれると確定される場合、ステップ531を実行し、即ち、第二CNN分類に対応する文字ブロックをシード文字ブロックとして選択する。
ステップ511においてCNN分類集合に第二CNN分類が含まれないと確定される場合、ステップ513を実行し、即ち、FCN分類集合に次のような条件を満足する第三FCN分類が含まれるかを確定し、即ち、該第三FCN分類が数字集合に属し、該第三FCN分類に対応する第三FCN分類信頼度が第三FCN閾値よりも大きく、且つ該第三FCN分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。
ステップ513においてFCN分類集合に第三FCN分類が含まれると確定される場合、ステップ533を実行し、即ち、第三FCN分類に対応する文字ブロックをシード文字ブロックとして選択する。
ステップ513においてFCN分類集合に第三FCN分類が含まれないと確定される場合、ステップ515を実行し、即ち、プロンプトメッセージを出力し、これにより、ユーザは、このような場合の画像についてその対応する処理を行うことができる。プロンプトメッセージは、シード文字ブロックが見つからないことを示す情報であっても良く、例えば、“シード文字ブロックが見つからない”や“シード文字ブロックが発見されない”である。
シード文字ブロックを選択する方法101bでは、CNN分類器及びFCN分類器を用いてシード文字ブロックを選択することで、正確且つ迅速にシード文字ブロックを確定することができる。また、ミドルアドレスにおける文字を3種類(第一文字サブ集合、文字“-”、及び数字集合)に分けることで、シード文字ブロックを選択するときに種類に基づいて優先順位をつけて選択を行うことは、認識の正確度の更なる向上に有利である。方法101bでは、日本語受取人アドレス全体の画像に対して文字認識を行った後に、各種類の文字について、優先順位に従ってその対応する文字ブロックがシード文字ブロックであるかを判断する。
図6は、本開示の他の実施例においてシード文字ブロックを選択する方法101cの例示フローチャートである。装置10における選択ユニット11は、方法101cを実現するように構成される。
ステップ601では、CNN分類器を用いて、各文字ブロックに対して、文字集合Sに関しての分類を行うことで、各文字ブロックのCNN分類及び該CNN分類のCNN分類信頼度を確定する。そのうち、各文字ブロックについて言えば、そのCNN分類は、該文字ブロックの文字集合Sに関してのCNN候補分類のうちの信頼度最大の分類である。
ステップ603では、FCN分類器を用いて、画像中の各文字ブロックに対して、文字集合Sに関しての分類を行うことで、各文字ブロックのFCN分類及び該FCN分類のFCN分類信頼度を確定する。そのうち、各文字ブロックについて言えば、そのFCN分類は、該文字ブロックの文字集合Sに関してのFCN候補分類のうちの信頼度最大の分類である。
ステップ605では、第一CNN分類集合中で最大信頼度を有する第一最信頼(最信頼とは、最も信頼されることを指す)CNN分類の信頼度が第一CNN閾値よりも大きいかを確定する。第一CNN分類集合は、各CNN分類のうち、次のような条件を満足する分類からなり、即ち、該分類が第一文字サブ集合に属し、且つ該分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなる。数字ブロックは、次のような条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である。数字ブロックの判断は、生成済みのCNN分類結果を直接使用しても良く、他の分類器の分類の結果、例えば、FCNの分類結果を使用しても良い。
ステップ605において、第一CNN分類集合中で最大信頼度を有する第一最信頼CNN分類の信頼度が第一CNN閾値よりも大きいと確定される場合、ステップ625を実行し、即ち、第一最信頼CNN分類に対応する文字ブロックをシード文字ブロックとして選択する。
ステップ605において、第一CNN分類集合中で最大信頼度を有する第一最信頼CNN分類の信頼度が第一CNN閾値以下であると確定される場合、ステップ607を実行し、即ち、第一FCN分類集合中で最大信頼度を有する第一最信頼FCN分類の信頼度が第一FCN閾値よりも大きいかを確定する。第一FCN分類集合は、各FCN分類のうち、次のような条件を満足する分類からなり、即ち、該分類が第一文字サブ集合に属し、該分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。数字ブロックの判断は、生成済みのFCN分類結果を直接使用しても良く、他の分類器を使用しても良い。
ステップ607において、第一FCN分類集合中で最大信頼度を有する第一最信頼FCN分類の信頼度が第一FCN閾値よりも大きいと確定される場合、ステップ627を実行し、即ち、第一最信頼FCN分類に対応する文字ブロックをシード文字ブロックとして確定する。
ステップ607において、第一FCN分類集合中で最大信頼度を有する第一最信頼FCN分類の信頼度が第一FCN閾値以下であると確定される場合、ステップ609を実行し、即ち、第二FCN分類集合中で最大信頼度を有する第二最信頼FCN分類の信頼度が第二FCN閾値よりも大きいかを確定する。第二FCN分類集合は、各FCN分類のうち、次のような条件を満たす分類からなり、即ち、該分類が文字“-”であり、且つ該分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。
ステップ609において、第二最信頼FCN分類の信頼度が第二FCN閾値より大きいと確定される場合、ステップ629を実行し、即ち、第二FCN分類に対応する文字ブロックをシード文字ブロックとして選択する。
ステップ609において、第二最信頼FCN分類の信頼度が第二FCN閾値以下であると確定される場合、ステップ611を実行し、即ち、第二CNN分類集合中で最大信頼度を有する第二最信頼CNN分類の信頼度が第二CNN閾値よりも大きいかを確定する。第二CNN分類集合は、各CNN分類のうち、次のような条件を満たす分類からなり、即ち、該分類が数字集合に属し、且つ該分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。数字集合は、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる。数字ブロックの判断は、生成済みのCNN分類結果を直接使用しても良く、他の分類器の分類結果、例えば、FCNの分類結果を使用しても良い。
ステップ611において、第二CNN分類集合中で最大信頼度を有する第二最信頼CNN分類の信頼度が第二CNN閾値よりも大きいと確定される場合、ステップ631を実行し、即ち、第二最信頼CNN分類に対応する文字ブロックをシード文字ブロックとして選択する。
ステップ611において、第二CNN分類集合中で最大信頼度を有する第二最信頼CNN分類の信頼度が第二CNN閾値以下であると確定される場合、ステップ613を実行し、即ち、第三FCN分類集合中で最大信頼度を有する第三最信頼FCN分類の信頼度が第三FCN閾値よりも大きいかを判断する。第三FCN分類集合は、各FCN分類のうち、次のような条件を満足する分類からなり、即ち、該分類が数字集合に属し、且つ該分類に対応する文字ブロックが、該文字ブロックに直接隣接する数字ブロックを有するという条件である。数字ブロックの判断は、生成済みのCNN分類結果を直接使用しても良く、他の分類器分類の結果、例えば、FCNの分類結果を使用しても良い。
ステップ613において、第三FCN分類集合中で最大信頼度を有する第三最信頼FCN分類の信頼度が第三FCN閾値よりも大きいと確定される場合、ステップ633を実行し、即ち、第三最信頼FCN分類に対応する文字ブロックをシード文字ブロックとして選択する。
ステップ613において第三FCN分類集合中で最大信頼度を有する第三最信頼FCN分類の信頼度が第三FCN閾値以下であると確定される場合、ステップ615を実行し、即ち、プロンプトメッセージを出力し、これにより、ユーザは、このような場合の画像についてその対応する処理を行うことができる。プロンプトメッセージは、シード文字ブロックが見つかないことを示す情報であっても良く、例えば、“シード文字ブロックが見つかない”や“シード文字ブロックが発見されない”である。
シード文字ブロックを選択する方法101cでは、CNN分類器及びFCN分類器を用いてシード文字ブロックを選択することで、正確且つ迅速にシード文字ブロックを確定することができる。また、ミドルアドレスにおける文字を3種類(第一文字サブ集合、文字“-”、及び数字集合)に分けることで、シード文字ブロックを選択するときに種類に基づいて分優順位つけて選択を行うことは、認識の正確度の更なる向上に有利である。方法101cでは、日本語受取人アドレス全体の画像に対して文字認識を行った後に、各類文字について、優先順位をつけてシード文字ブロックであるかを判断し、そして、各の分類集合のうちの信頼度最高の、条件を満足する文字ブロックをシード文字ブロックとして選択することは、シード文字ブロックの認識の正確度の更なる向上に有利である。
本開示によるシード文字ブロックの確定方法は、方法101a-101cに限られず、さらに、CNN分類器とFCN分類器とを組み合せて使用するこれらの方法の変形例を含んでも良い。
シード文字ブロックを確定した後に、該シード文字ブロックを開始ブロックとして、画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定することができる。
左境界文字ブロックと右境界文字ブロックとの間の領域(左境界文字ブロック領域及び右境界文字ブロック領域を含む)と日本語受取人アドレスにおけるミドルアドレスの領域と定義する。
以下、図7を参照しながら、本開示による日本語受取人アドレスにおけるミドルアドレスの領域の左境界の確定方法を説明する。
図7は、本開示の一実施例において日本語受取人アドレスにおけるミドルアドレスの領域の左境界を確定する方法700の例示フローチャートである。
ステップ701では、シード文字ブロックと、左候補シード文字ブロックとの間の間隙を確定する。左候補シード文字ブロックとは、シード文字ブロックの最も隣接する左側の文字ブロックを指す。
ステップ703では、間隙が間隙閾値よりも小さいかを確定する。間隙閾値は、画像における日本語受取人アドレスの隣接する文字ブロック間の間隙の中央値の1.5乃至2.5倍、又は、間隙による平均値の1.5乃至2.5倍と設定されても良い。
間隙が間隙閾値以上であると確定される場合、ステップ705を実行し、即ち、シード文字ブロックの位置に基づいてミドルアドレスの左境界を設定する。例えば、シード文字ブロックを左境界文字ブロックと設定する。
間隙が間隙閾値よりも小さいと確定される場合、ステップ707を実行し、即ち、左候補シード文字ブロックの、文字集合Sに関してのCNN分類の最大信頼度がCNN境界閾値よりも大きいかを確定する。文字集合Sに関してのCNN分類は、CNN分類器が該文字ブロックに対して分類を行うときに与える(提供する)、文字集合Sに属する分類である。
ステップ707において、左候補シード文字ブロックの、文字集合Sに関するCNN分類の最大信頼度がCNN境界閾値よりも大きいと判断される場合、ステップ709を実行し、即ち、左候補シード文字ブロックを次の1つのシード文字ブロックとして設定する。その後、ステップ701に戻り、新しく設定されるシード文字ブロックに基づいて、シード文字ブロックと左候補シード文字ブロックとの間の間隙を確定する。
ステップ707の確定結果が「いいえ」の場合、ステップ711を実行し、即ち、左候補シード文字ブロックの、文字集合Sに関してのFCN分類の最大信頼度がFCN境界閾値よりも大きいかを確定する。文字集合Sに関してのFCN分類は、FCN分類器が該文字ブロックに対して分類を行うときに与える(提供する)、文字集合Sに属する分類である。
以下、図8に基づいて、本開示による日本語受取人アドレスにおけるミドルアドレスの領域の右境界の確定方法を説明する。
図8は、本開示の一実施例において日本語受取人アドレスにおけるミドルアドレスの領域の右境界を確定する方法800の例示フローチャートである。
ステップ801では、シード文字ブロックと右候補シード文字ブロックと間の間隙を確定する。右候補シード文字ブロックとは、シード文字ブロックの一番隣接する右側の文字ブロックを指す。
ステップ803では、間隙が間隙閾値よりも小さいかを確定する。間隙閾値は、画像における日本語受取人アドレスの隣接する文字ブロック間の間隙の中央値の1.5乃至2.5倍、又は、間隙による平均値の1.5乃至2.5倍と設定されても良い。
間隙が間隙閾値以上であると確定される場合、ステップ805を実行し、即ち、シード文字ブロックに基づいてミドルアドレスの右境界を設定し、例えば、シード文字ブロックを右境界文字ブロックとして設定する。
間隙が間隙閾値よりも小さいと確定される場合、ステップ807を実行し、即ち、右候補シード文字ブロックの、文字集合Sに関してのCNN分類の最大信頼度がCNN境界閾値よりも大きいかを判断する。文字集合Sに関してのCNN分類は、CNN分類器が該文字ブロックに対して分類を行うときに与える(提供する)、文字集合Sに属する分類である。
ステップ807において、右候補シード文字ブロックの、文字集合Sに関してのCNN分類の最大信頼度がCNN境界閾値よりも大きいと確定される場合、ステップ809を実行し、即ち、右候補シード文字ブロックを次の1つのシード文字ブロックとして設定する。その後、ステップ801に戻り、新しく設定されるシード文字ブロックに基づいて、シード文字ブロックと右候補シード文字ブロックとの間の間隙を確定する。
ステップ807の確定結果が「いいえ」のときに、ステップ811を実行し、即ち、右候補シード文字ブロックの、文字集合Sに関するFCN分類の最大信頼度がFCN境界閾値よりも大きいかを判断する。文字集合Sに関してのFCN分類は、FCN分類器が該文字ブロックに対して分類を行うときに与える(提供する)、文字集合Sに属する分類である。
方法700及び方法800では、境界文字ブロックを用いてミドルアドレスの領域を確定することができるが、境界文字ブロックに中心位置座標、左境界座標、及び右境界座標があるので、これらの座標を基づいてミドルアドレスの領域を確定しても良く、又は、1つのミドルアドレスの領域の表し方式をもう1つの表し方式に変換しても良い。
本発明の発明者が次のようなことを発見した。即ち、本開示では、優先順位をつけてCNN、FCN分類器を選択的に使用することでシード文字ブロックを確定することにより、確定されるシード文字ブロックの正確度を改善することができ、その上で、さらにCNN、FCN分類器を組み合せて使用することで左、右へ延伸することにより、日本語受取人アドレスにおけるミドルアドレスの領域を得ることは、確定されるミドルアドレスの領域の正確度の向上に有利である。
以下、本開示による画像を処理する方法を説明する。
図9は、本開示の一実施例における画像を処理する方法900の例示フローチャートである。方法900は、ステップ901、903を含む。ステップ901では、畳み込みネットワーク(CNN)分類器又は全層畳み込みネットワーク(FCN)分類器を用いて画像中の文字ブロックを認識することで、画像中で条件を満足するシード文字ブロックを選択し、該条件は、該シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合Sの要素のうちの1つであるという条件である。ステップ903では、このシード文字ブロックを開始ブロックとして、画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定する。方法900と装置10の構成との間は、対応する関係が存在する。よって、幾つかの実施例では、方法900のより詳細な設計は、本開示に記載の対応する装置についての具体的な説明を参照することができる。
本発明の発明者が次のようなことを発見した。即ち、CNN、FCN分類器を組み合せて用いることでミドルアドレス文字に対して種類を分けて判断を行うことは、最適な技術案である。これは、ミドルアドレスの領域を確定するときの正確度の向上に有利であり、さらに、その後のミドルアドレス文字及び日本語受取人アドレス全体の正確且つ効率な認識にも有利である。
また、本開示は、画像における日本語受取人アドレスを認識する方法に関する。図10は、本開示の一実施例において画像中の日本語受取人アドレスを認識する方法100の例示フローチャートである。
ステップ101では、本開示の方法900を用いてミドルアドレスの領域を確定する。
ステップ103では、FCN分類器の認識結果を用いて画像中のミドルアドレスにおける文字を確定する。
ステップ105では、CNN分類器の認識結果を用いて画像中のアッパーアドレスにおける文字を確定する。
ステップ107では、CNN分類器の認識結果を用いて画像中のロウアーアドレスにおける文字を確定する。
オプションとして、画像中のアッパーアドレスやロウアーアドレスにおける文字は、他の分類器により認識することもできる。
また、本開示は、日本語受取人アドレスを有する郵便物に対して分類を行う方法に関する。該方法は、本開示の内容により認識された日本語受取人アドレスに基づいて郵便物に対して分類を行うことを含む。
本開示は、さらに、日本語受取人アドレスを有する郵便物に対して分類を行う装置に関する。該装置は、本開示の内容により認識された日本語受取人アドレスに対して郵便物に対して分類を行うように構成させる。
一実施例では、本開示は、さらに記憶装置を提供する。記憶装置には、情報処理装置可読プログラムコードが記憶されており、情報処理装置上で該プログラムコードを実行するときに、該プログラムコードは、情報処理装置に本開示の上述の方法を実行させる。記憶装置は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリースティックなどを含んでも良いが、これらに限定されない。
図11は、本開示の一実施例における情報処理装置1100の例示ブロック図である。
図11では、中央処理装置(CPU)1101は、ROM 1102に記憶されているプログラム又は記憶部1108からRAM 1103にロッドされているプログラムに基づいて各種の処理を行う。RAM 1103では、ニーズに応じて、CPU 1101が各種の処理を行うときに必要なデータなどを記憶することもできる。
CPU 1101、ROM 1102及びRAM 1103は、バズ1104を経由して互いに接続される。入力/出力インターフェース1105もバス1104に接続される。
また、入力/出力インターフェース1105には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1106、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1107、ハードディスクなどを含む記憶部1108、ネットワークインターフェースカード、例えば、LANカード、モデムなどを含む通信部1109である。通信部1109は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。
ドライブ1110は、ニーズに応じて、入力/出力インターフェース1105に接続されても良い。取り外し可能な媒体1111、例えば、半導体メモリなどは、必要に応じて、ドライブ1110にセットされることにより、その中から読み取られたコンピュータプログラムを記憶部1108にインストールすることができる。
CPU 1101は、本開示による方法を実現するためのプログラムコードを実行することができる。
本開示による方法及び装置は、ミドルアドレスにおける異なる類型の文字に対して、優先度を分けて複数の方法の組み合わせにより認識を行い、少なくとも、認識の効率及び正確度を向上させることができる効果を奏する。
また、以上の実施例などに関し、さらに以下のように付記として開示する。
(付記1)
画像を処理する装置であって、
畳み込みネットワーク分類器又は全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックを認識することで前記画像中から条件を満足するシード文字ブロックを選択するための選択ユニットであって、前記条件は、前記シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合の要素のうちの1つであるという条件であり;及び
前記シード文字ブロックを開始ブロックとして、前記画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定するための確定ユニットを含む、装置。
(付記2)
付記1に記載の装置であって、
前記全層畳み込みネットワーク分類器は、前記画像中の分類待ち文字ブロックが、前記文字集合中の文字以外の文字であるかどうかにかかわらず、前記文字集合中の文字である信頼度を確定する、装置。
(付記3)
付記1に記載の装置であって、
畳み込みネットワーク分類器を用いて前記画像中の文字ブロックを認識することは、前記画像中の文字の所在領域を細分割することを含む、装置。
(付記4)
付記3に記載の装置であって、
前記選択ユニットは、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第一CNNシード文字ブロックが出現する場合、前記第一CNNシード文字ブロックを前記シード文字ブロックとして選択し、前記第一CNNシード文字ブロックは、該第一CNNシード文字ブロックの、第一文字サブ集合に関してのCNN分類の最大CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNNシード文字ブロックが該第一CNNシード文字ブロックに直接隣接する数字ブロックを有するという条件を満足し、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第一CNNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第一FCNシード文字ブロックが出現する場合、前記第一FCNシード文字ブロックを前記シード文字ブロックとして選択するステップを行い、前記第一FCNシード文字ブロックは、該第一FCNシード文字ブロックの、前記第一文字サブ集合に関してのFCN分類の最大FCN分類信頼度が第一FCN閾値よりも大きく、且つ該第一FCNシード文字ブロックが該第一FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件を満足するものである、装置。
(付記5)
付記4に記載の装置であって、
前記選択ユニットは、
前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第一FCNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第二FCNシード文字ブロックが出現する場合、前記第二FCNシード文字ブロックを前記シード文字ブロックとして選択するステップを行い、前記第二FCNシード文字ブロックは、該第二FCNシード文字ブロックの、文字“-”に関するFCN分類のFCN分類信頼度が第二FCN閾値よりも大きく、且つ該第二FCNシード文字ブロックが該第二FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足する、装置。
(付記6)
付記5に記載の装置であって、
前記選択ユニットは、
前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第二FCNシード文字ブロックが出現しない場合、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第二CNNシード文字ブロックが出現する場合、前記第二CNNシード文字ブロックを前記シード文字ブロックとして選択し、前記第二CNNシード文字ブロックは、該第二CNNシード文字ブロックの、数字集合に関してのCNN分類の最大CNN分類信頼度が第二CNN閾値よりも大きく、且つ該第二CNNシード文字ブロックが該第二CNNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第二CNNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第三FCNシード文字ブロックが出現する場合、前記第三FCNシード文字ブロックを前記シード文字ブロックとして選択し、前記第三FCNシード文字ブロックは、該第三FCNシード文字ブロックの、前記数字集合に関してのFCN分類の最大FCN分類信頼度が第三FCN閾値よりも大きく、且つ該第三FCNシード文字ブロックが該第三FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる、装置。
(付記7)
付記1に記載の装置であって、
前記選択ユニットは、
前記畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのCNN分類及びCNN分類信頼度を確定し、
前記全層畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのFCN分類及びFCN分類信頼度を確定する、装置。
(付記8)
付記7に記載の装置であって、
前記選択ユニットは、
各CNN分類からなるCNN分類集合に、次の条件を満たす第一CNN分類が含まれる場合、前記第一CNN分類に対応する文字ブロックをシード文字ブロックとして選択し、即ち、該第一CNN分類が第一文字サブ集合に属し、該第一CNN分類に対応する第一CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNN分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件であり、
前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。
(付記9)
付記8に記載の方法であって、
前記選択ユニットは、
前記CNN分類集合に前記第一CNN分類が含まれない場合、
各FCN分類からなるFCN分類集合に、次の条件を満たす第一FCN分類が含まれる場合、前記第一FCN分類に対応する文字ブロックをシード文字ブロックとして確定し、即ち、該第一FCN分類が前記第一文字サブ集合に属し、該第一FCN分類に対応する第一FCN分類信頼度が第一FCN閾値よりも大きく、且つ該第一FCN分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件である、装置。
(付記10)
付記9に記載の装置であって、
前記選択ユニットは、
前記FCN分類集合に前記第一FCN分類が含まれない場合、
前記FCN分類集合に次の条件を満たす第二FCN分類が含まれる場合、前記第二FCN分類に対応する文字ブロックをシード文字ブロックとして選択し、即ち、該第二FCN分類が文字“-”であり、該第二FCN分類に対応する第二FCN分類信頼度が第二FCN閾値よりも大きく、且つ該第二FCN分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件である、装置。
(付記11)
付記10に記載の装置であって、
前記選択ユニットは、
前記FCN分類集合に前記第二FCN分類が含まれない場合、
前記CNN分類集合に次の条件を含む第二CNN分類が含まれる場合、前記第二CNN分類に対応する文字ブロックをシード文字ブロックとして選択し、即ち、該第二CNN分類が数字集合に属し、該第二CNN分類に対応する第二CNN分類信頼度が第二CNN閾値よりも大きく、且つ該第二CNN分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件であり、
前記数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる、装置。
(付記12)
付記11に記載の装置であって、
前記選択ユニットは、
前記CNN分類集合に前記第二CNN分類が含まれない場合、
前記FCN分類集合に次の条件を満たす第三FCN分類が含まれる場合、前記第三FCN分類に対応する文字ブロックを前記シード文字ブロックとして選択し、即ち、該第三FCN分類が前記数字集合に属し、該第三FCN分類に対応する第三FCN分類信頼度が第三FCN閾値よりも大きく、且つ該第三FCN分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件である、装置。
(付記13)
付記7に記載の装置であって、
前記選択ユニットは、
第一CNN分類集合中で最大信頼度を有する第一最信頼CNN分類の信頼度が第一CNN閾値よりも大きい場合、前記第一最信頼CNN分類に対応する文字ブロックを前記シード文字ブロックとして選択し、
前記第一CNN分類集合は、各CNN分類のうち、次の条件を満たす分類からなり、即ち、該分類が第一文字サブ集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件であり、
前記第一文字サブ集合は、“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。
(付記14)
付記13に記載の装置であって、
前記選択ユニットは、
前記第一CNN分類集合中で最大信頼度を有する前記第一最信頼CNN分類の信頼度が前記第一CNN閾値以下の場合、
第一FCN分類集合中で最大信頼度を有する第一最信頼FCN分類の信頼度が第一FCN閾値よりも大きい場合、前記第一最信頼FCN分類に対応する文字ブロックを前記シード文字ブロックとして確定し、前記第一FCN分類集合は、各FCN分類のうち、次の条件を満たす分類からなり、即ち、該分類が前記第一文字サブ集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件である、装置。
(付記15)
付記14に記載の装置であって、
前記選択ユニットは、
前記第一FCN分類集合中で最大信頼度を有する前記第一最信頼FCN分類の信頼度が前記第一FCN閾値以下である場合、
第二FCN分類集合中で最大信頼度を有する第二最信頼FCN分類の信頼度が第二FCN閾値よりも大きい場合、前記第二最信頼FCN分類に対応する文字ブロックを前記シード文字ブロックとして選択し;
前記第二FCN分類集合は、各FCN分類のうち、次の条件を満たす分類からなり、即ち、該分類が文字“-”であり、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件である、装置。
(付記16)
付記15に記載の装置であって、
前記選択ユニットは、
第二CNN分類集合中で最大信頼度を有する第二最信頼CNN分類の信頼度が第二CNN閾値よりも大きい場合、前記第二最信頼CNN分類に対応する文字ブロックを前記シード文字ブロックとして選択し;
前記第二CNN分類集合は、各CNN分類のうち、次の条件を満たす分類からなり、即ち、該分類が数字集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件であり、
前記数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる、装置。
(付記17)
付記16に記載の装置であって、
前記選択ユニットは、
前記第二最信頼CNN分類の信頼度が前記第二CNN閾値以下である場合、
第三FCN分類集合中で最大信頼度を有する第三最信頼FCN分類の信頼度が第三FCN閾値よりも大きい場合、前記第三最信頼FCN分類に対応する文字ブロックを前記シード文字ブロックとして選択し、
前記第三FCN分類集合は、各FCN分類のうち、次の条件を満たす分類からなり、即ち、該分類が前記数字集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件である、装置。
(付記18)
付記1に記載の装置であって、
前記確定ユニットは、
前記シード文字ブロックと前記シード文字ブロックの左側の左候補シード文字ブロックとの間の間隙を検出し、
前記間隙が間隙閾値よりも大きい場合、前記シード文字ブロックの位置に基づいて、前記ミドルアドレスの左境界を設定し、そうでない場合、
前記畳み込みネットワーク分類器により、前記左候補シード文字ブロックに対応する文字が前記文字集合に属すると確定される場合、前記左候補シード文字ブロックを次の1つのシード文字ブロックとして設定し、そうでない場合、以下のステップ、即ち、
前記全層畳み込みネットワーク分類器により、前記左候補シード文字ブロックに対応する文字が前記文字集合に属すると確定される場合、前記左候補シード文字ブロックを次の1つのシード文字ブロックとして設定し、それでない場合、前記シード文字ブロックに基づいて前記ミドルアドレスの左境界を設定するステップを行う、装置。
(付記19)
付記1に記載の装置であって、
前記確定ユニットは、
前記シード文字ブロックと、前記シード文字ブロックの右側の右候補シード文字ブロックとの間の間隙を検出し、
前記間隙が間隙閾値よりも大きい場合、前記シード文字ブロックに基づいて前記ミドルアドレスの右境界を設定し、そうでない場合、
前記畳み込みネットワーク分類器により、前記右候補シード文字ブロックに対応する文字が前記文字集合に属すると確定される場合、前記右候補シード文字ブロックを次の1つのブロックとして設定し、そうでない場合、以下のステップ、即ち、
前記全層畳み込みネットワーク分類器により、前記右候補シード文字ブロックに対応する文字が前記文字集合に属すると確定される場合、前記右候補シード文字ブロックを次の1つのシード文字ブロックとして設定し、そうでない場合、前記シード文字ブロックに基いいて前記ミドルアドレスの右境界を設定するステップを行う、装置。
(付記20)
画像を処理する方法であって、
畳み込みネットワーク分類器又は全層畳み込みネットワーク分類器を用いて画像中の文字ブロックを認識することで、画像中から条件を満足するシード文字ブロックを選択し、前記条件は、該シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合Sの要素のうちの1つであるという条件であり;及び
前記シード文字ブロックを開始ブロックとして、前記画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定することを含む、方法。
以上、本開示の好ましい実施形態を説明したが、本開示はこの実施形態に限定されず、本開示の趣旨を離脱しない限り、本開示に対するあらゆる変更は、本開示の技術的範囲に属する。

Claims (9)

  1. 画像を処理する装置であって、
    畳み込みネットワーク分類器又は全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックを認識することで、前記画像中から所定の条件を満足するシード文字ブロックを選択するための選択ユニットであって、前記所定の条件は、前記シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合の要素のうちの1つであるという条件であり;及び
    前記シード文字ブロックを開始ブロックとして、前記画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定するための確定ユニットを含み、
    前記選択ユニットは、
    前記畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのCNN分類及びCNN分類信頼度を確定し、
    前記全層畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのFCN分類及びFCN分類信頼度を確定する、装置。
  2. 請求項1に記載の装置であって、
    前記全層畳み込みネットワーク分類器は、前記画像中の分類待ち文字ブロックが、前記文字集合中の文字以外の文字であるかどうかにかかわらず、前記文字集合中の文字である信頼度を確定する、装置。
  3. 請求項1に記載の装置であって、
    畳み込みネットワーク分類器を用いて前記画像中の文字ブロックを認識することは、前記画像中の文字の所在領域を細分割することを含む、装置。
  4. 請求項3に記載の装置であって、
    前記選択ユニットは、
    前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第一CNNシード文字ブロックが出現する場合、前記第一CNNシード文字ブロックを前記シード文字ブロックとして選択し、前記第一CNNシード文字ブロックは、次の条件、即ち、該第一CNNシード文字ブロックの、第一文字サブ集合に関してのCNN分類の最大CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNNシード文字ブロックが該第一CNNシード文字ブロックに直接隣接する数字ブロックを有するという条件を満たし、
    前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第一CNNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第一FCNシード文字ブロックが出現する場合、前記第一FCNシード文字ブロックを前記シード文字ブロックとして選択するステップを行い、前記第一FCNシード文字ブロックは、次の条件、即ち、該第一FCNシード文字ブロックの、前記第一文字サブ集合に関してのFCN分類の最大FCN分類信頼度が第一FCN閾値よりも大きく、且つ該第一FCNシード文字ブロックが該第一FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
    前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
    前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。
  5. 請求項4に記載の装置であって、
    前記選択ユニットは、
    前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第一FCNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第二FCNシード文字ブロックが出現する場合、前記第二FCNシード文字ブロックを前記シード文字ブロックとして選択するステップを行い、前記第二FCNシード文字ブロックは、次の条件、即ち、該第二FCNシード文字ブロックの、文字“-”に関するFCN分類のFCN分類信頼度が第二FCN閾値よりも大きく、且つ該第二FCNシード文字ブロックが該第二FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満たす、装置。
  6. 請求項5に記載の装置であって、
    前記選択ユニットは、
    前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第二FCNシード文字ブロックが出現しない場合、
    前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第二CNNシード文字ブロックが出現する場合、前記第二CNNシード文字ブロックを前記シード文字ブロックとして選択し、前記第二CNNシード文字ブロックは、次の条件、即ち、該第二CNNシード文字ブロックの、数字集合に関してのCNN分類の最大CNN分類信頼度が第二CNN閾値よりも大きく、且つ該第二CNNシード文字ブロックが該第二CNNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
    前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第二CNNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第三FCNシード文字ブロックが出現する場合、前記第三FCNシード文字ブロックを前記シード文字ブロックとして選択し、前記第三FCNシード文字ブロックは、次の条件、即ち、該第三FCNシード文字ブロックの、前記数字集合に関してのFCN分類の最大FCN分類信頼度が第三FCN閾値よりも大きく、且つ該第三FCNシード文字ブロックが該第三FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
    前記数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる、装置。
  7. 請求項に記載の装置であって、
    前記選択ユニットは、
    各CNN分類からなるCNN分類集合に、次の条件を満たす第一CNN分類が含まれる場合、前記第一CNN分類に対応する文字ブロックをシード文字ブロックとして選択し、即ち、該第一CNN分類が第一文字サブ集合に属し、該第一CNN分類に対応する第一CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNN分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件であり、
    前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
    前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。
  8. 請求項に記載の装置であって、
    前記選択ユニットは、
    第一CNN分類集合中で最大信頼度を有する第一最信頼CNN分類の信頼度が第一CNN閾値よりも大きい場合、前記第一最信頼CNN分類に対応する文字ブロックを前記シード文字ブロックとして選択し、
    前記第一CNN分類集合は、各CNN分類のうち、次の条件を満たす分類からなり、即ち、該分類が第一文字サブ集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件であり、
    前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
    前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。
  9. 画像を処理する方法であって、
    畳み込みネットワーク(CNN)分類器又は全層畳み込みネットワーク(FCN)分類器を用いて前記画像中の文字ブロックを認識することで前記画像中から所定の条件を満足するシード文字ブロックを選択し、前記所定の条件は、前記シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合の要素のうちの1つであるという条件であり;及び
    前記シード文字ブロックを開始ブロックとして、前記画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定することを含み、
    前記畳み込みネットワーク(CNN)分類器又は全層畳み込みネットワーク(FCN)分類器を用いて前記画像中の文字ブロックを認識することで前記画像中から所定の条件を満足するシード文字ブロックを選択することは、
    前記畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのCNN分類及びCNN分類信頼度を確定し、
    前記全層畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのFCN分類及びFCN分類信頼度を確定する、方法。
JP2019196307A 2018-11-06 2019-10-29 画像を処理する装置及び方法 Active JP7351178B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811312165.7A CN111144399B (zh) 2018-11-06 2018-11-06 处理图像的装置和方法
CN201811312165.7 2018-11-06

Publications (2)

Publication Number Publication Date
JP2020077413A JP2020077413A (ja) 2020-05-21
JP7351178B2 true JP7351178B2 (ja) 2023-09-27

Family

ID=70459968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019196307A Active JP7351178B2 (ja) 2018-11-06 2019-10-29 画像を処理する装置及び方法

Country Status (3)

Country Link
US (1) US20200143160A1 (ja)
JP (1) JP7351178B2 (ja)
CN (1) CN111144399B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10963757B2 (en) * 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
CN110197179B (zh) * 2019-03-14 2020-11-10 北京三快在线科技有限公司 识别卡号的方法和装置、存储介质及电子设备
US11275934B2 (en) * 2019-11-20 2022-03-15 Sap Se Positional embeddings for document processing
DE102019218947A1 (de) * 2019-12-05 2021-06-10 Robert Bosch Gmbh Hardwarebeschleunigter Betrieb künstlicher neuronaler Netzwerke
CN112733858B (zh) * 2021-01-08 2021-10-26 北京匠数科技有限公司 基于字符区域检测的图像文字快速识别方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5169033B2 (ja) 2007-06-12 2013-03-27 日本電産株式会社 軸流ファン

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3088038B2 (ja) * 1991-12-26 2000-09-18 株式会社東芝 郵便物区分装置と郵便物区分方法
JPH07256214A (ja) * 1994-03-22 1995-10-09 Toshiba Corp 郵便物の宛名読取装置および郵便物の宛名領域判別装置および郵便物の宛名印刷装置
JP2006031099A (ja) * 2004-07-12 2006-02-02 Fujitsu Ltd 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム
US20150347860A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Systems And Methods For Character Sequence Recognition With No Explicit Segmentation
CN107025452A (zh) * 2016-01-29 2017-08-08 富士通株式会社 图像识别方法和图像识别设备
CN108734184B (zh) * 2017-04-17 2022-06-07 苏宁易购集团股份有限公司 一种对敏感图像进行分析的方法及装置
CN108460772B (zh) * 2018-02-13 2022-05-17 国家计算机网络与信息安全管理中心 基于卷积神经网络的广告骚扰传真图像检测系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5169033B2 (ja) 2007-06-12 2013-03-27 日本電産株式会社 軸流ファン

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Yi-Chao Wu, 外2名,"Evaluation of neural network language models in handwritten Chinese text recognition",2015 13th International Conference on Document Analysis and Recognition (ICDAR),2015年08月26日,p.166-170
緒方日佐男, 外2名,"住所表示番号と棟・部屋番号の連続表記に対する照合方式",電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2000年02月21日,第99巻, 第648号,p.1-8

Also Published As

Publication number Publication date
JP2020077413A (ja) 2020-05-21
US20200143160A1 (en) 2020-05-07
CN111144399A (zh) 2020-05-12
CN111144399B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
JP7351178B2 (ja) 画像を処理する装置及び方法
US8606010B2 (en) Identifying text pixels in scanned images
JP6151763B2 (ja) 再帰的な区分化を用いた文書画像についての単語区分化
US7466861B2 (en) Method for outputting character recognition results
US20070065003A1 (en) Real-time recognition of mixed source text
US20050286772A1 (en) Multiple classifier system with voting arbitration
US20110295778A1 (en) Information processing apparatus, information processing method, and program
JP2020053073A (ja) 学習方法、学習システム、および学習プログラム
RU2652461C1 (ru) Дифференциальная классификация с использованием нескольких нейронных сетей
US11270143B2 (en) Computer implemented method and system for optical character recognition
WO2002019248A9 (en) Character recognition system
US20140241618A1 (en) Combining Region Based Image Classifiers
CN115171125A (zh) 数据异常的检测方法
US9811726B2 (en) Chinese, Japanese, or Korean language detection
JP2009093305A (ja) 帳票認識装置
Nguyen et al. A segmentation method of single-and multiple-touching characters in offline handwritten japanese text recognition
JP2020102207A (ja) 受取人アドレスを認識する装置及び方法
Rahul et al. Multilingual text detection and identification from Indian signage boards
US11113569B2 (en) Information processing device, information processing method, and computer program product
CN112132150A (zh) 文本串识别方法、装置及电子设备
Andersen et al. Features for neural net based region identification of newspaper documents
KR102064974B1 (ko) 블럽 기반의 문자 인식 방법 및 이를 위한 장치
CN112132147B (zh) 一种基于质量节点模型的学习方法
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
Jastrzebska et al. Pattern Classification with Rejection Using Cellular Automata-Based Filtering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230828

R150 Certificate of patent or registration of utility model

Ref document number: 7351178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150