JP7351178B2 - 画像を処理する装置及び方法 - Google Patents
画像を処理する装置及び方法 Download PDFInfo
- Publication number
- JP7351178B2 JP7351178B2 JP2019196307A JP2019196307A JP7351178B2 JP 7351178 B2 JP7351178 B2 JP 7351178B2 JP 2019196307 A JP2019196307 A JP 2019196307A JP 2019196307 A JP2019196307 A JP 2019196307A JP 7351178 B2 JP7351178 B2 JP 7351178B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- character block
- classification
- block
- fcn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/23—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
画像を処理する装置であって、
畳み込みネットワーク分類器又は全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックを認識することで前記画像中から条件を満足するシード文字ブロックを選択するための選択ユニットであって、前記条件は、前記シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合の要素のうちの1つであるという条件であり;及び
前記シード文字ブロックを開始ブロックとして、前記画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定するための確定ユニットを含む、装置。
付記1に記載の装置であって、
前記全層畳み込みネットワーク分類器は、前記画像中の分類待ち文字ブロックが、前記文字集合中の文字以外の文字であるかどうかにかかわらず、前記文字集合中の文字である信頼度を確定する、装置。
付記1に記載の装置であって、
畳み込みネットワーク分類器を用いて前記画像中の文字ブロックを認識することは、前記画像中の文字の所在領域を細分割することを含む、装置。
付記3に記載の装置であって、
前記選択ユニットは、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第一CNNシード文字ブロックが出現する場合、前記第一CNNシード文字ブロックを前記シード文字ブロックとして選択し、前記第一CNNシード文字ブロックは、該第一CNNシード文字ブロックの、第一文字サブ集合に関してのCNN分類の最大CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNNシード文字ブロックが該第一CNNシード文字ブロックに直接隣接する数字ブロックを有するという条件を満足し、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第一CNNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第一FCNシード文字ブロックが出現する場合、前記第一FCNシード文字ブロックを前記シード文字ブロックとして選択するステップを行い、前記第一FCNシード文字ブロックは、該第一FCNシード文字ブロックの、前記第一文字サブ集合に関してのFCN分類の最大FCN分類信頼度が第一FCN閾値よりも大きく、且つ該第一FCNシード文字ブロックが該第一FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件を満足するものである、装置。
付記4に記載の装置であって、
前記選択ユニットは、
前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第一FCNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第二FCNシード文字ブロックが出現する場合、前記第二FCNシード文字ブロックを前記シード文字ブロックとして選択するステップを行い、前記第二FCNシード文字ブロックは、該第二FCNシード文字ブロックの、文字“-”に関するFCN分類のFCN分類信頼度が第二FCN閾値よりも大きく、且つ該第二FCNシード文字ブロックが該第二FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足する、装置。
付記5に記載の装置であって、
前記選択ユニットは、
前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第二FCNシード文字ブロックが出現しない場合、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第二CNNシード文字ブロックが出現する場合、前記第二CNNシード文字ブロックを前記シード文字ブロックとして選択し、前記第二CNNシード文字ブロックは、該第二CNNシード文字ブロックの、数字集合に関してのCNN分類の最大CNN分類信頼度が第二CNN閾値よりも大きく、且つ該第二CNNシード文字ブロックが該第二CNNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第二CNNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第三FCNシード文字ブロックが出現する場合、前記第三FCNシード文字ブロックを前記シード文字ブロックとして選択し、前記第三FCNシード文字ブロックは、該第三FCNシード文字ブロックの、前記数字集合に関してのFCN分類の最大FCN分類信頼度が第三FCN閾値よりも大きく、且つ該第三FCNシード文字ブロックが該第三FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる、装置。
付記1に記載の装置であって、
前記選択ユニットは、
前記畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのCNN分類及びCNN分類信頼度を確定し、
前記全層畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのFCN分類及びFCN分類信頼度を確定する、装置。
付記7に記載の装置であって、
前記選択ユニットは、
各CNN分類からなるCNN分類集合に、次の条件を満たす第一CNN分類が含まれる場合、前記第一CNN分類に対応する文字ブロックをシード文字ブロックとして選択し、即ち、該第一CNN分類が第一文字サブ集合に属し、該第一CNN分類に対応する第一CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNN分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件であり、
前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。
付記8に記載の方法であって、
前記選択ユニットは、
前記CNN分類集合に前記第一CNN分類が含まれない場合、
各FCN分類からなるFCN分類集合に、次の条件を満たす第一FCN分類が含まれる場合、前記第一FCN分類に対応する文字ブロックをシード文字ブロックとして確定し、即ち、該第一FCN分類が前記第一文字サブ集合に属し、該第一FCN分類に対応する第一FCN分類信頼度が第一FCN閾値よりも大きく、且つ該第一FCN分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件である、装置。
付記9に記載の装置であって、
前記選択ユニットは、
前記FCN分類集合に前記第一FCN分類が含まれない場合、
前記FCN分類集合に次の条件を満たす第二FCN分類が含まれる場合、前記第二FCN分類に対応する文字ブロックをシード文字ブロックとして選択し、即ち、該第二FCN分類が文字“-”であり、該第二FCN分類に対応する第二FCN分類信頼度が第二FCN閾値よりも大きく、且つ該第二FCN分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件である、装置。
付記10に記載の装置であって、
前記選択ユニットは、
前記FCN分類集合に前記第二FCN分類が含まれない場合、
前記CNN分類集合に次の条件を含む第二CNN分類が含まれる場合、前記第二CNN分類に対応する文字ブロックをシード文字ブロックとして選択し、即ち、該第二CNN分類が数字集合に属し、該第二CNN分類に対応する第二CNN分類信頼度が第二CNN閾値よりも大きく、且つ該第二CNN分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件であり、
前記数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる、装置。
付記11に記載の装置であって、
前記選択ユニットは、
前記CNN分類集合に前記第二CNN分類が含まれない場合、
前記FCN分類集合に次の条件を満たす第三FCN分類が含まれる場合、前記第三FCN分類に対応する文字ブロックを前記シード文字ブロックとして選択し、即ち、該第三FCN分類が前記数字集合に属し、該第三FCN分類に対応する第三FCN分類信頼度が第三FCN閾値よりも大きく、且つ該第三FCN分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件である、装置。
付記7に記載の装置であって、
前記選択ユニットは、
第一CNN分類集合中で最大信頼度を有する第一最信頼CNN分類の信頼度が第一CNN閾値よりも大きい場合、前記第一最信頼CNN分類に対応する文字ブロックを前記シード文字ブロックとして選択し、
前記第一CNN分類集合は、各CNN分類のうち、次の条件を満たす分類からなり、即ち、該分類が第一文字サブ集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件であり、
前記第一文字サブ集合は、“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。
付記13に記載の装置であって、
前記選択ユニットは、
前記第一CNN分類集合中で最大信頼度を有する前記第一最信頼CNN分類の信頼度が前記第一CNN閾値以下の場合、
第一FCN分類集合中で最大信頼度を有する第一最信頼FCN分類の信頼度が第一FCN閾値よりも大きい場合、前記第一最信頼FCN分類に対応する文字ブロックを前記シード文字ブロックとして確定し、前記第一FCN分類集合は、各FCN分類のうち、次の条件を満たす分類からなり、即ち、該分類が前記第一文字サブ集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件である、装置。
付記14に記載の装置であって、
前記選択ユニットは、
前記第一FCN分類集合中で最大信頼度を有する前記第一最信頼FCN分類の信頼度が前記第一FCN閾値以下である場合、
第二FCN分類集合中で最大信頼度を有する第二最信頼FCN分類の信頼度が第二FCN閾値よりも大きい場合、前記第二最信頼FCN分類に対応する文字ブロックを前記シード文字ブロックとして選択し;
前記第二FCN分類集合は、各FCN分類のうち、次の条件を満たす分類からなり、即ち、該分類が文字“-”であり、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件である、装置。
付記15に記載の装置であって、
前記選択ユニットは、
第二CNN分類集合中で最大信頼度を有する第二最信頼CNN分類の信頼度が第二CNN閾値よりも大きい場合、前記第二最信頼CNN分類に対応する文字ブロックを前記シード文字ブロックとして選択し;
前記第二CNN分類集合は、各CNN分類のうち、次の条件を満たす分類からなり、即ち、該分類が数字集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件であり、
前記数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる、装置。
付記16に記載の装置であって、
前記選択ユニットは、
前記第二最信頼CNN分類の信頼度が前記第二CNN閾値以下である場合、
第三FCN分類集合中で最大信頼度を有する第三最信頼FCN分類の信頼度が第三FCN閾値よりも大きい場合、前記第三最信頼FCN分類に対応する文字ブロックを前記シード文字ブロックとして選択し、
前記第三FCN分類集合は、各FCN分類のうち、次の条件を満たす分類からなり、即ち、該分類が前記数字集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する前記数字ブロックを有するという条件である、装置。
付記1に記載の装置であって、
前記確定ユニットは、
前記シード文字ブロックと前記シード文字ブロックの左側の左候補シード文字ブロックとの間の間隙を検出し、
前記間隙が間隙閾値よりも大きい場合、前記シード文字ブロックの位置に基づいて、前記ミドルアドレスの左境界を設定し、そうでない場合、
前記畳み込みネットワーク分類器により、前記左候補シード文字ブロックに対応する文字が前記文字集合に属すると確定される場合、前記左候補シード文字ブロックを次の1つのシード文字ブロックとして設定し、そうでない場合、以下のステップ、即ち、
前記全層畳み込みネットワーク分類器により、前記左候補シード文字ブロックに対応する文字が前記文字集合に属すると確定される場合、前記左候補シード文字ブロックを次の1つのシード文字ブロックとして設定し、それでない場合、前記シード文字ブロックに基づいて前記ミドルアドレスの左境界を設定するステップを行う、装置。
付記1に記載の装置であって、
前記確定ユニットは、
前記シード文字ブロックと、前記シード文字ブロックの右側の右候補シード文字ブロックとの間の間隙を検出し、
前記間隙が間隙閾値よりも大きい場合、前記シード文字ブロックに基づいて前記ミドルアドレスの右境界を設定し、そうでない場合、
前記畳み込みネットワーク分類器により、前記右候補シード文字ブロックに対応する文字が前記文字集合に属すると確定される場合、前記右候補シード文字ブロックを次の1つのブロックとして設定し、そうでない場合、以下のステップ、即ち、
前記全層畳み込みネットワーク分類器により、前記右候補シード文字ブロックに対応する文字が前記文字集合に属すると確定される場合、前記右候補シード文字ブロックを次の1つのシード文字ブロックとして設定し、そうでない場合、前記シード文字ブロックに基いいて前記ミドルアドレスの右境界を設定するステップを行う、装置。
画像を処理する方法であって、
畳み込みネットワーク分類器又は全層畳み込みネットワーク分類器を用いて画像中の文字ブロックを認識することで、画像中から条件を満足するシード文字ブロックを選択し、前記条件は、該シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合Sの要素のうちの1つであるという条件であり;及び
前記シード文字ブロックを開始ブロックとして、前記画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定することを含む、方法。
Claims (9)
- 画像を処理する装置であって、
畳み込みネットワーク分類器又は全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックを認識することで、前記画像中から所定の条件を満足するシード文字ブロックを選択するための選択ユニットであって、前記所定の条件は、前記シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合の要素のうちの1つであるという条件であり;及び
前記シード文字ブロックを開始ブロックとして、前記画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定するための確定ユニットを含み、
前記選択ユニットは、
前記畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのCNN分類及びCNN分類信頼度を確定し、
前記全層畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのFCN分類及びFCN分類信頼度を確定する、装置。 - 請求項1に記載の装置であって、
前記全層畳み込みネットワーク分類器は、前記画像中の分類待ち文字ブロックが、前記文字集合中の文字以外の文字であるかどうかにかかわらず、前記文字集合中の文字である信頼度を確定する、装置。 - 請求項1に記載の装置であって、
畳み込みネットワーク分類器を用いて前記画像中の文字ブロックを認識することは、前記画像中の文字の所在領域を細分割することを含む、装置。 - 請求項3に記載の装置であって、
前記選択ユニットは、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第一CNNシード文字ブロックが出現する場合、前記第一CNNシード文字ブロックを前記シード文字ブロックとして選択し、前記第一CNNシード文字ブロックは、次の条件、即ち、該第一CNNシード文字ブロックの、第一文字サブ集合に関してのCNN分類の最大CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNNシード文字ブロックが該第一CNNシード文字ブロックに直接隣接する数字ブロックを有するという条件を満たし、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第一CNNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第一FCNシード文字ブロックが出現する場合、前記第一FCNシード文字ブロックを前記シード文字ブロックとして選択するステップを行い、前記第一FCNシード文字ブロックは、次の条件、即ち、該第一FCNシード文字ブロックの、前記第一文字サブ集合に関してのFCN分類の最大FCN分類信頼度が第一FCN閾値よりも大きく、且つ該第一FCNシード文字ブロックが該第一FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。 - 請求項4に記載の装置であって、
前記選択ユニットは、
前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第一FCNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第二FCNシード文字ブロックが出現する場合、前記第二FCNシード文字ブロックを前記シード文字ブロックとして選択するステップを行い、前記第二FCNシード文字ブロックは、次の条件、即ち、該第二FCNシード文字ブロックの、文字“-”に関するFCN分類のFCN分類信頼度が第二FCN閾値よりも大きく、且つ該第二FCNシード文字ブロックが該第二FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満たす、装置。 - 請求項5に記載の装置であって、
前記選択ユニットは、
前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第二FCNシード文字ブロックが出現しない場合、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第二CNNシード文字ブロックが出現する場合、前記第二CNNシード文字ブロックを前記シード文字ブロックとして選択し、前記第二CNNシード文字ブロックは、次の条件、即ち、該第二CNNシード文字ブロックの、数字集合に関してのCNN分類の最大CNN分類信頼度が第二CNN閾値よりも大きく、且つ該第二CNNシード文字ブロックが該第二CNNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに最後まで前記第二CNNシード文字ブロックが出現しない場合、次のステップ、即ち、前記全層畳み込みネットワーク分類器を用いて前記画像中の文字ブロックに対して分類を行うときに第三FCNシード文字ブロックが出現する場合、前記第三FCNシード文字ブロックを前記シード文字ブロックとして選択し、前記第三FCNシード文字ブロックは、次の条件、即ち、該第三FCNシード文字ブロックの、前記数字集合に関してのFCN分類の最大FCN分類信頼度が第三FCN閾値よりも大きく、且つ該第三FCNシード文字ブロックが該第三FCNシード文字ブロックに直接隣接する前記数字ブロックを有するという条件を満足し、
前記数字集合は、文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる、装置。 - 請求項1に記載の装置であって、
前記選択ユニットは、
各CNN分類からなるCNN分類集合に、次の条件を満たす第一CNN分類が含まれる場合、前記第一CNN分類に対応する文字ブロックをシード文字ブロックとして選択し、即ち、該第一CNN分類が第一文字サブ集合に属し、該第一CNN分類に対応する第一CNN分類信頼度が第一CNN閾値よりも大きく、且つ該第一CNN分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件であり、
前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。 - 請求項1に記載の装置であって、
前記選択ユニットは、
第一CNN分類集合中で最大信頼度を有する第一最信頼CNN分類の信頼度が第一CNN閾値よりも大きい場合、前記第一最信頼CNN分類に対応する文字ブロックを前記シード文字ブロックとして選択し、
前記第一CNN分類集合は、各CNN分類のうち、次の条件を満たす分類からなり、即ち、該分類が第一文字サブ集合に属し、且つ該分類に対応する文字ブロックが該文字ブロックに直接隣接する数字ブロックを有するという条件であり、
前記第一文字サブ集合は、文字“番”、“地”、“丁”、“目”及び“号”からなり、
前記数字ブロックは、次の条件を満たす文字ブロックであり、即ち、該文字ブロックが文字“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”のうちの1つと認識される信頼度が所定閾値よりも大きいという条件である、装置。 - 画像を処理する方法であって、
畳み込みネットワーク(CNN)分類器又は全層畳み込みネットワーク(FCN)分類器を用いて前記画像中の文字ブロックを認識することで前記画像中から所定の条件を満足するシード文字ブロックを選択し、前記所定の条件は、前記シード文字ブロックに対しての認識結果が文字“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”及び“9”からなる文字集合の要素のうちの1つであるという条件であり;及び
前記シード文字ブロックを開始ブロックとして、前記画像中で日本語受取人アドレスにおけるミドルアドレスの領域を確定することを含み、
前記畳み込みネットワーク(CNN)分類器又は全層畳み込みネットワーク(FCN)分類器を用いて前記画像中の文字ブロックを認識することで前記画像中から所定の条件を満足するシード文字ブロックを選択することは、
前記畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのCNN分類及びCNN分類信頼度を確定し、
前記全層畳み込みネットワーク分類器を用いて、各文字ブロックに対して、前記文字集合に関しての分類を行うことで、各文字ブロックのFCN分類及びFCN分類信頼度を確定する、方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312165.7A CN111144399B (zh) | 2018-11-06 | 2018-11-06 | 处理图像的装置和方法 |
CN201811312165.7 | 2018-11-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020077413A JP2020077413A (ja) | 2020-05-21 |
JP7351178B2 true JP7351178B2 (ja) | 2023-09-27 |
Family
ID=70459968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019196307A Active JP7351178B2 (ja) | 2018-11-06 | 2019-10-29 | 画像を処理する装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200143160A1 (ja) |
JP (1) | JP7351178B2 (ja) |
CN (1) | CN111144399B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963757B2 (en) * | 2018-12-14 | 2021-03-30 | Industrial Technology Research Institute | Neural network model fusion method and electronic device using the same |
CN110197179B (zh) * | 2019-03-14 | 2020-11-10 | 北京三快在线科技有限公司 | 识别卡号的方法和装置、存储介质及电子设备 |
US11275934B2 (en) * | 2019-11-20 | 2022-03-15 | Sap Se | Positional embeddings for document processing |
DE102019218947A1 (de) * | 2019-12-05 | 2021-06-10 | Robert Bosch Gmbh | Hardwarebeschleunigter Betrieb künstlicher neuronaler Netzwerke |
CN112733858B (zh) * | 2021-01-08 | 2021-10-26 | 北京匠数科技有限公司 | 基于字符区域检测的图像文字快速识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5169033B2 (ja) | 2007-06-12 | 2013-03-27 | 日本電産株式会社 | 軸流ファン |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088038B2 (ja) * | 1991-12-26 | 2000-09-18 | 株式会社東芝 | 郵便物区分装置と郵便物区分方法 |
JPH07256214A (ja) * | 1994-03-22 | 1995-10-09 | Toshiba Corp | 郵便物の宛名読取装置および郵便物の宛名領域判別装置および郵便物の宛名印刷装置 |
JP2006031099A (ja) * | 2004-07-12 | 2006-02-02 | Fujitsu Ltd | 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム |
US20150347860A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Systems And Methods For Character Sequence Recognition With No Explicit Segmentation |
CN107025452A (zh) * | 2016-01-29 | 2017-08-08 | 富士通株式会社 | 图像识别方法和图像识别设备 |
CN108734184B (zh) * | 2017-04-17 | 2022-06-07 | 苏宁易购集团股份有限公司 | 一种对敏感图像进行分析的方法及装置 |
CN108460772B (zh) * | 2018-02-13 | 2022-05-17 | 国家计算机网络与信息安全管理中心 | 基于卷积神经网络的广告骚扰传真图像检测系统及方法 |
-
2018
- 2018-11-06 CN CN201811312165.7A patent/CN111144399B/zh active Active
-
2019
- 2019-10-29 JP JP2019196307A patent/JP7351178B2/ja active Active
- 2019-10-31 US US16/669,543 patent/US20200143160A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5169033B2 (ja) | 2007-06-12 | 2013-03-27 | 日本電産株式会社 | 軸流ファン |
Non-Patent Citations (2)
Title |
---|
Yi-Chao Wu, 外2名,"Evaluation of neural network language models in handwritten Chinese text recognition",2015 13th International Conference on Document Analysis and Recognition (ICDAR),2015年08月26日,p.166-170 |
緒方日佐男, 外2名,"住所表示番号と棟・部屋番号の連続表記に対する照合方式",電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2000年02月21日,第99巻, 第648号,p.1-8 |
Also Published As
Publication number | Publication date |
---|---|
JP2020077413A (ja) | 2020-05-21 |
US20200143160A1 (en) | 2020-05-07 |
CN111144399A (zh) | 2020-05-12 |
CN111144399B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7351178B2 (ja) | 画像を処理する装置及び方法 | |
US8606010B2 (en) | Identifying text pixels in scanned images | |
JP6151763B2 (ja) | 再帰的な区分化を用いた文書画像についての単語区分化 | |
US7466861B2 (en) | Method for outputting character recognition results | |
US20070065003A1 (en) | Real-time recognition of mixed source text | |
US20050286772A1 (en) | Multiple classifier system with voting arbitration | |
US20110295778A1 (en) | Information processing apparatus, information processing method, and program | |
JP2020053073A (ja) | 学習方法、学習システム、および学習プログラム | |
RU2652461C1 (ru) | Дифференциальная классификация с использованием нескольких нейронных сетей | |
US11270143B2 (en) | Computer implemented method and system for optical character recognition | |
WO2002019248A9 (en) | Character recognition system | |
US20140241618A1 (en) | Combining Region Based Image Classifiers | |
CN115171125A (zh) | 数据异常的检测方法 | |
US9811726B2 (en) | Chinese, Japanese, or Korean language detection | |
JP2009093305A (ja) | 帳票認識装置 | |
Nguyen et al. | A segmentation method of single-and multiple-touching characters in offline handwritten japanese text recognition | |
JP2020102207A (ja) | 受取人アドレスを認識する装置及び方法 | |
Rahul et al. | Multilingual text detection and identification from Indian signage boards | |
US11113569B2 (en) | Information processing device, information processing method, and computer program product | |
CN112132150A (zh) | 文本串识别方法、装置及电子设备 | |
Andersen et al. | Features for neural net based region identification of newspaper documents | |
KR102064974B1 (ko) | 블럽 기반의 문자 인식 방법 및 이를 위한 장치 | |
CN112132147B (zh) | 一种基于质量节点模型的学习方法 | |
JP4328511B2 (ja) | パターン認識装置、パターン認識方法、プログラムおよび記憶媒体 | |
Jastrzebska et al. | Pattern Classification with Rejection Using Cellular Automata-Based Filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230828 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7351178 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |