JP2018120591A - 文書の向きの認識方法、認識装置及びニューラルネットワーク - Google Patents

文書の向きの認識方法、認識装置及びニューラルネットワーク Download PDF

Info

Publication number
JP2018120591A
JP2018120591A JP2018007337A JP2018007337A JP2018120591A JP 2018120591 A JP2018120591 A JP 2018120591A JP 2018007337 A JP2018007337 A JP 2018007337A JP 2018007337 A JP2018007337 A JP 2018007337A JP 2018120591 A JP2018120591 A JP 2018120591A
Authority
JP
Japan
Prior art keywords
result
reverse
text line
neural network
indicating whether
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018007337A
Other languages
English (en)
Other versions
JP7020134B2 (ja
Inventor
若辰 王
Ruochen Wang
若辰 王
ファヌ・ウエイ
Wei Fan
俊 孫
Shun Son
俊 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018120591A publication Critical patent/JP2018120591A/ja
Application granted granted Critical
Publication of JP7020134B2 publication Critical patent/JP7020134B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】本発明は文書の向きの認識方法、認識装置及びニューラルネットワークを提供する。【解決手段】該方法は、文書におけるテキスト行を抽出するステップと、テキスト行が正向きであるかを示す第1正向き結果、及びテキスト行が逆向きであるかを示す第1逆向き結果を算出するステップと、180度回転されたテキスト行が正向きであるかを示す第2正向き結果、及び180度回転されたテキスト行が逆向きであるかを示す第2逆向き結果を算出するステップと、第1正向き結果及び第1逆向き結果、並びに第2正向き結果及び第2逆向き結果に基づいて、文書の向きを決定するステップと、を含む。【選択図】図2

Description

本発明は、文書の向きの認識方法、認識装置及びニューラルネットワークに関する。
深層学習(deep learning)技術の普及に伴い、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)は、画像の向きの判別を含む画像の検出、分類などのタスクにますます応用されている。畳み込みニューラルネットワークは多層のニューラルネットワークであり、各層は複数の二次元平面により構成され、各平面は複数の独立したニューロンにより構成されている。現在は、畳み込みニューラルネットワークの構造の変形体が多くあるが、これらの変形体の基本的な構造は非常に類似する。畳み込みニューラルネットワークの基本的な構造は、3つの層、即ち畳み込み層、プーリング層(ダウンサンプリング層とも称される)及び全結合層を含む。パターン分類のための畳み込みニューラルネットワークは、通常、最後の層でsoftmax等の分類器を用いる。図1は従来技術における典型的な畳み込みニューラルネットワークの構成を示す図である。図1に示すように、該典型的な畳み込みニューラルネットワークは、入力層、畳み込み層、プーリング層、全結合層及び分類器を含む。
入力層は、処理すべき対象である。
畳み込み層は、学習入力の特徴の表示のためのものである。図1に示すように、畳み込み層は、幾つかの特徴マップ(feature maps)により構成されている。特徴マップの各ニューロンは前の層の隣接するニューロンに接続され、このような隣接領域は該ニューロンの前の層における局所感知フィールドと称される。新たな特徴マップを算出するために、まず、入力された特徴マップと学習済みの畳み込みカーネル(フィルタ、特徴検出器とも称される)との畳み込みを行い、そして、結果を非線形活性化関数に渡す。異なる畳み込みカーネルを用いることで新たな特徴マップを取得する。なお、1つの特徴マップを生成するためのカーネルは同一である(即ち重みが共有されている)。このような重み共有モードの利点として、モードの複雑さを低減でき、ネットワークを訓練しやすくなる。活性化関数は、畳み込みニューラルネットワークの非線形度を示しており、多層ネットワークにより非線形特徴を検出するのに非常に理想的である。典型的な活性化関数は、sigmoid、tanh及びReLUである。
プーリング層(ダウンサンプリング層とも称される)は、特徴マップの解像度を低下させることで空間的不変性を達成するためのものである。プーリング層は、通常、2つの畳み込み層の間に位置する。各プーリング層の特徴マップは、対応する前の畳み込み層の特徴マップに接続されているため、両者の特徴マップの数は同じである。典型的なプーリング処理は、平均プーリング及び最大化プーリングである。幾つかの畳み込み層とプーリング層を重ね合わせることで、より抽象的な特徴マップの表現を抽出できる。
幾つかの畳み込み層及びプーリング層の後に、通常、1つ又は複数の全結合層が存在する。全結合層の各ニューロンは前の層の全てのニューロンにそれぞれ接続され、全結合層では空間的情報が保存されていない。
全結合層の後に分類器が接続され、分類器は、通常1つの多層感知機構により構成されている。
上述した典型的な畳み込みニューラルネットワークは、画像に対する複雑な前処理を回避し、元の画像を直接入力できるため、広く用いられている。しかし、画像の向きを判別する場合は、通常の畳み込みニューラルネットワークを直接用いると、良好な認識効果を得ることができない。重要な理由の1つは、認識すべきサンプルに自己対称な部分が大量含まれているため、画像の向きを認識できなくなる。
以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
本発明は、上記の問題点を鑑み、向き判別のタスクにおける自己対称なサンプルによる干渉を効果的に除去でき、モデルの全体的な精度を向上できる文書の向きの認識方法、認識装置及びニューラルネットワークを提供することを目的とする。
本発明の1つの態様では、文書の向きの認識方法であって、文書におけるテキスト行を抽出するステップと、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップと、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出するステップと、前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップと、を含む、方法を提供する。
本発明のもう1つの態様では、文書の向きの認識装置であって、文書におけるテキスト行を抽出する抽出手段と、前記抽出手段に接続され、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する第1算出手段と、前記抽出手段に接続され、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する第2算出手段と、前記第1算出手段及び前記第2算出手段に接続され、前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定する決定手段と、を含む、装置を提供する。
本発明のもう1つの態様では、文書の向きを認識するニューラルネットワークであって、文書からテキスト行を抽出して、畳み込みニューラルネットワーク及び拡張畳み込みニューラルネットワークに入力する入力手段と、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する畳み込みニューラルネットワークと、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する拡張畳み込みニューラルネットワークと、前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定し、決定された結果を出力する出力手段と、を含む、ニューラルネットワークを提供する。
本発明のもう1つの態様では、機器が読み取り可能なプログラムコードを含む記憶媒体であって、情報処理装置において該プログラムコードを実行する際に、該プログラムコードを介して該情報処理装置に本発明の上記の方法を実行させる、記憶媒体をさらに提供する。
本発明のもう1つの態様では、機器が実行可能な命令を含むプログラムであって、情報処理装置において該命令を実行する際に、該命令を介して該情報処理装置に本発明の上記の方法を実行させる、プログラムをさらに提供する。
以下は、本発明の利点がより明確になるように、図面を参照しながら本発明の好適な実施例を詳細に説明する。
本発明の他の特徴及び利点を理解させるために、図面を参照しながら本発明の各実施例を説明する。ここで説明される図面は、好ましい実施例を例示するためのものであり、全ての可能な実施例ではなく、本発明の範囲を限定するものではない。
従来技術における典型的な畳み込みニューラルネットワークの構成を示す図である。 本発明の実施例に係る文書の向きを認識するニューラルネットワークを示す図である。 本発明の実施例に係るニューラルネットワークを用いる文書の向きの認識方法の例を示す図である。 本発明の実施例に係る文書の向きの認識方法を示すフローチャートである。 本発明の実施例に係る文書の向きの認識方法における第2算出ステップを示すフローチャートである。 本発明の実施例に係る文書の向きの認識装置の構成を示す図である。 本発明の実施例に係る文書の向きの認識装置における決定部の構成を示す図である。 本発明に係る方法及び装置を実施するためのコンピュータの例示的な構成を示すブロック図である。
以下は本発明の実施形態を詳細に説明する。なお、以下の説明は単なる例示的なものであり、本発明を限定するものではない。また、以下の説明では、同一の符号を用いて異なる図面における同一又は類似の構成部を示している。本発明の範囲内の他の実施形態を形成するように、以下で説明する異なる実施形態における異なる特徴を組み合わせてもよい。
図2は本発明の実施例に係る文書の向きを認識するニューラルネットワーク200を示す図である。図2に示すように、ニューラルネットワーク200は、入力部210、畳み込みニューラルネットワーク220、拡張畳み込みニューラルネットワーク230及び出力部240を含む。
入力部210は、入力された文書画像からテキスト行の画像ブロックを抽出して、畳み込みニューラルネットワーク220及び拡張畳み込みニューラルネットワーク230にそれぞれ入力する。
畳み込みニューラルネットワーク220は、テキスト行が正向きであるかを示す第1正向き結果、及びテキスト行が逆向きであるかを示す第1逆向き結果を算出する。畳み込みニューラルネットワーク220の構成は公知のものであり、畳み込みプーリング部221及び分類部222を含む。
具体的には、畳み込みプーリング部221は、テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する。畳み込みプーリング部221は、通常、複数の畳み込み層とプーリング層の重ね合わせ構造を用いるものであり、プーリング層は2つの畳み込み層の間に位置し、畳み込み層及びプーリング層の数は実際の状況に応じて決定される。畳み込み層はテキスト行の特徴の表現を抽出するためのものであり、幾つかの特徴マップを含む。プーリング層は、特徴マップの解像度を低減するためのものである。
分類部222は、畳み込みプーリング部221の後に位置し、畳み込みプーリング部221の一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する。分類部222は分類器を含み、該分類器は通常1つの多層感知機構により構成され、一般的な分類器は例えばsoftmax分類器である。
好ましくは、分類部222は全結合層をさらに含み、該全結合層は、畳み込みプーリング層221の最後の層の全てのニューロンと自分の各ニューロンとを接続することで特徴を抽出し、取得された特徴の配列を分類器に出力する。
図2に示すように、拡張ニューラルネットワーク230は、回転層231、畳み込みプーリング部232、順序反転部233及び分類部234を含む。拡張ニューラルネットワーク230は、180度回転されたテキスト行が正向きであるかを示す第2正向き結果、及び180度回転されたテキスト行が逆向きであるかを示す第2逆向き結果を算出する。
本発明の実施例に係る拡張畳み込みニューラルネットワーク230は、上述した畳み込みニューラルネットワーク220に回転層231及び順序反転層233を挿入することによって得られるため、拡張畳み込みニューラルネットワーク230における畳み込みプーリング部232及び分類部234と畳み込みニューラルネットワーク220における畳み込みプーリング部221及び分類部222とは構成及びパラメータが同一である。また、本発明の実施例に係るニューラルネットワーク200を訓練する際に、畳み込みニューラルネットワーク220のみを訓練してもよい。
具体的には、回転層231は、入力部からテキスト行を受信し、該テキスト行を180度回転した後に、畳み込みプーリング部232に出力する。
畳み込みプーリング部232は、回転後のテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する。畳み込みプーリング部232は、通常、複数の畳み込み層とプーリング層の重ね合わせ構造を用いるものであり、プーリング層は2つの畳み込み層の間に位置し、畳み込み層及びプーリング層の数は実際の状況に応じて決定される。畳み込み層はテキスト行の特徴の表現を抽出するためのものであり、幾つかの特徴マップを含む。プーリング層は、特徴マップの解像度を低減するためのものである。
順序反転層233は、畳み込みプーリング部232からの一次元配列における各要素の順序を反転する。
分類部234は、順序反転層233の後に位置し、順序反転層233から出力された配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する。分類部234は分類器を含み、該分類器は通常1つの多層感知機構により構成され、一般的な分類器は例えばsoftmax分類器である。
好ましくは、分類部234は全結合層をさらに含み、該全結合層は、順序反転層233の全ての出力と自分の各ニューロンとを接続することで特徴を抽出し、取得された特徴の配列を分類器に出力する。
出力部240は、畳み込みニューラルネットワーク220及び拡張畳み込みニューラルネットワーク230に接続されている。出力部240は、畳み込みニューラルネットワークからの第1正向き結果及び第1逆向き結果、並びに拡張畳み込みニューラルネットワークからの第2正向き結果及び第2逆向き結果に基づいて、文書の向きを決定する。
具体的には、本発明の実施例では、出力部240は、第1正向き結果と第2逆向き結果との和を正向き信頼度とし、第1逆向き結果と第2正向き結果との和を逆向き信頼度とし、該正向き信頼度及び逆向き信頼度に基づいて文書の向きを決定する。例えば、正向き信頼度が逆向き信頼度よりも大きい場合は、出力部240は、文書の向きが正向きであると決定する。一方、正向き信頼度が逆向き信頼度よりも小さい場合は、出力部240は文書の向きが逆向きであると決定する。正向き信頼度が逆向き信頼度に等しい場合は、入力部210に文書の他の部分のテキスト行の画像ブロックを抽出させて文書の向きを識別する。
図3は本発明の実施例に係るニューラルネットワークを用いる文書の向きの認識方法の例を示す図である。
図3に示すように、畳み込みニューラルネットワーク及び拡張畳み込みニューラルネットワークにテキスト行「HIOXBL」をそれぞれ入力する。畳み込みニューラルネットワークにおける畳み込みプーリング部は、該テキスト行に対して処理を行い、一次元配列「(7,2,5,6,3,1)」を取得する。該一次元配列を畳み込みニューラルネットワークの分類部に入力して分類処理を行い、テキスト行が正向きであるかを示す第1正向き結果及びテキスト行が逆向きであるかを示す第1逆向き結果を出力する。
拡張畳み込みニューラルネットワークでは、回転層は入力されたテキスト行「HIOXBL」を180度回転し、逆向きのテキスト行「
(外1)
」を取得する。そして、畳み込みプーリング部は、該逆向きのテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列「(9,8,6,5,2,7)」を出力する。そして、順序反転層は、畳み込みプーリング部から出力された一次元配列の順序を反転し、一次元配列「(7,2,5,6,8,9)」を取得する。最後に、分類部は、順序が反転された一次元配列を処理し、テキスト行が正向きであるかを示す第2正向き結果及びテキスト行が逆向きであるかを示す第2逆向き結果を出力する。
図3の例から分かるように、回転層により回転されたテキスト行「
(外2)
」は、元のテキスト行「HIOXBL」に比べて、各文字の向き及び位置が共に変化している。このため、拡張畳み込みニューラルネットワーク230の畳み込みプーリング部232により出力された一次元配列(9,8,6,5,2,7)は、向き及び位置が共に変化しているテキスト行「
(外3)
」の特徴を表示している。順序反転層では、一次元配列(9,8,6,5,2,7)における各要素の順序を反転し、一次元配列「(7,2,5,6,8,9)」を取得する。順序反転された配列は、テキスト行「
(外4)
」の特徴を表示している。回転前のテキスト行「HIOXBL」に比べて、テキスト行「
(外5)
」における各要素は、向きのみが変化し、位置が変化していない。従って、拡張畳み込みニューラルネットワーク230から出力された分類結果は、各要素を180度回転し、且つ各要素間の位置が変化していないテキスト行の分類結果である。よって、出力部240では、畳み込みニューラルネットワークから出力された回転していないテキスト行の向きを示す第1正向き結果及び第1逆向き結果と、拡張畳み込みニューラルネットワークから出力された各要素がそれぞれ180度回転され、且つ各要素間の位置が変化していないテキスト行の向きを示す第2逆向き結果及び第2正向き結果とを加算してもよい。これによって、自己対称な要素のテキスト行の向きの判別への影響を除去でき、文書の向きをより正確に決定できる。
また、本発明の実施例では、テキスト行から各要素を抽出して各要素を180度回転して畳み込みニューラルネットワークに入力して文書の向きを決定することではなく、畳み込みニューラルネットワークに回転層及び順序反転層を挿入する。これによって、ニューラルネットワーク200の複雑さを大幅に低減でき、文書の向きの認識の効率を向上できる。
図4は本発明の実施例に係る文書の向きの認識方法を示すフローチャートである。
本発明の実施例に係る文書の向きの認識方法は、以下のステップを含む。抽出ステップS410において、入力された文書画像からテキスト行の画像ブロックを抽出する。第1算出ステップS420において、テキスト行が正向きであるかを示す第1正向き結果、及びテキスト行が逆向きであるかを示す第1逆向き結果を算出する。第2算出ステップS430において、180度回転されたテキスト行が正向きであるかを示す第2正向き結果、及び180度回転されたテキスト行が逆向きであるかを示す第2逆向き結果を算出する。決定ステップS440において、第1正向き結果及び第1逆向き結果、並びに第2正向き結果及び第2逆向き結果に基づいて、文書の向きを決定する。ここで、第1算出ステップS420及び第2算出ステップS430の実行順序について特に制限がない。例えば、第1算出ステップS420及び第2算出ステップS430を並行して実行してもよいし、第1算出ステップS420を実行した後に第2算出ステップS430を実行してもよいし、第2算出ステップS430を実行した後に第1算出ステップS420を実行してもよい。
第1算出ステップS420において、畳み込みニューラルネットワークを用いて、テキスト行が正向きであるかを示す第1正向き結果、及びテキスト行が逆向きであるかを示す第1逆向き結果を算出する。畳み込みニューラルネットワークは、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、及び分類部を含む。第1算出ステップS420は、畳み込みニューラルネットワークの畳み込みプーリング部によりテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、畳み込みニューラルネットワークの分類部により該一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力するステップと、を含む。
第2算出ステップS430において、回転層、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、順序反転層及び分類部を含む拡張畳み込みニューラルネットワークを用いて、180度回転されたテキスト行が正向きであるかを示す第2正向き結果、及び180度回転されたテキスト行が逆向きであるかを示す第2逆向き結果を算出する。図5は該第2算出ステップを示すフローチャートである。図5に示すように、ステップS431において、回転層によりテキスト行を180度回転し、ステップS432において、拡張畳み込みニューラルネットワークの畳み込みプーリング部により回転後のテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得し、ステップS433において、順序反転層により該一次元配列における各要素の順序を反転し、ステップS434において、拡張畳み込みニューラルネットワークの分類部により順序反転後の一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する。
図6は本発明の実施例に係る文書の向きの認識装置600の構成を示す図である。
図6に示すように、文書の向きの認識装置600は、抽出部610、第1算出部620、第2算出部630及び決定部640を含む。
抽出部610は、第1算出部620及び第2算出部630に接続され、入力された文書画像からテキスト行の画像ブロックを抽出し、第1算出部620及び第2算出部630に出力する。
第1算出部620は、畳み込みニューラルネットワークを用いて、テキスト行が正向きであるかを示す第1正向き結果、及びテキスト行が逆向きであるかを示す第1逆向き結果を算出する。
第2算出部630は、上述した拡張畳み込みニューラルネットワークを用いて、180度回転されたテキスト行が正向きであるかを示す第2正向き結果、及び180度回転されたテキスト行が逆向きであるかを示す第2逆向き結果を算出する。上述したように、拡張畳み込みニューラルネットワークは、畳み込みニューラルネットワークに回転層及び順序反転層を挿入することによって得られ、回転層231、畳み込みプーリング部232、順序反転層233及び分類部234を含む。
決定部640は、第1算出部620及び第2算出部630に接続され、第1正向き結果及び第1逆向き結果、並びに第2正向き結果及び第2逆向き結果に基づいて、文書の向きを決定する。図7は本発明の実施例に係る文書の向きの認識装置における決定部640の構成を示す図である。図7に示すように、決定部640は、第1加算ユニット641、第2加算ユニット642及び決定ユニット643を含む。第1加算ユニット641は、畳み込みニューラルネットワークからの第1正向き結果と拡張畳み込みニューラルネットワークからの第2逆向き結果との和を正向き信頼度として加算する。第2加算ユニット642は、畳み込みニューラルネットワークからの第1逆向き結果と拡張畳み込みニューラルネットワークからの第2正向き結果との和を逆向き信頼度として加算する。決定ユニット643は、該正向き信頼度及び逆向き信頼度に基づいて文書の向きを決定する。
なお、上記装置における各構成要件、ユニットはソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせにより実現されてもよい。用いられる具体的な手段又は方式の構成は当業者にとって周知であり、ここでその説明が省略される。ソフトウェア又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ(例えば図8示されている汎用コンピュータ800)に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
図8は本発明に係る方法及び装置を実施するためのコンピュータの例示的な構成を示すブロック図である。
図8において、中央処理部(即ちCPU)801は、読み出し専用メモリ(ROM)802に記憶されているプログラム、又は記憶部808からランダムアクセスメモリ(RAM)803にロードされたプログラムにより各種の処理を実行する。RAM803には、必要に応じて、CPU801が各種の処理を実行するに必要なデータが記憶されている。CPU801、ROM802、及びRAM803は、バス804を介して互いに接続されている。入力/出力インターフェース805もバス804に接続されている。
入力部806(キーボード、マウスなどを含む)、出力部807(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部808(例えばハードディスクなどを含む)、通信部809(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース805に接続されている。通信部809は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部810は、入力/出力インターフェース805に接続されてもよい。取り外し可能な媒体811は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部810にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部808にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体811を介してソフトウェアを構成するプログラムをインストールする。
これらの記憶媒体は、図8に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体811に限定されない。取り外し可能な媒体811は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク−読み出し専用メモリ(CD−ROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM802、記憶部808に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
本発明は、機器に読み取り可能な命令コードを記憶するプログラムプロダクトをさらに提供する。該命令コードは機器により読み出されて、上述した本発明の実施例に係る方法を実行できる。
それに応じて、本発明は、機器読み取り可能な命令コードを記憶するプログラムのプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックを含むが、これらに限定されない。
また、本発明の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本発明の技術的な範囲を限定するものではない。
以上は本発明の具体的な実施例の説明を通じて本発明を開示するが、上記の全ての実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
文書の向きの認識方法であって、
文書におけるテキスト行を抽出するステップと、
前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップと、
180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出するステップと、
前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップと、を含む、方法。
(付記2)
畳み込みニューラルネットワークを用いて、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する、付記1に記載の方法。
(付記3)
前記畳み込みニューラルネットワークは、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、及び分類部を含み、
前記テキスト行が正向きであるかを示す第1正向き結果及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップは、
前記畳み込みニューラルネットワークの畳み込みプーリング部により前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、
前記畳み込みニューラルネットワークの分類部により前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力するステップと、を含む、付記2に記載の方法。
(付記4)
回転層、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、順序反転層及び分類部を含む拡張畳み込みニューラルネットワークを用いて、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出し、
当該ステップは、
前記回転層により前記テキスト行を180度回転するステップと、
前記拡張畳み込みニューラルネットワークの畳み込みプーリング部により回転後のテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、
前記順序反転層により前記一次元配列における各要素の順序を反転するステップと、
前記拡張畳み込みニューラルネットワークの分類部により順序反転後の前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力するステップと、を含む、付記3に記載の方法。
(付記5)
前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップは、
前記第1正向き結果と前記第2逆向き結果との和を正向き信頼度とするステップと、
前記第1逆向き結果と前記第2正向き結果との和を逆向き信頼度とするステップと、
前記正向き信頼度及び前記逆向き信頼度に基づいて前記文書の向きを決定するステップと、を含む、付記4に記載の方法。
(付記6)
前記拡張畳み込みニューラルネットワークは、前記畳み込みニューラルネットワークに前記回転層及び前記順序反転層を挿入することによって得られる、付記4又は5に記載の方法。
(付記7)
前記畳み込みニューラルネットワークのみを訓練する、付記6に記載の方法。
(付記8)
前記畳み込みニューラルネットワークの分類部は、分類処理を行う分類器を含む、付記6に記載の方法。
(付記9)
前記分類器は、softmax分類器である、付記8に記載の方法。
(付記10)
文書の向きの認識装置であって、
文書におけるテキスト行を抽出する抽出手段と、
前記抽出手段に接続され、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する第1算出手段と、
前記抽出手段に接続され、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する第2算出手段と、
前記第1算出手段及び前記第2算出手段に接続され、前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定する決定手段と、を含む、装置。
(付記11)
前記第1算出手段は、畳み込みニューラルネットワークを用いて、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する、付記10に記載の装置。
(付記12)
前記畳み込みニューラルネットワークは、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力する分類部と、を含む、付記11に記載の装置。
(付記13)
前記第2算出手段は、拡張畳み込みニューラルネットワークを用いて、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出し、
前記拡張畳み込みニューラルネットワークは、
前記テキスト行を180度回転する回転層と、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、回転後のテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列における各要素の順序を反転する順序反転層と、
順序反転後の前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する分類部と、を含む、付記12に記載の装置。
(付記14)
前記拡張畳み込みニューラルネットワークは、前記畳み込みニューラルネットワークに前記回転層及び前記順序反転層を挿入することによって得られる、付記13に記載の装置。
(付記15)
前記決定手段は、
前記第1正向き結果と前記第2逆向き結果との和を正向き信頼度とする第1加算ユニットと、
前記第1逆向き結果と前記第2正向き結果との和を逆向き信頼度とする第2加算ユニットと、
前記正向き信頼度及び前記逆向き信頼度に基づいて前記文書の向きを決定する決定ユニットと、を含む、付記14に記載の装置。
(付記16)
文書の向きを認識するニューラルネットワークであって、
文書からテキスト行を抽出して、畳み込みニューラルネットワーク及び拡張畳み込みニューラルネットワークに入力する入力手段と、
前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する畳み込みニューラルネットワークと、
180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する拡張畳み込みニューラルネットワークと、
前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定し、決定された結果を出力する出力手段と、を含む、ニューラルネットワーク。
(付記17)
前記畳み込みニューラルネットワークは、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力する分類部と、を含む、付記16に記載のニューラルネットワーク。
(付記18)
前記拡張畳み込みニューラルネットワークは、
前記テキスト行を180度回転する回転層と、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、回転後の前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列における各要素の順序を反転する順序反転層と、
順序反転後の一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する分類部と、を含む、付記17に記載のニューラルネットワーク。
(付記19)
前記拡張畳み込みニューラルネットワークは、前記畳み込みニューラルネットワークに前記回転層及び前記順序反転層を挿入することによって得られる、付記18に記載のニューラルネットワーク。
(付記20)
前記出力手段は、
前記第1正向き結果と前記第2逆向き結果との和を正向き信頼度とする第1加算ユニットと、
前記第1逆向き結果と前記第2正向き結果との和を逆向き信頼度とする第2加算ユニットと、
前記正向き信頼度及び前記逆向き信頼度に基づいて前記文書の向きを決定する決定ユニットと、を含む、付記19に記載のニューラルネットワーク。

Claims (10)

  1. 文書の向きの認識方法であって、
    文書におけるテキスト行を抽出するステップと、
    前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップと、
    180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出するステップと、
    前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップと、を含む、方法。
  2. 畳み込みニューラルネットワークを用いて、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する、請求項1に記載の方法。
  3. 前記畳み込みニューラルネットワークは、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、及び分類部を含み、
    前記テキスト行が正向きであるかを示す第1正向き結果及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップは、
    前記畳み込みニューラルネットワークの畳み込みプーリング部により前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、
    前記畳み込みニューラルネットワークの分類部により前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力するステップと、を含む、請求項2に記載の方法。
  4. 回転層、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、順序反転層及び分類部を含む拡張畳み込みニューラルネットワークを用いて、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出し、
    当該ステップは、
    前記回転層により前記テキスト行を180度回転するステップと、
    前記拡張畳み込みニューラルネットワークの畳み込みプーリング部により回転後のテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、
    前記順序反転層により前記一次元配列における各要素の順序を反転するステップと、
    前記拡張畳み込みニューラルネットワークの分類部により順序反転後の前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力するステップと、を含む、請求項3に記載の方法。
  5. 前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップは、
    前記第1正向き結果と前記第2逆向き結果との和を正向き信頼度とするステップと、
    前記第1逆向き結果と前記第2正向き結果との和を逆向き信頼度とするステップと、
    前記正向き信頼度及び前記逆向き信頼度に基づいて前記文書の向きを決定するステップと、を含む、請求項4に記載の方法。
  6. 前記拡張畳み込みニューラルネットワークは、前記畳み込みニューラルネットワークに前記回転層及び前記順序反転層を挿入することによって得られる、請求項4又は5に記載の方法。
  7. 前記畳み込みニューラルネットワークのみを訓練する、請求項6に記載の方法。
  8. 文書の向きの認識装置であって、
    文書におけるテキスト行を抽出する抽出手段と、
    前記抽出手段に接続され、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する第1算出手段と、
    前記抽出手段に接続され、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する第2算出手段と、
    前記第1算出手段及び前記第2算出手段に接続され、前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定する決定手段と、を含む、装置。
  9. 文書の向きを認識するニューラルネットワークであって、
    文書からテキスト行を抽出して、畳み込みニューラルネットワーク及び拡張畳み込みニューラルネットワークに入力する入力手段と、
    前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する畳み込みニューラルネットワークと、
    180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する拡張畳み込みニューラルネットワークと、
    前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定し、決定された結果を出力する出力手段と、を含む、ニューラルネットワーク。
  10. 前記拡張畳み込みニューラルネットワークは、
    前記テキスト行を180度回転する回転層と、
    複数の畳み込み層とプーリング層の重ね合わせ構造を有し、回転後の前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
    前記一次元配列における各要素の順序を反転する順序反転層と、
    順序反転後の一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する分類部と、を含む、請求項9に記載のニューラルネットワーク。
JP2018007337A 2017-01-24 2018-01-19 文書の向きの認識方法、認識装置及びニューラルネットワーク Active JP7020134B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710060219.4A CN108345827B (zh) 2017-01-24 2017-01-24 识别文档方向的方法、系统和神经网络
CN201710060219.4 2017-01-24

Publications (2)

Publication Number Publication Date
JP2018120591A true JP2018120591A (ja) 2018-08-02
JP7020134B2 JP7020134B2 (ja) 2022-02-16

Family

ID=62906527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018007337A Active JP7020134B2 (ja) 2017-01-24 2018-01-19 文書の向きの認識方法、認識装置及びニューラルネットワーク

Country Status (3)

Country Link
US (1) US10891476B2 (ja)
JP (1) JP7020134B2 (ja)
CN (1) CN108345827B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020038664A (ja) * 2018-09-04 2020-03-12 株式会社ストラドビジョン コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}
JP2021056735A (ja) * 2019-09-30 2021-04-08 Kddi株式会社 モデル生成装置、学習モデル及び被写体認識装置
JP2022143363A (ja) * 2021-03-17 2022-10-03 Kddi株式会社 対応点検出装置、対応点検出方法及びプログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474925B2 (en) * 2017-07-31 2019-11-12 Industrial Technology Research Institute Deep neural network with side branches for recognizing and classifying media data and method for using the same
CN109685058B (zh) * 2017-10-18 2021-07-09 杭州海康威视数字技术股份有限公司 一种图像目标识别方法、装置及计算机设备
US10783400B2 (en) * 2018-04-06 2020-09-22 Dropbox, Inc. Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks
US10616443B1 (en) * 2019-02-11 2020-04-07 Open Text Sa Ulc On-device artificial intelligence systems and methods for document auto-rotation
CN109919155B (zh) * 2019-03-13 2021-03-12 厦门商集网络科技有限责任公司 一种文本图像的倾斜角矫正方法及终端
CN109948510B (zh) * 2019-03-14 2021-06-11 北京易道博识科技有限公司 一种文档图像实例分割方法及装置
CN110557209B (zh) * 2019-07-19 2021-08-31 中国科学院微电子研究所 一种宽带信号干扰监测方法
CN112492323B (zh) * 2019-09-12 2022-07-19 上海哔哩哔哩科技有限公司 直播蒙版的生成方法、可读存储介质及计算机设备
CN111400497A (zh) * 2020-03-19 2020-07-10 北京远鉴信息技术有限公司 一种文本识别方法、装置、存储介质及电子设备
US11610138B2 (en) * 2020-04-22 2023-03-21 Salesforce, Inc. Machine learning-based inference of granular font properties

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178397A (ja) * 2002-11-28 2004-06-24 Minolta Co Ltd 文書画像の向きの判定方法及び同補正方法
US20110052094A1 (en) * 2009-08-28 2011-03-03 Chunyu Gao Skew Correction for Scanned Japanese/English Document Images
JP2013025800A (ja) * 2011-07-20 2013-02-04 Fujitsu Ltd 画像ブロックにおける文字の方向を認識する方法及び装置
EP2660753A2 (en) * 2012-05-04 2013-11-06 Fujitsu Limited Image processing method and apparatus
US8787702B1 (en) * 2012-11-30 2014-07-22 Accusoft Corporation Methods and apparatus for determining and/or modifying image orientation

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276742A (en) * 1991-11-19 1994-01-04 Xerox Corporation Rapid detection of page orientation
JP3720502B2 (ja) * 1996-12-26 2005-11-30 キヤノン株式会社 画像処理装置及び該装置における画像処理方法、並びにコンピュータ読み取り可能な記憶媒体
US6151423A (en) * 1998-03-04 2000-11-21 Canon Kabushiki Kaisha Character recognition with document orientation determination
US9298979B2 (en) * 2008-01-18 2016-03-29 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
CN102419817A (zh) * 2010-09-27 2012-04-18 贵州黔驰电力信息技术有限公司 一种基于智能图像识别的自动文档扫描分析处理系统
CN102592124B (zh) * 2011-01-13 2013-11-27 汉王科技股份有限公司 文本图像的几何校正方法、装置和双目立体视觉系统
CN102855477B (zh) * 2011-06-29 2014-12-17 富士通株式会社 识别图像块中文字的方向的方法和装置
CN102890783B (zh) * 2011-07-20 2015-07-29 富士通株式会社 识别图像块中文字的方向的方法和装置
CN103870799A (zh) * 2012-12-17 2014-06-18 北京千橡网景科技发展有限公司 字符方向判断方法及装置
CN104915648B (zh) * 2015-06-02 2018-07-20 北京天创征腾信息科技有限公司 文档/单证方向检测方法和检测装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178397A (ja) * 2002-11-28 2004-06-24 Minolta Co Ltd 文書画像の向きの判定方法及び同補正方法
US20110052094A1 (en) * 2009-08-28 2011-03-03 Chunyu Gao Skew Correction for Scanned Japanese/English Document Images
JP2013025800A (ja) * 2011-07-20 2013-02-04 Fujitsu Ltd 画像ブロックにおける文字の方向を認識する方法及び装置
EP2660753A2 (en) * 2012-05-04 2013-11-06 Fujitsu Limited Image processing method and apparatus
US8787702B1 (en) * 2012-11-30 2014-07-22 Accusoft Corporation Methods and apparatus for determining and/or modifying image orientation

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020038664A (ja) * 2018-09-04 2020-03-12 株式会社ストラドビジョン コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network}
JP2021056735A (ja) * 2019-09-30 2021-04-08 Kddi株式会社 モデル生成装置、学習モデル及び被写体認識装置
JP7240997B2 (ja) 2019-09-30 2023-03-16 Kddi株式会社 モデル生成装置、学習モデル及び被写体認識装置
JP2022143363A (ja) * 2021-03-17 2022-10-03 Kddi株式会社 対応点検出装置、対応点検出方法及びプログラム
JP7488216B2 (ja) 2021-03-17 2024-05-21 Kddi株式会社 対応点検出装置、対応点検出方法及びプログラム

Also Published As

Publication number Publication date
US20180211109A1 (en) 2018-07-26
JP7020134B2 (ja) 2022-02-16
US10891476B2 (en) 2021-01-12
CN108345827A (zh) 2018-07-31
CN108345827B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
JP2018120591A (ja) 文書の向きの認識方法、認識装置及びニューラルネットワーク
CN110097130B (zh) 分类任务模型的训练方法、装置、设备及存储介质
Köhler et al. Mask-specific inpainting with deep neural networks
CN108399386A (zh) 饼图中的信息提取方法及装置
US11544855B2 (en) Method and apparatus for tracking target
US11386637B2 (en) Method and apparatus for detecting object
Xiao et al. Combined blur, translation, scale and rotation invariant image recognition by Radon and pseudo-Fourier–Mellin transforms
WO2019071433A1 (en) METHOD, SYSTEM AND APPARATUS FOR RECOGNIZING PATTERNS
Kang et al. ASF-YOLO: A novel YOLO model with attentional scale sequence fusion for cell instance segmentation
CN110796108B (zh) 一种人脸质量检测的方法、装置、设备及存储介质
US11341365B2 (en) Method and apparatus with authentication and neural network training
JP2019003396A (ja) 目的物体検出装置、該方法およびプログラム
CN114120349B (zh) 基于深度学习的试卷识别方法及系统
WO2023064906A1 (en) Multi-model system for electronic transaction authorization and fraud detection
Horvath et al. A higher-order active contour model of a ‘gas of circles’ and its application to tree crown extraction
Chen et al. MTN-Net: a multi-task network for detection and segmentation of thyroid nodules in ultrasound images
CN112541900A (zh) 基于卷积神经网络的检测方法、装置、计算机设备及存储介质
CN109886105B (zh) 基于多任务学习的价格牌识别方法、系统及存储介质
WO2022267387A1 (zh) 图像识别方法、装置、电子设备和存储介质
Verma et al. Early detection of tuberculosis using hybrid feature descriptors and deep learning network
CN114332493A (zh) 一种跨维度交互式显著检测模型及其检测方法
Brini et al. An End-to-End Framework for Evaluating Explainable Deep Models: Application to Historical Document Image Segmentation
Ahmadova et al. Improving Pneumonia Diagnosis with RadImageNet: A Deep Transfer Learning Approach
Chen et al. Query Re-Training for Modality-Gnostic Incomplete Multi-modal Brain Tumor Segmentation
US20230298326A1 (en) Image augmentation method, electronic device and readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220117

R150 Certificate of patent or registration of utility model

Ref document number: 7020134

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150