JP2018120591A - 文書の向きの認識方法、認識装置及びニューラルネットワーク - Google Patents
文書の向きの認識方法、認識装置及びニューラルネットワーク Download PDFInfo
- Publication number
- JP2018120591A JP2018120591A JP2018007337A JP2018007337A JP2018120591A JP 2018120591 A JP2018120591 A JP 2018120591A JP 2018007337 A JP2018007337 A JP 2018007337A JP 2018007337 A JP2018007337 A JP 2018007337A JP 2018120591 A JP2018120591 A JP 2018120591A
- Authority
- JP
- Japan
- Prior art keywords
- result
- reverse
- text line
- neural network
- indicating whether
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
Description
(外1)
」を取得する。そして、畳み込みプーリング部は、該逆向きのテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列「(9,8,6,5,2,7)」を出力する。そして、順序反転層は、畳み込みプーリング部から出力された一次元配列の順序を反転し、一次元配列「(7,2,5,6,8,9)」を取得する。最後に、分類部は、順序が反転された一次元配列を処理し、テキスト行が正向きであるかを示す第2正向き結果及びテキスト行が逆向きであるかを示す第2逆向き結果を出力する。
(外2)
」は、元のテキスト行「HIOXBL」に比べて、各文字の向き及び位置が共に変化している。このため、拡張畳み込みニューラルネットワーク230の畳み込みプーリング部232により出力された一次元配列(9,8,6,5,2,7)は、向き及び位置が共に変化しているテキスト行「
(外3)
」の特徴を表示している。順序反転層では、一次元配列(9,8,6,5,2,7)における各要素の順序を反転し、一次元配列「(7,2,5,6,8,9)」を取得する。順序反転された配列は、テキスト行「
(外4)
」の特徴を表示している。回転前のテキスト行「HIOXBL」に比べて、テキスト行「
(外5)
」における各要素は、向きのみが変化し、位置が変化していない。従って、拡張畳み込みニューラルネットワーク230から出力された分類結果は、各要素を180度回転し、且つ各要素間の位置が変化していないテキスト行の分類結果である。よって、出力部240では、畳み込みニューラルネットワークから出力された回転していないテキスト行の向きを示す第1正向き結果及び第1逆向き結果と、拡張畳み込みニューラルネットワークから出力された各要素がそれぞれ180度回転され、且つ各要素間の位置が変化していないテキスト行の向きを示す第2逆向き結果及び第2正向き結果とを加算してもよい。これによって、自己対称な要素のテキスト行の向きの判別への影響を除去でき、文書の向きをより正確に決定できる。
(付記1)
文書の向きの認識方法であって、
文書におけるテキスト行を抽出するステップと、
前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップと、
180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出するステップと、
前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップと、を含む、方法。
(付記2)
畳み込みニューラルネットワークを用いて、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する、付記1に記載の方法。
(付記3)
前記畳み込みニューラルネットワークは、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、及び分類部を含み、
前記テキスト行が正向きであるかを示す第1正向き結果及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップは、
前記畳み込みニューラルネットワークの畳み込みプーリング部により前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、
前記畳み込みニューラルネットワークの分類部により前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力するステップと、を含む、付記2に記載の方法。
(付記4)
回転層、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、順序反転層及び分類部を含む拡張畳み込みニューラルネットワークを用いて、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出し、
当該ステップは、
前記回転層により前記テキスト行を180度回転するステップと、
前記拡張畳み込みニューラルネットワークの畳み込みプーリング部により回転後のテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、
前記順序反転層により前記一次元配列における各要素の順序を反転するステップと、
前記拡張畳み込みニューラルネットワークの分類部により順序反転後の前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力するステップと、を含む、付記3に記載の方法。
(付記5)
前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップは、
前記第1正向き結果と前記第2逆向き結果との和を正向き信頼度とするステップと、
前記第1逆向き結果と前記第2正向き結果との和を逆向き信頼度とするステップと、
前記正向き信頼度及び前記逆向き信頼度に基づいて前記文書の向きを決定するステップと、を含む、付記4に記載の方法。
(付記6)
前記拡張畳み込みニューラルネットワークは、前記畳み込みニューラルネットワークに前記回転層及び前記順序反転層を挿入することによって得られる、付記4又は5に記載の方法。
(付記7)
前記畳み込みニューラルネットワークのみを訓練する、付記6に記載の方法。
(付記8)
前記畳み込みニューラルネットワークの分類部は、分類処理を行う分類器を含む、付記6に記載の方法。
(付記9)
前記分類器は、softmax分類器である、付記8に記載の方法。
(付記10)
文書の向きの認識装置であって、
文書におけるテキスト行を抽出する抽出手段と、
前記抽出手段に接続され、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する第1算出手段と、
前記抽出手段に接続され、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する第2算出手段と、
前記第1算出手段及び前記第2算出手段に接続され、前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定する決定手段と、を含む、装置。
(付記11)
前記第1算出手段は、畳み込みニューラルネットワークを用いて、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する、付記10に記載の装置。
(付記12)
前記畳み込みニューラルネットワークは、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力する分類部と、を含む、付記11に記載の装置。
(付記13)
前記第2算出手段は、拡張畳み込みニューラルネットワークを用いて、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出し、
前記拡張畳み込みニューラルネットワークは、
前記テキスト行を180度回転する回転層と、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、回転後のテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列における各要素の順序を反転する順序反転層と、
順序反転後の前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する分類部と、を含む、付記12に記載の装置。
(付記14)
前記拡張畳み込みニューラルネットワークは、前記畳み込みニューラルネットワークに前記回転層及び前記順序反転層を挿入することによって得られる、付記13に記載の装置。
(付記15)
前記決定手段は、
前記第1正向き結果と前記第2逆向き結果との和を正向き信頼度とする第1加算ユニットと、
前記第1逆向き結果と前記第2正向き結果との和を逆向き信頼度とする第2加算ユニットと、
前記正向き信頼度及び前記逆向き信頼度に基づいて前記文書の向きを決定する決定ユニットと、を含む、付記14に記載の装置。
(付記16)
文書の向きを認識するニューラルネットワークであって、
文書からテキスト行を抽出して、畳み込みニューラルネットワーク及び拡張畳み込みニューラルネットワークに入力する入力手段と、
前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する畳み込みニューラルネットワークと、
180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する拡張畳み込みニューラルネットワークと、
前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定し、決定された結果を出力する出力手段と、を含む、ニューラルネットワーク。
(付記17)
前記畳み込みニューラルネットワークは、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力する分類部と、を含む、付記16に記載のニューラルネットワーク。
(付記18)
前記拡張畳み込みニューラルネットワークは、
前記テキスト行を180度回転する回転層と、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、回転後の前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列における各要素の順序を反転する順序反転層と、
順序反転後の一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する分類部と、を含む、付記17に記載のニューラルネットワーク。
(付記19)
前記拡張畳み込みニューラルネットワークは、前記畳み込みニューラルネットワークに前記回転層及び前記順序反転層を挿入することによって得られる、付記18に記載のニューラルネットワーク。
(付記20)
前記出力手段は、
前記第1正向き結果と前記第2逆向き結果との和を正向き信頼度とする第1加算ユニットと、
前記第1逆向き結果と前記第2正向き結果との和を逆向き信頼度とする第2加算ユニットと、
前記正向き信頼度及び前記逆向き信頼度に基づいて前記文書の向きを決定する決定ユニットと、を含む、付記19に記載のニューラルネットワーク。
Claims (10)
- 文書の向きの認識方法であって、
文書におけるテキスト行を抽出するステップと、
前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップと、
180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出するステップと、
前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップと、を含む、方法。 - 畳み込みニューラルネットワークを用いて、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する、請求項1に記載の方法。
- 前記畳み込みニューラルネットワークは、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、及び分類部を含み、
前記テキスト行が正向きであるかを示す第1正向き結果及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出するステップは、
前記畳み込みニューラルネットワークの畳み込みプーリング部により前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、
前記畳み込みニューラルネットワークの分類部により前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第1正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第1逆向き結果として出力するステップと、を含む、請求項2に記載の方法。 - 回転層、複数の畳み込み層とプーリング層の重ね合わせ構造を有する畳み込みプーリング部、順序反転層及び分類部を含む拡張畳み込みニューラルネットワークを用いて、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出し、
当該ステップは、
前記回転層により前記テキスト行を180度回転するステップと、
前記拡張畳み込みニューラルネットワークの畳み込みプーリング部により回転後のテキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得するステップと、
前記順序反転層により前記一次元配列における各要素の順序を反転するステップと、
前記拡張畳み込みニューラルネットワークの分類部により順序反転後の前記一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力するステップと、を含む、請求項3に記載の方法。 - 前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定するステップは、
前記第1正向き結果と前記第2逆向き結果との和を正向き信頼度とするステップと、
前記第1逆向き結果と前記第2正向き結果との和を逆向き信頼度とするステップと、
前記正向き信頼度及び前記逆向き信頼度に基づいて前記文書の向きを決定するステップと、を含む、請求項4に記載の方法。 - 前記拡張畳み込みニューラルネットワークは、前記畳み込みニューラルネットワークに前記回転層及び前記順序反転層を挿入することによって得られる、請求項4又は5に記載の方法。
- 前記畳み込みニューラルネットワークのみを訓練する、請求項6に記載の方法。
- 文書の向きの認識装置であって、
文書におけるテキスト行を抽出する抽出手段と、
前記抽出手段に接続され、前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する第1算出手段と、
前記抽出手段に接続され、180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する第2算出手段と、
前記第1算出手段及び前記第2算出手段に接続され、前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定する決定手段と、を含む、装置。 - 文書の向きを認識するニューラルネットワークであって、
文書からテキスト行を抽出して、畳み込みニューラルネットワーク及び拡張畳み込みニューラルネットワークに入力する入力手段と、
前記テキスト行が正向きであるかを示す第1正向き結果、及び前記テキスト行が逆向きであるかを示す第1逆向き結果を算出する畳み込みニューラルネットワークと、
180度回転された前記テキスト行が正向きであるかを示す第2正向き結果、及び180度回転された前記テキスト行が逆向きであるかを示す第2逆向き結果を算出する拡張畳み込みニューラルネットワークと、
前記第1正向き結果及び前記第1逆向き結果、並びに前記第2正向き結果及び前記第2逆向き結果に基づいて、文書の向きを決定し、決定された結果を出力する出力手段と、を含む、ニューラルネットワーク。 - 前記拡張畳み込みニューラルネットワークは、
前記テキスト行を180度回転する回転層と、
複数の畳み込み層とプーリング層の重ね合わせ構造を有し、回転後の前記テキスト行に対して畳み込み処理及びプーリング処理を行い、一次元配列を取得する畳み込みプーリング部と、
前記一次元配列における各要素の順序を反転する順序反転層と、
順序反転後の一次元配列に対して分類処理を行い、テキスト行が正向きであるかを示す確率を第2正向き結果として出力し、テキスト行が逆向きであるかを示す確率を第2逆向き結果として出力する分類部と、を含む、請求項9に記載のニューラルネットワーク。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710060219.4A CN108345827B (zh) | 2017-01-24 | 2017-01-24 | 识别文档方向的方法、系统和神经网络 |
CN201710060219.4 | 2017-01-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018120591A true JP2018120591A (ja) | 2018-08-02 |
JP7020134B2 JP7020134B2 (ja) | 2022-02-16 |
Family
ID=62906527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018007337A Active JP7020134B2 (ja) | 2017-01-24 | 2018-01-19 | 文書の向きの認識方法、認識装置及びニューラルネットワーク |
Country Status (3)
Country | Link |
---|---|
US (1) | US10891476B2 (ja) |
JP (1) | JP7020134B2 (ja) |
CN (1) | CN108345827B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020038664A (ja) * | 2018-09-04 | 2020-03-12 | 株式会社ストラドビジョン | コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} |
JP2021056735A (ja) * | 2019-09-30 | 2021-04-08 | Kddi株式会社 | モデル生成装置、学習モデル及び被写体認識装置 |
JP2022143363A (ja) * | 2021-03-17 | 2022-10-03 | Kddi株式会社 | 対応点検出装置、対応点検出方法及びプログラム |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10474925B2 (en) * | 2017-07-31 | 2019-11-12 | Industrial Technology Research Institute | Deep neural network with side branches for recognizing and classifying media data and method for using the same |
CN109685058B (zh) * | 2017-10-18 | 2021-07-09 | 杭州海康威视数字技术股份有限公司 | 一种图像目标识别方法、装置及计算机设备 |
US10783400B2 (en) * | 2018-04-06 | 2020-09-22 | Dropbox, Inc. | Generating searchable text for documents portrayed in a repository of digital images utilizing orientation and text prediction neural networks |
US10616443B1 (en) * | 2019-02-11 | 2020-04-07 | Open Text Sa Ulc | On-device artificial intelligence systems and methods for document auto-rotation |
CN109919155B (zh) * | 2019-03-13 | 2021-03-12 | 厦门商集网络科技有限责任公司 | 一种文本图像的倾斜角矫正方法及终端 |
CN109948510B (zh) * | 2019-03-14 | 2021-06-11 | 北京易道博识科技有限公司 | 一种文档图像实例分割方法及装置 |
CN110557209B (zh) * | 2019-07-19 | 2021-08-31 | 中国科学院微电子研究所 | 一种宽带信号干扰监测方法 |
CN112492323B (zh) * | 2019-09-12 | 2022-07-19 | 上海哔哩哔哩科技有限公司 | 直播蒙版的生成方法、可读存储介质及计算机设备 |
CN111400497A (zh) * | 2020-03-19 | 2020-07-10 | 北京远鉴信息技术有限公司 | 一种文本识别方法、装置、存储介质及电子设备 |
US11610138B2 (en) * | 2020-04-22 | 2023-03-21 | Salesforce, Inc. | Machine learning-based inference of granular font properties |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178397A (ja) * | 2002-11-28 | 2004-06-24 | Minolta Co Ltd | 文書画像の向きの判定方法及び同補正方法 |
US20110052094A1 (en) * | 2009-08-28 | 2011-03-03 | Chunyu Gao | Skew Correction for Scanned Japanese/English Document Images |
JP2013025800A (ja) * | 2011-07-20 | 2013-02-04 | Fujitsu Ltd | 画像ブロックにおける文字の方向を認識する方法及び装置 |
EP2660753A2 (en) * | 2012-05-04 | 2013-11-06 | Fujitsu Limited | Image processing method and apparatus |
US8787702B1 (en) * | 2012-11-30 | 2014-07-22 | Accusoft Corporation | Methods and apparatus for determining and/or modifying image orientation |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5276742A (en) * | 1991-11-19 | 1994-01-04 | Xerox Corporation | Rapid detection of page orientation |
JP3720502B2 (ja) * | 1996-12-26 | 2005-11-30 | キヤノン株式会社 | 画像処理装置及び該装置における画像処理方法、並びにコンピュータ読み取り可能な記憶媒体 |
US6151423A (en) * | 1998-03-04 | 2000-11-21 | Canon Kabushiki Kaisha | Character recognition with document orientation determination |
US9298979B2 (en) * | 2008-01-18 | 2016-03-29 | Mitek Systems, Inc. | Systems and methods for mobile image capture and content processing of driver's licenses |
CN102419817A (zh) * | 2010-09-27 | 2012-04-18 | 贵州黔驰电力信息技术有限公司 | 一种基于智能图像识别的自动文档扫描分析处理系统 |
CN102592124B (zh) * | 2011-01-13 | 2013-11-27 | 汉王科技股份有限公司 | 文本图像的几何校正方法、装置和双目立体视觉系统 |
CN102855477B (zh) * | 2011-06-29 | 2014-12-17 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
CN102890783B (zh) * | 2011-07-20 | 2015-07-29 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
CN103870799A (zh) * | 2012-12-17 | 2014-06-18 | 北京千橡网景科技发展有限公司 | 字符方向判断方法及装置 |
CN104915648B (zh) * | 2015-06-02 | 2018-07-20 | 北京天创征腾信息科技有限公司 | 文档/单证方向检测方法和检测装置 |
-
2017
- 2017-01-24 CN CN201710060219.4A patent/CN108345827B/zh active Active
-
2018
- 2018-01-19 JP JP2018007337A patent/JP7020134B2/ja active Active
- 2018-01-22 US US15/876,334 patent/US10891476B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178397A (ja) * | 2002-11-28 | 2004-06-24 | Minolta Co Ltd | 文書画像の向きの判定方法及び同補正方法 |
US20110052094A1 (en) * | 2009-08-28 | 2011-03-03 | Chunyu Gao | Skew Correction for Scanned Japanese/English Document Images |
JP2013025800A (ja) * | 2011-07-20 | 2013-02-04 | Fujitsu Ltd | 画像ブロックにおける文字の方向を認識する方法及び装置 |
EP2660753A2 (en) * | 2012-05-04 | 2013-11-06 | Fujitsu Limited | Image processing method and apparatus |
US8787702B1 (en) * | 2012-11-30 | 2014-07-22 | Accusoft Corporation | Methods and apparatus for determining and/or modifying image orientation |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020038664A (ja) * | 2018-09-04 | 2020-03-12 | 株式会社ストラドビジョン | コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} |
JP2021056735A (ja) * | 2019-09-30 | 2021-04-08 | Kddi株式会社 | モデル生成装置、学習モデル及び被写体認識装置 |
JP7240997B2 (ja) | 2019-09-30 | 2023-03-16 | Kddi株式会社 | モデル生成装置、学習モデル及び被写体認識装置 |
JP2022143363A (ja) * | 2021-03-17 | 2022-10-03 | Kddi株式会社 | 対応点検出装置、対応点検出方法及びプログラム |
JP7488216B2 (ja) | 2021-03-17 | 2024-05-21 | Kddi株式会社 | 対応点検出装置、対応点検出方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20180211109A1 (en) | 2018-07-26 |
JP7020134B2 (ja) | 2022-02-16 |
US10891476B2 (en) | 2021-01-12 |
CN108345827A (zh) | 2018-07-31 |
CN108345827B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018120591A (ja) | 文書の向きの認識方法、認識装置及びニューラルネットワーク | |
CN110097130B (zh) | 分类任务模型的训练方法、装置、设备及存储介质 | |
Köhler et al. | Mask-specific inpainting with deep neural networks | |
CN108399386A (zh) | 饼图中的信息提取方法及装置 | |
US11544855B2 (en) | Method and apparatus for tracking target | |
US11386637B2 (en) | Method and apparatus for detecting object | |
Xiao et al. | Combined blur, translation, scale and rotation invariant image recognition by Radon and pseudo-Fourier–Mellin transforms | |
WO2019071433A1 (en) | METHOD, SYSTEM AND APPARATUS FOR RECOGNIZING PATTERNS | |
Kang et al. | ASF-YOLO: A novel YOLO model with attentional scale sequence fusion for cell instance segmentation | |
CN110796108B (zh) | 一种人脸质量检测的方法、装置、设备及存储介质 | |
US11341365B2 (en) | Method and apparatus with authentication and neural network training | |
JP2019003396A (ja) | 目的物体検出装置、該方法およびプログラム | |
CN114120349B (zh) | 基于深度学习的试卷识别方法及系统 | |
WO2023064906A1 (en) | Multi-model system for electronic transaction authorization and fraud detection | |
Horvath et al. | A higher-order active contour model of a ‘gas of circles’ and its application to tree crown extraction | |
Chen et al. | MTN-Net: a multi-task network for detection and segmentation of thyroid nodules in ultrasound images | |
CN112541900A (zh) | 基于卷积神经网络的检测方法、装置、计算机设备及存储介质 | |
CN109886105B (zh) | 基于多任务学习的价格牌识别方法、系统及存储介质 | |
WO2022267387A1 (zh) | 图像识别方法、装置、电子设备和存储介质 | |
Verma et al. | Early detection of tuberculosis using hybrid feature descriptors and deep learning network | |
CN114332493A (zh) | 一种跨维度交互式显著检测模型及其检测方法 | |
Brini et al. | An End-to-End Framework for Evaluating Explainable Deep Models: Application to Historical Document Image Segmentation | |
Ahmadova et al. | Improving Pneumonia Diagnosis with RadImageNet: A Deep Transfer Learning Approach | |
Chen et al. | Query Re-Training for Modality-Gnostic Incomplete Multi-modal Brain Tumor Segmentation | |
US20230298326A1 (en) | Image augmentation method, electronic device and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7020134 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |