JP6696622B2 - 文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法 - Google Patents
文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法 Download PDFInfo
- Publication number
- JP6696622B2 JP6696622B2 JP2019504733A JP2019504733A JP6696622B2 JP 6696622 B2 JP6696622 B2 JP 6696622B2 JP 2019504733 A JP2019504733 A JP 2019504733A JP 2019504733 A JP2019504733 A JP 2019504733A JP 6696622 B2 JP6696622 B2 JP 6696622B2
- Authority
- JP
- Japan
- Prior art keywords
- sample
- network
- unlabeled
- sample pair
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 69
- 238000000034 method Methods 0.000 title claims description 32
- 238000013527 convolutional neural network Methods 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000002372 labelling Methods 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 7
- 102100033620 Calponin-1 Human genes 0.000 description 6
- 102100033591 Calponin-2 Human genes 0.000 description 6
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 6
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 235000019800 disodium phosphate Nutrition 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000007642 woodblock printing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
Description
図1は本発明の実施例1の文字認識のための分類ネットワークの訓練装置を示す図である。図1に示すように、該訓練装置100は、抽出部101、構築部102、第1訓練部103、初期化部104及び第2訓練部105を含む。
本発明の実施例は、実施例1に記載された訓練装置により訓練された文字認識のための分類ネットワークを含む文字認識装置をさらに提供する。
本発明の実施例は電子機器をさらに提供し、図7は本発明の実施例3の電子機器を示す図である。図7に示すように、電子機器700は訓練装置701又は文字認識装置702を含む。ここで、訓練装置701の構成及び機能は実施例1に記載されたものと同じであり、文字認識装置702の構成及び機能は実施例2に記載されたものと同じであり、ここでその説明を省略する。
本発明の実施例は文字認識のための分類ネットワークの訓練方法をさらに提供し、該訓練方法は実施例1の文字認識のための分類ネットワークの訓練装置に対応する。図9は本発明の実施例4の文字認識のための分類ネットワークの訓練方法を示す図である。図9に示すように、該方法は以下のステップを含む。
Claims (19)
- 文字認識のための分類ネットワークの訓練装置であって、
文字を含む各ラベルなしサンプルの特徴を抽出する抽出手段と、
抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する構築手段と、
構築された前記サンプルペアに基づいて、対称ネットワークを訓練する第1訓練手段と、
訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する初期化手段と、
文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練する第2訓練手段と、を含む、装置。 - 訓練された前記分類ネットワークが所定条件を満たすか否かを判断し、訓練された前記分類ネットワークが前記所定条件を満たさない場合は、訓練された前記分類ネットワークを用いて前記文字を含む各ラベルなしサンプルの特徴を抽出し、訓練された前記分類ネットワークが前記所定条件を満たす場合は、訓練された前記分類ネットワークを出力する判断手段、をさらに含む、請求項1に記載の装置。
- 前記抽出手段は、
直接文字を含む前記ラベルなしサンプルから文字の特徴を抽出し、或いは、
文字を含むラベル付きサンプルを用いて訓練されたネットワークに前記ラベルなしサンプルを入力し、出力結果を抽出された特徴とする、請求項1に記載の装置。 - 前記構築手段は、
抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定する第1決定手段、を含む、請求項1に記載の装置。 - 前記構築手段は、
前記ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の2つのラベル付きサンプルを第2類似サンプルペア又は第2非類似サンプルペアとして決定する第2決定手段と、
決定された前記第2類似サンプルペアと前記第2非類似サンプルペアとの数の比を計算する第1計算手段と、
前記第1類似サンプルペアと前記第1非類似サンプルペアとの数の比が前記第2類似サンプルペアと前記第2非類似サンプルペアとの数の比に等しくなるように、前記第1類似サンプルペアと前記第1非類似サンプルペアとの数の比を決定する第3決定手段と、をさらに含む、請求項4に記載の装置。 - 前記第1決定手段は、
抽出された各ラベルなしサンプルのうち任意の2つのラベルなしサンプルの特徴間の距離を計算する第2計算手段と、
特徴間の距離が所定閾値よりも小さい任意の2つのラベルなしサンプルを前記第1類似サンプルペアとして決定する第4決定手段と、
特徴間の距離が前記所定閾値以上である任意の2つのラベルなしサンプルを前記第1非類似サンプルペアとして決定する第5決定手段と、を含む、請求項4に記載の装置。 - 前記抽出手段により抽出された特徴は、前記ラベルなしサンプルの分類結果であり、
前記第1決定手段は、
分類結果が同一である任意の2つのラベルなしサンプルを前記第1類似サンプルペアとして決定する第6決定手段と、
分類結果が異なる任意の2つのラベルなしサンプルを前記第1非類似サンプルペアとして決定する第7決定手段と、を含む、請求項4に記載の装置。 - 前記対称ネットワークは、対称に配置された2つの畳み込みニューラルネットワークを有するシャム(Siamese)ネットワークであり、
前記文字認識のための分類ネットワークは、畳み込みニューラルネットワークである、請求項1に記載の装置。 - 前記初期化手段は、訓練されたシャムネットワークにおける任意の1つの畳み込みニューラルネットワークのパラメータを用いて、前記分類ネットワークとなる畳み込みニューラルネットワークを初期化する、請求項8に記載の装置。
- 請求項1乃至9の何れかに記載の装置により訓練された文字認識のための分類ネットワークを含む、文字認識装置。
- 文字認識のための分類ネットワークの訓練方法であって、
文字を含む各ラベルなしサンプルの特徴を抽出するステップと、
抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築するステップと、
構築された前記サンプルペアに基づいて、対称ネットワークを訓練するステップと、
訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップと、
文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練するステップと、を含む、方法。 - 訓練された前記分類ネットワークが所定条件を満たすか否かを判断するステップと、
訓練された前記分類ネットワークが前記所定条件を満たさない場合は、訓練された前記分類ネットワークを用いて前記文字を含む各ラベルなしサンプルの特徴を抽出するステップと、
訓練された前記分類ネットワークが前記所定条件を満たす場合は、訓練された前記分類ネットワークを出力するステップと、をさらに含む、請求項11に記載の方法。 - 前記文字を含む各ラベルなしサンプルの特徴を抽出するステップは、
直接文字を含む前記ラベルなしサンプルから文字の特徴を抽出するステップ、又は、
文字を含むラベル付きサンプルを用いて訓練されたネットワークに前記ラベルなしサンプルを入力し、出力結果を抽出された特徴とするステップ、を含む、請求項11に記載の方法。 - 前記抽出された各ラベルなしサンプルの特徴に基づいてサンプルペアを構築するステップは、
抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップ、を含む、請求項11に記載の方法。 - 前記抽出された各ラベルなしサンプルの特徴に基づいてサンプルペアを構築するステップは、
前記ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の2つのラベル付きサンプルを第2類似サンプルペア又は第2非類似サンプルペアとして決定するステップと、
決定された前記第2類似サンプルペアと前記第2非類似サンプルペアとの数の比を計算するステップと、
前記第1類似サンプルペアと前記第1非類似サンプルペアとの数の比が前記第2類似サンプルペアと前記第2非類似サンプルペアとの数の比に等しくなるように、前記第1類似サンプルペアと前記第1非類似サンプルペアとの数の比を決定するステップと、をさらに含む、請求項14に記載の方法。 - 前記抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップは、
抽出された各ラベルなしサンプルのうち任意の2つのラベルなしサンプルの特徴間の距離を計算するステップと、
特徴間の距離が所定閾値よりも小さい任意の2つのラベルなしサンプルを前記第1類似サンプルペアとして決定するステップと、
特徴間の距離が前記所定閾値以上である任意の2つのラベルなしサンプルを前記第1非類似サンプルペアとして決定するステップと、を含む、請求項14に記載の方法。 - 抽出された各ラベルなしサンプルの特徴は、前記ラベルなしサンプルの分類結果であり、
前記抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップは、
分類結果が同一である任意の2つのラベルなしサンプルを前記第1類似サンプルペアとして決定するステップと、
分類結果が異なる任意の2つのラベルなしサンプルを前記第1非類似サンプルペアとして決定するステップと、を含む、請求項14に記載の方法。 - 前記対称ネットワークは、対称に配置された2つの畳み込みニューラルネットワークを有するシャム(Siamese)ネットワークであり、
前記文字認識のための分類ネットワークは、畳み込みニューラルネットワークである、請求項11に記載の方法。 - 前記訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップは、
訓練されたシャムネットワークにおける任意の1つの畳み込みニューラルネットワークのパラメータを用いて、前記分類ネットワークとなる畳み込みニューラルネットワークを初期化するステップ、を含む、請求項18に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2016/097521 WO2018039970A1 (zh) | 2016-08-31 | 2016-08-31 | 用于字符识别的分类网络的训练装置、字符识别装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019528520A JP2019528520A (ja) | 2019-10-10 |
JP6696622B2 true JP6696622B2 (ja) | 2020-05-20 |
Family
ID=61299688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019504733A Active JP6696622B2 (ja) | 2016-08-31 | 2016-08-31 | 文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6696622B2 (ja) |
CN (1) | CN109478229B (ja) |
WO (1) | WO2018039970A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102197155B1 (ko) * | 2019-10-22 | 2020-12-31 | 상명대학교산학협력단 | 동물 종 인식 장치 및 방법 |
CN113496277A (zh) | 2020-04-03 | 2021-10-12 | 三星电子株式会社 | 用于检索图像的神经网络装置及其操作方法 |
CN111507247B (zh) * | 2020-04-16 | 2023-04-18 | 华南理工大学 | 一种基于强化学习的古籍文字精准检测方法 |
CN111881943A (zh) * | 2020-07-08 | 2020-11-03 | 泰康保险集团股份有限公司 | 图像分类的方法、装置、设备和计算机可读介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005537526A (ja) * | 2001-10-11 | 2005-12-08 | エクスサイエンティア、エルエルシー | パターンの分類および決定価値の査定を学習するための方法および装置 |
RU2251736C2 (ru) * | 2002-12-17 | 2005-05-10 | "Аби Софтвер Лтд." | Способ идентификации зачеркнутых символов при распознавании рукописного текста |
CN101373519B (zh) * | 2007-08-20 | 2011-01-19 | 富士通株式会社 | 字符识别装置和方法 |
CN100589119C (zh) * | 2008-05-23 | 2010-02-10 | 中南民族大学 | 多字体多字号的基于彝文字符集的印刷体字符识别方法 |
CN102163284B (zh) * | 2011-04-11 | 2013-02-27 | 西安电子科技大学 | 面向中文环境的复杂场景文本定位方法 |
CN102324046A (zh) * | 2011-09-01 | 2012-01-18 | 西安电子科技大学 | 结合主动学习的四分类器协同训练方法 |
CN103577831B (zh) * | 2012-07-30 | 2016-12-21 | 国际商业机器公司 | 用于基于反馈来生成训练模型的方法和装置 |
CN104008384B (zh) * | 2013-02-26 | 2017-11-14 | 山东新北洋信息技术股份有限公司 | 字符识别方法和字符识别装置 |
CN104346628B (zh) * | 2013-08-01 | 2017-09-15 | 天津天地伟业数码科技有限公司 | 基于多尺度多方向Gabor特征的车牌汉字识别方法 |
CN103870803A (zh) * | 2013-10-21 | 2014-06-18 | 北京邮电大学 | 一种基于粗定位与精定位融合的车牌识别方法和系统 |
US10242313B2 (en) * | 2014-07-18 | 2019-03-26 | James LaRue | Joint proximity association template for neural networks |
CN104657744B (zh) * | 2015-01-29 | 2017-10-24 | 中国科学院信息工程研究所 | 一种基于非确定主动学习的多分类器训练方法及分类方法 |
CN105046196B (zh) * | 2015-06-11 | 2018-04-17 | 西安电子科技大学 | 基于级联卷积神经网络的前车车辆信息结构化输出方法 |
CN105139041A (zh) * | 2015-08-21 | 2015-12-09 | 北京旷视科技有限公司 | 基于图像的语种识别方法及装置 |
-
2016
- 2016-08-31 WO PCT/CN2016/097521 patent/WO2018039970A1/zh active Application Filing
- 2016-08-31 JP JP2019504733A patent/JP6696622B2/ja active Active
- 2016-08-31 CN CN201680087710.XA patent/CN109478229B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109478229B (zh) | 2021-08-10 |
JP2019528520A (ja) | 2019-10-10 |
CN109478229A (zh) | 2019-03-15 |
WO2018039970A1 (zh) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6696622B2 (ja) | 文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法 | |
CN110135411B (zh) | 名片识别方法和装置 | |
US10937166B2 (en) | Methods and systems for structured text detection, and non-transitory computer-readable medium | |
WO2017202232A1 (zh) | 名片内容识别方法、电子设备和存储介质 | |
US9436682B2 (en) | Techniques for machine language translation of text from an image based on non-textual context information from the image | |
JP2020119507A (ja) | 運転行動認識に用いられる深層学習モデル、訓練装置及び方法 | |
US20150262007A1 (en) | Detecting and extracting image document components to create flow document | |
JP7110493B2 (ja) | 深層モデルの訓練方法及びその装置、電子機器並びに記憶媒体 | |
WO2020063314A1 (zh) | 字符切分识别方法、装置、电子设备、存储介质 | |
WO2017118356A1 (zh) | 文本图像处理方法和装置 | |
CN104484643A (zh) | 一种手写表格的智能识别方法及系统 | |
US20150095769A1 (en) | Layout Analysis Method And System | |
CN104182750A (zh) | 一种在自然场景图像中基于极值连通域的中文检测方法 | |
CN108509988B (zh) | 一种试卷分数自动统计方法、装置、电子设备及存储介质 | |
EP2908267B1 (en) | Image processing device and image processing method | |
US20150235097A1 (en) | Segmentation of an Input by Cut Point Classification | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
CN109389115B (zh) | 文本识别方法、装置、存储介质和计算机设备 | |
WO2021051553A1 (zh) | 一种证件信息的分类定位方法及装置 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
CN110222234B (zh) | 一种视频分类方法和装置 | |
CN113221983A (zh) | 迁移学习模型的训练方法及装置、图像处理方法及装置 | |
RU2633182C1 (ru) | Определение направления строк текста | |
JP7320570B2 (ja) | 画像を処理するための方法、装置、機器、媒体およびプログラム | |
KR102161053B1 (ko) | 영상에 포함된 표의 구조를 생성하는 방법 및 이를 위한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190212 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200324 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6696622 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |