JP6696622B2 - 文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法 - Google Patents

文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法 Download PDF

Info

Publication number
JP6696622B2
JP6696622B2 JP2019504733A JP2019504733A JP6696622B2 JP 6696622 B2 JP6696622 B2 JP 6696622B2 JP 2019504733 A JP2019504733 A JP 2019504733A JP 2019504733 A JP2019504733 A JP 2019504733A JP 6696622 B2 JP6696622 B2 JP 6696622B2
Authority
JP
Japan
Prior art keywords
sample
network
unlabeled
sample pair
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019504733A
Other languages
English (en)
Other versions
JP2019528520A (ja
Inventor
ファヌ・ウエイ
俊 孫
俊 孫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2019528520A publication Critical patent/JP2019528520A/ja
Application granted granted Critical
Publication of JP6696622B2 publication Critical patent/JP6696622B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Description

本発明は、情報技術分野に関し、特に文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法に関する。
資料保存と情報化発展の必要性のために、文書資料の電子化への需要が益々高まっている。このため、文書画像における文字の認識が益々重要になっている。古代文献の漢字等のような特殊な文字に対する認識は、古典文献のデジタル化、古典籍の整理及び文化の保存において非常に重要である。しかし、現代漢字の認識に比べて、古代文献の漢字の認識は非常に困難な問題である。第1に、古代文献の漢字の数は現代の漢字の数よりも遥かに多い。第2に、古代文献の漢字の構造は現代の簡略化した漢字よりも遥かに複雑である。第3に、古代文献の漢字は複数の態様を有し、即ち、異なる歴史的な時期に大量の漢字が異なる書き方を有する。第4に、異なる筆記具(例えば毛筆)又は木版印刷の使用により、古代文献の漢字は複数のスタイルを有する。最後に、撮影又はスキャンされた古典籍の画像の劣化は現代の漢字に比べてより顕著である。
近年、光学式文字認識(OCR:Optical Character Recognition)分野の研究では、ディープラーニング方法(例えば畳み込みニューラルネットワーク)は従来の方法よりも著しく優れている。現在主に使用されている畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)をベースとした教師あり学習の方法は、通常何百万のサンプルの訓練(トレーニング)データが必要である。古代文献の漢字認識には十分なラベル付きサンプルが欠けているため、スキャン又は撮影により大量のラベルなしサンプルを取得し、自動的な文字分割方法を用いて分割を行い、人間により手作業でラベル付けを行うことで畳み込みニューラルネットワークを訓練するためのラベル付きサンプルを取得する必要がある。
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
上記従来の方法を用いて畳み込みニューラルネットワークを訓練する際に、大量の手作業でのラベル付けが必要であり、長い時間が必要であり、多くの労力及びコストが必要である。
本発明の実施例は、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる、文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法を提供する。
本発明の実施例の第1態様では、文字認識のための分類ネットワークの訓練装置であって、文字を含む各ラベルなしサンプルの特徴を抽出する抽出手段と、抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する構築手段と、構築された前記サンプルペアに基づいて、対称ネットワークを訓練する第1訓練手段と、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する初期化手段と、文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練する第2訓練手段と、を含む、装置を提供する。
本発明の実施例の第2態様では、本発明の実施例の第1態様に記載の装置により訓練された文字認識のための分類ネットワークを含む、文字認識装置を提供する。
本発明の実施例の第3態様では、文字認識のための分類ネットワークの訓練方法であって、文字を含む各ラベルなしサンプルの特徴を抽出するステップと、抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築するステップと、構築された前記サンプルペアに基づいて、対称ネットワークを訓練するステップと、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップと、文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練するステップと、を含む、方法を提供する。
本発明の有利な効果としては、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる。
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。
ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。
なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
本発明の実施例1の文字認識のための分類ネットワークの訓練装置を示す図である。 本発明の実施例1の構築部102を示す図である。 本発明の実施例1の第1決定部201を示す図である。 本発明の実施例1の第1決定部201を示す他の図である。 本発明の実施例1の対称ネットワークを示す図である。 本発明の実施例2の文字認識装置を示す図である。 本発明の実施例3の電子機器を示す図である。 本発明の実施例3の電子機器のシステム構成を示すブロック図である。 本発明の実施例4の文字認識のための分類ネットワークの訓練方法を示す図である。
本発明の上記及びその他の特徴は、図面及び下記の説明により理解できるものである。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。
<実施例1>
図1は本発明の実施例1の文字認識のための分類ネットワークの訓練装置を示す図である。図1に示すように、該訓練装置100は、抽出部101、構築部102、第1訓練部103、初期化部104及び第2訓練部105を含む。
抽出部101は、文字を含む各ラベルなしサンプルの特徴を抽出する。
構築部102は、抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する。
第1訓練部103は、構築されたサンプルペアに基づいて、対称ネットワークを訓練する。
初期化部104は、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する。
第2訓練部105は、文字を含むラベル付きサンプルを用いて、初期化された該分類ネットワークを訓練する。
本実施例によれば、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる。
本実施例では、文字を含むラベルなしサンプル及びラベル付きサンプルは、従来の方法を用いて取得されてもよく、各サンプルは、従来の文字分割方法を用いて、複数の文字を含む画像を分割して取得されてもよい。
本実施例では、該文字は任意の形態の文字、例えば現代の文字、古代文献の漢字であってもよいし、他の国の言語の文字であってもよい。本発明の実施例は該文字の種類に限定されず、本発明の実施例により訓練された文字認識のための分類ネットワークは、任意の形態の文字を認識するために用いられてもよく、古代文献の文字などの特殊な文字の認識に限定されない。
本実施例では、文字を含むラベルなしサンプル及びラベル付きサンプルの数は実際の状況に応じて設定されてもよく、本実施例はこれに限定されない。
本実施例では、抽出部101は、直接文字を含むラベルなしサンプルから文字の特徴を抽出してもよいし、文字を含むラベル付きサンプルを用いて訓練されたネットワークにラベルなしサンプルを入力し、出力結果を抽出された特徴としてもよい。
例えば、抽出部101は、従来の方法を用いて、字画やテクスチャ等の文字特徴を抽出特徴として直接抽出してもよい。
例えば、抽出部101は、ラベル付きサンプルを用いてネットワークを訓練し、該訓練されたネットワークにラベルなしサンプルを入力し、出力結果を抽出特徴としてもよい。例えば、該ネットワークは畳み込みニューラルネットワーク(CNN)であってもよい。また、例えば該畳み込みニューラルネットワークは分類器であってもよく、この場合は、抽出された特徴は、入力されたラベルなしサンプルの分類結果である。
本実施例では、抽出部101が各ラベルなしサンプルの特徴を抽出した後に、構築部102は抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する。以下は、本実施例の構築部102の構成及びサンプルペアの構築方法を例示的に説明する。
図2は本発明の実施例1の構築部102を示す図である。図2に示すように、構築部102は第1決定部201を含む。
第1決定部201は、抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定する。
本実施例では、第1決定部201により決定された第1類似サンプルペア及び第1非類似サンプルペアの数は実際の要求に応じて設定されてもよい。
以下は、第1決定部201の構成、並びに第1類似サンプルペア及び第1非類似サンプルペアの決定方法を例示的に説明する。
図3は本発明の実施例1の第1決定部201を示す図である。図3に示すように、第1決定部201は、第2計算部301、第4決定部302及び第5決定部303を含む。
第2計算部301は、抽出された各ラベルなしサンプルのうち任意の2つのラベルなしサンプルの特徴間の距離を計算する。
第4決定部302は、特徴間の距離が所定閾値よりも小さい任意の2つのラベルなしサンプルを第1類似サンプルペアとして決定する。
第5決定部303は、特徴間の距離が該所定閾値以上である任意の2つのラベルなしサンプルを第1非類似サンプルペアとして決定する。
本実施例では、第計算部301は従来の方法を用いて任意の2つのラベルなしサンプルの特徴間の距離を計算してもよく、該所定閾値は実際の要求に応じて設定されてもよい。
本実施例では、抽出部101により抽出された各ラベルなしサンプルの特徴が該ラベルなしサンプルの分類結果である場合は、第1決定部201は他の方法を用いて第1類似サンプルペア及び第1非類似サンプルペアを決定してもよい。
図4は本発明の実施例1の第1決定部201を示す他の図である。図4に示すように、第1決定部201は、第6決定部401及び第7決定部402を含む。
第6決定部401は、分類結果が同一である任意の2つのラベルなしサンプルを第1類似サンプルペアとして決定する。
第7決定部402は、分類結果が異なる任意の2つのラベルなしサンプルを第1非類似サンプルペアとして決定する。
以上は第1決定部201による第1類似サンプルペア及び第1非類似サンプルペアの決定方法を例示的に説明しているが、本発明の実施例はこれに限定されない。
本実施例では、図2に示す構築部102は、第2決定部202、第1計算部203及び第3決定部204をさらに含んでもよい。
第2決定部202は、ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の2つのラベル付きサンプルを第2類似サンプルペア又は第2非類似サンプルペアとして決定する。
第1計算部203は、決定された第2類似サンプルペアと第2非類似サンプルペアとの数の比を計算する。
第3決定部204は、第1類似サンプルペアと第1非類似サンプルペアとの数の比が第2類似サンプルペアと第2非類似サンプルペアとの数の比に等しくなるように、第1類似サンプルペアと第1非類似サンプルペアとの数の比を決定する。
このように、ラベル付きサンプルの第2類似サンプルペアと第2非類似サンプルペアとの数の比に基づいてラベルなしサンプルの第1類似サンプルペアと第1非類似サンプルペアとの数の比を決定することで、訓練された分類ネットワークの分類正確率をさらに向上させることができる。
本実施例では、第2決定部202は、ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の2つのラベル付きサンプルを第2類似サンプルペア又は第2非類似サンプルペアとして決定し、例えば、同一のラベルを有する任意の2つのラベル付きサンプルを第2類似サンプルペアとして決定し、異なるラベルを有する任意の2つのラベル付きサンプルを第2非類似サンプルペアとして決定する。
本実施例では、第1計算部203は、第1決定部201により決定された第2類似サンプルペアと第2非類似サンプルペアとの数の比を計算し、第3決定部204は、第1類似サンプルペアと第1非類似サンプルペアとの数の比が第2類似サンプルペアと第2非類似サンプルペアとの数の比に等しくなるように、第1類似サンプルペアと第1非類似サンプルペアとの数の比を決定する。
例えば、第1決定部201により十分に多い第1類似サンプルペア及び第1非類似サンプルペアが既に決定された場合は、第3決定部204は、第1類似サンプルペアと第1非類似サンプルペアとの数の比が第2類似サンプルペアと第2非類似サンプルペアとの数の比に等しくなるように、第1類似サンプルペア及び第1非類似サンプルペアを選択する。或いは、第3決定部204が第1類似サンプルペアと第1非類似サンプルペアとの数の比を決定した後に、第1決定部201は、該数の比に基づいて第1類似サンプルペア及び第1非類似サンプルペアを決定する。
本実施例では、第1訓練部103は、構築部102により構築されたサンプルペアに基づいて、対称ネットワークを訓練する。例えば、該対称ネットワークは、対称に配置された2つの畳み込みニューラルネットワーク(CNN)を有するSiamese(シャム)ネットワークである。図5は本発明の実施例1の対称ネットワークを示す図である。図5に示すように、Siameseネットワーク500における2つの畳み込みニューラルネットワークCNN1及びCNN2は対称に配置され、CNN1及びCNN2は従来のCNNの構成を用いてもよく、両者の構成及びパラメータは完全に同一である。
本実施例では、従来の方法を用いて、構築されたサンプルペアに基づいて対称ネットワークを訓練してもよい。例えば、構築されたサンプルペアをペア毎にSiameseネットワークに入力し、該サンプルペアにおける1つのサンプルをCNN1に入力し、もう1つのサンプルをCNN2に入力し、Siameseネットワークの出力側において、CNN1とCNN2の対比損失に基づいて、Siameseネットワークの損失を計算する。そして、CNN1及びCNN2において該Siameseネットワークの損失を各層を介してフィードバックして、CNN1及びCNN2における各層のパラメータを補正する。Siameseネットワークの損失が所定の収束条件を満たすまで、上記ステップを繰り返した後に、訓練を終了させる。
本実施例では、初期化部104は、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する。例えば、文字認識のための分類ネットワークは畳み込みニューラルネットワーク(CNN)であり、該畳み込みニューラルネットワークは従来の構成を用いてもよい。訓練されたSiameseネットワークにおける任意の1つの畳み込みニューラルネットワークのパラメータを用いて、分類ネットワークとなる畳み込みニューラルネットワークを初期化する。
本実施例では、初期化のパラメータは、畳み込みニューラルネットワークの各畳み込み層のパラメータを含んでもよく、全結合層のパラメータをさらに含んでもよい。
本実施例では、第2訓練部105は、文字を含むラベル付きサンプルを用いて、初期化された分類ネットワークを訓練し、訓練された文字認識のための分類ネットワークを取得する。本実施例では、第2訓練部105は、従来の方法を用いて、初期化された分類ネットワークを訓練してもよい。
例えば、初期化された畳み込みニューラルネットワークに文字を含むラベル付きサンプルをサンプル毎に入力し、出力側においてネットワークの損失を計算する。そして、畳み込みニューラルネットワークにおいて該ネットワークの損失を各層を介してフィードバックして、畳み込みニューラルネットワークにおける各層のパラメータを補正する。畳み込みニューラルネットワークのネットワーク損失が所定の収束条件を満たすまで、上記ステップを繰り返した後に、訓練を終了させる。
本実施例では、図1に示す訓練装置100は判断部106をさらに含んでもよい。
判断部106は、訓練された分類ネットワークが所定条件を満たすか否かを判断し、訓練された分類ネットワークが所定条件を満たさない場合は、訓練された分類ネットワークを用いて、該文字を含む各ラベルなしサンプルの特徴を抽出し、訓練された分類ネットワークが該所定条件を満たす場合は、訓練された分類ネットワークを出力する。
本実施例では、該判断部106はオプションの構成要素であり、図1において破線の枠で示されている。
本実施例では、該所定条件は実際の要求に応じて設定されてもよい。例えば、該所定条件は、反復回数が所定の回数に達したこと、又は、訓練された分類ネットワークの分類正確率が収束すること、即ち現在の訓練された分類ネットワークの分類正確率と前回の訓練された分類ネットワークの分類正確率との差が所定閾値よりも小さいことである。
このように、現在の訓練された分類ネットワークが所定条件を満たさない場合は、訓練された分類ネットワークを用いて、文字を含む各ラベルなしサンプルの特徴を抽出する。即ち、この場合は、訓練された分類ネットワークが所定条件を満たすまで、抽出部101が現在の訓練された分類ネットワークに基づいて文字を含む各ラベルなしサンプルの特徴を抽出し、サンプルペアを再構築し、対称ネットワークを訓練し、分類ネットワークを初期化し、分類ネットワークを訓練する。このような反復処理により、訓練された分類ネットワークの認識正確率をさらに向上させることができる。
本実施例によれば、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる。
<実施例2>
本発明の実施例は、実施例1に記載された訓練装置により訓練された文字認識のための分類ネットワークを含む文字認識装置をさらに提供する。
図6は本発明の実施例2の文字認識装置を示す図である。図6に示すように、文字認識装置600は、文字認識のための分類ネットワーク601を含む。
分類ネットワーク601は訓練装置により訓練されたものである。ここで、該訓練¥装置の構成及び機能は実施例1に記載されたものと同じであり、ここでその説明を省略する。
例えば、文字認識装置は記憶部を含み、該記憶部には、実施例1に記載された訓練装置により訓練された文字認識のための分類ネットワークが記憶されている。
本実施例によれば、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる。
<実施例3>
本発明の実施例は電子機器をさらに提供し、図7は本発明の実施例3の電子機器を示す図である。図7に示すように、電子機器700は訓練装置701又は文字認識装置702を含む。ここで、訓練装置701の構成及び機能は実施例1に記載されたものと同じであり、文字認識装置702の構成及び機能は実施例2に記載されたものと同じであり、ここでその説明を省略する。
図8は本発明の実施例3の電子機器のシステム構成を示すブロック図である。図8に示すように、電子機器800は、中央処理装置(中央制御装置)801及び記憶装置802を含んでもよく、記憶装置802は中央処理装置801に接続される。該図は単なる例示的なものであり、電気通信機能又は他の機能を実現するように、他の種類の構成を用いて、該構成を補充又は代替してもよい。
図8に示すように、電子機器800は、入力部803、ディスプレイ804及び電源805をさらに含んでもよい。
1つの態様では、実施例1の訓練装置の機能は中央処理装置801に統合されてもよい。ここで、中央処理装置801は、文字を含む各ラベルなしサンプルの特徴を抽出し、抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築し、構築された該サンプルペアに基づいて、対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化し、文字を含むラベル付きサンプルを用いて、初期化された該分類ネットワークを訓練するように構成されてもよい。
ここで、中央処理装置801は、訓練された該分類ネットワークが所定条件を満たすか否かを判断し、訓練された該分類ネットワークが該所定条件を満たさない場合は、訓練された該分類ネットワークを用いて該文字を含む各ラベルなしサンプルの特徴を抽出し、訓練された該分類ネットワークが該所定条件を満たす場合は、訓練された該分類ネットワークを出力するようにさらに構成されてもよい。
ここで、該文字を含む各ラベルなしサンプルの特徴を抽出するステップは、直接文字を含む該ラベルなしサンプルから文字の特徴を抽出するステップ、又は、文字を含むラベル付きサンプルを用いて訓練されたネットワークに該ラベルなしサンプルを入力し、出力結果を抽出された特徴とするステップ、を含む。
ここで、該抽出された各ラベルなしサンプルの特徴に基づいてサンプルペアを構築するステップは、抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップ、を含む。該ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の2つのラベル付きサンプルを第2類似サンプルペア又は第2非類似サンプルペアとして決定するステップと、決定された該第2類似サンプルペアと該第2非類似サンプルペアとの数の比を計算するステップと、該第1類似サンプルペアと該第1非類似サンプルペアとの数の比が該第2類似サンプルペアと該第2非類似サンプルペアとの数の比に等しくなるように、該第1類似サンプルペアと該第1非類似サンプルペアとの数の比を決定するステップと、をさらに含んでもよい。
ここで、該抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップは、抽出された各ラベルなしサンプルのうち任意の2つのラベルなしサンプルの特徴間の距離を計算するステップと、特徴間の距離が所定閾値よりも小さい任意の2つのラベルなしサンプルを該第1類似サンプルペアとして決定するステップと、特徴間の距離が該所定閾値以上である任意の2つのラベルなしサンプルを該第1非類似サンプルペアとして決定するステップと、を含む。
ここで、抽出された各ラベルなしサンプルの特徴は、該ラベルなしサンプルの分類結果であり、該抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップは、分類結果が同一である任意の2つのラベルなしサンプルを該第1類似サンプルペアとして決定するステップと、分類結果が異なる任意の2つのラベルなしサンプルを該第1非類似サンプルペアとして決定するステップと、を含む。
ここで、該対称ネットワークは、対称に配置された2つの畳み込みニューラルネットワークを有するシャム(Siamese)ネットワークであり、該文字認識のための分類ネットワークは、畳み込みニューラルネットワークである。
ここで、該訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップは、訓練されたシャムネットワークにおける任意の1つの畳み込みニューラルネットワークのパラメータを用いて、該分類ネットワークとなる畳み込みニューラルネットワークを初期化するステップ、を含む。
もう1つの態様では、実施例1に記載された訓練装置は中央処理装置801とそれぞれ構成されてもよく、例えば訓練装置は中央処理装置801に接続されたチップであり、中央処理装置801の制御により該訓練装置の機能を実現してもよい。
本実施例における電子機器800は、図8に示されている全ての構成部を含まなくてもよい。
図8に示すように、中央処理装置801は、コントローラ又は操作制御部とも称され、マイクロプロセッサ又は他の処理装置及び/又は論理装置を含んでもよく、中央処理装置801は入力を受信し、電子機器800の各部の操作を制御する。
記憶装置802は、例えばバッファ、フラッシュメモリ、ハードディスク、移動可能な媒体、発揮性メモリ、不発揮性メモリ、又は他の適切な装置の1つ又は複数であってもよい。また、中央処理装置801は、記憶装置802に記憶されたプログラムを実行し、情報の記憶又は処理などを実現してもよい。他の構成要素は従来技術に類似するため、ここでその説明が省略される。電子機器800の各部は、本発明の範囲から逸脱することなく、特定のハードウェア、ファームウェア、ソフトウェア又はその組み合わせによって実現されてもよい。
本実施例によれば、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる。
<実施例4>
本発明の実施例は文字認識のための分類ネットワークの訓練方法をさらに提供し、該訓練方法は実施例1の文字認識のための分類ネットワークの訓練装置に対応する。図9は本発明の実施例4の文字認識のための分類ネットワークの訓練方法を示す図である。図9に示すように、該方法は以下のステップを含む。
ステップ901:文字を含む各ラベルなしサンプルの特徴を抽出する。
ステップ902:抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する。
ステップ903:構築されたサンプルペアに基づいて、対称ネットワークを訓練する。
ステップ904:訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する。
ステップ905:文字を含むラベル付きサンプルを用いて、初期化された分類ネットワークを訓練する。
ステップ906:訓練された分類ネットワークが所定条件を満たすか否かを判断する。判断結果が「NO」の場合は、ステップ901に進み、訓練された分類ネットワークを用いて、文字を含む各ラベルなしサンプルの特徴を抽出する。判断結果が「YES」の場合は、ステップ907に進む。
ステップ907:訓練された分類ネットワークを出力する。
本実施例では、特徴の抽出方法、サンプルペアの構築方法、対称ネットワークの訓練方法、分類ネットワークの初期化方法、分類ネットワークの訓練方法、及び訓練された分類ネットワークが所定条件を満たすか否かを判断する方法は、実施例1に記載されたものと同じであり、ここでその説明を省略する。
本実施例によれば、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる。
本発明の実施例は、文字認識のための分類ネットワークの訓練装置又は電子機器においてプログラムを実行する際に、コンピュータに、該文字認識のための分類ネットワークの訓練装置又は電子機器において上記実施例4に記載の訓練方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。
本発明の実施例は、コンピュータに、文字認識のための分類ネットワークの訓練装置又は電子機器において上記実施例4に記載の訓練方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。
本発明の実施例を参照しながら説明した文字認識のための分類ネットワークの訓練装置において実行される訓練方法は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図1に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図9に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD−ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA−SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA−SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
図1に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本願に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図1に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理から離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。

Claims (19)

  1. 文字認識のための分類ネットワークの訓練装置であって、
    文字を含む各ラベルなしサンプルの特徴を抽出する抽出手段と、
    抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する構築手段と、
    構築された前記サンプルペアに基づいて、対称ネットワークを訓練する第1訓練手段と、
    訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する初期化手段と、
    文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練する第2訓練手段と、を含む、装置。
  2. 訓練された前記分類ネットワークが所定条件を満たすか否かを判断し、訓練された前記分類ネットワークが前記所定条件を満たさない場合は、訓練された前記分類ネットワークを用いて前記文字を含む各ラベルなしサンプルの特徴を抽出し、訓練された前記分類ネットワークが前記所定条件を満たす場合は、訓練された前記分類ネットワークを出力する判断手段、をさらに含む、請求項1に記載の装置。
  3. 前記抽出手段は、
    直接文字を含む前記ラベルなしサンプルから文字の特徴を抽出し、或いは、
    文字を含むラベル付きサンプルを用いて訓練されたネットワークに前記ラベルなしサンプルを入力し、出力結果を抽出された特徴とする、請求項1に記載の装置。
  4. 前記構築手段は、
    抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定する第1決定手段、を含む、請求項1に記載の装置。
  5. 前記構築手段は、
    前記ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の2つのラベル付きサンプルを第2類似サンプルペア又は第2非類似サンプルペアとして決定する第2決定手段と、
    決定された前記第2類似サンプルペアと前記第2非類似サンプルペアとの数の比を計算する第1計算手段と、
    前記第1類似サンプルペアと前記第1非類似サンプルペアとの数の比が前記第2類似サンプルペアと前記第2非類似サンプルペアとの数の比に等しくなるように、前記第1類似サンプルペアと前記第1非類似サンプルペアとの数の比を決定する第3決定手段と、をさらに含む、請求項4に記載の装置。
  6. 前記第1決定手段は、
    抽出された各ラベルなしサンプルのうち任意の2つのラベルなしサンプルの特徴間の距離を計算する第2計算手段と、
    特徴間の距離が所定閾値よりも小さい任意の2つのラベルなしサンプルを前記第1類似サンプルペアとして決定する第4決定手段と、
    特徴間の距離が前記所定閾値以上である任意の2つのラベルなしサンプルを前記第1非類似サンプルペアとして決定する第5決定手段と、を含む、請求項4に記載の装置。
  7. 前記抽出手段により抽出された特徴は、前記ラベルなしサンプルの分類結果であり、
    前記第1決定手段は、
    分類結果が同一である任意の2つのラベルなしサンプルを前記第1類似サンプルペアとして決定する第6決定手段と、
    分類結果が異なる任意の2つのラベルなしサンプルを前記第1非類似サンプルペアとして決定する第7決定手段と、を含む、請求項4に記載の装置。
  8. 前記対称ネットワークは、対称に配置された2つの畳み込みニューラルネットワークを有するシャム(Siamese)ネットワークであり、
    前記文字認識のための分類ネットワークは、畳み込みニューラルネットワークである、請求項1に記載の装置。
  9. 前記初期化手段は、訓練されたシャムネットワークにおける任意の1つの畳み込みニューラルネットワークのパラメータを用いて、前記分類ネットワークとなる畳み込みニューラルネットワークを初期化する、請求項8に記載の装置。
  10. 請求項1乃至9の何れかに記載の装置により訓練された文字認識のための分類ネットワークを含む、文字認識装置。
  11. 文字認識のための分類ネットワークの訓練方法であって、
    文字を含む各ラベルなしサンプルの特徴を抽出するステップと、
    抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築するステップと、
    構築された前記サンプルペアに基づいて、対称ネットワークを訓練するステップと、
    訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップと、
    文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練するステップと、を含む、方法。
  12. 訓練された前記分類ネットワークが所定条件を満たすか否かを判断するステップと、
    訓練された前記分類ネットワークが前記所定条件を満たさない場合は、訓練された前記分類ネットワークを用いて前記文字を含む各ラベルなしサンプルの特徴を抽出するステップと、
    訓練された前記分類ネットワークが前記所定条件を満たす場合は、訓練された前記分類ネットワークを出力するステップと、をさらに含む、請求項11に記載の方法。
  13. 前記文字を含む各ラベルなしサンプルの特徴を抽出するステップは、
    直接文字を含む前記ラベルなしサンプルから文字の特徴を抽出するステップ、又は、
    文字を含むラベル付きサンプルを用いて訓練されたネットワークに前記ラベルなしサンプルを入力し、出力結果を抽出された特徴とするステップ、を含む、請求項11に記載の方法。
  14. 前記抽出された各ラベルなしサンプルの特徴に基づいてサンプルペアを構築するステップは、
    抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップ、を含む、請求項11に記載の方法。
  15. 前記抽出された各ラベルなしサンプルの特徴に基づいてサンプルペアを構築するステップは、
    前記ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の2つのラベル付きサンプルを第2類似サンプルペア又は第2非類似サンプルペアとして決定するステップと、
    決定された前記第2類似サンプルペアと前記第2非類似サンプルペアとの数の比を計算するステップと、
    前記第1類似サンプルペアと前記第1非類似サンプルペアとの数の比が前記第2類似サンプルペアと前記第2非類似サンプルペアとの数の比に等しくなるように、前記第1類似サンプルペアと前記第1非類似サンプルペアとの数の比を決定するステップと、をさらに含む、請求項14に記載の方法。
  16. 前記抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップは、
    抽出された各ラベルなしサンプルのうち任意の2つのラベルなしサンプルの特徴間の距離を計算するステップと、
    特徴間の距離が所定閾値よりも小さい任意の2つのラベルなしサンプルを前記第1類似サンプルペアとして決定するステップと、
    特徴間の距離が前記所定閾値以上である任意の2つのラベルなしサンプルを前記第1非類似サンプルペアとして決定するステップと、を含む、請求項14に記載の方法。
  17. 抽出された各ラベルなしサンプルの特徴は、前記ラベルなしサンプルの分類結果であり、
    前記抽出された各ラベルなしサンプルの特徴に基づいて、第1類似サンプルペア及び第1非類似サンプルペアを決定するステップは、
    分類結果が同一である任意の2つのラベルなしサンプルを前記第1類似サンプルペアとして決定するステップと、
    分類結果が異なる任意の2つのラベルなしサンプルを前記第1非類似サンプルペアとして決定するステップと、を含む、請求項14に記載の方法。
  18. 前記対称ネットワークは、対称に配置された2つの畳み込みニューラルネットワークを有するシャム(Siamese)ネットワークであり、
    前記文字認識のための分類ネットワークは、畳み込みニューラルネットワークである、請求項11に記載の方法。
  19. 前記訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップは、
    訓練されたシャムネットワークにおける任意の1つの畳み込みニューラルネットワークのパラメータを用いて、前記分類ネットワークとなる畳み込みニューラルネットワークを初期化するステップ、を含む、請求項18に記載の方法。
JP2019504733A 2016-08-31 2016-08-31 文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法 Active JP6696622B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/097521 WO2018039970A1 (zh) 2016-08-31 2016-08-31 用于字符识别的分类网络的训练装置、字符识别装置及方法

Publications (2)

Publication Number Publication Date
JP2019528520A JP2019528520A (ja) 2019-10-10
JP6696622B2 true JP6696622B2 (ja) 2020-05-20

Family

ID=61299688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019504733A Active JP6696622B2 (ja) 2016-08-31 2016-08-31 文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法

Country Status (3)

Country Link
JP (1) JP6696622B2 (ja)
CN (1) CN109478229B (ja)
WO (1) WO2018039970A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102197155B1 (ko) * 2019-10-22 2020-12-31 상명대학교산학협력단 동물 종 인식 장치 및 방법
CN113496277A (zh) 2020-04-03 2021-10-12 三星电子株式会社 用于检索图像的神经网络装置及其操作方法
CN111507247B (zh) * 2020-04-16 2023-04-18 华南理工大学 一种基于强化学习的古籍文字精准检测方法
CN111881943A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 图像分类的方法、装置、设备和计算机可读介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005537526A (ja) * 2001-10-11 2005-12-08 エクスサイエンティア、エルエルシー パターンの分類および決定価値の査定を学習するための方法および装置
RU2251736C2 (ru) * 2002-12-17 2005-05-10 "Аби Софтвер Лтд." Способ идентификации зачеркнутых символов при распознавании рукописного текста
CN101373519B (zh) * 2007-08-20 2011-01-19 富士通株式会社 字符识别装置和方法
CN100589119C (zh) * 2008-05-23 2010-02-10 中南民族大学 多字体多字号的基于彝文字符集的印刷体字符识别方法
CN102163284B (zh) * 2011-04-11 2013-02-27 西安电子科技大学 面向中文环境的复杂场景文本定位方法
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法
CN103577831B (zh) * 2012-07-30 2016-12-21 国际商业机器公司 用于基于反馈来生成训练模型的方法和装置
CN104008384B (zh) * 2013-02-26 2017-11-14 山东新北洋信息技术股份有限公司 字符识别方法和字符识别装置
CN104346628B (zh) * 2013-08-01 2017-09-15 天津天地伟业数码科技有限公司 基于多尺度多方向Gabor特征的车牌汉字识别方法
CN103870803A (zh) * 2013-10-21 2014-06-18 北京邮电大学 一种基于粗定位与精定位融合的车牌识别方法和系统
US10242313B2 (en) * 2014-07-18 2019-03-26 James LaRue Joint proximity association template for neural networks
CN104657744B (zh) * 2015-01-29 2017-10-24 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN105046196B (zh) * 2015-06-11 2018-04-17 西安电子科技大学 基于级联卷积神经网络的前车车辆信息结构化输出方法
CN105139041A (zh) * 2015-08-21 2015-12-09 北京旷视科技有限公司 基于图像的语种识别方法及装置

Also Published As

Publication number Publication date
CN109478229B (zh) 2021-08-10
JP2019528520A (ja) 2019-10-10
CN109478229A (zh) 2019-03-15
WO2018039970A1 (zh) 2018-03-08

Similar Documents

Publication Publication Date Title
JP6696622B2 (ja) 文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法
CN110135411B (zh) 名片识别方法和装置
US10937166B2 (en) Methods and systems for structured text detection, and non-transitory computer-readable medium
WO2017202232A1 (zh) 名片内容识别方法、电子设备和存储介质
US9436682B2 (en) Techniques for machine language translation of text from an image based on non-textual context information from the image
JP2020119507A (ja) 運転行動認識に用いられる深層学習モデル、訓練装置及び方法
US20150262007A1 (en) Detecting and extracting image document components to create flow document
JP7110493B2 (ja) 深層モデルの訓練方法及びその装置、電子機器並びに記憶媒体
WO2020063314A1 (zh) 字符切分识别方法、装置、电子设备、存储介质
WO2017118356A1 (zh) 文本图像处理方法和装置
CN104484643A (zh) 一种手写表格的智能识别方法及系统
US20150095769A1 (en) Layout Analysis Method And System
CN104182750A (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN108509988B (zh) 一种试卷分数自动统计方法、装置、电子设备及存储介质
EP2908267B1 (en) Image processing device and image processing method
US20150235097A1 (en) Segmentation of an Input by Cut Point Classification
WO2021042505A1 (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
WO2021051553A1 (zh) 一种证件信息的分类定位方法及装置
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN110222234B (zh) 一种视频分类方法和装置
CN113221983A (zh) 迁移学习模型的训练方法及装置、图像处理方法及装置
RU2633182C1 (ru) Определение направления строк текста
JP7320570B2 (ja) 画像を処理するための方法、装置、機器、媒体およびプログラム
KR102161053B1 (ko) 영상에 포함된 표의 구조를 생성하는 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190212

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200406

R150 Certificate of patent or registration of utility model

Ref document number: 6696622

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150