JP6696622B2

JP6696622B2 - 文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法

Info

Publication number: JP6696622B2
Application number: JP2019504733A
Authority: JP
Inventors: ファヌ・ウエイ; 俊孫
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2020-05-20
Anticipated expiration: 2036-08-31
Also published as: CN109478229B; JP2019528520A; CN109478229A; WO2018039970A1

Description

本発明は、情報技術分野に関し、特に文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法に関する。

資料保存と情報化発展の必要性のために、文書資料の電子化への需要が益々高まっている。このため、文書画像における文字の認識が益々重要になっている。古代文献の漢字等のような特殊な文字に対する認識は、古典文献のデジタル化、古典籍の整理及び文化の保存において非常に重要である。しかし、現代漢字の認識に比べて、古代文献の漢字の認識は非常に困難な問題である。第１に、古代文献の漢字の数は現代の漢字の数よりも遥かに多い。第２に、古代文献の漢字の構造は現代の簡略化した漢字よりも遥かに複雑である。第３に、古代文献の漢字は複数の態様を有し、即ち、異なる歴史的な時期に大量の漢字が異なる書き方を有する。第４に、異なる筆記具（例えば毛筆）又は木版印刷の使用により、古代文献の漢字は複数のスタイルを有する。最後に、撮影又はスキャンされた古典籍の画像の劣化は現代の漢字に比べてより顕著である。

近年、光学式文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）分野の研究では、ディープラーニング方法（例えば畳み込みニューラルネットワーク）は従来の方法よりも著しく優れている。現在主に使用されている畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）をベースとした教師あり学習の方法は、通常何百万のサンプルの訓練（トレーニング）データが必要である。古代文献の漢字認識には十分なラベル付きサンプルが欠けているため、スキャン又は撮影により大量のラベルなしサンプルを取得し、自動的な文字分割方法を用いて分割を行い、人間により手作業でラベル付けを行うことで畳み込みニューラルネットワークを訓練するためのラベル付きサンプルを取得する必要がある。

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。

上記従来の方法を用いて畳み込みニューラルネットワークを訓練する際に、大量の手作業でのラベル付けが必要であり、長い時間が必要であり、多くの労力及びコストが必要である。

本発明の実施例は、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる、文字認識のための分類ネットワークの訓練装置、文字認識装置及び方法を提供する。

本発明の実施例の第１態様では、文字認識のための分類ネットワークの訓練装置であって、文字を含む各ラベルなしサンプルの特徴を抽出する抽出手段と、抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する構築手段と、構築された前記サンプルペアに基づいて、対称ネットワークを訓練する第１訓練手段と、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する初期化手段と、文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練する第２訓練手段と、を含む、装置を提供する。

本発明の実施例の第２態様では、本発明の実施例の第１態様に記載の装置により訓練された文字認識のための分類ネットワークを含む、文字認識装置を提供する。

本発明の実施例の第３態様では、文字認識のための分類ネットワークの訓練方法であって、文字を含む各ラベルなしサンプルの特徴を抽出するステップと、抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築するステップと、構築された前記サンプルペアに基づいて、対称ネットワークを訓練するステップと、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップと、文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練するステップと、を含む、方法を提供する。

本発明の有利な効果としては、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる。

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。

ある一つの実施形態に説明及び又は示されている特徴は、同一又は類似の方式で一つ又は多くの他の実施形態に使用されてもよく、他の実施形態における特徴と組み合わせてもよく、他の実施形態における特徴を代替してもよい。

なお、用語「包括／含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。

ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
本発明の実施例１の文字認識のための分類ネットワークの訓練装置を示す図である。本発明の実施例１の構築部１０２を示す図である。本発明の実施例１の第１決定部２０１を示す図である。本発明の実施例１の第１決定部２０１を示す他の図である。本発明の実施例１の対称ネットワークを示す図である。本発明の実施例２の文字認識装置を示す図である。本発明の実施例３の電子機器を示す図である。本発明の実施例３の電子機器のシステム構成を示すブロック図である。本発明の実施例４の文字認識のための分類ネットワークの訓練方法を示す図である。

本発明の上記及びその他の特徴は、図面及び下記の説明により理解できるものである。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。

＜実施例１＞
図１は本発明の実施例１の文字認識のための分類ネットワークの訓練装置を示す図である。図１に示すように、該訓練装置１００は、抽出部１０１、構築部１０２、第１訓練部１０３、初期化部１０４及び第２訓練部１０５を含む。

抽出部１０１は、文字を含む各ラベルなしサンプルの特徴を抽出する。

構築部１０２は、抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する。

第１訓練部１０３は、構築されたサンプルペアに基づいて、対称ネットワークを訓練する。

初期化部１０４は、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する。

第２訓練部１０５は、文字を含むラベル付きサンプルを用いて、初期化された該分類ネットワークを訓練する。

本実施例によれば、ラベルなしサンプルについてサンプルペアを構築して対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて分類ネットワークを初期化し、ラベル付きサンプルを用いて初期化された分類ネットワークを訓練することで、分類ネットワークの認識の正確率を向上させることができ、ラベル付けのコストを効果的に節約することができる。

本実施例では、文字を含むラベルなしサンプル及びラベル付きサンプルは、従来の方法を用いて取得されてもよく、各サンプルは、従来の文字分割方法を用いて、複数の文字を含む画像を分割して取得されてもよい。

本実施例では、該文字は任意の形態の文字、例えば現代の文字、古代文献の漢字であってもよいし、他の国の言語の文字であってもよい。本発明の実施例は該文字の種類に限定されず、本発明の実施例により訓練された文字認識のための分類ネットワークは、任意の形態の文字を認識するために用いられてもよく、古代文献の文字などの特殊な文字の認識に限定されない。

本実施例では、文字を含むラベルなしサンプル及びラベル付きサンプルの数は実際の状況に応じて設定されてもよく、本実施例はこれに限定されない。

本実施例では、抽出部１０１は、直接文字を含むラベルなしサンプルから文字の特徴を抽出してもよいし、文字を含むラベル付きサンプルを用いて訓練されたネットワークにラベルなしサンプルを入力し、出力結果を抽出された特徴としてもよい。

例えば、抽出部１０１は、従来の方法を用いて、字画やテクスチャ等の文字特徴を抽出特徴として直接抽出してもよい。

例えば、抽出部１０１は、ラベル付きサンプルを用いてネットワークを訓練し、該訓練されたネットワークにラベルなしサンプルを入力し、出力結果を抽出特徴としてもよい。例えば、該ネットワークは畳み込みニューラルネットワーク（ＣＮＮ）であってもよい。また、例えば該畳み込みニューラルネットワークは分類器であってもよく、この場合は、抽出された特徴は、入力されたラベルなしサンプルの分類結果である。

本実施例では、抽出部１０１が各ラベルなしサンプルの特徴を抽出した後に、構築部１０２は抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する。以下は、本実施例の構築部１０２の構成及びサンプルペアの構築方法を例示的に説明する。

図２は本発明の実施例１の構築部１０２を示す図である。図２に示すように、構築部１０２は第１決定部２０１を含む。

第１決定部２０１は、抽出された各ラベルなしサンプルの特徴に基づいて、第１類似サンプルペア及び第１非類似サンプルペアを決定する。

本実施例では、第１決定部２０１により決定された第１類似サンプルペア及び第１非類似サンプルペアの数は実際の要求に応じて設定されてもよい。

以下は、第１決定部２０１の構成、並びに第１類似サンプルペア及び第１非類似サンプルペアの決定方法を例示的に説明する。

図３は本発明の実施例１の第１決定部２０１を示す図である。図３に示すように、第１決定部２０１は、第２計算部３０１、第４決定部３０２及び第５決定部３０３を含む。

第２計算部３０１は、抽出された各ラベルなしサンプルのうち任意の２つのラベルなしサンプルの特徴間の距離を計算する。

第４決定部３０２は、特徴間の距離が所定閾値よりも小さい任意の２つのラベルなしサンプルを第１類似サンプルペアとして決定する。

第５決定部３０３は、特徴間の距離が該所定閾値以上である任意の２つのラベルなしサンプルを第１非類似サンプルペアとして決定する。

本実施例では、第２計算部３０１は従来の方法を用いて任意の２つのラベルなしサンプルの特徴間の距離を計算してもよく、該所定閾値は実際の要求に応じて設定されてもよい。

本実施例では、抽出部１０１により抽出された各ラベルなしサンプルの特徴が該ラベルなしサンプルの分類結果である場合は、第１決定部２０１は他の方法を用いて第１類似サンプルペア及び第１非類似サンプルペアを決定してもよい。

図４は本発明の実施例１の第１決定部２０１を示す他の図である。図４に示すように、第１決定部２０１は、第６決定部４０１及び第７決定部４０２を含む。

第６決定部４０１は、分類結果が同一である任意の２つのラベルなしサンプルを第１類似サンプルペアとして決定する。

第７決定部４０２は、分類結果が異なる任意の２つのラベルなしサンプルを第１非類似サンプルペアとして決定する。

以上は第１決定部２０１による第１類似サンプルペア及び第１非類似サンプルペアの決定方法を例示的に説明しているが、本発明の実施例はこれに限定されない。

本実施例では、図２に示す構築部１０２は、第２決定部２０２、第１計算部２０３及び第３決定部２０４をさらに含んでもよい。

第２決定部２０２は、ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の２つのラベル付きサンプルを第２類似サンプルペア又は第２非類似サンプルペアとして決定する。

第１計算部２０３は、決定された第２類似サンプルペアと第２非類似サンプルペアとの数の比を計算する。

第３決定部２０４は、第１類似サンプルペアと第１非類似サンプルペアとの数の比が第２類似サンプルペアと第２非類似サンプルペアとの数の比に等しくなるように、第１類似サンプルペアと第１非類似サンプルペアとの数の比を決定する。

このように、ラベル付きサンプルの第２類似サンプルペアと第２非類似サンプルペアとの数の比に基づいてラベルなしサンプルの第１類似サンプルペアと第１非類似サンプルペアとの数の比を決定することで、訓練された分類ネットワークの分類正確率をさらに向上させることができる。

本実施例では、第２決定部２０２は、ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の２つのラベル付きサンプルを第２類似サンプルペア又は第２非類似サンプルペアとして決定し、例えば、同一のラベルを有する任意の２つのラベル付きサンプルを第２類似サンプルペアとして決定し、異なるラベルを有する任意の２つのラベル付きサンプルを第２非類似サンプルペアとして決定する。

本実施例では、第１計算部２０３は、第１決定部２０１により決定された第２類似サンプルペアと第２非類似サンプルペアとの数の比を計算し、第３決定部２０４は、第１類似サンプルペアと第１非類似サンプルペアとの数の比が第２類似サンプルペアと第２非類似サンプルペアとの数の比に等しくなるように、第１類似サンプルペアと第１非類似サンプルペアとの数の比を決定する。

例えば、第１決定部２０１により十分に多い第１類似サンプルペア及び第１非類似サンプルペアが既に決定された場合は、第３決定部２０４は、第１類似サンプルペアと第１非類似サンプルペアとの数の比が第２類似サンプルペアと第２非類似サンプルペアとの数の比に等しくなるように、第１類似サンプルペア及び第１非類似サンプルペアを選択する。或いは、第３決定部２０４が第１類似サンプルペアと第１非類似サンプルペアとの数の比を決定した後に、第１決定部２０１は、該数の比に基づいて第１類似サンプルペア及び第１非類似サンプルペアを決定する。

本実施例では、第１訓練部１０３は、構築部１０２により構築されたサンプルペアに基づいて、対称ネットワークを訓練する。例えば、該対称ネットワークは、対称に配置された２つの畳み込みニューラルネットワーク（ＣＮＮ）を有するＳｉａｍｅｓｅ（シャム）ネットワークである。図５は本発明の実施例１の対称ネットワークを示す図である。図５に示すように、Ｓｉａｍｅｓｅネットワーク５００における２つの畳み込みニューラルネットワークＣＮＮ１及びＣＮＮ２は対称に配置され、ＣＮＮ１及びＣＮＮ２は従来のＣＮＮの構成を用いてもよく、両者の構成及びパラメータは完全に同一である。

本実施例では、従来の方法を用いて、構築されたサンプルペアに基づいて対称ネットワークを訓練してもよい。例えば、構築されたサンプルペアをペア毎にＳｉａｍｅｓｅネットワークに入力し、該サンプルペアにおける１つのサンプルをＣＮＮ１に入力し、もう１つのサンプルをＣＮＮ２に入力し、Ｓｉａｍｅｓｅネットワークの出力側において、ＣＮＮ１とＣＮＮ２の対比損失に基づいて、Ｓｉａｍｅｓｅネットワークの損失を計算する。そして、ＣＮＮ１及びＣＮＮ２において該Ｓｉａｍｅｓｅネットワークの損失を各層を介してフィードバックして、ＣＮＮ１及びＣＮＮ２における各層のパラメータを補正する。Ｓｉａｍｅｓｅネットワークの損失が所定の収束条件を満たすまで、上記ステップを繰り返した後に、訓練を終了させる。

本実施例では、初期化部１０４は、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する。例えば、文字認識のための分類ネットワークは畳み込みニューラルネットワーク（ＣＮＮ）であり、該畳み込みニューラルネットワークは従来の構成を用いてもよい。訓練されたＳｉａｍｅｓｅネットワークにおける任意の１つの畳み込みニューラルネットワークのパラメータを用いて、分類ネットワークとなる畳み込みニューラルネットワークを初期化する。

本実施例では、初期化のパラメータは、畳み込みニューラルネットワークの各畳み込み層のパラメータを含んでもよく、全結合層のパラメータをさらに含んでもよい。

本実施例では、第２訓練部１０５は、文字を含むラベル付きサンプルを用いて、初期化された分類ネットワークを訓練し、訓練された文字認識のための分類ネットワークを取得する。本実施例では、第２訓練部１０５は、従来の方法を用いて、初期化された分類ネットワークを訓練してもよい。

例えば、初期化された畳み込みニューラルネットワークに文字を含むラベル付きサンプルをサンプル毎に入力し、出力側においてネットワークの損失を計算する。そして、畳み込みニューラルネットワークにおいて該ネットワークの損失を各層を介してフィードバックして、畳み込みニューラルネットワークにおける各層のパラメータを補正する。畳み込みニューラルネットワークのネットワーク損失が所定の収束条件を満たすまで、上記ステップを繰り返した後に、訓練を終了させる。

本実施例では、図１に示す訓練装置１００は判断部１０６をさらに含んでもよい。

判断部１０６は、訓練された分類ネットワークが所定条件を満たすか否かを判断し、訓練された分類ネットワークが所定条件を満たさない場合は、訓練された分類ネットワークを用いて、該文字を含む各ラベルなしサンプルの特徴を抽出し、訓練された分類ネットワークが該所定条件を満たす場合は、訓練された分類ネットワークを出力する。

本実施例では、該判断部１０６はオプションの構成要素であり、図１において破線の枠で示されている。

本実施例では、該所定条件は実際の要求に応じて設定されてもよい。例えば、該所定条件は、反復回数が所定の回数に達したこと、又は、訓練された分類ネットワークの分類正確率が収束すること、即ち現在の訓練された分類ネットワークの分類正確率と前回の訓練された分類ネットワークの分類正確率との差が所定閾値よりも小さいことである。

このように、現在の訓練された分類ネットワークが所定条件を満たさない場合は、訓練された分類ネットワークを用いて、文字を含む各ラベルなしサンプルの特徴を抽出する。即ち、この場合は、訓練された分類ネットワークが所定条件を満たすまで、抽出部１０１が現在の訓練された分類ネットワークに基づいて文字を含む各ラベルなしサンプルの特徴を抽出し、サンプルペアを再構築し、対称ネットワークを訓練し、分類ネットワークを初期化し、分類ネットワークを訓練する。このような反復処理により、訓練された分類ネットワークの認識正確率をさらに向上させることができる。

＜実施例２＞
本発明の実施例は、実施例１に記載された訓練装置により訓練された文字認識のための分類ネットワークを含む文字認識装置をさらに提供する。

図６は本発明の実施例２の文字認識装置を示す図である。図６に示すように、文字認識装置６００は、文字認識のための分類ネットワーク６０１を含む。

分類ネットワーク６０１は訓練装置により訓練されたものである。ここで、該訓練￥装置の構成及び機能は実施例１に記載されたものと同じであり、ここでその説明を省略する。

例えば、文字認識装置は記憶部を含み、該記憶部には、実施例１に記載された訓練装置により訓練された文字認識のための分類ネットワークが記憶されている。

＜実施例３＞
本発明の実施例は電子機器をさらに提供し、図７は本発明の実施例３の電子機器を示す図である。図７に示すように、電子機器７００は訓練装置７０１又は文字認識装置７０２を含む。ここで、訓練装置７０１の構成及び機能は実施例１に記載されたものと同じであり、文字認識装置７０２の構成及び機能は実施例２に記載されたものと同じであり、ここでその説明を省略する。

図８は本発明の実施例３の電子機器のシステム構成を示すブロック図である。図８に示すように、電子機器８００は、中央処理装置（中央制御装置）８０１及び記憶装置８０２を含んでもよく、記憶装置８０２は中央処理装置８０１に接続される。該図は単なる例示的なものであり、電気通信機能又は他の機能を実現するように、他の種類の構成を用いて、該構成を補充又は代替してもよい。

図８に示すように、電子機器８００は、入力部８０３、ディスプレイ８０４及び電源８０５をさらに含んでもよい。

１つの態様では、実施例１の訓練装置の機能は中央処理装置８０１に統合されてもよい。ここで、中央処理装置８０１は、文字を含む各ラベルなしサンプルの特徴を抽出し、抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築し、構築された該サンプルペアに基づいて、対称ネットワークを訓練し、訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化し、文字を含むラベル付きサンプルを用いて、初期化された該分類ネットワークを訓練するように構成されてもよい。

ここで、中央処理装置８０１は、訓練された該分類ネットワークが所定条件を満たすか否かを判断し、訓練された該分類ネットワークが該所定条件を満たさない場合は、訓練された該分類ネットワークを用いて該文字を含む各ラベルなしサンプルの特徴を抽出し、訓練された該分類ネットワークが該所定条件を満たす場合は、訓練された該分類ネットワークを出力するようにさらに構成されてもよい。

ここで、該文字を含む各ラベルなしサンプルの特徴を抽出するステップは、直接文字を含む該ラベルなしサンプルから文字の特徴を抽出するステップ、又は、文字を含むラベル付きサンプルを用いて訓練されたネットワークに該ラベルなしサンプルを入力し、出力結果を抽出された特徴とするステップ、を含む。

ここで、該抽出された各ラベルなしサンプルの特徴に基づいてサンプルペアを構築するステップは、抽出された各ラベルなしサンプルの特徴に基づいて、第１類似サンプルペア及び第１非類似サンプルペアを決定するステップ、を含む。該ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の２つのラベル付きサンプルを第２類似サンプルペア又は第２非類似サンプルペアとして決定するステップと、決定された該第２類似サンプルペアと該第２非類似サンプルペアとの数の比を計算するステップと、該第１類似サンプルペアと該第１非類似サンプルペアとの数の比が該第２類似サンプルペアと該第２非類似サンプルペアとの数の比に等しくなるように、該第１類似サンプルペアと該第１非類似サンプルペアとの数の比を決定するステップと、をさらに含んでもよい。

ここで、該抽出された各ラベルなしサンプルの特徴に基づいて、第１類似サンプルペア及び第１非類似サンプルペアを決定するステップは、抽出された各ラベルなしサンプルのうち任意の２つのラベルなしサンプルの特徴間の距離を計算するステップと、特徴間の距離が所定閾値よりも小さい任意の２つのラベルなしサンプルを該第１類似サンプルペアとして決定するステップと、特徴間の距離が該所定閾値以上である任意の２つのラベルなしサンプルを該第１非類似サンプルペアとして決定するステップと、を含む。

ここで、抽出された各ラベルなしサンプルの特徴は、該ラベルなしサンプルの分類結果であり、該抽出された各ラベルなしサンプルの特徴に基づいて、第１類似サンプルペア及び第１非類似サンプルペアを決定するステップは、分類結果が同一である任意の２つのラベルなしサンプルを該第１類似サンプルペアとして決定するステップと、分類結果が異なる任意の２つのラベルなしサンプルを該第１非類似サンプルペアとして決定するステップと、を含む。

ここで、該対称ネットワークは、対称に配置された２つの畳み込みニューラルネットワークを有するシャム（Ｓｉａｍｅｓｅ）ネットワークであり、該文字認識のための分類ネットワークは、畳み込みニューラルネットワークである。

ここで、該訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップは、訓練されたシャムネットワークにおける任意の１つの畳み込みニューラルネットワークのパラメータを用いて、該分類ネットワークとなる畳み込みニューラルネットワークを初期化するステップ、を含む。

もう１つの態様では、実施例１に記載された訓練装置は中央処理装置８０１とそれぞれ構成されてもよく、例えば訓練装置は中央処理装置８０１に接続されたチップであり、中央処理装置８０１の制御により該訓練装置の機能を実現してもよい。

本実施例における電子機器８００は、図８に示されている全ての構成部を含まなくてもよい。

図８に示すように、中央処理装置８０１は、コントローラ又は操作制御部とも称され、マイクロプロセッサ又は他の処理装置及び／又は論理装置を含んでもよく、中央処理装置８０１は入力を受信し、電子機器８００の各部の操作を制御する。

記憶装置８０２は、例えばバッファ、フラッシュメモリ、ハードディスク、移動可能な媒体、発揮性メモリ、不発揮性メモリ、又は他の適切な装置の１つ又は複数であってもよい。また、中央処理装置８０１は、記憶装置８０２に記憶されたプログラムを実行し、情報の記憶又は処理などを実現してもよい。他の構成要素は従来技術に類似するため、ここでその説明が省略される。電子機器８００の各部は、本発明の範囲から逸脱することなく、特定のハードウェア、ファームウェア、ソフトウェア又はその組み合わせによって実現されてもよい。

＜実施例４＞
本発明の実施例は文字認識のための分類ネットワークの訓練方法をさらに提供し、該訓練方法は実施例１の文字認識のための分類ネットワークの訓練装置に対応する。図９は本発明の実施例４の文字認識のための分類ネットワークの訓練方法を示す図である。図９に示すように、該方法は以下のステップを含む。

ステップ９０１：文字を含む各ラベルなしサンプルの特徴を抽出する。

ステップ９０２：抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する。

ステップ９０３：構築されたサンプルペアに基づいて、対称ネットワークを訓練する。

ステップ９０４：訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する。

ステップ９０５：文字を含むラベル付きサンプルを用いて、初期化された分類ネットワークを訓練する。

ステップ９０６：訓練された分類ネットワークが所定条件を満たすか否かを判断する。判断結果が「ＮＯ」の場合は、ステップ９０１に進み、訓練された分類ネットワークを用いて、文字を含む各ラベルなしサンプルの特徴を抽出する。判断結果が「ＹＥＳ」の場合は、ステップ９０７に進む。

ステップ９０７：訓練された分類ネットワークを出力する。

本実施例では、特徴の抽出方法、サンプルペアの構築方法、対称ネットワークの訓練方法、分類ネットワークの初期化方法、分類ネットワークの訓練方法、及び訓練された分類ネットワークが所定条件を満たすか否かを判断する方法は、実施例１に記載されたものと同じであり、ここでその説明を省略する。

本発明の実施例は、文字認識のための分類ネットワークの訓練装置又は電子機器においてプログラムを実行する際に、コンピュータに、該文字認識のための分類ネットワークの訓練装置又は電子機器において上記実施例４に記載の訓練方法を実行させる、コンピュータ読み取り可能なプログラムをさらに提供する。

本発明の実施例は、コンピュータに、文字認識のための分類ネットワークの訓練装置又は電子機器において上記実施例４に記載の訓練方法を実行させるためのコンピュータ読み取り可能なプログラムを記憶する、記憶媒体をさらに提供する。

本発明の実施例を参照しながら説明した文字認識のための分類ネットワークの訓練装置において実行される訓練方法は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図１に示す機能的ブロック図における１つ若しくは複数、又は機能的ブロック図の１つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図９に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、モバイルハードディスク、ＣＤ−ＲＯＭ又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込むように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はＡＳＩＣに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器（例えば移動端末）が比較的に大きい容量のＭＥＧＡ−ＳＩＭカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該ＭＥＧＡ−ＳＩＭカード又は大容量のフラッシュメモリ装置に記憶されてもよい。

図１に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、本願に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理装置、ディスクリートハードウェアコンポーネント、またはそれらの任意の適切な組み合わせで実現されてもよい。図１に記載されている機能的ブロック図における一つ以上の機能ブロックおよび/または機能ブロックの一つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰ通信と組み合わせた１つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。

以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理から離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。

Claims

文字認識のための分類ネットワークの訓練装置であって、
文字を含む各ラベルなしサンプルの特徴を抽出する抽出手段と、
抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築する構築手段と、
構築された前記サンプルペアに基づいて、対称ネットワークを訓練する第１訓練手段と、
訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化する初期化手段と、
文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練する第２訓練手段と、を含む、装置。
訓練された前記分類ネットワークが所定条件を満たすか否かを判断し、訓練された前記分類ネットワークが前記所定条件を満たさない場合は、訓練された前記分類ネットワークを用いて前記文字を含む各ラベルなしサンプルの特徴を抽出し、訓練された前記分類ネットワークが前記所定条件を満たす場合は、訓練された前記分類ネットワークを出力する判断手段、をさらに含む、請求項１に記載の装置。
前記抽出手段は、
直接文字を含む前記ラベルなしサンプルから文字の特徴を抽出し、或いは、
文字を含むラベル付きサンプルを用いて訓練されたネットワークに前記ラベルなしサンプルを入力し、出力結果を抽出された特徴とする、請求項１に記載の装置。
前記構築手段は、
抽出された各ラベルなしサンプルの特徴に基づいて、第１類似サンプルペア及び第１非類似サンプルペアを決定する第１決定手段、を含む、請求項１に記載の装置。
前記構築手段は、
前記ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の２つのラベル付きサンプルを第２類似サンプルペア又は第２非類似サンプルペアとして決定する第２決定手段と、
決定された前記第２類似サンプルペアと前記第２非類似サンプルペアとの数の比を計算する第１計算手段と、
前記第１類似サンプルペアと前記第１非類似サンプルペアとの数の比が前記第２類似サンプルペアと前記第２非類似サンプルペアとの数の比に等しくなるように、前記第１類似サンプルペアと前記第１非類似サンプルペアとの数の比を決定する第３決定手段と、をさらに含む、請求項４に記載の装置。
前記第１決定手段は、
抽出された各ラベルなしサンプルのうち任意の２つのラベルなしサンプルの特徴間の距離を計算する第２計算手段と、
特徴間の距離が所定閾値よりも小さい任意の２つのラベルなしサンプルを前記第１類似サンプルペアとして決定する第４決定手段と、
特徴間の距離が前記所定閾値以上である任意の２つのラベルなしサンプルを前記第１非類似サンプルペアとして決定する第５決定手段と、を含む、請求項４に記載の装置。
前記抽出手段により抽出された特徴は、前記ラベルなしサンプルの分類結果であり、
前記第１決定手段は、
分類結果が同一である任意の２つのラベルなしサンプルを前記第１類似サンプルペアとして決定する第６決定手段と、
分類結果が異なる任意の２つのラベルなしサンプルを前記第１非類似サンプルペアとして決定する第７決定手段と、を含む、請求項４に記載の装置。
前記対称ネットワークは、対称に配置された２つの畳み込みニューラルネットワークを有するシャム（Ｓｉａｍｅｓｅ）ネットワークであり、
前記文字認識のための分類ネットワークは、畳み込みニューラルネットワークである、請求項１に記載の装置。
前記初期化手段は、訓練されたシャムネットワークにおける任意の１つの畳み込みニューラルネットワークのパラメータを用いて、前記分類ネットワークとなる畳み込みニューラルネットワークを初期化する、請求項８に記載の装置。
請求項１乃至９の何れかに記載の装置により訓練された文字認識のための分類ネットワークを含む、文字認識装置。
文字認識のための分類ネットワークの訓練方法であって、
文字を含む各ラベルなしサンプルの特徴を抽出するステップと、
抽出された各ラベルなしサンプルの特徴に基づいて、サンプルペアを構築するステップと、
構築された前記サンプルペアに基づいて、対称ネットワークを訓練するステップと、
訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップと、
文字を含むラベル付きサンプルを用いて、初期化された前記分類ネットワークを訓練するステップと、を含む、方法。
訓練された前記分類ネットワークが所定条件を満たすか否かを判断するステップと、
訓練された前記分類ネットワークが前記所定条件を満たさない場合は、訓練された前記分類ネットワークを用いて前記文字を含む各ラベルなしサンプルの特徴を抽出するステップと、
訓練された前記分類ネットワークが前記所定条件を満たす場合は、訓練された前記分類ネットワークを出力するステップと、をさらに含む、請求項１１に記載の方法。
前記文字を含む各ラベルなしサンプルの特徴を抽出するステップは、
直接文字を含む前記ラベルなしサンプルから文字の特徴を抽出するステップ、又は、
文字を含むラベル付きサンプルを用いて訓練されたネットワークに前記ラベルなしサンプルを入力し、出力結果を抽出された特徴とするステップ、を含む、請求項１１に記載の方法。
前記抽出された各ラベルなしサンプルの特徴に基づいてサンプルペアを構築するステップは、
抽出された各ラベルなしサンプルの特徴に基づいて、第１類似サンプルペア及び第１非類似サンプルペアを決定するステップ、を含む、請求項１１に記載の方法。
前記抽出された各ラベルなしサンプルの特徴に基づいてサンプルペアを構築するステップは、
前記ラベル付きサンプルのラベルに基づいて、各ラベル付きサンプルのうち任意の２つのラベル付きサンプルを第２類似サンプルペア又は第２非類似サンプルペアとして決定するステップと、
決定された前記第２類似サンプルペアと前記第２非類似サンプルペアとの数の比を計算するステップと、
前記第１類似サンプルペアと前記第１非類似サンプルペアとの数の比が前記第２類似サンプルペアと前記第２非類似サンプルペアとの数の比に等しくなるように、前記第１類似サンプルペアと前記第１非類似サンプルペアとの数の比を決定するステップと、をさらに含む、請求項１４に記載の方法。
前記抽出された各ラベルなしサンプルの特徴に基づいて、第１類似サンプルペア及び第１非類似サンプルペアを決定するステップは、
抽出された各ラベルなしサンプルのうち任意の２つのラベルなしサンプルの特徴間の距離を計算するステップと、
特徴間の距離が所定閾値よりも小さい任意の２つのラベルなしサンプルを前記第１類似サンプルペアとして決定するステップと、
特徴間の距離が前記所定閾値以上である任意の２つのラベルなしサンプルを前記第１非類似サンプルペアとして決定するステップと、を含む、請求項１４に記載の方法。
抽出された各ラベルなしサンプルの特徴は、前記ラベルなしサンプルの分類結果であり、
前記抽出された各ラベルなしサンプルの特徴に基づいて、第１類似サンプルペア及び第１非類似サンプルペアを決定するステップは、
分類結果が同一である任意の２つのラベルなしサンプルを前記第１類似サンプルペアとして決定するステップと、
分類結果が異なる任意の２つのラベルなしサンプルを前記第１非類似サンプルペアとして決定するステップと、を含む、請求項１４に記載の方法。
前記対称ネットワークは、対称に配置された２つの畳み込みニューラルネットワークを有するシャム（Ｓｉａｍｅｓｅ）ネットワークであり、
前記文字認識のための分類ネットワークは、畳み込みニューラルネットワークである、請求項１１に記載の方法。
前記訓練された対称ネットワークのパラメータを用いて、文字認識のための分類ネットワークを初期化するステップは、
訓練されたシャムネットワークにおける任意の１つの畳み込みニューラルネットワークのパラメータを用いて、前記分類ネットワークとなる畳み込みニューラルネットワークを初期化するステップ、を含む、請求項１８に記載の方法。