JP2023541119A - 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2023541119A
JP2023541119A JP2023509826A JP2023509826A JP2023541119A JP 2023541119 A JP2023541119 A JP 2023541119A JP 2023509826 A JP2023509826 A JP 2023509826A JP 2023509826 A JP2023509826 A JP 2023509826A JP 2023541119 A JP2023541119 A JP 2023541119A
Authority
JP
Japan
Prior art keywords
character
feature
network
sub
lexical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023509826A
Other languages
English (en)
Inventor
鵬 原 呂
景 泉 李
成 全 章
▲クン▼ 姚
経 拓 劉
鈞 宇 韓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023541119A publication Critical patent/JP2023541119A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、文字認識モデルのトレーニング方法を提供し、人工知能技術分野に関し、特にコンピュータービジョン及び深層学習分野に関し、スマートシティやスマートファイナンスなどのシナリオに適用できる。前記方法、文字と第1実際文字を示すラベルとを含む第1サンプル画像を視覚特徴抽出サブモデルに入力して第1視覚特徴および第1予測文字を取得することと、第1予測文字に基づいて、語彙特徴抽出サブモデルを採用して、第1語彙特徴を取得することと、第1視覚特徴および第1語彙特徴に基づいて、シーケンスサブモデルを採用して、第2予測文字を取得することと、第1予測文字、第2予測文字および第1実際文字に基づいて、文字認識モデルをトレーニングすることと、を含む。本開示は、文字認識モデルのトレーニング装置、文字認識方法及び装置、電子機器および記憶媒体をさらに提供する。

Description

本出願は、2021年8月18日に出願された出願番号が202110951785.0である中国特許出願の優先権を主張し、その内容は参照により本明細書に組み込まれる。
本開示は、人工知能技術分野に関し、特にコンピュータービジョン及び深層学習分野に関し、スマートシティやスマートファイナンスなどのシナリオに適用できる。具体的には、文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器及び記憶媒体に関する。
文字認識に使用されるモデルは、画像の視覚特徴に基づいてテキストコンテンツを識別できる。語彙モデルは、画像中のテキストの語彙特徴に基づいてテキストコンテンツを調整することができる。
これに基づき、本開示は、文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体及びプログラム製品を提供する。
本開示の一態様によれば、文字認識モデルのトレーニング方法を提供し、前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、前記方法は、文字と第1実際文字を示すラベルとを含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を取得することと、前記第1予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して第1語彙特徴を取得することと、前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第2予測文字を取得することと、前記第1予測文字、前記第2予測文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることと、を含む。
本開示の他の態様によれば、文字を含む認識すべき画像を本開示によって提供される文字認識モデルのトレーニング方法によってトレーニングされた文字認識モデルに入力することと、前記認識すべき画像内の文字を取得することとを含む、文字認識方法を提供する。
本開示の他の態様によれば、文字認識モデルのトレーニング装置を提供し、前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、前記装置は、文字と第1実際文字を示すラベルとを含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して第1視覚特徴および第1予測文字を取得する第1情報取得モジュールと、前記第1予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第1語彙特徴を取得する第1語彙特徴取得モジュールと、前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第2予測文字を取得する第1文字取得モジュールと、前記第1予測文字、前記第2予測文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングするモデルトレーニングモジュールと、を含む。
本開示の他の態様によれば、文字を含む認識すべき画像を本開示によって提供される文字認識モデルのトレーニング装置によってトレーニングされた文字認識モデルに入力する画像入力モジュールと、前記認識すべき画像内の文字を取得する文字取得モジュールとを含む、文字認識装置を提供する。
本開示の他の態様によれば、電子機器が提供され、この電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信に接続されるメモリとを含み、メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を格納し、命令は、少なくとも1つのプロセッサが本開示によって提供される文字認識モデルのトレーニング方法及び/又は文字認識方法を実行できるように少なくとも1つのプロセッサによって実行される。
本開示の他の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体が提供され、コンピュータ命令はコンピュータに本開示によって提供される文字認識モデルのトレーニング方法及び/又は文字認識方法を実行させる。
本開示の他の態様によれば、プロセッサにより実行される時に本開示によって提供される文字認識モデルのトレーニング方法及び/又は文字認識方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本技術案をよりよく理解するためのものであり、本願を限定するものではない。
図1は、本開示の一実施例による文字認識モデルのトレーニング方法のフローチャートである。 図2は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。 図3は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。 図4は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。 図5Aは、本開示の一実施例による文字認識モデルの概略図である。 図5Bは、本開示の別の実施例による文字認識モデルの概略図である。 図6は、本開示の一実施例による文字認識方法のフローチャートである。 図7は、本開示の一実施例による文字認識モデルのトレーニング装置のブロック図である。 図8は、本開示の一実施例による文字認識装置のブロック図である。 図9は、本開示の実施例の文字認識モデルのトレーニング方法及び/又は文字認識方法を実施するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば理解できるように、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することがない。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
文字認識に用いられるモデルには、CRNN(Convolutional Recurrent Neural Network、畳み込みリカレントニューラルネットワーク)モデルまたはASTER(An Attentional Scene Text Recognizer with Flexible Rectification、柔軟な修正機能を備えたアテンションシーンテキスト認識装置)が含まれる。CRNNモデルやASTERは、視覚特徴のみを使用してテキストコンテンツを認識でき、通常のテキスト画像内の文字を認識できるが、欠陥のある(例えば、不完全な)画像に対して、認識効果が低くなる。
語彙特徴抽出に用いられるモデルは、SEED(Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition、シーンテキスト認識に用いられる語彙が強化されたエンコード復号化フレームワーク)、およびSRN(Spatial Regulation Network、空間正則化ネットワーク)モデルを含む。
SEEDモデルは、語彙特徴を使用して視覚特徴を監視し、これにより視覚特徴が語彙情報を持つ。しかし、SEEDモデルは、語彙特徴を視覚特徴と融合しておらず、且つ当該モデルによる語彙特徴に対する表現が不充分である。
SRNモデルは、語彙特徴を使用して文字認識モデルを強化し、文字認識モデルのパフォーマンスを効果的に向上させることができる。ただし、SRNモデルは、局所語彙特徴(例えば単一のキャラクター)しか使用できず、グローバル語彙特徴を使用することができない。
図1は、本開示の実施例による文字認識モデルのトレーニング方法のフローチャートである。
図1に示すように、当該文字認識モデルのトレーニング方法100は、操作S110~操作S140を含む。当該文字認識モデルには、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、シーケンスサブモデルが含まれる。
操作S110では、第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を取得する。ここで、前記第1サンプル画像は、文字および第1実際文字を示すラベルを含む。
例えば、第1サンプル画像は、歪みのない文字を含む通常のナンバープレートの画像であってもよい。別の例として、第1サンプル画像は、歪みがある文字を含む湾曲したナンバープレートの画像であってもよい。
例えば、第1視覚特徴は、可能なキャラクターまたは可能なキャラクターの組み合わせを含むことができる。
例えば、視覚特徴抽出サブモデルは、上述のCRNNモデルまたはASTERモデルであってもよいが、本開示では限定されない。
操作S120では、前記第1予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第1語彙特徴を取得する。
例えば、第1語彙特徴は、各可能な各キャラクター間の関係を含むことができる。一例では、各可能な各キャラクター間の関係は、あるキャラクターとその前のキャラクターとの関係、およびあるキャラクターとその次のキャラクターとの関係であり得る。
例えば、語彙特徴抽出サブモデルは、例えばLSTM(Long Short Term Memory、ロングショートタームメモリネットワーク)モデルなどの、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)モデル等のシーケンスモデルであってもよい。別の例として、語彙特徴抽出サブモデルは、トランスフォーマーモデルであってもよく、本開示では限定されない。
操作S130では、前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して第2予測文字を取得する。
例えば、第2予測文字は、可能なキャラクター、組み合わされた可能なキャラクター、および各可能な各キャラクター間の関係に基づいて得ることができる。
理解すべきこととして、第1語彙特徴は、他の情報も含むことができ、第1視覚特徴は、他の情報も含むことができ、可能なキャラクター、組み合わされた可能なキャラクター、および画像における各可能なキャラクター間の関係に基づいて第2予測文字を取得することは、第2予測文字を取得する形態しかないである。他の例では、第2予測文字は、第1視覚特徴および第1語彙特徴における他の情報に基づいて取得することもできる。
例えば、シーケンスサブモデルは、前述のLSTMモデルなどであってもよいが、本開示ではこれを限定しない。
操作S140で、前記文字認識モデルは、前記第1予測文字、前記第2予測文字、および前記第1実際文字に基づいてトレーニングされる。
例えば、第1予測文字と第1実際文字に基づいて、一つの損失値を取得でき、第2予測文字と第1予測文字に基づいて、別の損失値を取得でき、2つの損失値に基づいて、視覚特徴抽出サブモデル、語彙特徴サブモデルおよびシーケンスサブモデル内の少なくとも1つのサブモデルのパラメータを調整して、この文字認識モデルに対する一回のトレーニングを完了する。2つの損失関数は、同じ関数であってもよく、異なる関数であってもよい。
本開示の実施例によれば、シーケンスサブモデルを採用して視覚特徴と語彙特徴を融合することにより、視覚特徴に基づいて予測して取得された予測テキストと語彙特徴に基づいて取得された別の予測テキストとが同じ長さを有することを要求する必要がなくなる。
図2は、本開示の実施例による別の文字認識モデルのトレーニング方法のフローチャートである。
図2に示すように、当該文字認識モデルのトレーニング方法210は、文字を含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を得ることができる。当該視覚特徴抽出サブモデルは、第1特徴抽出ネットワークおよび第1出力ネットワークを含む。当該文字認識モデルのトレーニング方法は、操作S211~操作S216を含むことができ、具体的には、当該操作S211~操作S216は、前述の操作S110の具体的な実施形態である。
当該文字認識モデルのトレーニング方法210は、前記第1サンプル画像を第1特徴抽出ネットワークに入力して、前記第1視覚特徴を得ることができる。当該第1特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含む。
操作S211で、前記第1サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得する。
本開示の実施例では、符号化サブネットワークは、畳み込みニューラルネットワークであってもよい。
例えば、符号化サブネットワークは、VGG、ResNet、DenseNet、MoBileNetなどの任意の構造の畳み込みニューラルネットワークであることができる。符号化サブネットワークは、例えばDeformconv、SE、DilationconvおよびInceptionなどのネットワーク効果を改善する演算子を使用することもできる。
例えば、第1サンプル画像はH×Wのピクチャーであってもよく、符号化サブネットワークはH×Wのピクチャーに基づいてh×wの局所画像特徴を出力してもよい。
操作S212において、前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得する。
本開示の実施例では、シーケンス符号化サブネットワークは、アテンションメカニズムに基づいて構築することができる。
例えば、シーケンス符号化サブネットワークは、自己アテンションメカニズムに基づいて構築することができる。一例では、符号化サブネットワークによって出力されるh×wの局所画像特徴は、最初に長さkのシーケンスに変換される。ここで、k=h*wである。シーケンス符号化サブネットワークは、長さkのシーケンスに基づいて、非局所画像特徴を出力する。シーケンス符号化サブネットワークは、局所画像特徴を画像のグローバルと関連付けて、より高レベルの特徴、つまり非局所画像特徴を生成できる。当該視覚特徴抽出サブモデルにシーケンス符号化ネットワークを設定することにより、文脈情報に対する視覚特徴の表現能力が向上し、得られる第1予測文字の精度が向上する。
次に、当該文字認識モデルのトレーニング方法210は、前記非局所画像特徴に基づいて、前記復号化サブネットワークを採用して、前記第1視覚特徴を得ることができる。当該視覚特徴抽出サブモデルには、第2位置符号化ネットワークも含まれる。
操作S213において、所定の位置ベクトルを前記第2位置符号化ネットワークに入力して、第2位置符号化特徴を取得する。
例えば、所定の位置ベクトルは、位置0から24までを表す行列であってもよい。理解できることとして、当該所定の位置ベクトルの長さは、実際の必要に基づいて設定することができ、本開示ではこれを限定しない。
次に、当該文字認識モデルのトレーニング方法は、前記第2位置符号化特徴および前記非局所画像特徴に基づき、前記復号化サブネットワークを採用して前記第1視覚特徴を得ることができる。当該視覚特徴抽出サブモデルには、第1変換ネットワークも含まれる。
操作S214では、前記第2位置符号化特徴を前記第1変換ネットワークに入力して、位置識別情報が付加されたターゲット位置特徴を取得する。
例えば、第1変換ネットワークは少なくとも1つの全結合層を含み、第2位置符号化特徴は、全結合層によって処理され、ターゲット位置特徴に変換される。位置識別情報と組み合わせて、各位置から学習して一つの独立のベクトルを取得することができる。第1サンプル画像の文字の長さは、位置符号化の範囲を超えないことができる。
操作S215では、前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルおよびバリューベクトルとし、前記復号化サブネットワークを採用して前記第1視覚特徴を取得する。
本開示の実施例では、復号化サブネットワークは、アテンションメカニズムに基づいて構築することができる。
例えば、復号化サブネットワークは、並列アテンションメカニズム(Multi-Head Attention)に基づいて構築でき、復号化サブネットワークの入力には、キーベクトル、バリューベクトル、およびクエリベクトルが含まれることができる。抽出された非局所画像特徴の精度を向上させることができる。
本開示の実施例では、前記第1視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第1グローバル特徴とを含む。
例えば、復号化サブネットワークは、位置識別情報を使用して、非局所特徴から可能なキャラクター特徴を見つけ、可能なキャラクター特徴を組み合わせて、文字視覚特徴を取得することができる。復号化サブネットワークは、位置識別情報から、キャラクターグローバル情報を含む第1グローバル特徴を復号化することができる。一例では、復号化サブネットワークは、位置0に対応するベクトルに基づいて、第1グローバル特徴を復号化することができる。
操作S216において、前記第1視覚特徴に基づいて、前記第1出力ネットワークを採用して前記第1予測文字を取得する。
本開示の実施例では、第1出力ネットワークは、文字視覚特徴に基づいて第1予測文字を取得することができる。
例えば、第1出力ネットワークは、少なくとも1つの全結合層およびSoftmax層を含むことができる。第1出力ネットワークの全結合層とSoftmax層は、文字視覚特徴に基づいて第1予測文字を出力することができる。
いくつかの実施例では、以下の方式で前記視覚特徴抽出サブモデルを事前トレーニングすることをさらに含み、当該方式は、文字および第2実際文字を示すラベルを含む第2サンプル画像を前記視覚特徴抽出サブモデルに入力して、第2視覚特徴および第3予測文字を取得することと、前記第3予測文字と前記第2実際文字とに基づいて、前記視覚特徴抽出サブモデルをトレーニングすることとを含む。視覚特徴抽出サブモデルを事前トレーニングすることにより、文字認識モデルのトレーニング効率を向上させることができる。
第2サンプル画像は、第1サンプル画像と同じトレーニングデータセットから、または異なるトレーニングデータセットから選択することができる。例えば、第2サンプル画像が属するトレーニングデータセットは、複数の領域の画像に基づいて構築されてもよく、第1サンプル画像が属するトレーニングデータセットは、複数の領域のあるターゲット領域の画像に基づいて構築されてもよい。
図3は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。
図3に示すように、当該文字認識モデルのトレーニング方法320は、前記第1予測文字に基づき、前記語彙特徴抽出サブモデルを使用して第1語彙特徴を取得することができる。当該語彙特徴抽出サブモデルは、文字符号化ネットワークおよび第2出力ネットワークを含むことができる。当該文字認識モデルのトレーニング方法320は、操作S321~操作S325を含むことができる。具体的には、操作S321~操作S325は、前述の操作S120の具体的な実施形態である。
操作S321で、前記第1予測文字を文字符号化ネットワークに入力して、第1予測文字の文字特徴を取得する。
本開示の実施例では、文字符号化ネットワークは、第1予測文字に対してOne-Hot符号化(ワンホット符号化)を実行して、文字特徴を取得することができる。
例えば、文字符号化ネットワークは、第1予測文字に対してOne-Hot符号化を実行して、キャラクター長C×Nの行列を取得する。当該行列の各行は、1つのキャラクターに対応し、当該行列の各行は、1×Nのベクターにすることができる。一例では、第1サンプル画像は、変形された「Hello」の文字画像などの変形された文字画像であってもよく、第1予測文字は「Hallo」であってもよい。文字特徴は、5行N列の行列であり、各行は、第1予測文字「Hallo」の一つのキャラクターに対応する。
当該語彙特徴抽出サブモデルは、第2特徴抽出ネットワークおよび第3位置符号化ネットワークも含む。次に、当該文字認識モデルのトレーニング方法320は、前記文字特徴に基づいて、前記第2特徴抽出ネットワークを採用して、前記第1語彙特徴を取得することができる。
操作S322において、所定の位置ベクトルを前記第3位置符号化ネットワークに入力して、第3位置符号化特徴を取得する。
例えば、所定の位置ベクトルは、位置0~位置24を表す行列であってもよい。
次に、当該文字認識モデルのトレーニング方法320は、前記第3位置符号化特徴および前記文字特徴に基づいて、前記第2特徴抽出ネットワークを採用して、前記第1語彙特徴を取得することができる。当該語彙特徴抽出サブモデルには、第2変換ネットワークも含まれる。
操作S323では、前記文字特徴と前記第3位置符号化特徴を前記第2変換ネットワークに入力して、キャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得する。
本開示の実施例では、前記文字特徴および前記第3位置符号化特徴を加算し、加算して得られた特徴の初期位置に前記キャラクター識別情報を付加し、文字特徴行列(C+1)×(N+1)を取得する。ここで、前記文字特徴および前記第3位置符号化特徴のサイズはいずれもC×Nである。
例えば、第3位置符号化特徴は、C行N列の行列である。文字特徴は行列aである。
Figure 2023541119000002
文字特徴aもC行N列の行列である。その後、文字特徴aを第3符号化位置特徴に加算し、加算して得られた特徴の初期位置にキャラクター識別情報を付加してターゲット文字特徴a'を取得し、
Figure 2023541119000003
一例では、C=24である。
本開示の実施例では、前記文字特徴の初期位置に前記キャラクター識別情報を付加し、前記キャラクター識別情報が付加された文字特徴と前記第3位置符号化特徴とを加算し、文字特徴行列(C+1)×(N+1)を取得する。ここで、前記文字特徴のサイズはC×Nであり、前記第3位置符号化特徴のサイズは(C+1)×(N+1)である。
例えば、文字特徴は行列aであり、
Figure 2023541119000004
まず、文字特徴aにキャラクター識別情報を付加して、キャラクター識別情報が付加された文字特徴a''を取得し、
Figure 2023541119000005
キャラクター識別情報が付加された文字特徴a''と第3符号化位置特徴とを加算してターゲット文字特徴a'''を取得し、
Figure 2023541119000006
ここで、第3位置符号化特徴は、(C+1)行(N+1)列の行列である。
一例では、C=24である。
操作324において、前記ターゲット文字特徴を前記第2特徴抽出ネットワークに入力して前記第1語彙特徴を取得する。
本開示の実施例では、前記第1語彙特徴に、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第2グローバル特徴とが含まれる。
例えば、アテンションメカニズムに基づいて各キャラクター間の関係を構築し、文字語彙特徴を取得することができる。
例えば、前記ターゲット文字特徴a'またはa'''におけるキャラクター識別情報を復号化して、第2グローバル特徴を取得することができる。第1予測文字における比較的大きなスパンでの文字間の文脈情報に対する抽出を実現でき、得られる語彙特徴の精度を向上させることができる。
操作325において、前記第1語彙特徴を前記第2出力ネットワークに入力して、前記第1予測文字に対する誤り訂正文字を取得する。
本開示の実施例では、第2出力ネットワークは、文字語彙特徴に基づいて、第1予測文字の誤り訂正文字を取得することができる。
例えば、第2出力ネットワークは、少なくとも1つの全結合層およびSoftmax層を含むことができる。第1出力ネットワークの全結合層とSoftmax層は、文字語彙特徴に基づいて、第1予測文字の誤り訂正文字を出力することできる。
いくつかの実施例では、以下の方式で前記語彙特徴抽出サブモデルを事前トレーニングし、当該方式は、実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第2語彙特徴を取得することと、前記第2語彙特徴と前記サンプルテキストの位置符号化特徴をスティッチングして所定の復号化ネットワークに入力し、前記サンプル文字の予測誤り訂正文字を取得することと、及び前記実際の誤り訂正文字および前記予測の誤り訂正文字に基づいて、前記語彙特徴抽出サブモデルをトレーニングすることと、を含む。
例えば、語彙特徴抽出サブモデルは、Transformerモデルに基づいて構築することができ、所定の復号化ネットワークもTransformerモデルに基づいて構築することができる。トレーニングが完了すると、語彙特徴抽出サブモデルに対応するTransformerモデルのパラメータを、文字認識モデルにおける対応サブモデルの初期パラメータとする。語彙特徴抽出サブモデルを事前トレーニングすることにより、文字認識モデルのトレーニング効率を向上させることができる。
図4は、本開示の一実施例による文字認識モデルのトレーニング方法のフローチャートである。
図4に示すように、当該文字認識モデルのトレーニング方法430は、前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第2予測文字を取得することができる。当該文字認識モデルのトレーニング方法430は、操作S431~操作S434を含むことができる。当該シーケンスサブモデルは、第1位置符号化ネットワークおよびシーケンスネットワークを含み得る。具体的には、当該操作S431~操作S434は、前述の操作S130の具体的な実施形態である。
操作S431で、所定の位置ベクトルを前記第1位置符号化ネットワークに入力して、第1位置符号化特徴を取得する。
例えば、所定の位置ベクトルは、位置0~位置24を表す行列であってもよい。位置符号化特徴を付加すると、取得した第2予測文字の精度を向上させることができる。
次に、当該文字認識モデルのトレーニング方法430は、前記第1視覚特徴、前記第1語彙特徴、および前記第1位置符号化特徴に基づいて、前記シーケンスネットワークの入力特徴を取得することができる。当該シーケンスサブモデルは、さらに、スティッチングネットワークおよび融合ネットワークを含み得る。
本開示の実施例では、前記シーケンスネットワークの入力特徴を取得するために必要とされる特徴は、第1視覚特徴における第1グローバル特徴、第1語彙特徴における第2グローバル特徴、および第1位置符号化特徴を含み得る。
操作S432において、前記スティッチングネットワークを採用して前記第1グローバル特徴と前記第2グローバル特徴とをスティッチングして、スティッチングされた特徴を取得する。
例えば、第1グローバル特徴は1×Mのベクトルであり、第2グローバル特徴も1×Nのベクトルである。スティッチングされた特徴は、1×(M+N)のベクトルであってもよい。一例では、M=Nである。
理解すべきこととして、スティッチングネットワークが第1グローバル特徴と第2グローバル特徴とをスティッチングすることは、本開示におけるスティッチング形態の1つにすぎない。スティッチングネットワークは、他のスティッチング形態を使用して、第1視覚特徴と第1語彙特徴をスティッチングすることもできる。
操作S433において、前記融合ネットワークを採用して、前記スティッチングされた特徴と前記第1位置符号化特徴とを加算して、前記シーケンスネットワークの入力特徴を取得する。
例えば、スティッチングされた特徴をC行(M+N)列の行列に変換し、その行列の1行は前記1×(M+N)のベクトルと同じであり、残りの行は、固定値(0など)を埋めることができる。このスティッチングされた特徴によって変換された行列と第1位置符号化特徴とを加算して、入力特徴を取得する。
操作S434において、前記入力特徴を前記シーケンスネットワークに入力して、前記第2予測文字を取得する。
例えば、入力特徴から各キャラクターの特徴を抽出し、自己アテンションメカニズムを採用して復号化し、各キャラクターについて抽出された特徴は、少なくとも1つの全結合層とSoftmax層によって処理され、第2予測文字を取得する。
本開示の実施例により、視覚モデル予測結果および語彙誤り訂正結果が直接に対応する位置を加重して加算することが回避され、それによって誤りを低減する可能性が提供される。
いくつかの実施例では、前記シーケンスネットワークの入力特徴を取得するために必要な特徴は、第1視覚特徴、第1語彙特徴、および第1位置符号化特徴を含み得る。ここで、第1視覚特徴は、文字視覚特徴および第1グローバル特徴を含み、第1語彙特徴は、文字語彙特徴および第2グローバル特徴を含む。
例えば、前記スティッチングネットワークは、文字視覚特徴および第1グローバル特徴の少なくとも1つと、文字語彙特徴および第2グローバル特徴の少なくとも1つとをスティッチングして、スティッチングされた特徴を得ることができる。前記融合ネットワークは、スティッチングされた特徴を第1位置符号化特徴と融合して、シーケンスネットワークの入力特徴を取得することができる。
いくつかの実施例では、前記第1予測文字、前記第2予測文字、および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることは、前記第1予測文字、前記第2予測文字、前記第1予測文字に対する誤り訂正文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることを含む。モデルの精度をさらに向上させることができる。
さらに、いくつかの実施例では、前記第1予測文字、前記第2予測文字、前記第1予測文字に対する前記誤り訂正文字、および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることは、前記第1予測文字および前記第1実際文字に基づいて、第1損失値を取得することを含む。前記第2予測文字と前記第1実際文字に基づいて、第2損失値を取得する。前記第1予測文字に対する誤り訂正文字および前記第1実際文字に基づいて、第3損失値を取得する。前記第1損失値、前記第2損失値、および前記第3損失値に基づいて、前記文字認識モデルをトレーニングする。
例えば、前記第1損失関数、第2損失関数、および第3損失関数はいずれも平均二乗誤差(Mean Square Error、MSE)を採用することができる。別の例として、前記第1損失関数、第2損失関数、および第3損失関数はいずれも平均二乗誤差の平方根を使用することができる。
Figure 2023541119000007
図5Aは、本開示の一実施例による文字認識モデルの概略図である。
図5Aに示されるように、当該文字認識モデルは、視覚抽出サブモデル510、語彙特徴抽出サブモデル520、およびシーケンスサブモデル530を含む。
視覚抽出サブモデル510は、第1サンプル画像(Sample Image1)に基づいて、第1視覚特徴および第1予測文字を出力することができる。語彙特徴抽出サブモデル520は、第1予測文字に基づいて、第1語彙特徴を出力することができる。シーケンスサブモデル530は、第1視覚特徴および第1語彙特徴に基づいて第2予測文字を出力することができる。
ここで、第1サンプル画像は、文字および第1実際文字を示すラベルとを含む。第1予測文字と第1実際文字との差分に基づいて、ある損失を決定することができ、第2予測文字と第1実際文字との差分に基づいて、別の損失を決定することができる。決定された2つの損失のうちの少なくとも1つに基づいて、視覚抽出サブモデル510、語彙特徴抽出サブモデル520、およびシーケンスサブモデル530内の少なくとも1つのサブモデルのパラメータを調整して、今回のトレーニングを完了する。前記2つの損失のうちの少なくとも1つが所定値に達するまで、第1サンプル画像または他のサンプル画像を入力として、複数のトレーニングを実行することができる。あるいは、所定回数のトレーニングが完了するまで、第1サンプル画像または他のサンプル画像を入力として、トレーニングを実行する。ここで、第1サンプル画像は、複数のサンプル画像を含み得る。
図5Bは、本開示の別の実施例による文字認識モデルの概略図である。
図5Bに示されるように、当該文字認識モデルは、視覚抽出サブモデル510、語彙特徴抽出サブモデル520、およびシーケンスサブモデル530を含む。
視覚抽出サブモデル510は、第1特徴抽出ネットワーク511、第1出力ネットワーク512、第2位置符号化ネットワーク513、および第1変換ネットワーク514を含み得る。
第1特徴抽出ネットワークは、符号化サブネットワーク5111、シーケンス符号化サブネットワーク5112、および復号化サブネットワーク5113を含む。符号化サブネットワーク5111は、第1サンプル画像(Sample Image1)に基づいて局所画像特徴I_feat1を出力することができる。シーケンス符号化サブネットワーク5112は、局所画像特徴I_feat1によって変換された一次元特徴シーケンスに基づいて、非局所画像特徴I_feat2を出力することができる。
第2位置符号化ネットワーク513は、所定の位置ベクトルに基づいて、第2位置符号化特徴を出力することができる。第1変換ネットワーク514は、第2位置符号化特徴に基づいて、位置識別情報が付加されたターゲット位置特徴を出力することができる。
復号化サブネットワーク5113は、前記ターゲット位置特徴および非局所画像特徴I_feat2に基づいて、第1視覚特徴を出力することができ、ここで、第1視覚特徴は、文字視覚特徴C_feat1および第1グローバル特徴G_feat1を含む。第1出力ネットワーク512は、文字視覚特徴C_feat1に基づいて、第1予測文字を出力することができる。
語彙特徴抽出サブモデル520は、文字符号化ネットワーク521、第2特徴抽出ネットワーク522、第3位置符号化ネットワーク523、第2変換ネットワーク524、および第2出力ネットワーク525を含むことができる。
文字符号化ネットワーク521は、第1予測文字に基づいて、文字特徴を出力することができる。第3位置符号化ネットワーク523は、所定の位置ベクトルに基づいて、第3位置符号化特徴を出力することができる。第2変換ネットワーク524は、第3位置符号化特徴および文字特徴に基づいて、ターゲット文字特徴を出力することができる。第2特徴抽出ネットワーク522は、ターゲット位置特徴に基づいて、第1語彙特徴を出力することができる。ここで、第1語彙特徴は、文字語彙特徴C_feat2および第2グローバル特徴G_feat2を含む。第2出力ネットワークは、文字語彙特徴C_feat2に基づいて、第1予測文字に対する誤り訂正文字を出力することができる。
シーケンスサブモデル530は、第1位置符号化ネットワーク531、シーケンスネットワーク532、スティッチングネットワーク533、および融合ネットワーク534を含む。
第1位置符号化ネットワーク531は、所定の位置ベクトルに基づいて、第1位置符号化特徴を出力することができる。スティッチングネットワーク533は、第1グローバル特徴G_feat1および第2グローバル特徴G_feat2に基づいて、スティッチングされた特徴を出力することができる。融合ネットワーク534は、スティッチングされた特徴および第1位置符号化特徴に基づいて、シーケンスネットワーク532の入力特徴を出力することができる。シーケンスネットワーク532は、この入力特徴に基づいて、第2予測文字を出力することができる。
ここで、第1サンプル画像は、文字と第1実際文字を示すラベルとを含む。第1予測文字および第1実際文字に基づいて、第1損失値を決定することができ、第2予測文字および第1実際文字に基づいて、第2損失値を決定することができ、第1予測文字に対する誤り訂正文字と第1実際文字に基づいて、第3損失値を決定する。3つの決定された損失値のうちの少なくとも1つに基づいて、視覚抽出サブモデル510、語彙特徴抽出サブモデル520、およびシーケンスサブモデル530中の少なくとも1つのサブモデルまたはサブモデル中の少なくとも一つのネットワークのパラメータを調整して、今回のトレーニングを完了する。前記3つの損失値の少なくとも1つが所定値未満になるまで、第1サンプル画像または他のサンプル画像を入力として、複数のトレーニングを実行することができる。あるいは、所定回数のトレーニングが完了するまで第1サンプル画像または他のサンプル画像を入力として、トレーニングを実行する。
図6は、本開示の一実施例による文字認識方法のフローチャートである。
図6に示すように、当該文字認識方法600は、操作S610~操作S620を含むことができる。
操作S610で、認識すべき画像を文字認識モデルに入力し、前記認識すべき画像は文字を含む。
例えば、認識すべき画像は、歪みのない文字を含む通常のナンバープレートの画像であってもよい。別の例として、認識すべき画像は、歪みがある文字を含む湾曲したナンバープレートの画像であってもよい。
操作S620では、前記認識すべき画像の文字を取得する。
本開示の実施例によれば、前述の操作S610は、前述の文字認識モデルのトレーニング方法でトレーニングして得られた文字認識モデルに認識すべき画像を入力し、文字認識モデルは、前述の操作S110~操作S130と類似する方法を経由して予測文字を取得し、この予測文字を認識すべき画像内の文字とする。
図7は、本開示の一実施例による文字認識モデルのトレーニング装置のブロック図である。
図7に示すように、前記文字認識モデルのトレーニング装置700は、第1情報取得モジュール710、第1語彙特徴取得モジュール720、第1文字取得モジュール730及びモデルトレーニングモジュール740を含む。前記文字認識モデルには、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルが含まれる。
第1情報取得モジュール710は、文字と第1実際文字を示すラベルを含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を取得する。一実施例では、第1情報取得モジュール710は、前記操作S110を実行することができ、ここでは説明を省略する。
第1語彙特徴取得モジュール720は、前記第1予測文字に基づいて前記語彙特徴抽出サブモデルを採用することによって第1語彙特徴を取得する。一実施例では、第1語彙特徴取得モジュール720は、上述の操作S120を実行し、ここでは説明を省略する。
第1文字取得モジュール730は、前記第1視覚特徴および前記第1語彙特徴に基づいて前記シーケンスサブモデルを採用することによって、第2予測文字を取得する。一実施例では、第1文字取得モジュール730は、上述の操作S130を実行し、ここでは説明を省略する。
モデルトレーニングモジュール740は、前記第1予測文字、前記第2予測文字、および前記第1実際文字に基づいて前記文字認識モデルをトレーニングする。一実施例では、モデルトレーニングモジュール740は、上述の操作S140を実行し、ここでは説明を省略する。
いくつかの実施例では、前記シーケンスサブモデルは、第1位置符号化ネットワークおよびシーケンスネットワークを含み、前記第1文字取得モジュールは、所定の位置ベクトルを前記第1位置符号化ネットワークに入力して第1位置符号化特徴を取得するための第1位置符号化取得サブモジュールと、前記第1視覚特徴、前記第1語彙特徴及び前記第1位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得サブモジュールと、前記入力特徴を前記シーケンスネットワークに入力して、前記第2予測文字を取得するための第1文字取得サブモジュールとを含む。
いくつかの実施例では、前記視覚特徴抽出サブモデルは、第1特徴抽出ネットワークおよび第1出力ネットワークを含み、前記第1情報取得モジュールは、前記第1サンプル画像を前記第1特徴抽出ネットワークに入力して前記第1視覚特徴を取得するための第1視覚特徴取得サブモジュールと、前記第1視覚特徴に基づいて前記第1出力ネットワークを採用して前記第1予測文字を取得するための第2文字取得サブモジュールとを含み、前記語彙特徴抽出サブモデルは文字符号化ネットワークおよび第2特徴抽出ネットワークを含み、第1語彙特徴取得モジュールは、前記第1予測文字を前記文字符号化ネットワークに入力して、前記第1予測文字の文字特徴を取得するための文字特徴取得サブモジュールと、前記文字特徴に基づいて前記第2特徴抽出ネットワークを採用して前記第1語彙特徴を取得するための第1語彙特徴取得サブモジュールとを含む。
いくつかの実施例では、前記第1特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含み、前記第1視覚特徴取得サブモジュールは、前記第1サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得するための局所画像特徴取得ユニットと、前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得するための非局所画像特徴取得ユニットと、前記非局所画像特徴に基づいて復号化サブネットワークを採用して前記第1視覚特徴を取得するための第1視覚特徴取得ユニットと、を含む。
いくつかの実施例では、前記視覚特徴抽出サブモデルは、第2位置符号化ネットワークをさらに含み、前記第1視覚特徴取得ユニットは、所定の位置ベクトルを前記第2位置符号化ネットワークに入力して第2位置符号化特徴を取得するための第2位置符号化取得サブユニットと、前記第2位置符号化特徴および前記非局所画像特徴に基づいて前記復号化サブネットワークを採用して前記第1視覚特徴を取得するための第1視覚特徴取得サブユニットとを含み、及び/又は前記語彙特徴抽出サブモデルは、第3位置符号化ネットワークをさらに含み、前記第1語彙特徴取得サブモジュールは、所定の位置ベクトルを前記第3位置符号化ネットワークに入力して第3位置符号化特徴を取得するための第3位置符号化取得ユニットと、前記第3位置符号化特徴および前記文字特徴に基づいて前記特徴抽出ネットワークを採用して前記第1語彙特徴を取得するための第1語彙特徴取得ユニットとを含む。
いくつかの実施例では、前記視覚特徴抽出サブモデルは、第1変換ネットワークをさらに含み、第1視覚特徴取得サブユニットは、前記第2位置符号化特徴を前記第1変換ネットワークに入力して位置識別情報が付加されたターゲット位置特徴を取得するためのターゲット位置特徴取得サブユニットと、前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルとバリューベクトルとし、前記復号化サブユニットを採用して前記第1視覚特徴を取得するための復号化サブユニットとを含み、前記語彙特徴抽出サブモデルは、第2変換ネットワークをさらに含み、第1語彙特徴取得ユニットは、前記文字特徴および前記第3位置符号化特徴を前記第2変換ネットワークに入力してキャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得するためのターゲット文字特徴取得サブユニットと、前記ターゲット文字特徴を前記特徴抽出ネットワークに入力して第1語彙特徴を取得するための第1語彙特徴取得サブユニットとを含む。
いくつかの実施例では、前記第1視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第1グローバル特徴とを含み、前記第1予測文字は、前記文字視覚特徴を前記第1出力ネットワークに入力することによって得られ、前記第1語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第2グローバル特徴とを含み、前記入力特徴取得サブモジュールは、前記第1グローバル特徴、前記第2グローバル特徴、および前記第1位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得ユニットを含む。
いくつかの実施例では、前記シーケンスサブモデルは、スティッチングネットワークおよび融合ネットワークをさらに含み、前記入力特徴取得ユニットは、前記スティッチングネットワークを採用して前記第1グローバル特徴および前記第2グローバル特徴をスティッチングしてスティッチングされた特徴を取得するためのスティッチングサブユニットと、前記融合ネットワークを採用して、前記スティッチングした後の特徴と前記第1位置符号化特徴を加算して前記シーケンスネットワークの入力特徴を取得するための融合サブユニットとを含む。
いくつかの実施例では、前記語彙特徴抽出サブモデルは、第2出力ネットワークをさらに含み、前記装置は、前記第1語彙特徴を前記第2出力ネットワークに入力して前記第1予測文字に対する誤り訂正文字を取得するための誤り訂正文字取得モジュールを含み、ここで、モデルトレーニングモジュールは、前記第1予測文字、前記第2予測文字、前記第1予測文字に対する前記誤り訂正文字、および前記第1実際文字に基づいて前記文字認識モデルをトレーニングする第1モデルトレーニングサブモジュールを含む。
いくつかの実施例では、前記第1モデルトレーニングサブモジュールは、前記第1予測文字および前記第1実際文字に基づいて第1損失値を取得するための第1損失取得ユニットと、前記第2予測文字および前記第1実際文字に基づいて第2損失値を取得するための第2損失取得ユニットと、前記第1予測文字に対する誤り訂正文字と前記第1実際文字に基づいて第3損失値を取得するための第3損失取得ユニットと、前記第1損失値、前記第2損失値、および前記第3損失値に基づいて、前記文字認識モデルをトレーニングするためのモデルトレーニングユニットとを含む。
いくつかの実施例では、それはまた、以下の情報取得サブモジュールと第2モデルトレーニングサブモジュールによって前記視覚特徴抽出サブモデルを事前トレーニングするための第1事前トレーニングモジュールを含み、前記情報取得サブモジュールは、文字および第2実際文字を示すラベルを含む第2サンプル画像を前記視覚特徴抽出サブモデルに入力して第2視覚特徴および第3予測文字を取得し、前記第2モデルトレーニングサブモジュールは、前記第3予測文字と前記第2実際文字に基づいて前記視覚特徴抽出サブモデルをトレーニングする。
いくつかの実施例では、それはまた、以下の第2語彙特徴取得サブモジュールと誤り訂正文字取得サブモジュールと第3モデルトレーニングサブモジュールによって前記語彙特徴抽出サブモデルを事前トレーニングするための第2事前トレーニングモジュールを含み、前記第2語彙特徴取得サブモジュールは、実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第2語彙特徴を取得し、前記誤り訂正文字取得サブモジュールは、前記第2語彙特徴と前記サンプル文字の位置符号化特徴をスティッチングした後に所定の復号化ネットワークに入力して前記サンプル文字の予測の誤り訂正文字を取得し、前記第3モデルトレーニングサブモジュールは、前記実際の誤り訂正文字と前記予測の誤り訂正文字に基づいて前記語彙特徴抽出サブモデルをトレーニングする。
図8は、本開示の一実施例による文字認識装置のブロック図である。
図8に示すように、当該文字認識装置800は、画像入力モジュール810と文字取得モジュール820とを含む。
画像入力モジュール810は、文字を含む認識すべき画像を文字認識モデルに入力する。一実施例では、画像入力モジュール810は、上述の操作S610を実行することができ、ここでは説明を省略する。
文字取得モジュール820は、前記認識すべき画像中の文字を取得する。一実施例では、文字取得モジュール820は、上述の動作S620を実行することができ、ここでは説明を省略する。
ここで、前記文字認識モデルは、本開示によって提供される文字認識モデルのトレーニング装置を採用することによって得られる。
なお、本開示の技術案において、関するユーザ個人情報の取得、収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。
図9は、本開示の実施例の文字認識モデルのトレーニング方法及び/又は文字認識方法を実施することが可能な電子機器900の例を示す概略ブロック図である。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表示することを意図する。電子機器は、さらに、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図9に示すように、機器900は計算ユニット901を含み、それはリードオンリーメモリ(ROM)902に記憶されたコンピュータプログラム又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 903には、さらに機器900の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット901、ROM 902、およびRAM 903は、バス904を介して相互に接続されている。バス904には、入出力インタフェース905も接続されている。
機器900における複数の部品は、I/Oインタフェース905に接続され、例えばキーボード、マウス等の入力ユニット906と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット907と、例えば磁気ディスク、光ディスク等の記憶ユニット908と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット909とを含む。通信ユニット909は、電子機器900がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
計算ユニット901は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット901の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット901は、例えば文字認識モデルのトレーニング方法及び/又は文字認識方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、文字認識モデルのトレーニング方法及び/又は文字認識方法は、例えば記憶ユニット908のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信ユニット909を介して電子機器900にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM903にロードされて計算ユニット901により実行される場合、前記記載された文字認識モデルのトレーニング方法及び/又は文字認識方法の1つ又は複数の操作を実行してもよい。代替的に、別の実施例において、計算ユニット901は、他の任意の適切な形態(例えば、ファームウェアを介する)により文字認識モデルのトレーニング方法及び/又は文字認識方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、局所エリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。その中で、サーバは、クラウドサーバーであってもよく、クラウドコンピューティングサーバー又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品である。従来の物理ホストおよびVPSサービス(「Virtual Private Server」、または略して「VPS」)の既存の管理が困難であり、ビジネスの拡張性が低いという欠点を解決する。サーバは、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、付加したり又は削除してもよい。例えば、本発明に記載の各操作は、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
本出願は、2021年8月18日に出願された出願番号が202110951785.0である中国特許出願の優先権を主張し、その内容は参照により本明細書に組み込まれる。
本開示は、人工知能技術分野に関し、特にコンピュータービジョン及び深層学習分野に関し、スマートシティやスマートファイナンスなどのシナリオに適用できる。具体的には、文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
文字認識に使用されるモデルは、画像の視覚特徴に基づいてテキストコンテンツを識別できる。語彙モデルは、画像中のテキストの語彙特徴に基づいてテキストコンテンツを調整することができる。
これに基づき、本開示は、文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体及びプログラムを提供する。
本開示の一態様によれば、文字認識モデルのトレーニング方法を提供し、前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、前記方法は、文字と第1実際文字を示すラベルとを含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を取得することと、前記第1予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して第1語彙特徴を取得することと、前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第2予測文字を取得することと、前記第1予測文字、前記第2予測文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることと、を含む。
本開示の他の態様によれば、文字を含む認識すべき画像を本開示によって提供される文字認識モデルのトレーニング方法によってトレーニングされた文字認識モデルに入力することと、前記認識すべき画像内の文字を取得することとを含む、文字認識方法を提供する。
本開示の他の態様によれば、文字認識モデルのトレーニング装置を提供し、前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、前記装置は、文字と第1実際文字を示すラベルとを含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して第1視覚特徴および第1予測文字を取得する第1情報取得モジュールと、前記第1予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第1語彙特徴を取得する第1語彙特徴取得モジュールと、前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第2予測文字を取得する第1文字取得モジュールと、前記第1予測文字、前記第2予測文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングするモデルトレーニングモジュールと、を含む。
本開示の他の態様によれば、文字を含む認識すべき画像を本開示によって提供される文字認識モデルのトレーニング装置によってトレーニングされた文字認識モデルに入力する画像入力モジュールと、前記認識すべき画像内の文字を取得する文字取得モジュールとを含む、文字認識装置を提供する。
本開示の他の態様によれば、電子機器が提供され、この電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信に接続されるメモリとを含み、メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を格納し、命令は、少なくとも1つのプロセッサが本開示によって提供される文字認識モデルのトレーニング方法及び/又は文字認識方法を実行できるように少なくとも1つのプロセッサによって実行される。
本開示の他の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体が提供され、コンピュータ命令はコンピュータに本開示によって提供される文字認識モデルのトレーニング方法及び/又は文字認識方法を実行させる。
本開示の他の態様によれば、プロセッサにより実行される時に本開示によって提供される文字認識モデルのトレーニング方法及び/又は文字認識方法を実現するコンピュータプログラムが提供される。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本技術案をよりよく理解するためのものであり、本願を限定するものではない。
図1は、本開示の一実施例による文字認識モデルのトレーニング方法のフローチャートである。 図2は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。 図3は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。 図4は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。 図5Aは、本開示の一実施例による文字認識モデルの概略図である。 図5Bは、本開示の別の実施例による文字認識モデルの概略図である。 図6は、本開示の一実施例による文字認識方法のフローチャートである。 図7は、本開示の一実施例による文字認識モデルのトレーニング装置のブロック図である。 図8は、本開示の一実施例による文字認識装置のブロック図である。 図9は、本開示の実施例の文字認識モデルのトレーニング方法及び/又は文字認識方法を実施するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば理解できるように、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することがない。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
文字認識に用いられるモデルには、CRNN(Convolutional Recurrent Neural Network、畳み込みリカレントニューラルネットワーク)モデルまたはASTER(An Attentional Scene Text Recognizer with Flexible Rectification、柔軟な修正機能を備えたアテンションシーンテキスト認識装置)が含まれる。CRNNモデルやASTERは、視覚特徴のみを使用してテキストコンテンツを認識でき、通常のテキスト画像内の文字を認識できるが、欠陥のある(例えば、不完全な)画像に対して、認識効果が低くなる。
語彙特徴抽出に用いられるモデルは、SEED(Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition、シーンテキスト認識に用いられる語彙が強化されたエンコード復号化フレームワーク)、およびSRN(Spatial Regulation Network、空間正則化ネットワーク)モデルを含む。
SEEDモデルは、語彙特徴を使用して視覚特徴を監視し、これにより視覚特徴が語彙情報を持つ。しかし、SEEDモデルは、語彙特徴を視覚特徴と融合しておらず、且つ当該モデルによる語彙特徴に対する表現が不充分である。
SRNモデルは、語彙特徴を使用して文字認識モデルを強化し、文字認識モデルのパフォーマンスを効果的に向上させることができる。ただし、SRNモデルは、局所語彙特徴(例えば単一のキャラクター)しか使用できず、グローバル語彙特徴を使用することができない。
図1は、本開示の実施例による文字認識モデルのトレーニング方法のフローチャートである。
図1に示すように、当該文字認識モデルのトレーニング方法100は、操作S110~操作S140を含む。当該文字認識モデルには、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、シーケンスサブモデルが含まれる。
操作S110では、第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を取得する。ここで、前記第1サンプル画像は、文字および第1実際文字を示すラベルを含む。
例えば、第1サンプル画像は、歪みのない文字を含む通常のナンバープレートの画像であってもよい。別の例として、第1サンプル画像は、歪みがある文字を含む湾曲したナンバープレートの画像であってもよい。
例えば、第1視覚特徴は、可能なキャラクターまたは可能なキャラクターの組み合わせを含むことができる。
例えば、視覚特徴抽出サブモデルは、上述のCRNNモデルまたはASTERモデルであってもよいが、本開示では限定されない。
操作S120では、前記第1予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第1語彙特徴を取得する。
例えば、第1語彙特徴は、各可能な各キャラクター間の関係を含むことができる。一例では、各可能な各キャラクター間の関係は、あるキャラクターとその前のキャラクターとの関係、およびあるキャラクターとその次のキャラクターとの関係であり得る。
例えば、語彙特徴抽出サブモデルは、例えばLSTM(Long Short Term Memory、ロングショートタームメモリネットワーク)モデルなどの、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)モデル等のシーケンスモデルであってもよい。別の例として、語彙特徴抽出サブモデルは、トランスフォーマーモデルであってもよく、本開示では限定されない。
操作S130では、前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して第2予測文字を取得する。
例えば、第2予測文字は、可能なキャラクター、組み合わされた可能なキャラクター、および各可能な各キャラクター間の関係に基づいて得ることができる。
理解すべきこととして、第1語彙特徴は、他の情報も含むことができ、第1視覚特徴は、他の情報も含むことができ、可能なキャラクター、組み合わされた可能なキャラクター、および画像における各可能なキャラクター間の関係に基づいて第2予測文字を取得することは、第2予測文字を取得する形態しかないである。他の例では、第2予測文字は、第1視覚特徴および第1語彙特徴における他の情報に基づいて取得することもできる。
例えば、シーケンスサブモデルは、前述のLSTMモデルなどであってもよいが、本開示ではこれを限定しない。
操作S140で、前記文字認識モデルは、前記第1予測文字、前記第2予測文字、および前記第1実際文字に基づいてトレーニングされる。
例えば、第1予測文字と第1実際文字に基づいて、一つの損失値を取得でき、第2予測文字と第1予測文字に基づいて、別の損失値を取得でき、2つの損失値に基づいて、視覚特徴抽出サブモデル、語彙特徴サブモデルおよびシーケンスサブモデル内の少なくとも1つのサブモデルのパラメータを調整して、この文字認識モデルに対する一回のトレーニングを完了する。2つの損失関数は、同じ関数であってもよく、異なる関数であってもよい。
本開示の実施例によれば、シーケンスサブモデルを採用して視覚特徴と語彙特徴を融合することにより、視覚特徴に基づいて予測して取得された予測テキストと語彙特徴に基づいて取得された別の予測テキストとが同じ長さを有することを要求する必要がなくなる。
図2は、本開示の実施例による別の文字認識モデルのトレーニング方法のフローチャートである。
図2に示すように、当該文字認識モデルのトレーニング方法210は、文字を含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を得ることができる。当該視覚特徴抽出サブモデルは、第1特徴抽出ネットワークおよび第1出力ネットワークを含む。当該文字認識モデルのトレーニング方法は、操作S211~操作S216を含むことができ、具体的には、当該操作S211~操作S216は、前述の操作S110の具体的な実施形態である。
当該文字認識モデルのトレーニング方法210は、前記第1サンプル画像を第1特徴抽出ネットワークに入力して、前記第1視覚特徴を得ることができる。当該第1特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含む。
操作S211で、前記第1サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得する。
本開示の実施例では、符号化サブネットワークは、畳み込みニューラルネットワークであってもよい。
例えば、符号化サブネットワークは、VGG、ResNet、DenseNet、MoBileNetなどの任意の構造の畳み込みニューラルネットワークであることができる。符号化サブネットワークは、例えばDeformconv、SE、DilationconvおよびInceptionなどのネットワーク効果を改善する演算子を使用することもできる。
例えば、第1サンプル画像はH×Wのピクチャーであってもよく、符号化サブネットワークはH×Wのピクチャーに基づいてh×wの局所画像特徴を出力してもよい。
操作S212において、前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得する。
本開示の実施例では、シーケンス符号化サブネットワークは、アテンションメカニズムに基づいて構築することができる。
例えば、シーケンス符号化サブネットワークは、自己アテンションメカニズムに基づいて構築することができる。一例では、符号化サブネットワークによって出力されるh×wの局所画像特徴は、最初に長さkのシーケンスに変換される。ここで、k=h*wである。シーケンス符号化サブネットワークは、長さkのシーケンスに基づいて、非局所画像特徴を出力する。シーケンス符号化サブネットワークは、局所画像特徴を画像のグローバルと関連付けて、より高レベルの特徴、つまり非局所画像特徴を生成できる。当該視覚特徴抽出サブモデルにシーケンス符号化ネットワークを設定することにより、文脈情報に対する視覚特徴の表現能力が向上し、得られる第1予測文字の精度が向上する。
次に、当該文字認識モデルのトレーニング方法210は、前記非局所画像特徴に基づいて、前記復号化サブネットワークを採用して、前記第1視覚特徴を得ることができる。当該視覚特徴抽出サブモデルには、第2位置符号化ネットワークも含まれる。
操作S213において、所定の位置ベクトルを前記第2位置符号化ネットワークに入力して、第2位置符号化特徴を取得する。
例えば、所定の位置ベクトルは、位置0から24までを表す行列であってもよい。理解できることとして、当該所定の位置ベクトルの長さは、実際の必要に基づいて設定することができ、本開示ではこれを限定しない。
次に、当該文字認識モデルのトレーニング方法は、前記第2位置符号化特徴および前記非局所画像特徴に基づき、前記復号化サブネットワークを採用して前記第1視覚特徴を得ることができる。当該視覚特徴抽出サブモデルには、第1変換ネットワークも含まれる。
操作S214では、前記第2位置符号化特徴を前記第1変換ネットワークに入力して、位置識別情報が付加されたターゲット位置特徴を取得する。
例えば、第1変換ネットワークは少なくとも1つの全結合層を含み、第2位置符号化特徴は、全結合層によって処理され、ターゲット位置特徴に変換される。位置識別情報と組み合わせて、各位置から学習して一つの独立のベクトルを取得することができる。第1サンプル画像の文字の長さは、位置符号化の範囲を超えないことができる。
操作S215では、前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルおよびバリューベクトルとし、前記復号化サブネットワークを採用して前記第1視覚特徴を取得する。
本開示の実施例では、復号化サブネットワークは、アテンションメカニズムに基づいて構築することができる。
例えば、復号化サブネットワークは、並列アテンションメカニズム(Multi-Head Attention)に基づいて構築でき、復号化サブネットワークの入力には、キーベクトル、バリューベクトル、およびクエリベクトルが含まれることができる。抽出された非局所画像特徴の精度を向上させることができる。
本開示の実施例では、前記第1視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第1グローバル特徴とを含む。
例えば、復号化サブネットワークは、位置識別情報を使用して、非局所特徴から可能なキャラクター特徴を見つけ、可能なキャラクター特徴を組み合わせて、文字視覚特徴を取得することができる。復号化サブネットワークは、位置識別情報から、キャラクターグローバル情報を含む第1グローバル特徴を復号化することができる。一例では、復号化サブネットワークは、位置0に対応するベクトルに基づいて、第1グローバル特徴を復号化することができる。
操作S216において、前記第1視覚特徴に基づいて、前記第1出力ネットワークを採用して前記第1予測文字を取得する。
本開示の実施例では、第1出力ネットワークは、文字視覚特徴に基づいて第1予測文字を取得することができる。
例えば、第1出力ネットワークは、少なくとも1つの全結合層およびSoftmax層を含むことができる。第1出力ネットワークの全結合層とSoftmax層は、文字視覚特徴に基づいて第1予測文字を出力することができる。
いくつかの実施例では、以下の方式で前記視覚特徴抽出サブモデルを事前トレーニングすることをさらに含み、当該方式は、文字および第2実際文字を示すラベルを含む第2サンプル画像を前記視覚特徴抽出サブモデルに入力して、第2視覚特徴および第3予測文字を取得することと、前記第3予測文字と前記第2実際文字とに基づいて、前記視覚特徴抽出サブモデルをトレーニングすることとを含む。視覚特徴抽出サブモデルを事前トレーニングすることにより、文字認識モデルのトレーニング効率を向上させることができる。
第2サンプル画像は、第1サンプル画像と同じトレーニングデータセットから、または異なるトレーニングデータセットから選択することができる。例えば、第2サンプル画像が属するトレーニングデータセットは、複数の領域の画像に基づいて構築されてもよく、第1サンプル画像が属するトレーニングデータセットは、複数の領域のあるターゲット領域の画像に基づいて構築されてもよい。
図3は、本開示の別の実施例による文字認識モデルのトレーニング方法のフローチャートである。
図3に示すように、当該文字認識モデルのトレーニング方法320は、前記第1予測文字に基づき、前記語彙特徴抽出サブモデルを使用して第1語彙特徴を取得することができる。当該語彙特徴抽出サブモデルは、文字符号化ネットワークおよび第2出力ネットワークを含むことができる。当該文字認識モデルのトレーニング方法320は、操作S321~操作S325を含むことができる。具体的には、操作S321~操作S325は、前述の操作S120の具体的な実施形態である。
操作S321で、前記第1予測文字を文字符号化ネットワークに入力して、第1予測文字の文字特徴を取得する。
本開示の実施例では、文字符号化ネットワークは、第1予測文字に対してOne-Hot符号化(ワンホット符号化)を実行して、文字特徴を取得することができる。
例えば、文字符号化ネットワークは、第1予測文字に対してOne-Hot符号化を実行して、キャラクター長C×Nの行列を取得する。当該行列の各行は、1つのキャラクターに対応し、当該行列の各行は、1×Nのベクターにすることができる。一例では、第1サンプル画像は、変形された「Hello」の文字画像などの変形された文字画像であってもよく、第1予測文字は「Hallo」であってもよい。文字特徴は、5行N列の行列であり、各行は、第1予測文字「Hallo」の一つのキャラクターに対応する。
当該語彙特徴抽出サブモデルは、第2特徴抽出ネットワークおよび第3位置符号化ネットワークも含む。次に、当該文字認識モデルのトレーニング方法320は、前記文字特徴に基づいて、前記第2特徴抽出ネットワークを採用して、前記第1語彙特徴を取得することができる。
操作S322において、所定の位置ベクトルを前記第3位置符号化ネットワークに入力して、第3位置符号化特徴を取得する。
例えば、所定の位置ベクトルは、位置0~位置24を表す行列であってもよい。
次に、当該文字認識モデルのトレーニング方法320は、前記第3位置符号化特徴および前記文字特徴に基づいて、前記第2特徴抽出ネットワークを採用して、前記第1語彙特徴を取得することができる。当該語彙特徴抽出サブモデルには、第2変換ネットワークも含まれる。
操作S323では、前記文字特徴と前記第3位置符号化特徴を前記第2変換ネットワークに入力して、キャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得する。
本開示の実施例では、前記文字特徴および前記第3位置符号化特徴を加算し、加算して得られた特徴の初期位置に前記キャラクター識別情報を付加し、文字特徴行列(C+1)×(N+1)を取得する。ここで、前記文字特徴および前記第3位置符号化特徴のサイズはいずれもC×Nである。
例えば、第3位置符号化特徴は、C行N列の行列である。文字特徴は行列aである。
Figure 2023541119000018
文字特徴aもC行N列の行列である。その後、文字特徴aを第3符号化位置特徴に加算し、加算して得られた特徴の初期位置にキャラクター識別情報を付加してターゲット文字特徴a'を取得し、
Figure 2023541119000019
一例では、C=24である。
本開示の実施例では、前記文字特徴の初期位置に前記キャラクター識別情報を付加し、前記キャラクター識別情報が付加された文字特徴と前記第3位置符号化特徴とを加算し、文字特徴行列(C+1)×(N+1)を取得する。ここで、前記文字特徴のサイズはC×Nであり、前記第3位置符号化特徴のサイズは(C+1)×(N+1)である。
例えば、文字特徴は行列aであり、
Figure 2023541119000020
まず、文字特徴aにキャラクター識別情報を付加して、キャラクター識別情報が付加された文字特徴a''を取得し、
Figure 2023541119000021
キャラクター識別情報が付加された文字特徴a''と第3符号化位置特徴とを加算してターゲット文字特徴a'''を取得し、
Figure 2023541119000022
ここで、第3位置符号化特徴は、(C+1)行(N+1)列の行列である。
一例では、C=24である。
操作324において、前記ターゲット文字特徴を前記第2特徴抽出ネットワークに入力して前記第1語彙特徴を取得する。
本開示の実施例では、前記第1語彙特徴に、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第2グローバル特徴とが含まれる。
例えば、アテンションメカニズムに基づいて各キャラクター間の関係を構築し、文字語彙特徴を取得することができる。
例えば、前記ターゲット文字特徴a'またはa'''におけるキャラクター識別情報を復号化して、第2グローバル特徴を取得することができる。第1予測文字における比較的大きなスパンでの文字間の文脈情報に対する抽出を実現でき、得られる語彙特徴の精度を向上させることができる。
操作325において、前記第1語彙特徴を前記第2出力ネットワークに入力して、前記第1予測文字に対する誤り訂正文字を取得する。
本開示の実施例では、第2出力ネットワークは、文字語彙特徴に基づいて、第1予測文字の誤り訂正文字を取得することができる。
例えば、第2出力ネットワークは、少なくとも1つの全結合層およびSoftmax層を含むことができる。第1出力ネットワークの全結合層とSoftmax層は、文字語彙特徴に基づいて、第1予測文字の誤り訂正文字を出力することできる。
いくつかの実施例では、以下の方式で前記語彙特徴抽出サブモデルを事前トレーニングし、当該方式は、実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第2語彙特徴を取得することと、前記第2語彙特徴と前記サンプルテキストの位置符号化特徴をスティッチングして所定の復号化ネットワークに入力し、前記サンプル文字の予測誤り訂正文字を取得することと、及び前記実際の誤り訂正文字および前記予測の誤り訂正文字に基づいて、前記語彙特徴抽出サブモデルをトレーニングすることと、を含む。
例えば、語彙特徴抽出サブモデルは、Transformerモデルに基づいて構築することができ、所定の復号化ネットワークもTransformerモデルに基づいて構築することができる。トレーニングが完了すると、語彙特徴抽出サブモデルに対応するTransformerモデルのパラメータを、文字認識モデルにおける対応サブモデルの初期パラメータとする。語彙特徴抽出サブモデルを事前トレーニングすることにより、文字認識モデルのトレーニング効率を向上させることができる。
図4は、本開示の一実施例による文字認識モデルのトレーニング方法のフローチャートである。
図4に示すように、当該文字認識モデルのトレーニング方法430は、前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第2予測文字を取得することができる。当該文字認識モデルのトレーニング方法430は、操作S431~操作S434を含むことができる。当該シーケンスサブモデルは、第1位置符号化ネットワークおよびシーケンスネットワークを含み得る。具体的には、当該操作S431~操作S434は、前述の操作S130の具体的な実施形態である。
操作S431で、所定の位置ベクトルを前記第1位置符号化ネットワークに入力して、第1位置符号化特徴を取得する。
例えば、所定の位置ベクトルは、位置0~位置24を表す行列であってもよい。位置符号化特徴を付加すると、取得した第2予測文字の精度を向上させることができる。
次に、当該文字認識モデルのトレーニング方法430は、前記第1視覚特徴、前記第1語彙特徴、および前記第1位置符号化特徴に基づいて、前記シーケンスネットワークの入力特徴を取得することができる。当該シーケンスサブモデルは、さらに、スティッチングネットワークおよび融合ネットワークを含み得る。
本開示の実施例では、前記シーケンスネットワークの入力特徴を取得するために必要とされる特徴は、第1視覚特徴における第1グローバル特徴、第1語彙特徴における第2グローバル特徴、および第1位置符号化特徴を含み得る。
操作S432において、前記スティッチングネットワークを採用して前記第1グローバル特徴と前記第2グローバル特徴とをスティッチングして、スティッチングされた特徴を取得する。
例えば、第1グローバル特徴は1×Mのベクトルであり、第2グローバル特徴も1×Nのベクトルである。スティッチングされた特徴は、1×(M+N)のベクトルであってもよい。一例では、M=Nである。
理解すべきこととして、スティッチングネットワークが第1グローバル特徴と第2グローバル特徴とをスティッチングすることは、本開示におけるスティッチング形態の1つにすぎない。スティッチングネットワークは、他のスティッチング形態を使用して、第1視覚特徴と第1語彙特徴をスティッチングすることもできる。
操作S433において、前記融合ネットワークを採用して、前記スティッチングされた特徴と前記第1位置符号化特徴とを加算して、前記シーケンスネットワークの入力特徴を取得する。
例えば、スティッチングされた特徴をC行(M+N)列の行列に変換し、その行列の1行は前記1×(M+N)のベクトルと同じであり、残りの行は、固定値(0など)を埋めることができる。このスティッチングされた特徴によって変換された行列と第1位置符号化特徴とを加算して、入力特徴を取得する。
操作S434において、前記入力特徴を前記シーケンスネットワークに入力して、前記第2予測文字を取得する。
例えば、入力特徴から各キャラクターの特徴を抽出し、自己アテンションメカニズムを採用して復号化し、各キャラクターについて抽出された特徴は、少なくとも1つの全結合層とSoftmax層によって処理され、第2予測文字を取得する。
本開示の実施例により、視覚モデル予測結果および語彙誤り訂正結果が直接に対応する位置を加重して加算することが回避され、それによって誤りを低減する可能性が提供される。
いくつかの実施例では、前記シーケンスネットワークの入力特徴を取得するために必要な特徴は、第1視覚特徴、第1語彙特徴、および第1位置符号化特徴を含み得る。ここで、第1視覚特徴は、文字視覚特徴および第1グローバル特徴を含み、第1語彙特徴は、文字語彙特徴および第2グローバル特徴を含む。
例えば、前記スティッチングネットワークは、文字視覚特徴および第1グローバル特徴の少なくとも1つと、文字語彙特徴および第2グローバル特徴の少なくとも1つとをスティッチングして、スティッチングされた特徴を得ることができる。前記融合ネットワークは、スティッチングされた特徴を第1位置符号化特徴と融合して、シーケンスネットワークの入力特徴を取得することができる。
いくつかの実施例では、前記第1予測文字、前記第2予測文字、および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることは、前記第1予測文字、前記第2予測文字、前記第1予測文字に対する誤り訂正文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることを含む。モデルの精度をさらに向上させることができる。
さらに、いくつかの実施例では、前記第1予測文字、前記第2予測文字、前記第1予測文字に対する前記誤り訂正文字、および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることは、前記第1予測文字および前記第1実際文字に基づいて、第1損失値を取得することを含む。前記第2予測文字と前記第1実際文字に基づいて、第2損失値を取得する。前記第1予測文字に対する誤り訂正文字および前記第1実際文字に基づいて、第3損失値を取得する。前記第1損失値、前記第2損失値、および前記第3損失値に基づいて、前記文字認識モデルをトレーニングする。
例えば、前記第1損失関数、第2損失関数、および第3損失関数はいずれも平均二乗誤差(Mean Square Error、MSE)を採用することができる。別の例として、前記第1損失関数、第2損失関数、および第3損失関数はいずれも平均二乗誤差の平方根を使用することができる。
Figure 2023541119000023
図5Aは、本開示の一実施例による文字認識モデルの概略図である。
図5Aに示されるように、当該文字認識モデルは、視覚抽出サブモデル510、語彙特徴抽出サブモデル520、およびシーケンスサブモデル530を含む。
視覚抽出サブモデル510は、第1サンプル画像(Sample Image1)に基づいて、第1視覚特徴および第1予測文字を出力することができる。語彙特徴抽出サブモデル520は、第1予測文字に基づいて、第1語彙特徴を出力することができる。シーケンスサブモデル530は、第1視覚特徴および第1語彙特徴に基づいて第2予測文字を出力することができる。
ここで、第1サンプル画像は、文字および第1実際文字を示すラベルとを含む。第1予測文字と第1実際文字との差分に基づいて、ある損失を決定することができ、第2予測文字と第1実際文字との差分に基づいて、別の損失を決定することができる。決定された2つの損失のうちの少なくとも1つに基づいて、視覚抽出サブモデル510、語彙特徴抽出サブモデル520、およびシーケンスサブモデル530内の少なくとも1つのサブモデルのパラメータを調整して、今回のトレーニングを完了する。前記2つの損失のうちの少なくとも1つが所定値に達するまで、第1サンプル画像または他のサンプル画像を入力として、複数のトレーニングを実行することができる。あるいは、所定回数のトレーニングが完了するまで、第1サンプル画像または他のサンプル画像を入力として、トレーニングを実行する。ここで、第1サンプル画像は、複数のサンプル画像を含み得る。
図5Bは、本開示の別の実施例による文字認識モデルの概略図である。
図5Bに示されるように、当該文字認識モデルは、視覚抽出サブモデル510、語彙特徴抽出サブモデル520、およびシーケンスサブモデル530を含む。
視覚抽出サブモデル510は、第1特徴抽出ネットワーク511、第1出力ネットワーク512、第2位置符号化ネットワーク513、および第1変換ネットワーク514を含み得る。
第1特徴抽出ネットワークは、符号化サブネットワーク5111、シーケンス符号化サブネットワーク5112、および復号化サブネットワーク5113を含む。符号化サブネットワーク5111は、第1サンプル画像(Sample Image1)に基づいて局所画像特徴I_feat1を出力することができる。シーケンス符号化サブネットワーク5112は、局所画像特徴I_feat1によって変換された一次元特徴シーケンスに基づいて、非局所画像特徴I_feat2を出力することができる。
第2位置符号化ネットワーク513は、所定の位置ベクトルに基づいて、第2位置符号化特徴を出力することができる。第1変換ネットワーク514は、第2位置符号化特徴に基づいて、位置識別情報が付加されたターゲット位置特徴を出力することができる。
復号化サブネットワーク5113は、前記ターゲット位置特徴および非局所画像特徴I_feat2に基づいて、第1視覚特徴を出力することができ、ここで、第1視覚特徴は、文字視覚特徴C_feat1および第1グローバル特徴G_feat1を含む。第1出力ネットワーク512は、文字視覚特徴C_feat1に基づいて、第1予測文字を出力することができる。
語彙特徴抽出サブモデル520は、文字符号化ネットワーク521、第2特徴抽出ネットワーク522、第3位置符号化ネットワーク523、第2変換ネットワーク524、および第2出力ネットワーク525を含むことができる。
文字符号化ネットワーク521は、第1予測文字に基づいて、文字特徴を出力することができる。第3位置符号化ネットワーク523は、所定の位置ベクトルに基づいて、第3位置符号化特徴を出力することができる。第2変換ネットワーク524は、第3位置符号化特徴および文字特徴に基づいて、ターゲット文字特徴を出力することができる。第2特徴抽出ネットワーク522は、ターゲット位置特徴に基づいて、第1語彙特徴を出力することができる。ここで、第1語彙特徴は、文字語彙特徴C_feat2および第2グローバル特徴G_feat2を含む。第2出力ネットワークは、文字語彙特徴C_feat2に基づいて、第1予測文字に対する誤り訂正文字を出力することができる。
シーケンスサブモデル530は、第1位置符号化ネットワーク531、シーケンスネットワーク532、スティッチングネットワーク533、および融合ネットワーク534を含む。
第1位置符号化ネットワーク531は、所定の位置ベクトルに基づいて、第1位置符号化特徴を出力することができる。スティッチングネットワーク533は、第1グローバル特徴G_feat1および第2グローバル特徴G_feat2に基づいて、スティッチングされた特徴を出力することができる。融合ネットワーク534は、スティッチングされた特徴および第1位置符号化特徴に基づいて、シーケンスネットワーク532の入力特徴を出力することができる。シーケンスネットワーク532は、この入力特徴に基づいて、第2予測文字を出力することができる。
ここで、第1サンプル画像は、文字と第1実際文字を示すラベルとを含む。第1予測文字および第1実際文字に基づいて、第1損失値を決定することができ、第2予測文字および第1実際文字に基づいて、第2損失値を決定することができ、第1予測文字に対する誤り訂正文字と第1実際文字に基づいて、第3損失値を決定する。3つの決定された損失値のうちの少なくとも1つに基づいて、視覚抽出サブモデル510、語彙特徴抽出サブモデル520、およびシーケンスサブモデル530中の少なくとも1つのサブモデルまたはサブモデル中の少なくとも一つのネットワークのパラメータを調整して、今回のトレーニングを完了する。前記3つの損失値の少なくとも1つが所定値未満になるまで、第1サンプル画像または他のサンプル画像を入力として、複数のトレーニングを実行することができる。あるいは、所定回数のトレーニングが完了するまで第1サンプル画像または他のサンプル画像を入力として、トレーニングを実行する。
図6は、本開示の一実施例による文字認識方法のフローチャートである。
図6に示すように、当該文字認識方法600は、操作S610~操作S620を含むことができる。
操作S610で、認識すべき画像を文字認識モデルに入力し、前記認識すべき画像は文字を含む。
例えば、認識すべき画像は、歪みのない文字を含む通常のナンバープレートの画像であってもよい。別の例として、認識すべき画像は、歪みがある文字を含む湾曲したナンバープレートの画像であってもよい。
操作S620では、前記認識すべき画像の文字を取得する。
本開示の実施例によれば、前述の操作S610は、前述の文字認識モデルのトレーニング方法でトレーニングして得られた文字認識モデルに認識すべき画像を入力し、文字認識モデルは、前述の操作S110~操作S130と類似する方法を経由して予測文字を取得し、この予測文字を認識すべき画像内の文字とする。
図7は、本開示の一実施例による文字認識モデルのトレーニング装置のブロック図である。
図7に示すように、前記文字認識モデルのトレーニング装置700は、第1情報取得モジュール710、第1語彙特徴取得モジュール720、第1文字取得モジュール730及びモデルトレーニングモジュール740を含む。前記文字認識モデルには、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルが含まれる。
第1情報取得モジュール710は、文字と第1実際文字を示すラベルを含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を取得する。一実施例では、第1情報取得モジュール710は、前記操作S110を実行することができ、ここでは説明を省略する。
第1語彙特徴取得モジュール720は、前記第1予測文字に基づいて前記語彙特徴抽出サブモデルを採用することによって第1語彙特徴を取得する。一実施例では、第1語彙特徴取得モジュール720は、上述の操作S120を実行し、ここでは説明を省略する。
第1文字取得モジュール730は、前記第1視覚特徴および前記第1語彙特徴に基づいて前記シーケンスサブモデルを採用することによって、第2予測文字を取得する。一実施例では、第1文字取得モジュール730は、上述の操作S130を実行し、ここでは説明を省略する。
モデルトレーニングモジュール740は、前記第1予測文字、前記第2予測文字、および前記第1実際文字に基づいて前記文字認識モデルをトレーニングする。一実施例では、モデルトレーニングモジュール740は、上述の操作S140を実行し、ここでは説明を省略する。
いくつかの実施例では、前記シーケンスサブモデルは、第1位置符号化ネットワークおよびシーケンスネットワークを含み、前記第1文字取得モジュールは、所定の位置ベクトルを前記第1位置符号化ネットワークに入力して第1位置符号化特徴を取得するための第1位置符号化取得サブモジュールと、前記第1視覚特徴、前記第1語彙特徴及び前記第1位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得サブモジュールと、前記入力特徴を前記シーケンスネットワークに入力して、前記第2予測文字を取得するための第1文字取得サブモジュールとを含む。
いくつかの実施例では、前記視覚特徴抽出サブモデルは、第1特徴抽出ネットワークおよび第1出力ネットワークを含み、前記第1情報取得モジュールは、前記第1サンプル画像を前記第1特徴抽出ネットワークに入力して前記第1視覚特徴を取得するための第1視覚特徴取得サブモジュールと、前記第1視覚特徴に基づいて前記第1出力ネットワークを採用して前記第1予測文字を取得するための第2文字取得サブモジュールとを含み、前記語彙特徴抽出サブモデルは文字符号化ネットワークおよび第2特徴抽出ネットワークを含み、第1語彙特徴取得モジュールは、前記第1予測文字を前記文字符号化ネットワークに入力して、前記第1予測文字の文字特徴を取得するための文字特徴取得サブモジュールと、前記文字特徴に基づいて前記第2特徴抽出ネットワークを採用して前記第1語彙特徴を取得するための第1語彙特徴取得サブモジュールとを含む。
いくつかの実施例では、前記第1特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含み、前記第1視覚特徴取得サブモジュールは、前記第1サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得するための局所画像特徴取得ユニットと、前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得するための非局所画像特徴取得ユニットと、前記非局所画像特徴に基づいて復号化サブネットワークを採用して前記第1視覚特徴を取得するための第1視覚特徴取得ユニットと、を含む。
いくつかの実施例では、前記視覚特徴抽出サブモデルは、第2位置符号化ネットワークをさらに含み、前記第1視覚特徴取得ユニットは、所定の位置ベクトルを前記第2位置符号化ネットワークに入力して第2位置符号化特徴を取得するための第2位置符号化取得サブユニットと、前記第2位置符号化特徴および前記非局所画像特徴に基づいて前記復号化サブネットワークを採用して前記第1視覚特徴を取得するための第1視覚特徴取得サブユニットとを含み、及び/又は前記語彙特徴抽出サブモデルは、第3位置符号化ネットワークをさらに含み、前記第1語彙特徴取得サブモジュールは、所定の位置ベクトルを前記第3位置符号化ネットワークに入力して第3位置符号化特徴を取得するための第3位置符号化取得ユニットと、前記第3位置符号化特徴および前記文字特徴に基づいて前記特徴抽出ネットワークを採用して前記第1語彙特徴を取得するための第1語彙特徴取得ユニットとを含む。
いくつかの実施例では、前記視覚特徴抽出サブモデルは、第1変換ネットワークをさらに含み、第1視覚特徴取得サブユニットは、前記第2位置符号化特徴を前記第1変換ネットワークに入力して位置識別情報が付加されたターゲット位置特徴を取得するためのターゲット位置特徴取得サブユニットと、前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルとバリューベクトルとし、前記復号化サブユニットを採用して前記第1視覚特徴を取得するための復号化サブユニットとを含み、前記語彙特徴抽出サブモデルは、第2変換ネットワークをさらに含み、第1語彙特徴取得ユニットは、前記文字特徴および前記第3位置符号化特徴を前記第2変換ネットワークに入力してキャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得するためのターゲット文字特徴取得サブユニットと、前記ターゲット文字特徴を前記特徴抽出ネットワークに入力して第1語彙特徴を取得するための第1語彙特徴取得サブユニットとを含む。
いくつかの実施例では、前記第1視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第1グローバル特徴とを含み、前記第1予測文字は、前記文字視覚特徴を前記第1出力ネットワークに入力することによって得られ、前記第1語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第2グローバル特徴とを含み、前記入力特徴取得サブモジュールは、前記第1グローバル特徴、前記第2グローバル特徴、および前記第1位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得ユニットを含む。
いくつかの実施例では、前記シーケンスサブモデルは、スティッチングネットワークおよび融合ネットワークをさらに含み、前記入力特徴取得ユニットは、前記スティッチングネットワークを採用して前記第1グローバル特徴および前記第2グローバル特徴をスティッチングしてスティッチングされた特徴を取得するためのスティッチングサブユニットと、前記融合ネットワークを採用して、前記スティッチングした後の特徴と前記第1位置符号化特徴を加算して前記シーケンスネットワークの入力特徴を取得するための融合サブユニットとを含む。
いくつかの実施例では、前記語彙特徴抽出サブモデルは、第2出力ネットワークをさらに含み、前記装置は、前記第1語彙特徴を前記第2出力ネットワークに入力して前記第1予測文字に対する誤り訂正文字を取得するための誤り訂正文字取得モジュールを含み、ここで、モデルトレーニングモジュールは、前記第1予測文字、前記第2予測文字、前記第1予測文字に対する前記誤り訂正文字、および前記第1実際文字に基づいて前記文字認識モデルをトレーニングする第1モデルトレーニングサブモジュールを含む。
いくつかの実施例では、前記第1モデルトレーニングサブモジュールは、前記第1予測文字および前記第1実際文字に基づいて第1損失値を取得するための第1損失取得ユニットと、前記第2予測文字および前記第1実際文字に基づいて第2損失値を取得するための第2損失取得ユニットと、前記第1予測文字に対する誤り訂正文字と前記第1実際文字に基づいて第3損失値を取得するための第3損失取得ユニットと、前記第1損失値、前記第2損失値、および前記第3損失値に基づいて、前記文字認識モデルをトレーニングするためのモデルトレーニングユニットとを含む。
いくつかの実施例では、それはまた、以下の情報取得サブモジュールと第2モデルトレーニングサブモジュールによって前記視覚特徴抽出サブモデルを事前トレーニングするための第1事前トレーニングモジュールを含み、前記情報取得サブモジュールは、文字および第2実際文字を示すラベルを含む第2サンプル画像を前記視覚特徴抽出サブモデルに入力して第2視覚特徴および第3予測文字を取得し、前記第2モデルトレーニングサブモジュールは、前記第3予測文字と前記第2実際文字に基づいて前記視覚特徴抽出サブモデルをトレーニングする。
いくつかの実施例では、それはまた、以下の第2語彙特徴取得サブモジュールと誤り訂正文字取得サブモジュールと第3モデルトレーニングサブモジュールによって前記語彙特徴抽出サブモデルを事前トレーニングするための第2事前トレーニングモジュールを含み、前記第2語彙特徴取得サブモジュールは、実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第2語彙特徴を取得し、前記誤り訂正文字取得サブモジュールは、前記第2語彙特徴と前記サンプル文字の位置符号化特徴をスティッチングした後に所定の復号化ネットワークに入力して前記サンプル文字の予測の誤り訂正文字を取得し、前記第3モデルトレーニングサブモジュールは、前記実際の誤り訂正文字と前記予測の誤り訂正文字に基づいて前記語彙特徴抽出サブモデルをトレーニングする。
図8は、本開示の一実施例による文字認識装置のブロック図である。
図8に示すように、当該文字認識装置800は、画像入力モジュール810と文字取得モジュール820とを含む。
画像入力モジュール810は、文字を含む認識すべき画像を文字認識モデルに入力する。一実施例では、画像入力モジュール810は、上述の操作S610を実行することができ、ここでは説明を省略する。
文字取得モジュール820は、前記認識すべき画像中の文字を取得する。一実施例では、文字取得モジュール820は、上述の動作S620を実行することができ、ここでは説明を省略する。
ここで、前記文字認識モデルは、本開示によって提供される文字認識モデルのトレーニング装置を採用することによって得られる。
なお、本開示の技術案において、関するユーザ個人情報の取得、収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。
図9は、本開示の実施例の文字認識モデルのトレーニング方法及び/又は文字認識方法を実施することが可能な電子機器900の例を示す概略ブロック図である。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表示することを意図する。電子機器は、さらに、例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表示してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図9に示すように、機器900は計算ユニット901を含み、それはリードオンリーメモリ(ROM)902に記憶されたコンピュータプログラム又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 903には、さらに機器900の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット901、ROM 902、およびRAM 903は、バス904を介して相互に接続されている。バス904には、入出力インタフェース905も接続されている。
機器900における複数の部品は、I/Oインタフェース905に接続され、例えばキーボード、マウス等の入力ユニット906と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット907と、例えば磁気ディスク、光ディスク等の記憶ユニット908と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット909とを含む。通信ユニット909は、電子機器900がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
計算ユニット901は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット901の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット901は、例えば文字認識モデルのトレーニング方法及び/又は文字認識方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、文字認識モデルのトレーニング方法及び/又は文字認識方法は、例えば記憶ユニット908のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信ユニット909を介して電子機器900にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM903にロードされて計算ユニット901により実行される場合、前記記載された文字認識モデルのトレーニング方法及び/又は文字認識方法の1つ又は複数の操作を実行してもよい。代替的に、別の実施例において、計算ユニット901は、他の任意の適切な形態(例えば、ファームウェアを介する)により文字認識モデルのトレーニング方法及び/又は文字認識方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、局所エリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。その中で、サーバは、クラウドサーバーであってもよく、クラウドコンピューティングサーバー又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品である。従来の物理ホストおよびVPSサービス(「Virtual Private Server」、または略して「VPS」)の既存の管理が困難であり、ビジネスの拡張性が低いという欠点を解決する。サーバは、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、付加したり又は削除してもよい。例えば、本発明に記載の各操作は、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (29)

  1. 文字認識モデルのトレーニング方法であって、
    前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、
    前記方法は、
    文字と第1実際文字を示すラベルとを含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して、第1視覚特徴および第1予測文字を取得することと、
    前記第1予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して第1語彙特徴を取得することと、
    前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第2予測文字を取得することと、
    前記第1予測文字、前記第2予測文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることと、を含む
    文字認識モデルのトレーニング方法。
  2. 前記シーケンスサブモデルは、第1位置符号化ネットワークおよびシーケンスネットワークを含み、
    前記シーケンスサブモデルを採用して第2予測文字を取得することは、
    所定の位置ベクトルを前記第1位置符号化ネットワークに入力し、第1位置符号化特徴を取得することと、
    前記第1視覚特徴、前記第1語彙特徴及び前記第1位置符号化特徴に基づいて、前記シーケンスネットワークの入力特徴を取得することと、
    前記入力特徴を前記シーケンスネットワークに入力して、前記第2予測文字を取得することとを含む
    請求項1に記載の方法。
  3. 前記視覚特徴抽出サブモデルは、第1特徴抽出ネットワークおよび第1出力ネットワークを含み、第1視覚特徴および第1予測文字を取得することは、
    前記第1サンプル画像を前記第1特徴抽出ネットワークに入力して、前記第1視覚特徴を取得することと、
    前記第1視覚特徴に基づいて、前記第1出力ネットワークを採用して前記第1予測文字を取得することと、を含み、
    前記語彙特徴抽出サブモデルは文字符号化ネットワークおよび第2特徴抽出ネットワークを含み、前記語彙特徴抽出サブモデルを採用して第1語彙特徴を取得することは、
    前記第1予測文字を前記文字符号化ネットワークに入力して、前記第1予測文字の文字特徴を取得することと、
    前記文字特徴に基づいて前記第2特徴抽出ネットワークを採用して前記第1語彙特徴を取得することと、を含む
    請求項2に記載の方法。
  4. 前記第1特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含み、前記第1サンプル画像を前記第1特徴抽出ネットワークに入力して前記第1視覚特徴を取得することは、
    前記第1サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得することと、
    前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得することと、
    前記非局所画像特徴に基づいて、前記復号化サブネットワークを採用して前記第1視覚特徴を取得することと、を含む
    請求項3に記載の方法。
  5. 前記視覚特徴抽出サブモデルは、第2位置符号化ネットワークをさらに含み、前記非局所画像特徴に基づいて前記復号化サブネットワークを採用して前記第1視覚特徴を取得することは、
    所定の位置ベクトルを前記第2位置符号化ネットワークに入力して、第2位置符号化特徴を取得することと、
    前記第2位置符号化特徴および前記非局所画像特徴に基づいて、前記復号化サブネットワークを採用して前記第1視覚特徴を取得することと、を含み、及び/又は
    前記語彙特徴抽出サブモデルは、第3位置符号化ネットワークをさらに含み、前記文字特徴に基づいて前記第2特徴抽出ネットワークを採用して前記第1語彙特徴を取得することは、
    所定の位置ベクトルを前記第3位置符号化ネットワークに入力し、第3位置符号化特徴を取得することと、
    前記第3位置符号化特徴および前記文字特徴に基づいて、前記第2特徴抽出ネットワークを採用して前記第1語彙特徴を取得することと、を含む
    請求項4に記載の方法。
  6. 前記視覚特徴抽出サブモデルは、第1変換ネットワークをさらに含み、前記復号化サブネットワークを採用して前記第1視覚特徴を取得することは、
    前記第2位置符号化特徴を前記第1変換ネットワークに入力して位置識別情報が付加されたターゲット位置特徴を取得することと、
    前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルとバリューベクトルとし、前記復号化サブユニットを採用して前記第1視覚特徴を取得することと、を含み、
    前記語彙特徴抽出サブモデルは、第2変換ネットワークをさらに含み、前記第2特徴抽出ネットワークを採用して前記第1語彙特徴を取得することは、
    前記文字特徴および前記第3位置符号化特徴を前記第2変換ネットワークに入力してキャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得することと、
    前記ターゲット文字特徴を前記第2特徴抽出ネットワークに入力して第1語彙特徴を取得することと、を含む
    請求項5に記載の方法。
  7. 前記第1視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第1グローバル特徴とを含み、前記第1予測文字は、前記文字視覚特徴を前記第1出力ネットワークに入力することによって得られ、
    前記第1語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第2グローバル特徴とを含み、
    前記第1視覚特徴、前記第1語彙特徴及び前記第1位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得することは、前記第1グローバル特徴、前記第2グローバル特徴、および前記第1位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得することを含む
    請求項6に記載の方法。
  8. 前記シーケンスサブモデルは、スティッチングネットワークおよび融合ネットワークをさらに含み、前記シーケンスネットワークの入力特徴を取得することは、
    前記スティッチングネットワークを採用して前記第1グローバル特徴と前記第2グローバル特徴をスティッチングしてスティッチングされた特徴を取得することと、
    前記融合ネットワークを採用して、前記スティッチングされた特徴と前記第1位置符号化特徴を加算して前記シーケンスネットワークの入力特徴を取得することとを含む
    請求項7に記載の方法。
  9. 前記語彙特徴抽出サブモデルは、第2出力ネットワークをさらに含み、
    前記方法は、さらに
    前記第1語彙特徴を前記第2出力ネットワークに入力して前記第1予測文字に対する誤り訂正文字を取得することを含み、
    ここで、前記第1予測文字、前記第2予測文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングすることは、前記第1予測文字、前記第2予測文字、前記第1予測文字に対する前記誤り訂正文字、および前記第1実際文字に基づいて前記文字認識モデルをトレーニングすることを含む
    請求項3に記載の方法。
  10. 前記第1予測文字、前記第2予測文字、前記第1予測文字に対する前記誤り訂正文字、および前記第1実際文字に基づいて前記文字認識モデルをトレーニングすることは、
    前記第1予測文字および前記第1実際文字に基づいて第1損失値を取得することと、
    前記第2予測文字および前記第1実際文字に基づいて第2損失値を取得することと、
    前記第1予測文字に対する誤り訂正文字および前記第1実際文字に基づいて第3損失値を取得することと、
    前記第1損失値、前記第2損失値、および前記第3損失値に基づいて、前記文字認識モデルをトレーニングすることとを含む
    請求項9に記載の方法。
  11. 文字および第2実際文字を示すラベルを含む第2サンプル画像を前記視覚特徴抽出サブモデルに入力して第2視覚特徴および第3予測文字を取得することと、
    前記第3予測文字と前記第2実際文字に基づいて前記視覚特徴抽出サブモデルをトレーニングすることと、により、
    前記視覚特徴抽出サブモデルを事前トレーニングすることをさらに含む
    請求項1に記載の方法。
  12. 実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第2語彙特徴を取得することと、
    前記第2語彙特徴と前記サンプル文字の位置符号化特徴をスティッチングした後に所定の復号化ネットワークに入力して前記サンプル文字の予測の誤り訂正文字を取得することと、
    前記実際の誤り訂正文字と前記予測の誤り訂正文字に基づいて前記語彙特徴抽出サブモデルをトレーニングすることと、により、
    前記語彙特徴抽出サブモデルを事前トレーニングすることをさらに含む
    請求項1に記載の方法。
  13. 文字を含む認識すべき画像を、請求項1~12中のいずれか一つ項に記載の方法によってトレーニングされた文字認識モデルに入力することと、
    前記認識すべき画像中の文字を取得することと、を含む
    文字認識方法。
  14. 文字認識モデルのトレーニング装置であって、
    前記文字認識モデルは、視覚特徴抽出サブモデル、語彙特徴抽出サブモデル、およびシーケンスサブモデルを含み、
    前記装置は、
    文字と第1実際文字を示すラベルとを含む第1サンプル画像を前記視覚特徴抽出サブモデルに入力して第1視覚特徴および第1予測文字を取得する第1情報取得モジュールと、
    前記第1予測文字に基づいて、前記語彙特徴抽出サブモデルを採用して、第1語彙特徴を取得する第1語彙特徴取得モジュールと、
    前記第1視覚特徴および前記第1語彙特徴に基づいて、前記シーケンスサブモデルを採用して、第2予測文字を取得する第1文字取得モジュールと、
    前記第1予測文字、前記第2予測文字および前記第1実際文字に基づいて、前記文字認識モデルをトレーニングするモデルトレーニングモジュールと、を含む
    文字認識モデルのトレーニング装置。
  15. 前記シーケンスサブモデルは、第1位置符号化ネットワークおよびシーケンスネットワークを含み、
    前記第1文字取得モジュールは、
    所定の位置ベクトルを前記第1位置符号化ネットワークにを入力して第1位置符号化特徴を取得するための第1位置符号化取得サブモジュールと、
    前記第1視覚特徴、前記第1語彙特徴及び前記第1位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得サブモジュールと、
    前記入力特徴を前記シーケンスネットワークに入力して前記第2予測文字を取得するための第1文字取得サブモジュールと、を含む
    請求項14に記載の装置。
  16. 前記視覚特徴抽出サブモデルは、第1特徴抽出ネットワークおよび第1出力ネットワークを含み、
    前記第1情報取得モジュールは、
    前記第1サンプル画像を前記第1特徴抽出ネットワークに入力して前記第1視覚特徴を取得するための第1視覚特徴取得サブモジュールと、
    前記第1視覚特徴に基づいて前記第1出力ネットワークを採用して前記第1予測文字を取得するための第2文字取得サブモジュールとを含み、
    前記語彙特徴抽出サブモデルは文字符号化ネットワークおよび第2特徴抽出ネットワークを含み、
    第1語彙特徴取得モジュールは、
    前記第1予測文字を前記文字符号化ネットワークに入力して前記第1予測文字の文字特徴を取得するための文字特徴取得サブモジュールと、
    前記文字特徴に基づいて前記第2特徴抽出ネットワークを採用して前記第1語彙特徴を取得するための第1語彙特徴取得サブモジュールとを含む
    請求項15に記載の装置。
  17. 前記第1特徴抽出ネットワークは、符号化サブネットワーク、シーケンス符号化サブネットワーク、および復号化サブネットワークを含み、
    前記第1視覚特徴取得サブモジュールは、
    前記第1サンプル画像を前記符号化サブネットワークに入力して局所画像特徴を取得するための局所画像特徴取得ユニットと、
    前記局所画像特徴を一次元特徴シーケンスに変換した後に前記シーケンス符号化サブネットワークに入力し、非局所画像特徴を取得するための非局所画像特徴取得ユニットと、
    前記非局所画像特徴に基づいて復号化サブネットワークを採用して前記第1視覚特徴を取得するための第1視覚特徴取得ユニットと、を含む
    請求項16に記載の装置。
  18. 前記視覚特徴抽出サブモデルは、第2位置符号化ネットワークをさらに含み、
    前記第1視覚特徴取得ユニットは、
    所定の位置ベクトルを前記第2位置符号化ネットワークに入力して第2位置符号化特徴を取得するための第2位置符号化取得サブユニットと、
    前記第2位置符号化特徴および前記非局所画像特徴に基づいて前記復号化サブネットワークを採用して前記第1視覚特徴を取得するための第1視覚特徴取得サブユニットとを含み、及び/又は
    前記語彙特徴抽出サブモデルは、第3位置符号化ネットワークをさらに含み、
    前記第1語彙特徴取得サブモジュールは、
    所定の位置ベクトルを前記第3位置符号化ネットワークに入力し、第3位置符号化特徴を取得するための第3位置符号化取得ユニットと、
    前記第3位置符号化特徴および前記文字特徴に基づいて前記特徴抽出ネットワークを採用して前記第1語彙特徴を取得するための第1語彙特徴取得ユニットとを含む
    請求項17に記載の装置。
  19. 前記視覚特徴抽出サブモデルは、第1変換ネットワークをさらに含み、
    第1視覚特徴取得サブユニットは、
    前記第2位置符号化特徴を前記第1変換ネットワークに入力して位置識別情報が付加されたターゲット位置特徴を取得するためのターゲット位置特徴取得サブユニットと、
    前記ターゲット位置特徴をクエリベクトルとし、前記非局所画像特徴をキーベクトルとバリューベクトルとし、前記復号化サブユニットを採用して前記第1視覚特徴を取得するための復号化サブユニットとを含み、
    前記語彙特徴抽出サブモデルは、第2変換ネットワークをさらに含み、
    第1語彙特徴取得ユニットは、
    前記文字特徴および前記第3位置符号化特徴を前記第2変換ネットワークに入力し、キャラクター識別情報が付加された文字特徴をターゲット文字特徴として取得するためのターゲット文字特徴取得サブユニットと、
    前記ターゲット文字特徴を前記特徴抽出ネットワークに入力して第1語彙特徴を取得するための第1語彙特徴取得サブユニットとを含む
    請求項18に記載の装置。
  20. 前記第1視覚特徴は、文字視覚特徴と、前記位置識別情報を復号化することによって得られる第1グローバル特徴とを含み、前記第1予測文字は、前記文字視覚特徴を前記第1出力ネットワークに入力することによって得られ、
    前記第1語彙特徴は、文字語彙特徴と、前記キャラクター識別情報を復号化することによって得られる第2グローバル特徴とを含み、
    前記入力特徴取得サブモジュールは、前記第1グローバル特徴、前記第2グローバル特徴、および前記第1位置符号化特徴に基づいて前記シーケンスネットワークの入力特徴を取得するための入力特徴取得ユニットを含む
    請求項19に記載の装置。
  21. 前記シーケンスサブモデルは、さらにスティッチングネットワークおよび融合ネットワークを含み、
    前記入力特徴取得ユニットは、
    前記スティッチングネットワークを採用して前記第1グローバル特徴および前記第2グローバル特徴をスティッチングしてスティッチングされた特徴を取得するためのスティッチングサブユニットと、
    前記融合ネットワークを採用して、前記スティッチングされた特徴と前記第1位置符号化特徴を加算して前記シーケンスネットワークの入力特徴を取得するための融合サブユニットとを含む
    請求項20に記載の装置。
  22. 前記語彙特徴抽出サブモデルは、第2出力ネットワークをさらに含み、
    前記装置は、さらに
    前記第1語彙特徴を前記第2出力ネットワークに入力して前記第1予測文字に対する誤り訂正文字を取得するための誤り訂正文字取得モジュールを含み、
    ここで、前記モデルトレーニングモジュールは、前記第1予測文字、前記第2予測文字、前記第1予測文字に対する前記誤り訂正文字、および前記第1実際文字に基づいて前記文字認識モデルをトレーニングする第1モデルトレーニングサブモジュールを含む
    請求項16に記載の装置。
  23. 前記第1モデルトレーニングサブモジュールは、
    前記第1予測文字および前記第1実際文字に基づいて第1損失値を取得するための第1損失取得ユニットと、
    前記第2予測文字および前記第1実際文字に基づいて第2損失値を取得するための第2損失取得ユニットと、
    前記第1予測文字に対する誤り訂正文字と前記第1実際文字に基づいて第3損失値を取得するための第3損失取得ユニットと、
    前記第1損失値、前記第2損失値、および前記第3損失値に基づいて、前記文字認識モデルをトレーニングするためのモデルトレーニングユニットと、を含む
    請求項22に記載の装置。
  24. 情報取得サブモジュールと第2モデルトレーニングサブモジュールによって前記視覚特徴抽出サブモデルを事前トレーニングするための第1事前トレーニングモジュールをさらに含み、
    前記情報取得サブモジュールは、文字および第2実際文字を示すラベルを含む第2サンプル画像を前記視覚特徴抽出サブモデルに入力して第2視覚特徴および第3予測文字を取得し、
    前記第2モデルトレーニングサブモジュールは、前記第3予測文字と前記第2実際文字に基づいて前記視覚特徴抽出サブモデルをトレーニングする
    請求項14に記載の装置。
  25. 第2語彙特徴取得サブモジュール、誤り訂正文字取得サブモジュールおよび第3モデルトレーニングサブモジュールによって前記語彙特徴抽出サブモデルを事前トレーニングするための第2事前トレーニングモジュールをさらに含み、
    前記第2語彙特徴取得サブモジュールは、実際の誤り訂正文字を示すラベルを有するサンプル文字を前記語彙特徴抽出サブモデルに入力して、前記サンプル文字の第2語彙特徴を取得し、
    前記誤り訂正文字取得サブモジュールは、前記第2語彙特徴と前記サンプル文字の位置符号化特徴をスティッチングした後に所定の復号化ネットワークに入力して前記サンプル文字の予測の誤り訂正文字を取得し、
    前記第3モデルトレーニングサブモジュールは、前記実際の誤り訂正文字と前記予測の誤り訂正文字に基づいて前記語彙特徴抽出サブモデルをトレーニングする
    請求項14に記載の装置。
  26. 文字を含む認識すべき画像を、請求項14~25中のいずれか一つ項に記載の装置によってトレーニングされた文字認識モデルに入力するための画像入力モジュールと、
    前記認識すべき画像中の文字を取得するための文字取得モジュールと、を含む
    文字認識装置。
  27. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
    前記メモリは前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項1~13のいずれか一項に記載の方法を実行することができるように前記命令は前記少なくとも一つのプロセッサにより実行される、
    電子機器。
  28. コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は前記コンピュータに請求項1~13のいずれか一項に記載の方法を実行させる
    記憶媒体。
  29. プロセッサにより実行される時に請求項1~13のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
    コンピュータプログラム製品。
JP2023509826A 2021-08-18 2022-05-16 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム Pending JP2023541119A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110951785.0 2021-08-18
CN202110951785.0A CN113657399B (zh) 2021-08-18 2021-08-18 文字识别模型的训练方法、文字识别方法及装置
PCT/CN2022/093018 WO2023020045A1 (zh) 2021-08-18 2022-05-16 文字识别模型的训练方法、文字识别方法及装置

Publications (1)

Publication Number Publication Date
JP2023541119A true JP2023541119A (ja) 2023-09-28

Family

ID=78481136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023509826A Pending JP2023541119A (ja) 2021-08-18 2022-05-16 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (3)

Country Link
JP (1) JP2023541119A (ja)
CN (1) CN113657399B (ja)
WO (1) WO2023020045A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657399B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN114202648B (zh) * 2021-12-08 2024-04-16 北京百度网讯科技有限公司 文本图像矫正方法、训练方法、装置、电子设备以及介质
CN114283411B (zh) * 2021-12-20 2022-11-15 北京百度网讯科技有限公司 文本识别方法、文本识别模型的训练方法及装置
CN114372477B (zh) * 2022-03-21 2022-06-10 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN115035538B (zh) * 2022-03-22 2023-04-07 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN114581906B (zh) * 2022-05-06 2022-08-05 山东大学 自然场景图像的文本识别方法及系统
CN115565177B (zh) * 2022-08-16 2023-06-20 北京百度网讯科技有限公司 文字识别模型训练、文字识别方法、装置、设备及介质
CN116012650B (zh) * 2023-01-03 2024-04-23 北京百度网讯科技有限公司 文字识别模型训练及其识别方法、装置、设备和介质
CN116311271B (zh) * 2023-03-22 2023-12-26 北京百度网讯科技有限公司 文本图像的处理方法及装置
CN116343233B (zh) * 2023-04-04 2024-02-06 北京百度网讯科技有限公司 文本识别方法和文本识别模型的训练方法、装置
CN116630465B (zh) * 2023-07-24 2023-10-24 海信集团控股股份有限公司 一种模型训练、图像生成方法及设备
CN116977436B (zh) * 2023-09-21 2023-12-05 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images
CN111709406B (zh) * 2020-08-18 2020-11-06 成都数联铭品科技有限公司 文本行识别方法及装置、可读存储介质、电子设备
CN112257426A (zh) * 2020-10-14 2021-01-22 北京一览群智数据科技有限责任公司 一种文字识别方法、系统、训练方法、存储介质及设备
CN112288018B (zh) * 2020-10-30 2023-06-30 北京市商汤科技开发有限公司 文字识别网络的训练方法、文字识别方法和装置
CN112766051A (zh) * 2020-12-29 2021-05-07 有米科技股份有限公司 基于Attention的图像文字识别方法及装置
CN112712079A (zh) * 2021-01-07 2021-04-27 北京三快在线科技有限公司 基于渐进式编码的文字识别方法、装置、电子设备
CN112633290A (zh) * 2021-03-04 2021-04-09 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质
CN113657399B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置

Also Published As

Publication number Publication date
CN113657399B (zh) 2022-09-27
CN113657399A (zh) 2021-11-16
WO2023020045A1 (zh) 2023-02-23

Similar Documents

Publication Publication Date Title
JP2023541119A (ja) 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7406606B2 (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
EP4024232A1 (en) Text processing model training method, and text processing method and apparatus
JP7331171B2 (ja) 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
KR20220122566A (ko) 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치
WO2023160472A1 (zh) 一种模型训练方法及相关设备
JP7384943B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
US20220189189A1 (en) Method of training cycle generative networks model, and method of building character library
WO2024098533A1 (zh) 图文双向搜索方法、装置、设备及非易失性可读存储介质
CN108415939B (zh) 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
US20240013558A1 (en) Cross-modal feature extraction, retrieval, and model training method and apparatus, and medium
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
US20230143452A1 (en) Method and apparatus for generating image, electronic device and storage medium
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
US20230215203A1 (en) Character recognition model training method and apparatus, character recognition method and apparatus, device and storage medium
EP4120181A2 (en) Method and apparatus of fusing image, and method of training image fusion model
US20230102804A1 (en) Method of rectifying text image, training method, electronic device, and medium
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
US20230377225A1 (en) Method and apparatus for editing an image and method and apparatus for training an image editing model, device and medium
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN115631502A (zh) 文字识别方法、装置、模型训练方法、电子设备及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230210

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240206