JP2023062150A - 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 - Google Patents

文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 Download PDF

Info

Publication number
JP2023062150A
JP2023062150A JP2023025380A JP2023025380A JP2023062150A JP 2023062150 A JP2023062150 A JP 2023062150A JP 2023025380 A JP2023025380 A JP 2023025380A JP 2023025380 A JP2023025380 A JP 2023025380A JP 2023062150 A JP2023062150 A JP 2023062150A
Authority
JP
Japan
Prior art keywords
image
sub
training
feature
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023025380A
Other languages
English (en)
Inventor
ペンユアン ルー
Pengyuan Lyu
チェンチュエン チャン
Chengquan Zhang
シャンシャン リュー
Shanshan Liu
メイナ チャオ
Meina Qiao
ヤンリュー シュー
Yangliu Xu
リャング ウー
Liang Wu
シャオヤン ワン
Xiaoyan Wang
クン ヤオ
Kun Yao
ジュンユ ハン
Junyu Han
アールイ ディング
Errui Ding
ジンドン ワン
Jingdong Wang
ティアン ウー
Tian Wu
ハイフォン ワン
Haifeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023062150A publication Critical patent/JP2023062150A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19167Active pattern learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】モデルによる認識の正確さを向上させる、文字検出認識技術などのシーンに適用する文字認識モデルトレーニング方法、文字認識方法、装置、機器及び媒体を提供する。【解決手段】方法は、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割し201、少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分け202、第2のトレーニングセットを第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る203。【選択図】図2

Description

本開示は、人工知能技術の分野、具体的には、深層学習、画像処理、コンピュータ視覚技術の分野に関し、文字検出認識技術などのシーンに適用することができ、特に、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体に関する。
現在、自然シーンでのOCR(optical character recognition、光学文字認識)技術は、幅広い応用の基盤を持っている。文字検出認識技術においては、文字認識モデルをトレーニングし、そして、トレーニングして得られた文字認識モデルを利用して入力された画像に対して文字認識を行うのが一般的である。
しかし、文字認識モデルは、一般的に、監視付きトレーニングの方法を用いるが、監視付きのトレーニング方法を利用する場合、タグ付き画像の特徴を少ししか学習できず、取得された認識モデルによる画像の文字認識の正確率の向上に大きく寄与しない。
本開示は、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体を提供する。
本開示の第1の態様によれば、文字認識モデルトレーニング方法を提供し、前記方法は、
タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するステップと、
少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるステップと、
前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップと、を含む。
本開示の第2の態様によれば、文字認識モデルトレーニング方法を提供し、前記方法は、
合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するステップと、
少なくとも2つの前記サブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるステップと、
前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む。
本開示の第3の態様によれば、文字認識方法を提供し、前記方法は、
第1の態様及び第1の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットエンコーダと、第2の態様及び第2の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットデコーダと、を決定するステップと、
認識対象画像を少なくとも2つのサブ画像に分割するステップと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴を取得するステップと、
前記ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つの前記サブ画像に対応するデコード特徴シーケンスを取得するステップと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るステップと、を含む。
本開示の第4の態様によれば、文字認識モデルトレーニング装置を提供し、前記装置は、
タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するために用いられる第1の分割ユニットと、
少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるために用いられる第1の分けユニットと、
前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第1のトレーニングユニットと、を含む。
本開示の第5の態様によれば、文字認識モデルトレーニング装置を提供し、前記装置は、
合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するために用いられる第2の分割ユニットと、
少なくとも2つの前記サブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるために用いられる第2の分けユニットと、
前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングユニットと、を含む。
本開示の第6の態様によれば、文字認識装置を提供し、前記装置は、
第1の態様及び第1の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットエンコーダと、第2の態様及び第2の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットデコーダと、を決定するために用いられるターゲット決定ユニットと、
認識対象画像について、前記認識対象画像を少なくとも2つのサブ画像に分割するために用いられる第3の分割ユニットと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニットと、
前記ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つの前記サブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニットと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニットと、を含む。
本開示の第7の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様、第2の態様又は第3の態様、及び各態様の様々な可能な方法を実行できるように、前記少なくとも1つのプロセッサにより実行される。
本開示の第8の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第1の態様、第2の態様又は第3の態様、及び各態様の様々な可能な方法を実行させるために用いられる。
本開示の第9の態様によれば、可読記憶媒体に記憶されているコンピュータプログラムを含むコンピュータプログラム製品を提供し、電子機器の少なくとも1つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサは、電子機器が第1の態様、第2の態様又は第3の態様、及び各態様の様々な可能な方法を実行するように、前記コンピュータプログラムを実行する。
本開示に係る技術を用いると、監視付きトレーニング方法を利用する場合にタグ付き画像の特徴を少ししか学習できず、取得された認識モデルによる画像の文字認識の正確さが低い、という問題が解決され、タグなしのトレーニングサンプルを用いてエンコーダに対して自己監視トレーニングを行い、タグ付きのトレーニングサンプルを用いてデコーダに対して監視付きトレーニングを行う方法を利用し、監視付きトレーニングと監視なしトレーニングとの組み合わせにより、モデルは、画像とテキスト事前情報を同時に学習し、モデルによる認識の正確さを向上させることができる。トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対してテキスト認識を行うと、取得されたターゲットテキストがより正確になり、認識の正確さがより向上する。
なお、この部分に記載されているコンテンツは、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例により提供される文字認識システムの応用例示図である。 本開示の第1の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。 本開示の第2の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。 本開示の第3の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。 本開示の第4の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。 本開示の第5の実施例により提供される文字認識方法のフローチャートである。 本開示の第6の実施例により提供される文字認識モデルトレーニング装置の構造図である。 本開示の第7の実施例により提供される文字認識モデルトレーニング装置の構造図である。 本開示の第8の実施例により提供される文字認識装置の構造図である。 本開示の実施例に係る文字認識モデルトレーニング方法又は文字認識方法を実現するための電子機器のブロック図である。
以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
本開示に係る技術案は、画像文字認識の分野に適用されることができ、自己監視の手段を用いてエンコーダをトレーニングし、監視付きの手段を用いてデコーダをトレーニングすることで、高精度の画像特徴抽出モデルを取得し、高精度の特徴抽出を行うことで高正確度の文字認識を取得し、文字認識の正確さを向上させることができる。
関連技術においては、画像認識方法を利用することができ、監視付きの文字認識及び監視なしの文字認識を利用することができる。監視付きの文字認識は、一般的に、データ合成でタグ付きデータを取得するが、合成データと実際に存在する画像との差異が大きいため、監視付きトレーニングによる画像認識の正確さの向上には限度がある。従来の監視なし行列の場合については、タグなしトレーニングサンプルを利用して事前情報を学習する必要があるが、従来の技術案においては、エンコーダの特徴抽出モジュールに対するプリトレーニングだけが着目点であり、テキスト語義に対するトレーニングへの注意を十分に払っておらず、その正確さが高くない。
そこで、本開示は、従来の技術案の正確さが低いという技術的問題を解決するために、タグなしのトレーニングサンプルを利用してエンコーダに対して自己監視トレーニングを行い、タグ付きのトレーニングサンプルを利用してデコーダに対して監視付きトレーニングを行うことで、監視付きトレーニングと監視なしトレーニングの組み合わせにより、モデルは、画像とテキスト事前情報を同時に学習し、モデルによる認識の正確さを向上させることができる。トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対してテキスト認識を行い、取得されたターゲットテキストがより正確になり、認識の正確さがより向上する。
本開示は、人工知能技術の分野に関し、具体的には、深層学習、画像処理、コンピュータ視覚技術の分野に関し、文字検出認識技術などのシーンに適用することができ、特に、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体に関する。
以下、図面を参照しながら本開示に係る技術案を詳細に説明する。
図1に示すように、本開示の実施例により提供される文字認識システムの応用例示図であり、当該システムは、サーバM1を含んでもよく、サーバM1は、画像文字認識用のエンコーダとデコーダをトレーニングすることができる。
図1を参照すると、エンコーダに対するトレーニングにおいては、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像11に分割することができる。少なくとも2つのサブサンプル画像を、第1のサブサンプル画像に対応する第1のトレーニングセット111と、第2のサブサンプル画像に対応する第2のトレーニングセット112と、に分けることができる。第1のトレーニングセット111と第2のトレーニングセット112を用いてトレーニング対象エンコーダに対して自己監視トレーニングを行うことができる。具体的なトレーニングプロセスは、第1のサブサンプル画像と第2のサブサンプル画像を、それぞれ第1のエンコーダ12に入力し、第1のサブサンプル画像に対応する第1の視覚特徴13と第2のサブサンプル画像に対応する第2の視覚特徴14を取得する。マスク設定ポリシーによってタグ付けされた第2の問い合わせベクトル15と第1の視覚特徴13に基づいてマスク問い合わせ計算を行い、第3の視覚特徴16を取得することができる。第3の視覚特徴16と第2の視覚特徴14に対して特徴誤差計算を行い、第3の視覚特徴16が第2の視覚特徴14に無限に接近することを逆伝播のターゲットとすることができる。さらに、第3の視覚特徴16に対して、第1のデコーダ17によって計算された後、画像再構築を行い、画像再構築の結果を取得し、画像再構築の結果と第2のサブサンプル画像との画像誤差18を決定してもよい。特徴誤差と画像誤差を利用して第1のエンコーダを更新し、画像誤差を利用して第1のデコーダを更新し、すなわち、特徴誤差が第1の誤差条件を満たし且つ画像誤差が第2の誤差条件を満たすまで、第1のエンコーダ12と第1のデコーダ17に逆伝播し、ターゲットエンコーダとして最終的に更新される第1のエンコーダを取得する。
選択的に、エンコーダトレーニング終了後、トレーニングして得られたターゲットエンコーダを利用してデコーダをトレーニングしてもよい。図1を参照すると、デコーダに対するトレーニングにおいて、タグ付きの合成サンプルを少なくとも2つのサブ合成画像21に分割し、少なくとも2つのサブ合成画像21を第1の合成セット211と第2の合成セット212に分けてもよい。ターゲットエンコーダ22を利用して第1の合成セット211の中の第1のサブ合成画像の第1の特徴シーケンス23を抽出し、第2の合成セット212の中の第2のサブ合成画像の合成サンプル21における画像位置を利用して、第1の特徴シーケンス23に対して特徴補完を行い、第2の特徴シーケンス24を取得してもよい。第2の特徴シーケンス24と第3の問い合わせベクトル25とを、第2のデコーダ26に入力し、第2のデコーダ26を用いて第2のデコード特徴27の特徴計算を行う。第2のデコード特徴27のテキスト認識処理に基づき、予測テキスト28を得る。予測テキスト28と第2のサブ合成画像との合成テキストタグにおける合成テキスト29に対してテキスト誤差計算を行い、デコード誤差を取得する。デコード誤差は、第3の誤差条件が満たされるまで、第2のデコーダを更新し、ターゲットデコーダを取得するために使用されることができる。
実際の応用においては、サーバM1は、端末機器M2と通信接続を構築することができ、端末機器は、例えば、携帯電話、タブレットコンピュータなどの端末を含んでもよい。端末機器M2は、サーバM1に認識対象画像を送信することができる。サーバM1は、認識対象画像を取得した後、トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対して画像特徴抽出を行い、抽出された特徴に対してテキスト認識処理を行い、ターゲットテキストを取得する。サーバM1は、さらに、得られたターゲットテキストを端末機器M2にフィードバックすることもできる。端末機器とサーバとのインタラクションによって画像のオンラインでのテキスト認識を実現し、テキスト認識効率及び正確さを向上させる。
図2は、本開示の第1の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、当該文字認識モデルトレーニング方法は、文字認識モデルトレーニング装置として実装されることができ、当該文字認識モデルトレーニング装置は、電子機器に位置することができる。文字認識モデルトレーニング方法は、以下のいくつかのステップを含むことができる。
201では、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割する。
選択的に、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するステップは、画像分割ポリシーに基づき、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するステップを含んでもよい。画像分割ポリシーは、画像の長さ分割数と幅分割数を含むことができ、画像の長さ分割数と幅分割数に従って、トレーニングサンプルを少なくとも2つのサブサンプル画像に均一に分割することができる。
画像分割ポリシーは、具体的には、画像のpatch(シャード)処理であってもよく、画像をpatchによって少なくとも2つの画像ブロックに分けて、サブサンプル画像は、トレーニングサンプルがpatchされた画像ブロックであってもよい。
トレーニングサンプルは、自然環境から収集された画像であってもよく、この場合、トレーニングサンプルはタグなしである。
202では、少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分ける。
第1のトレーニングセットには、1つ又は少なくとも2つの第1のサブサンプル画像が含まれてもよい。第2のトレーニングセットには、1つ又は少なくとも2つの第2のサブサンプル画像が含まれてもよい。
203では、第2のトレーニングセットを第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。
選択的に、第2のトレーニングセットを第1のトレーニングセットのタグとすることは、具体的には、第2のトレーニングセットにおける第2のサブサンプル画像を第1のサブサンプル画像のタグとすることにしてもよい。第2のサブサンプル画像は不可視的属性を有し第1のサブサンプル画像は可視的属性を有しているため、可視的属性を有する第1のサブサンプル画像の特徴表現を利用して、不可視的属性を有する第2のサブサンプル画像の特徴表現を予測し、第1のサブサンプル画像を利用して予測された特徴表現は第2のサブサンプル画像の特徴表現と同様にトレーニングターゲットとしてトレーニングし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。自己監視トレーニングは、具体的に、トレーニングサンプルのためにタグを設定する必要がなく、トレーニングサンプルそのものの第2のトレーニングセットを第1のトレーニングセットのタグとして、エンコーダに対するトレーニングを完成させることであってもよい。
本開示の実施例においては、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割し、タグなしのサンプル画像については、可視的属性及び不可視的属性という分け基準に従ってトレーニングサンプルの少なくとも2つのサブサンプル画像を2つのトレーニングセットに分け、2つのトレーニングセットのうちの第2のトレーニングセットを第1のトレーニングセットのタグとすることで、タグが設定されていない第1のトレーニングセットをタグ付きものにし、第2のトレーニングセットと第1のトレーニングセットとの予測結果の差異を分析して、エンコーダに対して反復更新を行い、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。トレーニングセットを分けることでエンコーダの自己監視トレーニングを実現し、エンコーダのトレーニング精度を向上させる。
本実施例において、エンコーダトレーニング終了後、ターゲットエンコーダを取得した後、ターゲットエンコーダを利用してデコーダに対して監視付きトレーニングを行うことができることを理解できる。1つの選択的な実施形態として、本実施例に係る方法は、さらに、デコーダに対するトレーニングステップを含んでもよい。デコーダに対する具体的なトレーニングステップは、図4~5などの実施例を参照することができ、ここで繰り返して説明しない。本開示に係るトレーニング方法は、画像文字認識に適用できる。
なお、本開示に係る文字認識モデルトレーニング方法は、画像文字認識の応用シーンに適用されることができ、すなわち、トレーニングして得られたターゲットエンコーダとターゲットデコーダを画像の文字認識に適用し、画像文字認識の精度を向上させる。
エンコーダに対するトレーニングを実現するために、図3を参照すると、本開示の第2の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、前述の実施例との相違点は、第2のトレーニングセットを第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得ることであり、
トレーニング対象エンコーダを初期化し、第1のエンコーダを取得するステップ301と、
第1のエンコーダに基づき、第1のトレーニングセットにおける第1のサブサンプル画像の第1の視覚特徴と、第2のトレーニングセットにおける第2のサブサンプル画像の第2の視覚特徴と、を抽出するステップ302と、
第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するステップ303と、
第3の視覚特徴と第2の視覚特徴との特徴誤差に従って、特徴誤差が第1の誤差条件を満たすまで、第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するステップ304と、を含む。
選択的に、本開示におけるエンコーダは、VIT(Vision Transformer)ネットワークに対応するエンコーダを含んでもよい。トレーニング対象エンコーダのネットワーク構造は、VITネットワークを参照することができる。
第1のエンコーダは、トレーニング対象エンコーダに対してパラメータ初期化を行うことで取得され得る。第1のエンコーダのパラメータは、トレーニング終了まで継続的に更新してもよい。
第1のサブサンプル画像のembedding(埋め込み)ベクトルを第1のエンコーダに入力することで、第1のサブサンプル画像の第1の視覚特徴を抽出することができる。第2のサブサンプル画像のembedding(埋め込み)ベクトルを第1のエンコーダに入力することで、第2のサブサンプル画像の第2の視覚特徴を抽出することができる。
選択的に、第3の視覚特徴と第2の視覚特徴との特徴誤差は、特徴距離及び類似度の尺度で示されることができ、具体的には、例えば、ユークリッド距離、ハミング距離など、任意の1つの距離式を用いて計算して取得されることができ、本実施例において、特徴誤差の具体的な計算方式について過度の限定をしない。
第1の誤差条件は、特徴誤差が特徴しきい値より小さいことであってもよい。特徴しきい値は、使用上の必要に応じて設定されてもよい。
本実施例において、トレーニング対象エンコーダについて、エンコーダに対してパラメータ更新を行うことによりエンコーダのパラメータを継続的にトレーニングしてもよい。エンコーダを更新する際、現在の第1のエンコーダが第1のトレーニングセットから抽出した第1の視覚特徴を利用して、当該第1の視覚特徴に対してマスク問い合わせ計算を行うことによって取得された第3の視覚特徴は、可視的第1のサブサンプル画像を利用して不可視的第2のサブサンプル画像を予測するための視覚特徴であってもよく、すなわち、取得された第3の視覚特徴は第2の視覚特徴に無限に接近する。第2の視覚特徴と第3の視覚特徴との特徴誤差は、この2つの特徴間の差異をキャラクタリゼーションすることができ、特徴誤差が第1の誤差条件を満たす場合に、エンコーダトレーニング終了を決定し、正確なターゲットエンコーダを取得する。第1の視覚特徴と第2の視覚特徴は、いずれもトレーニングサンプル由来であり、トレーニングサンプル自体のサブサンプル画像をタグとし、可視的特徴表示を用いて不可視的特徴表示を予測することを実現し、エンコーダに対する自己監視トレーニングを完成させ、エンコーダのトレーニング精度を向上させる。
エンコーダを更新する際、画像誤差及び特徴誤差という2つの誤差を利用してエンコーダのトレーニングを逆伝播することができる。1つの実施例として、第3の視覚特徴と第2の視覚特徴との特徴誤差に従って、特徴誤差が第1の誤差条件を満たすまで、第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するステップは、
トレーニング対象デコーダを初期化し、第1のデコーダを取得するステップと、
第1のデコーダに基づき、第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップと、
第3の視覚特徴と第2の視覚特徴との特徴誤差を決定するステップと、
特徴誤差と画像誤差に基づき、特徴誤差が第1の誤差条件を満たし且つ画像誤差が第2の誤差条件を満たすまで、第1のエンコーダを更新し、画像誤差に基づいて第1のデコーダを更新し、最終的に取得された第1のエンコーダをターゲットエンコーダとして決定するステップと、を含む。
画像誤差は、第3の視覚特徴に対する画像再構築の結果に対応する画像誤差であってもよい。
第2の誤差条件は、画像誤差が画像誤差しきい値より小さいことであってもよい。画像誤差しきい値は、使用上の必要に応じて設定されてもよい。
本実施例において、特徴誤差を利用できるだけでなく、さらに、第3の視覚特徴が再構築された画像に対応する画像誤差と特徴誤差とを、エンコーダの逆フィードバック調整とし、より全面的でより詳細な誤差分析をすることによってエンコーダの逆調整を実現し、より高い精度のエンコーダを取得している。さらに、画像誤差を利用して第1のデコーダを更新することで、デコーダに対する正確な更新を実現し、これにより、より正確なデコーダを利用して視覚特徴に対するデコード計算を完成させ、より正確なデコーダを利用してエンコーダのトレーニングにより積極的な影響を与え、デコーダのトレーニング精度を向上させるようになっている。
1つの可能な設計では、第1のデコーダに基づき、第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップは、
第1のデコーダを利用して第3の視覚特徴に対してデコード計算処理を行い、第1のデコード特徴を取得するステップと、
第1のデコード特徴に対する画像再構築の結果に従って、画像誤差を得るステップと、を含む。
選択的に、第1のデコーダは、トレーニング対象デコーダに対してパラメータ初期化を行うことで取得され得る。第1のデコーダのパラメータは、トレーニング終了まで、継続的に更新されてもよい。
選択的に、本開示のエンコーダは、transformer(転送)ネットワークに対応するデコーダであってもよい。トレーニング対象デコーダのネットワーク構造は、transformerネットワークを参照することができる。
本実施例において、第1のデコーダを利用した、第3の視覚特徴に対するデコード計算処理によって、第1のデコード特徴を取得することができ、第1のデコード特徴に対する画像再構築の結果に従って画像誤差を得ることができる。エンコーダトレーニング中に、トレーニング可能なデコーダを導入した結果、全面的且つ完全的なエンコード及びデコードの流れを用いて画像の正確な再構築を確保し、そして、画像再構築の結果を利用して画像誤差を有効的に取得する。
いくつかの実施例において、第1のデコード特徴に対する画像再構築の結果に従って、画像誤差を得るステップは、
第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得するステップと、
第2のサブサンプル画像と第1の予測結果を利用して画像誤差計算を行い、画像誤差を取得するステップと、を含む。
選択的に、画像再構築層において第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得し、第1の予測結果が予測画像となるようにしてもよい。画像再構築層は、テキスト学習ネットワークの中の1層であってもよく、これによって画像再構築を実現する。
第1のデコード特徴は、学習された画像の特徴表現であり、第1のデコード特徴に対して逆画像再構築を行うことができ、具体的には、畳み込みニューラルネットワークに基づく画像再構築アルゴリズムなどの画像再構築アルゴリズムを使用することができ、本実施例においては、画像再構築アルゴリズムの具体的なタイプについて過度の限定をしない。
選択的に、第2のサブサンプル画像と第1の予測結果との画像誤差の計算は、第2のサブサンプル画像と第1の予測結果との画像距離又は画像類似度を計算し、画像距離又は画像類似度によって画像誤差を決定することを含んでもよい。画像距離は、ユークリッド距離やマンハッタン距離などを含むことができ、本実施例においては、画像誤差の計算手段について過度の限定をしない。
本実施例において、第1のデコード特徴を利用して画像再構築処理を行うと、第1の予測結果を取得することができる。画像再構築処理によって取得された第1の予測結果を第2のサブサンプル画像と比較すると、画像誤差を正確に決定することができる。
第2のトレーニングセットと一致する問い合わせベクトルを取得し、エンコーダの自己監視トレーニングを実現するために、1つの実施例として、さらに、
マスク設定ポリシーに従って、少なくとも2つの問い合わせベクトルを第1の問い合わせベクトルと第2の問い合わせベクトルとに分けるステップであって、マスク設定ポリシーは予め設定された第1のマスクレートに基づいて生成されたマスクデータを含み、問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルである、ステップを含み、
第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するステップは、
第2の問い合わせベクトルと第1の視覚特徴に基づく特徴予測計算によって、第1の視覚特徴の第2の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るステップと、
第1の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、第3の視覚特徴を得るステップと、を含む。
選択的に、少なくとも2つの問い合わせベクトル(query)は、基礎的文字列に対応する空間変換ベクトルであってもよい。基礎的文字列は、1つ又は少なくとも2つの文字列からなるものであってもよく、文字は、アルファベット、数字、漢字及び/又は任意の言語の単一の符号を含んでもよい。基礎的文字列に対してembedding(埋め込みアルゴリズム)計算を行うと、問い合わせベクトルが取得される。なお、問い合わせベクトルは、さらに、予め設定された関数を用いて計算して取得され得る。例えば、予め設定された関数は、ベクトル生成関数であってもよい。
Figure 2023062150000002
Figure 2023062150000003
ここで、PEは生成される問い合わせベクトルを指し、posはベクトルの位置インデックス又はベクトルID(Identity document、アイデンティティ)であり、
Figure 2023062150000004
は、生成される問い合わせベクトルの合計ディメンションであり、iはベクトルのうちの1つの要素がベクトルに位置するディメンションは何番目であるかを示すものであり、すなわち、要素のディメンション順序又はディメンション座標を指す。
1つの可能な設計では、本開示において、第2の問い合わせベクトルと第1の視覚特徴に基づく特徴予測計算は、マスク問い合わせ計算ネットワークによって計算して取得され得る。マスク問い合わせ計算ネットワークの入力データは、第2の問い合わせベクトルと第1の視覚特徴であり、出力データは第3の視覚特徴である。マスク問い合わせ計算ネットワークは、学習することができる計算ネットワークであり、逆伝播の手段を用いてマスク問い合わせ計算ネットワークを更新することができ、すなわち、画像誤差と特徴誤差を決定する場合、画像誤差と特徴誤差に基づいてマスク問い合わせ計算ネットワークを更新し、特徴誤差が第1の誤差条件を満たし且つ画像誤差が第2の誤差条件を満たすまで、マスク問い合わせ計算ネットワークに対する更新を停止する。
選択的に、マスク設定ポリシーは、固定された第1のマスクレートに従って、画像を可視的部分と不可視的部分とに分けるものにしてもよい。マスク設定ポリシーは、さらに、少なくとも2つの問い合わせベクトルの第2の問い合わせベクトルの取得基礎とされ得る。第2の問い合わせベクトルは、第1のマスクレートによって決定されたmask queries(マスクベクトル)であってもよい。第1のマスクレートは、最小マスキング値より高く設定されたターゲットマスキング率(mask ratio)を含んでもよく、最小マスキング値は設定することによって取得され得る。例えば、最小マスキング値は、0.9に設定されてもよく、第1のマスクレートは、0.9より大きい任意の数値にされてもよいし、当然ながら、第1のマスクレートは1より小さくされてもよい。
選択的に、マスクデータは、マスクベクトル又はマスク行列を含んでもよく、マスクベクトル又はマスク行列の中の要素値は、第1の数値又は第2の数値を含んでもよい。マスクデータを少なくとも2つの問い合わせベクトルと行列計算することで、第1の数値によってタグ付けされた第1の問い合わせベクトルと、第2の数値によってタグ付けされた第2の問い合わせベクトルと、を取得することができる。第1の数値及び第2の数値は、0又は1から選択されることができるが、異なる値にしている。
選択的に、Latent contextual regressor(潜在的なコンテキストリグレッサー)によって第2の問い合わせベクトルと第1の視覚特徴との特徴予測計算を完成させてもよい。
本実施例において、マスク設定ポリシーを利用して、少なくとも2つの問い合わせベクトルに対してマスク処理を行うことにより、画像の分割と一致するように少なくとも2つの問い合わせベクトルを分割する。第2の問い合わせベクトルと第1の視覚特徴との特徴予測計算は、第1の視覚特徴を利用して不可視的第2のサブサンプル画像の特徴に対して予測するプロセスになっており、取得された第3の視覚特徴を第2の視覚特徴と比較して特徴誤差を取得することができる。マスク設定ポリシーの設定により、計算に関わる第2の問い合わせベクトルを利用して不可視的第2のサブサンプル画像の特徴を正確に予測することは確保され、第2の視覚特徴により類似する第3の視覚特徴を取得し、第3の視覚特徴の特徴表現精度を向上させる。
1つの可能な設計では、少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップは、
マスク設定ポリシーを利用して、少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップを含む。
選択的に、マスク設定ポリシーを利用して少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップは、固定された第1のマスクレートに従って画像を可視的第1のトレーニングセットと不可視的第2のトレーニングセットとに分けるステップを含んでもよい。
選択的に、マスク設定ポリシーにおけるマスクデータを少なくとも2つのサブサンプル画像と行列計算することで、第1のトレーニングセットと第2のトレーニングセットとを取得してもよい。
本実施例において、マスク設定ポリシーを利用して少なくとも2つのサブサンプル画像を第1のトレーニングセットと第2のトレーニングセットとに分けている。マスク設定ポリシーは、第1のマスクレートによって生成されるマスクデータが予め設定されたものであってもよく、マスク設定ポリシーを用いて少なくとも2つのサブサンプル画像を可視的第1のトレーニングセットと不可視的第2のトレーニングセットとに分けることができる。第1のトレーニングセットにおける画像は可視的属性を有し、第2のトレーニングセットにおける画像は不可視的属性を有するものとなる。マスク設定ポリシーを利用することで、少なくとも2つのサブサンプル画像を正確に分けることが実現されることができる。
図4に示すように、本開示の第3の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、当該文字認識モデルトレーニング方法は、デコーダをトレーニングすることに適用されることができる。当該方法は、文字認識モデルトレーニング装置として実装されることができ、文字認識モデルトレーニング装置は電子機器に位置することができる。文字認識モデルトレーニング方法は、以下のステップを含むことができる。
401では、合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割する。
タグ付きの合成サンプルを少なくとも2つのサブ合成画像に分割するステップは、画像分割ポリシーに従って、合成サンプルを、少なくとも2つのサブ合成画像に分割するステップを含むことができる。画像分割ポリシーは、画像の長さ分割数と幅分割数を含むことができ、画像の長さ分割数と幅分割数に基づき、合成サンプルを少なくとも2つのサブ合成画像に均一に分割することができる。
画像分割ポリシーは、具体的に、画像のpatch(シャード)処理であってもよく、画像をpatchによって少なくとも2つの画像ブロックに分けることができ、サブ合成画像は合成サンプルがpatchされた画像ブロックであってもよい。
合成サンプルは、合成テキストを利用して合成された画像であってもよく、合成サンプルのタグは、当該サンプルを合成したテキストである。
402では、少なくとも2つのサブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分ける。
第1の合成セットには、1つ又は少なくとも2つの第1のサブ合成画像が含まれることができる。第2の合成セットには、1つ又は少なくとも2つの第2のサブ合成画像が含まれる。
403では、第1の合成セットと第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得する。
選択的に、各合成セットのそれぞれのテキストタグを用いてトレーニング対象デコーダに対して監視付きトレーニングを行い、トレーニング対象デコーダに対応するターゲットデコーダを取得してもよい。
本実施例において、合成テキストタグ付き合成サンプルを用いてトレーニング対象デコーダをトレーニングしている。合成テキストタグにより、このデコーダに対するトレーニングは監視付きトレーニングであるように確保され、デコーダに対する監視付きトレーニングは実現される。
1つの可能な設計では、固定されたエンコーダを利用してデコーダをトレーニングしてもよい。図5に示すように、図5は本開示の第4の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、第1の合成セットと第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、以下のステップを含むことができる。
501では、ターゲットエンコーダを利用して第1の合成セットにおける第1のサブ合成画像の第1の特徴シーケンスを抽出し、ターゲットエンコーダは、上記実施例のいずれか1項に記載の文字認識モデルトレーニング方法を使用してトレーニングして取得されるものである。
本実施例において、ターゲットエンコーダのトレーニングステップは、図2~3などに係る実施例でのトレーニングステップを参照することができ、ここで繰り返して説明しない。
502では、第2の合成セットにおける第2のサブ合成画像の、合成サンプルにおける画像位置に基づき、第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得する。
503では、トレーニング対象デコーダを用いて、第2の特徴シーケンスの予測テキストが、第2のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得する。
選択的に、ターゲットエンコーダを固定することにより、デコーダに対して監視付きトレーニングを行ってもよい。
第2の特徴シーケンスの予測テキストは、第2のサブ合成画像の合成テキストタグにおける合成テキストと同じであってもよく、そのことをトレーニングターゲットとすることができる。
本実施例において、デコーダに対して監視付きトレーニングを行う際、上記エンコーダのトレーニング結果、すなわち、ターゲットエンコーダを利用して、トレーニング対象デコーダに対して監視付きトレーニングを実行することができる。監視なしトレーニングで得られたターゲットエンコーダを利用して、デコーダに対して監視付きトレーニングを行い、デコーダのトレーニング精度及び効果を向上させる。
1つの実施例として、トレーニング対象デコーダを用いて、第2の特徴シーケンスの予測テキストが、第2のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
トレーニング対象デコーダを初期化し、第2のデコーダを取得するステップと、
第2のデコーダに基づいて第2の特徴シーケンスの予測テキストを決定するステップと、
予測テキストと、第2のサブ合成画像の合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するステップと、
デコード誤差が第3の誤差条件を満たすまで、デコード誤差に基づいて第2のデコーダを更新し、最終的に取得された第2のデコーダをターゲットデコーダとして決定するステップと、を含むことができる。
第2のデコーダは、第2の特徴シーケンスをデコードし、デコードの特徴を利用してテキスト予測を行い、予測テキストを取得することができる。
テキスト誤差計算の手段として、テキスト類似度計算又はテキスト距離計算の手段を含むことができる。テキスト類似度計算の手段は、予測テキストと合成テキストとのテキスト類似度を計算することであってもよく、テキスト類似度アルゴリズムを利用してテキスト誤差を計算することができ、例えば、同一の文字の数の比率を計算するアルゴリズムが挙げられる。テキスト距離計算の手段は、予測テキストと合成テキストとのテキスト距離を計算することであってもよく、例えば、From Word Embeddings To Document Distances(ワードベクトルからテキスト距離に埋め込む)などのアルゴリズムを利用してテキスト距離を計算し、テキスト距離をテキスト誤差とする。
選択的に、第3の誤差条件は、デコード誤差がテキスト誤差しきい値より小さいことを含んでもよい。テキスト誤差しきい値は設定することによって取得され得る。
本実施例において、デコーダに対してパラメータ更新を行うことでデコーダを継続的にトレーニングしている。デコーダを更新する際、第2のデコーダを用いて第2の特徴シーケンスの予測テキストと第2のサブ合成画像の合成テキストとに対して、テキスト誤差計算を行うことによって取得されたデコード誤差を利用することができる。デコード誤差を計算することにより、デコーダを正確に逆フィードバックすることは実現され、パラメータの無効更新は回避され、パラメータ更新効率は向上するとともに、パラメータ更新の正確さも向上する。取得されるターゲットデコーダは、精度がより高いものとなる。
1つの可能な設計では、第2のデコーダに基づいて第2の特徴シーケンスの予測テキストを決定するステップは、
第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得するステップと、
第3の問い合わせベクトルと第2の特徴シーケンスとを、第2のデコーダに入力し、第2のデコード特徴を取得するステップと、
第2のデコード特徴のテキスト認識処理によって、第2の特徴シーケンスの予測テキストを得るステップと、を含む。
選択的に、mask(マスク)合成ポリシーに従って第2のサブ合成画像の特徴に対してディメンションダウンを行い、学習可能なトークン(token)を利用するか、又は固定されたトークンを利用して、当該学習されたトークン又は固定されたトークンを第3の問い合わせベクトルとして得るようにしてもよい。
第3の問い合わせベクトルと第2の特徴シーケンスとを、第2のデコーダに入力してデコード計算を行い、第2のデコード特徴を取得することができる。第2のデコード特徴の予測テキストと第2のサブ合成画像のテキストが同じであることをトレーニングターゲットとする。
1つの可能な設計では、本開示において、第2のデコード特徴に対するテキスト認識処理は、テキスト認識ネットワークを使用して当該第2のデコード特徴に対してテキスト認識処理を実行することによって行ってもよい。テキスト認識ネットワークは、学習可能な計算ネットワークであり、デコード誤差が取得されたと決定する場合、デコード誤差が第3の誤差条件を満たすまで、デコード誤差を用いてテキスト認識ネットワークを更新することができる。
本実施例において、少なくとも2つの問い合わせベクトルに対してトークンアイデンティティ処理を行うことで、トークン付けされた第3の問い合わせベクトルを取得することができる。第2のデコーダを用いて第3の問い合わせベクトルと第2の特徴シーケンスに対してデコード計算を行い、第2のデコード特徴を取得することができる。第2のデコード特徴のテキスト認識処理によって、第2の特徴シーケンスの予測テキストを取得し、第2の特徴シーケンスのテキスト認識の精度を向上させることができる。
いくつかの実施例において、第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得するステップは、
第2のサブ合成画像の特徴を抽出するステップと、
トークン生成アルゴリズムに基づき、第2の合成サブ画像の特徴をトークン形式に変換し、第3の問い合わせベクトルを取得するステップと、を含む。
選択的に、トークン生成アルゴリズムは、具体的に、固定された又は学習可能なtokenをqueryとするアルゴリズムであってもよい。学習してtokenを取得することができる。トークン生成アルゴリズムは、さらに、固定されたトークン表記法であってもよく、第2のサブ合成画像のために、固定されたtokenを設定して第3の問い合わせベクトルとしてもよい。
本実施例において、トークン変換処理によって第2のサブ合成画像を第3の問い合わせベクトルに変換し、正確なトークンアイデンティティを用いて、第3の問い合わせベクトルの正確さを向上させることができる。
1つの可能な設計では、第2の合成セットにおける第2のサブ合成画像の、合成サンプルにおける画像位置に基づき、第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するステップは、
第2のサブ合成画像の合成サンプルにおける画像位置に基づき、第2のサブ合成画像の、合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するステップと、
第1の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第2の特徴シーケンスを取得するステップであって、補完ベクトルのベクトルディメンションが第1の特徴シーケンスのベクトルディメンションと同じである、ステップと、を含む。
選択的に、補完ベクトルは、予め設定された値がすべて同じであるベクトルであってもよい。例えば、値がすべて0であるベクトル又は値がすべて1であるベクトルが挙げられる。
シーケンス位置は、第2のサブ合成画像の合成シーケンスにおける位置であってもよい。第1の特徴シーケンスはmaskされたシーケンスであってもよく、具体的には、可視的画像に対応するシーケンスであってもよい。補完が必要である場合、maskされたシーケンスを補完し、例えば、仮に元の特徴シーケンスが「abcd」のようになっている4つのシーケンスが存在すると想定すると、maskされた後、第1の特徴シーケンスは、「ad」という2つのシーケンスとなる場合、maskされた2つのシーケンス「bc」を補完する必要があり、すべてが0ベクトルで補完されると、「a00d」というシーケンスを取得することができる。ここで、abcd又は0は、ベクトルを指すことができる。具体的には、図1の第1の特徴シーケンス23から第2の特徴シーケンス24の補完例を参照することができる。
本実施例において、第2のサブ合成画像の合成サンプルにおける画像位置に基づき、第2のサブ合成画像の合成シーケンスにおけるシーケンス位置を決定し、画像位置からシーケンス位置への変換を実現し、第1の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第2の特徴シーケンスを取得することができる。シーケンス位置を決定することにより、ベクトルの位置決めされた補完を実現し、より正確な第2の特徴シーケンスを取得することができる。
他の実施例として、少なくとも2つのサブ合成画像を第1のサブ合成画像と第2のサブ合成画像とに分けるステップは、
マスク合成ポリシーに従って、少なくとも2つのサブ合成画像を第1の合成セットと第2の合成セットとに分けるステップを含む。
マスク合成ポリシーは、予め設定された第2のマスクレートに基づいて生成されるマスクデータを含む。第2のマスクレートは、上記実施例のマスクレートに関する説明を参照することができ、ここで繰り返して説明しない。
選択的に、マスク合成ポリシーにおけるマスクデータを用いて少なくとも2つのサブ合成画像と行列計算し、第1の合成セットと第2の合成セットを取得することができる。第2のマスクレートは、最小マスキング値より高く設定されたターゲットマスキング率(mask ratio)を含んでもよく、最小マスキング値は設定することによって取得され得るものであり、例えば、0.9に設定されてもよく、第2のマスクレートは、0.9より大きい任意の数値にされてもよいし、当然ながら、第2のマスクレートは1より小さくされてもよい。当然ながら、関連技術における他のマスク分割の手段も本開示に係るセット分割に適用されてもよい。ここで繰り返して説明しない。
本実施例において、マスク合成ポリシーを利用して少なくとも2つのサブ合成画像を第1の合成セットと第2の合成セットとに分けている。マスク合成ポリシーは、予め設定された第2のマスクレートによって生成されるマスクデータであってもよく、マスク合成ポリシーを用いて少なくとも2つのサブ合成画像を可視的第1の合成セットと不可視的第2の合成セットとに分けることができる。第1の合成セットにおける画像は可視的属性を有し、第2の合成セットにおける画像は不可視的属性を有するものとなっている。マスク合成ポリシーを利用することで、少なくとも2つのサブ合成画像を正確に分けることを実現することができる。
具体的に応用する際、図6に示すように、本開示の第5の実施例により提供される文字認識方法のフローチャートであり、当該方法は、以下のステップを含むことができる。
601では、ターゲットエンコーダと、ターゲットデコーダと、を決定する。ターゲットエンコーダは、上記実施例により提供される文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、ターゲットデコーダは、上記実施例により提供される文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである。
602では、認識対象画像を少なくとも2つのサブ画像に分割する。
603では、ターゲットエンコーダに基づいてサブ画像の画像特徴を抽出し、少なくとも2つのサブ画像にそれぞれ対応する画像特徴を取得する。
604では、ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つのサブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つのサブ画像に対応するデコード特徴シーケンスを取得する。
605では、デコード特徴シーケンスに従って、認識対象画像のターゲットテキストを得る。
本実施例において、ターゲットエンコーダとターゲットデコーダを利用して、認識対象画像に対して特徴シーケンス計算を行い、正確なデコード特徴シーケンスを取得することで、デコード特徴シーケンスを用いてテキスト認識を行い、ターゲットテキストを得る。ターゲットエンコーダとターゲットデコーダを利用してターゲットテキストを正確に認識することができる。
図7に示すように、本開示の第6の実施例により提供される文字認識モデルトレーニング装置の構造図である。当該文字認識モデルトレーニング装置700は、
タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するために用いられる第1の分割ユニット701と、
少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるために用いられる第1の分けユニット702と、
第2のトレーニングセットを第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第1のトレーニングユニット703と、を含むことができる。
1つの実施例として、第1のトレーニングユニットは、
トレーニング対象エンコーダを初期化し、第1のエンコーダを取得するために用いられる第1の取得モジュールと、
第1のエンコーダに基づき、第1のトレーニングセットにおける第1のサブサンプル画像の第1の視覚特徴と、第2のトレーニングセットにおける第2のサブサンプル画像の第2の視覚特徴と、を抽出するために用いられる第1の抽出モジュールと、
第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するために用いられる第1の計算モジュールと、
第3の視覚特徴と第2の視覚特徴との特徴誤差に従って、特徴誤差が第1の誤差条件を満たすまで、第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するために用いられる第1のトレーニングモジュールと、を含む。
いくつかの実施例において、第1のトレーニングモジュールは、
トレーニング対象デコーダを初期化し、第1のデコーダを取得するために用いられるデコード決定サブモジュールと、
第1のデコーダに基づき、第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するために用いられる第1の誤差サブモジュールと、
第3の視覚特徴と第2の視覚特徴との特徴誤差を決定するために用いられる第2の誤差サブモジュールと、
特徴誤差と画像誤差に基づき、特徴誤差が第1の誤差条件を満たし且つ画像誤差が第2の誤差条件を満たすまで、第1のエンコーダを更新し、画像誤差に基づいて第1のデコーダを更新し、最終的に取得された第1のエンコーダをターゲットエンコーダとして決定するために用いられる第1の更新サブモジュールと、を含む。
1つの可能な設計では、第1の誤差サブモジュールは、具体的に、
第1のデコーダを利用して第3の視覚特徴に対してデコード計算処理を行い、第1のデコード特徴を取得すること、及び
第1のデコード特徴に対する画像再構築の結果に従って、画像誤差を得ること、に用いられる。
1つの選択的な実施形態として、第1の誤差サブモジュールは、具体的に、
第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得すること、及び、
第2のサブサンプル画像と第1の予測結果を利用して画像誤差計算を行い、画像誤差を取得すること、に更に用いられる。
1つの実施例として、さらに、
マスク設定ポリシーに従って、少なくとも2つの問い合わせベクトルを第1の問い合わせベクトルと第2の問い合わせベクトルとに分けるために用いられる問い合わせ決定ユニットを含み、マスク設定ポリシーは予め設定された第1のマスクレートに基づいて生成されたマスクデータを含み、問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
第1の計算モジュールは、
第2の問い合わせベクトルと第1の視覚特徴に基づく特徴予測計算によって、第1の視覚特徴の第2の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るために用いられるベクトル計算サブモジュールと、
第1の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、第3の視覚特徴を得るために用いられるベクトル組み合わせサブモジュールと、を含む。
他の実施例として、第1の分けユニットは、
マスク設定ポリシーを利用して、少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるために用いられる第1の分けモジュールを含む。
図8に示すように、本開示の第7の実施例により提供される文字認識モデルトレーニング装置の構造図である。当該文字認識モデルトレーニング装置800は、
合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するために用いられる第2の分割ユニット801と、
少なくとも2つのサブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるために用いられる第2の分けユニット802と、
第1の合成セットと第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングユニット803と、を含むことができる。
1つの実施例として、第2のトレーニングユニットは、
ターゲットエンコーダを利用して第1の合成セットにおける第1のサブ合成画像の第1の特徴シーケンスを抽出するために用いられる第2の抽出モジュールであって、ターゲットエンコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、第2の抽出モジュールと、
第2の合成セットにおける第2のサブ合成画像の、合成サンプルにおける画像位置に基づき、第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するために用いられる特徴補完モジュールと、
トレーニング対象デコーダを用いて、第2の特徴シーケンスの予測テキストが、第2のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングモジュールと、を含む。
いくつかの実施例において、第2のトレーニングモジュールは、
トレーニング対象デコーダを初期化し、第2のデコーダを取得するために用いられる第1の取得サブモジュールと、
第2のデコーダに基づいて第2の特徴シーケンスの予測テキストを決定するために用いられるテキスト予測サブモジュールと、
予測テキストと、第2のサブ合成画像の合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するために用いられる第3の誤差サブモジュールと、
デコード誤差が第3の誤差条件を満たすまで、デコード誤差に基づいて第2のデコーダを更新し、最終的に取得された第2のデコーダをターゲットデコーダとして決定するために用いられる第2の更新サブモジュールと、を含む。
1つの可能な設計では、テキスト予測サブモジュールは、具体的に、
第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得することと、
第3の問い合わせベクトルと第2の特徴シーケンスとを、第2のデコーダに入力し、第2のデコード特徴を取得することと、
第2のデコード特徴のテキスト認識処理によって、第2の特徴シーケンスの予測テキストを得ることと、に用いられる。
いくつかの実施例において、テキスト予測サブモジュールは、具体的に、
第2のサブ合成画像の特徴を抽出すること、及び
トークン生成アルゴリズムに基づき、第2のサブ合成画像の特徴をトークン形式に変換し、第3の問い合わせベクトルを取得すること、に用いられる。
1つの可能な設計では、特徴補完モジュールは、
第2のサブ合成画像の合成サンプルにおける画像位置に基づき、第2のサブ合成画像の、合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するために用いられる位置決定サブモジュールと、
第1の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第2の特徴シーケンスを取得するために用いられるベクトル挿入サブモジュールと、を含む。
いくつかの実施例において、第2の分けユニットは、
マスク合成ポリシーに従って、少なくとも2つのサブ合成画像を、第1の合成セットと、第2の合成セットと、に分けるために用いられる第2の分けモジュールを含み、マスク合成ポリシーは、予め設定された第2のマスクレートに基づいて生成されるマスクデータを含む。
図9に示すように、本開示の第8の実施例により提供される文字認識装置の構造図である。当該文字認識装置900は、
ターゲットエンコーダと、ターゲットデコーダと、を決定するために用いられるターゲット決定ユニット901であって、ターゲットエンコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、ターゲットデコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ターゲット決定ユニット901と、
認識対象画像について、認識対象画像を少なくとも2つのサブ画像に分割するために用いられる第3の分割ユニット902と、
ターゲットエンコーダに基づいてサブ画像の画像特徴を抽出し、少なくとも2つのサブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニット903と、
ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つのサブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つのサブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニット904と、
デコード特徴シーケンスに従って、認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニット905と、を含むことができる。
本開示により提供される装置は、上記実施例に係る方法を実行するために用いられることができ、各ユニット、モジュール又はサブモジュールによって実行される内容は、上記実施例での説明を参照することができ、ここで繰り返して説明しない。
なお、本実施例におけるエンコーダ及びデコーダは、特定のユーザ向けのものではなく、特定のユーザの個人情報を反映することができない。なお、本実施例におけるトレーニングサンプル、合成サンプル及び認識対象画像は、公開データセット由来である。
本開示に係る技術案において、関連するユーザの個人情報の收集や、保存、使用、加工、伝送、提供、公開などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。
本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラム製品を提供する。
本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか1つの実施例により提供される技術案を実行する。
図10は、本開示の実施例を実施するために使用可能な例示的な電子機器1000の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実施を制限することを意図したものではない。
図10に示すように、機器1000は、計算ユニット1001を含み、当該計算ユニット1001は、読み取り専用メモリ(ROM)1002に記憶されたコンピュータプログラム、または、記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。RAM 1003には、さらに、機器1000の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット1001、ROM 1002及びRAM 1003は、バス1004を介して接続される。入力/出力(I/O)インタフェース1005も、バス1004に接続される。
キーボードやマウスなどの入力ユニット1006と、さまざまなタイプのモニタやスピーカーなどの出力ユニット1007と、磁気ディスクや光ディスクなどの記憶ユニット1008と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット1009と、を含む、機器1000における少なくとも2つのコンポーネントは、I/Oインタフェース1005に接続される。通信ユニット1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又はさまざまな電気通信ネットワークを介して他の機器と情報/データを交換することを可能にさせる。
計算ユニット1001は、処理能力や計算能力を有するさまざまな汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、さまざまな専用な人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット1001は、文字認識モデルトレーニング方法又は文字認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、文字認識モデルトレーニング方法又は文字認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット1008などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ROM 1002及び/又は通信ユニット1009を介して機器1000にロード及び/又はインストールされることができる。コンピュータプログラムは、RAM 1003にロードされて計算ユニット1001により実行されると、上記に記載の文字認識モデルトレーニング方法又は文字認識方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット1001は、他の任意の適当な手段(例えば、ファームウェアに頼る)を用いて文字認識モデルトレーニング方法又は文字認識方法を実行するように構成されることができる。
本明細書において、上記に記載のシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、複雑なプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態において、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示に係る方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び/又はブロック図に示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。
本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ(登録商標))、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、或いは、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、或いは、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末-サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPSサービス(「VirtuaL Private Server」、又は「VPS」と略称)に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (33)

  1. 文字認識モデルトレーニング方法であって、
    タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するステップと、
    少なくとも2つの前記サブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるステップと、
    前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップと、を含む、文字認識モデルトレーニング方法。
  2. 前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップは、
    前記トレーニング対象エンコーダを初期化し、第1のエンコーダを取得するステップと、
    前記第1のエンコーダに基づき、前記第1のトレーニングセットにおける第1のサブサンプル画像の第1の視覚特徴と、前記第2のトレーニングセットにおける第2のサブサンプル画像の第2の視覚特徴と、を抽出するステップと、
    前記第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するステップと、
    前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差に従って、前記特徴誤差が第1の誤差条件を満たすまで、前記第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するステップと、を含む、請求項1に記載の方法。
  3. 前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差に従って、前記特徴誤差が第1の誤差条件を満たすまで、前記第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するステップは、
    トレーニング対象デコーダを初期化し、第1のデコーダを取得するステップと、
    前記第1のデコーダに基づき、前記第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップと、
    前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差を決定するステップと、
    前記特徴誤差と前記画像誤差に基づき、前記特徴誤差が前記第1の誤差条件を満たし且つ前記画像誤差が第2の誤差条件を満たすまで、前記第1のエンコーダを更新し前記画像誤差に基づいて前記第1のデコーダを更新し、最終的に取得された第1のエンコーダをターゲットエンコーダとして決定するステップと、を含む、請求項2に記載の方法。
  4. 前記第1のデコーダに基づき、前記第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップは、
    前記第1のデコーダを利用して前記第3の視覚特徴に対してデコード計算処理を行い、第1のデコード特徴を取得するステップと、
    前記第1のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得るステップと、を含む、請求項3に記載の方法。
  5. 前記第1のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得るステップは、
    前記第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得するステップと、
    前記第2のサブサンプル画像と前記第1の予測結果を利用して画像誤差計算を行い、前記画像誤差を取得するステップと、を含む、請求項4に記載の方法。
  6. 前記方法は、さらに、
    マスク設定ポリシーに従って、少なくとも2つの問い合わせベクトルを第1の問い合わせベクトルと第2の問い合わせベクトルとに分けるステップを含み、前記マスク設定ポリシーは予め設定された第1のマスクレートに基づいて生成されたマスクデータを含み、前記少なくとも2つの問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
    前記第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するステップは、
    前記第2の問い合わせベクトルと前記第1の視覚特徴に基づく特徴予測計算によって、前記第1の視覚特徴の前記第2の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るステップと、
    前記第1の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、前記第3の視覚特徴を得るステップと、を含む、請求項2に記載の方法。
  7. 少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップは、
    マスク設定ポリシーを利用して、少なくとも2つの前記サブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップを含む、請求項1に記載の方法。
  8. 文字認識モデルトレーニング方法であって、
    合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するステップと、
    少なくとも2つの前記サブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるステップと、
    前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む、文字認識モデルトレーニング方法。
  9. 前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
    ターゲットエンコーダを利用して前記第1の合成セットにおける第1のサブ合成画像の第1の特徴シーケンスを抽出するステップであって、前記ターゲットエンコーダは、請求項1~7のいずれか1項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ステップと、
    前記第2の合成セットにおける第2のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するステップと、
    トレーニング対象デコーダを用いて、前記第2の特徴シーケンスの予測テキストが、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む、請求項8に記載の方法。
  10. トレーニング対象デコーダを用いて、前記第2の特徴シーケンスの予測テキストが、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
    前記トレーニング対象デコーダを初期化し、第2のデコーダを取得するステップと、
    前記第2のデコーダに基づいて前記第2の特徴シーケンスの予測テキストを決定するステップと、
    前記予測テキストと、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するステップと、
    前記デコード誤差が第3の誤差条件を満たすまで、前記デコード誤差に基づいて前記第2のデコーダを更新し、最終的に取得された前記第2のデコーダを前記ターゲットデコーダとして決定するステップと、を含む、請求項9に記載の方法。
  11. 前記第2のデコーダに基づいて前記第2の特徴シーケンスの予測テキストを決定するステップは、
    前記第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得するステップと、
    前記第3の問い合わせベクトルと前記第2の特徴シーケンスとを、前記第2のデコーダに入力し、第2のデコード特徴を取得するステップと、
    前記第2のデコード特徴のテキスト認識処理によって、前記第2の特徴シーケンスの予測テキストを得るステップと、を含む、請求項10に記載の方法。
  12. 前記第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得するステップは、
    前記第2のサブ合成画像の特徴を抽出するステップと、
    トークン生成アルゴリズムに基づき、前記第2のサブ合成画像の特徴をトークン形式に変換し、前記第3の問い合わせベクトルを取得するステップと、を含む、請求項11に記載の方法。
  13. 前記第2の合成セットにおける第2のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するステップは、
    前記第2のサブ合成画像の前記合成サンプルにおける画像位置に基づき、前記第2のサブ合成画像の、前記合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するステップと、
    前記第1の特徴シーケンスには、前記シーケンス位置に補完ベクトルを挿入し、前記第2の特徴シーケンスを取得するステップと、を含む、請求項9に記載の方法。
  14. 少なくとも2つの前記サブ合成画像を、第1の合成セットと、第2の合成セットと、に分けるステップは、
    マスク合成ポリシーに従って、少なくとも2つの前記サブ合成画像を前記第1の合成セットと前記第2の合成セットとに分けるステップを含み、前記マスク合成ポリシーは、予め設定された第2のマスクレートに基づいて生成されるマスクデータを含む、請求項8に記載の方法。
  15. 文字認識方法であって、
    ターゲットエンコーダと、ターゲットデコーダと、を決定するステップであって、前記ターゲットエンコーダは、請求項1~7のいずれか1項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、前記ターゲットデコーダは、請求項8に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ステップと、
    認識対象画像を少なくとも2つのサブ画像に分割するステップと、
    前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴を取得するステップと、
    前記ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つの前記サブ画像に対応するデコード特徴シーケンスを取得するステップと、
    前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るステップと、を含む、文字認識方法。
  16. 文字認識モデルトレーニング装置であって、
    タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するために用いられる第1の分割ユニットと、
    少なくとも2つの前記サブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるために用いられる第1の分けユニットと、
    前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第1のトレーニングユニットと、を含む、文字認識モデルトレーニング装置。
  17. 第1のトレーニングユニットは、
    前記トレーニング対象エンコーダを初期化し、第1のエンコーダを取得するために用いられる第1の取得モジュールと、
    前記第1のエンコーダに基づき、前記第1のトレーニングセットにおける第1のサブサンプル画像の第1の視覚特徴と、前記第1のトレーニングセットにおける第2のサブサンプル画像の第2の視覚特徴と、を抽出するために用いられる第1の抽出モジュールと、
    前記第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するために用いられる第1の計算モジュールと、
    前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差に従って、前記特徴誤差が第1の誤差条件を満たすまで、前記第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するために用いられる第1のトレーニングモジュールと、を含む、請求項16に記載の装置。
  18. 前記第1のトレーニングモジュールは、
    トレーニング対象デコーダを初期化し、第1のデコーダを取得するために用いられるデコード決定サブモジュールと、
    前記第1のデコーダに基づき、前記第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するために用いられる第1の誤差サブモジュールと、
    前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差を決定するために用いられる第2の誤差サブモジュールと、
    前記特徴誤差と前記画像誤差に基づき、前記特徴誤差が前記第1の誤差条件を満たし且つ前記画像誤差が第2の誤差条件を満たすまで、前記第1のエンコーダを更新し前記画像誤差に基づいて前記第1のデコーダを更新し、最終的に取得された第1のエンコーダをターゲットエンコーダとして決定するために用いられる第1の更新サブモジュールと、を含む、請求項17に記載の装置。
  19. 前記第1の誤差サブモジュールは、
    前記第1のデコーダを利用して前記第3の視覚特徴に対してデコード計算処理を行い、第1のデコード特徴を取得すること、及び
    前記第1のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得ること、に用いられる、請求項18に記載の装置。
  20. 前記第1の誤差サブモジュールは、
    前記第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得すること、及び
    前記第2のサブサンプル画像と前記第1の予測結果を利用して画像誤差計算を行い、前記画像誤差を取得すること、に用いられる、請求項19に記載の装置。
  21. 前記装置は、
    マスク設定ポリシーに従って、少なくとも2つの問い合わせベクトルを第1の問い合わせベクトルと第2の問い合わせベクトルとに分けるために用いられる問い合わせ決定ユニットをさらに含み、前記マスク設定ポリシーは予め設定された第1のマスクレートに基づいて生成されたマスクデータを含み、前記問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
    前記第1の計算モジュールは、
    前記第2の問い合わせベクトルと前記第1の視覚特徴に基づく特徴予測計算によって、前記第1の視覚特徴の前記第2の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るために用いられるベクトル計算サブモジュールと、
    前記第1の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、前記第3の視覚特徴を得るために用いられるベクトル組み合わせサブモジュールと、を含む、請求項17に記載の装置。
  22. 前記第1の分けユニットは、
    マスク設定ポリシーを利用して、少なくとも2つの前記サブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるために用いられる第1の分けモジュールを含む、請求項16に記載の装置。
  23. 文字認識モデルトレーニング装置であって、
    合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するために用いられる第2の分割ユニットと、
    少なくとも2つの前記サブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるために用いられる第2の分けユニットと、
    前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングユニットと、を含む、文字認識モデルトレーニング装置。
  24. 前記第2のトレーニングユニットは、
    ターゲットエンコーダを利用して前記第1の合成セットにおける第1のサブ合成画像の第1の特徴シーケンスを抽出するために用いられる第2の抽出モジュールであって、前記ターゲットエンコーダは、請求項1~7のいずれか1項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、第2の抽出モジュールと、
    前記第2の合成セットにおける第2のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するために用いられる特徴補完モジュールと、
    トレーニング対象デコーダを用いて、前記第2の特徴シーケンスの予測テキストが、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングモジュールと、を含む、請求項23に記載の装置。
  25. 前記第2のトレーニングモジュールは、
    前記トレーニング対象デコーダを初期化し、第2のデコーダを取得するために用いられる第1の取得サブモジュールと、
    前記第2のデコーダに基づいて前記第2の特徴シーケンスの予測テキストを決定するために用いられるテキスト予測サブモジュールと、
    前記予測テキストと、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するために用いられる第3の誤差サブモジュールと、
    前記デコード誤差が第3の誤差条件を満たすまで、前記デコード誤差に基づいて前記第2のデコーダを更新し、最終的に取得された前記第2のデコーダを前記ターゲットデコーダとして決定するために用いられる第2の更新サブモジュールと、を含む、請求項24に記載の装置。
  26. 前記テキスト予測サブモジュールは、
    前記第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得することと、
    前記第3の問い合わせベクトルと前記第2の特徴シーケンスとを、前記第2のデコーダに入力し、第2のデコード特徴を取得することと、
    前記第2のデコード特徴のテキスト認識処理によって、前記第2の特徴シーケンスの予測テキストを得ることと、に用いられる、請求項25に記載の装置。
  27. 前記テキスト予測サブモジュールは、
    前記第2のサブ合成画像の特徴を抽出すること、及び
    トークン生成アルゴリズムに基づき、前記第2のサブ合成画像をトークン形式に変換し、前記第3の問い合わせベクトルを取得すること、に用いられる、請求項26に記載の装置。
  28. 前記特徴補完モジュールは、
    前記第2のサブ合成画像の前記合成サンプルにおける画像位置に基づき、前記第2のサブ合成画像の、前記合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するために用いられる位置決定サブモジュールと、
    前記第1の特徴シーケンスには、前記シーケンス位置に補完ベクトルを挿入し、前記第2の特徴シーケンスを取得するために用いられるベクトル挿入サブモジュールと、を含む、請求項24に記載の装置。
  29. 前記第2の分けユニットは、
    マスク合成ポリシーに従って、少なくとも2つの前記サブ合成画像を前記第1の合成セットと前記第2の合成セットとに分けるために用いられる第2の分けモジュールを含み、前記マスク合成ポリシーは、予め設定された第2のマスクレートに基づいて生成されるマスクデータを含む、請求項23に記載の装置。
  30. 文字認識装置であって、
    ターゲットエンコーダと、ターゲットデコーダと、を決定するために用いられるターゲット決定ユニットであって、前記ターゲットエンコーダは、請求項1~7のいずれか1項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、前記ターゲットデコーダは、請求項8に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ターゲット決定ユニットと、
    認識対象画像について、前記認識対象画像を少なくとも2つのサブ画像に分割するために用いられる第3の分割ユニットと、
    前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニットと、
    前記ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つの前記サブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニットと、
    前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニットと、を含む、文字認識装置。
  31. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~8のいずれか1項に記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される、電子機器。
  32. コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~8のいずれか1項に記載の方法を実行させるために用いられる、非一時的なコンピュータ可読記憶媒体。
  33. コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されるとき、コンピュータに請求項1~8のいずれか1項に記載の方法を実現させる、コンピュータプログラム。
JP2023025380A 2022-08-16 2023-02-21 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 Pending JP2023062150A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210983230.9A CN115565177B (zh) 2022-08-16 2022-08-16 文字识别模型训练、文字识别方法、装置、设备及介质
CN202210983230.9 2022-08-16

Publications (1)

Publication Number Publication Date
JP2023062150A true JP2023062150A (ja) 2023-05-02

Family

ID=84738387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023025380A Pending JP2023062150A (ja) 2022-08-16 2023-02-21 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体

Country Status (3)

Country Link
US (1) US20230215203A1 (ja)
JP (1) JP2023062150A (ja)
CN (1) CN115565177B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690793B (zh) * 2023-01-03 2023-06-06 北京百度网讯科技有限公司 文字识别模型及其识别方法、装置、设备和介质
CN116189198A (zh) * 2023-01-06 2023-05-30 北京百度网讯科技有限公司 文本识别模型训练方法、文本识别方法、装置及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2987326B1 (en) * 2013-04-17 2020-09-02 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
CA3081242A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for controllable machine text generation architecture
US11562147B2 (en) * 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
CN112529150A (zh) * 2020-12-01 2021-03-19 华为技术有限公司 一种模型结构、模型训练方法、图像增强方法及设备
CN113657399B (zh) * 2021-08-18 2022-09-27 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN114462489A (zh) * 2021-12-29 2022-05-10 浙江大华技术股份有限公司 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质
CN114445831A (zh) * 2022-01-14 2022-05-06 北京百度网讯科技有限公司 一种图文预训练方法、装置、设备以及存储介质
CN114821045A (zh) * 2022-03-23 2022-07-29 腾讯科技(深圳)有限公司 语义分割方法、装置、电子设备及存储介质
CN114724133B (zh) * 2022-04-18 2024-02-02 北京百度网讯科技有限公司 文字检测和模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115565177B (zh) 2023-06-20
CN115565177A (zh) 2023-01-03
US20230215203A1 (en) 2023-07-06

Similar Documents

Publication Publication Date Title
CN111898696B (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
WO2022001623A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
JP2022028887A (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
JP2022177242A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
CN114612759B (zh) 视频处理方法、查询视频的方法和模型训练方法、装置
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
US20220092328A1 (en) Querying semantic data from unstructured documents
JP2023007376A (ja) 情報抽出方法、装置、電子デバイス及び可読記憶媒体
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
CN112861825A (zh) 模型训练方法、行人再识别方法、装置和电子设备
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN113177449A (zh) 人脸识别的方法、装置、计算机设备及存储介质
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN115357710B (zh) 表格描述文本生成模型的训练方法、装置及电子设备
JP2023133274A (ja) Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体
JP7403673B2 (ja) モデルトレーニング方法、歩行者再識別方法、装置および電子機器
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN114943995A (zh) 人脸识别模型的训练方法、人脸识别方法及装置
CN114707017A (zh) 视觉问答方法、装置、电子设备和存储介质
WO2022141855A1 (zh) 文本正则方法、装置、电子设备及存储介质
CN113361522A (zh) 确定字符序列的方法、装置和电子设备
CN112765377A (zh) 媒体流中的时段定位

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219