JP7390445B2 - 文字位置決めモデルのトレーニング方法及び文字位置決め方法 - Google Patents

文字位置決めモデルのトレーニング方法及び文字位置決め方法 Download PDF

Info

Publication number
JP7390445B2
JP7390445B2 JP2022130338A JP2022130338A JP7390445B2 JP 7390445 B2 JP7390445 B2 JP 7390445B2 JP 2022130338 A JP2022130338 A JP 2022130338A JP 2022130338 A JP2022130338 A JP 2022130338A JP 7390445 B2 JP7390445 B2 JP 7390445B2
Authority
JP
Japan
Prior art keywords
sample
character
text box
character positioning
positioning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022130338A
Other languages
English (en)
Other versions
JP2022166215A (ja
Inventor
ジュウ ファン,
ユウリン リー,
ペン ワン,
クンイ シー,
シャメン キン,
クン ヤオ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022166215A publication Critical patent/JP2022166215A/ja
Application granted granted Critical
Publication of JP7390445B2 publication Critical patent/JP7390445B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19167Active pattern learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

本開示は、コンピュータ技術分野に関し、より具体的には、人工知能分野に関し、特にコンピュータビジョン及び深層学習技術分野に関する。
近年、人工知能技術の飛躍的な発展に伴い、文字位置決めも幅広く適用されている。特に、手形などの文字を含む画像に対する文字位置決めは、ますます重要視されるようになってきている。ここで、手形は重要な構造化情報のテキストキャリアであり、様々なビジネスシーンで幅広く利用されている。電子領収書はますます発展しているが、従来の紙領収書は依然として多く使われている。様々な手形は、レイアウトが複雑で項目が多いため、文字位置決め結果の精度を保証することが困難になる場合が多い。これと同時に、大量の手形の文字位置決めプロセスには、通常、多くの人件費がかかるため、文字位置決め中の効率が非常に悪くなり、手形の審査、帳票の精算などの業務の効率に影響を及ぼす可能性が高い。
関連技術において、文字を位置決めする時に、光学文字認識(Optical Character Recognition、OCRと略称する)技術の急速な発展により、自動化審査方式は、徐々に人手審査方式に代わるようになってきている。しかしながら、手形には、レイアウトが複雑で多様であり、文字の重なりが多く存在し、文字行の長さが異なるなどの特徴があるから、現在の分割又は検出に基づく文字位置決め方法は、OCRなどの適用シーンで予期に達成できない。
したがって、文字位置決め中の効率及び信頼性を如何に向上させるかは、重要な研究方向の1つになっている。
本開示は、文字位置決めモデルのトレーニング方法及び文字位置決め方法を提供する。
本開示の一態様によれば、文字位置決めモデルのトレーニング方法が提供され、前記文字位置決めモデルのトレーニング方法は、サンプル画像を取得するステップであって、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれているステップと、前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するステップと、前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するステップと、前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるステップと、を含む。
本開示の他の態様によれば、文字位置決め方法が提供され、前記文字位置決め方法は、画像を取得するステップであって、前記画像には位置決め対象の文字が含まれているステップと、前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するステップであって、前記目標文字位置決めモデルは、本開示の第1の態様の実施例に記載のトレーニング方法に基づいてトレーニングされたモデルであるステップと、を含む。
本開示の他の態様によれば、文字位置決めモデルのトレーニング装置が提供され、前記文字位置決めモデルのトレーニング装置は、サンプル画像を取得するように構成される第1の取得モジュールであって、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれている第1の取得モジュールと、前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するように構成される出力モジュールと、前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するように構成される第2の取得モジュールと、前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるように構成される生成モジュールと、を備える。
本開示の他の態様によれば、文字位置決め装置が提供され、前記文字位置決め装置は、画像を取得するように構成される取得モジュールであって、前記画像には位置決め対象の文字が含まれている取得モジュールと、前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するように構成される出力モジュールであって、前記目標文字位置決めモデルは、本開示の一態様に記載のトレーニング方法に基づいてトレーニングされたモデルである出力モジュールと、を備える。
本開示の他の態様によれば、少なくとも1つのプロセッサ及び前記少なくとも1つのプロセッサに通信可能に接続されるメモリを備える電子機器が提供され、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が記憶されており、前記指令は、前記少なくとも1つのプロセッサが本開示の第1の態様に記載の文字位置決めモデルのトレーニング方法又は第2の態様に記載の文字位置決め方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の他の態様によれば、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体が提供され、前記コンピュータ指令は、前記コンピュータに本開示の第1の態様に記載の文字位置決めモデルのトレーニング方法又は第2の態様に記載の文字位置決め方法を実行させることに用いられる。
本開示の他の態様によれば、コンピュータプログラムがプロセッサによって実行される場合、本開示の第1の態様に記載の文字位置決めモデルのトレーニング方法又は第2の態様に記載の文字位置決め方法のステップが実現されることを特徴とするコンピュータプログラムが提供される。
なお、本部分に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1の実施例に係る概略図である。 本開示に係るサンプル画像の概略図である。 本開示に係る予測テキストボックスの概略図である。 本開示の第2の実施例に係る概略図である。 本開示の第3の実施例に係る概略図である。 本開示の第4の実施例に係る概略図である。 本開示に係るマーキングテキストボックス及びサンプルの事前アンカーボックスの概略図である。 本開示の第5の実施例に係る概略図である。 本開示の実施例に係る文字位置決めモデルのトレーニング方法を実現するための文字位置決めモデルのトレーニング装置のブロック図である。 本開示の実施例に係る文字位置決め方法を実現するための文字位置決め装置のブロック図である。 本開示の実施例に係る文字位置決めモデルのトレーニング方法又は文字位置決め方法を実現するための電子機器のブロック図である。
以下、図面を組み合わせて本開示の例示的な実施例を説明し、理解を容易にするために、本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、本開示の方案に係る技術分野を簡略に説明する。
コンピュータ技術(Computer Technology)は、内容が非常に広く、コンピュータシステム技術、コンピュータデバイス技術、コンピュータ部品技術及びコンピュータ組み立て技術などのいくつかの方面に大まかに分けられる。コンピュータ技術は、演算方法の基本原理及び演算器設計、指令ステム、中央処理装置(CPU)設計、パイプライン原理及びそのCPU設計での応用、記憶システム、バス及び入出力を含む。
AI(Artificial Intelligence、人工知能)は、コンピュータに人間のある思考過程と知能行為(例えば、学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は、一般的にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
コンピュータビジョン(Computer Vision)は、どのように機械に「見せる」かを研究する学科であり、さらに言えば、カメラやコンピュータで人間の目に代えて目標に対して認識、追跡及び測定などの機械ビジョンを行い、さらにグラフィック処理を行い、人間の目で観察することにさらに適したり、検出のために計器に伝送したりする画像にコンピュータが処理できるようにすることを指す。科学学科として、コンピュータビジョンは、関連する理論や技術を研究し、画像や多次元データから「情報」を取得できる人工知能システムの確立を意図している。
DL(Deep Learning、深層学習)とは、サンプルデータの内在法則及び表現階層を学習することであり、これらの学習過程で取得された情報は、文字、画像及び音声などのデータの説明に大きく役立つ。究極の目標は、機械が人間のように分析学習能力を持ち、文字、画像及び音声などのデータを認識できるようにすることである。深層学習は、複雑な機械学習アルゴリズムであり、音声及び画像認識の面で得られた効果は、従来の関連技術を遥かに上回っている。深層学習は、検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推奨及びパーソナライズ技術、及びその他の関連分野で多くの成果を収めている。深層学習は、機械に視聴及び思考などの人間の活動をシミュレートさせ、複雑なパターン認識の多くの難題を解決し、人工知能技術関連の技術を大きく進歩させた。
以下に、図面を参照して本開示の実施例の文字位置決めモデルのトレーニング方法及び文字位置決め方法を説明する。
図1は、本開示の第1の実施例に係る概略図である。
図1に示すように、本実施例に係る文字位置決めモデルのトレーニング方法は、以下のステップを含む。
S101において、サンプル画像を取得し、サンプル画像にはサンプルの位置決め対象の文字及びサンプルの位置決め対象の文字のマーキングテキストボックスが含まれている。
ここで、サンプル画像は、文字位置決め結果(サンプルの位置決め対象の文字及びサンプルの位置決め対象の文字のマーキングテキストボックス)をマーキングしたいずれかの画像であってもよい。
例えば、図2に示すように、サンプル画像は、収集された会計伝票の画像であってもよく、ここで、サンプル画像には、2-1~2-4の計4つのマーキングテキストボックスが含まれており、マーキングテキストボックスには、サンプルの位置決め対象の文字が含まれている。
なお、本開示では、サンプル画像の数を限定せず、実際の状況に応じて取得することができる。
例えば、1000個のサンプル画像を取得することができ、この場合、1000個のサンプル画像には、計1000個のサンプルの位置決め対象の文字及び1000個のサンプルの位置決め対象の文字のマーキングテキストボックスが含まれている。
S102において、サンプル画像をトレーニング対象の文字位置決めモデルに入力し、サンプルの位置決め対象の文字を位置決めし、サンプル画像の予測テキストボックスを出力する。
本開示の実施例において、サンプル画像が取得された後、サンプル画像に基づいてトレーニング対象の文字位置決めモデルをトレーニングすることができる。選択可能に、サンプル画像をトレーニング対象の文字位置決めモデルに入力してサンプルの位置決め対象の文字を位置決めし、サンプル画像の予測テキストボックスを出力することができる。
例えば、図3に示すように、図2におけるマーキングテキストボックス(2-1)に対応する画像領域を例として、サンプル画像をトレーニング対象の文字位置決めモデルに入力してサンプルの位置決め対象の文字を位置決めし、サンプル画像の予測テキストボックス3-1を取得することができる。
S103において、サンプル画像に対応するサンプルの事前アンカーボックスを取得する。
ここで、サンプルの事前アンカーボックス(Anchor)は、サンプル画像に対応するいずれかのサンプルの事前アンカーボックスであってもよい。
なお、本開示において、サンプルの事前アンカーボックスの数は、サンプル画像の数以上であり、つまり、各サンプル画像に対して、少なくとも対応する1つのサンプルのアンカーボックスを取得する。いくつかの例示において、サンプルの事前アンカーボックスは、画像における目標テキストボックスを位置決めしてマーキングする参照ボックスであり、該参照ボックスは特徴マップにおける各特徴点に基づいて決定されてもよい。具体的には、図4および図5を参照する。
なお、本開示において、サンプルの事前アンカーボックスを取得する具体的な方式を限定せず、実際の状況に応じて選択することができる。例えば、サンプル画像に対応するバーチカルサービスを取得し、バーチカルサービスに基づいて対応するサンプルの事前アンカーボックスを取得することができる。いくつの例示において、前記バーチカルサービスはサンプルの画像内容が属するバーチカルタイプである。別の例として、サンプル画像の特徴マップを取得し、特徴マップに基づいて対応するサンプルの事前アンカーボックスを取得することができる。
S104において、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続ける。
本開示の実施例において、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスが取得された後、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングの終了条件を満たすまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続けることができ、最後にモデルパラメータを調整したモデルを目標文字位置決めモデルとする。
ここで、トレーニングの終了条件は、実際の状況に応じて設定することができ、本開示では限定しない。
選択可能に、トレーニングの終了条件は、予測テキストボックスとマーキングテキストボックスとの違いが予め設定された違いの閾値より小さいように設定することができる。例えば、トレーニングの終了条件は、予測テキストボックスとマーキングテキストボックスとの違いが95%未満であるように設定することができる。
本開示の実施例に係る文字位置決めモデルのトレーニング方法は、サンプル画像を取得し、サンプル画像をトレーニング対象の文字位置決めモデルに入力してサンプルの位置決め対象の文字を位置決めすることにより、サンプル画像の予測テキストボックスを出力し、サンプル画像に対応するサンプルの事前アンカーボックスを取得し、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続けることができる。これにより、本開示は、サンプルの事前アンカーボックスを導入し、モデルトレーニング中の予測テキストボックスの取得のために参照を提供し、モデルトレーニングにおいてゼロからの回帰予測を必要とせず、モデルトレーニングの消費時間及び難易度を低減し、モデルトレーニング結果の信頼性を向上させる。
図4は、本開示の第2の実施例に係る概略図である。
図4に示すように、本開示に係る文字位置決めモデルのトレーニング方法は、上記実施例に基づいて、具体的に以下のステップを含む。
S401において、サンプル画像を取得し、ここで、サンプル画像にはサンプルの位置決め対象の文字及びサンプルの位置決め対象の文字のマーキングテキストボックスが含まれている。
S402において、サンプル画像をトレーニング対象の文字位置決めモデルに入力し、サンプルの位置決め対象の文字を位置決めし、サンプル画像の予測テキストボックスを出力する。
当該ステップS401~S402は、上記ステップS101~S102と一致し、ここでは詳しく説明しない。
前の実施例中のステップS103におけるサンプル画像に対応するサンプルの事前アンカーボックスを取得する具体的な手順は、以下のステップS403~S404を含む。
S403において、サンプル画像に対して特徴抽出を行い、サンプル画像に対応する特徴マップを取得する。
なお、本開示において、特徴マップにおける各特徴点に対して、サイズが異なるサンプルの事前アンカーボックスを設定することができる。したがって、サンプルの事前アンカーボックスを取得しようとする時に、先ずサンプル画像に対して特徴抽出を行い、サンプル画像に対応する特徴マップを取得することができる。
S404において、特徴マップに基づいて、マッチングされるサンプルの事前アンカーボックスを取得する。
可能な一実現形態として、図5に示すように、上記実施例に基づいて、具体的に以下のステップを含む。
S501において、特徴マップに基づいて、少なくとも1つのサンプルの位置決め対象の文字を取得する。
なお、特徴マップにおけるいずれかの特徴点に対して、一意のサイズであるサンプルの位置決め対象の文字に対応する場合もあれば、異なるサイズである複数のサンプルの位置決め対象の文字に対応する場合もある。この場合、特徴マップが取得された後、特徴マップに基づいて、少なくとも1つのサンプルの位置決め対象の文字を取得することができる。
S502において、各サンプルの位置決め対象の文字のサイズを取得する。
S503において、各サンプルの位置決め対象の文字に対して、サンプルの位置決め対象の文字のサイズに対応するサンプルの事前アンカーボックスを取得する。
本開示の実施例において、特徴マップにおける特徴点が異なるサイズの複数のサンプルの位置決め対象の文字に対応する場合に対して、異なるサンプルの事前アンカーボックスを割り当てることにより、文字の重なりの問題を緩和することができる。
前の実施例中のステップS104におけるサンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整する具体的な手順は、以下のステップS405~S408を含む。
S405において、サンプルの事前アンカーボックス及び予測テキストボックスに基づいて、第1の損失関数を取得する。
本願の実施例において、マーキングテキストボックスの属性情報及びサンプルの事前アンカーボックスの属性情報に基づいて、第1の損失関数を取得することができる。
可能な一実現形態として、図6に示すように、上記実施例に基づいて、具体的に以下のステップを含む。
S601において、マーキングテキストボックスのX軸のコーナーポイントと中心点との間の第1の距離、及びマーキングテキストボックスのY軸のコーナーポイントと中心点との間の第2の距離を取得する。
なお、マーキングテキストボックスには、計4個のX軸のコーナーポイントがあり、いずれかのX軸のコーナーポイントと中心点との間の距離が等しいため、マーキングテキストボックスのX軸のコーナーポイントと中心点との間の第1の距離を取得しようとする時に、いずれかのX軸のコーナーポイントと中心点との間の距離を第1の距離とすることができる。
なお、マーキングテキストボックスには、計4個のY軸のコーナーポイントがあり、いずれかのY軸のコーナーポイントと中心点との間の距離が等しいため、マーキングテキストボックスのY軸のコーナーポイントと中心点との間の第2の距離を取得しようとする時に、いずれかのY軸のコーナーポイントと中心点との間の距離を第2の距離とすることができる。
S602において、サンプルの事前アンカーボックスの長さ及び幅を取得する。
ここで、マーキングテキストボックスの中心点は、サンプルの事前アンカーボックスの中心点と重なり合っている。
例えば、図7に示すように、マーキングテキストボックス7-1のX軸のコーナーポイントGxと中心点(Pcx,Pcy)との間の第1の距離d1=Gx-Pcx、及びマーキングテキストボックス7-1のY軸のコーナーポイントGyと中心点(Pcx,Pcy)との間の第2の距離d2=Gy-Pcyを取得する。
さらに、サンプルの事前アンカーボックス7-2の長さPh及び幅Pwを取得する。
S603において、第1の距離と幅との間の第1の比率、及び第2の距離と長さとの間の第2の比率をそれぞれ取得する。
例えば、第1の距離d1、長さPh、第2の距離d2、幅Pwに対して、第1の比率k1=d1/Pw、すなわち、k1=(Gx-Pcx)/Pw、第2の比率k2=d2/Ph、すなわち、k2=(Gy-Pcy)/Phを取得することができる。
S604において、第1の比率及び第2の比率に基づいて、第1の損失関数を取得する。
なお、本開示において第1の比率及び第2の比率と第1の損失関数との間のマッピング関係が予め設定されており、第1の比率及び第2の比率が取得された後、マッピング関係を検索することにより、第1の損失関数を取得することができる。
S406において、マーキングテキストボックス及び予測テキストボックスに基づいて、第2の損失関数を取得する。
本開示の実施例において、予測テキストボックスが取得された後、マーキングテキストボックスと予測テキストボックスとの間の違いを取得することができる。さらに、予め設定された違いと第2の損失関数との間のマッピング関係に基づいて、第2の損失関数を取得することができる。
S407において、第1の損失関数及び第2の損失関数に基づいて、文字位置決めモデルの損失関数を取得する。
なお、本開示は、第1の損失関数及び第2の損失関数に基づいて、文字位置決めモデルの損失関数を取得する具体的な方式を限定しない。
例えば、第1の損失関数と第2の損失関数との和を文字位置決めモデルの損失関数とすることができ、さらに例えば、第1の損失関数と第2の損失関数との積を文字位置決めモデルの損失関数とすることができる。また、例えば、第1の損失関数と第2の損失関数との重み付けの結果を文字位置決めモデルの損失関数とすることができる。
S408において、損失関数に基づいて文字位置決めモデルのモデルパラメータを調整する。
S409において、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続ける。
当該ステップS409は、上記ステップS104と一致し、ここでは詳しく説明しない。
本開示の実施例に係る文字位置決めモデルのトレーニング方法は、サンプルの事前アンカーボックス及びマーキングテキストボックスに基づいて、第1の損失関数を取得し、マーキングテキストボックス及び予測テキストボックスに基づいて、第2の損失関数を取得し、第1の損失関数及び第2の損失関数に基づいて文字位置決めモデルの損失関数を取得することができ、損失関数の決定の消費時間を減らすことにより、モデルトレーニングの消費時間及び難易度をさらに低減し、モデルトレーニング結果の信頼性を向上させることができる。
図8は、本開示の第5の実施例に係る概略図である。
図8に示すように、本実施例に係る文字位置決め方法は、以下のステップを含む。
S801において、画像を取得し、ここで、画像には位置決め対象の文字が含まれている。
ここで、画像は、位置決め対象の文字を含むいずれかの画像であってもよい。
S802において、画像を目標文字位置決めモデルに入力して位置決め対象の文字を位置決めし、画像の目標テキストボックスを出力し、ここで、目標文字位置決めモデルは、本開示の第1の実施例のトレーニング方法に基づいてトレーニングされたモデルである。
本開示の実施例において、画像が取得された後、画像をトレーニングされた目標文字位置決めモデルに入力して位置決め対象の文字を位置決めし、画像の目標テキストボックスを出力することができ、この場合、目標テキストボックスは、画像に対する文字位置決め結果である。
本開示の実施例に係る文字位置決め方法は、位置決め対象の文字が含まれている画像を取得することにより、画像を目標文字位置決めモデルに入力して位置決め対象の文字を位置決めし、画像の目標テキストボックスを出力し、文字の位置決めを実現することができる。これにより、本開示は、サンプルの事前アンカーボックスに基づいてトレーニングされた収束目標文字位置決めモデルによって画像中の文字を位置決めすることにより、文字位置決めの精度及び信頼性を向上させる。
なお、関連技術において、分割に基づく文字位置決め方式及びアンカーボックスに基づく文字位置決め方式を採用することにより文字モデルのトレーニング及び文字の位置決めを行う。
ここで、分割に基づく文字位置決め方式では、文字に対する画像における各画素点の応答を直接予測することができ、テキストが長いという問題により良く対応できる。しかしながら、文字の重なりが存在する場合、文字に対する画素点の応答は、どのフィールドに属するかを判別することができない。
ここで、アンカーボックスに基づく文字位置決め方式、例えば、EAST(Efficient and Accuracy Scene Text)では、画像中の格子点ごとに文字の応答がある場合、文字の四隅点を予測する。しかしながら、正負のサンプルを正確に区別することが困難であるなどの問題に基づいて、遮蔽問題の処理が困難になる可能性がある。
以上のように、本開示に係る文字位置決め方法及び文字位置決めモデルのトレーニング方法は、関連技術で採用されている分割に基づく文字位置決め方式及びアンカーボックスに基づく文字位置決め方式とは異なり、モデルトレーニングにおいてゼロからの回帰予測を必要とせず、モデルトレーニングの消費時間及び難易度を低減し、モデルトレーニング結果の信頼性を向上させるなどの利点がある。
本開示の技術案において、ユーザ個人情報の取得、記憶及び適用などについては、いずれも関連する法律法規の規定に適合しており、公序良俗に反するものではない。
上記いくつかの実施例に係るものに対応し、本開示の一実施例は、文字位置決めモデルのトレーニング装置をさらに提供し、本開示の実施例に係る文字位置決めモデルのトレーニング装置が上記いくつかの実施例に係る文字位置決めモデルのトレーニング方法に対応するため、文字位置決めモデルのトレーニング方法の実施形態は、本実施例に係る文字位置決めモデルのトレーニング装置にも適用し、本実施例では詳しく説明しない。
図9は、本開示の一実施例に係る文字位置決めモデルのトレーニング装置の概略ブロック図である。
図9に示すように、当該文字位置決めモデルのトレーニング装置900は、第1の取得モジュール901、出力モジュール902、第2の取得モジュール903及び生成モジュール904を備える。第1の取得モジュール901は、サンプル画像を取得するように構成され、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれており、出力モジュール902は、前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するように構成され、第2の取得モジュール903は、前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するように構成され、生成モジュール904は、前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるように構成される。
ここで、生成モジュール904は、さらに、前記サンプルの事前アンカーボックス及び前記マーキングテキストボックスに基づいて、第1の損失関数を取得し、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、第2の損失関数を取得し、前記第1の損失関数及び前記第2の損失関数に基づいて、前記文字位置決めモデルの損失関数を取得し、前記損失関数に基づいて前記文字位置決めモデルのモデルパラメータを調整するように構成される。
ここで、生成モジュール904は、さらに、前記マーキングテキストボックスの属性情報及び前記サンプルの事前アンカーボックスの属性情報に基づいて、前記第1の損失関数を取得するように構成される。
ここで、生成モジュール904は、さらに、前記マーキングテキストボックスのX軸のコーナーポイントと中心点との間の第1の距離、及び前記マーキングテキストボックスのY軸のコーナーポイントと前記中心点との間の第2の距離を取得し、前記サンプルの事前アンカーボックスの長さ及び幅を取得し、前記第1の距離と前記幅との間の第1の比率、及び前記第2の距離と前記長さとの間の第2の比率をそれぞれ取得し、前記第1の比率及び前記第2の比率に基づいて、前記第1の損失関数を取得するように構成される。
ここで、前記マーキングテキストボックスの前記中心点は、前記サンプルの事前アンカーボックスの中心点と重なり合っている。
ここで、第2の取得モジュール903は、さらに、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像に対応する特徴マップを取得し、前記特徴マップに基づいて、マッチングされる前記サンプルの事前アンカーボックスを取得するように構成される。
本開示の実施例に係る文字位置決めモデルのトレーニング装置は、サンプル画像を取得し、サンプル画像をトレーニング対象の文字位置決めモデルに入力してサンプルの位置決め対象の文字を位置決めすることにより、サンプル画像の予測テキストボックスを出力し、サンプル画像に対応するサンプルの事前アンカーボックスを取得し、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続けることができる。これにより、本開示は、サンプルの事前アンカーボックスを導入し、モデルトレーニング中の予測テキストボックスの取得のために参照を提供し、モデルトレーニングにおいてゼロからの回帰予測を必要とせず、モデルトレーニングの消費時間及び難易度を低減し、モデルトレーニング結果の信頼性を向上させる。
図10は、本開示の一実施例に係る文字位置決め装置の概略構成図である。
図10に示すように、当該文字位置決め装置1000は、取得モジュール1001及び出力モジュール1002を備える。取得モジュール1001は、画像を取得するように構成され、前記画像には位置決め対象の文字が含まれており、出力モジュール1002は、前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するように構成され、前記目標文字位置決めモデルは、上記実施態様に記載のトレーニング方法に基づいてトレーニングされたモデルである。
本開示の実施例に係る文字位置決め装置は、位置決め対象の文字が含まれている画像を取得することにより、画像を目標文字位置決めモデルに入力して位置決め対象の文字を位置決めし、画像の目標テキストボックスを出力し、文字の位置決めを実現することができる。これにより、本開示は、サンプルの事前アンカーボックスに基づいてトレーニングされた収束目標文字位置決めモデルによって画像中の文字を位置決めすることにより、文字位置決め中の精度及び信頼性を向上させる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供する。
図11には、本開示の実施例を実現することに用いられる例示的な電子機器1100の概略ブロック図が示される。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限するものではない。
図11に示すように、デバイス1100は、リードオンリーメモリ(ROM)1102に記憶されているコンピュータプログラム、又は記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット1101を備える。RAM1103には、デバイス1100の動作に必要な様々なプログラム及びデータが記憶されていてもよい。計算ユニット1101、ROM1102及びRAM1103は、バス1104を介して互いに接続されている。入出力(I/O)インタフェース1105もバス1104に接続されている。
デバイス1100における、キーボード、マウスなどの入力ユニット1106と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1107と、磁気ディスク、光ディスクなどの記憶ユニット1108と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1109と、を備える複数のコンポーネントは、入出力(I/O)インタフェース1105に接続されている。通信ユニット1109は、デバイス1100がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット1101は、各種の処理及び計算能力を有する汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1101のいくつかの例は、セントラルプロセッシングユニット(CPU)、グラフィックスプロセッシングユニット(GPU)、各種の専用人工知能(AI)計算チップ、各種の機械学習モデルアルゴリズムを運行する計算ユニット、デジタルシグナルプロセッサ(DSP)、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1101は、上述したそれぞれの方法及び処理、例えば、文字位置決めモデルのトレーニング方法又は文字位置決め方法を実行する。例えば、いくつかの実施例で、文字位置決めモデルのトレーニング方法又は文字位置決め方法は、記憶ユニット1108のような機械読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例で、コンピュータの一部又は全部は、ROM1102及び/又は通信ユニット1109を介してデバイス1100にロッド及び/又はインストールすることができる。コンピュータプログラムがRAM1103にロッドされて計算ユニット1101によって実行された場合、上述した文字位置決めモデルのトレーニング方法又は文字位置決め方法の1つ又は複数のステップを実行することができる。あるいは、他の実施例で、計算ユニット1101は、他の任意の適切な形態で(例えば、ファーとウェアにより)文字位置決めモデルのトレーニング方法又は文字位置決め方法を実行するように構成されてもよい。
本明細書で上述したシステム及び技術の各種の実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組合せにおいて実現してもよい。これらの各種の実施方式は、少なくとも1つのプログラマブルプロセッサを備えるプログラマブルシステムにおいて実行及び/又は解釈することができる1つ又は複数のコンピュータプログラムにおいて実現されてもよく、当該プログラマブルプロセッサは、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を伝送することができる専用及び/又は汎用プログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)又はフラッシュメモリ、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドユニットを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアユニットを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドユニットを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドユニットと、ミドルウェアユニットと、フロントエンドユニットの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。
本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記のような文字位置決めモデルのトレーニング方法又は文字位置決め方法のステップが実現される。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. コンピュータにより実行される文字位置決めモデルのトレーニング方法であって、
    サンプル画像を取得するステップであって、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれているステップと、
    前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するステップと、
    前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するステップと、
    前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるステップと、
    を含み、
    前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するステップが、
    前記サンプル画像に対して特徴抽出を行い、前記サンプル画像に対応する特徴マップを取得するステップと、
    前記特徴マップに基づいて、マッチングされる前記サンプルの事前アンカーボックスを取得するステップと、
    を含む、文字位置決めモデルのトレーニング方法。
  2. 前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整するステップが、
    前記サンプルの事前アンカーボックス及び前記マーキングテキストボックスに基づいて、第1の損失関数を取得するステップと、
    前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、第2の損失関数を取得するステップと、
    前記第1の損失関数及び前記第2の損失関数に基づいて、前記文字位置決めモデルの損失関数を取得するステップと、
    前記損失関数に基づいて前記文字位置決めモデルのモデルパラメータを調整するステップと、
    を含む請求項1に記載の文字位置決めモデルのトレーニング方法。
  3. 前記サンプルの事前アンカーボックス及び前記マーキングテキストボックスに基づいて、第1の損失関数を取得するステップが、
    前記マーキングテキストボックスの属性情報及び前記サンプルの事前アンカーボックスの属性情報に基づいて、前記第1の損失関数を取得するステップを含む請求項2に記載の文字位置決めモデルのトレーニング方法。
  4. 前記マーキングテキストボックスの属性情報及び前記サンプルの事前アンカーボックスの属性情報に基づいて、前記第1の損失関数を取得するステップが、
    前記マーキングテキストボックスのX軸のコーナーポイントと中心点との間の第1の距離、及び前記マーキングテキストボックスのY軸のコーナーポイントと前記中心点との間の第2の距離を取得するステップと、
    前記サンプルの事前アンカーボックスの長さ及び幅を取得するステップと、
    前記第1の距離と前記幅との間の第1の比率、及び前記第2の距離と前記長さとの間の第2の比率をそれぞれ取得するステップと、
    前記第1の比率及び前記第2の比率に基づいて、前記第1の損失関数を取得するステップと、
    を含む請求項3に記載の文字位置決めモデルのトレーニング方法。
  5. 前記マーキングテキストボックスの前記中心点は、前記サンプルの事前アンカーボックスの中心点と重なり合っている請求項4に記載の文字位置決めモデルのトレーニング方法。
  6. 前記特徴マップに基づいて、マッチングされる前記サンプルの事前アンカーボックスを取得するステップが、
    前記特徴マップに基づいて、少なくとも1つの前記サンプルの位置決め対象の文字を取得するステップと、
    各前記サンプルの位置決め対象の文字のサイズを取得するステップと、
    各前記サンプルの位置決め対象の文字に対して、前記サンプルの位置決め対象の文字のサイズに対応する前記サンプルの事前アンカーボックスを取得するステップと、
    を含む請求項に記載の文字位置決めモデルのトレーニング方法。
  7. 画像を取得するステップであって、前記画像には位置決め対象の文字が含まれているステップと、
    前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するステップであって、前記目標文字位置決めモデルが、請求項1に記載のトレーニング方法に基づいてトレーニングされたモデルであるステップと、
    を含む文字位置決め方法。
  8. サンプル画像を取得するように構成される第1の取得モジュールであって、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれている第1の取得モジュールと、
    前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するように構成される出力モジュールと、
    前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するように構成される第2の取得モジュールと、
    前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるように構成される生成モジュールと、
    を備え
    前記第2の取得モジュールが、
    前記サンプル画像に対して特徴抽出を行い、前記サンプル画像に対応する特徴マップを取得し、
    前記特徴マップに基づいて、マッチングされる前記サンプルの事前アンカーボックスを取得するように構成される、文字位置決めモデルのトレーニング装置。
  9. 前記生成モジュールが、
    前記サンプルの事前アンカーボックス及び前記マーキングテキストボックスに基づいて、第1の損失関数を取得し、
    前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、第2の損失関数を取得し、
    前記第1の損失関数及び前記第2の損失関数に基づいて、前記文字位置決めモデルの損失関数を取得し、
    前記損失関数に基づいて前記文字位置決めモデルのモデルパラメータを調整するように構成される請求項に記載の文字位置決めモデルのトレーニング装置。
  10. 前記生成モジュールが、
    前記マーキングテキストボックスの属性情報及び前記サンプルの事前アンカーボックスの属性情報に基づいて、前記第1の損失関数を取得するように構成される請求項に記載の文字位置決めモデルのトレーニング装置。
  11. 前記生成モジュールが、
    前記マーキングテキストボックスのX軸のコーナーポイントと中心点との間の第1の距離、及び前記マーキングテキストボックスのY軸のコーナーポイントと前記中心点との間の第2の距離を取得し、
    前記サンプルの事前アンカーボックスの長さ及び幅を取得し、
    前記第1の距離と前記幅との間の第1の比率、及び前記第2の距離と前記長さとの間の第2の比率をそれぞれ取得し、
    前記第1の比率及び前記第2の比率に基づいて、前記第1の損失関数を取得するように構成される請求項10に記載の文字位置決めモデルのトレーニング装置。
  12. 前記マーキングテキストボックスの前記中心点は、前記サンプルの事前アンカーボックスの中心点と重なり合っている請求項11に記載の文字位置決めモデルのトレーニング装置。
  13. 前記第2の取得モジュールが、
    前記特徴マップに基づいて、少なくとも1つの前記サンプルの位置決め対象の文字を取得し、
    各前記サンプルの位置決め対象の文字のサイズを取得し、
    各前記サンプルの位置決め対象の文字に対して、前記サンプルの位置決め対象の文字のサイズに対応する前記サンプルの事前アンカーボックスを取得するように構成される請求項に記載の文字位置決めモデルのトレーニング装置
  14. 画像を取得するように構成される取得モジュールであって、前記画像には位置決め対象の文字が含まれている取得モジュールと、
    前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するように構成される出力モジュールであって、前記目標文字位置決めモデルが、請求項1からのいずれか一項に記載のトレーニング方法に基づいてトレーニングされたモデルである出力モジュールと、
    を備える文字位置決め装置。
  15. プロセッサとメモリとを備え、
    前記プロセッサが、請求項1からのいずれか一項に記載の方法を実現するために、前記メモリに記憶された実行可能なプログラムコードを読み取ることにより、前記実行可能なプログラムコードに対応するプログラムを実行する電子機器。
  16. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    当該プログラムがプロセッサによって実行される場合、請求項1からのいずれか一項に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体。
  17. プロセッサによって実行される場合、請求項1からのいずれか一項に記載の方法のステップが実現されるコンピュータプログラム。
JP2022130338A 2021-08-23 2022-08-18 文字位置決めモデルのトレーニング方法及び文字位置決め方法 Active JP7390445B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110970305.5 2021-08-23
CN202110970305.5A CN113762109B (zh) 2021-08-23 2021-08-23 一种文字定位模型的训练方法及文字定位方法

Publications (2)

Publication Number Publication Date
JP2022166215A JP2022166215A (ja) 2022-11-01
JP7390445B2 true JP7390445B2 (ja) 2023-12-01

Family

ID=78790892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022130338A Active JP7390445B2 (ja) 2021-08-23 2022-08-18 文字位置決めモデルのトレーニング方法及び文字位置決め方法

Country Status (4)

Country Link
US (1) US20220392242A1 (ja)
EP (1) EP4068225A3 (ja)
JP (1) JP7390445B2 (ja)
CN (1) CN113762109B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863434B (zh) * 2022-04-21 2023-05-23 北京百度网讯科技有限公司 文字分割模型的获取方法、文字分割方法及其装置
CN117253233B (zh) * 2023-09-05 2024-05-17 广东奥普特科技股份有限公司 一种字符擦除方法、装置和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079347A (ja) 2017-10-25 2019-05-23 ネットスマイル株式会社 文字種推定システム、文字種推定方法、および文字種推定プログラム
US20200082218A1 (en) 2018-09-06 2020-03-12 Sap Se Optical character recognition using end-to-end deep learning
JP2020119522A (ja) 2019-01-25 2020-08-06 株式会社ストラドビジョンStradvision,Inc. 物体検出器の学習方法及びテスト方法、それを利用した学習装置及びテスト装置
JP2020527260A (ja) 2018-06-15 2020-09-03 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド テキスト検出分析方法、装置及びデバイス
JP2021512378A (ja) 2018-12-29 2021-05-13 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド アンカー決定方法及び装置、電子機器並びに記憶媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10074042B2 (en) * 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
US9984471B2 (en) * 2016-07-26 2018-05-29 Intuit Inc. Label and field identification without optical character recognition (OCR)
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN110147786B (zh) * 2019-04-11 2021-06-29 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110110715A (zh) * 2019-04-30 2019-08-09 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN113159016B (zh) * 2019-07-26 2024-06-18 第四范式(北京)技术有限公司 文本位置定位方法和系统以及模型训练方法和系统
US11138423B2 (en) * 2019-07-29 2021-10-05 Intuit Inc. Region proposal networks for automated bounding box detection and text segmentation
CN110674804A (zh) * 2019-09-24 2020-01-10 上海眼控科技股份有限公司 文本图像的检测方法、装置、计算机设备和存储介质
CN111079632A (zh) * 2019-12-12 2020-04-28 上海眼控科技股份有限公司 文本检测模型的训练方法、装置、计算机设备和存储介质
CN111275040B (zh) * 2020-01-18 2023-07-25 北京市商汤科技开发有限公司 定位方法及装置、电子设备、计算机可读存储介质
CN111368831B (zh) * 2020-03-03 2023-05-23 开放智能机器(上海)有限公司 一种竖排文字的定位系统及方法
CN112052853B (zh) * 2020-09-09 2024-02-02 国家气象信息中心 一种基于深度学习的手写气象档案资料的文本定位方法
CN113221768A (zh) * 2021-05-18 2021-08-06 北京百度网讯科技有限公司 识别模型训练方法、识别方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079347A (ja) 2017-10-25 2019-05-23 ネットスマイル株式会社 文字種推定システム、文字種推定方法、および文字種推定プログラム
JP2020527260A (ja) 2018-06-15 2020-09-03 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド テキスト検出分析方法、装置及びデバイス
US20200082218A1 (en) 2018-09-06 2020-03-12 Sap Se Optical character recognition using end-to-end deep learning
JP2021512378A (ja) 2018-12-29 2021-05-13 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド アンカー決定方法及び装置、電子機器並びに記憶媒体
JP2020119522A (ja) 2019-01-25 2020-08-06 株式会社ストラドビジョンStradvision,Inc. 物体検出器の学習方法及びテスト方法、それを利用した学習装置及びテスト装置

Also Published As

Publication number Publication date
CN113762109B (zh) 2023-11-07
EP4068225A3 (en) 2023-01-25
CN113762109A (zh) 2021-12-07
US20220392242A1 (en) 2022-12-08
JP2022166215A (ja) 2022-11-01
EP4068225A2 (en) 2022-10-05

Similar Documents

Publication Publication Date Title
JP7230081B2 (ja) 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US11681875B2 (en) Method for image text recognition, apparatus, device and storage medium
JP7390445B2 (ja) 文字位置決めモデルのトレーニング方法及び文字位置決め方法
US8749553B1 (en) Systems and methods for accurately plotting mathematical functions
WO2023015922A1 (zh) 图像识别模型的训练方法、装置、设备及存储介质
JP2022172381A (ja) テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器
US20230196716A1 (en) Training multi-target image-text matching model and image-text retrieval
US20210357710A1 (en) Text recognition method and device, and electronic device
JP7300034B2 (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
EP3876197A2 (en) Portrait extracting method and apparatus, electronic device and storage medium
US20230130901A1 (en) Method for constructing three-dimensional map in high-definition map, device and storage medium
KR20220034075A (ko) 폰트 생성 모델 트레이닝 방법, 폰트 라이브러리 구축 방법, 장치 및 설비
JP2023533404A (ja) 駆動可能3dキャラクター生成方法、装置、電子機器、及び記憶媒体
JP2022168167A (ja) 画像処理方法、装置、電子機器及び記憶媒体
JP2022185144A (ja) 対象検出方法、対象検出モデルのレーニング方法および装置
JP2023533108A (ja) 道路ラベルを生成するための方法、装置、デバイス及び記憶媒体
US11881044B2 (en) Method and apparatus for processing image, device and storage medium
US11830242B2 (en) Method for generating a license plate defacement classification model, license plate defacement classification method, electronic device and storage medium
CN113837194A (zh) 图像处理方法、图像处理装置、电子设备以及存储介质
US20230048643A1 (en) High-Precision Map Construction Method, Apparatus and Electronic Device
US20220382991A1 (en) Training method and apparatus for document processing model, device, storage medium and program
US20220122022A1 (en) Method of processing data, device and computer-readable storage medium
CN114445682A (zh) 训练模型的方法、装置、电子设备、存储介质及产品
CN112784829A (zh) 一种票据信息的提取方法、装置、电子设备及存储介质
US11835356B2 (en) Intelligent transportation road network acquisition method and apparatus, electronic device and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231120

R150 Certificate of patent or registration of utility model

Ref document number: 7390445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150