JP2022177232A - 画像処理方法、テキスト認識方法及び装置 - Google Patents

画像処理方法、テキスト認識方法及び装置 Download PDF

Info

Publication number
JP2022177232A
JP2022177232A JP2022152161A JP2022152161A JP2022177232A JP 2022177232 A JP2022177232 A JP 2022177232A JP 2022152161 A JP2022152161 A JP 2022152161A JP 2022152161 A JP2022152161 A JP 2022152161A JP 2022177232 A JP2022177232 A JP 2022177232A
Authority
JP
Japan
Prior art keywords
field
features
image
text
positional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022152161A
Other languages
English (en)
Other versions
JP7425147B2 (ja
Inventor
リウ,ジントゥオ
Jingtuo Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022177232A publication Critical patent/JP2022177232A/ja
Application granted granted Critical
Publication of JP7425147B2 publication Critical patent/JP7425147B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/199Arrangements for recognition using optical reference masks, e.g. holographic masks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/20Combination of acquisition, preprocessing or recognition functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】画像処理の信頼性を向上させるための画像処理方法、テキスト認識方法及び装置を提供する。【解決手段】方法は、取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック及びテキストコンテンツを取得し、フィールドにそれぞれ対応する位置情報、画像ブロック及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を取得し、予測結果に従って訓練してテキスト認識モデルを取得する。テキスト認識モデルは、認識対象の画像に対してテキスト認識を行うためのものであり、サンプル画像の複数の次元のコンテンツを融合して「事前訓練」をすることで、「事前訓練」が高い全面性及び信頼性を有する。また、予測結果に基づいてテキスト認識モデルを生成するとき、テキスト認識モデルは高い正確性を有する。【選択図】図2

Description

本開示は、人工知能技術の分野に関し、具体的には、深層学習、コンピュータビジョン技術の分野に関し、光学式文字認識(OCR、Optical Character Recognition)などのシーンに適用でき、特に、画像処理方法、テキスト認識方法及び装置に関する。
人工知能(Artificial Intelligence、AI)技術の発展につれ、ネットワークモデルが各分野で広く使用されるようになっている。例えば、テキスト認識モデルを訓練して、テキスト認識モデルに基づいて画像内の文字を認識することにより、テキストコンテンツを得るなどが挙げられる。
関連技術において、通常、ラベル付けされたサンプル画像を使用して基本ネットワークモデルを訓練することにより、基本ネットワークモデルがサンプル画像内のテキストコンテンツを認識する能力を学習し、テキスト認識モデルが得られる。
しかしながら、上記方法を使用する場合、テキスト認識モデルの信頼性が低いという技術的問題がある。
本開示は、画像処理の信頼性を向上させるための画像処理方法、テキスト認識方法及び装置を提供する。
第1の態様によれば、本開示は、画像処理方法を提供し、前記方法は、
取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るステップと、
前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得るステップと、
前記予測結果に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものであるステップと、を含む。
第2の態様によれば、本開示は、テキスト認識方法を提供し、前記方法は、
認識対象の画像を取得するステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて得られたものである。
第3の態様によれば、本開示は、画像処理装置を提供し、前記装置は、
取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第1の処理ユニットと、
前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得るための予測ユニットと、
前記予測結果に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものである訓練ユニットと、を含む。
第4の態様によれば、本開示は、テキスト認識装置を提供し、前記装置は、
認識対象の画像を取得するための取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて訓練されたものである。
第5の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行できる。
第6の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータに第1の態様又は第2の態様による方法を実行させるためのものである。
第7の態様によれば、本開示は、コンピュータプログラム提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサが前記コンピュータプログラムを実行すると、電子機器が第1の態様又は第2の態様に記載の方法を実行する。
本開示において、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを組み合わせて、フィールドの位置情報に対してマスク予測を行い、「事前訓練」を完了させ、「事前訓練」の予測結果に基づいて訓練してテキスト認識モデルを得る解決策によれば、サンプル画像の複数の次元のコンテンツを融合して「事前訓練」をするため、「事前訓練」を高い全面性及び信頼性を有するものにすることができ、それにより、予測結果に基づいてテキスト認識モデル(すなわち、「微調整」を完了させる)を生成するとき、テキスト認識モデルを高い正確性及び信頼性を有するものにすることができ、さらに、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の正確性を向上させることができる。
なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の明細書を通じて容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本開示の実施例の画像処理方法及びテキスト認識方法を実現できるシーン図である。 本開示の第1の実施例による概略図である。 本開示の第2の実施例による概略図である。 本開示の第3の実施例による概略図である。 本開示による原理概略図の1である。 本開示による原理概略図の2である。 本開示の第4の実施例による概略図である。 本開示の第5の実施例による概略図である。 本開示の第6の実施例による概略図である。 本開示の第7の実施例による概略図である。 本開示の第8の実施例による概略図である。 本開示の第9の実施例による概略図である。 本開示の第10の実施例による概略図である。 本開示の実施例の画像処理方法及びテキスト認識方法を実現するための電子機器のブロック図である。
以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
ドキュメント画像構造化とは、画像内のテキストコンテンツ(画像内のすべての文字情報を指す)や主要な情報(着目される情報の一部を指し、必要に応じて決定できる)を抽出し、画像内のコンテンツをデジタル化及び構造化することである。
相応に、テキスト構造化情報は、ドキュメント画像を構造化して得られたテキスト構造化情報、すなわち、テキストコンテンツとして理解できる。
例えば、図1に示される領収書に対してドキュメント画像の構造化を行う場合、図1に示される領収書を写真に撮って、領収書画像を得て、領収書画像内の領収書番号、金額、日付などの情報を抽出することができる。
図1は、ドキュメント画像の可能な形態について例示的に説明するためのものであり、ドキュメント画像を限定するものとして理解できないことを理解すべきであり、ドキュメント画像は、乗車券やフェリーチケットなど、テキストコンテンツが含まれる画像として理解でき、また、看板画像などとして理解できる。
ドキュメント画像の構造化は、テキストコンテンツが含まれる画像内のテキストコンテンツが取得される過程として理解でき、人工知能技術の発展につれ、ネットワークモデルに基づいて実現されることができ、例えば、テキスト認識モデルを訓練して、テキスト認識モデルに基づいて認識対象の画像に対して文字認識を行うことにより、認識対象の画像内のテキストコンテンツを得る。
いくつかの実施例では、サンプル画像に基づいて基本ネットワークモデルを訓練し、テキスト認識モデルを得るようにしてもよい。
例えば、異なる応用シーンに応じて、当該応用シーンに対応するサンプル画像(テキストコンテンツが含まれる)を選択し、サンプル画像にラベルを付け、ラベル付けされたサンプル画像に基づいて基本ネットワークモデルを訓練することにより、テキスト認識モデルを得る。
上記分析によれば、異なる応用シーンでのテキスト認識モデルは、異なるタイプのドキュメント画像のテキストコンテンツを検出するために使用される可能性がある。例えば、領収書の応用シーンでは、領収書画像を認識するためのテキスト認識モデルを訓練するとき、サンプル領収書画像を取得し、サンプル領収書画像にラベルを付け、ラベル付けされたサンプル領収書画像に基づいて基本ネットワークモデルを訓練することにより、認識対象の画像が領収書画像である場合の画像を認識するためのテキスト認識モデルを得る。
また、例えば、乗車券の応用シーンでは、乗車券画像を認識するためのテキスト認識モデルを訓練するとき、サンプル乗車券画像を取得し、サンプル乗車券画像にラベルを付け、ラベル付けされたサンプル乗車券画像に基づいて基本ネットワークモデルを訓練することにより、認識対象の画像が乗車券画像である場合の画像を認識するためのテキスト認識モデルを得る。
しかしながら、当該方法を使用すると、さまざまな応用シーンに応じて、ラベルを付けて訓練するには、その対応する応用シーンでのサンプル画像を収集する必要があるため、大量のラベル付け、長い訓練時間、及び低い汎用性が引き起こされる。
他のいくつかの実施例では、「事前訓練+微調整」を使用して訓練してテキスト認識モデルを得るようにしてもよい。
「事前訓練」は、応用シーンを区別して対処する必要がなく、サンプル画像に基づいて事前訓練モデルを生成することとして理解でき、その本質は隠れ層として理解できる。「微調整」は、隠れ層に基づき、応用シーンに応じて、訓練して応用シーンに適したテキスト認識モデルを得ることとして理解できる。
例示的に、上記分析によれば、テキスト認識モデルの訓練は、「事前訓練」段階及び「微調整」段階という2つの段階を含むことができる。領収書の応用シーン及び乗車券の応用シーンに応じて、「事前訓練」段階では、その2つの応用シーンによって共用できる隠れ層を得ることができる一方、「微調整段階」では、領収書の応用シーンに応じて、サンプル領収書画像及び隠れ層に基づいて訓練して領収書の応用シーンに適したテキスト認識モデルを得ることができるが、乗車券の応用シーンに応じて、サンプル乗車券画像及び隠れ層に基づいて訓練して乗車券の応用シーンに適したテキスト認識モデルを得ることができる。
一例では、マスクされた視覚言語モデル(Masked Visual-Language Model、MVLM)に基づいて「事前訓練」を完了させてもよい。
例えば、マスクされた視覚言語モデルに基づいてサンプル画像内の文字の一部に対してマスク(mask)処理を行い、すなわち、サンプル画像内の文字の一部をカバーして、サンプル画像内のカバーされていない文字の一部に基づいてカバーされた文字の一部を復元してもよい。
具体的には、サンプル画像内のカバーされていない文字の一部のコンテキストに基づいてカバーされた文字の一部を決定することができる。サンプル画像の文字の一部がカバーされるとき、カバーされたのは、文字の一部のテキスト自体及びサンプル画像内のカバーされた文字の一部がある領域であってもよい。
他の例では、テキストの長さを予測して「事前訓練」を完了させてもよい。
例えば、サンプル画像の視覚的特徴を取得し、視覚的特徴に従ってサンプル画像内のテキストコンテンツの文字長を予測して得て、予測された文字長及び実際の文字長(予めラベル付けされた)に基づいて「事前訓練」を完了させてもよい。
他の例では、フィールド間の位置情報に基づいて「事前訓練」を完了させてもよい。
例えば、サンプル画像の異なるフィールド(例えば、2つのフィールド)にそれぞれ対応する視覚的特徴を取得し、各視覚的特徴に基づいて異なるフィールド間の位置関係を予測し、予測して得られた異なるフィールド間の位置関係に基づいて「事前訓練」を完了させてもよい。
他の例では、サンプル画像内のテキストの一部をカバーして、テキストの一部の出力に対して単語レベルの二項分類を行い、各単語がカバーされているかどうかを予測し、予測結果に基づいて「事前訓練」を完了させてもよい。
他の例では、サンプル画像の一部を交換又は破棄して、ネガティブサンプルを得て、サンプル画像が一部の画像内のテキストコンテンツにマッチするかどうかを二項分類に基づいて予測し、予測結果に基づいて「事前訓練」を完了させてもよい。
しかしながら、上記分析によれば、上記方法を使用して「事前訓練」を完了させるとき、通常、テキスト特徴の次元から行われているため、融合されたサンプル画像内の特徴は比較的不完全であるため、「事前訓練」の信頼性及び正確性が低いという問題がある。
本開示の発明者は、上記問題の少なくとも1つを回避するために、創造的労働を通じて、サンプル画像の複数の次元の特徴を組み合わせて「事前訓練」を完了させ、「微調整」してテキスト認識モデルを得るという本開示の発明構想に思いついた。
本開示は、上記発明構想に基づき、訓練効率及び信頼性の向上を達成する画像処理方法、テキスト認識方法及び装置を提供し、人工知能技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に適用され、OCRなどのシーンに適用できる。
図2は、本開示の第1の実施例による概略図であり、図2に示すように、本実施例の画像処理方法は、以下のステップを含む。
S201では、取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得る。
例示的に、本実施例の実行主体は、画像処理装置であってもよく、画像処理装置は、サーバ(例えば、クラウドサーバ、又は、ローカルサーバ、又は、サーバクラスタ)であってもよいし、または、コンピュータ、端末機器、プロセッサ、チップなどあってもよく、本実施例は、それについて限定しない。
本実施例は、前処理の方法について限定しない、文字検出技術によって実現されてもよいし、文字認識技術によって実現されてもよい。
当該ステップは、サンプル画像を取得し、サンプル画像には、フィールドが含まれ、すなわち、サンプル画像には、文字が含まれ、フィールドを前処理し、文字のピクセル座標など、フィールドの位置情報を得ることができ、また、フィールドをボックス選択するための長方形ボックスなど、フィールドの画像ブロックを得ることができ、さらに、フィールドのテキストコンテンツ、すなわち、サンプル画像のテキストコンテンツを得ることもできるステップとして理解できる。
S202では、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を得る。
マスク予測とは、フィールドの位置情報に対してマスク処理を行い、マスク前の位置情報を予測することである。
本実施例では、3つの次元のコンテンツ(すなわち、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツ)を組み合わせてマスク予測を行うことで、マスク予測を高い信頼性を有するものにして、マスク予測の正確性を向上させることができ、さらに、予測結果に基づいて訓練してテキスト認識モデルを得るとき、テキスト認識モデルを高い正確性及び信頼性を有するものにすることができる。
S203では、予測結果に従って訓練してテキスト認識モデルを得る。
テキスト認識モデルは、認識対象の画像に対してテキスト認識を行うためのものである。
上記実施例によれば、S201~S202は、「事前訓練」段階として、S203は、「微調整」段階として理解できる。
上記分析に基づき分かるように、本開示は、画像処理方法を提供し、当該方法は、取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得て、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を得て、予測結果に従って訓練してテキスト認識モデルを得、テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものであり、本実施例では、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを組み合わせて、フィールドの位置情報に対してマスク予測を行い、「事前訓練」を完了させ、「事前訓練」の予測結果に基づいて訓練してテキスト認識モデルを得る技術的特徴によれば、サンプル画像の複数の次元のコンテンツを融合して「事前訓練」をするため、「事前訓練」を高い全面性及び信頼性を有するものにすることができ、それにより、予測結果に基づいてテキスト認識モデル(すなわち、「微調整」を完了させる)を生成するとき、テキスト認識モデルを高い正確性及び信頼性を有するものにすることができ、さらに、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の正確性を向上させることができる。
図3は、本開示の第2の実施例による概略図であり、図3に示すように、本実施例の画像処理方法は、以下のステップを含む。
S301では、取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得る。
煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。
S302では、フィールドの位置情報に対応する位置的特徴を取得し、画像ブロックに対応する視覚的特徴を取得し、テキストコンテンツに対応するテキスト特徴を取得する。
本実施例は、上記3つの次元の特徴を取得する方法について限定しない、例えば、モデルによって実現されてもよいし、アルゴリズムによって実現されてもよい。
位置的特徴は、フィールドのサンプル画像におけるピクセル座標次元をキャラクタリゼーションする特徴ベクトルであってもよく、視覚的特徴は、フィールドの視覚的次元(色やテクスチャなど)をキャラクタリゼーションする特徴ベクトルであってもよく、テキスト特徴は、フィールドの文字特色次元(ストロークや構造など)をキャラクタリゼーションする特徴ベクトルであってもよい。
S303では、フィールドの位置的特徴、視覚的特徴、及びテキスト特徴に従って、フィールドの位置的特徴に対してマスク予測を行い、事前訓練モデルを得る。
つまり、予測結果は、事前訓練モデルであってもよい。上記分析によれば、予測結果の本質は隠れ層であることがわかる。
本実施例では、3つの次元の特徴でサンプル画像の特徴を比較的強く表現できるため、3つの次元の特徴を組み合わせてフィールドの位置的特徴に対してマスク予測を行うと、マスク予測を高い正確性及び信頼性を有するものにすることができる。
いくつかの実施例では、S303は、以下のステップを含んでもよい。
第1のステップでは、フィールドの一部の位置的特徴をランダムに取り除く。
モデル訓練のプロセスは、反復的な訓練プロセスであり、いくつかの実施例では、需要や、履歴記録、実験などに応じて取り除き比率を設定し、取り除き比率に基づいてフィールドの一部の位置的特徴をランダムに取り除いてもよい。他のいくつかの実施例では、異なる取り除き比率に基づいて、フィールドの一部の位置的特徴を取り除いてもよい。
第2のステップでは、視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴に従って、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、事前訓練モデルを得る。
本実施例では、一部の位置的特徴をランダムな取り除き方式で取り除くことで、事前訓練モデルは異なる位置的特徴を復元することができるようになり、そして、事前訓練モデルは高い正確性及び信頼性を持つものになり、また、取り除かれていない3つの次元の特徴を組み合わせて、取り除かれた一部の位置的特徴に対してマスク予測を行うことで、マスク予測により、取り除かれた一部の位置的特徴をピクセル座標の次元から復元することができ、また、取り除かれた一部の位置的特徴をテキストコンテンツの次元から復元することができ、さらに、取り除かれた一部の位置的特徴を文字の視覚的次元から復元することができるようになり、復元された一部の位置的特徴が取り除かれた一部の位置的特徴と極度に類似するようになる。
いくつかの実施例では、第2のステップは、以下のサブステップを含んでもよい。
第1のサブステップでは、視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴に従って、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴を予測して得る。
上記分析によれば、本実施例では、取り除かれていない3つの次元の特徴を利用して、取り除かれた一部の位置的特徴を予測して得る実施例は、取り除かれた一部の位置的特徴と保持された一部の位置的特徴との間のピクセル座標での関連関係、及びコンテキスト語義間の関連関係、並びに視覚的コンテキスト間の関連関係を考慮した上での実施例であるため、予測して得られた、取り除かれた一部の位置的特徴が高い正確性及び信頼性を持つものになっている。
第2のサブステップでは、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対応する位置情報を取得する。
第3のサブステップでは、フィールドの位置情報及び取得された位置情報に従って、事前訓練モデルを生成する。
例示的に、当該実施例は、保持された3つの次元の特徴に従って取り除かれた一部の位置的特徴に対応する位置情報を予測して得ることにより、取り除く前の位置情報及び取り除かれた位置情報に基づいて事前訓練モデルを生成することが容易になる実施例として理解できる。
いくつかの実施例では、フィールドの位置情報及び取得された位置情報間の損失関数を計算して、損失関数に基づいて訓練して事前訓練モデルを得る。
損失関数は、フィールドの位置情報、及び取得された位置情報間の差分情報をキャラクタリゼーションするためのものである。つまり、取り除く前の位置情報と取り除かれた位置情報間の差分情報とを組み合わせて、事前訓練モデルを生成することで、事前訓練モデルを特定対象向けのものとして生成すると同時に、事前訓練モデルを生成する収束速度を向上させる。
S304では、事前訓練モデルに従って訓練してテキスト認識モデルを得る。
テキスト認識モデルは、認識対象の画像に対してテキスト認識を行うためのものである。
図4は、本開示の第3の実施例による概略図であり、図4に示すように、本実施例の画像処理方法は、以下のステップを含む。
S401では、サンプル画像に対して文字検出処理を行い、画像ブロック、及びフィールドの位置情報を得る。
画像ブロックは、フィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスである。
同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しない。
つまり、文字検出技術に基づいてサンプル画像を前処理し、サンプル画像の視覚的次元における画像ブロック、及び位置でのサンプル画像の位置情報を得ることができる。
S402では、サンプル画像に対して文字認識処理を行い、テキストコンテンツを得る。
つまり、文字認識技術を使用してサンプル画像を前処理し、サンプル画像のテキストコンテンツを得ることができる。
例示的に、図5を参照して、前処理は、文字検出処理及び文字認識処理を含み、サンプル画像に対して文字検出処理を行い、画像ブロック及び位置情報を得て、サンプル画像に対して文字認識処理を行い、テキストコンテンツを得ることがわかる。
本実施例では、異なる前処理手段(すなわち、文字検出処理及び文字認識処理)を用いてサンプル画像を前処理し、サンプル画像の異なる次元のコンテンツを得ることにより、サンプル画像を前処理する柔軟性及び多様性を向上させる。
S403では、フィールドの位置情報を第1のネットワークモデルに入力し、フィールドの位置的特徴を出力する。
例示的に、図5に示すように、第1のネットワークモデルから出力されたのは、位置的特徴である。
S404では、画像ブロックを第2のネットワークモデルに入力し、視覚的特徴を出力する。
S405では、テキストコンテンツを第3のネットワークモデルに入力し、テキスト特徴を出力する。
本実施例は、第1のネットワークモデル、第2のネットワークモデル、第3のネットワークモデルのネットワークアーキテクチャ、構造、及びパラメータなどについて限定しない。各ネットワークモデルに基づいてそれぞれに対応する特徴を抽出する実現原理は、関連技術を参照することができ、本実施例は、それについて限定しない。
本実施例では、サンプル画像の3つの次元の特徴を並行して決定することにより、各特徴間の相互干渉を回避し、各特徴決定の効率及び正確性を向上させることができる。
S406では、フィールドの一部の位置的特徴をランダムに取り除いて、保持された一部の位置的特徴を得る。
例示的に、図5に示すように、第1のネットワークモデルから出力された位置的特徴、第2のネットワークモデルから出力された視覚的特徴、及び第3のネットワークモデルから出力されたテキスト特徴に対して、位置的特徴のランダムな取り除きを行い、保持された特徴を得る。
保持された特徴には、第2のネットワークモデルから出力された視覚的特徴、第3のネットワークモデルから出力されたテキスト特徴、及び第1のネットワークモデルから出力された位置的特徴のうち、ランダムに取り除かれていない位置的特徴が含まれる。
S407では、視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴を第4のネットワークモデルに入力し、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴の位置情報を出力する。
同様に、本実施例は、第4のネットワークモデルについて限定しない。
例示的に、図5に示すように、保持された特徴(視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴が含まれる)を第4のネットワークモデルに入力し、位置的特徴をランダムに取り除いた位置的特徴の位置情報を予測して得る。
同様に、本実施例では、3つの次元の特徴を組み合わせて、位置的特徴をランダムに取り除いた位置的特徴の位置情報を予測して得ることで、予測して得られた位置情報を高い正確性及び信頼性を有するものにすることができ、すなわち、取り除かれた位置的特徴に対応する位置情報を比較的正確に復元することができる。
S408では、フィールドの位置情報及び出力された位置情報間の損失関数を計算する。
例示的に、図5に示すように、文字検出処理して得られた位置情報と第4のネットワークモデルによって予測して得られた位置情報との損失関数を計算する。
損失関数は、フィールドの位置情報、及び出力された位置情報間の距離損失を含むことができる。
例示的に、フィールドの位置情報、及び取得された位置情報間の距離損失を計算し、距離損失を損失関数として決定してもよい。
上記分析によれば、本実施例では、位置的特徴に対してマスク予測を行うことにより事前訓練モデルを得るため、距離損失を損失関数として決定することにより、損失関数を、マスク処理前後の位置情報間の差分情報をキャラクタリゼーションするための関数にすることができ、また、距離損失関数に基づいて事前訓練モデルを生成するとき、事前訓練モデルの信頼性及び正確性を向上させる。
いくつかの実施例では、フィールドの位置情報は、ピクセル座標系に基づくフィールドの検出横座標及び検出縦座標を含み、出力された位置情報は、ピクセル座標系に基づくフィールドの予測横座標及び予測縦座標を含み、距離損失の計算は、以下のステップを含んでもよい。
第1のステップでは、予測横座標と検出横座標との間の横座標差分情報、及び予測縦座標と検出縦座標との間の縦座標差分情報を計算する。
第2のステップでは、横座標差分情報及び縦座標差分情報に従って、距離損失を決定する。
例示的に、位置情報は、ピクセル座標(x1,y1,x2,y2)で示すことができ、(x1,y1)が位置情報の左上隅の座標で、(x2,y2)が位置情報の右下隅の座標であり、当然ながら、位置情報は、(x,y,w,h)など、他の形式で示されてもよい。
x、x1、x2が横座標で、y、y1、y2が縦座標で、wが幅で、hが高さである。
位置情報は、ピクセル座標(x1,y1,x2,y2)で示される場合、いくつかの実施例では、式1で距離損失L1を決定してもよい。式1は、以下の通りである。
Figure 2022177232000002
他のいくつかの実施例では、式2で距離損失L2を決定してもよい。式2は、以下の通りである。
Figure 2022177232000003
上付き文字pが予測横座標で、上付き文字gが検出横座標(すなわち、実際の値)である。
本実施例では、2つの次元(すなわち、横座標差分情報及び縦座標差分情報)から、距離損失を決定するため、距離損失を全体的に決定し、決定された距離損失を高い全面性及び信頼性を有するものにすることができる。
S409では、損失関数に従って第1のネットワークモデル、第2のネットワークモデル、第3のネットワークモデル、及び第4のネットワークモデルのそれぞれに対応するモデルパラメータを調整し、事前訓練モデルを得る。
本実施例では、第1のネットワークモデル、第2のネットワークモデル、第3のネットワークモデル、及び第4のネットワークモデルを1つのネットワークモデル全体として、損失関数に基づいてネットワークモデル全体を訓練することにより、各ネットワークモデル間が緊密に組み合わせて、誤差が減る。
S410では、事前訓練モデルに従って訓練してテキスト認識モデルを得る。
テキスト認識モデルは、認識対象の画像に対してテキスト認識を行うためのものである。
当該ステップは、「微調整」段階として理解できる。
つまり、図6に示すように、本実施例では、訓練してテキスト認識モデルを得るステップは、「事前訓練」段階及び「微調整」段階という2つの段階を含み、「事前訓練」段階は、具体的にS401~S409を参照して、「微調整」段階は、具体的にS410を参照する。
また、図6に示すように、「事前訓練」段階は、「訓練データ前処理」及び「位置的特徴マスク予測」という2つのサブ段階を含み、「訓練データ前処理」サブ段階は、具体的にS401~S402を参照して、サンプル画像が訓練データであり、「位置的特徴マスク予測」サブ段階は、具体的にS403~S409を参照する。
「事前訓練」段階で得られた事前訓練モデルは、さまざまな応用シーンに応じて、或いは、さまざまなタイプの認識必要に応じて汎用できる汎用モデルであり、さまざまな応用シーン又はさまざまなタイプの認識必要に応じて、当該汎用モデルに基づいて対象を絞って訓練することにより、対応する応用シーンに適用される最終的なニューラルネットワークモデルを得ることができる。例えば、領収書に対してテキスト認識を行うためのニューラルネットワークモデル、又は契約書を認識するニューラルネットワークモデルが挙げられる。
事前訓練モデルに基づき、ラベル付けされた訓練データを使用して再訓練することにより、対応する応用シーンに適用される最終的なニューラルネットワークモデルを得ることができる。
相応に、対応する応用シーンに適用される最終的なニューラルネットワークモデルに基づき、認識対象の画像のテキスト構造化情報(すなわち、テキストコンテンツ)を出力することができる。
図7は、本開示の第4の実施例による概略図であり、図7に示すように、本実施例の画像処理装置700は、
取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第1の処理ユニット701と、
フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を得るための予測ユニット702と、
予測結果に従って訓練してテキスト認識モデルを得るための訓練ユニット703であって、テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものである訓練ユニット703と、を含む。
図8は、本開示の第5の実施例による概略図であり、図8に示すように、本実施例の画像処理装置800は、
取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第1の処理ユニット801を含む。
いくつかの実施例では、前処理は、文字検出処理及び文字認識処理を含み、図8を参照して、第1の処理ユニット801は、
サンプル画像に対して文字検出処理を行い、画像ブロック、及びフィールドの位置情報を得るための第1の処理サブユニット8011であって、画像ブロックがフィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスである第1の処理サブユニット8011と、
サンプル画像に対して文字認識処理を行い、テキストコンテンツを得るための第2の処理サブユニット8012と、
フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を得るための予測ユニット802と、を含むことがわかる。
図8を参照してわかるように、いくつかの実施例では、予測結果が事前訓練モデルであり、予測ユニット802は、取得サブユニット8021と、予測サブユニット8022と、を含み、
取得サブユニット8021は、フィールドの位置情報に対応する位置的特徴を取得し、画像ブロックに対応する視覚的特徴を取得し、テキストコンテンツに対応するテキスト特徴を取得するために使用される。
いくつかの実施例では、取得サブユニット8021は、
フィールドの位置情報を第1のネットワークモデルに入力するための第1の入力モジュールと、
フィールドの位置情報に対応する位置的特徴を出力するための第1の出力モジュールと、
画像ブロックを第2のネットワークモデルに入力するための第2の入力モジュールと、
視覚的特徴を出力するための第2の出力モジュールと、
テキストコンテンツを第3のネットワークモデルに入力するための第3の入力モジュールと、
テキスト特徴を出力するための第3の出力モジュールと、を含み、
予測サブユニット8022は、フィールドの位置的特徴、視覚的特徴、及びテキスト特徴に従って、フィールドの位置的特徴に対してマスク予測を行い、事前訓練モデルを得るために使用される。
いくつかの実施例では、予測サブユニット8022は、
フィールドの一部の位置的特徴をランダムに取り除くための取り除きモジュールと、
視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴に従って、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、事前訓練モデルを得るための予測モジュールと、を含む。
いくつかの実施例では、予測モジュールは、
視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴を第4のネットワークモデルに入力するための入力サブモジュールと、
フィールドの位置的特徴のうち取り除かれた一部の位置的特徴の位置情報を出力するための出力サブモジュールと、
フィールドの位置情報、及び出力された位置情報に従って、事前訓練モデルを生成するための第2の生成サブモジュールと、を含む。
いくつかの実施例では、第2の生成サブモジュールは、フィールドの位置情報及び出力された位置情報間の損失関数を計算して、損失関数に従って前記第1のネットワークモデル、第2のネットワークモデル、第3のネットワークモデル、及び第4のネットワークモデルのそれぞれに対応するモデルパラメータを調整し、事前訓練モデルを得るためのものである。
いくつかの実施例では、第2の生成サブモジュールは、フィールドの位置情報、及び出力された位置情報間の距離損失を計算し、距離損失を損失関数として決定するためのものである。
いくつかの実施例では、フィールドの位置情報は、ピクセル座標系に基づくフィールドの検出横座標及び検出縦座標を含み、取得された位置情報は、ピクセル座標系に基づくフィールドの予測横座標及び予測縦座標を含み、第2の生成サブモジュールは、予測横座標と検出横座標との間の横座標差分情報、及び予測縦座標と検出縦座標との間の縦座標差分情報を計算して、横座標差分情報及び縦座標差分情報に従って、距離損失を決定するためのものである。
いくつかの実施例では、予測モジュールは、
視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴に従って、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴を予測して得るための予測サブモジュールと、
フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対応する位置情報を取得するための取得サブモジュールと、
フィールドの位置情報及び取得された位置情報に従って、事前訓練モデルを生成するための第1の生成サブモジュールと、を含む。
いくつかの実施例では、第1の生成サブモジュールは、フィールドの位置情報及び取得された位置情報間の損失関数を計算して、損失関数に基づいて訓練して事前訓練モデルを得るためのものであり、
訓練ユニット803は、予測結果に従って訓練してテキスト認識モデルを得るためのものであり、テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものである。
図9は、本開示の第6の実施例による概略図であり、図9に示すように、本実施例のテキスト認識方法は、以下のステップを含む。
S901では、認識対象の画像を取得する。
例示的に、本実施例の実行主体は、テキスト認識装置であってもよく、テキスト認識装置は、上記実施例で使用される画像処理装置と同じ装置であってもよいし、異なる装置であってもよく、本実施例は、それについて限定しない。
認識対象の画像を取得するステップは、以下の例を参照して実現することができる。
一例では、テキスト認識装置は、画像収集装置に接続され、画像収集装置から送信された画像を受信してもよい。
画像収集装置は、カメラなど、画像収集機能付きの装置であってもよい。
他の例では、テキスト認識装置は、画像をロードするためのツールを提供してもよく、ユーザは当該画像をロードするためのツールを使用して認識対象の画像をテキスト認識装置に伝送することができる。
画像をロードするためのツールは、外部機器に接続するためのインタフェースであってもよく、例えば、他の記憶デバイスに接続するためのインタフェースが挙げられ、当該インタフェースを介して外部機器から伝送された認識対象の画像を取得する。また、画像をロードするためのツールは、表示装置にしてもよく、例えば、テキスト認識装置により、表示装置に画像をロードする機能付きのインタフェースを入力することができ、ユーザは、当該インタフェースを介して認識対象の画像をテキスト認識装置にインポートすることができ、テキスト認識装置はインポートされた認識対象の画像を取得する。
S902では、予め訓練されたテキスト認識モデルに基づいて認識対象の画像に対してテキスト認識を行い、認識対象の画像のテキストコンテンツを得る。
テキスト認識モデルは、上記いずれか1つの実施例に記載の画像処理方法を利用して得られたものである。
図10は、本開示の第7の実施例による概略図であり、図10に示すように、本実施例のテキスト認識方法は、以下のステップを含む。
S1001では、認識対象の画像を取得する。
同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しない。
S1002では、認識対象の画像を前処理し、認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得る。
同様に、上記分析を組み合わせて分かるように、前処理は、文字検出処理及び文字認識処理を含むことができ、S1002は、以下のステップを含むことができる。
第1のステップでは、認識対象の画像に対して文字検出処理を行い、認識対象の画像内のフィールドにそれぞれ対応する画像ブロック及び位置情報を得る。
認識対象の画像内のフィールドに対応する画像ブロックは、認識対象の画像内のフィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスである。
第2のステップでは、認識対象の画像に対して文字認識処理を行い、認識対象の画像に対応するテキストコンテンツを得る。
S1003では、認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツをテキスト認識モデルに入力し、認識対象の画像のテキストコンテンツを出力する。
テキスト認識モデルは、上記いずれか1つの実施例に記載の画像処理方法を利用して得られたものである。
図11は、本開示の第8の実施例による概略図であり、図11に示すように、本実施例のテキスト認識装置1100は、
認識対象の画像を取得するための取得ユニット1101と、
予め訓練されたテキスト認識モデルに基づいて認識対象の画像に対してテキスト認識を行い、認識対象の画像のテキストコンテンツを得るための認識ユニット1102と、を含む。
テキスト認識モデルは、上記いずれか1つの実施例に記載の画像処理方法を利用して得られたものである。
図12は、本開示の第9の実施例による概略図であり、図12に示すように、本実施例のテキスト認識装置1200は、
認識対象の画像を取得するための取得ユニット1201と、
認識対象の画像を前処理し、認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第2の処理ユニット1202と、
認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツをテキスト認識モデルに入力し、認識対象の画像のテキストコンテンツを出力するための認識ユニット1203と、を含む。
テキスト認識モデルは、上記いずれか1つの実施例に記載の画像処理方法を利用して得られたものである。
図13は、本開示の第10の実施例による概略図であり、図13に示すように、本開示における電子機器1300は、プロセッサ1301とメモリ1302とを含む。
メモリ1302は、プログラムを記憶するためのものであり、メモリ1302は、ランダムアクセスメモリ(random-access memory、RAMと略称)、スタティックランダムアクセスメモリ(static random-access memory、SRAMと略称)、ダブルデータレートの同期ダイナミックランダムアクセスメモリ(Double Data Rate Synchronous Dynamic Random Access Memory、DDR SDRAMと略称)などの揮発性メモリ(volatile memory)を含んでもよいし、メモリは、フラッシュメモリ(flash memory)などの不揮発性メモリ(non-volatile memory)を含んでもよい。メモリ1302は、コンピュータプログラム(例えば、上記方法を実現するためのアプリケーションプログラムや機能モジュールなど)やコンピュータ命令などを記憶するためのものであり、上記のコンピュータプログラムやコンピュータ命令などは、領域別に1つ又は複数のメモリ1302内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ1301によって呼び出されることができる。
プロセッサ1301は、メモリ1302内に記憶されたコンピュータプログラムを実行するためのものであり、それによって上記実施例における方法の各ステップは実現される。
具体的には、前述した方法の実施例の説明を参照することができる。
プロセッサ1301とメモリ1302は独立した構造であってもよいし、集積された集積構造であってもよい。プロセッサ1301とメモリ1302は独立した構造である場合、メモリ1302とプロセッサ1301は、バス1303を介して結合されて接続されることができる。
本実施例に係る電子機器は、上記方法における技術案を実行することができ、その具体的な実現プロセス及び技術的原理が同じであるため、ここで繰り返して説明しない。
本開示に係る技術案において、関連するユーザの個人情報(顔画像など)の収集や、保存、使用、加工、伝送、提供、開示などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。
本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。
本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか1つの実施例により提供される技術案を実行する。
図14は、本開示の実施例を実施するために使用可能な例示的な電子機器1400の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実施を制限することを意図したものではない。
図14に示すように、電子機器1400は、計算ユニット1401を含み、当該計算ユニット1401は、読み取り専用メモリ(ROM)1402に記憶されたコンピュータプログラム、または、記憶ユニット1408からランダムアクセスメモリ(RAM)1403にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。RAM 1403には、さらに、電子機器1400の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット1401、ROM 1402及びRAM 1403は、バス1404を介して接続される。入力/出力(I/O)インタフェース1405も、バス1404に接続される。
キーボードやマウスなどの入力ユニット1406と、さまざまなタイプのモニタやスピーカーなどの出力ユニット1407と、磁気ディスクや光ディスクなどの記憶ユニット1408と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット1409と、を含む、電子機器1400における複数のコンポーネントは、I/Oインタフェース1405に接続される。通信ユニット1409は、電子機器1400がインターネットなどのコンピュータネットワーク及び/又はさまざまな電気通信ネットワークを介して他の機器と情報/データを交換することを可能にさせる。
計算ユニット1401は、処理能力や計算能力を有するさまざまな汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1401のいくつかの例は、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、さまざまな専用な人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット1401は、画像処理方法及びテキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、画像処理方法及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット1408などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ROM 1402及び/又は通信ユニット1409を介して電子機器1400にロード及び/又はインストールされることができる。コンピュータプログラムは、RAM 1403にロードされて計算ユニット1401により実行されると、上記に記載の画像処理方法及びテキスト認識方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット1401は、他の任意の適当な手段(例えば、ファームウェアに頼る)を用いて画像処理方法及びテキスト認識方法を実行するように構成されることができる。
本明細書において、上記に記載のシステム及び技術的さまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示に係る方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び/又はブロック図に示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。
本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、或いは、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、或いは、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末-サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPSサービス(「VirtuaL Private Server」、又は「VPS」と略称)に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (29)

  1. 画像処理方法であって、
    取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るステップと、
    前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得るステップと、
    前記予測結果に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものであるステップと、を含む画像処理方法。
  2. 前記予測結果が事前訓練モデルであり、
    前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得る前記ステップは、
    前記フィールドの位置情報に対応する位置的特徴を取得し、前記画像ブロックに対応する視覚的特徴を取得し、前記テキストコンテンツに対応するテキスト特徴を取得するステップと、
    前記フィールドの位置的特徴、前記視覚的特徴、及び前記テキスト特徴に従って、前記フィールドの位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得るステップと、を含む請求項1に記載の方法。
  3. 前記フィールドの位置的特徴、前記視覚的特徴、及び前記テキスト特徴に従って、前記フィールドの位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得る前記ステップは、
    前記フィールドの一部の位置的特徴をランダムに取り除くステップと、
    前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得るステップと、を含む請求項2に記載の方法。
  4. 前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得る前記ステップは、
    前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴を予測して得るステップと、
    前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対応する位置情報を取得するステップと、
    前記フィールドの位置情報、及び取得された位置情報に従って、前記事前訓練モデルを生成するステップと、を含む請求項3に記載の方法。
  5. 前記フィールドの位置情報、及び取得された位置情報に従って、前記事前訓練モデルを生成する前記ステップは、
    前記フィールドの位置情報、及び取得された位置情報間の損失関数を計算して、前記損失関数に基づいて訓練して前記事前訓練モデルを得るステップを含む請求項4に記載の方法。
  6. 前記フィールドの位置情報に対応する位置的特徴を取得し、前記画像ブロックに対応する視覚的特徴を取得し、前記テキストコンテンツに対応するテキスト特徴を取得する前記ステップは、
    前記フィールドの位置情報を第1のネットワークモデルに入力し、前記フィールドの位置情報に対応する位置的特徴を出力するステップと、
    前記画像ブロックを第2のネットワークモデルに入力し、前記視覚的特徴を出力するステップと、
    前記テキストコンテンツを第3のネットワークモデルに入力し、前記テキスト特徴を出力するステップと、を含む請求項3に記載の方法。
  7. 前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得る前記ステップは、
    前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴を第4のネットワークモデルに入力し、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴の位置情報を出力するステップと、
    前記フィールドの位置情報、及び出力された位置情報に従って、前記事前訓練モデルを生成するステップと、を含む請求項6に記載の方法。
  8. 前記フィールドの位置情報、及び出力された位置情報に従って、前記事前訓練モデルを生成する前記ステップは、
    前記フィールドの位置情報、及び出力された位置情報間の損失関数を計算するステップと、
    前記損失関数に従って前記第1のネットワークモデル、前記第2のネットワークモデル、前記第3のネットワークモデル、及び前記第4のネットワークモデルのそれぞれに対応するモデルパラメータを調整し、前記事前訓練モデルを得るステップと、を含む請求項7に記載の方法。
  9. 前記フィールドの位置情報、及び出力された位置情報間の損失関数を計算する前記ステップは、
    前記フィールドの位置情報、及び出力された位置情報間の距離損失を計算して、前記距離損失を前記損失関数として決定するステップを含む請求項8に記載の方法。
  10. 前記フィールドの位置情報は、ピクセル座標系に基づく前記フィールドの検出横座標及び検出縦座標を含み、出力された位置情報は、ピクセル座標系に基づく前記フィールドの予測横座標及び予測縦座標を含み、
    前記フィールドの位置情報、及び出力された位置情報間の距離損失を計算する前記ステップは、
    前記予測横座標と前記検出横座標との間の横座標差分情報、及び前記予測縦座標と前記検出縦座標との間の縦座標差分情報を計算するステップと、
    前記横座標差分情報及び前記縦座標差分情報に従って、前記距離損失を決定するステップと、を含む請求項9に記載の方法。
  11. 前記前処理は、文字検出処理及び文字認識処理を含み、
    取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得る前記ステップは、
    前記サンプル画像に対して文字検出処理を行い、前記画像ブロック、及び前記フィールドの位置情報を得るステップであって、前記画像ブロックが前記フィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスであるステップと、
    前記サンプル画像に対して文字認識処理を行い、前記テキストコンテンツを得るステップと、を含む請求項1に記載の方法。
  12. テキスト認識方法であって、
    認識対象の画像を取得するステップと、
    予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るステップと、を含み、
    前記テキスト認識モデルが請求項1~11のいずれか1項に記載の方法を利用して得られたものであるテキスト認識方法。
  13. 前記方法は、さらに、
    認識対象の画像を前処理し、前記認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るステップを含み、
    予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るステップは、前記認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを前記テキスト認識モデルに入力し、前記認識対象の画像のテキストコンテンツを出力するステップを含む請求項12に記載の方法。
  14. 画像処理装置であって、
    取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第1の処理ユニットと、
    前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得るための予測ユニットと、
    前記予測結果に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものである訓練ユニットと、を含む画像処理装置。
  15. 前記予測結果が事前訓練モデルであり、前記予測ユニットは、
    前記フィールドの位置情報に対応する位置的特徴を取得し、前記画像ブロックに対応する視覚的特徴を取得し、前記テキストコンテンツに対応するテキスト特徴を取得するための取得サブユニットと、
    前記フィールドの位置的特徴、前記視覚的特徴、及び前記テキスト特徴に従って、前記フィールドの位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得るための予測サブユニットと、を含む請求項14に記載の装置。
  16. 前記予測サブユニットは、
    前記フィールドの一部の位置的特徴をランダムに取り除くための取り除きモジュールと、
    前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得るための予測モジュールと、を含む請求項15に記載の装置。
  17. 前記予測モジュールは、
    前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴を予測して得るための予測サブモジュールと、
    前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対応する位置情報を取得するための取得サブモジュールと、
    前記フィールドの位置情報、及び取得された位置情報に従って、前記事前訓練モデルを生成するための第1の生成サブモジュールと、を含む請求項16に記載の装置。
  18. 前記第1の生成サブモジュールは、前記フィールドの位置情報、及び取得された位置情報間の損失関数を計算して、前記損失関数に基づいて訓練して前記事前訓練モデルを得るためのものである請求項17に記載の装置。
  19. 前記取得サブユニットは、
    前記フィールドの位置情報を第1のネットワークモデルに入力するための第1の入力モジュールと、
    前記フィールドの位置情報に対応する位置的特徴を出力するための第1の出力モジュールと、
    前記画像ブロックを第2のネットワークモデルに入力するための第2の入力モジュールと、
    前記視覚的特徴を出力するための第2の出力モジュールと、
    前記テキストコンテンツを第3のネットワークモデルに入力するための第3の入力モジュールと、
    前記テキスト特徴を出力するための第3の出力モジュールと、を含む請求項16に記載の装置。
  20. 前記予測モジュールは、
    前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴を第4のネットワークモデルに入力するための入力サブモジュールと、
    前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴の位置情報を出力するための出力サブモジュールと、
    前記フィールドの位置情報、及び出力された位置情報に従って、前記事前訓練モデルを生成するための第2の生成サブモジュールと、を含む請求項19に記載の装置。
  21. 前記第2の生成サブモジュールは、前記フィールドの位置情報、及び出力された位置情報間の損失関数を計算して、前記損失関数に従って前記第1のネットワークモデル、前記第2のネットワークモデル、前記第3のネットワークモデル、及び前記第4のネットワークモデルのそれぞれに対応するモデルパラメータを調整し、前記事前訓練モデルを得るためのものである請求項20に記載の装置。
  22. 前記第2の生成サブモジュールは、前記フィールドの位置情報、及び出力された位置情報間の距離損失を計算して、前記距離損失を前記損失関数として決定するためのものである請求項21に記載の装置。
  23. 前記フィールドの位置情報は、ピクセル座標系に基づく前記フィールドの検出横座標及び検出縦座標を含み、出力された位置情報は、ピクセル座標系に基づく前記フィールドの予測横座標及び予測縦座標を含み、前記第2の生成サブモジュールは、前記予測横座標と前記検出横座標との間の横座標差分情報、及び前記予測縦座標と前記検出縦座標との間の縦座標差分情報を計算して、前記横座標差分情報及び前記縦座標差分情報に従って、前記距離損失を決定するためのものである請求項22に記載の装置。
  24. 前記前処理は、文字検出処理及び文字認識処理を含み、前記第1の処理ユニットは、
    前記サンプル画像に対して文字検出処理を行い、前記画像ブロック、及び前記フィールドの位置情報を得るための第1の処理サブユニットであって、前記画像ブロックが前記フィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスである第1の処理サブユニットと、
    前記サンプル画像に対して文字認識処理を行い、前記テキストコンテンツを得るための第2の処理サブユニットと、を含む請求項14~23のいずれか1項に記載の装置。
  25. テキスト認識装置であって、
    認識対象の画像を取得するための取得ユニットと、
    予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るための認識ユニットと、を含み、
    前記テキスト認識モデルが請求項1~11のいずれか1項に記載の方法を利用して得られたものであるテキスト認識装置。
  26. 前記装置は、さらに、
    認識対象の画像を前処理し、前記認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第2の処理ユニットを含み、
    前記認識ユニットは、前記認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを前記テキスト認識モデルに入力し、前記認識対象の画像のテキストコンテンツを出力するためのものである請求項25に記載の装置。
  27. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが請求項1~11のいずれか1項に記載の方法を実行できるか、前記少なくとも1つのプロセッサが請求項12又は13に記載の方法を実行できる電子機器。
  28. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令がコンピュータに請求項1~11のいずれか1項に記載の方法を実行させるためのものであるか、前記コンピュータ命令が前記コンピュータに請求項12又は13に記載の方法を実行させるためのものである非一時的なコンピュータ可読記憶媒体。
  29. コンピュータプログラムであって、当該コンピュータプログラムがプロセッサにより実行されると、請求項1~11のいずれか1項に記載の方法は実現されるか、当該コンピュータプログラムがプロセッサにより実行されると、請求項12又は13に記載の方法は実現されるコンピュータプログラム。
JP2022152161A 2022-02-25 2022-09-26 画像処理方法、テキスト認識方法及び装置 Active JP7425147B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210182337.3A CN114550177B (zh) 2022-02-25 2022-02-25 图像处理的方法、文本识别方法及装置
CN202210182337.3 2022-02-25

Publications (2)

Publication Number Publication Date
JP2022177232A true JP2022177232A (ja) 2022-11-30
JP7425147B2 JP7425147B2 (ja) 2024-01-30

Family

ID=81679070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022152161A Active JP7425147B2 (ja) 2022-02-25 2022-09-26 画像処理方法、テキスト認識方法及び装置

Country Status (4)

Country Link
US (1) US20220415072A1 (ja)
JP (1) JP7425147B2 (ja)
KR (1) KR20220125712A (ja)
CN (1) CN114550177B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115346074B (zh) * 2022-09-02 2023-06-16 北京百度网讯科技有限公司 训练方法、图像处理方法、装置、电子设备以及存储介质
CN116052186A (zh) * 2023-01-30 2023-05-02 无锡容智技术有限公司 多模态发票自动分类识别方法、校验方法及系统
CN116152577B (zh) * 2023-04-19 2023-08-29 深圳须弥云图空间科技有限公司 图像分类方法及装置
CN116188632A (zh) * 2023-04-24 2023-05-30 之江实验室 一种图像的生成方法、装置、存储介质及电子设备
CN116597454A (zh) * 2023-05-24 2023-08-15 北京百度网讯科技有限公司 图像处理方法、图像处理模型的训练方法和装置
CN117292384A (zh) * 2023-08-30 2023-12-26 北京瑞莱智慧科技有限公司 文字识别方法、相关装置及存储介质
CN116912856A (zh) * 2023-09-14 2023-10-20 深圳市贝铂智能科技有限公司 一种智能扫描笔的图像识别方法、装置以及智能扫描笔

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919014B (zh) * 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110874618B (zh) * 2020-01-19 2020-11-27 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
JP2021149452A (ja) 2020-03-18 2021-09-27 株式会社Pfu 画像処理装置、制御方法及び制御プログラム
CN111832292B (zh) * 2020-06-03 2024-02-02 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN113704460B (zh) 2021-03-25 2024-05-17 腾讯科技(深圳)有限公司 一种文本分类方法、装置、电子设备和存储介质
CN113435529B (zh) * 2021-07-06 2023-11-07 北京百度网讯科技有限公司 模型预训练方法、模型训练方法及图像处理方法
CN113657395B (zh) * 2021-08-17 2024-02-13 北京百度网讯科技有限公司 文本识别方法、视觉特征提取模型的训练方法及装置
CN113705733A (zh) 2021-09-29 2021-11-26 平安医疗健康管理股份有限公司 医疗票据图像处理方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
US20220415072A1 (en) 2022-12-29
CN114550177A (zh) 2022-05-27
JP7425147B2 (ja) 2024-01-30
KR20220125712A (ko) 2022-09-14
CN114550177B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
JP7425147B2 (ja) 画像処理方法、テキスト認識方法及び装置
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR20220122566A (ko) 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN113177472A (zh) 动态手势识别方法、装置、设备以及存储介质
US20230143452A1 (en) Method and apparatus for generating image, electronic device and storage medium
CN113239807B (zh) 训练票据识别模型和票据识别的方法和装置
US20230067934A1 (en) Action Recognition Method, Apparatus and Device, Storage Medium and Computer Program Product
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
CN113762109B (zh) 一种文字定位模型的训练方法及文字定位方法
CN114299366A (zh) 一种图像检测方法、装置、电子设备及存储介质
CN113379877A (zh) 人脸视频生成方法、装置、电子设备及存储介质
CN115565186B (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
US20230115765A1 (en) Method and apparatus of transferring image, and method and apparatus of training image transfer model
US20230027813A1 (en) Object detecting method, electronic device and storage medium
CN112560848B (zh) 兴趣点poi预训练模型的训练方法、装置及电子设备
CN113191364B (zh) 车辆外观部件识别方法、装置、电子设备和介质
CN114863450A (zh) 图像处理方法、装置、电子设备及存储介质
CN111144374B (zh) 人脸表情识别方法及装置、存储介质和电子设备
CN114120305A (zh) 文本分类模型的训练方法、文本内容的识别方法及装置
CN113971830A (zh) 一种人脸识别方法、装置、存储介质及电子设备
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240118

R150 Certificate of patent or registration of utility model

Ref document number: 7425147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150