JP2023541527A - テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 - Google Patents

テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 Download PDF

Info

Publication number
JP2023541527A
JP2023541527A JP2023508611A JP2023508611A JP2023541527A JP 2023541527 A JP2023541527 A JP 2023541527A JP 2023508611 A JP2023508611 A JP 2023508611A JP 2023508611 A JP2023508611 A JP 2023508611A JP 2023541527 A JP2023541527 A JP 2023541527A
Authority
JP
Japan
Prior art keywords
network
sample data
prediction
deep learning
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023508611A
Other languages
English (en)
Inventor
森 範
暁燕 王
鵬原 呂
成全 章
コン 姚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023541527A publication Critical patent/JP2023541527A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本開示は、テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法を提供し、人工知能技術分野に関し、具体的にコンピュータビジョン及び深層学習技術分野に関し、OCR光学文字認識等のシナリオに適用できる。テキスト検出に用いる深層学習モデルトレーニング方法を提供する。単一文字分割サブネットワークが出力した単一文字分割予測結果、テキスト行分割サブネットワークが出力したテキスト行分割予測結果、トレーニングされた深層学習モデルはテキスト領域の検出に用いることができ、単一文字分割及びテキスト行分割の予測を同時に実現することができる。これにより、2種類のテキスト分割方式を組み合わせて、テキスト検出を行うことができ、テキスト領域検出の正確性をより高めることができる。【選択図】図1

Description

関連出願の相互参照
本発明は、2021年8月13日に中国国家知的財産権局に提出した、出願番号が202110932789.4.Xであり、発明名称が「テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法」である中国特許出願に基づき優先権を主張する。ここで、その全ての内容は、援用により本発明に組み込まれる。
本開示は、人工知能技術分野に関し、具体的にコンピュータビジョン及び深層学習技術分野に関し、特にテキスト検出に用いる深層学習モデルトレーニング方法、テキスト検出方法、装置、デバイス及び記憶媒体に関する。
深層学習技術の発展に伴い、深層学習モデルに基づくテキスト検出は、例えば旅行時の即時翻訳、紙文書の電子化、看板の認識、グラフィック及び文字の審査等の、産業界及び学術界に広く応用されているが、画像におけるテキストの検出を実現するためには、まず画像におけるテキスト領域を確定する必要がある。
本開示は、テキスト検出に用いる深層学習モデルトレーニング方法、テキスト検出方法、装置、デバイス及び記憶媒体を提供する。
本開示の第1態様によれば、テキスト検出に用いる深層学習モデルトレーニング方法を提供する。前記方法は、トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含むことと、第1類サンプルデータ及び現在選択されている第1類サンプルデータのタグデータを選択することと、現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第1文字数予測値と、テキスト行分割予測結果と、第2文字数予測値とを含むことと、現在選択されている第1類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得することとを含む。
本開示の第2態様によれば、テキスト検出方法を提供する。前記方法は、検出しようとするデータを取得することと、前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法に基づいてトレーニングされたものであることと、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することとを含む。
本開示の第3態様によれば、テキスト検出に用いる深層学習モデルトレーニング装置を提供する。前記装置は、トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含む、深層学習モデル取得モジュールと、第1類サンプルデータ及び現在選択されている第1類サンプルデータのタグデータを選択する、第1類サンプルデータ選択モジュールと、現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第1文字数予測値と、テキスト行分割予測結果と、第2文字数予測値とを含む、予測結果確定モジュールと、現在選択されている第1類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得する、トレーニングパラメータ調整モジュールと、を含む。
本開示の第4態様によれば、テキスト検出装置を提供する。前記装置は、検出しようとするデータを取得する、検出しようとするデータ取得モジュールと、前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング装置に基づいてトレーニングされたものである、予測結果確定モジュールと、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する、テキスト領域確定モジュールと、を含む。
本開示の第5態様によれば、電子デバイスを提供する。前記電子デバイスは、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続するメモリとを含む、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行され、前記少なくとも1つのプロセッサを本発明のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実行可能にする。
本開示の第6態様によれば、コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体を提供する。前記コンピュータ命令は、前記コンピュータに本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実行させる。
本開示の第7態様によれば、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、プロセッサによって実行されると本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実現する、コンピュータプログラムを含む。
本開示の実施例では、テキスト検出に用いる深層学習モデルトレーニング方法を提供し、トレーニングされた深層学習モデルはテキスト領域の検出に用いることができ、単一文字分割及びテキスト行分割の予測を同時に実現することができる。これにより、2種類のテキスト分割方式を組み合わせて、テキスト検出を行うことができ、テキスト領域検出の正確性をより高めることができる。この部分で説明された内容は、本開示の実施形態における大切なまたは重要な特徴を表すことを意図するものではなく、本開示の範囲を制限しないことが理解される。本開示の他の特徴は、以下の明細書によって理解しやすくになる。
本発明の実施例及び従来技術の技術案をより明確に説明するために、以下、実施例及び従来技術に必要な図面を簡単に説明するが、以下に説明される図面は単に本発明の実施例の一部であり、当業者であれば、創造的な働きをせずに、これらの図面に基づいて他の実施例が得られることが明らかである。
図1は本開示の実施例に係るテキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法の模式図である。 図2は本開示の実施例におけるステップS13の一可能な実施形態の模式図である。 図3は本開示の実施例における教師ありトレーニングのプロセスの模式図である。 図4は本開示の実施例における教師なしトレーニングのプロセスの模式図である。 図5は本開示の実施例におけるテキスト検出方法の模式図である。 図6は本開示の実施例におけるステップS53の一可能な実施形態の模式図である。 図7は本開示の実施例に係るテキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出装置の模式図である。 図8は本開示の実施例を実現する電子デバイスのブロック図である。
本発明の目的、技術案、及び利点をより明確にするために、以下、図面を参照し、実施例を挙げて、本発明をより詳しく説明する。説明される実施例は単に本発明の一部の実施例に過ぎず、全ての実施例ではないことは明らかである。本発明における実施例に基づいて、当業者が創造的な働きをせずに得られるすべての他の実施例は、いずれも本発明の保護範囲に含まれる。
画像におけるテキストに対する検出を実現するには、まず、画像におけるテキスト領域を確定する必要がある。これに鑑みて、本開示の実施例は、テキスト検出に用いる深層学習モデルトレーニング方法を提供する。図1を参照して、前記方法は以下のステップを含む。
S11、トレーニングしようとする深層学習モデルを取得し、深層学習モデルは、単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含む。
本開示の実施例におけるテキスト検出に用いる深層学習モデルトレーニング方法は、電子デバイスによって実現することができ、この電子デバイスは、具体的に、スマートフォン、パーソナルコンピュータまたはサーバーなどであってよい。
トレーニングしようとする深層学習モデルは、単一文字予測ネットワークとテキスト行予測ネットワークとを含み、単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含む。単一文字分割サブネットワークは、単一文字分割結果を予測する、即ち画像における各単一文字の領域を予測することに用いられる。テキスト行分割サブネットワークは、テキスト行分割結果を予測する、即ち画像における各テキスト行の領域を予測することに用いられる。文字数予測サブネットワーク及び第2文字数予測サブネットワークは、いずれも文字数の値を予測する、即ち画像にいくつかの文字があるかを予測することに用いられる。
単一文字分割サブネットワーク、第1文字数予測サブネットワーク、テキスト行分割サブネットワーク及び第2文字数予測サブネットワークの具体的なネットワーク構造は実際の状況に応じてカスタマイズで設定されてよく、一例において、単一文字分割サブネットワークは複数の畳み込み層を含んでよく、分類器等をさらに含んでよい。第1文字数予測サブネットワークは、複数の畳み込み層及び全結合層を含んでよい。テキスト行分割サブネットワークは、複数の畳み込み層を含んでよく、分類器等をさらに含んでよい。第2文字数予測サブネットワークは、複数の畳み込み層及び全結合層を含んでよい。
S12、第1類サンプルデータ及び現在選択されている第1類サンプルデータのタグデータを選択する。
一例において、現在選択されている第1類サンプルデータとして、複数の第1類サンプルデータを含むサンプル集合から、選択されなかった第1類サンプルデータを選択してよい。第1類サンプルデータは、具体的に画像であってよい。第1類サンプルデータは、タグデータを備え、第1類サンプルデータのタグデータは、この第1類サンプルデータの文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも1つを含む。第1類サンプルデータのタグデータは、人工的注釈等の方式によって得られる。
S13、現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第1文字数予測値と、テキスト行分割予測結果と、第2文字数予測値とを含む。
現在選択されている第1類サンプルデータを深層学習モデルに入力し、深層学習モデルにおける単一文字分割サブネットワークは、対応する単一文字分割予測結果を出力し、第1文字数予測サブネットワークは、対応する第1文字数予測値を出力し、テキスト行分割サブネットワークは、対応するテキスト行分割予測結果を出力し、第2文字数予測サブネットワークは、対応する第2文字数予測値を出力する。一例において、深層学習モデルにおける各サブネットワークは、いずれも単独の特徴抽出ネットワークに対応してよく、第1類サンプルデータは、まず各特徴抽出ネットワークに入力され、特徴を抽出した後、対応するサブネットワークに入力される。一例において、各サブネットワークは、1つの特徴抽出ネットワークを共有してよい。一例において、一部のサブネットワークが特徴抽出ネットワークに対応し、一部のサブネットワークが単独の特徴抽出ネットワークに対応してよい。上記した例は、いずれも本発明の保護範囲にある。
S14、現在選択されている第1類サンプルデータの前記予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得する。
一例において、第1類サンプルデータ予測結果及びタグデータにおける真値に基づいて、各ネットワークの損失を計算し、ネットワークの損失によって、このネットワークのトレーニングパラメータを調整することにより、深層学習モデルのトレーニングパラメータの調整を実現することができる。
例えば、現在選択されている第1類サンプルデータの単一文字分割予測結果及び単一文字分割の真値結果によって、第1損失を計算し、第1損失によって、単一文字分割サブネットワークのトレーニングパラメータを調整する。例えば、現在選択されている第1類サンプルデータの第1文字数予測値及び文字数の真値によって、第2損失を計算し、第2損失によって、第1文字数予測サブネットワークのトレーニングパラメータを調整する。例えば、現在選択されている第1類サンプルデータのテキスト行分割予測結果及びテキスト行分割の真値結果によって、第3損失を計算し、第3損失によって、テキスト行分割サブネットワークのトレーニングパラメータを調整する。例えば、根据現在選択されている第1類サンプルデータの第2文字数予測値及び文字数の真値によって、第4損失を計算し、第4損失によって、第2文字数予測サブネットワークのトレーニングパラメータを調整する。
損失によってトレーニングパラメータを調整する方法は、従来技術におけるトレーニングパラメータ調整方法を参照してよい。一例において、損失によってSGD(Stochastic Gradient Descent、確率的勾配降下)アルゴリズムに応じてネットワークのトレーニングパラメータに対して調整を行ってよい。
1回トレーニングした後、プリセットされたトレーニング終了条件を満たすまで、第1類サンプルデータを選択し、深層学習モデルに対してトレーニングを行い続き、トレーニングされた深層学習モデルを取得する。プリセットされたトレーニング終了条件は実際の状況に応じてカスタマイズで設定されてよく、例えば、深層学習モデルの損失が収束すること、または予測されたトレーニング回数になること等である。プリセットされたトレーニング終了条件を満たす場合、トレーニングを停止し、トレーニングされた深層学習モデルを取得する。
本開示の実施例において、テキスト検出に用いる深層学習モデルトレーニング方法を提供し、トレーニングされた深層学習モデルはテキスト領域の検出に用いることができ、単一文字分割及びテキスト行分割の予測を同時に実現することができる。これにより、2種類のテキスト分割方式を組み合わせて、テキスト検出を行うことができ、テキスト領域検出の正確性をより高めることができる。
一可能な実施形態において、前記深層学習モデルは、符号器ネットワークと、第1復号器ネットワークと、第2復号器ネットワークとをさらに含む。図2を参照して、前記現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得することは、以下のステップを含む。
S21、前記符号器ネットワークにより現在選択されている第1類サンプルデータに対して特徴抽出を行い、大域特徴を取得する。
一例において、符号器ネットワークは、軽量なMobile-v3ネットワークであってよく、Unetネットワークを組み合わせて、入力された画像データに対して大域特徴抽出を行い、大域特徴を取得する。
S22、前記第1復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第1高次特徴を取得する。
一例において、第1復号器ネットワークは、符号器ネットワークの大域特徴に対してさらに特徴抽出を行うための、複数層の完全畳み込みネットワークを含んでよく、得られた画像特徴を第1高次特徴と称される。ここで、高次特徴とは、意味情報が豊富で目標位置が大まかな画像特徴である。
S23、前記第2復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第2高次特徴を取得する。
一例において、第2復号器ネットワークは、符号器ネットワークの大域特徴に対してさらに高次特徴抽出を行うための、複数層の完全畳み込みネットワークを含んでよい。
S24、前記単一文字分割サブネットワークにより前記第1高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第1文字数予測サブネットワークにより前記第1高次特徴に対して処理を行い、第1文字数予測値を取得する。
一例において、第1復号器ネットワークが出力した第1高次特徴は、単一文字分割サブネットワークにおける複数の畳み込み層を介して、単一文字の前景および背景を分類する特徴図を取得した後、単一文字分割サブネットワークにおけるフィルタの畳み込み層を介して、前景と背景との分割を表示する単一な輸出図を取得し、前景が1であり、背景が0である単一文字分割予測結果を取得する。第1復号器ネットワークが出力した第1高次特徴は、第1文字数予測サブネットワークにおける複数の畳み込み層を介して、さらに特徴抽出を行ってから、第1文字数予測サブネットワークの全結合層を介して、文字数予測タスクを分類タスクとして予測し、第1文字数予測値を取得する。一例において、全結合層の出力結果は1000類であり、0~999個の文字数に対応してよい。
S25、前記テキスト行分割サブネットワークにより前記第2高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第2文字数予測サブネットワークにより前記第2高次特徴に対して処理を行い、第2文字数予測値を取得する。
一例において、第2復号器ネットワークが出力した第2高次特徴は、テキスト行分割サブネットワークにおける複数の畳み込み層を介して、テキスト行の前景および背景を分類する特徴図を取得した後、テキスト行分割サブネットワークにおけるフィルタの畳み込み層を介して、前景と背景との分割を表示する単一な輸出図を取得し、前景が1であり、背景が0であるテキスト行分割予測結果を取得する。第2復号器ネットワークが出力した第2高次特徴は、第2文字数予測サブネットワークにおける複数の畳み込み層を介して、さらに特徴抽出を行ってから、第2文字数予測サブネットワークの全結合層を介して、文字数予測タスクを分類タスクとして予測し、第2文字数予測値を取得する。一例において、全結合層の出力結果は1000個の類別であり、0~999個の文字数に対応してよい。
本開示の実施形態において、第1復号器ネットワークが抽出した第1高次特徴は、単一文字予測ネットワークの予測に用いられ、第2復号器ネットワークが抽出した第2高次特徴は、テキスト行予測ネットワークの予測に用いられ、第1復号器ネットワークのトレーニングパラメータと第2復号器ネットワークのトレーニングパラメータとはそれぞれ調整されてよく、単一文字予測ネットワークとテキスト行予測ネットワークとが入力したデータのデカップリングを実現でき、単一文字予測ネットワークとテキスト行予測ネットワークとを認識する正確率を向上できることにより、最終的にテキスト領域の検出及び文字数の予測の正確率を向上できる。
一可能な実施形態において、前記第1類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも1つを含み、前記現在選択されている第1類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整するステップは、以下のステップのうち少なくとも1つを含む。
ステップ1、現在選択されている第1類サンプルデータの単一文字分割予測結果及び現在選択されている第1類サンプルデータの単一文字分割の真値結果によって、第1損失を計算し、前記第1損失によって、前記符号器ネットワーク、第1復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する。
ステップ2、現在選択されている第1類サンプルデータの第1文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第2損失を計算し、前記第2損失によって、前記符号器ネットワーク、第1復号器ネットワーク、第1文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する。
ステップ3、現在選択されている第1類サンプルデータのテキスト行分割予測結果及び現在選択されている第1類サンプルデータのテキスト行分割の真値結果によって、第3損失を計算し、前記第3損失によって、前記符号器ネットワーク、第2復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する。
ステップ4、現在選択されている第1類サンプルデータの第2文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第4損失を計算し、前記第4損失によって、前記符号器ネットワーク、第2復号器ネットワーク、第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する。
一例において、第1損失及び第3損失は、交差エントロピー損失であってよく、例えば、二元交差エントロピー損失であってよい。一例において、文字数予測値を類別としてよい。例えば、それぞれ0~999個の文字数に対応する、1000個の類別を設定してよい。この場合、第2損失及び第4損失も交差エントロピー損失として設定されてよい。
本開示の実施形態では、各ネットワークのトレーニングパラメータの調整方法を提供する。複数の損失により各ネットワークのトレーニングパラメータの調整を実現することで、各ネットワークの予測の正確性を向上できる。
一可能な実施形態において、前記方法は、さらに、以下のステップを含む。
ステップA、複数の第1類サンプルデータの第1文字数予測値及び第2文字数予測値に基づいて、第1文字数予測値と第2文字数予測値との相対エントロピーを確定し、第1相対エントロピーを取得する。
ステップB、前記第1相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する。
本開示の実施例において、第1文字数予測サブネットワークと第2文字数予測サブネットワークとを用いて、DML(Deep Mutual Learning、深層相互学習)を行い、KL発散(Kullback-Leibler Divergence、相対エントロピー)を用いて、この2つのサブネットワークの予測が一致するかを評価し、続いて両者の一致する程度を制約することを目標としてトレーニングを行うように設計されている。これは、第1文字数予測サブネットワークの入力特徴のトレーニングに単一文字位置教師情報があるため、単一文字数をより正確に予測できるからである。2つの文字数予測サブネットワークを相互学習させて、第2文字数予測サブネットワーク予測結果及び第1文字数予測サブネットワーク予測結果を可能な限り一致させることができる。これにより、第2文字数予測サブネットワークに、第1文字数予測サブネットワークの知識を学習させる。また、第1文字数予測サブネットワーク及び第2文字数予測サブネットワークは、異なる初期条件からトレーニングし始め、また異なる入力特徴を備えるため、それらは同じタグを備えるが、それらの次の最も可能な類別の確率に対する推定が異なる。深層相互学習は、情報を学習して、トレーニングに追加の知識を提供することにより、深層学習モジュールの予測の精度、即ちテキスト検出の正確性をさらに向上させることができる。
一可能な実施形態において、前記トレーニングされた深層学習モデルを取得することは、
プリセットされたトレーニング終了条件を満たすまで、第1類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することを含む。
教師ありトレーニングは、上記実施例における、第1類サンプルデータにより深層学習モデルに対してトレーニングするプロセスである。一例において、教師ありトレーニングのプロセスは、図3に示すように、各batch(バッチ)のサンプルデータは3つの部分からなり、例えば、1つのbatchのサンプルデータのディメンションは(3*B,3,512,512)であってよく、3*B枚の幅かける高さが512x512であるRGB(画像フォーマットの1つ)画像を表し、前B枚の画像に単一注釈データ(文字数の真値、単一文字分割真値を含む)結果が注釈されてよく、中間B枚の画像にテキスト行注釈データ(文字数の真値、テキスト行分割真値の結果を含む)が注釈され、最後B枚の画像は規格に合わないテキスト行注釈データである。ここで、3*B枚はモデルトレーニングのハイパーパラメータであり、通常、計算リソースによって決定されるものである。1batchのサンプルデータがencoder(符号器ネットワーク)を流れた後、対応する大域特徴を取得した。次に、大域特徴が同時にDecoderA(復号器Aである第1復号器ネットワーク)及びDecoderB(復号器Bである第2復号器ネットワーク)により、対応する特徴FA(第1高次特徴)及びFB(第2高次特徴)を取得した。特徴FAが、さらに単一文字予測ネットワークにより、単一文字分割及び総文字数の予測を行うことにより、単一文字分割予測結果と第1文字数予測値とを取得し、特徴FBが、テキスト行予測ネットワークにより、テキスト行分割及び総文字数の予測を行うことにより、テキスト行分割予測結果と第2文字数予測値とを取得した。ここで、cross-entropyは、交差エントロピー損失を表し、Binary cross-entropyは、二元交差エントロピー損失を表す。KL-lossは、KL発散損失を表す。
教師ありトレーニングの場合、深層学習モデルが第1トレーニング条件を満たすと、教師なしトレーニング及び教師ありトレーニングを加えて、同時に行う。一例において、教師ありトレーニングのプロセスは、図4に示すように、注釈されていないサンプルのデータ拡張の前後の予測を同じように制約することで、モデルのオーバーフィットの問題を緩和することができる。関連するテキスト検出技術において、文字数量の予測に関しないため、通常に使用されるデータ拡張手法はクロップ等を含むが、本開示の実施例では文字数に対する予測を行う必要があるため、本開示の実施例において、ファジー、回転、反転、スタイル化等の文字数を変えないデータ拡張手法が用いられる。
教師なしトレーニングの段階において、各batchのサンプルデータは、2つの部分からなり、仮に、1つのbatchのサンプルデータのディメンションは(2*N,3,512,512)である場合、2*N枚の幅かける高さが512x512であるRGB画像を表し、前のN枚の画像は任意なサンプル画像であり、後N枚の画像は前N枚に対応する拡張データであり、拡張方法は、例えばファジー、回転、反転、スタイル化のうち少なくとも1種を含む。各batchのサンプルデータが符号器ネットワークを通った後、注釈されていないデータ(第2サンプルデータに相当)に対応する大域特徴が復号器Aに入力され、さらに、第1文字数予測サブネットワークを介し、非拡張サンプルデータの文字数予測値(第3文字数予測値に相当)を取得する。注釈されていない拡張データ(第3サンプルデータに相当)に対応する大域特徴が復号器Bに入力され、さらに、第2文字数予測サブネットワークを介し、拡張サンプルデータの文字数予測値(第4文字数予測値に相当)を取得する。第3文字数予測値及び第4文字数予測値に基づいて、KL発散を用いて、第1文字数予測サブネットワークと第2文字数予測サブネットワークとの一貫性学習を行う。ここで、教師なしトレーニングのプロセスに、単一文字分割サブネットワーク及びテキスト行分割サブネットワークに対するトレーニングを行わない。ここで、KL-lossは、KL発散損失を表す。
第1トレーニング条件は実際の状況に応じて設定されてよく、例えば、トレーニング回数がプリセットされた第1トレーニング回数になること、または深層学習モデルの収束程度が第1収束程度になること等である。プリセットされたトレーニング終了条件は実際の状況に応じて設定されてよく、例えば、トレーニング回数がプリセットされた第2トレーニング回数になること、または深層学習モデルの収束程度が第2収束になること等である。ここで、プリセットされた第1トレーニング回数は、プリセットされた第2トレーニング回数より小さく、第1収束程度の収束範囲は、第2収束程度の収束範囲より広い。
以下、教師なしトレーニングプロセスについて例示的に説明する。一可能な実施形態において、前記第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行うことは、以下のステップを含む。
ステップA、複数の第2類サンプルデータを取得する。
ステップB、各前記第2類サンプルデータに対してデータ拡張を行い、各前記第2類サンプルデータに対応する第3類サンプルデータを取得する。
ステップC、各前記第2類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第1文字数予測サブネットワークが出力した各前記第2類サンプルデータの第3文字数予測値を取得する。
ステップD、各前記第3類サンプルデータをトレーニングされた深層学習モデル入力し、前記第2文字数予測サブネットワークが出力した各前記第3類サンプルデータの第4文字数予測値を取得する。
ステップE、各前記第2類サンプルデータの第3文字数予測値及び各前記第3類サンプルデータの第4文字数予測値に基づいて、第3文字数予測値と第4文字数予測値との相対エントロピーを確定し、第2相対エントロピーを取得する。
ステップF、前記第2相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する。
本開示の実施形態において、教師ありトレーニング及び教師なしトレーニングの2種類の方式により、深層学習モデルに対してトレーニングを行い、異なるデータについて異なる学習タスクの組み合わせを行い、トレーニングロジックは簡単である。教師なしトレーニングプロセスでは、大量の注釈されていないサンプルデータを十分利用して、一貫性学習を行うことで、モデルのオーバーフィットの状況を減らすことができ、注釈されていないサンプルデータを利用して、モデルに対してトレーニングを行うことで、最終的なテキスト検出精度を保証する前提で、サンプルデータ注釈の作業量を減らすことができ、データが少ないシナリオの注釈に適用できる。
本開示の実施例は、さらに、テキスト検出方法を提供する。前記方法は、図5を参照して、以下のステップを含む。
S51、検出しようとするデータを取得する。検出しようとするデータは、任意の文字を含む画像データであってよい。
S52、前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得する。
ここで、前記深層学習モデルのトレーニングプロセスは、上記実施例におけるテキスト検出に用いる深層学習モデルトレーニング方法を参照してよく、前記深層学習モデルの構造は、上記実施例における深層学習モデルの構造を参照してよいため、ここで繰り返し説明しない。
一可能な実施形態において、前記深層学習モデルは、第1文字数予測サブネットワークと第2文字数予測サブネットワークとを除去した深層学習モデルである。テキスト検出段階において、上記実施例における深層学習モデルの構造から、深層学習モデルにおける第1文字数予測サブネットワークと第2文字数予測サブネットワークとを除去してよい。これにより、深層学習モデルのデータ量を減らし、第1文字数予測サブネットワーク及び第2文字数予測サブネットワークの実行リソースを節約することができる。
S53、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する。
単一文字分割予測結果及びテキスト行分割予測結果に基づいて、テキスト領域に対して論理和を取って、その繋がる領域の周辺輪郭を最終的に検出されたテキスト領域の輪郭とする。
本開示の実施形態では、テキスト検出を実現する。深層学習モデルにより単一文字分割及びテキスト行分割の予測を同時に実現し、2種類のテキスト分割方式を組み合わせて、テキスト検出を行い、テキスト領域検出の正確性を高めることができる。
一可能な実施形態において、図6を参照して、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することは、以下のステップを含む。
S61、前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第1二値画像を取得する。
S62、前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第2二値画像を取得する。
S63、前記第1二値画像における第1数値の領域と前記第2二値画像における第1数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得する。
第1二値画像における第1数値の領域と第2二値画像における第1数値の領域との和集合を取って、和集合における繋がる領域の周辺輪郭を最終的に検出されたテキスト領域の輪郭とする。
本開示の実施形態では、テキスト検出を提供する。二値画像の方式により、単一文字分割とテキスト行分割との統合を正確的に且つ効率的に実現し、テキスト領域の検出效率を高め、テキスト検出領域の正確性を向上する。
本開示の実施例は、さらに、テキスト検出に用いる深層学習モデルトレーニング装置を提供する。前記装置は、図7を参照して、トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含む、深層学習モデル取得モジュール701と、第1類サンプルデータ及び現在選択されている第1類サンプルデータのタグデータを選択する、第1類サンプルデータ選択モジュール702と、現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第1文字数予測値と、テキスト行分割予測結果と、第2文字数予測値とを含む、予測結果確定モジュール703と、現在選択されている第1類サンプルデータ予測結果及びタグデータによって、トレーニングされた深層学習モデルを取得する、トレーニングパラメータ調整モジュール704と、を含む。
一可能な実施形態において、前記深層学習モデルは、符号器ネットワークと、第1復号器ネットワークと、第2復号器ネットワークとをさらに含み、前記予測結果確定モジュールは、前記符号器ネットワークにより現在選択されている第1類サンプルデータに対して特徴抽出を行い、大域特徴を取得する、大域特徴抽出サブモジュールと、前記第1復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第1高次特徴を取得する、第1高次特徴抽出サブモジュールと、前記第2復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第2高次特徴を取得する、第2高次特徴抽出サブモジュールと、前記単一文字分割サブネットワークにより前記第1高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第1文字数予測サブネットワークにより前記第1高次特徴に対して処理を行い、第1文字数予測値を取得する、第1予測サブモジュールと、前記テキスト行分割サブネットワークにより前記第2高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第2文字数予測サブネットワークにより前記第2高次特徴に対して処理を行い、第2文字数予測値を取得する、第2予測サブモジュールと、を含む。
一可能な実施形態において、前記第1類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも1つを含み、前記トレーニングパラメータ調整モジュールは、
現在選択されている第1類サンプルデータの単一文字分割予測結果及び現在選択されている第1類サンプルデータの単一文字分割の真値結果によって、第1損失を計算し、前記第1損失によって、前記符号器ネットワーク、第1復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータの第1文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第2損失を計算し、前記第2損失によって、前記符号器ネットワーク、第1復号器ネットワーク、第1文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータのテキスト行分割予測結果及び現在選択されている第1類サンプルデータのテキスト行分割の真値結果によって、第3損失を計算し、前記第3損失によって、前記符号器ネットワーク、第2復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第1類サンプルデータの第2文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第4損失を計算し、前記第4損失によって、前記符号器ネットワーク、第2復号器ネットワーク、第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも1つを実行することに用いられる。
一可能な実施形態において、前記装置は、複数の第1類サンプルデータの第1文字数予測値及び第2文字数予測値に基づいて、第1文字数予測値と第2文字数予測値との相対エントロピーを確定し、第1相対エントロピーを取得し、前記第1相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する、相互学習モジュールをさらに含む。
一可能な実施形態において、前記深層学習モデルトレーニングモジュールは、具体的に、プリセットされたトレーニング終了条件を満たすまで、第1類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することに用いられる。
一可能な実施形態において、前記深層学習モデルトレーニングモジュールは、具体的に、複数の第2類サンプルデータを取得し、各前記第2類サンプルデータに対してデータ拡張を行い、各前記第2類サンプルデータに対応する第3類サンプルデータを取得し、各前記第2類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第1文字数予測サブネットワークが出力した各前記第2類サンプルデータの第3文字数予測値を取得し、各前記第3類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第2文字数予測サブネットワークが出力した各前記第3類サンプルデータの第4文字数予測値を取得し、各前記第2類サンプルデータの第3文字数予測値及び各前記第3類サンプルデータの第4文字数予測値に基づいて、第3文字数予測値と第4文字数予測値との相対エントロピーを確定し、第2相対エントロピーを取得し、前記第2相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する、ことに用いられる。
本開示の実施例は、さらに、検出しようとするデータを取得する、検出しようとするデータ取得モジュールと、前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング装置に基づいてトレーニングされたものである、予測結果確定モジュールと、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する、テキスト領域確定モジュールと、を含む、テキスト検出装置を提供する。
一可能な実施形態において、前記テキスト領域確定モジュールは、具体的に、前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第1二値画像を取得し、前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第2二値画像を取得し、前記第1二値画像における第1数値の領域と前記第2二値画像における第1数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得する、ことに用いられる。
一可能な実施形態において、前記深層学習モデルは、第1文字数予測サブネットワークと第2文字数予測サブネットワークとを除去した深層学習モデルである。
本開示の技術案において、関連するユーザーの個人情報の収集、格納及び利用等は、いずれも関連する法律及び規則の規定を満たし、公序良俗に違反しない。
本開示の実施例によれば、本開示は、さらに、電子デバイス、可読記憶媒体及びコンピュータプログラム製品を提供する。
電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続するメモリとを含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行され、前記少なくとも1つのプロセッサを本発明のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実行可能にする。
コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体は、コンピュータ命令は、前記コンピュータに本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実行させる。
コンピュータプログラム製品は、プロセッサによって実行されると本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実現する、コンピュータプログラムを含む。
図8は、本開示の実施例を実施するための例示の電子デバイス800の模式的なブロック図を示す。電子デバイスとしては、例えば、ラップトップパソコン、デスクトップパソコン、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、及び他の適当なコンピュータなど、様々な形態のデジタルコンピューターである。電子デバイスとしては、さらに、例えば、パーソナルデジタルアシスタント、セルフォン、スマートフォン、ウェアラブル機器、及び他の類似の計算装置など、様々な形態のモバイル装置である。本明細書に記載のコンポーネント、その接続関係、及びその機能は例示的なものに過ぎず、本開示の実施に関して本明細書に記載及び/又は主張された内容に限定するものではない。
図8に示すように、デバイス800は、リードオンリーメモリ(ROM)802に記憶されているコンピュータプログラム、又は記憶手段808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムによって、各種の適当な動作や処理を実行する、計算手段801を含む。RAM 803には、さらに、デバイス800を操作するための各種のプログラムやデータが記憶されていることもできる。計算手段801、ROM 802及びRAM 803は、それぞれバス804によって接続される。入力/出力(I/O)インターフェース805も、バス804に接続される。
デバイス800における複数のコンポーネントは、I/Oインターフェース805に接続されている。前記コンポーネントは、キーボード、マウス等の入力手段806と、各種の型のディスプレイ、スピーカー等の出力手段807と、ディスク、光ディスク等の記憶手段808と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段809と、を含む。通信手段809によって、デバイス800は、例えばインターネット等のコンピューターネットワーク、及び/又は各種の通信ネットワークを介して、他のデバイスと情報/データを交換することが可能である。
計算手段801は、処理及び計算能力を有する、各種の汎用な及び/又は専用な処理コンポーネントであってよい。計算手段801のいくつかの例示は、中央処理ユニット(CPU)、画像処理ユニット(GPU)、各種の専用な人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する各種の演算ユニット、デジタルシグナルプロセッサー(DSP)、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含むが、これに限定されない。計算手段801は、以上説明される方法及び処理を実行する。例えば、いくつかの実施例において、本開示における方法は、例えば記憶手段808という機械可読媒体に、形式的に含まれる、コンピュータソフトウェアプログラムによって実現される。いくつかの実施例では、コンピュータプログラムの部分又は全部は、ROM 802及び/または通信手段809により、デバイス800にロード及び/またはインストールされる。コンピュータプログラムは、RAM 803にロードされ、計算手段801によって実行されると、以上説明した方法の1つまたは複数のステップを実行できる。選択的に、他の実施例において、計算手段801は、他の任意の適当な方式(例えば、ファームウェアを利用する)によって、本開示における方法を実行するように配置されてよい。
本明細書において、上述したシステムや技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複合プログラマブルロジックデバイス(CPLD)、コンピューターハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現できる。これらの各種実施形態は、次のものを含んでもよい。1つ以上のコンピュータプログラムにおいて実施されており、当該1つ以上のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサーを含むプログラマブルシステムで実行及び/又は解釈されてよく、当該プログラマブルプロセッサーは、専用又は汎用のプログラマブルプロセッサーであってよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送してよい。
本開示の方法を実施するためのプログラムコードは、1つ以上のプログラミング言語の任意の組み合わせを用いて編集してよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されることで、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で規定された機能/操作を実施されることができる。プログラムコードは、完全的に機械で実行されることができ、部分的に機械で実行されることができ、独立なパッケージソフトウェアとして部分的に機械で実行され且つ部分的にリモート機械で実行される、又は完全的にリモート機械やサーバーで実行されることができる。
本開示の文脈では、機械可読媒体は、命令実行システム、装置又はデバイスが使用され、又は、命令実行システム、装置又はデバイスと結合して使用されるプログラムを含み又は記憶されている、有形の媒体であってよい。機械可読媒体は、機械可読シグナル媒体、又は機械可読記憶媒体であってよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又はこれらの任意の適当な組み合わせを含んでよいが、これに限定されない。機械可読記憶媒体のより具体的な例示としては、1本以上のワイヤに基づく電気接続、携帯型コンピューターディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス、又はこれらの任意の適当な組み合わせを含んでよい。
ユーザーとのインタラクションを提供するために、上述したシステム及び技術は、コンピュータで実施することができる。当該コンピュータは、ユーザーに情報を表示することに用いられる表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニター)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザーは、当該キーボード及び当該ポインティングデバイスによって、コンピュータに入力情報を提供することができる。ユーザーとのインタラクションを提供するために、他の種類の装置も使える。例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってよい。また、任意の形式(音入力、音声入力、触覚入力を含む)によって、ユーザーからの入力を受信してよい。
ここで記述したシステム及び技術は、バックグラウンドコンポーネントを含む計算システム(例えば、データサーバーとして)、又は中間コンポーネントを含む計算システム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザーインタフェース又はウェブブラウザーを備えるユーザーコンピューターであって、ユーザーは、当該グラフィカルユーザーインタフェース又は当該ウェブブラウザーによってここで記述したシステム及び技術の実施形態とインタラクションを行うことができる)、又はこのようなバックグラウンドコンポーネント、中間コンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで、実施することができる。任意の形式又は媒体によるデジタルデータ通信(例えば、通信ネットワーク)を介して、システムのコンポーネントを互いに接続することができる。通信ネットワークの例示としては、ローカル領域ネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピューターシステムは、クライアントとサーバーとを含んでよい。クライアントとサーバーとは、通常、互いに離れており、通信ネットワークを介してインタラクションを行う。対応するコンピュータにおいて互いにクライアント-サーバー関係を有するコンピュータプログラムを実行することで、クライアントとサーバーとの関係を確立する。サーバーは、クラウドサーバー、分散システムのサーバー、又はブロックチェーンを結合したサーバーであってよい。
なお、上記の様々なプロセスを踏まえて、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載の各ステップは同時に実行されてもよいし、順に実行されてもよいし、他の順番で実行されてもよく、本開示の技術的解決手段の所望の結果を得られるものであれば、本明細書では特に限定しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものと見なされない。当業者が理解したように、設計上の要件や他の要素に基づいて、様々な修正や、組み合わせ、置き換えを行うことができる。本開示の旨と原則の範囲内で行われた修正、同等置換や改善等は、いずれも本開示の保護範囲に含まれる。

Claims (20)

  1. テキスト検出に用いる深層学習モデルトレーニング方法であって、
    トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含むことと、
    第1類サンプルデータ及び現在選択されている第1類サンプルデータのタグデータを選択することと、
    現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第1文字数予測値と、テキスト行分割予測結果と、第2文字数予測値とを含むことと、
    現在選択されている第1類サンプルデータの前記予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得することと、を含む、方法。
  2. 前記深層学習モデルは、符号器ネットワークと、第1復号器ネットワークと、第2復号器ネットワークとをさらに含み、
    前記現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得することは、
    前記符号器ネットワークにより現在選択されている第1類サンプルデータに対して特徴抽出を行い、大域特徴を取得することと、
    前記第1復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第1高次特徴を取得することと、
    前記第2復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第2高次特徴を取得することと、
    前記単一文字分割サブネットワークにより前記第1高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第1文字数予測サブネットワークにより前記第1高次特徴に対して処理を行い、第1文字数予測値を取得することと、
    前記テキスト行分割サブネットワークにより前記第2高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第2文字数予測サブネットワークにより前記第2高次特徴に対して処理を行い、第2文字数予測値を取得することと、を含む、請求項1に記載の方法。
  3. 前記第1類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも1つを含み、
    前記現在選択されている第1類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整するステップは、
    現在選択されている第1類サンプルデータの単一文字分割予測結果及び現在選択されている第1類サンプルデータの単一文字分割の真値結果によって、第1損失を計算し、前記第1損失によって、前記符号器ネットワーク、第1復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
    現在選択されている第1類サンプルデータの第1文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第2損失を計算し、前記第2損失によって、前記符号器ネットワーク、第1復号器ネットワーク、第1文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
    現在選択されている第1類サンプルデータのテキスト行分割予測結果及び現在選択されている第1類サンプルデータのテキスト行分割の真値結果によって、第3損失を計算し、前記第3損失によって、前記符号器ネットワーク、第2復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
    現在選択されている第1類サンプルデータの第2文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第4損失を計算し、前記第4損失によって、前記符号器ネットワーク、第2復号器ネットワーク、第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも1つを含む、請求項2に記載の方法。
  4. 前記方法は、さらに、
    複数の第1類サンプルデータの第1文字数予測値及び第2文字数予測値に基づいて、第1文字数予測値と第2文字数予測値との相対エントロピーを確定し、第1相対エントロピーを取得することと、
    前記第1相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整することと、を含む、請求項1~3のいずれかに記載の方法。
  5. 前記トレーニングされた深層学習モデルを取得することは、
    プリセットされたトレーニング終了条件を満たすまで、第1類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することを含む、請求項1に記載の方法。
  6. 前記第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行うことは、
    複数の第2類サンプルデータを取得することと、
    各前記第2類サンプルデータに対してデータ拡張を行い、各前記第2類サンプルデータに対応する第3類サンプルデータを取得することと、
    各前記第2類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第1文字数予測サブネットワークが出力した各前記第2類サンプルデータの第3文字数予測値を取得することと、
    各前記第3類サンプルデータをトレーニングされた深層学習モデル入力し、前記第2文字数予測サブネットワークが出力した各前記第3類サンプルデータの第4文字数予測値を取得することと、
    各前記第2類サンプルデータの第3文字数予測値及び各前記第3類サンプルデータの第4文字数予測値に基づいて、第3文字数予測値と第4文字数予測値との相対エントロピーを確定し、第2相対エントロピーを取得することと、
    前記第2相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整することと、を含む、請求項5に記載の方法。
  7. 検出しようとするデータを取得することと、
    前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、請求項1~6のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法に基づいてトレーニングされたものであることと、
    前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することと、を含む、テキスト検出方法。
  8. 前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することは、
    前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第1二値画像を取得することと、
    前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第2二値画像を取得することと、
    前記第1二値画像における第1数値の領域と前記第2二値画像における第1数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得することと、を含む、請求項7に記載の方法。
  9. 前記深層学習モデルは、第1文字数予測サブネットワークと第2文字数予測サブネットワークとを除去した深層学習モデルである、請求項7に記載の方法。
  10. テキスト検出に用いる深層学習モデルトレーニング装置であって、
    トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第1文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第2文字数予測サブネットワークとを含む、深層学習モデル取得モジュールと、
    第1類サンプルデータ及び現在選択されている第1類サンプルデータのタグデータを選択する、第1類サンプルデータ選択モジュールと、
    現在選択されている第1類サンプルデータを深層学習モデルに入力し、現在選択されている第1類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第1文字数予測値と、テキスト行分割予測結果と、第2文字数予測値とを含む、予測結果確定モジュールと、
    現在選択されている第1類サンプルデータの前記予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得する、トレーニングパラメータ調整モジュールと、を含む、装置。
  11. 前記深層学習モデルは、符号器ネットワークと、第1復号器ネットワークと、第2復号器ネットワークとをさらに含み、
    前記予測結果確定モジュールは、
    前記符号器ネットワークにより現在選択されている第1類サンプルデータに対して特徴抽出を行い、大域特徴を取得する、大域特徴抽出サブモジュールと、
    前記第1復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第1高次特徴を取得する、第1高次特徴抽出サブモジュールと、
    前記第2復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第2高次特徴を取得する、第2高次特徴抽出サブモジュールと、
    前記単一文字分割サブネットワークにより前記第1高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第1文字数予測サブネットワークにより前記第1高次特徴に対して処理を行い、第1文字数予測値を取得する、第1予測サブモジュールと、
    前記テキスト行分割サブネットワークにより前記第2高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第2文字数予測サブネットワークにより前記第2高次特徴に対して処理を行い、第2文字数予測値を取得する、第2予測サブモジュールと、を含む、請求項10に記載の装置。
  12. 前記第1類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも1つを含み、
    前記トレーニングパラメータ調整モジュールは、
    現在選択されている第1類サンプルデータの単一文字分割予測結果及び現在選択されている第1類サンプルデータの単一文字分割の真値結果によって、第1損失を計算し、前記第1損失によって、前記符号器ネットワーク、第1復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
    現在選択されている第1類サンプルデータの第1文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第2損失を計算し、前記第2損失によって、前記符号器ネットワーク、第1復号器ネットワーク、第1文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
    現在選択されている第1類サンプルデータのテキスト行分割予測結果及び現在選択されている第1類サンプルデータのテキスト行分割の真値結果によって、第3損失を計算し、前記第3損失によって、前記符号器ネットワーク、第2復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、
    現在選択されている第1類サンプルデータの第2文字数予測値及び現在選択されている第1類サンプルデータの文字数の真値によって、第4損失を計算し、前記第4損失によって、前記符号器ネットワーク、第2復号器ネットワーク、第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも1つを実行することに用いられる、請求項11に記載の装置。
  13. 複数の第1類サンプルデータの第1文字数予測値及び第2文字数予測値に基づいて、第1文字数予測値と第2文字数予測値との相対エントロピーを確定し、第1相対エントロピーを取得し、前記第1相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する、相互学習モジュールをさらに含む、請求項10~12のいずれかに記載の装置。
  14. 前記深層学習モデルトレーニングモジュールは、プリセットされたトレーニング終了条件を満たすまで、第1類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第2類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することに用いられる、請求項10に記載の装置。
  15. 前記深層学習モデルトレーニングモジュールは、複数の第2類サンプルデータを取得し、各前記第2類サンプルデータに対してデータ拡張を行い、各前記第2類サンプルデータに対応する第3類サンプルデータを取得し、各前記第2類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第1文字数予測サブネットワークが出力した各前記第2類サンプルデータの第3文字数予測値を取得し、各前記第3類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第2文字数予測サブネットワークが出力した各前記第3類サンプルデータの第4文字数予測値を取得し、各前記第2類サンプルデータの第3文字数予測値及び各前記第3類サンプルデータの第4文字数予測値に基づいて、第3文字数予測値と第4文字数予測値との相対エントロピーを確定し、第2相対エントロピーを取得し、前記第2相対エントロピーによって、前記第1文字数予測サブネットワーク及び前記第2文字数予測サブネットワークのうち少なくとも1つのネットワークのトレーニングパラメータを調整する、ことに用いられる、請求項14に記載の装置。
  16. 検出しようとするデータを取得する、検出しようとするデータ取得モジュールと、
    前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、請求項10~15のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング装置に基づいてトレーニングされたものである、予測結果確定モジュールと、
    前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する、テキスト領域確定モジュールと、を含む、テキスト検出装置。
  17. 前記テキスト領域確定モジュールは、前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第1二値画像を取得し、前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第1数値で、文字がない領域に第2数値で標記し、第2二値画像を取得し、前記第1二値画像における第1数値の領域と前記第2二値画像における第1数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得する、ことに用いられる、請求項16に記載の装置。
  18. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続するメモリとを含む、電子デバイスであって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行され、前記少なくとも1つのプロセッサを請求項1~9のいずれかに記載の方法を実行可能にする、電子デバイス。
  19. 前記コンピュータに請求項1~9のいずれかに記載の方法を実行させる、コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体。
  20. プロセッサによって実行されると請求項1~9のいずれかに記載の方法を実現する、コンピュータプログラムを含む、コンピュータプログラム製品。
JP2023508611A 2021-08-13 2022-04-21 テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 Pending JP2023541527A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110932789.4A CN113642583B (zh) 2021-08-13 2021-08-13 用于文本检测的深度学习模型训练方法及文本检测方法
CN202110932789.4 2021-08-13
PCT/CN2022/088280 WO2023015939A1 (zh) 2021-08-13 2022-04-21 用于文本检测的深度学习模型训练方法及文本检测方法

Publications (1)

Publication Number Publication Date
JP2023541527A true JP2023541527A (ja) 2023-10-03

Family

ID=78421795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023508611A Pending JP2023541527A (ja) 2021-08-13 2022-04-21 テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法

Country Status (3)

Country Link
JP (1) JP2023541527A (ja)
CN (1) CN113642583B (ja)
WO (1) WO2023015939A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642583B (zh) * 2021-08-13 2022-06-28 北京百度网讯科技有限公司 用于文本检测的深度学习模型训练方法及文本检测方法
CN114187593B (zh) * 2021-12-14 2024-01-30 北京有竹居网络技术有限公司 一种图像处理方法及装置
CN115376137B (zh) * 2022-08-02 2023-09-26 北京百度网讯科技有限公司 一种光学字符识别处理、文本识别模型训练方法及装置
CN117423116B (zh) * 2023-12-18 2024-03-22 杭州恒生聚源信息技术有限公司 一种文本检测模型的训练方法、文本检测方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101726A1 (en) * 2016-10-10 2018-04-12 Insurance Services Office Inc. Systems and Methods for Optical Character Recognition for Low-Resolution Documents
RU2691214C1 (ru) * 2017-12-13 2019-06-11 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание текста с использованием искусственного интеллекта
CN109002463A (zh) * 2018-06-05 2018-12-14 国网辽宁省电力有限公司信息通信分公司 一种基于深度度量模型的文本检测方法
CN109697232B (zh) * 2018-12-28 2020-12-11 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN110766002B (zh) * 2019-10-08 2022-03-22 浙江大学 一种基于深度学习的船名字符区域检测方法
CN111008633B (zh) * 2019-10-17 2023-03-10 安徽清新互联信息科技有限公司 一种基于注意力机制的车牌字符分割方法
CN111639646B (zh) * 2020-05-18 2021-04-13 山东大学 一种基于深度学习的试卷手写英文字符识别方法及系统
CN113642583B (zh) * 2021-08-13 2022-06-28 北京百度网讯科技有限公司 用于文本检测的深度学习模型训练方法及文本检测方法

Also Published As

Publication number Publication date
CN113642583A (zh) 2021-11-12
CN113642583B (zh) 2022-06-28
WO2023015939A1 (zh) 2023-02-16

Similar Documents

Publication Publication Date Title
CN112966522B (zh) 一种图像分类方法、装置、电子设备及存储介质
JP2023541527A (ja) テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法
CN116051668B (zh) 文生图扩散模型的训练方法和基于文本的图像生成方法
CN113204615B (zh) 实体抽取方法、装置、设备和存储介质
JP2022006174A (ja) モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
US11893708B2 (en) Image processing method and apparatus, device, and storage medium
US20230162477A1 (en) Method for training model based on knowledge distillation, and electronic device
US20220374678A1 (en) Method for determining pre-training model, electronic device and storage medium
JP2023541742A (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
WO2024098623A1 (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
EP3920074A2 (en) Method for industry text increment, related apparatus, and computer program product
CN114495101A (zh) 文本检测方法、文本检测网络的训练方法及装置
CN115880506B (zh) 图像生成方法、模型的训练方法、装置及电子设备
US20220414474A1 (en) Search method, electronic device and storage medium based on neural network model
CN114970666B (zh) 一种口语处理方法、装置、电子设备及存储介质
US20220247626A1 (en) Method For Generating Backbone Network, Apparatus For Generating Backbone Network, Device, And Storage Medium
CN115984309B (zh) 用于训练图像分割模型和图像分割的方法、装置
JP2022166126A (ja) 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム
CN114358198A (zh) 实例分割方法、装置及电子设备
CN114078274A (zh) 人脸图像检测方法、装置、电子设备以及存储介质
CN114490969A (zh) 基于表格的问答方法、装置以及电子设备
CN113408632A (zh) 提高图像分类准确性的方法、装置、电子设备及存储介质
CN116824609B (zh) 文档版式检测方法、装置和电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231226

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240227