JP2023541527A

JP2023541527A - テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法

Info

Publication number: JP2023541527A
Application number: JP2023508611A
Authority: JP
Inventors: 森範; 暁燕王; 鵬原呂; 成全章; コン姚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2022-04-21
Publication date: 2023-10-03
Also published as: CN113642583A; CN113642583B; WO2023015939A1

Abstract

本開示は、テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法を提供し、人工知能技術分野に関し、具体的にコンピュータビジョン及び深層学習技術分野に関し、ＯＣＲ光学文字認識等のシナリオに適用できる。テキスト検出に用いる深層学習モデルトレーニング方法を提供する。単一文字分割サブネットワークが出力した単一文字分割予測結果、テキスト行分割サブネットワークが出力したテキスト行分割予測結果、トレーニングされた深層学習モデルはテキスト領域の検出に用いることができ、単一文字分割及びテキスト行分割の予測を同時に実現することができる。これにより、２種類のテキスト分割方式を組み合わせて、テキスト検出を行うことができ、テキスト領域検出の正確性をより高めることができる。【選択図】図１

Description

関連出願の相互参照
本発明は、２０２１年８月１３日に中国国家知的財産権局に提出した、出願番号が２０２１１０９３２７８９．４．Ｘであり、発明名称が「テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法」である中国特許出願に基づき優先権を主張する。ここで、その全ての内容は、援用により本発明に組み込まれる。

本開示は、人工知能技術分野に関し、具体的にコンピュータビジョン及び深層学習技術分野に関し、特にテキスト検出に用いる深層学習モデルトレーニング方法、テキスト検出方法、装置、デバイス及び記憶媒体に関する。

深層学習技術の発展に伴い、深層学習モデルに基づくテキスト検出は、例えば旅行時の即時翻訳、紙文書の電子化、看板の認識、グラフィック及び文字の審査等の、産業界及び学術界に広く応用されているが、画像におけるテキストの検出を実現するためには、まず画像におけるテキスト領域を確定する必要がある。

本開示は、テキスト検出に用いる深層学習モデルトレーニング方法、テキスト検出方法、装置、デバイス及び記憶媒体を提供する。

本開示の第１態様によれば、テキスト検出に用いる深層学習モデルトレーニング方法を提供する。前記方法は、トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第１文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第２文字数予測サブネットワークとを含むことと、第１類サンプルデータ及び現在選択されている第１類サンプルデータのタグデータを選択することと、現在選択されている第１類サンプルデータを深層学習モデルに入力し、現在選択されている第１類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第１文字数予測値と、テキスト行分割予測結果と、第２文字数予測値とを含むことと、現在選択されている第１類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得することとを含む。

本開示の第２態様によれば、テキスト検出方法を提供する。前記方法は、検出しようとするデータを取得することと、前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法に基づいてトレーニングされたものであることと、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することとを含む。

本開示の第３態様によれば、テキスト検出に用いる深層学習モデルトレーニング装置を提供する。前記装置は、トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第１文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第２文字数予測サブネットワークとを含む、深層学習モデル取得モジュールと、第１類サンプルデータ及び現在選択されている第１類サンプルデータのタグデータを選択する、第１類サンプルデータ選択モジュールと、現在選択されている第１類サンプルデータを深層学習モデルに入力し、現在選択されている第１類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第１文字数予測値と、テキスト行分割予測結果と、第２文字数予測値とを含む、予測結果確定モジュールと、現在選択されている第１類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得する、トレーニングパラメータ調整モジュールと、を含む。

本開示の第４態様によれば、テキスト検出装置を提供する。前記装置は、検出しようとするデータを取得する、検出しようとするデータ取得モジュールと、前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング装置に基づいてトレーニングされたものである、予測結果確定モジュールと、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する、テキスト領域確定モジュールと、を含む。

本開示の第５態様によれば、電子デバイスを提供する。前記電子デバイスは、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続するメモリとを含む、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行され、前記少なくとも１つのプロセッサを本発明のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実行可能にする。

本開示の第６態様によれば、コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体を提供する。前記コンピュータ命令は、前記コンピュータに本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実行させる。

本開示の第７態様によれば、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、プロセッサによって実行されると本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実現する、コンピュータプログラムを含む。

本開示の実施例では、テキスト検出に用いる深層学習モデルトレーニング方法を提供し、トレーニングされた深層学習モデルはテキスト領域の検出に用いることができ、単一文字分割及びテキスト行分割の予測を同時に実現することができる。これにより、２種類のテキスト分割方式を組み合わせて、テキスト検出を行うことができ、テキスト領域検出の正確性をより高めることができる。この部分で説明された内容は、本開示の実施形態における大切なまたは重要な特徴を表すことを意図するものではなく、本開示の範囲を制限しないことが理解される。本開示の他の特徴は、以下の明細書によって理解しやすくになる。

本発明の実施例及び従来技術の技術案をより明確に説明するために、以下、実施例及び従来技術に必要な図面を簡単に説明するが、以下に説明される図面は単に本発明の実施例の一部であり、当業者であれば、創造的な働きをせずに、これらの図面に基づいて他の実施例が得られることが明らかである。
図１は本開示の実施例に係るテキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法の模式図である。図２は本開示の実施例におけるステップＳ１３の一可能な実施形態の模式図である。図３は本開示の実施例における教師ありトレーニングのプロセスの模式図である。図４は本開示の実施例における教師なしトレーニングのプロセスの模式図である。図５は本開示の実施例におけるテキスト検出方法の模式図である。図６は本開示の実施例におけるステップＳ５３の一可能な実施形態の模式図である。図７は本開示の実施例に係るテキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出装置の模式図である。図８は本開示の実施例を実現する電子デバイスのブロック図である。

本発明の目的、技術案、及び利点をより明確にするために、以下、図面を参照し、実施例を挙げて、本発明をより詳しく説明する。説明される実施例は単に本発明の一部の実施例に過ぎず、全ての実施例ではないことは明らかである。本発明における実施例に基づいて、当業者が創造的な働きをせずに得られるすべての他の実施例は、いずれも本発明の保護範囲に含まれる。

画像におけるテキストに対する検出を実現するには、まず、画像におけるテキスト領域を確定する必要がある。これに鑑みて、本開示の実施例は、テキスト検出に用いる深層学習モデルトレーニング方法を提供する。図１を参照して、前記方法は以下のステップを含む。

Ｓ１１、トレーニングしようとする深層学習モデルを取得し、深層学習モデルは、単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第１文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第２文字数予測サブネットワークとを含む。

本開示の実施例におけるテキスト検出に用いる深層学習モデルトレーニング方法は、電子デバイスによって実現することができ、この電子デバイスは、具体的に、スマートフォン、パーソナルコンピュータまたはサーバーなどであってよい。

トレーニングしようとする深層学習モデルは、単一文字予測ネットワークとテキスト行予測ネットワークとを含み、単一文字予測ネットワークは単一文字分割サブネットワークと第１文字数予測サブネットワークとを含み、テキスト行予測ネットワークはテキスト行分割サブネットワークと第２文字数予測サブネットワークとを含む。単一文字分割サブネットワークは、単一文字分割結果を予測する、即ち画像における各単一文字の領域を予測することに用いられる。テキスト行分割サブネットワークは、テキスト行分割結果を予測する、即ち画像における各テキスト行の領域を予測することに用いられる。文字数予測サブネットワーク及び第２文字数予測サブネットワークは、いずれも文字数の値を予測する、即ち画像にいくつかの文字があるかを予測することに用いられる。

単一文字分割サブネットワーク、第１文字数予測サブネットワーク、テキスト行分割サブネットワーク及び第２文字数予測サブネットワークの具体的なネットワーク構造は実際の状況に応じてカスタマイズで設定されてよく、一例において、単一文字分割サブネットワークは複数の畳み込み層を含んでよく、分類器等をさらに含んでよい。第１文字数予測サブネットワークは、複数の畳み込み層及び全結合層を含んでよい。テキスト行分割サブネットワークは、複数の畳み込み層を含んでよく、分類器等をさらに含んでよい。第２文字数予測サブネットワークは、複数の畳み込み層及び全結合層を含んでよい。

Ｓ１２、第１類サンプルデータ及び現在選択されている第１類サンプルデータのタグデータを選択する。

一例において、現在選択されている第１類サンプルデータとして、複数の第１類サンプルデータを含むサンプル集合から、選択されなかった第１類サンプルデータを選択してよい。第１類サンプルデータは、具体的に画像であってよい。第１類サンプルデータは、タグデータを備え、第１類サンプルデータのタグデータは、この第１類サンプルデータの文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも１つを含む。第１類サンプルデータのタグデータは、人工的注釈等の方式によって得られる。

Ｓ１３、現在選択されている第１類サンプルデータを深層学習モデルに入力し、現在選択されている第１類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第１文字数予測値と、テキスト行分割予測結果と、第２文字数予測値とを含む。

現在選択されている第１類サンプルデータを深層学習モデルに入力し、深層学習モデルにおける単一文字分割サブネットワークは、対応する単一文字分割予測結果を出力し、第１文字数予測サブネットワークは、対応する第１文字数予測値を出力し、テキスト行分割サブネットワークは、対応するテキスト行分割予測結果を出力し、第２文字数予測サブネットワークは、対応する第２文字数予測値を出力する。一例において、深層学習モデルにおける各サブネットワークは、いずれも単独の特徴抽出ネットワークに対応してよく、第１類サンプルデータは、まず各特徴抽出ネットワークに入力され、特徴を抽出した後、対応するサブネットワークに入力される。一例において、各サブネットワークは、１つの特徴抽出ネットワークを共有してよい。一例において、一部のサブネットワークが特徴抽出ネットワークに対応し、一部のサブネットワークが単独の特徴抽出ネットワークに対応してよい。上記した例は、いずれも本発明の保護範囲にある。

Ｓ１４、現在選択されている第１類サンプルデータの前記予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得する。

一例において、第１類サンプルデータ予測結果及びタグデータにおける真値に基づいて、各ネットワークの損失を計算し、ネットワークの損失によって、このネットワークのトレーニングパラメータを調整することにより、深層学習モデルのトレーニングパラメータの調整を実現することができる。

例えば、現在選択されている第１類サンプルデータの単一文字分割予測結果及び単一文字分割の真値結果によって、第１損失を計算し、第１損失によって、単一文字分割サブネットワークのトレーニングパラメータを調整する。例えば、現在選択されている第１類サンプルデータの第１文字数予測値及び文字数の真値によって、第２損失を計算し、第２損失によって、第１文字数予測サブネットワークのトレーニングパラメータを調整する。例えば、現在選択されている第１類サンプルデータのテキスト行分割予測結果及びテキスト行分割の真値結果によって、第３損失を計算し、第３損失によって、テキスト行分割サブネットワークのトレーニングパラメータを調整する。例えば、根据現在選択されている第１類サンプルデータの第２文字数予測値及び文字数の真値によって、第４損失を計算し、第４損失によって、第２文字数予測サブネットワークのトレーニングパラメータを調整する。

損失によってトレーニングパラメータを調整する方法は、従来技術におけるトレーニングパラメータ調整方法を参照してよい。一例において、損失によってＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ、確率的勾配降下）アルゴリズムに応じてネットワークのトレーニングパラメータに対して調整を行ってよい。

１回トレーニングした後、プリセットされたトレーニング終了条件を満たすまで、第１類サンプルデータを選択し、深層学習モデルに対してトレーニングを行い続き、トレーニングされた深層学習モデルを取得する。プリセットされたトレーニング終了条件は実際の状況に応じてカスタマイズで設定されてよく、例えば、深層学習モデルの損失が収束すること、または予測されたトレーニング回数になること等である。プリセットされたトレーニング終了条件を満たす場合、トレーニングを停止し、トレーニングされた深層学習モデルを取得する。

本開示の実施例において、テキスト検出に用いる深層学習モデルトレーニング方法を提供し、トレーニングされた深層学習モデルはテキスト領域の検出に用いることができ、単一文字分割及びテキスト行分割の予測を同時に実現することができる。これにより、２種類のテキスト分割方式を組み合わせて、テキスト検出を行うことができ、テキスト領域検出の正確性をより高めることができる。

一可能な実施形態において、前記深層学習モデルは、符号器ネットワークと、第１復号器ネットワークと、第２復号器ネットワークとをさらに含む。図２を参照して、前記現在選択されている第１類サンプルデータを深層学習モデルに入力し、現在選択されている第１類サンプルデータ予測結果を取得することは、以下のステップを含む。

Ｓ２１、前記符号器ネットワークにより現在選択されている第１類サンプルデータに対して特徴抽出を行い、大域特徴を取得する。

一例において、符号器ネットワークは、軽量なＭｏｂｉｌｅ－ｖ３ネットワークであってよく、Ｕｎｅｔネットワークを組み合わせて、入力された画像データに対して大域特徴抽出を行い、大域特徴を取得する。

Ｓ２２、前記第１復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第１高次特徴を取得する。

一例において、第１復号器ネットワークは、符号器ネットワークの大域特徴に対してさらに特徴抽出を行うための、複数層の完全畳み込みネットワークを含んでよく、得られた画像特徴を第１高次特徴と称される。ここで、高次特徴とは、意味情報が豊富で目標位置が大まかな画像特徴である。

Ｓ２３、前記第２復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第２高次特徴を取得する。

一例において、第２復号器ネットワークは、符号器ネットワークの大域特徴に対してさらに高次特徴抽出を行うための、複数層の完全畳み込みネットワークを含んでよい。

Ｓ２４、前記単一文字分割サブネットワークにより前記第１高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第１文字数予測サブネットワークにより前記第１高次特徴に対して処理を行い、第１文字数予測値を取得する。

一例において、第１復号器ネットワークが出力した第１高次特徴は、単一文字分割サブネットワークにおける複数の畳み込み層を介して、単一文字の前景および背景を分類する特徴図を取得した後、単一文字分割サブネットワークにおけるフィルタの畳み込み層を介して、前景と背景との分割を表示する単一な輸出図を取得し、前景が１であり、背景が０である単一文字分割予測結果を取得する。第１復号器ネットワークが出力した第１高次特徴は、第１文字数予測サブネットワークにおける複数の畳み込み層を介して、さらに特徴抽出を行ってから、第１文字数予測サブネットワークの全結合層を介して、文字数予測タスクを分類タスクとして予測し、第１文字数予測値を取得する。一例において、全結合層の出力結果は１０００類であり、０～９９９個の文字数に対応してよい。

Ｓ２５、前記テキスト行分割サブネットワークにより前記第２高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第２文字数予測サブネットワークにより前記第２高次特徴に対して処理を行い、第２文字数予測値を取得する。

一例において、第２復号器ネットワークが出力した第２高次特徴は、テキスト行分割サブネットワークにおける複数の畳み込み層を介して、テキスト行の前景および背景を分類する特徴図を取得した後、テキスト行分割サブネットワークにおけるフィルタの畳み込み層を介して、前景と背景との分割を表示する単一な輸出図を取得し、前景が１であり、背景が０であるテキスト行分割予測結果を取得する。第２復号器ネットワークが出力した第２高次特徴は、第２文字数予測サブネットワークにおける複数の畳み込み層を介して、さらに特徴抽出を行ってから、第２文字数予測サブネットワークの全結合層を介して、文字数予測タスクを分類タスクとして予測し、第２文字数予測値を取得する。一例において、全結合層の出力結果は１０００個の類別であり、０～９９９個の文字数に対応してよい。

本開示の実施形態において、第１復号器ネットワークが抽出した第１高次特徴は、単一文字予測ネットワークの予測に用いられ、第２復号器ネットワークが抽出した第２高次特徴は、テキスト行予測ネットワークの予測に用いられ、第１復号器ネットワークのトレーニングパラメータと第２復号器ネットワークのトレーニングパラメータとはそれぞれ調整されてよく、単一文字予測ネットワークとテキスト行予測ネットワークとが入力したデータのデカップリングを実現でき、単一文字予測ネットワークとテキスト行予測ネットワークとを認識する正確率を向上できることにより、最終的にテキスト領域の検出及び文字数の予測の正確率を向上できる。

一可能な実施形態において、前記第１類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも１つを含み、前記現在選択されている第１類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整するステップは、以下のステップのうち少なくとも１つを含む。

ステップ１、現在選択されている第１類サンプルデータの単一文字分割予測結果及び現在選択されている第１類サンプルデータの単一文字分割の真値結果によって、第１損失を計算し、前記第１損失によって、前記符号器ネットワーク、第１復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する。

ステップ２、現在選択されている第１類サンプルデータの第１文字数予測値及び現在選択されている第１類サンプルデータの文字数の真値によって、第２損失を計算し、前記第２損失によって、前記符号器ネットワーク、第１復号器ネットワーク、第１文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する。

ステップ３、現在選択されている第１類サンプルデータのテキスト行分割予測結果及び現在選択されている第１類サンプルデータのテキスト行分割の真値結果によって、第３損失を計算し、前記第３損失によって、前記符号器ネットワーク、第２復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する。

ステップ４、現在選択されている第１類サンプルデータの第２文字数予測値及び現在選択されている第１類サンプルデータの文字数の真値によって、第４損失を計算し、前記第４損失によって、前記符号器ネットワーク、第２復号器ネットワーク、第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する。

一例において、第１損失及び第３損失は、交差エントロピー損失であってよく、例えば、二元交差エントロピー損失であってよい。一例において、文字数予測値を類別としてよい。例えば、それぞれ０～９９９個の文字数に対応する、１０００個の類別を設定してよい。この場合、第２損失及び第４損失も交差エントロピー損失として設定されてよい。

本開示の実施形態では、各ネットワークのトレーニングパラメータの調整方法を提供する。複数の損失により各ネットワークのトレーニングパラメータの調整を実現することで、各ネットワークの予測の正確性を向上できる。

一可能な実施形態において、前記方法は、さらに、以下のステップを含む。

ステップＡ、複数の第１類サンプルデータの第１文字数予測値及び第２文字数予測値に基づいて、第１文字数予測値と第２文字数予測値との相対エントロピーを確定し、第１相対エントロピーを取得する。

ステップＢ、前記第１相対エントロピーによって、前記第１文字数予測サブネットワーク及び前記第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する。

本開示の実施例において、第１文字数予測サブネットワークと第２文字数予測サブネットワークとを用いて、ＤＭＬ（ＤｅｅｐＭｕｔｕａｌＬｅａｒｎｉｎｇ、深層相互学習）を行い、ＫＬ発散（Ｋｕｌｌｂａｃｋ－ＬｅｉｂｌｅｒＤｉｖｅｒｇｅｎｃｅ、相対エントロピー）を用いて、この２つのサブネットワークの予測が一致するかを評価し、続いて両者の一致する程度を制約することを目標としてトレーニングを行うように設計されている。これは、第１文字数予測サブネットワークの入力特徴のトレーニングに単一文字位置教師情報があるため、単一文字数をより正確に予測できるからである。２つの文字数予測サブネットワークを相互学習させて、第２文字数予測サブネットワーク予測結果及び第１文字数予測サブネットワーク予測結果を可能な限り一致させることができる。これにより、第２文字数予測サブネットワークに、第１文字数予測サブネットワークの知識を学習させる。また、第１文字数予測サブネットワーク及び第２文字数予測サブネットワークは、異なる初期条件からトレーニングし始め、また異なる入力特徴を備えるため、それらは同じタグを備えるが、それらの次の最も可能な類別の確率に対する推定が異なる。深層相互学習は、情報を学習して、トレーニングに追加の知識を提供することにより、深層学習モジュールの予測の精度、即ちテキスト検出の正確性をさらに向上させることができる。

一可能な実施形態において、前記トレーニングされた深層学習モデルを取得することは、
プリセットされたトレーニング終了条件を満たすまで、第１類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第２類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することを含む。

教師ありトレーニングは、上記実施例における、第１類サンプルデータにより深層学習モデルに対してトレーニングするプロセスである。一例において、教師ありトレーニングのプロセスは、図３に示すように、各ｂａｔｃｈ（バッチ）のサンプルデータは３つの部分からなり、例えば、１つのｂａｔｃｈのサンプルデータのディメンションは（３＊Ｂ，３，５１２，５１２）であってよく、３＊Ｂ枚の幅かける高さが５１２ｘ５１２であるＲＧＢ（画像フォーマットの１つ）画像を表し、前Ｂ枚の画像に単一注釈データ（文字数の真値、単一文字分割真値を含む）結果が注釈されてよく、中間Ｂ枚の画像にテキスト行注釈データ（文字数の真値、テキスト行分割真値の結果を含む）が注釈され、最後Ｂ枚の画像は規格に合わないテキスト行注釈データである。ここで、３＊Ｂ枚はモデルトレーニングのハイパーパラメータであり、通常、計算リソースによって決定されるものである。１ｂａｔｃｈのサンプルデータがｅｎｃｏｄｅｒ（符号器ネットワーク）を流れた後、対応する大域特徴を取得した。次に、大域特徴が同時にＤｅｃｏｄｅｒＡ（復号器Ａである第１復号器ネットワーク）及びＤｅｃｏｄｅｒＢ（復号器Ｂである第２復号器ネットワーク）により、対応する特徴ＦＡ（第１高次特徴）及びＦＢ（第２高次特徴）を取得した。特徴ＦＡが、さらに単一文字予測ネットワークにより、単一文字分割及び総文字数の予測を行うことにより、単一文字分割予測結果と第１文字数予測値とを取得し、特徴ＦＢが、テキスト行予測ネットワークにより、テキスト行分割及び総文字数の予測を行うことにより、テキスト行分割予測結果と第２文字数予測値とを取得した。ここで、ｃｒｏｓｓ－ｅｎｔｒｏｐｙは、交差エントロピー損失を表し、Ｂｉｎａｒｙｃｒｏｓｓ－ｅｎｔｒｏｐｙは、二元交差エントロピー損失を表す。ＫＬ－ｌｏｓｓは、ＫＬ発散損失を表す。

教師ありトレーニングの場合、深層学習モデルが第１トレーニング条件を満たすと、教師なしトレーニング及び教師ありトレーニングを加えて、同時に行う。一例において、教師ありトレーニングのプロセスは、図４に示すように、注釈されていないサンプルのデータ拡張の前後の予測を同じように制約することで、モデルのオーバーフィットの問題を緩和することができる。関連するテキスト検出技術において、文字数量の予測に関しないため、通常に使用されるデータ拡張手法はクロップ等を含むが、本開示の実施例では文字数に対する予測を行う必要があるため、本開示の実施例において、ファジー、回転、反転、スタイル化等の文字数を変えないデータ拡張手法が用いられる。

教師なしトレーニングの段階において、各ｂａｔｃｈのサンプルデータは、２つの部分からなり、仮に、１つのｂａｔｃｈのサンプルデータのディメンションは（２＊Ｎ，３，５１２，５１２）である場合、２＊Ｎ枚の幅かける高さが５１２ｘ５１２であるＲＧＢ画像を表し、前のＮ枚の画像は任意なサンプル画像であり、後Ｎ枚の画像は前Ｎ枚に対応する拡張データであり、拡張方法は、例えばファジー、回転、反転、スタイル化のうち少なくとも１種を含む。各ｂａｔｃｈのサンプルデータが符号器ネットワークを通った後、注釈されていないデータ（第２サンプルデータに相当）に対応する大域特徴が復号器Ａに入力され、さらに、第１文字数予測サブネットワークを介し、非拡張サンプルデータの文字数予測値（第３文字数予測値に相当）を取得する。注釈されていない拡張データ（第３サンプルデータに相当）に対応する大域特徴が復号器Ｂに入力され、さらに、第２文字数予測サブネットワークを介し、拡張サンプルデータの文字数予測値（第４文字数予測値に相当）を取得する。第３文字数予測値及び第４文字数予測値に基づいて、ＫＬ発散を用いて、第１文字数予測サブネットワークと第２文字数予測サブネットワークとの一貫性学習を行う。ここで、教師なしトレーニングのプロセスに、単一文字分割サブネットワーク及びテキスト行分割サブネットワークに対するトレーニングを行わない。ここで、ＫＬ－ｌｏｓｓは、ＫＬ発散損失を表す。

第１トレーニング条件は実際の状況に応じて設定されてよく、例えば、トレーニング回数がプリセットされた第１トレーニング回数になること、または深層学習モデルの収束程度が第１収束程度になること等である。プリセットされたトレーニング終了条件は実際の状況に応じて設定されてよく、例えば、トレーニング回数がプリセットされた第２トレーニング回数になること、または深層学習モデルの収束程度が第２収束になること等である。ここで、プリセットされた第１トレーニング回数は、プリセットされた第２トレーニング回数より小さく、第１収束程度の収束範囲は、第２収束程度の収束範囲より広い。

以下、教師なしトレーニングプロセスについて例示的に説明する。一可能な実施形態において、前記第２類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行うことは、以下のステップを含む。

ステップＡ、複数の第２類サンプルデータを取得する。

ステップＢ、各前記第２類サンプルデータに対してデータ拡張を行い、各前記第２類サンプルデータに対応する第３類サンプルデータを取得する。

ステップＣ、各前記第２類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第１文字数予測サブネットワークが出力した各前記第２類サンプルデータの第３文字数予測値を取得する。

ステップＤ、各前記第３類サンプルデータをトレーニングされた深層学習モデル入力し、前記第２文字数予測サブネットワークが出力した各前記第３類サンプルデータの第４文字数予測値を取得する。

ステップＥ、各前記第２類サンプルデータの第３文字数予測値及び各前記第３類サンプルデータの第４文字数予測値に基づいて、第３文字数予測値と第４文字数予測値との相対エントロピーを確定し、第２相対エントロピーを取得する。

ステップＦ、前記第２相対エントロピーによって、前記第１文字数予測サブネットワーク及び前記第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する。

本開示の実施形態において、教師ありトレーニング及び教師なしトレーニングの２種類の方式により、深層学習モデルに対してトレーニングを行い、異なるデータについて異なる学習タスクの組み合わせを行い、トレーニングロジックは簡単である。教師なしトレーニングプロセスでは、大量の注釈されていないサンプルデータを十分利用して、一貫性学習を行うことで、モデルのオーバーフィットの状況を減らすことができ、注釈されていないサンプルデータを利用して、モデルに対してトレーニングを行うことで、最終的なテキスト検出精度を保証する前提で、サンプルデータ注釈の作業量を減らすことができ、データが少ないシナリオの注釈に適用できる。

本開示の実施例は、さらに、テキスト検出方法を提供する。前記方法は、図５を参照して、以下のステップを含む。

Ｓ５１、検出しようとするデータを取得する。検出しようとするデータは、任意の文字を含む画像データであってよい。

Ｓ５２、前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得する。

ここで、前記深層学習モデルのトレーニングプロセスは、上記実施例におけるテキスト検出に用いる深層学習モデルトレーニング方法を参照してよく、前記深層学習モデルの構造は、上記実施例における深層学習モデルの構造を参照してよいため、ここで繰り返し説明しない。

一可能な実施形態において、前記深層学習モデルは、第１文字数予測サブネットワークと第２文字数予測サブネットワークとを除去した深層学習モデルである。テキスト検出段階において、上記実施例における深層学習モデルの構造から、深層学習モデルにおける第１文字数予測サブネットワークと第２文字数予測サブネットワークとを除去してよい。これにより、深層学習モデルのデータ量を減らし、第１文字数予測サブネットワーク及び第２文字数予測サブネットワークの実行リソースを節約することができる。

Ｓ５３、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する。

単一文字分割予測結果及びテキスト行分割予測結果に基づいて、テキスト領域に対して論理和を取って、その繋がる領域の周辺輪郭を最終的に検出されたテキスト領域の輪郭とする。

本開示の実施形態では、テキスト検出を実現する。深層学習モデルにより単一文字分割及びテキスト行分割の予測を同時に実現し、２種類のテキスト分割方式を組み合わせて、テキスト検出を行い、テキスト領域検出の正確性を高めることができる。

一可能な実施形態において、図６を参照して、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することは、以下のステップを含む。

Ｓ６１、前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第１数値で、文字がない領域に第２数値で標記し、第１二値画像を取得する。

Ｓ６２、前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第１数値で、文字がない領域に第２数値で標記し、第２二値画像を取得する。

Ｓ６３、前記第１二値画像における第１数値の領域と前記第２二値画像における第１数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得する。

第１二値画像における第１数値の領域と第２二値画像における第１数値の領域との和集合を取って、和集合における繋がる領域の周辺輪郭を最終的に検出されたテキスト領域の輪郭とする。

本開示の実施形態では、テキスト検出を提供する。二値画像の方式により、単一文字分割とテキスト行分割との統合を正確的に且つ効率的に実現し、テキスト領域の検出效率を高め、テキスト検出領域の正確性を向上する。

本開示の実施例は、さらに、テキスト検出に用いる深層学習モデルトレーニング装置を提供する。前記装置は、図７を参照して、トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第１文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第２文字数予測サブネットワークとを含む、深層学習モデル取得モジュール７０１と、第１類サンプルデータ及び現在選択されている第１類サンプルデータのタグデータを選択する、第１類サンプルデータ選択モジュール７０２と、現在選択されている第１類サンプルデータを深層学習モデルに入力し、現在選択されている第１類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第１文字数予測値と、テキスト行分割予測結果と、第２文字数予測値とを含む、予測結果確定モジュール７０３と、現在選択されている第１類サンプルデータ予測結果及びタグデータによって、トレーニングされた深層学習モデルを取得する、トレーニングパラメータ調整モジュール７０４と、を含む。

一可能な実施形態において、前記深層学習モデルは、符号器ネットワークと、第１復号器ネットワークと、第２復号器ネットワークとをさらに含み、前記予測結果確定モジュールは、前記符号器ネットワークにより現在選択されている第１類サンプルデータに対して特徴抽出を行い、大域特徴を取得する、大域特徴抽出サブモジュールと、前記第１復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第１高次特徴を取得する、第１高次特徴抽出サブモジュールと、前記第２復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第２高次特徴を取得する、第２高次特徴抽出サブモジュールと、前記単一文字分割サブネットワークにより前記第１高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第１文字数予測サブネットワークにより前記第１高次特徴に対して処理を行い、第１文字数予測値を取得する、第１予測サブモジュールと、前記テキスト行分割サブネットワークにより前記第２高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第２文字数予測サブネットワークにより前記第２高次特徴に対して処理を行い、第２文字数予測値を取得する、第２予測サブモジュールと、を含む。

一可能な実施形態において、前記第１類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも１つを含み、前記トレーニングパラメータ調整モジュールは、
現在選択されている第１類サンプルデータの単一文字分割予測結果及び現在選択されている第１類サンプルデータの単一文字分割の真値結果によって、第１損失を計算し、前記第１損失によって、前記符号器ネットワーク、第１復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータの第１文字数予測値及び現在選択されている第１類サンプルデータの文字数の真値によって、第２損失を計算し、前記第２損失によって、前記符号器ネットワーク、第１復号器ネットワーク、第１文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータのテキスト行分割予測結果及び現在選択されている第１類サンプルデータのテキスト行分割の真値結果によって、第３損失を計算し、前記第３損失によって、前記符号器ネットワーク、第２復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータの第２文字数予測値及び現在選択されている第１類サンプルデータの文字数の真値によって、第４損失を計算し、前記第４損失によって、前記符号器ネットワーク、第２復号器ネットワーク、第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも１つを実行することに用いられる。

一可能な実施形態において、前記装置は、複数の第１類サンプルデータの第１文字数予測値及び第２文字数予測値に基づいて、第１文字数予測値と第２文字数予測値との相対エントロピーを確定し、第１相対エントロピーを取得し、前記第１相対エントロピーによって、前記第１文字数予測サブネットワーク及び前記第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する、相互学習モジュールをさらに含む。

一可能な実施形態において、前記深層学習モデルトレーニングモジュールは、具体的に、プリセットされたトレーニング終了条件を満たすまで、第１類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第２類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することに用いられる。

一可能な実施形態において、前記深層学習モデルトレーニングモジュールは、具体的に、複数の第２類サンプルデータを取得し、各前記第２類サンプルデータに対してデータ拡張を行い、各前記第２類サンプルデータに対応する第３類サンプルデータを取得し、各前記第２類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第１文字数予測サブネットワークが出力した各前記第２類サンプルデータの第３文字数予測値を取得し、各前記第３類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第２文字数予測サブネットワークが出力した各前記第３類サンプルデータの第４文字数予測値を取得し、各前記第２類サンプルデータの第３文字数予測値及び各前記第３類サンプルデータの第４文字数予測値に基づいて、第３文字数予測値と第４文字数予測値との相対エントロピーを確定し、第２相対エントロピーを取得し、前記第２相対エントロピーによって、前記第１文字数予測サブネットワーク及び前記第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する、ことに用いられる。

本開示の実施例は、さらに、検出しようとするデータを取得する、検出しようとするデータ取得モジュールと、前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング装置に基づいてトレーニングされたものである、予測結果確定モジュールと、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する、テキスト領域確定モジュールと、を含む、テキスト検出装置を提供する。

一可能な実施形態において、前記テキスト領域確定モジュールは、具体的に、前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第１数値で、文字がない領域に第２数値で標記し、第１二値画像を取得し、前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第１数値で、文字がない領域に第２数値で標記し、第２二値画像を取得し、前記第１二値画像における第１数値の領域と前記第２二値画像における第１数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得する、ことに用いられる。

一可能な実施形態において、前記深層学習モデルは、第１文字数予測サブネットワークと第２文字数予測サブネットワークとを除去した深層学習モデルである。

本開示の技術案において、関連するユーザーの個人情報の収集、格納及び利用等は、いずれも関連する法律及び規則の規定を満たし、公序良俗に違反しない。

本開示の実施例によれば、本開示は、さらに、電子デバイス、可読記憶媒体及びコンピュータプログラム製品を提供する。

電子デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信接続するメモリとを含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行され、前記少なくとも１つのプロセッサを本発明のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実行可能にする。

コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体は、コンピュータ命令は、前記コンピュータに本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実行させる。

コンピュータプログラム製品は、プロセッサによって実行されると本開示のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法またはテキスト検出方法を実現する、コンピュータプログラムを含む。

図８は、本開示の実施例を実施するための例示の電子デバイス８００の模式的なブロック図を示す。電子デバイスとしては、例えば、ラップトップパソコン、デスクトップパソコン、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、及び他の適当なコンピュータなど、様々な形態のデジタルコンピューターである。電子デバイスとしては、さらに、例えば、パーソナルデジタルアシスタント、セルフォン、スマートフォン、ウェアラブル機器、及び他の類似の計算装置など、様々な形態のモバイル装置である。本明細書に記載のコンポーネント、その接続関係、及びその機能は例示的なものに過ぎず、本開示の実施に関して本明細書に記載及び／又は主張された内容に限定するものではない。

図８に示すように、デバイス８００は、リードオンリーメモリ（ＲＯＭ）８０２に記憶されているコンピュータプログラム、又は記憶手段８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムによって、各種の適当な動作や処理を実行する、計算手段８０１を含む。ＲＡＭ８０３には、さらに、デバイス８００を操作するための各種のプログラムやデータが記憶されていることもできる。計算手段８０１、ＲＯＭ８０２及びＲＡＭ８０３は、それぞれバス８０４によって接続される。入力／出力（Ｉ／Ｏ）インターフェース８０５も、バス８０４に接続される。

デバイス８００における複数のコンポーネントは、Ｉ／Ｏインターフェース８０５に接続されている。前記コンポーネントは、キーボード、マウス等の入力手段８０６と、各種の型のディスプレイ、スピーカー等の出力手段８０７と、ディスク、光ディスク等の記憶手段８０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段８０９と、を含む。通信手段８０９によって、デバイス８００は、例えばインターネット等のコンピューターネットワーク、及び／又は各種の通信ネットワークを介して、他のデバイスと情報／データを交換することが可能である。

計算手段８０１は、処理及び計算能力を有する、各種の汎用な及び／又は専用な処理コンポーネントであってよい。計算手段８０１のいくつかの例示は、中央処理ユニット（ＣＰＵ）、画像処理ユニット（ＧＰＵ）、各種の専用な人工知能（ＡＩ）演算チップ、機械学習モデルアルゴリズムを実行する各種の演算ユニット、デジタルシグナルプロセッサー（ＤＳＰ）、及び任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含むが、これに限定されない。計算手段８０１は、以上説明される方法及び処理を実行する。例えば、いくつかの実施例において、本開示における方法は、例えば記憶手段８０８という機械可読媒体に、形式的に含まれる、コンピュータソフトウェアプログラムによって実現される。いくつかの実施例では、コンピュータプログラムの部分又は全部は、ＲＯＭ８０２及び／または通信手段８０９により、デバイス８００にロード及び／またはインストールされる。コンピュータプログラムは、ＲＡＭ８０３にロードされ、計算手段８０１によって実行されると、以上説明した方法の１つまたは複数のステップを実行できる。選択的に、他の実施例において、計算手段８０１は、他の任意の適当な方式（例えば、ファームウェアを利用する）によって、本開示における方法を実行するように配置されてよい。

本明細書において、上述したシステムや技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、コンピューターハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現できる。これらの各種実施形態は、次のものを含んでもよい。１つ以上のコンピュータプログラムにおいて実施されており、当該１つ以上のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサーを含むプログラマブルシステムで実行及び／又は解釈されてよく、当該プログラマブルプロセッサーは、専用又は汎用のプログラマブルプロセッサーであってよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送してよい。

本開示の方法を実施するためのプログラムコードは、１つ以上のプログラミング言語の任意の組み合わせを用いて編集してよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されることで、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図で規定された機能／操作を実施されることができる。プログラムコードは、完全的に機械で実行されることができ、部分的に機械で実行されることができ、独立なパッケージソフトウェアとして部分的に機械で実行され且つ部分的にリモート機械で実行される、又は完全的にリモート機械やサーバーで実行されることができる。

本開示の文脈では、機械可読媒体は、命令実行システム、装置又はデバイスが使用され、又は、命令実行システム、装置又はデバイスと結合して使用されるプログラムを含み又は記憶されている、有形の媒体であってよい。機械可読媒体は、機械可読シグナル媒体、又は機械可読記憶媒体であってよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又はこれらの任意の適当な組み合わせを含んでよいが、これに限定されない。機械可読記憶媒体のより具体的な例示としては、１本以上のワイヤに基づく電気接続、携帯型コンピューターディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、携帯型コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶デバイス、磁気記憶デバイス、又はこれらの任意の適当な組み合わせを含んでよい。

ユーザーとのインタラクションを提供するために、上述したシステム及び技術は、コンピュータで実施することができる。当該コンピュータは、ユーザーに情報を表示することに用いられる表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニター）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザーは、当該キーボード及び当該ポインティングデバイスによって、コンピュータに入力情報を提供することができる。ユーザーとのインタラクションを提供するために、他の種類の装置も使える。例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってよい。また、任意の形式（音入力、音声入力、触覚入力を含む）によって、ユーザーからの入力を受信してよい。

ここで記述したシステム及び技術は、バックグラウンドコンポーネントを含む計算システム（例えば、データサーバーとして）、又は中間コンポーネントを含む計算システム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザーインタフェース又はウェブブラウザーを備えるユーザーコンピューターであって、ユーザーは、当該グラフィカルユーザーインタフェース又は当該ウェブブラウザーによってここで記述したシステム及び技術の実施形態とインタラクションを行うことができる）、又はこのようなバックグラウンドコンポーネント、中間コンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで、実施することができる。任意の形式又は媒体によるデジタルデータ通信（例えば、通信ネットワーク）を介して、システムのコンポーネントを互いに接続することができる。通信ネットワークの例示としては、ローカル領域ネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピューターシステムは、クライアントとサーバーとを含んでよい。クライアントとサーバーとは、通常、互いに離れており、通信ネットワークを介してインタラクションを行う。対応するコンピュータにおいて互いにクライアント－サーバー関係を有するコンピュータプログラムを実行することで、クライアントとサーバーとの関係を確立する。サーバーは、クラウドサーバー、分散システムのサーバー、又はブロックチェーンを結合したサーバーであってよい。

なお、上記の様々なプロセスを踏まえて、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載の各ステップは同時に実行されてもよいし、順に実行されてもよいし、他の順番で実行されてもよく、本開示の技術的解決手段の所望の結果を得られるものであれば、本明細書では特に限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものと見なされない。当業者が理解したように、設計上の要件や他の要素に基づいて、様々な修正や、組み合わせ、置き換えを行うことができる。本開示の旨と原則の範囲内で行われた修正、同等置換や改善等は、いずれも本開示の保護範囲に含まれる。

Claims

テキスト検出に用いる深層学習モデルトレーニング方法であって、
トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第１文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第２文字数予測サブネットワークとを含むことと、
第１類サンプルデータ及び現在選択されている第１類サンプルデータのタグデータを選択することと、
現在選択されている第１類サンプルデータを深層学習モデルに入力し、現在選択されている第１類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第１文字数予測値と、テキスト行分割予測結果と、第２文字数予測値とを含むことと、
現在選択されている第１類サンプルデータの前記予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得することと、を含む、方法。
前記深層学習モデルは、符号器ネットワークと、第１復号器ネットワークと、第２復号器ネットワークとをさらに含み、
前記現在選択されている第１類サンプルデータを深層学習モデルに入力し、現在選択されている第１類サンプルデータ予測結果を取得することは、
前記符号器ネットワークにより現在選択されている第１類サンプルデータに対して特徴抽出を行い、大域特徴を取得することと、
前記第１復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第１高次特徴を取得することと、
前記第２復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第２高次特徴を取得することと、
前記単一文字分割サブネットワークにより前記第１高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第１文字数予測サブネットワークにより前記第１高次特徴に対して処理を行い、第１文字数予測値を取得することと、
前記テキスト行分割サブネットワークにより前記第２高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第２文字数予測サブネットワークにより前記第２高次特徴に対して処理を行い、第２文字数予測値を取得することと、を含む、請求項１に記載の方法。
前記第１類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも１つを含み、
前記現在選択されている第１類サンプルデータ予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整するステップは、
現在選択されている第１類サンプルデータの単一文字分割予測結果及び現在選択されている第１類サンプルデータの単一文字分割の真値結果によって、第１損失を計算し、前記第１損失によって、前記符号器ネットワーク、第１復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータの第１文字数予測値及び現在選択されている第１類サンプルデータの文字数の真値によって、第２損失を計算し、前記第２損失によって、前記符号器ネットワーク、第１復号器ネットワーク、第１文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータのテキスト行分割予測結果及び現在選択されている第１類サンプルデータのテキスト行分割の真値結果によって、第３損失を計算し、前記第３損失によって、前記符号器ネットワーク、第２復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータの第２文字数予測値及び現在選択されている第１類サンプルデータの文字数の真値によって、第４損失を計算し、前記第４損失によって、前記符号器ネットワーク、第２復号器ネットワーク、第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも１つを含む、請求項２に記載の方法。
前記方法は、さらに、
複数の第１類サンプルデータの第１文字数予測値及び第２文字数予測値に基づいて、第１文字数予測値と第２文字数予測値との相対エントロピーを確定し、第１相対エントロピーを取得することと、
前記第１相対エントロピーによって、前記第１文字数予測サブネットワーク及び前記第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整することと、を含む、請求項１～３のいずれかに記載の方法。
前記トレーニングされた深層学習モデルを取得することは、
プリセットされたトレーニング終了条件を満たすまで、第１類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第２類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することを含む、請求項１に記載の方法。
前記第２類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行うことは、
複数の第２類サンプルデータを取得することと、
各前記第２類サンプルデータに対してデータ拡張を行い、各前記第２類サンプルデータに対応する第３類サンプルデータを取得することと、
各前記第２類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第１文字数予測サブネットワークが出力した各前記第２類サンプルデータの第３文字数予測値を取得することと、
各前記第３類サンプルデータをトレーニングされた深層学習モデル入力し、前記第２文字数予測サブネットワークが出力した各前記第３類サンプルデータの第４文字数予測値を取得することと、
各前記第２類サンプルデータの第３文字数予測値及び各前記第３類サンプルデータの第４文字数予測値に基づいて、第３文字数予測値と第４文字数予測値との相対エントロピーを確定し、第２相対エントロピーを取得することと、
前記第２相対エントロピーによって、前記第１文字数予測サブネットワーク及び前記第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整することと、を含む、請求項５に記載の方法。
検出しようとするデータを取得することと、
前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、請求項１～６のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング方法に基づいてトレーニングされたものであることと、
前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することと、を含む、テキスト検出方法。
前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定することは、
前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第１数値で、文字がない領域に第２数値で標記し、第１二値画像を取得することと、
前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第１数値で、文字がない領域に第２数値で標記し、第２二値画像を取得することと、
前記第１二値画像における第１数値の領域と前記第２二値画像における第１数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得することと、を含む、請求項７に記載の方法。
前記深層学習モデルは、第１文字数予測サブネットワークと第２文字数予測サブネットワークとを除去した深層学習モデルである、請求項７に記載の方法。
テキスト検出に用いる深層学習モデルトレーニング装置であって、
トレーニングしようとする深層学習モデルを取得し、深層学習モデルは単一文字予測ネットワークとテキスト行予測ネットワークとを含み、前記単一文字予測ネットワークは単一文字分割サブネットワークと第１文字数予測サブネットワークとを含み、前記テキスト行予測ネットワークはテキスト行分割サブネットワークと第２文字数予測サブネットワークとを含む、深層学習モデル取得モジュールと、
第１類サンプルデータ及び現在選択されている第１類サンプルデータのタグデータを選択する、第１類サンプルデータ選択モジュールと、
現在選択されている第１類サンプルデータを深層学習モデルに入力し、現在選択されている第１類サンプルデータ予測結果を取得し、前記予測結果は、単一文字分割予測結果と、第１文字数予測値と、テキスト行分割予測結果と、第２文字数予測値とを含む、予測結果確定モジュールと、
現在選択されている第１類サンプルデータの前記予測結果及びタグデータによって、深層学習モデルのトレーニングパラメータを調整し、トレーニングされた深層学習モデルを取得する、トレーニングパラメータ調整モジュールと、を含む、装置。
前記深層学習モデルは、符号器ネットワークと、第１復号器ネットワークと、第２復号器ネットワークとをさらに含み、
前記予測結果確定モジュールは、
前記符号器ネットワークにより現在選択されている第１類サンプルデータに対して特徴抽出を行い、大域特徴を取得する、大域特徴抽出サブモジュールと、
前記第１復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第１高次特徴を取得する、第１高次特徴抽出サブモジュールと、
前記第２復号器ネットワークにより前記大域特徴に対して特徴抽出を行い、第２高次特徴を取得する、第２高次特徴抽出サブモジュールと、
前記単一文字分割サブネットワークにより前記第１高次特徴に対して処理を行い、出力された単一文字分割予測結果を取得し、前記第１文字数予測サブネットワークにより前記第１高次特徴に対して処理を行い、第１文字数予測値を取得する、第１予測サブモジュールと、
前記テキスト行分割サブネットワークにより前記第２高次特徴に対して処理を行い、テキスト行分割予測結果を取得し、前記第２文字数予測サブネットワークにより前記第２高次特徴に対して処理を行い、第２文字数予測値を取得する、第２予測サブモジュールと、を含む、請求項１０に記載の装置。
前記第１類サンプルデータのタグデータは、文字数の真値、単一文字分割の真値結果、テキスト行分割の真値結果のうち少なくとも１つを含み、
前記トレーニングパラメータ調整モジュールは、
現在選択されている第１類サンプルデータの単一文字分割予測結果及び現在選択されている第１類サンプルデータの単一文字分割の真値結果によって、第１損失を計算し、前記第１損失によって、前記符号器ネットワーク、第１復号器ネットワーク、単一文字分割サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータの第１文字数予測値及び現在選択されている第１類サンプルデータの文字数の真値によって、第２損失を計算し、前記第２損失によって、前記符号器ネットワーク、第１復号器ネットワーク、第１文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータのテキスト行分割予測結果及び現在選択されている第１類サンプルデータのテキスト行分割の真値結果によって、第３損失を計算し、前記第３損失によって、前記符号器ネットワーク、第２復号器ネットワーク、テキスト行分割サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、
現在選択されている第１類サンプルデータの第２文字数予測値及び現在選択されている第１類サンプルデータの文字数の真値によって、第４損失を計算し、前記第４損失によって、前記符号器ネットワーク、第２復号器ネットワーク、第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整するステップ、のうち少なくとも１つを実行することに用いられる、請求項１１に記載の装置。
複数の第１類サンプルデータの第１文字数予測値及び第２文字数予測値に基づいて、第１文字数予測値と第２文字数予測値との相対エントロピーを確定し、第１相対エントロピーを取得し、前記第１相対エントロピーによって、前記第１文字数予測サブネットワーク及び前記第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する、相互学習モジュールをさらに含む、請求項１０～１２のいずれかに記載の装置。
前記深層学習モデルトレーニングモジュールは、プリセットされたトレーニング終了条件を満たすまで、第１類サンプルデータを選択して深層学習モデルに対して教師ありトレーニングを行い、第２類サンプルデータにより深層学習モデルに対して教師なしトレーニングを行い続き、トレーニングされた深層学習モデルを取得することに用いられる、請求項１０に記載の装置。
前記深層学習モデルトレーニングモジュールは、複数の第２類サンプルデータを取得し、各前記第２類サンプルデータに対してデータ拡張を行い、各前記第２類サンプルデータに対応する第３類サンプルデータを取得し、各前記第２類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第１文字数予測サブネットワークが出力した各前記第２類サンプルデータの第３文字数予測値を取得し、各前記第３類サンプルデータをトレーニングされた深層学習モデルに入力し、前記第２文字数予測サブネットワークが出力した各前記第３類サンプルデータの第４文字数予測値を取得し、各前記第２類サンプルデータの第３文字数予測値及び各前記第３類サンプルデータの第４文字数予測値に基づいて、第３文字数予測値と第４文字数予測値との相対エントロピーを確定し、第２相対エントロピーを取得し、前記第２相対エントロピーによって、前記第１文字数予測サブネットワーク及び前記第２文字数予測サブネットワークのうち少なくとも１つのネットワークのトレーニングパラメータを調整する、ことに用いられる、請求項１４に記載の装置。
検出しようとするデータを取得する、検出しようとするデータ取得モジュールと、
前記検出しようとするデータを予めトレーニングされた深層学習モデルに入力し、前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果を取得し、前記深層学習モデルは、請求項１０～１５のいずれかに記載のテキスト検出に用いる深層学習モデルトレーニング装置に基づいてトレーニングされたものである、予測結果確定モジュールと、
前記検出しようとするデータの単一文字分割予測結果及びテキスト行分割予測結果によって、前記検出しようとするデータにおけるテキスト領域を確定する、テキスト領域確定モジュールと、を含む、テキスト検出装置。
前記テキスト領域確定モジュールは、前記検出しようとするデータの単一文字分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第１数値で、文字がない領域に第２数値で標記し、第１二値画像を取得し、前記検出しようとするデータのテキスト行分割予測結果によって、前記検出しようとするデータに対して、文字があると予測された領域に第１数値で、文字がない領域に第２数値で標記し、第２二値画像を取得し、前記第１二値画像における第１数値の領域と前記第２二値画像における第１数値の領域との和集合を取って、前記検出しようとするデータのテキスト領域を取得する、ことに用いられる、請求項１６に記載の装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続するメモリとを含む、電子デバイスであって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行され、前記少なくとも１つのプロセッサを請求項１～９のいずれかに記載の方法を実行可能にする、電子デバイス。
前記コンピュータに請求項１～９のいずれかに記載の方法を実行させる、コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると請求項１～９のいずれかに記載の方法を実現する、コンピュータプログラムを含む、コンピュータプログラム製品。