JP2022550195A - テキスト認識方法、装置、機器、記憶媒体及びコンピュータプログラム - Google Patents

テキスト認識方法、装置、機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022550195A
JP2022550195A JP2022520075A JP2022520075A JP2022550195A JP 2022550195 A JP2022550195 A JP 2022550195A JP 2022520075 A JP2022520075 A JP 2022520075A JP 2022520075 A JP2022520075 A JP 2022520075A JP 2022550195 A JP2022550195 A JP 2022550195A
Authority
JP
Japan
Prior art keywords
image
text
training
neural network
text image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2022520075A
Other languages
English (en)
Inventor
文佳 王
学博 劉
恩澤 謝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022550195A publication Critical patent/JP2022550195A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本発明の実施例は、テキスト認識方法、装置、機器及び記憶媒体を提供する。第1テキスト画像の特徴マップを取得し、前記特徴マップに含まれる少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理することにより、前記第1テキスト画像よりも大きな解像度の第2テキスト画像を取得し、第1テキスト画像中の画像ブロック同士が関連性を有するため、上記方式によってテキスト同士の関連性を有効的に利用して解像度の低い第1テキスト画像を解像度の高い第2テキスト画像に回復することができ、更に前記第2テキスト画像に対してテキスト認識を行うことにより、第1テキスト画像中のテキスト内容を認識することができる。【選択図】図2

Description

本発明は、コンピュータビジョン技術分野に関し、特にテキスト認識方法、装置、機器及び記憶媒体に関する。
低解像度のテキスト画像は、日常生活において非常によく見られる。例えば、携帯電話等の、画像収集機器が実装された端末機器で収集されるテキスト画像の解像度が低い可能性はある。これらの画像が細部の内容情報を失ったため、画像中のテキストに対する認識正確率が低い。従来のテキスト認識方式では、一般的に画像のテクスチャを再構築してから、再構築された画像に基づいてテキスト認識を行う。しかし、このような方式の認識正確率が低かった。
本発明は、テキスト認識方法、装置、機器及び記憶媒体を提供する。
本発明の実施例の第1態様は、テキスト認識方法を提供する。前記テキスト認識方法は、第1テキスト画像の特徴マップを取得するステップであって、前記特徴マッが少なくとも1つの特徴シーケンスを含むステップと、前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理し、第2テキスト画像を取得するステップと、前記第2テキスト画像に対してテキスト認識を行うステップと、を含み、前記特徴シーケンスは、前記第1テキスト画像中の少なくとも2つの画像ブロックの間の関連性を表すために用いられ、前記第2テキスト画像の解像度は、前記第1テキスト画像の解像度よりも大きい。
幾つかの実施例において、前記第1テキスト画像の特徴マップを取得するステップは、前記第1テキスト画像の複数のチャンネル図と前記第1テキスト画像に対応する2値画像とを取得することと、前記複数のチャンネル図及び前記2値画像に対して特徴抽出を行い、前記第1テキスト画像の特徴マップを取得することと、を含む。
幾つかの実施例において、前記第1テキスト画像の特徴マップを取得するステップは、前記第1テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得することを含む。
幾つかの実施例において、前記ニューラルネットワークは、前記第1テキスト画像に基づいて中間画像を生成することと、前記中間画像に対して特徴抽出を行い、前記特徴マップを取得することとにより、前記特徴マップを取得し、前記中間画像のチャンネル数は、前記第1テキスト画像のチャンネル数よりも大きい。
幾つかの実施例において、前記ニューラルネットワークは、少なくとも1つの畳み込みニューラルネットワーク及び双方向長短期記憶ネットワークを含み、前記少なくとも1つの畳み込みニューラルネットワークの出力端は、前記双方向長短期記憶ネットワークの入力端に接続され、前記第1テキスト画像の特徴シーケンスを取得することは、前記第1テキスト画像を前記少なくとも1つの畳み込みニューラルネットワークに入力し、前記少なくとも1つの畳み込みニューラルネットワークから出力された中間画像を取得することと、前記中間画像を前記双方向長短期記憶ネットワークに入力し、前記双方向長短期記憶ネットワークから出力された前記特徴マップを取得することと、を含む。
幾つかの実施例において、前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、前記第1テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得することは、前記複数のサブネットワークのうちの第iサブネットワークから出力された第i出力画像を前記複数のサブネットワークのうちの第i+1サブネットワークに入力することにより、前記第i+1サブネットワークを介して第i+1中間画像を生成し、前記第i+1中間画像に対して特徴抽出を行い、第i+1出力画像を取得することと、第N出力画像を前記特徴マップとして特定することと、を含み、
前記第i+1中間画像のチャンネル数は、前記第i出力画像のチャンネル数よりも大きく、i及びNは、正整数であり、Nは、サブネットワークの総数であり、1≦i≦N-1、N≧2であり、第1出力画像を取得することは、第1サブネットワークが前記第1テキスト画像に基づいて第1中間画像を生成し、前記第1中間画像に対して特徴抽出を行い、第1出力画像を取得することを含む。
幾つかの実施例において、前記テキスト認識方法は、前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理する前に、前記第1テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとなるように、前記第1テキスト画像を処理するステップを更に含む。
幾つかの実施例において、前記テキスト認識方法は、第2テキスト画像が取得された後、前記第2テキスト画像のチャンネル数と前記第1テキスト画像のチャンネル数とが同じとなるように、前記第2テキスト画像を処理するステップを更に含み、前記第2テキスト画像に対してテキスト認識を行うステップは、処理後の第2テキスト画像に対してテキスト認識を行うことを含む。
幾つかの実施例において、前記テキスト認識方法は、少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするステップを更に含み、各グループのトレーニング画像は、第1トレーニング画像及び第2トレーニング画像を含み、前記第1トレーニング画像と前記第2トレーニング画像とは、同じテキストを含み、前記第1トレーニング画像の解像度は、第1解像度閾値よりも小さく、前記第2トレーニング画像の解像度は、第2解像度閾値よりも大きく、前記第1解像度閾値は、前記第2解像度閾値以下である。
幾つかの実施例において、前記少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするステップは、前記第1トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得することと、前記第1トレーニング画像に対応する第2トレーニング画像と前記出力画像とに基づいて損失関数を特定することと、前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行うことと、を含む。
幾つかの実施例において、前記損失関数は、第1損失関数と第2損失関数とのうちの少なくとも1つを含み、前記第1損失関数は、前記第1トレーニング画像と前記第2トレーニング画像とにおける各対応画素の平均二乗偏差に基づいて特定され、及び/又は、前記第2損失関数は、前記第1トレーニング画像と前記第2トレーニング画像とにおける各対応画素の勾配場の差に基づいて特定される。
幾つかの実施例において、前記テキスト認識方法は、前記少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングする前に、前記第1トレーニング画像と前記第2トレーニング画像とを整列させるステップを更に含む。
幾つかの実施例において、前記第1トレーニング画像と第2トレーニング画像とを整列させるステップは、予めトレーニングされた空間変換ネットワークを介して前記第1トレーニング画像を処理することにより、前記第1トレーニング画像中のテキストと前記第2トレーニング画像中のテキストとを整列させることを含む。
幾つかの実施例において、前記第1トレーニング画像は、第1焦点距離が設定された第1画像収集装置が第1位置における撮影対象を撮影したものであり、前記第2トレーニング画像は、第2焦点距離が設定された第2画像収集装置が前記第1位置における前記撮影対象を撮影したものであり、前記第1焦点距離は、前記第2焦点距離よりも小さい。
本発明の実施例の第2態様は、テキスト認識装置を提供する。前記テキスト認識装置は、第1テキスト画像の特徴マップであって少なくとも1つの特徴シーケンスを含む特徴マップを取得するための取得モジュールと、前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理し、第2テキスト画像を取得するための第1処理モジュールと、第2テキスト画像に対してテキスト認識を行うためのテキスト認識モジュールと、を備え、前記特徴シーケンスは、前記第1テキスト画像中の少なくとも2つの画像ブロックの間の関連性を表すために用いられ、前記第2テキスト画像の解像度は、前記第1テキスト画像の解像度よりも大きい。
幾つかの実施例において、前記取得モジュールは、前記第1テキスト画像の複数のチャンネル図と前記第1テキスト画像に対応する2値画像とを取得するための第1取得手段と、前記複数のチャンネル図及び前記2値画像に対して特徴抽出を行い、前記第1テキスト画像の特徴マップを取得するための特徴抽出手段と、を備える。
幾つかの実施例において、前記取得モジュールは、前記第1テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得する。
幾つかの実施例において、前記ニューラルネットワークは、前記第1テキスト画像に基づいて中間画像を生成し、前記中間画像に対して特徴抽出を行い、前記特徴マップを取得することにより、前記特徴マップを取得する。前記中間画像のチャンネル数は、前記第1テキスト画像のチャンネル数よりも大きい。
幾つかの実施例において、前記ニューラルネットワークは、少なくとも1つの畳み込みニューラルネットワーク及び双方向長短期記憶ネットワークを含み、前記少なくとも1つの畳み込みニューラルネットワークの出力端は、前記双方向長短期記憶ネットワークの入力端に接続され、前記取得モジュールは、前記第1テキスト画像を前記少なくとも1つの畳み込みニューラルネットワークに入力し、前記少なくとも1つの畳み込みニューラルネットワークから出力された中間画像を取得するための第2取得手段と、前記中間画像を前記双方向長短期記憶ネットワークに入力し、前記双方向長短期記憶ネットワークから出力された前記特徴マップを取得するための第3取得手段と、を備える。
幾つかの実施例において、前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、前記取得モジュールは、前記複数のサブネットワークのうちの第iサブネットワークから出力された第i出力画像を前記複数のサブネットワークのうちの第i+1サブネットワークに入力することにより、前記第i+1サブネットワークを介して第i+1中間画像を生成し、前記第i+1中間画像に対して特徴抽出を行い、第i+1出力画像を取得し、第N出力画像を前記特徴マップとして特定し、前記第i+1中間画像のチャンネル数は、前記第i出力画像のチャンネル数よりも大きく、i及びNは、正整数であり、Nは、サブネットワークの総数であり、1≦i≦N-1、N≧2であり、第1出力画像を取得することは、第1サブネットワークが前記第1テキスト画像に基づいて第1中間画像を生成し、前記第1中間画像に対して特徴抽出を行い、第1出力画像を取得することを含む。
幾つかの実施例において、前記装置は、前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理する前に、前記第1テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとなるように、前記第1テキスト画像を処理するための第2処理モジュールを更に備える。
幾つかの実施例において、前記装置は、第2テキスト画像が取得された後、前記第2テキスト画像のチャンネル数と前記第1テキスト画像のチャンネル数とが同じとなるように、前記第2テキスト画像を処理するための第3処理モジュールを更に備え、前記テキスト認識モジュールは、処理後の第2テキスト画像に対してテキスト認識を行う。
幾つかの実施例において、前記装置は、少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に備え、各グループのトレーニング画像は、第1トレーニング画像及び第2トレーニング画像を含み、前記第1トレーニング画像と前記第2トレーニング画像とは、同じテキストを含み、前記第1トレーニング画像の解像度は、第1解像度閾値よりも小さく、前記第2トレーニング画像の解像度は、第2解像度閾値よりも大きく、前記第1解像度閾値は、前記第2解像度閾値以下である。
幾つかの実施例において、前記トレーニングモジュールは、前記第1トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得するための入力手段と、前記第1トレーニング画像に対応する第2トレーニング画像と前記出力画像とに基づいて損失関数を特定するための特定手段と、前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行うためのトレーニング手段と、を備える。
幾つかの実施例において、前記損失関数は、第1損失関数と第2損失関数とのうちの少なくとも1つを含み、前記第1損失関数は、前記第1トレーニング画像と前記第2トレーニング画像とにおける各対応画素の平均二乗偏差に基づいて特定され、及び/又は、前記第2損失関数は、前記第1トレーニング画像と前記第2トレーニング画像とにおける各対応画素の勾配場の差に基づいて特定される。
幾つかの実施例において、前記装置は、前記少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングする前に、前記第1トレーニング画像と前記第2トレーニング画像とを整列させるための整列モジュールを更に備える。
幾つかの実施例において、前記整列モジュールは、予めトレーニングされた空間変換ネットワークを介して前記第1トレーニング画像を処理することにより、前記第1トレーニング画像中のテキストと前記第2トレーニング画像中のテキストとを整列させる。
幾つかの実施例において、前記第1トレーニング画像は、第1焦点距離が設定された第1画像収集装置が第1位置における撮影対象を撮影したものであり、前記第2トレーニング画像は、第2焦点距離が設定された第2画像収集装置が前記第1位置における前記撮影対象を撮影したものであり、前記第1焦点距離は、前記第2焦点距離よりも小さい。
本発明の実施例の第3態様は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、何れかの実施例に記載の方法は、実施される。
本発明の実施例の第4態様は、コンピュータ機器を提供する。当該コンピュータ機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを含み、前記プロセッサは、前記プログラムを実行したときに、何れかの実施例に記載の方法を実施する。
本発明の実施例の第5態様は、コンピュータプログラムを提供する。前記コンピュータプログラムがプロセッサによって実行されたときに、何れかの実施例に記載の方法は、実施される。
本発明の実施例では、第1テキスト画像の特徴マップを取得し、前記特徴マップに含まれる少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理することにより、前記第1テキスト画像よりも大きな解像度の第2テキスト画像を取得し、第1テキスト画像中の画像ブロック同士が関連性を有するため、上記方式によってテキスト同士の関連性を有効的に利用して解像度の低い第1テキスト画像を解像度の高い第2テキスト画像に回復することができ、更に前記第2テキスト画像に対してテキスト認識を行うことにより、第1テキスト画像中のテキスト内容を認識することができ、テキスト認識の正確率を向上させる。
上述した一般的な記述と後文の詳細記述が単に例示的なものと解釈的なものであり、本発明を制限するものではないことは、理解されるべきである。
ここでの図面は、明細書に組み込まれて明細書の一部を構成する。これらの図面は、本発明に合致する実施例を示しつつ、明細書とともに本発明の解決手段を説明するために用いられる。
本発明の実施例のテキスト画像の模式図一である。 本発明の実施例のテキスト画像の模式図二である。 本発明の実施例のテキスト画像の模式図三である。 本発明の実施例のテキスト認識方法のフローチャートである。 本発明の実施例の画像間の不整列現象の模式図である。 本発明の実施例のテキスト認識方法の全体フローの模式図である。 本発明の実施例のテキスト認識装置のブロック図である。 本発明の実施例のコンピュータ機器の構造模式図である。
ここで、例示的な実施例を詳細に説明する。その例示は、図面に示される。以下の記述は、図面に係る際、別途示さない限り、異なる図面における同じ符号が同じ又は類似する要素を示す。以下の例示的な実施例に記述される実施形態が本発明と一致する全ての実施形態を代表するわけではない。逆に、それらは、単に添付する特許請求の範囲に詳細に記述されるような、本発明の幾つかの態様に一致する装置及び方法の例である。
本発明で使用される用語は、単に特定の実施例を記述する目的であり、本発明を制限するためのものではない。本発明及び添付する特許請求の範囲で使用される単数形式の「1種」、「前記」及び「当該」も、文脈から他の意味を明瞭で分かる場合でなければ、複数の形式を含むことを意図する。理解すべきことは、本文で使用される用語「及び/又は」が、1つ又は複数の関連する列挙項目を含む如何なる或いは全ての可能な組み合わせを指す。また、本文における用語「少なくとも1種」は、複数種のうちの何れか1種又は複数種のうちの少なくとも2種の任意の組み合わせを指す。
理解すべきことは、本発明において第1、第2、第3等の用語を用いて各種の情報を記述するが、これらの情報は、これらの用語に限定されるものではない。これらの用語は、単に同一のタイプの情報同士を区分するために用いられる。例えば、本発明の範囲を逸脱しない限り、第1情報が第2情報と呼称されてもよく、類似的に、第2情報が第1情報と呼称されてもよい。これは、コンテキストに依存する。例えば、ここで使用される言葉「場合」は、「…とき」や「…ときに」あるいは「特定の状況に応じて」として解釈されてもよい。
当業者が本発明の実施例における技術案をより良好に理解でき、且つ本発明の実施例の上記目的、特徴およびメリットがより分かりやすくなるように、以下に図面を組み合わせて本発明の実施例における技術案をより詳細に説明する。
日常生活では、一般的にテキスト画像からテキスト情報を認識する必要があり、即ち、テキスト認識を行う必要がある。幾つかのテキスト画像(例えば、携帯電話等の、画像収集機器が実装された端末機器で収集されたテキスト画像)の解像度が低い。これらの解像度の低い画像が細部の内容情報を失ったため、画像中のテキストに対する認識正確率が低くなる。この問題は、特にシーンテキスト画像(Scene Text Image、STI)にとって深刻である。シーンテキスト画像は、自然シーンにおいて撮影された、テキスト情報を含む画像である。シーンテキスト画像中のテキスト情報は、身分証明書番号、乗車券、広告看板、ナンバープレート等のうちの少なくとも1つを含んでもよいが、それらに限定されない。図1A~図1Cは、テキスト情報の例示を示す。異なるシーンテキスト画像中のテキストの特徴の差異が大きく、例えば、テキストの大きさ、フォント、色、明るさ及び/又はねじれの変形度合いが異なる可能性があるため、走査されたドキュメント画像中のテキストを認識するよりも、シーンテキスト画像に対してテキスト認識を行う難易度は、遥かに大きい。これにより、シーンテキスト画像に対する認識正確率は、印刷体テキスト画像に対する認識正確率よりも低くなる。
従来のテキスト認識方式は、一般的にテキスト画像中の隣接画素の色での類似性を先に利用して、事前定義の方式で隣接画素の色の間を補間することにより、テキスト画像のテクスチャを再構築し、次に、再構築されたテキスト画像に基づいてテキスト認識を行う。このようなテキスト認識方式は、比較的に鮮明なテキスト画像に対する認識正確率が高いが、低解像度のテキスト画像に対する認識正確率が急激に下がる。これに鑑みて、本発明の実施例は、テキスト認識方法を提供する。図2に示すように、前記方法は、ステップ201~ステップ203を含んでもよい。
ステップ201では、第1テキスト画像の特徴マップを取得し、前記特徴マップは、少なくとも1つの特徴シーケンスを含み、前記特徴シーケンスは、前記第1テキスト画像中の少なくとも2つの画像ブロックの間の関連性を表すために用いられる。
ステップ202では、前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理し、第2テキスト画像を取得し、前記第2テキスト画像の解像度は、前記第1テキスト画像の解像度よりも大きい。
ステップ203では、前記第2テキスト画像に対してテキスト認識を行う。
ステップ201では、前記第1テキスト画像中のテキストは、文字、記号及び数字のうちの少なくとも1種を含んでもよい。幾つかの実施例において、前記第1テキスト画像は、自然シーンで撮影された画像であってもよく、前記第1テキスト画像中のテキストは、自然シーンでの各種のタイプのテキストであってもよい。例えば、前記第1テキスト画像は、身分証明書の画像であってもよく、前記第1テキスト画像中のテキストは、身分証明書における身分証明書番号及び氏名である。更に例えば、前記第1テキスト画像は、広告看板の画像であってもよく、前記第1テキスト画像中のテキストは、広告看板におけるスローガンである。他の幾つかの実施例において、前記第1テキスト画像は、印刷体文字を含む画像であってもよい。実際の応用において、前記第1テキスト画像は、解像度が低いことによってテキスト認識正確率が所定の正確率閾値よりも低くなるテキスト画像であってもよい。
1つの単語若しくはフレーズを構成する各文字、又は1つの単語を構成する各アルファベットは、ランダムに組み合わせられたものではない。例えば、1グループのテキスト「打*鼠」(「モ*ラ叩き」)については、「打地鼠」(「モグラ叩き」)がよく出現する1つのフレーズであるため、「*」の内容が「地」(「グ」)である確率が非常に大きい。このようにコンテキストからテキスト内容を推定する方式は、テキストの間の関連性を利用するものである。テキスト間が強い関連性を有することは、一般的である。したがって、第1テキスト画像に対して特徴抽出を行い、前記第1テキスト画像の特徴マップを取得してもよい。詳細に言えば、それぞれ水平方向及び/又は垂直方向において第1テキスト画像に対して特徴抽出を行い、前記第1テキスト画像の少なくとも1つの特徴シーケンスを取得してもよい。各特徴シーケンスは、前記第1テキスト画像中の少なくとも2つの画像ブロックの間の関連性を表すために用いられてもよい。
幾つかの実施例において、各画素点は、1つの画像ブロックとされてもよく、前記特徴シーケンスにおける各要素は、前記第1テキスト画像中の隣接画素点の間の関連性を表すために用いられてもよい。他の幾つかの実施例において、複数の隣接する画素点は、共同して1つの画像ブロックとされてもよく、前記特徴シーケンスにおける各要素は、前記第1テキスト画像中の隣接画像ブロックの間の関連性を表すために用いられてもよい。
多くの場合に、第1テキスト画像の背景が単色であり、且つ背景の色とテキストの色とが一般的に異なるため、第1テキスト画像に対応する2値画像に基づいて第1テキスト画像中のテキストの概略位置を特定してもよい。背景色とテキスト色との差異が大きい場合に、2値画像でテキスト位置を特定する方式により、比較的に正確な結果を取得することができる。また、第1テキスト画像のチャンネル図に基づいて第1テキスト画像中のテキストの色を特定してもよい。したがって、幾つかの実施例において、前記第1テキスト画像の複数のチャンネル図と前記第1テキスト画像に対応する2値画像とを取得し、前記複数のチャンネル図及び前記2値画像に対して特徴抽出を行い、前記第1テキスト画像の特徴マップを取得してもよい。
ただし、前記2値画像は、第1テキスト画像の平均グレースケール値に基づいて取得されてもよい。詳細に言えば、第1テキスト画像中の各画素点の平均グレースケール値を算出し、画素値が当該平均グレースケール値よりも大きい画素点のグレースケール値を第1グレースケール値として特定し、画素値が当該平均グレースケール値以下である画素点のグレースケール値を第2グレースケール値として特定し、前記第1グレースケール値が前記第2グレースケール値よりも大きい。幾つかの実施例において、前記第1グレースケール値と前記第2グレースケール値との差は、所定画素値よりも大きくてもよい。例えば、前記第1グレースケール値が255であってもよく、前記第2グレースケール値が0であってもよい。これにより、前記二値図における各画素点は、それぞれ黒色画素点又は白色画素点である。このように、背景画素点の画素値とテキスト画素点の画素値との差異を増加可能であり、テキストに対する位置決めがより正確になる。前記チャンネル図は、RGB(Red Green Blue、赤緑青)画像のRチャンネル、Gチャンネル及びBチャンネルのチャンネル図であってもよく、画像の色を表すための他のチャンネルのチャンネル図であってもよい。
幾つかの実施例において、前記第1テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得してもよい。前記ニューラルネットワークは、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)、長短期記憶ネットワーク(Long-Short Term Memory、LSTM)又は他のタイプのニューラルネットワークであってもよく、複数種のニューラルネットワークを組み合わせたニューラルネットワークであってもよい。幾つかの実施例において、双方向長短期記憶ネットワーク(Bidirectional Long-Short Term Memory、BLSTM)を採用して前記特徴マップを取得するとともに、前記第1テキスト画像に対して水平方向及び垂直方向において特徴抽出を行うことにより、再構築された第2テキスト画像のロバスト性を向上させてもよい。
前記ニューラルネットワークは、前記第1テキスト画像に基づいて中間画像を生成してから、前記中間画像に対して特徴抽出を行って前記特徴マップを取得してもよく、前記中間画像のチャンネル数は、前記第1テキスト画像のチャンネル数よりも大きい。チャンネル数が前記第1テキスト画像のチャンネル数よりも大きい中間画像を生成することにより、前記第1テキスト画像中の特徴の豊富度を増加可能であり、これによって再構築された第2テキスト画像の解像度を向上させることができる。実際の応用において、前記ニューラルネットワークは、少なくとも1つの畳み込みニューラルネットワーク及び1つの双方向長短期記憶ネットワークを含んでもよく、前記少なくとも1つの畳み込みニューラルネットワークのうちの各畳み込みニューラルネットワークは、順次接続され、前記双方向長短期記憶ネットワークは、前記少なくとも1つの畳み込みニューラルネットワークのうちの最後1つの畳み込みニューラルネットワークに接続される。前記少なくとも1つの畳み込みニューラルネットワークを介して前記中間画像を生成し、双方向長短期記憶ネットワークを介して特徴抽出を行ってもよい。
更に、前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、各サブネットワークの構造は、上記実施例における単一のニューラルネットワークの構造と同じであり、ここで繰り返し説明しない。前記ニューラルネットワークにおける、前から後へ数える場合の第i位のサブネットワークを第iサブネットワークと呼称すれば、前記複数のサブネットワークのうちの第iサブネットワークから出力された第i出力画像を前記複数のサブネットワークのうちの第i+1サブネットワークに入力することにより、前記第i+1サブネットワークを介して第i+1中間画像を生成してもよい。前記第i+1中間画像に対して特徴抽出を行い、第i+1出力画像を取得し、第N出力画像を前記特徴マップとして特定してもよい。前記第i+1中間画像のチャンネル数は、前記第i出力画像のチャンネル数よりも大きく、i及びNは、正整数であり、Nは、サブネットワークの総数であり、1≦i≦N-1、N≧2である。第1出力画像を取得することは、第1サブネットワークが前記第1テキスト画像に基づいて第1中間画像を生成し、前記第1中間画像に対して特徴抽出を行い、第1出力画像を取得することを含む。
つまり、第1サブネットワークは、第1テキスト画像に基づいて第1中間画像を生成し、第1中間画像に対して特徴抽出を行って第1出力画像を取得し、第1出力画像を第2サブネットワークに入力する。第1中間画像のチャンネル数は、第1テキスト画像のチャンネル数よりも大きい。第2サブネットワークは、第1出力画像に基づいて第2中間画像を生成し、第2中間画像に対して特徴抽出を行って第2出力画像を取得し、第2出力画像を第3サブネットワークに入力する。第2中間画像のチャンネル数は、第1出力画像のチャンネル数よりも大きい。これをもって類推する。複数のカスケードのサブネットワークを介して、第1テキスト画像中の特徴を十分に抽出可能であるため、再構築された第2テキスト画像の解像度を更に向上させることができる。
ステップ202では、前記特徴シーケンスに基づいて、pixel shuffle等のようなアップサンプリング方式を採用して前記第1テキスト画像に対してアップサンプリング処理を行い、前記第1テキスト画像に対応する第2テキスト画像を取得してもよい。更に、ステップ201において生成された特徴マップのチャンネル数が第1テキスト画像のチャンネル数よりも大きい場合に、ステップ202では、前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理する前に、前記第1テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとなるように、前記第1テキスト画像を処理してもよい。その後、特徴マップ中の特徴シーケンスに基づいて処理後の第1テキスト画像を処理し、第2テキスト画像を取得する。本ステップにおいて第1テキスト画像を処理することで第1テキスト画像のチャンネル数を増加する過程は、畳み込みニューラルネットワークを採用して実現され得る。
これを基に、第2テキスト画像が取得された後、前記第2テキスト画像のチャンネル数と前記第1テキスト画像のチャンネル数とが同じとなるように、前記第2テキスト画像を処理してもよい。即ち、第2テキスト画像を4チャンネルに復元する。この過程は、1つの畳み込みニューラルネットワークにて実現され得る。
幾つかの実施例において、ステップ201において採用されたニューラルネットワークは、複数グループのトレーニング画像に基づいてトレーニングされて得るものであってもよく、各グループのトレーニング画像は、同一テキストを有する第1トレーニング画像及び第2トレーニング画像を含み、前記第1トレーニング画像と前記第2トレーニング画像とは、同じテキストを含む。前記第1トレーニング画像の解像度は、所定の第1解像度閾値よりも小さく、前記第2トレーニング画像の解像度は、所定の第2解像度閾値よりも大きく、前記第1解像度閾値は、前記第2解像度閾値以下である。前記第1トレーニング画像を低解像度(Low Resolution、LR)画像と呼称し、前記第2トレーニング画像を高解像度(High Resolution、HR)画像と呼称してもよい。
テキスト画像データセットは、予め確立されてもよく、前記テキスト画像データセットは、複数のテキスト画像ペアを含んでもよく、各テキスト画像ペアは、1つの低解像度のテキスト画像と、前記低解像度のテキスト画像に対応する1つの高解像度のテキスト画像とを含む。前記テキスト画像ペアにおけるテキストは、各種の自然シーンでのテキストであってもよく、前記自然シーンは、町、図書館、商店、交通手段内部等のシーンのうちの少なくとも1つを含んでもよいが、それらに限定されない。
他の幾つかの実施例において、以下のニューラルネットワークを1つの総的なニューラルネットワークとし、前記第1トレーニング画像及び第2トレーニング画像によって直接前記総的なニューラルネットワークをトレーニングしてもよい。当該ニューラルネットワークは、特徴抽出を行うことで特徴マップを取得するためのニューラルネットワーク、特徴抽出の前に第1テキスト画像を処理することで第1テキスト画像のチャンネル数を増加するための畳み込みニューラルネットワーク、及び、第2テキスト画像が取得された後で第2テキスト画像に対してチャンネル回復を行う畳み込みニューラルネットワークを含んでもよい。
詳細に言えば、前記第1トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得し、前記第1トレーニング画像に対応する第2トレーニング画像と前記出力画像とに基づいて損失関数を特定し、前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行ってもよい。
前記損失関数は、各種のタイプの損失関数であってもよく、2種又は2種以上の損失関数の組み合わせであってもよい。幾つかの実施例において、前記損失関数は、第1損失関数と第2損失関数とのうちの少なくとも1つを含み、前記第1損失関数は、第1トレーニング画像と第2トレーニング画像とにおける各対応画素の平均二乗誤差に基づいて特定されてもよく、例えば、L2損失関数であってもよい。他の幾つかの実施例において、前記第2損失関数は、第1トレーニング画像と第2トレーニング画像とにおける各対応画素の勾配場の差に基づいて特定されてもよく、例えば、グラジエントプロファイル損失関数(Gradient Profile Loss、GPL)であってもよい。
グラジエントプロファイル損失関数LGPの定義は、下記のようになる。
Figure 2022550195000002
ただし、∇Ihr(X)は、HR画像の画素xにおける勾配場を表し、∇Isr(X)は、HR画像に対応する超解像度画像(例えば、図4における出力画像)の画素xにおける勾配場を表し、x0は、画素の下限を表し、xは、画素の上限を表し、Eは、エネルギーの計算を表し、数式中の「||∇Ihr(X)-∇Isr(X)||」の添え字1は、L1損失関数の計算を表す。
勾配場は、テキスト画像のテキスト特徴及び背景特徴を生き生きと示した。また、LR画像が常により広い勾配場曲線を有するが、HR画像の勾配場曲線がより狭い。HR画像の勾配場が取得された後、複雑な数学演算を行わずに勾配場曲線をより狭く圧縮してもよい。したがって、グラジエントプロファイル損失関数を採用することにより、テキスト特徴と背景特徴との間の鋭い境界を再構築可能であり、テキストと背景とをより良好に区切ることに寄与し、より明確な形状を生成することができ、トレーニングされたニューラルネットワークが一層確実になる。
従来のモデルトレーニング方式では、一般的に高解像度画像に対してダウンサンプリングを行う方式によって低解像度画像(このような方式によって生成された低解像度画像を人工低解像度画像と呼称する)を人工的に生成してから、人工低解像度画像によってモデルトレーニングを行う。しかし、このような人工低解像度画像よりも、真実の低解像度画像(撮影焦点距離が長い等の原因による低解像度画像)は、解像度が一般的に低く、より多様化になる。また、非常に多い場合に、テキスト画像中のテキストは、多様な形状、分散した撮影光照及び異なる背景を有する。したがって、人工低解像度画像にてトレーニングされたモデルにより、テキスト画像の特徴マップを良好に取得することができないため、テキスト認識の正確率が低い。
上記問題を解決すべく、本発明の実施例で採用される第1トレーニング画像及び第2トレーニング画像は、何れも実画像、即ち、異なる焦点距離によって撮影された画像である。前記第1トレーニング画像は、第1焦点距離が設定された第1画像収集装置が第1位置における撮影対象を撮影したものであり、前記第2トレーニング画像は、第2焦点距離が設定された第2画像収集装置が前記第1位置における前記撮影対象を撮影したものであり、前記第1焦点距離は、前記第2焦点距離よりも小さい。前記第1画像収集装置と前記第2画像収集装置は、同一の画像収集装置であってもよく、異なる画像収集装置であってもよい。幾つかの実施例において、第1焦点距離の値は、24mm~120mmの間にあってもよく、例えば、70mmであってもよい。他の幾つかの実施例において、第2焦点距離の値は、120mm~240mmの間にあってもよく、例えば、150mmであってもよい。更に、前記第1焦点距離と前記第2焦点距離との数は、何れも複数あってもよく、且つ複数の前記第1焦点距離のうちの各第1焦点距離は、何れも複数の前記第2焦点距離のうちの最小の第2焦点距離よりも小さい。例えば、前記第1焦点距離は、35mm、50mm及び70mm等を含んでもよく、前記第2焦点距離は、150mm、170mm及び190mm等を含んでもよい。
テキスト画像データセットにおけるテキスト画像ペアを用いてモデルトレーニングを行う際に、一般的に、テキスト画像ペア中のテキスト画像からテキストを含む領域を切り出してから、テキスト画像ペア中の低解像度のテキスト画像から切り出された画像領域を第1トレーニング画像とし、テキスト画像ペア中の高解像度のテキスト画像から切り出された画像領域を第2トレーニング画像とする。切り出された第1トレーニング画像と第2トレーニング画像とのサイズは、同じである。
同一テキスト画像ペア中のテキストが同じであるため、処理効率が向上するように、一般的にテキスト画像ペア中の1つの画像を参照画像とし、切り出しすべき領域の当該参照画像における位置を取得してから、前記位置に基づいてもう1つの画像に対して切り出しを行う。例えば、テキスト画像ペア中の高解像度画像を参照画像とし、高解像度画像中のテキストの位置に基づいて低解像度画像に対して切り出しを行ってもよい。しかし、撮影中においてカメラが移動する等の原因により、各画像の中心点位置が異なるため、上記方式によって切り出しを行うと、取得された第1トレーニング画像と第2トレーニング画像とにおけるテキストの位置は、異なる。このような現象は、図3に示すように、不整列(misalignment)と呼称される。不整列により、モデルは、誤って1つの画像の背景部分をもう1つの画像の文字部分に対応させ、誤った画素対応情報を学習して、ゴースト問題が発生してしまう。
したがって、上記問題を解決すべく、幾つかの実施例において、同一テキストを有する第1トレーニング画像及び第2トレーニング画像に基づいてニューラルネットワークトレーニングを行う前に、前記第1トレーニング画像と第2トレーニング画像とを整列させてもよい。具体的に、予めトレーニングされたモデルを介して第1トレーニング画像を処理することにより、第1トレーニング画像と第2トレーニング画像とを整列させてもよい。前記モデルは、第1トレーニング画像に対して補間及び平行移動を行うことにより、第1トレーニング画像と第2トレーニング画像とを整列させてもよい。前記予めトレーニングされたモデルは、空間変換ネットワーク(Spatial Transformation Networks、STN)であってもよい。画像整列により、ゴースト問題を効果的に軽減し、トレーニングされたニューラルネットワークの正確率を向上させることができる。
各グループのトレーニング画像のうちの第1トレーニング画像及び第2トレーニング画像の数は、何れも1である。画像をより良好に認識するために、全ての画像を水平方向まで回転させてから、回転後の第1トレーニング画像及び第2トレーニング画像に基づいてニューラルネットワークのトレーニングを行ってもよい。
前記第1トレーニング画像と前記第2トレーニング画像とのサイズが所定値に達するように、前記第1トレーニング画像と前記第2トレーニング画像とのうちの少なくとも1つに対してスケーリング処理を行ってもよい。詳細に言えば、前記第1トレーニング画像が第1サイズに達するように、画素サイズが第1サイズよりも小さい第1トレーニング画像に対してアップサンプリング処理を行ってもよい。前記第2トレーニング画像が第2サイズに達するように、画素サイズが第2サイズよりも小さい第2トレーニング画像に対してアップサンプリング処理を行ってもよい。ただし、前記第1サイズは、前記第2サイズよりも小さい。実践中から発見されるように、テキスト画像の画素高度が16に達した場合に、テキスト画像を再構築することでテキスト認識効果を大きく向上させることができ、テキスト画像の画素高度が小さすぎると、テキスト画像を再構築しても、認識結果も理想的ではない。したがって、画素高度16を第1サイズとして決定してもよい。更に、前記第1サイズは、64×16の画素サイズと設定されてもよい。その一方、画素高度が32を超えた場合に、画素サイズを増加しても、テキスト認識の効果向上度合いが大きくないため、画素高度32を第2サイズとして決定してもよい。更に、前記第2サイズは、128×32の画素サイズと設定されてもよい。
前記テキスト画像データセットから、一部の画像ペアをテストセットとして選択してもよい。当該テストセットは、トレーニングされたニューラルネットワークの性能をテストするために用いられる。前記画像ペアのうちの低解像度画像の解像度に応じて、前記テストセットを3つのサブセットに分けてもよい。第1サブセットにおける低解像度画像の解像度は、所定の第3解像度閾値よりも小さく、第2サブセットにおける低解像度画像の解像度は、前記第3解像度閾値よりも大きく且つ所定の第4解像度閾値よりも小さく、第3サブセットにおける低解像度画像の解像度は、所定の第4解像度閾値よりも大きく、前記第3解像度閾値は、前記第4解像度閾値よりも小さい。幾つかの実施例において、前記テストセットにおける低解像度画像の解像度範囲に基づいて第3解像度閾値及び第4解像度閾値を設定してもよい。3つのサブセットをそれぞれ用いてニューラルネットワークの性能をテストし、3つのサブセットに対応するテスト結果に基づいてニューラルネットワークの性能を特定してもよい。
図4は、本発明の実施例のテキスト認識方法の全体フローを示す。まず、総的なニューラルネットワークトレーニングを行う。第1トレーニング画像をニューラルネットワークに入力する。ここでのニューラルネットワークは、特徴抽出を行うためのニューラルネットワーク、及び、第1テキスト画像のチャンネル数を増減するためのニューラルネットワーク、例えば、畳み込みニューラルネットワークを含んでもよく、トレーニング画像を整列させるためのニューラルネットワーク、例えば、空間変換ネットワークも含んでもよい。ここで、特徴抽出を行うための各ニューラルネットワークは、1つのシーケンス残差モジュール(Sequential Residual Block、SRB)と呼称されてもよく、各SRBは、2つの畳み込みニューラルネットワークと1つの双方向長短期記憶ネットワーク(BLSTM)とを含んでもよい。まず、第1トレーニング画像と第2トレーニング画像とを整列させ、次に、整列された第1トレーニング画像と第2トレーニング画像とを畳み込みニューラルネットワークを介して処理することで第1トレーニング画像のチャンネル数を増加し、その後、畳み込みニューラルネットワークによって処理された第1トレーニング画像を複数のカスケードされたシーケンス残差モジュールに入力して特徴抽出を行わせることで第1トレーニング画像の特徴マップを取得してもよい。その後、当該特徴マップに対してアップサンプリングモジュールを介してアップサンプリング処理を行ってから、畳み込みニューラルネットワークを介してアップサンプリング後の画像のチャンネル数を元のチャンネル数に回復することにより、第1トレーニング画像に対応する出力画像を取得する。前記出力画像と第1トレーニング画像に対応する第2トレーニング画像とに基づいてL2損失関数及びグラジエントプロファイル損失関数を算出し、上記2つの損失関数によって総的なニューラルネットワークに対して教師ありトレーニングを行うことにより、前記総的なニューラルネットワークパラメータを取得する。前記総的なニューラルネットワークのトレーニングが完了された後、処理すべき第1テキスト画像を前記総的なニューラルネットワークに入力する。前記総的なニューラルネットワークの出力画像は、第2テキスト画像そのものである。第2テキスト画像に対してテキスト認識を行い、テキスト認識結果を取得する。
当業者であれば理解できるように、具体的な実施形態の上記方法において、各ステップの記載順は、厳格な実行順を意味せず、実施手順について如何なる限定もなすことではない。各ステップの具体的な実行順は、その機能及び可能な内在論理で特定されるべきである。
図5に示すように、本発明は、画像処理装置を更に提供する。前記装置は、下記のモジュールを備える。
取得モジュール501は、第1テキスト画像の特徴マップを取得し、前記特徴マップは、少なくとも1つの特徴シーケンスを含み、前記特徴シーケンスは、前記第1テキスト画像中の少なくとも2つの画像ブロックの間の関連性を表すために用いられる。
第1処理モジュール502は、前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理し、第2テキスト画像を取得し、前記第2テキスト画像の解像度は、前記第1テキスト画像の解像度よりも大きい。
テキスト認識モジュール503は、第2テキスト画像に対してテキスト認識を行う。
幾つかの実施例において、前記取得モジュールは、前記第1テキスト画像の複数のチャンネル図と前記第1テキスト画像に対応する2値画像とを取得するための第1取得手段と、前記複数のチャンネル図及び前記2値画像に対して特徴抽出を行い、前記第1テキスト画像の特徴マップを取得するための特徴抽出手段と、を備える。
幾つかの実施例において、前記取得モジュールは、前記第1テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得する。
幾つかの実施例において、前記ニューラルネットワークは、前記第1テキスト画像に基づいて中間画像を生成することと、前記中間画像に対して特徴抽出を行い、前記特徴マップを取得することとにより、前記特徴マップを取得し、前記中間画像のチャンネル数は、前記第1テキスト画像のチャンネル数よりも大きい。
幾つかの実施例において、前記ニューラルネットワークは、少なくとも1つの畳み込みニューラルネットワーク及び双方向長短期記憶ネットワークを含み、前記少なくとも1つの畳み込みニューラルネットワークの出力端は、前記双方向長短期記憶ネットワークの入力端に接続され、前記取得モジュールは、前記第1テキスト画像を前記少なくとも1つの畳み込みニューラルネットワークに入力し、前記少なくとも1つの畳み込みニューラルネットワークから出力された中間画像を取得するための第2取得手段と、前記中間画像を前記双方向長短期記憶ネットワークに入力し、前記双方向長短期記憶ネットワークから出力された前記特徴マップを取得するための第3取得手段と、を備える。
幾つかの実施例において、前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、前記取得モジュールは、前記複数のサブネットワークのうちの第iサブネットワークから出力された第i出力画像を前記複数のサブネットワークのうちの第i+1サブネットワークに入力することにより、前記第i+1サブネットワークを介して第i+1中間画像を生成し、前記第i+1中間画像に対して特徴抽出を行い、第i+1出力画像を取得し、第N出力画像を前記特徴マップとして特定し、前記第i+1中間画像のチャンネル数は、前記第i出力画像のチャンネル数よりも大きく、i及びNは、正整数であり、Nは、サブネットワークの総数であり、1≦i≦N-1、N≧2であり、第1出力画像を取得することは、第1サブネットワークが前記第1テキスト画像に基づいて第1中間画像を生成し、前記第1中間画像に対して特徴抽出を行い、第1特徴マップを取得することを含む。
幾つかの実施例において、前記装置は、前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理する前に、前記第1テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとするように、前記第1テキスト画像を処理するための第2処理モジュールを更に備える。
幾つかの実施例において、前記装置は、第2テキスト画像が取得された後、前記第2テキスト画像のチャンネル数と前記第1テキスト画像のチャンネル数とが同じとするように、前記第2テキスト画像を処理するための第3処理モジュールと、処理後の第2テキスト画像に対してテキスト認識を行うための前記テキスト認識モジュールとを更に備える。
幾つかの実施例において、前記装置は、少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを更に備え、各グループのトレーニング画像は、第1トレーニング画像及び第2トレーニング画像を含み、前記第1トレーニング画像と前記第2トレーニング画像とは、同じテキストを含み、前記第1トレーニング画像の解像度は、第1解像度閾値よりも小さく、前記第2トレーニング画像の解像度は、第2解像度閾値よりも大きく、前記第1解像度閾値は、前記第2解像度閾値以下である。
幾つかの実施例において、前記トレーニングモジュールは、前記第1トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得するための入力手段と、前記第1トレーニング画像に対応する第2トレーニング画像と前記出力画像とに基づいて損失関数を特定するための特定手段と、前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行うためのトレーニング手段と、を備える。
幾つかの実施例において、前記損失関数は、第1損失関数と第2損失関数とのうちの少なくとも1つを含み、前記第1損失関数は、前記第1トレーニング画像と前記第2トレーニング画像とにおける各対応画素の平均二乗偏差に基づいて特定され、及び/又は、前記第2損失関数は、前記第1トレーニング画像と前記第2トレーニング画像とにおける各対応画素の勾配場の差に基づいて特定される。
幾つかの実施例において、前記装置は、前記少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングする前に、前記第1トレーニング画像と前記第2トレーニング画像とを整列させるための整列モジュールを更に備える。
幾つかの実施例において、前記整列モジュールは、予めトレーニングされた空間変換ネットワークを介して前記第1トレーニング画像を処理することにより、前記第1トレーニング画像中のテキストと前記第2トレーニング画像中のテキストとを整列させる。
幾つかの実施例において、前記第1トレーニング画像は、第1焦点距離が設定された第1画像収集装置が第1位置における撮影対象を撮影したものであり、前記第2トレーニング画像は、第2焦点距離が設定された第2画像収集装置が前記第1位置における前記撮影対象を撮影したものであり、前記第1焦点距離は、前記第2焦点距離よりも小さい。
幾つかの実施例において、本発明の実施例に係る装置が有する機能又は含むモジュールは、上記方法実施例に記述された方法を実行可能である。その具体的な実施は、上記方法実施例の記述を参照すればよい。簡素化のために、ここで繰り返し説明しない。
本明細書の実施例は、コンピュータ機器を更に提供する。当該コンピュータ機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを少なくとも含む。プロセッサは、前記プログラムを実行したときに上記何れかの実施例に記載の方法を実施する。
本発明の実施例は、コンピュータ機器を更に提供する。当該コンピュータ機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサで運転され得るコンピュータプログラムとを含み、前記プロセッサは、前記プログラムを実行したときに何れかの実施例に記載の方法を実施する。
図6は、本明細書の実施例に係るより具体的な演算機器のハードウェア構造の模式図を示す。当該機器は、プロセッサ601、メモリ602、入力/出力インターフェース603、通信インターフェース604及びバス605を備えてもよい。プロセッサ601、メモリ602、入力/出力インターフェース603及び通信インターフェース604は、バス605を介してそれらの機器内部における互いの通信接続を実施する。
プロセッサ601は、汎用のCPU(Central Processing Unit、中央処理装置)、マイクロプロセッサ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、又は1つ或いは複数の集積回路等の方式によって実現されてもよく、関連するプログラムを実行することにより、本明細書の実施例に係る技術案を実現する。
メモリ602は、ROM(Read Only Memory、読み出し専用メモリ)、RAM(Random Access Memory、ランダムアクセスメモリ)、静的記憶機器、動的記憶機器等の形態を採用して実現され得る。メモリ602は、オペレーティングシステム及び他のアプリケーションプログラムを記憶してもよく、ソフトウェア又はファームウェアにて本明細書の実施例に係る技術案を実施する際に、関連するプログラムコードは、メモリ602に保存されてプロセッサ601によって呼び出されて実行される。
入力/出力インターフェース603は、入力/出力モジュールに接続されて、情報の入力及び出力を図る。入力/出力モジュールは、ユニットとして機器(図示せず)内に配置されてもよく、機器に外付けされて対応する機能を提供してもよい。入力機器は、キーボード、マウス、タッチスクリーン、マイク、各種のセンサ等を含んでもよく、出力機器は、表示器、スピーカ、振動器、パイロットランプ等を含んでもよい。
通信インターフェース604は、通信モジュール(図示せず)に接続されて、自機器と他の機器との通信相互作用を図る。通信モジュールは、有線方式(例えば、USB、回線等)によって通信を実施してもよく、無線方式(例えば、移動ネットワーク、WIFI、ブルートゥース(登録商標)等)によって通信を実施してもよい。
バス605は、機器の各ユニット(例えば、プロセッサ601、メモリ602、入力/出力インターフェース603及び通信インターフェース604)の間で情報を伝送する通路を含む。
説明すべきことは、上記機器がプロセッサ601、メモリ602、入力/出力インターフェース603、通信インターフェース604及びバス605のみを示したが、具体的な実施過程において、当該機器が正常運転を実現するために必要な他のユニットを更に備えてもよい。また、当業者であれば理解できるように、上記機器は、図に示す全てのユニットを含むとは限らず、本明細書の実施例の技術案を実現するために必要なユニットのみを含んでもよい。
本明細書の実施例は、コンピュータ可読記憶媒体を更に提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されたときに、上記何れかの実施例に記載の方法は、実施される。
本明細書の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムがプロセッサによって実行されたときに、上記何れかの実施例に記載の方法は、実施される。
コンピュータ可読媒体は、永久性及び非永久性のもの、移動可能及び移動不可能な媒体を含み、如何なる方法や技術で情報の記憶を実施してもよい。情報は、コンピュータ可読指令、データ構造、プログラムのモジュール又は他のデータであってもよい。コンピュータの記憶媒体の例は、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュ記憶体若しくは他のメモリ技術、読み取り専用光ディスク・読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)又は他の光学記憶形態、磁気カセット型テープ、テープ・磁気ディスク記憶若しくは他の磁気記憶機器、又は、演算機器によってアクセスされ得る情報を記憶するための如何なる他の非伝送媒体も含むが、それらに限定されない。本明細書での定義によれば、コンピュータ可読媒体は、変調されたデータ信号や搬送波のような、一時的なコンピュータ可読媒体(transitory media)を含まない。
以上の実施形態の記述により、当業者は、本明細書の実施例がソフトウェアプラス必須の汎用ハードウェアプラットフォームの方式で実現され得ることを明白に理解できる。このような理解を基に、本明細書の実施例の技術案は、本質的に又は従来技術に対して貢献を与える部分がソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、記憶媒体、例えば、ROM/RAM、磁気ディスク、光ディスク等に記憶され、幾つかの指令を含むことで一台のコンピュータ機器(パソコン、サーバ又はネットワーク機器等であってもよい)に本明細書の各実施例又は実施例の一部に記載の方法を実行させてもよい。
上記実施例で説明されるシステム、装置、モジュール若しくは手段は、具体的にコンピュータチップ又は実体によって実施されてもよく、又はある機能を有する製品によって実施されてもよい。1つの典型的な実施機器は、コンピュータである。コンピュータの具体的な形態は、パソコン、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、パーソナルデジタルアシスタント、メディアプレーヤー、ナビゲーション機器、電子メール送受信機器、ゲームコンソール、タブレットコンピュータ、ウェアラブル機器又はこれらの機器のうちの任意何種かの機器の組み合わせであってもよい。
本発明における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特に装置実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。上述した装置実施例は、単に模式的なものである。上記分離部品として説明されたモジュールが物理的に分離されるものであってもよくでなくてもよい。本明細書の実施例の技術案を実施するときに、各モジュールの機能を同一又は複数のソフトウェア及び/又はハードウェアで実現可能である。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例の技術案の目的を果たすことが可能である。当業者は、進歩性に値する労力を掛けずに、理解して実施可能である。
本願は、2020年04月30日に提出された、出願番号が202010362519.Xであって発明の名称が「テキスト認識方法、装置、機器及び記憶媒体」である中国特許出願の優先権を要求し、当該中国特許出願に開示された全ての内容が引用によって本願に組み込まれる。

Claims (18)

  1. テキスト認識方法であって、
    第1テキスト画像の特徴マップを取得するステップであって、前記特徴マップが少なくとも1つの特徴シーケンスを含むステップと、
    前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理し、第2テキスト画像を取得するステップと、
    前記第2テキスト画像に対してテキスト認識を行うステップと、を含み、
    前記特徴シーケンスは、前記第1テキスト画像中の少なくとも2つの画像ブロックの間の関連性を表すために用いられ、前記第2テキスト画像の解像度は、前記第1テキスト画像の解像度よりも大きいことを特徴とするテキスト認識方法。
  2. 前記第1テキスト画像の特徴マップを取得するステップは、
    前記第1テキスト画像の複数のチャンネル図と前記第1テキスト画像に対応する2値画像とを取得することと、
    前記複数のチャンネル図及び前記2値画像に対して特徴抽出を行い、前記第1テキスト画像の特徴マップを取得することと、を含むことを特徴とする請求項1に記載のテキスト認識方法。
  3. 前記第1テキスト画像の特徴マップを取得するステップは、
    前記第1テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得することを含むことを特徴とする請求項1又は2に記載のテキスト認識方法。
  4. 前記ニューラルネットワークは、
    前記第1テキスト画像に基づいて中間画像を生成することと、
    前記中間画像に対して特徴抽出を行い、前記特徴マップを取得することとにより、前記特徴マップを取得し、
    ただし、前記中間画像のチャンネル数は、前記第1テキスト画像のチャンネル数よりも大きいことを特徴とする請求項3に記載のテキスト認識方法。
  5. 前記ニューラルネットワークは、少なくとも1つの畳み込みニューラルネットワークと双方向長短期記憶ネットワークとを含み、前記少なくとも1つの畳み込みニューラルネットワークの出力端は、前記双方向長短期記憶ネットワークの入力端に接続され、
    前記第1テキスト画像の特徴シーケンスを取得することは、
    前記第1テキスト画像を前記少なくとも1つの畳み込みニューラルネットワークに入力し、前記少なくとも1つの畳み込みニューラルネットワークから出力された中間画像を取得することと、
    前記中間画像を前記双方向長短期記憶ネットワークに入力し、前記双方向長短期記憶ネットワークから出力された前記特徴マップを取得することと、を含むことを特徴とする請求項3又は4に記載のテキスト認識方法。
  6. 前記ニューラルネットワークは、順次接続される複数のサブネットワークを含み、
    前記第1テキスト画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークから出力された特徴マップを取得することは、
    前記複数のサブネットワークのうちの第iサブネットワークから出力された第i出力画像を前記複数のサブネットワークのうちの第i+1サブネットワークに入力することにより、前記第i+1サブネットワークを介して第i+1中間画像を生成し、前記第i+1中間画像に対して特徴抽出を行い、第i+1出力画像を取得することと、
    第N出力画像を前記特徴マップとして特定することと、を含み、
    前記第i+1中間画像のチャンネル数は、前記第i出力画像のチャンネル数よりも大きく、i及びNは、正整数であり、Nは、サブネットワークの総数であり、1≦i≦N-1、N≧2であり、
    第1出力画像を取得することは、第1サブネットワークが前記第1テキスト画像に基づいて第1中間画像を生成し、前記第1中間画像に対して特徴抽出を行い、第1出力画像を取得することを含むことを特徴とする請求項3から5の何れか一項に記載のテキスト認識方法。
  7. 前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理する前に、前記第1テキスト画像のチャンネル数と前記特徴マップのチャンネル数とが同じとなるように、前記第1テキスト画像を処理するステップを更に含むことを特徴とする請求項1から6の何れか一項に記載のテキスト認識方法。
  8. 前記テキスト認識方法は、
    第2テキスト画像が取得された後、前記第2テキスト画像のチャンネル数と前記第1テキスト画像のチャンネル数とが同じとなるように、前記第2テキスト画像を処理するステップを更に含み、
    前記第2テキスト画像に対してテキスト認識を行うステップは、
    処理後の第2テキスト画像に対してテキスト認識を行うことを含むことを特徴とする請求項7に記載のテキスト認識方法。
  9. 前記テキスト認識方法は、
    少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするステップを更に含み、
    各グループのトレーニング画像は、第1トレーニング画像及び第2トレーニング画像を含み、前記第1トレーニング画像と前記第2トレーニング画像とは、同じテキストを含み、
    前記第1トレーニング画像の解像度は、第1解像度閾値よりも小さく、前記第2トレーニング画像の解像度は、第2解像度閾値よりも大きく、前記第1解像度閾値は、前記第2解像度閾値以下であることを特徴とする請求項3から8の何れか一項に記載のテキスト認識方法。
  10. 前記少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングするステップは、
    前記第1トレーニング画像を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力画像を取得することと、
    前記第1トレーニング画像に対応する第2トレーニング画像と前記出力画像とに基づいて損失関数を特定することと、
    前記損失関数に基づいて前記ニューラルネットワークに対して教師ありトレーニングを行うことと、を含むことを特徴とする請求項9に記載のテキスト認識方法。
  11. 前記損失関数は、第1損失関数と第2損失関数とのうちの少なくとも1つを含み、
    前記第1損失関数は、前記第1トレーニング画像と前記第2トレーニング画像とにおける各対応画素の平均二乗誤差に基づいて特定され、及び/又は、
    前記第2損失関数は、前記第1トレーニング画像と前記第2トレーニング画像とにおける各対応画素の勾配場の差に基づいて特定されることを特徴とする請求項10に記載のテキスト認識方法。
  12. 前記少なくとも1グループのトレーニング画像に基づいて前記ニューラルネットワークをトレーニングする前に、前記第1トレーニング画像と前記第2トレーニング画像とを整列させるステップを更に含むことを特徴とする請求項9から11の何れか一項に記載のテキスト認識方法。
  13. 前記第1トレーニング画像と第2トレーニング画像とを整列させるステップは、
    予めトレーニングされた空間変換ネットワークを介して前記第1トレーニング画像を処理することにより、前記第1トレーニング画像中のテキストと前記第2トレーニング画像中のテキストとを整列させることを含むことを特徴とする請求項12に記載のテキスト認識方法。
  14. 前記第1トレーニング画像は、第1焦点距離が設定された第1画像収集装置が第1位置における撮影対象を撮影したものであり、
    前記第2トレーニング画像は、第2焦点距離が設定された第2画像収集装置が前記第1位置における前記撮影対象を撮影したものであり、
    前記第1焦点距離は、前記第2焦点距離よりも小さいことを特徴とする請求項9から13の何れか一項に記載のテキスト認識方法。
  15. テキスト認識装置であって、
    第1テキスト画像の特徴マップを取得するための取得モジュールであって、前記特徴マップが少なくとも1つの特徴シーケンスを含む取得モジュールと、
    前記少なくとも1つの特徴シーケンスに基づいて前記第1テキスト画像を処理し、第2テキスト画像を取得するための第1処理モジュールと、
    第2テキスト画像に対してテキスト認識を行うためのテキスト認識モジュールと、を備え、
    前記特徴シーケンスは、前記第1テキスト画像中の少なくとも2つの画像ブロックの間の関連性を表すために用いられ、前記第2テキスト画像の解像度は、前記第1テキスト画像の解像度よりも大きいことを特徴とするテキスト認識装置。
  16. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    当該プログラムがプロセッサによって実行されたときに、請求項1から14の何れか一項に記載のテキスト認識方法は、実施されることを特徴とするコンピュータ可読記憶媒体。
  17. コンピュータ機器であって、
    メモリと、プロセッサと、メモリに記憶されてプロセッサで運転されるコンピュータプログラムと、を含み、
    前記プロセッサは、前記プログラムを実行したときに、請求項1から14の何れか一項に記載のテキスト認識方法を実施することを特徴とするコンピュータ機器。
  18. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行されたときに、請求項1から14の何れか一項に記載のテキスト認識方法は、実施されることを特徴とするコンピュータプログラム。
JP2022520075A 2020-04-30 2021-04-20 テキスト認識方法、装置、機器、記憶媒体及びコンピュータプログラム Withdrawn JP2022550195A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010362519.XA CN111553290A (zh) 2020-04-30 2020-04-30 文本识别方法、装置、设备及存储介质
CN202010362519.X 2020-04-30
PCT/CN2021/088389 WO2021218706A1 (zh) 2020-04-30 2021-04-20 文本识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
JP2022550195A true JP2022550195A (ja) 2022-11-30

Family

ID=72000292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022520075A Withdrawn JP2022550195A (ja) 2020-04-30 2021-04-20 テキスト認識方法、装置、機器、記憶媒体及びコンピュータプログラム

Country Status (3)

Country Link
JP (1) JP2022550195A (ja)
CN (1) CN111553290A (ja)
WO (1) WO2021218706A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553290A (zh) * 2020-04-30 2020-08-18 北京市商汤科技开发有限公司 文本识别方法、装置、设备及存储介质
CN112419159A (zh) * 2020-12-07 2021-02-26 上海互联网软件集团有限公司 文字图像超分辨率重建系统及方法
CN112633429A (zh) * 2020-12-21 2021-04-09 安徽七天教育科技有限公司 一种学生手写选择题识别方法
CN117037136B (zh) * 2023-10-10 2024-02-23 中国科学技术大学 场景文本识别方法、系统、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10043231B2 (en) * 2015-06-30 2018-08-07 Oath Inc. Methods and systems for detecting and recognizing text from images
US10558750B2 (en) * 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
CN107368831B (zh) * 2017-07-19 2019-08-02 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
CN109389091B (zh) * 2018-10-22 2022-05-03 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109800749A (zh) * 2019-01-17 2019-05-24 湖南师范大学 一种文字识别方法及装置
CN110033000B (zh) * 2019-03-21 2021-05-18 华中科技大学 一种票据图像的文本检测与识别方法
CN110084172B (zh) * 2019-04-23 2022-07-29 北京字节跳动网络技术有限公司 文字识别方法、装置和电子设备
CN110443239A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 文字图像的识别方法及其装置
CN111553290A (zh) * 2020-04-30 2020-08-18 北京市商汤科技开发有限公司 文本识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2021218706A1 (zh) 2021-11-04
CN111553290A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
JP2022550195A (ja) テキスト認識方法、装置、機器、記憶媒体及びコンピュータプログラム
US20200364478A1 (en) Method and apparatus for liveness detection, device, and storage medium
CN104866805B (zh) 人脸实时跟踪的方法和装置
CN108108731B (zh) 基于合成数据的文本检测方法及装置
CN109829396B (zh) 人脸识别运动模糊处理方法、装置、设备及存储介质
Lu et al. Robust blur kernel estimation for license plate images from fast moving vehicles
CN102375987B (zh) 图像处理设备及图像特征向量提取与图像匹配方法
US20230005114A1 (en) Image restoration method and apparatus
KR20160130769A (ko) 화상을 프로세싱하기 위한 방법 및 디바이스
CN110619334A (zh) 基于深度学习的人像分割方法、架构及相关装置
CN114005019B (zh) 一种翻拍图像识别方法及其相关设备
US9311523B1 (en) Method and apparatus for supporting object recognition
CN112348008A (zh) 证件信息的识别方法、装置、终端设备及存储介质
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
US9191554B1 (en) Creating an electronic book using video-based input
CN112529897A (zh) 一种图像检测方法、装置、计算机设备及存储介质
CN112749696A (zh) 一种文本检测方法及装置
CN116863017A (zh) 图像处理方法、网络模型训练方法、装置、设备、介质
CN111767924A (zh) 图像处理方法、图像处理装置、电子设备、存储介质
CN111353493A (zh) 文本图像方向校正方法及装置
CN112487943B (zh) 关键帧去重的方法、装置和电子设备
CN114758145A (zh) 一种图像脱敏方法、装置、电子设备及存储介质
CN114511702A (zh) 一种基于多尺度分权注意力的遥感图像分割方法和系统
CN113763313A (zh) 文本图像的质量检测方法、装置、介质及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220330

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20221206