JP7066007B2 - テキスト認識 - Google Patents

テキスト認識 Download PDF

Info

Publication number
JP7066007B2
JP7066007B2 JP2020560179A JP2020560179A JP7066007B2 JP 7066007 B2 JP7066007 B2 JP 7066007B2 JP 2020560179 A JP2020560179 A JP 2020560179A JP 2020560179 A JP2020560179 A JP 2020560179A JP 7066007 B2 JP7066007 B2 JP 7066007B2
Authority
JP
Japan
Prior art keywords
text
network
feature
text image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020560179A
Other languages
English (en)
Other versions
JP2021520561A (ja
Inventor
シュエボー リウ
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021520561A publication Critical patent/JP2021520561A/ja
Application granted granted Critical
Publication of JP7066007B2 publication Critical patent/JP7066007B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本出願は、画像処理技術に関し、特にテキスト認識に関する。
画像内のテキストを認識する時に、認識対象の画像内のテキストの分布が不均一である場合が多い。例えば、画像の水平方向に複数の文字が分布しており、垂直方向に単一の文字が分布している場合があり、そのため、テキスト分布の不均一性を引き起こしてしまう。一般的なテキスト認識方法が、このような画像を好適に処理することができない。
本出願は、テキスト認識の技術的解決手段を提供する。
本出願の一態様によれば、テキスト認識方法を提供する。該方法は、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることと、前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得することとを含み、ここで、前記テキスト画像に少なくとも2つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものである。
1つの可能な実現形態において、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、少なくとも1つの第1畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得、ここで、前記第1畳み込み層の畳み込みカーネルのサイズは、P×Qであり、P、Qは整数であり、且つQ>P≧1であることを含む。
1つの可能な実現形態において、前記特徴情報にテキスト構造特徴が更に含まれ、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、少なくとも1つの第2畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得、ここで、前記第2畳み込み層の畳み込みカーネルのサイズは、N×Nであり、Nは1を超える整数であることを含む。
1つの可能な実現形態において、前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得することは、前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることと、前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することとを含む。
1つの可能な実現形態において、前記方法は、ニューラルネットワークにより実現され、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがP×Qである第1畳み込み層と、畳み込みカーネルのサイズがN×Nである第2畳み込み層とを含み、ここで、前記第1畳み込み層及び前記第2畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続される。
1つの可能な実現形態において、前記テキスト関連特徴と前記テキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることは、前記複数のネットワークブロックのうちの第1ネットワークブロックの第1畳み込み層から出力されたテキスト関連特徴を、前記第1ネットワークブロックの第2畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記第1ネットワークブロックのフュージョン特徴を得ることを含む。
前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することは、前記第1ネットワークブロックのフュージョン特徴と前記第1ネットワークブロックの入力情報とに対して残差処理を行い、前記第1ネットワークブロックの出力情報を得ることと、前記第1ネットワークブロックの出力情報に基づいて、前記テキスト認識結果を得ることとを含む。
1つの可能な実現形態において、前記ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含み、ここで、各階層の特徴抽出ネットワークは、少なくとも1つの前記ネットワークブロックと、前記少なくとも1つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含む。
1つの可能な実現形態において、前記ニューラルネットワークは、畳み込みニューラルネットワークである。
1つの可能な実現形態において、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、前記テキスト画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果を得ることと、前記ダウンサンプリング結果に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることとを含む。
本出願のもう1つの態様によれば、テキスト認識装置を提供する。該装置は、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るように構成される特徴抽出モジュールと、前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得モジュールとを備え、ここで、前記テキスト画像に少なくとも2つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものである。
本出願のもう1つの態様によれば、電子機器を提供する。該電子機器は、プロセッサと、プロセッサでの実行可能な命令を記憶するための記憶媒体とを備え、前記プロセッサは、前記記憶媒体に記憶された命令を呼び出し、上記テキスト認識方法を実行するように構成される。
本出願のもう1つの態様によれば、機器可読記憶媒体を提供する。該機器可読記憶媒体には、機器での実行可能な命令が記憶されており、前記機器での実行可能な命令は、プロセッサにより実行される時、上記テキスト認識方法を実現させる。
本出願の実施例のテキスト認識方法によれば、画像内の文字同士間の関連性を表すテキスト関連特徴を抽出し、テキスト関連特徴を含む特徴情報に基づいて、画像のテキスト認識結果を取得することで、テキスト認識の正確性を向上させる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
本出願の実施例によるテキスト認識方法を示すフローチャートである。 本出願の実施例によるネットワークブロックを示す概略図である。 本出願の実施例による符号化ネットワークを示す概略図である。 本出願の実施例によるテキスト認識装置を示すブロック図である。 本出願の実施例による電子機器を示すブロック図である。 本出願の実施例による電子機器を示すブロック図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。
以下、図面を参照しながら本出願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、多種の関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
なお、本出願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
図1は、本出願の実施例によるテキスト認識方法を示すフローチャートである。該テキスト認識方法は、端末装置又は他の装置により実行されてもよい。ここで、端末装置は、ユーザ装置(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。
図1に示すように、前記方法は、
テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るステップS11と、
前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得するステップS12とを含み、
ここで、前記テキスト画像に少なくとも2つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものである。
本出願の実施例のテキスト認識方法によれば、画像内の文字同士間の関連性を表すテキスト関連特徴を抽出し、テキスト関連特徴を含む特徴情報に基づいて、画像のテキスト認識結果を取得することで、テキスト認識の正確性を向上させる。
例えば、テキスト画像は、画像採集装置(例えば、カメラ)により採集された、文字を含む画像であってもよい。例えば、オンライン本人検証シーンで撮影された、文字を含む証明書画像である。テキスト画像は、インターネットからダウンロードされた文字を含む画像、ユーザによりアップロードされた文字を含む画像、又は他の方式で取得された文字を含む画像であってもよい。本出願は、テキスト画像の出所及びタイプを限定するものではない。
なお、本明細書で言及した「文字」は、例えば文字、アルファベット、数字、符号などのような任意のテキスト文字を含んでもよい。本出願は、「文字」のタイプを限定するものではない。
幾つかの実施例において、ステップS11で、テキスト画像に対して特徴抽出を行い、テキスト画像の特徴情報を得る。該特徴情報は、例えば各文字の分布の順序、幾つかの文字が同時に出現する確率などのような、テキスト画像内のテキスト文字同士間の関連性を表すためのテキスト関連特徴を含んでもよい。
幾つかの実施例において、ステップS11は、少なくとも1つの第1畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得、ここで、前記第1畳み込み層の畳み込みカーネルのサイズは、P×Qであり、P、Qは整数であり、且つQ>P≧1であることを含む。
例えば、テキスト画像に少なくとも2つの文字が含まれてもよい。異なる方向における文字の分布は、不均一であることがある。例えば、水平方向に複数の文字が分布されており、垂直方向に単一の文字が分布されている。この場合、特徴抽出を行う畳み込み層は、異なる方向においてサイズが対称されていない畳み込みカーネルを利用することで、文字の多い方向におけるテキスト関連特徴をより好適に抽出することができる。
幾つかの実施例において、畳み込みカーネルのサイズがP×Qである少なくとも1つの第1畳み込み層により、テキスト画像に対して特徴抽出を行うことで、文字の分布が不均一である画像に適応させる。テキスト画像において、水平方向の文字数が垂直方向の文字数を超える場合、Q>P≧1とすることが可能であり、それによって、水平方向(横方向)のセマンティック情報(テキスト関連特徴)をより好適に抽出する。幾つかの実施例において、QとPとの差が閾値を超える。例えば、テキスト画像内の文字が横方向に並ばれる(例えば、単一列)複数の文字である場合、第1畳み込み層は、サイズが1×5、1×7、1×9等である畳み込みカーネルを用いることができる。
幾つかの実施例において、テキスト画像において、水平方向の文字数が垂直方向の文字数より少ない場合、P>Q≧1とすることで、垂直方向(縦方向)のセマンティック情報(テキスト関連特徴)をより好適に抽出することができる。例えば、テキスト画像内の文字が縦方向に並ばれる(例えば、単一列)複数の文字である場合、第1畳み込み層は、サイズが5×1、7×1、9×1等である畳み込みカーネルを用いることができる。本出願は、第1畳み込み層の層数及び畳み込みカーネルの具体的なサイズを限定するものではない。
このようにして、テキスト画像内の文字の多い方向におけるテキスト関連特徴をより好適に抽出することができ、テキスト認識の正確性を向上させることができる。
幾つかの実施例において、前記特徴情報にテキスト構造特徴が更に含まれ、ステップS11は、少なくとも1つの第2畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得、ここで、前記第2畳み込み層の畳み込みカーネルのサイズは、N×Nであり、Nは1を超える整数であることを含む。
例えば、テキスト画像の特徴情報は、文字の構造、形状、筆画の太さ、フォントタイプ又はフォント角度などのような、テキストの空間的構造情報を表すためのテキスト構造特徴を更に含む。この場合、特徴抽出を行う畳み込み層は、異なる方向においてサイズが対称している畳み込みカーネルを用いることで、テキスト画像内の各文字の空間的構造情報をより好適に抽出してテキスト画像のテキスト構造特徴を得ることができる。
幾つかの実施例において、畳み込みカーネルの寸法がN×Nである少なくとも1つの第2畳み込み層により、テキスト画像に対して特徴抽出処理を行い、テキスト画像のテキスト構造特徴を得る。Nは、1を超える整数である。ここで、Nは、2、3、5などであってもよい。つまり、第2畳み込み層は、サイズが2×2、3×3、5×5などである畳み込みカーネルを用いることができる。本出願は、第2畳み込み層の層数及び畳み込みカーネルの具体的なサイズを限定するものではない。このようにして、テキスト画像内の文字のテキスト構造特徴を抽出することができ、テキスト認識の正確性を向上させることができる。
幾つかの実施例において、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、
前記テキスト画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果を得ることと、
前記ダウンサンプリング結果に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることとを含む。
例えば、テキスト画像に対して特徴抽出を行う前に、まず、ダウンサンプリングネットワークにより、テキスト画像に対してダウンサンプリング処理を行う。該ダウンサンプリングネットワークは、少なくとも1つの畳み込み層を含み、該畳み込み層の畳み込みカーネルのサイズは、例えば3×3である。ダウンサンプリング結果を少なくとも1つの第1畳み込み層及び少なくとも1つの第2畳み込み層にそれぞれ入力して特徴抽出を行い、テキスト画像のテキスト関連特徴及びテキスト構造特徴を得る。ダウンサンプリング処理により、特徴抽出の演算量を更に低下させ、ネットワークの実行速度を向上させると共に、データ分布のバラツキによる特徴抽出への影響を避けることができる。
幾つかの実施例において、ステップS11で得られた特徴情報に基づいて、ステップS12で前記テキスト画像のテキスト認識結果を取得することができる。
幾つかの実施例において、テキスト認識結果は、特徴情報に対して分類処理を行って得られた結果である。テキスト認識結果は、例えばテキスト画像内の各文字の予測確率が最も多い予測結果文字である。例えば、テキスト画像上の位置が1、2、3、4である文字を「很多文字」として予測される。テキスト認識結果は更に、例えばテキスト画像内の各文字の予測確率である。例えば、テキスト画像における位置が1、2、3、4である「很多文字」という4つの漢字である場合、それに対応するテキスト認識結果は、以下を含む。位置1の文字が「根」であると予測される確率が85%であり、「很」であると予測される確率が98%である。位置2での文字が「夕」であると予測される確率が60%であり、「多」であると予測される確率が90%である。位置3での文字が「紋」であると予測される確率が65%であり、「文」であると予測される確率が94%である。位置4での文字が「写」であると予測される確率が70%であり、「字」であると予測される確率が90%である。本出願は、テキスト認識結果の表現形態を限定するものではない。
幾つかの実施例において、テキスト関連特徴のみに基づいてテキスト認識結果を取得してもよいし、テキスト関連特徴及びテキスト構造特徴に基づいてテキスト認識結果を取得してもよい。本出願は、これを限定するものではない。
幾つかの実施例において、ステップS12は、
前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることと、
前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することと、を含む。
本出願の実施例において、異なる畳み込みカーネルのサイズを有する異なる畳み込み層により、テキスト画像を畳み込み処理して、テキスト画像のテキスト関連特徴及びテキスト構造特徴を取得することができる。続いて、得られたテキスト関連特徴をテキスト構造特徴とフュージョンし、フュージョン特徴を得る。該「フュージョン」処理は、例えば、該異なる畳み込み層から出力された結果を画素ずつ加算する操作であってもよい。更に、フュージョン特徴に基づいて、テキスト画像のテキスト認識結果を取得する。取得したフュージョン特徴は、テキスト情報をより全面的に反映することができ、テキスト認識の正確性を向上させることができる。
幾つかの実施例において、前記テキスト認識方法は、ニューラルネットワークにより実現され、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがP×Qである第1畳み込み層と、畳み込みカーネルのサイズがN×Nである第2畳み込み層とを含み、ここで、前記第1畳み込み層及び前記第2畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続される。
幾つかの実施例において、前記ニューラルネットワークは例えば畳み込みニューラルネットワークである。本出願は、ニューラルネットワークの具体的なタイプを限定するものではない。
例えば、該ニューラルネットワークは、符号化ネットワークを含んでもよい。符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがP×Qである第1畳み込み層と、畳み込みカーネルのサイズがN×Nである第2畳み込み層とを含み、それらはそれぞれテキスト画像のテキスト関連特徴及びテキスト構造特徴の抽出に用いられる。ここで、前記第1畳み込み層及び前記第2畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続される。それにより、ネットワークブロックの入力情報は、それぞれ第1畳み込み層及び第2畳み込み層に入力されて特徴抽出される。
幾つかの実施例において、第1畳み込み層及び第2畳み込み層の前に、畳み込みカーネルのサイズが例えば1×1である第3畳み込み層をそれぞれ設けて、ネットワークブロックの入力情報を次元削減処理することができ、次元削減された入力情報を第1畳み込み層及び第2畳み込み層にそれぞれ入力して特徴抽出を行うことで、特徴抽出の演算量を効果的に低減させる。
幾つかの実施例において、前記テキスト関連特徴と前記テキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得るステップは、前記ネットワークブロックの第1畳み込み層から出力されたテキスト関連特徴を、前記ネットワークブロックの第2畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記ネットワークブロックのフュージョン特徴を得ることを含む。
前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得するステップは、前記ネットワークブロックのフュージョン特徴及び前記ネットワークブロックの入力情報に対して残差処理を行い、前記ネットワークブロックの出力情報を得ることと、前記第1ネットワークブロックの出力情報に基づいて、前記テキスト認識結果を得ることとを含む。
例えば、いずれか1つのネットワークブロックに対して、ネットワークブロックの第1畳み込み層から出力されたテキスト関連特徴を、ネットワークブロックの第2畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記ネットワークブロックのフュージョン特徴を得ることができる。取得したフュージョン特徴は、テキスト情報をより全面的に反映することができる。
幾つかの実施例において、ネットワークブロックのフュージョン特徴と前記第1ネットワークブロックの入力情報とに対して残差処理を行い、ネットワークブロックの出力情報を得る。更に、ネットワークブロックの出力情報に基づいて、テキスト認識結果を得る。ここの「残差処理」は、ResNet (Residual Neural Network)における残差学習と類似した技術を利用した。残差接続により、各ネットワークブロックは、全ての特徴を学習する必要がなく、出力されたフュージョン特徴と入力情報との差(ネットワークブロックの出力情報)のみを学習すればよい。学習の収束をより容易にすることで、ネットワークブロックの演算量を低減させ、ネットワークブロックの訓練をより容易にする。
図2は、本出願の実施例によるネットワークブロックを示す概略図である。図2に示すように、該ネットワークブロックは、畳み込みカーネルのサイズが1×1である第3畳み込み層21と、畳み込みカーネルのサイズが1×7である第1畳み込み層22と、畳み込みカーネルのサイズが3×3である第2畳み込み層23とを含む。ネットワークブロックの入力情報24を2つの第3畳み込み層21にそれぞれ入力して次元削減処理することで、特徴抽出の演算量を低減させる。次元削減された入力情報を第1畳み込み層22及び第2畳み込み層23にそれぞれ入力して特徴抽出し、ネットワークブロックのテキスト関連特徴及びテキスト構造特徴を得る。
幾つかの実施例において、ネットワークブロックのうちの第1ネットワークブロックの第1畳み込み層から出力されたテキスト関連特徴を、ネットワークブロックの第2畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記第1ネットワークブロックのフュージョン特徴を得ることで、テキスト情報をより全面的に反映する。ネットワークブロックのフュージョン特徴及びネットワークブロックの入力情報に対して残差処理を行い、ネットワークブロックの出力情報25を得る。ネットワークブロックの出力情報に基づいて、テキスト画像のテキスト認識結果を取得することができる。
幾つかの実施例において、前記ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含み、ここで、各階層の特徴抽出ネットワークは、少なくとも1つの前記ネットワークブロックと、前記少なくとも1つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含む。
例えば、多階層の特徴抽出ネットワークにより、テキスト画像に対して特徴抽出を行うことができる。この場合、ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含む。テキスト画像をダウンサンプリングネットワーク(少なくとも1つの畳み込み層を含む)に入力してダウンサンプリング処理し、ダウンサンプリング結果を出力する。ダウンサンプリング結果を多階層の特徴抽出ネットワークに入力して特徴抽出し、テキスト画像の特徴情報を得ることができる。
幾つかの実施例において、テキスト画像のダウンサンプリング結果を第1階層の特徴抽出ネットワークに入力して特徴抽出し、第1階層の特徴抽出ネットワークの出力情報を出力する。続いて、第1階層の特徴抽出ネットワークの出力情報を第2階層の特徴抽出ネットワークに入力し、第2階層の特徴抽出ネットワークの出力情報を出力する。このように類推すると、最終階層の特徴抽出ネットワークの出力情報を符号化ネットワークの最終的出力情報とすることができる。
ここで、各階層の特徴抽出ネットワークは、少なくとも1つの前記ネットワークブロックと、前記少なくとも1つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含む。該ダウンサンプリングモジュールは、少なくとも1つの畳み込み層を含み、各ネットワークブロックの出力端でダウンサンプリングモジュールに接続されることが可能であり、各階層の特徴抽出ネットワークの最後の1つのネットワークブロックの出力端でダウンサンプリングモジュールに接続されることも可能である。従って、各階層の特徴抽出ネットワークの出力情報は、ダウンサンプリングされてから次の階層の特徴抽出ネットワークに入力される。従って、特徴寸法を低減させ、演算量を低減させる。
図3は、本出願の実施例による符号化ネットワークを示す概略図である。図3に示すように、符号化ネットワークは、ダウンサンプリングネットワーク31と、ダウンサンプリングネットワークの出力端に接続される5階層の特徴抽出ネットワーク32、33、34、35、36とを含む。ここで、第1階層の特徴抽出ネットワーク32から第5階層の特徴抽出ネットワーク36はそれぞれ1、3、3、3、2個のネットワークブロックを含み、各階層の特徴抽出ネットワークの最後の1つのネットワークブロックの出力端にダウンサンプリングモジュールが接続される。
幾つかの実施例において、テキスト画像をダウンサンプリングネットワーク31に入力してダウンサンプリング処理し、ダウンサンプリング結果を出力する。ダウンサンプリング結果を第1階層の特徴抽出ネットワーク32(ネットワークブロック+ダウンサンプリングモジュール)に入力して特徴抽出し、第1階層の特徴抽出ネットワーク32の出力情報を出力する。第1階層の特徴抽出ネットワーク32の出力情報を第2階層の特徴抽出ネットワーク33に入力し、順に3つのネットワークブロック及びダウンサンプリングモジュールにより処理し、第2階層の特徴抽出ネットワーク33の出力情報を出力する。このように類推すると、第5階層の特徴抽出ネットワーク36の出力情報を符号化ネットワークの最終的出力情報とする。
ダウンサンプリングネットワーク及び多階層の特徴抽出ネットワークによって、特徴抽出を行って、ボトルネック(bottleneck)構造を形成することができる。従って、文字の認識効果を向上させ、演算量を著しく低減させ、ネットワーク訓練過程において収束がより容易になり、訓練の難度を低下させることができる。
幾つかの1つの可能な実現形態において、前記方法は、前記テキスト画像を前処理し、前処理されたテキスト画像を得ることを更に含む。
本出願の実現形態において、前記テキスト画像は、複数行または複数列を含むテキスト画像であってもよい。前処理操作は、複数行または複数列を含むテキスト画像を単一行または単一列のテキスト画像に分割し、認識を開始するという操作であってもよい。
幾つかの1つの可能な実現形態において、前記前処理操作は、正規化処理、幾何変換処理及び画像強調処理などの操作であってもよい。
幾つかの実施例において、所定の訓練集合に基づいて、ニューラルネットワークにおける符号化ネットワークを訓練することができる。訓練過程において、CTCLossを用いて符号化ネットワークに対して教師あり学習を行い、画像の各部分の予測結果を分類する。分類結果は、実の結果に近いほど、損失が小さくなる。訓練要件を満たした場合、訓練後の符号化ネットワークを得ることができる。本出願は、符号化ネットワークの損失関数の選択及び具体的な訓練形態を限定するものではない。
本出願の実施例のテキスト認識方法によれば、畳み込みカーネルのサイズが対称ではない畳み込み層によって、画像内の文字同士間の関連性を表すテキスト関連特徴を抽出することができ、特徴抽出の効果を向上させ、不必要な演算量を低減させることができる。テキスト関連特徴及び文字のテキスト構造特徴をそれぞれ抽出することができ、深層ニューラルネットワークの並列化を実現させ、演算時間を著しく低減させる。
本出願の実施例のテキスト認識方法によれば、残差接続及びボトルネット構造を利用した多階層の特徴抽出ネットワークによるネットワーク構造を用いるため、再帰型ニューラルネットワークを必要とせず、画像内のテキスト情報を好適に捕捉し、優れた認識結果を得て、演算量を大幅に低減させることができる。また、該ネットワーク構造は、訓練しやすく、訓練過程を迅速に完了することができる。
本出願の実施例によるテキスト認識方法は、本人認証、コンテンツ審査、画像検査、画像翻訳などの適用シーンに用いられ、テキスト認識を実現させることができる。例えば、本人認証の適用シーンにおいて、該方法により、身分証明書、キャッシュカード、運転免許証などのような様々なタイプの証明書画像内の文字コンテンツを抽出することで、本人認証を行う。コンテンツ審査の適用シーンにおいて、該方法により、ソーシャルネットワークにおけるユーザによりアップロードされた画像内の文字コンテンツを抽出し、画像に暴力関連のテキストなどのような不正情報が含まれているかを判定する。
本出願に言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数の都合で、本出願において逐一説明しないことが理解されるべきである。具体的な実施形態の上記方法において、各ステップの記述順番は、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
なお、本出願は、テキスト認識装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記は、いずれも、本出願で提供されるいずれか1つのテキスト認識方法を実現させるために用いられる。関連する技術的解決手段及び説明は、方法に関わる説明を参照されたい。ここで詳しく説明しないようにする。
図4は、本出願の実施例によるテキスト認識装置を示すブロック図である。図4に示すように、前記テキスト認識装置は、
テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るように構成される特徴抽出モジュール41と、前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得モジュール42とを備え、ここで、前記テキスト画像に少なくとも2つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものである。
幾つかの実施例において、前記特徴抽出モジュールは、少なくとも1つの第1畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得るように構成される第1抽出サブモジュールを備え、ここで、前記第1畳み込み層の畳み込みカーネルのサイズは、P×Qであり、P、Qは整数であり、且つQ>P≧1である。
幾つかの実施例において、前記特徴情報にテキスト構造特徴が更に含まれ、前記特徴抽出モジュールは、少なくとも1つの第2畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得るように構成される第2抽出サブモジュールを更に備え、ここで、前記第2畳み込み層の畳み込みカーネルのサイズは、N×Nであり、Nは1を超える整数である。
幾つかの実施例において、前記結果取得モジュールは、前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得るように構成されるフュージョンサブモジュールと、前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得サブモジュールとを備える。
幾つかの実施例において、前記装置は、ニューラルネットワークに適用され、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがP×Qである第1畳み込み層と、畳み込みカーネルのサイズがN×Nである第2畳み込み層とを含み、ここで、前記第1畳み込み層及び前記第2畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続される。
幾つかの実施例において、前記装置は、ニューラルネットワークに適用され、前記ニューラルネットワークにおける符号化ネットワークは、複数のネットワークブロックを含み、前記フュージョンサブモジュールは、前記複数のネットワークブロックのうちの第1ネットワークブロックの第1畳み込み層から出力されたテキスト関連特徴を、前記第1ネットワークブロックの第2畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記第1ネットワークブロックのフュージョン特徴を得るように構成される。
前記結果取得サブモジュールは、前記第1ネットワークブロックのフュージョン特徴と前記第1ネットワークブロックの入力情報とに対して残差処理を行い、前記第1ネットワークブロックの出力情報を得て、前記第1ネットワークブロックの出力情報に基づいて、前記テキスト認識結果を得るように構成される。
幾つかの実施例において、前記ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含み、ここで、各階層の特徴抽出ネットワークは、少なくとも1つの前記ネットワークブロックと、前記少なくとも1つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含む。
幾つかの実施例において、前記ニューラルネットワークは、畳み込みニューラルネットワークである。
幾つかの実施例において、前記特徴抽出モジュールは、前記テキスト画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果を得るように構成されるダウンサンプリングサブモジュールと、前記ダウンサンプリング結果に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るように構成される第3抽出サブモジュールとを備える。
幾つかの実施例において、本出願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
本出願の実施例は機器可読記憶媒体を更に提供する。該機器可読記憶媒体には、機器での実行可能な命令が記憶されており、前記機器での実行可能な命令がプロセッサにより実行される時、上記方法を実現させる。機器可読記憶媒体は不揮発性機器可読記憶媒体であってもよい。
本出願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサでの実行可能な命令を記憶するための記憶媒体とを備え、前記プロセッサは、前記記憶媒体に記憶されている命令を呼び出し、上記方法を実行するように構成される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図5は本出願の実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
図5を参照すると、電子機器800は、処理ユニット802、記憶媒体804、電源ユニット806、マルチメディアユニット808、オーディオユニット810、入力/出力(I/O)インタフェース812、センサユニット814及び通信ユニット816のうちの1つ又は複数を備えてもよい。
処理ユニット802は一般的には、電子機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理ユニット802はマルチメディアモジュールを備えることで、マルチメディアユニット808と処理ユニット802とのインタラクションに寄与する。
記憶媒体804は、各種のデータを記憶することで電子機器800における操作をサポートするように構成される。これらのデータの例として、電子機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。記憶媒体804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源ユニット806は電子機器800の様々なユニットに電力を提供する。電源ユニット806は、電源管理システム、1つ又は複数の電源、及び電子機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアユニット808は、上記電子機器800とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット808は、フロントカメラ及び/又はリアカメラを備える。電子機器800が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオユニット810は、オーディオ信号を出力/入力するように構成される。例えば、オーディオユニット810は、マイクロホン(MIC)を備える。電子機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信ユニット816を経由して送信することができる。幾つかの実施例において、オーディオユニット810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース812は、処理ユニット802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサユニット814は、1つ又は複数のセンサを備え、電子機器800のために様々な状態の評価を行うように構成される。例えば、センサユニット814は、電子機器800のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器800のディスプレイ及びキーパッドである。センサユニット814は電子機器800又は電子機器800における1つのユニットの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位又は加速/減速及び電子機器800の温度の変動を検出することもできる。センサユニット814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット814は、CMOS又はCCD画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信ユニット816は、電子機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器800は、WiFi、2G又は3G又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット816は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、電子機器800は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
例示的な実施例において、機器での実行可能な命令を記憶した記憶媒体804のような非一時的コンピュータ可読記憶媒体を更に提供する。上記機器での実行可能な命令は、電子機器800のプロセッサ820により実行され上記方法を完了する。
図6は、本出願の実施例による電子機器1900を示すブロック図である。例えば、電子機器1900は、サーバとして提供されてもよい。図6を参照すると、電子機器1900は、処理ユニット1922を備える。ぞれは1つ又は複数のプロセッサと、メモリ1932で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット1922により実行される命令を記憶するためのものである。メモリ1932に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理ユニット1922は、命令を実行して、上記方法を実行するように構成される。
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源ユニット1926と、電子機器1900をネットワークに接続するように構成される有線又は無線ネットワークインタフェース1950と、入力出力(I/O)インタフェース1958を更に備えてもよい。電子機器1900は、Windows ServerTM、Mac OS XTM、UnixTM, LinuxTM、FreeBSDTM又は類似したものような、メモリ1932に記憶されているオペレーティングシステムを実行することができる。
例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ1932のような不揮発性機器可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器1900の処理ユニット1922により実行されて上記方法を完了する。
本出願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
本出願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク(LAN)やワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブル論理アレイ(PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本出願の各態様を実現させることができる。
ここで、本出願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本出願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
図面におけるフローチャート及びブック図は、本出願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術への改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。

Claims (13)

  1. テキスト認識方法であって、前記テキスト認識方法は、ニューラルネットワークにより実現され、
    前記ニューラルネットワークによって、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることであって、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがP×Qである少なくとも1つの第1畳み込み層を含み、P、Qは整数であり、且つQ>P≧1である、ことと、
    前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得することと、を含み、
    ここで、前記テキスト画像に少なくとも2つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものであり、
    前記ニューラルネットワークによって、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、
    前記少なくとも1つの第1畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得ることを含むことを特徴とする
    テキスト認識方法
  2. 前記ニューラルネットワークにおける各ネットワークブロックは、畳み込みカーネルのサイズがN×Nである少なくとも1つの第2畳み込み層を更に含み、Nは1を超える整数であり、前記特徴情報にテキスト構造特徴が更に含まれ、
    前記ニューラルネットワークによって、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、
    前記少なくとも1つの第2畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得ことを含むことを特徴とする
    請求項1に記載の方法。
  3. 前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得することは、
    前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることと、
    前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することと、を含むことを特徴とする
    請求項1又は2に記載の方法。
  4. 記第1畳み込み層及び前記第2畳み込み層の入力端は、それぞれ前記ネットワークブロックの入力端に接続されることを特徴とする
    請求項1-のいずれか一項に記載の方法。
  5. 前記方法は、ニューラルネットワークにより実現され、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、
    前記テキスト関連特徴と前記テキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得ることは、
    前記複数のネットワークブロックのうちの第1ネットワークブロックの第1畳み込み層から出力されたテキスト関連特徴を、前記第1ネットワークブロックの第2畳み込み層から出力されたテキスト構造特徴とフュージョンし、前記第1ネットワークブロックのフュージョン特徴を得ることを含み、
    前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得することは、
    前記第1ネットワークブロックのフュージョン特徴と前記第1ネットワークブロックの入力情報とに対して残差処理を行い、前記第1ネットワークブロックの出力情報を得ることと、
    前記第1ネットワークブロックの出力情報に基づいて、前記テキスト認識結果を得ることと、を含むことを特徴とする
    請求項に記載の方法。
  6. 前記ニューラルネットワークにおける符号化ネットワークは、ダウンサンプリングネットワークと、前記ダウンサンプリングネットワークの出力端に接続される多階層の特徴抽出ネットワークとを含み、ここで、各階層の特徴抽出ネットワークは、少なくとも1つの前記ネットワークブロックと、前記少なくとも1つのネットワークブロックの出力端に接続されるダウンサンプリングモジュールとを含むことを特徴とする
    請求項又はに記載の方法。
  7. 前記ニューラルネットワークは、畳み込みニューラルネットワークであることを特徴とする
    請求項のいずれか一項に記載の方法。
  8. テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることは、
    前記テキスト画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果を得ることと、
    前記ダウンサンプリング結果に対して特徴抽出を行い、前記テキスト画像の特徴情報を得ることと、を含むことを特徴とする
    請求項1-のいずれか一項に記載の方法。
  9. テキスト認識装置であって、前記テキスト認識装置は、ニューラルネットワークにより実現され、
    前記ニューラルネットワークによって、テキスト画像に対して特徴抽出を行い、前記テキスト画像の特徴情報を得るように構成される特徴抽出モジュールであって、前記ニューラルネットワークにおける符号化ネットワークは複数のネットワークブロックを含み、各ネットワークブロックは、畳み込みカーネルのサイズがP×Qである少なくとも1つの第1畳み込み層を含み、P、Qは整数であり、且つQ>P≧1である、特徴抽出モジュールと、
    前記特徴情報に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得モジュールと、を備え、
    ここで、前記テキスト画像に少なくとも2つの文字が含まれ、前記特徴情報にテキスト関連特徴が含まれ、前記テキスト関連特徴は、前記テキスト画像内の文字同士間の関連性を表すためのものであり、
    前記特徴抽出モジュールは、
    前記少なくとも1つの第1畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト関連特徴を得るように構成される第1抽出サブモジュールを備えることを特徴とする
    テキスト認識装置
  10. 前記ニューラルネットワークにおける各ネットワークブロックは、畳み込みカーネルのサイズがN×Nである少なくとも1つの第2畳み込み層を更に含み、Nは1を超える整数であり、前記特徴情報にテキスト構造特徴が更に含まれ、
    前記特徴抽出モジュールは、
    前記少なくとも1つの第2畳み込み層により、前記テキスト画像に対して特徴抽出処理を行い、前記テキスト画像のテキスト構造特徴を得るように構成される第2抽出サブモジュールを更に備えことを特徴とする
    請求項に記載の装置。
  11. 前記結果取得モジュールは、
    前記テキスト関連特徴と前記特徴情報に含まれるテキスト構造特徴とに対してフュージョン処理を行い、フュージョン特徴を得るように構成されるフュージョンサブモジュールと、
    前記フュージョン特徴に基づいて、前記テキスト画像のテキスト認識結果を取得するように構成される結果取得サブモジュールと、を備えることを特徴とする
    請求項9又は10に記載の装置。
  12. 電子機器であって、
    プロセッサと、
    プロセッサでの実行可能な命令を記憶するための記憶媒体とを備え、
    前記プロセッサは、前記記憶媒体に記憶されている命令を呼び出し、請求項1からのいずれか一項に記載の方法を実行するように構成されることを特徴とする、前記電子機器。
  13. 機器での実行可能な命令が記憶されている機器可読記憶媒体であって、前記機器での実行可能な命令がプロセッサにより実行される時、請求項1からのいずれか一項に記載の方法を実現させることを特徴とする、前記機器可読記憶媒体。
JP2020560179A 2019-04-03 2020-01-07 テキスト認識 Active JP7066007B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910267233.0A CN111783756B (zh) 2019-04-03 2019-04-03 文本识别方法及装置、电子设备和存储介质
CN201910267233.0 2019-04-03
PCT/CN2020/070568 WO2020199704A1 (zh) 2019-04-03 2020-01-07 文本识别

Publications (2)

Publication Number Publication Date
JP2021520561A JP2021520561A (ja) 2021-08-19
JP7066007B2 true JP7066007B2 (ja) 2022-05-12

Family

ID=72664897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020560179A Active JP7066007B2 (ja) 2019-04-03 2020-01-07 テキスト認識

Country Status (6)

Country Link
US (1) US20210042567A1 (ja)
JP (1) JP7066007B2 (ja)
CN (1) CN111783756B (ja)
SG (1) SG11202010525PA (ja)
TW (1) TWI771645B (ja)
WO (1) WO2020199704A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111871B (zh) * 2021-04-21 2024-04-19 北京金山数字娱乐科技有限公司 文本识别模型的训练方法及装置、文本识别方法及装置
CN113011132B (zh) * 2021-04-22 2023-07-21 中国平安人寿保险股份有限公司 竖排文字识别方法、装置、计算机设备和存储介质
CN113052162B (zh) * 2021-05-27 2021-09-03 北京世纪好未来教育科技有限公司 一种文本识别方法、装置、可读存储介质及计算设备
CN113392825B (zh) * 2021-06-16 2024-04-30 中国科学技术大学 文本识别方法、装置、设备及存储介质
CN113269279B (zh) * 2021-07-16 2021-10-15 腾讯科技(深圳)有限公司 一种多媒体内容分类方法和相关装置
CN113344014B (zh) * 2021-08-03 2022-03-08 北京世纪好未来教育科技有限公司 文本识别方法和装置
CN114495938B (zh) * 2021-12-04 2024-03-08 腾讯科技(深圳)有限公司 音频识别方法、装置、计算机设备及存储介质
CN114241467A (zh) * 2021-12-21 2022-03-25 北京有竹居网络技术有限公司 一种文本识别方法及其相关设备
CN114550156A (zh) * 2022-02-18 2022-05-27 支付宝(杭州)信息技术有限公司 图像处理方法及装置
CN115953771A (zh) * 2023-01-03 2023-04-11 北京百度网讯科技有限公司 文本图像处理方法、装置、设备和介质
CN116597163A (zh) * 2023-05-18 2023-08-15 广东省旭晟半导体股份有限公司 红外光学透镜及其制备方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225112A (ja) 2009-03-25 2010-10-07 Toppan Printing Co Ltd データ生成装置およびデータ生成方法
JP2012093876A (ja) 2010-10-26 2012-05-17 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2015169963A (ja) 2014-03-04 2015-09-28 株式会社東芝 オブジェクト検出システム、およびオブジェクト検出方法
CN105930842A (zh) 2016-04-15 2016-09-07 深圳市永兴元科技有限公司 字符识别方法及装置
CN108764226A (zh) 2018-04-13 2018-11-06 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7010166B2 (en) * 2000-11-22 2006-03-07 Lockheed Martin Corporation Character recognition system and method using spatial and structural feature extraction
US20140307973A1 (en) * 2013-04-10 2014-10-16 Adobe Systems Incorporated Text Recognition Techniques
US20140363082A1 (en) * 2013-06-09 2014-12-11 Apple Inc. Integrating stroke-distribution information into spatial feature extraction for automatic handwriting recognition
CN105335754A (zh) * 2015-10-29 2016-02-17 小米科技有限责任公司 文字识别方法及装置
DE102016010910A1 (de) * 2015-11-11 2017-05-11 Adobe Systems Incorporated Strukturiertes Modellieren und Extrahieren von Wissen aus Bildern
CN106570521B (zh) * 2016-10-24 2020-04-28 中国科学院自动化研究所 多语言场景字符识别方法及识别系统
CN106650721B (zh) * 2016-12-28 2019-08-13 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN109213990A (zh) * 2017-07-05 2019-01-15 菜鸟智能物流控股有限公司 一种特征提取方法、装置和服务器
CN107688808B (zh) * 2017-08-07 2021-07-06 电子科技大学 一种快速的自然场景文本检测方法
CN107688784A (zh) * 2017-08-23 2018-02-13 福建六壬网安股份有限公司 一种基于深层特征和浅层特征融合的字符识别方法及存储介质
CN108304761A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 文本检测方法、装置、存储介质和计算机设备
CN107679533A (zh) * 2017-09-27 2018-02-09 北京小米移动软件有限公司 文字识别方法及装置
CN108229299B (zh) * 2017-10-31 2021-02-26 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN108710826A (zh) * 2018-04-13 2018-10-26 燕山大学 一种交通标志深度学习模式识别方法
CN109635810B (zh) * 2018-11-07 2020-03-13 北京三快在线科技有限公司 一种确定文本信息的方法、装置、设备及存储介质
CN109299274B (zh) * 2018-11-07 2021-12-17 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN109543690B (zh) * 2018-11-27 2020-04-07 北京百度网讯科技有限公司 用于提取信息的方法和装置
CN114693905A (zh) * 2020-12-28 2022-07-01 北京搜狗科技发展有限公司 文本识别模型构建方法、文本识别方法以及装置
CN115187456A (zh) * 2022-06-17 2022-10-14 平安银行股份有限公司 基于图像强化处理的文本识别方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225112A (ja) 2009-03-25 2010-10-07 Toppan Printing Co Ltd データ生成装置およびデータ生成方法
JP2012093876A (ja) 2010-10-26 2012-05-17 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2015169963A (ja) 2014-03-04 2015-09-28 株式会社東芝 オブジェクト検出システム、およびオブジェクト検出方法
CN105930842A (zh) 2016-04-15 2016-09-07 深圳市永兴元科技有限公司 字符识别方法及装置
CN108764226A (zh) 2018-04-13 2018-11-06 顺丰科技有限公司 图像文本识别方法、装置、设备及其存储介质

Also Published As

Publication number Publication date
TW202038183A (zh) 2020-10-16
JP2021520561A (ja) 2021-08-19
WO2020199704A1 (zh) 2020-10-08
SG11202010525PA (en) 2020-11-27
CN111783756A (zh) 2020-10-16
CN111783756B (zh) 2024-04-16
US20210042567A1 (en) 2021-02-11
TWI771645B (zh) 2022-07-21

Similar Documents

Publication Publication Date Title
JP7066007B2 (ja) テキスト認識
JP7262659B2 (ja) 目標対象物マッチング方法及び装置、電子機器並びに記憶媒体
JP7153088B2 (ja) テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム
US20210097297A1 (en) Image processing method, electronic device and storage medium
JP7123255B2 (ja) テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体
JP6944051B2 (ja) キーポイント検出方法及び装置、電子機器並びに記憶媒体
JP6916970B2 (ja) ビデオ処理方法及び装置、電子機器並びに記憶媒体
JP6968270B2 (ja) 画像の記述文位置決定方法及び装置、電子機器並びに記憶媒体
US20210019562A1 (en) Image processing method and apparatus and storage medium
JP7110412B2 (ja) 生体検出方法及び装置、電子機器並びに記憶媒体
KR20210019537A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
KR20190129826A (ko) 생체 검측 방법 및 장치, 시스템, 전자 기기, 저장 매체
CN109934275B (zh) 图像处理方法及装置、电子设备和存储介质
KR20210058887A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
US20200294249A1 (en) Network module and distribution method and apparatus, electronic device, and storage medium
CN109615006B (zh) 文字识别方法及装置、电子设备和存储介质
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
CN111612070A (zh) 基于场景图的图像描述生成方法及装置
JP2022533065A (ja) 文字認識方法及び装置、電子機器並びに記憶媒体
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN110121719A (zh) 用于深度学习的装置、方法和计算机程序产品
CN111507131B (zh) 活体检测方法及装置、电子设备和存储介质
KR20240046777A (ko) 활동 인식 방법 및 장치, 전자 장치 및 저장 매체
US12008167B2 (en) Action recognition method and device for target object, and electronic apparatus

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220426

R150 Certificate of patent or registration of utility model

Ref document number: 7066007

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150