JP7153088B2 - テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7153088B2
JP7153088B2 JP2020561646A JP2020561646A JP7153088B2 JP 7153088 B2 JP7153088 B2 JP 7153088B2 JP 2020561646 A JP2020561646 A JP 2020561646A JP 2020561646 A JP2020561646 A JP 2020561646A JP 7153088 B2 JP7153088 B2 JP 7153088B2
Authority
JP
Japan
Prior art keywords
vector
semantic vector
text
target
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020561646A
Other languages
English (en)
Other versions
JP2021520002A (ja
Inventor
▲劉▼学博
Original Assignee
ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド filed Critical ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Publication of JP2021520002A publication Critical patent/JP2021520002A/ja
Application granted granted Critical
Publication of JP7153088B2 publication Critical patent/JP7153088B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本出願は、2019年3月29日に提出された、出願番号が201910251661.4であり、発明名称が「テキスト認識方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張する
本出願は、コンピュータビジョン技術分野に関し、特にテキスト認識方法及び装置、電子機器並びに記憶媒体に関する。
自然のシーンにおけるテキスト認識は、画像理解及び画像復元分野における重要な課題である。正確なテキスト認識は、例えば画像理解、自動翻訳、視覚障害者誘導、ロボットナビゲーションなどに用いられる。現在、コーデックフレームワークに基づいたテキスト認識システムは、一般的には、エンコーダ及びデコーダとして再帰型ニューラルネットワークを用いる。
本出願の一態様によれば、テキスト認識方法を提供する。該方法は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することと、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることとを含む。
本出願の実施例のテキスト認識方法によれば、テキスト認識の精度を向上させることができる。
幾つかの実施例において、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることは、前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであることと、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含む。
このような方式によれば、先験的情報に基づいて得られた重みパラメータを利用してターゲットセマンティックベクトルに対して重み付けを行い、ターゲットセマンティックベクトル認識過程において、先験的情報を参照することで、ターゲットセマンティックベクトルの認識精度を向上させることができる。
幾つかの実施例において、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含む。
幾つかの実施例において、前記先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得ることと、前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることと、前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定することとを含む。
このような方式によれば、重みパラメータに先験的情報を包含させ、ターゲットセマンティックベクトルの認識のための依拠を提供することができる。
幾つかの実施例において、前記先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることは、前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、前記先験的情報に対応する特徴ベクトルを得ることと、前記特徴ベクトルに対して符号化処理を行い、前記第2ベクトルを得ることとを含む。
このような方式によれば、畳み込みニューラルネットワークにより、直前の文字の認識結果に基づいて、現在のターゲットセマンティックベクトルに対応する文字を認識することができ、制御不能な長さ依存性の課題を避け、認識の正解率を向上させる。
幾つかの実施例において、前記先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることは、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第2ベクトルを得ることを含む。
幾つかの実施例において、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含む。
幾つかの実施例において、前記検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることとを含む。
本出願のもう1つの態様によれば、テキスト認識装置を提供する。該装置は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する抽出モジュールと、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得るように構成される認識モジュールとを備える。
本出願のもう1つの態様によれば、電子機器を提供する。該電子機器は、プロセッサと、該プロセッサによる実行可能な命令を記憶するためのメモリとを備え、前記プロセッサは、前記メモリに記憶された指令を実行する時、上記テキスト認識方法を実現させる。
本出願のもう1つの態様によれば、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、該プロセッサに上記テキスト認識方法を実現させる。
例えば、本願は以下の項目を提供する。
(項目1)
テキスト認識方法であって、
検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることと、を含む、前記方法。
(項目2)
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであることと、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含むことを特徴とする
項目1に記載の方法。
(項目3)
前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含むことを特徴とする
項目2に記載の方法。
(項目4)
畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることと、
前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定することと、を含むことを特徴とする
項目2又は3に記載の方法。
(項目5)
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることは、
前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、前記先験的情報に対応する特徴ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記特徴ベクトルに対して符号化処理を行い、前記第2ベクトルを得ることとを含むことを特徴とする
項目4に記載の方法。
(項目6)
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第2ベクトルを得ることを含むことを特徴とする
項目4又は5に記載の方法。
(項目7)
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと、を含むことを特徴とする
項目2から6のいずれか一項に記載の方法。
(項目8)
前記検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、
前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、
前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることと、を含むことを特徴とする
項目1から7のいずれか一項に記載の方法。
(項目9)
テキスト認識装置であって、
検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する抽出モジュールと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得るように構成される認識モジュールと、を備える、テキスト認識装置。
(項目10)
前記認識モジュールは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成され、
前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであることを特徴とする
項目9に記載の装置。
(項目11)
前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含むことを特徴とする
項目10に記載の装置。
(項目12)
前記認識モジュールは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得て、
前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定するように構成されることを特徴とする
項目10又は11に記載の装置。
(項目13)
前記認識モジュールは、
前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該先験的情報に対応する特徴ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記特徴ベクトルに対して符号化処理を行い、前記第2ベクトルを得るように構成されることを特徴とする
項目12に記載の装置。
(項目14)
前記認識モジュールは、
前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第2ベクトルを得るように構成されることを特徴とする
項目12又は13に記載の装置。
(項目15)
前記認識モジュールは、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成されることを特徴とする
項目10-14のいずれか一項に記載の装置。
(項目16)
前記抽出モジュールは、
前記検出対象画像に対して特徴抽出を行い、特徴情報を得て、
前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得るように構成されることを特徴とする
項目9-15のいずれか一項に記載の装置。
(項目17)
電子機器であって、
プロセッサと、
前記プロセッサにより実行される命令を記憶するためのメモリと、を備え、
前記プロセッサは、前記メモリに記憶されている命令を実行する時、項目1から8のいずれか一項に記載の方法を実現させる、電子機器。
(項目18)
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される時、プロセッサに項目1から8のいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
本出願の実施例によるテキスト認識方法を示すフローチャートである。 本出願の実施例によるテキスト認識のための、畳み込みニューラルネットワークに基づいたコーデックフレームワークを示す概略図である。 本出願の実施例によるテキスト認識装置を示すブロック図である。 本出願の実施例による電子機器を示すブロック図である。 本出願の実施例による電子機器を示すブロック図である。
以下、図面を参照しながら本出願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。
本出願で用いられる用語は、特定の実施例を説明するためのものに過ぎず、本出願を限定するものではない。本出願で用いられる単数形「1つ」、「前記」及び「該」等は、文脈上明確に別途に示されていない限り、複数形も同じように含むことが意図されている。「A及び/又はB」は、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。「A、B、Cのうちの少なくとも1つを含む」は、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
本出願において、用語「第1」、「第2」、「第3」などにより、様々な情報を説明するが、これらの情報は、これらの用語を限定するものではない。これらの用語は、同一のタイプの情報を区別するためのものに過ぎない。例えば、本出願の範囲から逸脱することなく、第1情報は第2情報と呼ばれてもよい。同様に、第2情報は、第1情報と呼ばれてもよい。文脈によっては、ここで用いられる用語「すれば」、「・・の場合」又は「・・時」又は「に応答して」と解釈されてもよい。
なお、本出願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
図1は、本出願の実施例によるテキスト認識方法を示すフローチャートである。図1に示すように、前記方法は、ステップS11及びS12を含んでもよい。
ステップS11において、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する。
ステップS12において、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得る。
本出願の実施例のテキスト認識方法によれば、テキスト認識の精度を向上させることができる。
幾つかの実施例において、前記テキスト認識方法は、端末装置により実行されてもよい。端末装置は、ユーザ装置(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。前記方法は、端末装置におけるプロセッサにより、メモリに記憶されているコンピュータプログラム命令を呼び出すことで実現される。又は、端末装置により、検出対象画像を取得し、検出対象画像をサーバに送信し、サーバにより前記方法を実行してもよい。
幾つかの実施例において、ステップS11は、前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることとを含んでもよい。
幾つかの実施例において、前記特徴情報は、特徴マップ又は特徴ベクトル等を含んでもよいが、これらに限定されない。
例において、検出対象画像は、例えば複数のテキスト文字からなるテキストシーケンスを有してもよい。前記テキストシーケンスの各テキスト文字同士の間は、一定のセマンティック接続関係を有してもよい。つまり、前記テキストシーケンスは、あるセマンティックを有してもよい。
幾つかの実施例において、特徴抽出ネットワークを利用して、検出対象画像における複数のセマンティックベクトルを抽出することができる。該特徴抽出ネットワークは、例えば畳み込みニューラルネットワークなどのニューラルネットワークであってもよい。検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、前記検出対象画像を特徴抽出ネットワークに入力し、前記複数のセマンティックベクトルを得ることを含んでもよい。
例において、特徴抽出ネットワークは、符号化処理などにより、検出対象画像の1つ又は複数の特徴行列を取得することができる。該特徴行列の次元は、M×Pであってもよい。例えば、Pは、32であってもよい。MとPとの比は、検出対象画像のアスペクト比に対応してもよい。例えば、検出対象画像の解像度が1024×768であるとすれば、符号化処理により、1つ又は複数の43×32の特徴マップを得ることができる。
例において、特徴抽出ネットワークは、該特徴行列に対してダウンサンプリング処理を行い、1つ又は複数の特徴ベクトルをセマンティックベクトルとして得ることができる。例えば、次元がM×Pである特徴行列に対して、ダウンサンプリング処理を行い、1つ又は複数の次元がM×1である特徴ベクトルを一次元セマンティックベクトルとして得ることができる。上述した例において符号化処理により得られた43×32の特徴マップに対して、ダウンサンプリング処理により、1つ又は複数の43×1の特徴ベクトルを得ることができる。
上記特徴抽出処理により、テキスト認識の複雑さを低減させ、テキスト認識の効率を向上させることができる。
幾つかの実施例において、特徴抽出ネットワークを利用して検出対象画像に対して特徴抽出処理を行う前に、前記特徴抽出ネットワークを訓練することができる。
幾つかの実施例において、多種の背景、多種の解像度、多種のフォント、多種の照明条件、多種のサイズスケール、多種の傾斜方向及び多重のぼけ度合いの複数の画像を第1サンプル画像として撮影し、特徴抽出ネットワークを訓練することができる。
幾つかの実施例において、確率辞書に基づいて、第1サンプル画像におけるテキストに対してラベル付けを行い、第1サンプル画像のラベリングセマンティックベクトル(以下、第1サンプル画像の真のセマンティックベクトルと呼ばれてもよい)を得ることができる。前記確率辞書は、ユーザにより定義された、テキストに関する確率分布を含んでもよい。例えば、複数の要素を含むベクトルで、確率辞書における各テキストの確率分布情報を表すことができる。各テキストの確率分布情報に基づいて、確率辞書におけるテキストを決定するか、又は確率辞書におけるテキストの確率分布情報を決定することことができ、それによって前記テキストに対応するセマンティックベクトルを決定することができる。例において、第1サンプル画像におけるテキストの前記確率辞書における確率分布情報を決定することで、第1サンプル画像におけるテキストに対応するセマンティックベクトルを決定し、前記セマンティックベクトルに基づいて、第1サンプル画像に対してラベル付けを行い、アノテーション情報を得ることができる。従って、前記アノテーション情報は、第1サンプル画像の真のセマンティックベクトルを表すことができる。
幾つかの実施例において、第1サンプル画像を前記特徴抽出ネットワークに入力して処理し、第1サンプル画像に対応するサンプルセマンティックベクトルを得ることができる。前記サンプルセマンティックベクトルは、特徴抽出ネットワークからの該第1サンプル画像の出力結果である。該出力結果には、誤差が存在する可能性がある。
幾つかの実施例において、第1サンプル画像のアノテーション情報及び出力結果に基づいて、特徴抽出ネットワークのネットワーク損失を決定することができる。例において、第1サンプル画像の真のセマンティックベクトル(即ち、アノテーション情報)とサンプルセマンティックベクトル(即ち、出力結果)を比較し、両者間の差異を特徴抽出ネットワークの損失関数と決定することができる。また、例えば、アノテーション情報及び出力結果に基づいて、特徴抽出ネットワークの交差エントロピー損失関数を決定することができる。例において、正則化の損失関数を特徴抽出ネットワークのネットワーク損失として用いることができ、それによって反復訓練過程において特徴抽出ネットワークのネットワークパラメータに過剰適合が生じることを避けることができる。
幾つかの実施例において、ネットワーク損失に基づいて、特徴抽出ネットワークのネットワークパラメータを調整することができる。例において、ネットワークパラメータを調整することでネットワーク損失を最小にし、調整された特徴抽出ネットワークに高い適合度を持たせると共に、過剰適合を避けることができる。例において、勾配降下法により、ネットワーク損失の逆伝搬を行い、特徴抽出ネットワークのネットワークパラメータを調整することができる。例えば、各ニューロンの間でツリー型によって接続されている特徴抽出ネットワークに対して、ランダム勾配降下法などにより、ネットワークパラメータを調整し、ネットワークパラメータ調整過程の複雑さを低下させ、ネットワークパラメータの調整効率を向上させ、調整されたネットワークパラメータに過剰適合が発生することを避けることができる。
幾つかの実施例において、特徴抽出ネットワークに対して反復訓練を行い、訓練要件を満たした特徴抽出ネットワークをセマンティックベクトルの取得に用いることができる。訓練要件は、調整回数、ネットワーク損失の大きさ又はネットワーク損失の収束性及び拡散性などを含んでもよい。特徴抽出ネットワークに所定の数の第1サンプル画像を入力する。つまり、特徴抽出ネットワークのネットワークパラメータを所定の回数で調整する。調整回数が前記所定の回数に達した時、訓練要件を満たしていると見なす。又は、調整回数を限定せず、ネットワーク損失が所定の程度まで低下したか、又は所定の閾値内に収束した時、調整を終了し、調整された特徴抽出ネットワークを得る。又、調整された特徴抽出ネットワークを検出対象画像のセマンティックベクトルの取得に用いる。アノテーション情報と出力結果との差により、特徴抽出ネットワークを訓練し、損失関数の複雑さを低下させ、訓練速度を向上させることができる。
幾つかの実施例において、ステップS12において、グラフィック処理ユニット(Graphics Processing Unit:GPU)を利用して畳み込みニューラルネットワークを加速し、畳み込みニューラルネットワークの処理効率を向上させることができる。
幾つかの実施例において、ステップS12において、畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることができる。ここで、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つである。また、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。
幾つかの実施例において、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含む。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルであると、前記先験的情報は、開始記号であってもよい。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、前記先験的情報は、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果であってもよい。
幾つかの実施例において、前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得ることができる。続いて、前記第1ベクトル及び前記第2ベクトルに基づいて、前記ターゲットセマンティックベクトルの重みパラメータを決定することができる。
幾つかの実施例において、前記第1ベクトルは、ターゲットセマンティックベクトルのセマンティック情報を有してもよく、また、第1ベクトルは、ターゲットセマンティックベクトルに対応する文字のセマンティック接続関係を有する。
幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルであり、つまり、ターゲットセマンティックベクトルがテキストシーケンスにおける最初の文字に対応するセマンティックベクトルである場合、前記ターゲットセマンティックベクトルの先験的情報における開始記号に対応する開始ベクトルにより、符号化処理し、該先験的情報に対応する第2ベクトルを得ることができる。例において、開始記号に対応する開始ベクトルは、要素が所定の値(例えば、要素が全て1である)であるベクトルであってもよい。例において、テキストシーケンスにおける文字がA、B、C及びDであり、開始記号Sに対応する開始ベクトルに対して符号化処理を行い、第2ベクトルを得ることができる。
幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、前記先験的情報には前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得て、前記特徴ベクトルに対して符号化処理を行い、該先験的情報に対応する第2ベクトルを得ることができる。例えば、テキストシーケンスにおける文字がA、B、C及びDであり、ターゲットセマンティックベクトルがB、C又はDに対応するセマンティックベクトルであると、ターゲットセマンティックベクトルの直前のセマンティックベクトルのテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得て、該特徴ベクトルに対して符号化処理を行い、該先験的情報に対応する第2ベクトルを得ることができる。
幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該テキスト認識結果に対応する特徴ベクトルを決定することができる。例において、Word2Vec又はGloVe等のようなモデルのアルゴリズムにより、直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得ることができる。
幾つかの実施例において、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキストを認識する過程において、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報を認識することができる。つまり、前記直前のセマンティックベクトルに対応するテキスト認識結果は、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報によるものである。従って、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルは、後続の文字認識の依拠とすることができる。なお、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルは、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック情報を有し、且つ、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック接続関係を有する。
幾つかの実施例において、前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定することができる。前記重みパラメータは、重み行列であってもよい。例えば、第1ベクトル及び第2ベクトルに対してベクトル乗算を行い、前記重み行列を得ることができる。
幾つかの実施例において、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。
幾つかの実施例において重みパラメータ(重み行列)とターゲットセマンティックベクトルを行列乗算し(即ち、ターゲットセマンティックベクトルに対して重み付け処理を行う)、前記注意分配ベクトルを得ることができる。従って、注意分配ベクトルは、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォント等の情報並びにターゲットセマンティックベクトルのセマンティック情報を有する。
幾つかの実施例において、注意分配ベクトルに基づいて、確率辞書に関する確率分布情報を決定することができる。例えば、前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報を得ることができる。続いて、確率分布情報に基づいて、確率辞書におけるテキストを決定し、つまり、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。該テキスト認識結果は、次の文字の認識処理過程に用いられる。このように類推して、テキストシーケンスにおける全ての文字の認識が完了するまで継続する。テキストシーケンスにおける全ての文字の認識が完了した時、畳み込みニューラルネットワークに終了ベクトルを入力してもよい。前記終了ベクトルの要素は、所定のものであってもよい(例えば、要素が全て1である)。終了ベクトルを入力する時、検出対象画像におけるテキストシーケンスの認識動作が完了し、前記テキストシーケンスの認識結果が得られる。
幾つかの実施例において、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック情報は、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルの重みパラメータ(重み行列)に含まれてもよい。該重みパラメータにおける要素は、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報を有してもよく、テキストシーケンスにおける後続文字の認識の依拠とすることができる。該重みパラメータに含まれるセマンティック情報は、後続文字の認識の依拠とすることもできる。例えば、ターゲットセマンティックベクトルが2番目のセマンティックベクトルであれば、ターゲットセマンティックベクトルの直前のセマンティックベクトルは最初のセマンティックベクトルであり、それに対応する文字は、テキストシーケンスにおける最初の文字である。最初の文字の認識結果は、ターゲットセマンティックベクトルに対応する文字の認識の依拠とすることができる。また、ターゲットセマンティックベクトルの認識結果は、3番目のセマンティックベクトル(即ち、ターゲットセマンティックベクトルの次のセマンティックベクトル)に対応する文字の認識の依拠とすることができる。
例において、テキストシーケンスにおける最初の文字を認識する時、認識対象画像には、認識された文字が存在しないため、先験的情報としての開始記号を利用して最初の文字を認識する。例を挙げると、テキストシーケンスに文字A、B、C及びDが存在する時、まず、開始記号Sを先験的情報とし、開始記号Sに対応する開始ベクトルを利用して文字Aを認識し、テキストシーケンスにおける最初の文字の認識結果Aを得る。続いて、認識された文字Aを利用して文字Bを認識し、2番目の文字の認識結果Bを得る。このように類推して、全ての文字A、B、C及びDを認識するまで継続し、テキストシーケンスの認識結果を得る。
このような方式によれば、畳み込みニューラルネットワークにより、直前の文字の認識結果に基づいて、現在のターゲットセマンティックベクトルに対応する文字を認識することができ、制御不能な長さ依存性の課題を避け、認識の正解率を向上させる。
幾つかの実施例において、畳み込みニューラルネットワークを利用してテキスト認識結果を決定する前に、前記畳み込みニューラルネットワークを訓練することができる。
幾つかの実施例において、多種の背景、多種の解像度、多種のフォント、多種の照明条件、多種のサイズスケール、多種の傾斜方向及び多重のぼけ度合いの複数の画像を第2サンプル画像として撮影し、複数の第2サンプル画像を利用して畳み込みニューラルネットワークを訓練することができる。
幾つかの実施例において、確率辞書に基づいて、各第2サンプル画像における文字の確率分布情報を得て、前記確率分布情報に基づいて、該第2サンプル画像に対してラベル付けを行い、該第2サンプル画像における各文字のアノテーション情報を得ることができる。つまり、前記アノテーション情報は、第2サンプル画像における対応する文字の真の確率分布情報である。
幾つかの実施例において、いずれか1つの第2サンプル画像に対して特徴抽出処理を行い、第2サンプル画像における複数の文字にそれぞれ対応する複数のセマンティックベクトルを得ることができる。畳み込みニューラルネットワークにおける第1畳み込み層に最初のセマンティックベクトルを入力し、第2畳み込み層に開始記号を入力することで、最初のセマンティックベクトルの重みパラメータを得ることができる。更に、該重みパラメータ(重み行列)を利用して最初のセマンティックベクトルに対して重み付けを行い(つまり、行列乗算を行う)、最初のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。
幾つかの実施例において、畳み込みニューラルネットワークにおける逆畳み込み層によりサンプル注意分配ベクトルを復号処理し、畳み込みニューラルネットワークから出力された確率分布情報を得る。つまり、畳み込みニューラルネットワークの出力結果を得る。更に、アノテーション情報(真の確率分布情報)及び出力結果(畳み込みニューラルネットワークから出力された確率分布情報)に基づいて、畳み込みニューラルネットワークのネットワーク損失を決定することができる。例において、第2サンプル画像における文字のアノテーション情報と畳み込みニューラルネットワークの出力結果を比較し、両者間の差異を畳み込みニューラルネットワークの損失関数と決定することができる。また、例えば、アノテーション情報及び出力結果に基づいて、畳み込みニューラルネットワークの交差エントロピー損失関数を決定することができる。例において、正則化された損失関数を畳み込みニューラルネットワークのネットワーク損失として用いることで、反復訓練過程において畳み込みニューラルネットワークのネットワークパラメータに過剰適合が生じることを避けることができる。
幾つかの実施例において、ネットワーク損失に基づいて、畳み込みニューラルネットワークのネットワークパラメータを調整することができる。例において、ネットワークパラメータを調整することでネットワーク損失を最小にし、調整された畳み込みニューラルネットワークに高い適合度を持たせると共に、過剰適合を避けることができる。例において、勾配降下法により、ネットワーク損失の逆伝搬を行い、畳み込みニューラルネットワークのネットワークパラメータを調整することができる。例えば、各ニューロンの間でツリー型によって接続されている畳み込みニューラルネットワークに対して、ランダム勾配降下法などにより、ネットワークパラメータを調整し、ネットワークパラメータ調整過程の複雑さを低下させ、ネットワークパラメータの調整効率を向上させ、調整されたネットワークパラメータに過剰適合が発生することを避けることができる。
幾つかの実施例において、畳み込みニューラルネットワークから出力された確率分布情報及び確率辞書に基づいて、畳み込みニューラルネットワークにより認識された文字を決定し、該文字に対して単語埋め込み処理を行い、該文字に対応する特徴ベクトルを得ることができる。更に、該特徴ベクトルを畳み込みニューラルネットワークにおける第2畳み込み層に入力し、第2サンプル画像における2番目のセマンティックベクトルを畳み込みニューラルネットワークにおける第1畳み込み層に入力し、2番目のセマンティックベクトルの重みパラメータを得る。該重みパラメータを利用して2番目のセマンティックベクトルに対して重み付けを行い、2番目のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。続いて、畳み込みニューラルネットワークにおける逆畳み込み層により、該サンプル注意分配ベクトルを復号し、確率分布情報を得ることができる。該確率分布情報及び2番目の文字のアノテーション情報に基づいて、ネットワーク損失を決定し、ネットワーク損失を利用して、畳み込みニューラルネットワークのネットワークパラメータを再調整することができる。例において、このような方式により、反復調整を行うことができる。例えば、畳み込みニューラルネットワークにより認識された2番目の文字に対応する特徴ベクトル及び3番目のセマンティックベクトルに基づいて、3番目のセマンティックベクトルの重みパラメータを得て、更に、3番目のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。それに対して復号処理を行ってから、ネットワーク損失を決定し、ネットワーク損失に基づいて畳み込みニューラルネットワークを再調整することができる。このように類推すると、3番目の文字及び4番目のセマンティックベクトルに基づいて、畳み込みニューラルネットワークを調整し、4番目の文字及び5番目のセマンティックベクトルに基づいて畳み込みニューラルネットワークを調整し、該第2サンプル画像における全ての文字の認識が完了するまで継続する。従って、畳み込みニューラルネットワークのネットワークパラメータが複数回調整される
幾つかの実施例において、畳み込みニューラルネットワークが訓練要件を満たした場合、畳み込みニューラルネットワークを検出対象画像におけるテキストシーケンスの認識に用いることができる。訓練要件は、調整回数、ネットワーク損失の大きさ又はネットワーク損失の収束性及び拡散性などを含んでもよい。畳み込みニューラルネットワークのネットワークパラメータを所定の回数で調整する。調整回数が前記所定の回数に達した時、訓練要件を満たしていると認められる。又は、調整回数を限定せず、ネットワーク損失が所定の程度まで低下したか又は所定の閾値内に収束した時、調整を終了し、調整されたみ込みニューラルネットワークを得る。
本出願の実施例のテキスト認識方法によれば、検出対象画像からセマンティックベクトルを抽出し、テキスト認識の複雑さを低下させ、テキスト認識の効率を向上させることができる。畳み込みニューラルネットワークを利用して、直前の文字の認識結果に基づいて、現在のターゲットセマンティックベクトルに対応する文字を認識することで、制御不能な長さ依存性の課題を避け、認識の正解率を向上させる。GPUを利用して畳み込みニューラルネットワークを加速し、畳み込みニューラルネットワークの処理効率を向上させることができる。
図2は、本出願の実施例によるテキスト認識のための、畳み込みニューラルネットワークに基づいたコーデックフレームワークを示す概略図である。
幾つかの実施例において、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得る。畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、また、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。前記ターゲットセマンティックベクトルは、複数のセマンティックベクトルのうちのいずれか1つである。
幾つかの実施例において、複数のセマンティックベクトルは、テキストシーケンスにおける複数の文字に対応してもよい。例えば、テキストシーケンスにおける複数の文字のうちの各文字は、複数のセマンティックベクトルのうちの1つのセマンティックベクトルに対応するが、本出願の実施例はこれに限定されない。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトル(即ち、検出対象画像におけるテキストシーケンスにおける最初の文字に対応するセマンティックベクトル)であれば、ターゲットセマンティックベクトルを前記畳み込みニューラルネットワークにおける第1畳み込み層に入力して符号化処理し、第1ベクトルを得て、開始記号に対応する開始ベクトルを前記畳み込みニューラルネットワークにおける第2畳み込み層に入力して符号化処理し、第2ベクトルを得ることができる。更に、第1ベクトルと第2ベクトルに対してベクトル乗算を行い、最初のセマンティックベクトルの重みパラメータである重み行列を得る。
幾つかの実施例において、該重み行列を利用して最初のセマンティックベクトルに対して重み付けを行い、最初のセマンティックベクトルに対応する注意分配ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報を得ることができる。更に、該確率分布情報に基づいて確率辞書におけるテキストを決定する。つまり、最初のセマンティックベクトルに対応するテキスト認識結果を得ることで、最初の文字の認識結果を得る。
幾つかの実施例において、最初の文字の認識結果に対して単語埋め込み処理を行い、最初の文字に対応する特徴ベクトルを得ることができる。最初の文字に対応する特徴ベクトルを前記畳み込みニューラルネットワークにおける第2畳み込み層に入力して符号化処理し、最初の文字に対応する第2ベクトルを得ることができる。2番目のセマンティックベクトル(即ち、検出対象画像における文字シーケンスにおける2番目の文字に対応するセマンティックベクトル)を畳み込みニューラルネットワークにおける第1畳み込み層に入力して符号化処理し、2番目のセマンティックベクトルの第1ベクトルを得ることができる。更に、2番目のセマンティックベクトルの第1ベクトルと最初の文字に対応する第2ベクトルに対してベクトル乗算を行い、2番目のセマンティックベクトルの重み行列を得ることができる。該重み行列を利用して2番目のセマンティックベクトルに対して重み付けを行い(つまり、行列乗算を行う)、重み付けされた2番目のセマンティックベクトルを畳み込みニューラルネットワークの全結合層に入力し、2番目のセマンティックベクトルに対応する注意分配ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、2番目のセマンティックベクトルに対応する注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報(即ち、2番目の文字の認識結果の確率分布)を得ることができる。該確率分布情報に基づいて、確率辞書におけるテキストを決定する。つまり、2番目の文字の認識結果を得ることができる。更に、2番目の文字の認識結果を利用して、3番目の文字の認識結果を決定し、3番目の文字の認識結果を利用して、4番目の文字の認識結果を決定することもできる。以下、同様である。
例において、テキストシーケンスにおける最初の文字を認識する時、認識対象画像には、認識された文字が存在しないため、先験的情報とした開始記号を利用して最初の文字を認識する。例を挙げると、テキストシーケンスに文字A、B、C及びDが存在する時、まず、開始記号Sを先験的情報とし、開始記号Sに対応する開始ベクトルを利用して文字Aを認識し、テキストシーケンスにおける最初の文字の認識結果Aを得る。続いて、認識された文字Aを利用して文字Bを認識し、2番目の文字の認識結果Bを得る。このように類推して、全ての文字A、B、C及びDを認識するまで継続し、テキストシーケンスの認識結果を得る。
幾つかの実施例において、上記方式により、処理されるべき画像における各セマンティックベクトルを反復処理することで、検出対象画像における各文字の認識結果を得て、テキストシーケンスにおける全ての文字の認識が完了するまで継続する。テキストシーケンスにおける全ての文字の認識が完了した時、畳み込みニューラルネットワークに終了ベクトルを入力し、検出対象画像におけるテキストシーケンスの認識動作を完了させ、テキストシーケンスの認識結果を得ることができる。
図3は、上記いずれか1つの実施例によるテキスト認識方法を実現させるテキスト認識装置を示すブロック図である。図3に示すように、前記装置は、抽出モジュール11と、認識モジュール12とを備える。
抽出モジュール11は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することができる。認識モジュール12は、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることができる。
幾つかの実施例において、前記認識モジュールは、畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成され、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つである。
幾つかの実施例において、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含む。
幾つかの実施例において、前記認識モジュールは、前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第1ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第2ベクトルを得て、前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定するように構成される。
幾つかの実施例において、前記認識モジュールは、前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該先験的情報に対応する特徴ベクトルを得て、前記特徴ベクトルに対して符号化処理を行い、前記第2ベクトルを得るように構成される。
幾つかの実施例において、前記認識モジュールは、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第2ベクトルを得るように構成される。
幾つかの実施例において、前記認識モジュールは、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成される。
幾つかの実施例において、前記抽出モジュールは、前記検出対象画像に対して特徴抽出を行い、特徴情報を得て、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得るように構成される。
図4は一例示的な実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってもよい。
図4を参照すると、電子機器800は、処理ユニット802、メモリ804、電源ユニット806、マルチメディアユニット808、オーディオユニット810、入力/出力(I/O)インタフェース812、センサユニット814及び通信ユニット816のうちの1つ又は複数を備えてもよい。
処理ユニット802は一般的には、電子機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理ユニット802はマルチメディアモジュールを備えることで、マルチメディアユニット808と処理ユニット802とのインタラクションに寄与する。
メモリ804は、各種のデータを記憶することで電子機器800における操作をサポートするように構成される。これらのデータの例として、電子機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM(登録商標))、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源ユニット806は電子機器800の様々なユニットに電力を提供する。電源ユニット806は、電源管理システム、1つ又は複数の電源、及び電子機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアユニット808は、上記電子機器800とユーザとの間にインタフェース(例えば、グラフィックユーザインタフェース(GUI))を提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット808は、フロントカメラ及び/又はリアカメラを備える。電子機器800が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオユニット810は、オーディオ信号を出力/入力するように構成される。例えば、オーディオユニット810は、マイクロホンを備える。電子機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信ユニット816を経由して送信することができる。幾つかの実施例において、オーディオユニット810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース812は、処理ユニット802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサユニット814は、1つ又は複数のセンサを備え、電子機器800のために様々な状態情報を提供するように構成される。例えば、センサユニット814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット814は、相補型金属酸化膜半導体(CMOS)又は電荷結合素子(CCD)画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信ユニット816は、電子機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器800は、WiFi、2G又は3G、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット816は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、電子機器800は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、いずれか1つのテキスト認識方法を実行するように構成されてもよい。
例示的な実施例において、コンピュータプログラム命令を記憶した非一時的コンピュータ可読記憶媒体(例えば、メモリ804)を更に提供する。該コンピュータプログラム命令は、プロセッサ(例えば、プロセッサ820)により実行される時、該プロセッサに上記いずれか1つのテキスト認識方法を実現させる。
図5は、一例示的な実施例による電子機器1900を示すブロック図である。例えば、電子機器1900は、サーバであってもよい。
図5を参照すると、電子機器1900は、処理ユニット1922を備える。ぞれは1つ又は複数のプロセッサと、メモリ1932で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット1922により実行される命令を記憶するためのものである。処理ユニット1922は、命令を実行して、上記いずれか1つのテキスト認識方法を実現させる。
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源ユニット1926と、電子機器1900をネットワークに接続するように構成される有線又は無線ネットワークインタフェース1950と、入力出力(I/O)インタフェース1958を更に備えてもよい。
電子機器1900は、メモリ1932に記憶されているオペレーティングシステム(例えば、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTMなど)に基づいて動作することができる。
例示的な実施例において、例えば、コンピュータプログラム命令を記憶した不揮発性コンピュータ可読記憶媒体(例えば、メモリ1932)を更に提供する。該コンピュータプログラム命令は、プロセッサ(例えば、処理ユニット1922)により実行される時、該プロセッサに上記いずれか1つのテキスト認識方法を実現させる。
本出願は、装置(システム)、方法及び/又はコンピュータプログラム製品として実現されてもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願のテキスト認識方法を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
図面におけるフローチャート及びブロック図は、本出願の各実施例による装置(システム)、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュールプログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、本出願を限定するものではない。本出願の範囲及び精神から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本出願の精神及び原則を脱逸することなく行われる如何なる修正、均等物による置換、改良などは、いずれも本出願の範囲内に含まれるものとする。

Claims (11)

  1. テキスト認識方法であって、
    検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することと、
    畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得ること
    を含み、
    畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得ることは、
    前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであり、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含み、前記重みパラメータは、ターゲットセマンティックベクトルに対して重み付け処理を行うことによって前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを決定するためのものである、ことと、
    前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと
    を含む、テキスト認識方法。
  2. 畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、
    前記畳み込みニューラルネットワークにおける少なくとも1つの第1畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの符号化後の第1ベクトルを得ることと、
    前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第2ベクトルを得ることと、
    前記第1ベクトル及び前記第2ベクトルに基づいて、前記重みパラメータを決定すること
    を含む請求項に記載のテキスト認識方法。
  3. 前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第2ベクトルを得ることは、
    前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行うことによって、前記先験的情報の単語埋め込み後の特徴ベクトルを得ることと、
    前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記特徴ベクトルに対して符号化処理を行うことによって、前記第2ベクトルを得ること
    を含む請求項に記載のテキスト認識方法。
  4. 前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第2ベクトルを得ることは、
    前記畳み込みニューラルネットワークにおける少なくとも1つの第2畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行うことによって、前記第2ベクトルを得ることを含む請求項又はに記載のテキスト認識方法。
  5. 前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、
    前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、
    前記畳み込みニューラルネットワークにおける少なくとも1つの逆畳み込み層により、前記注意分配ベクトルを復号処理することによって、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定すること
    を含む請求項1~4のいずれか一項に記載のテキスト認識方法。
  6. 前記検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得ることは、
    前記検出対象画像に対して特徴抽出を行うことによって、特徴情報を得ることと、
    前記特徴情報に対してダウンサンプリング処理を行うことによって、前記複数のセマンティックベクトルを得ること
    を含む請求項1~5のいずれか一項に記載のテキスト認識方法。
  7. テキスト認識装置であって、
    検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する抽出モジュールと、
    畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得るように構成される認識モジュール
    を備え、
    前記認識モジュールは、
    前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの1つであり、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び/又は開始記号を含み、前記重みパラメータは、ターゲットセマンティックベクトルに対して重み付け処理を行うことによって前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを決定するためのものである、ことと、
    前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと
    を行う、テキスト認識装置。
  8. 前記抽出モジュールは、
    前記検出対象画像に対して特徴抽出を行うことによって、特徴情報を得ることと、
    前記特徴情報に対してダウンサンプリング処理を行うことによって、前記複数のセマンティックベクトルを得ること
    を行う、請求項に記載のテキスト認識装置。
  9. 電子機器であって、
    プロセッサと、
    前記プロセッサにより実行される命令を記憶するメモリ
    を備え、
    前記プロセッサは、前記メモリに記憶されている前記命令を実行することにより、請求項1~6のいずれか一項に記載のテキスト認識方法を実行する、電子機器。
  10. コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令は、プロセッサによって実行されると、請求項1~6のいずれか一項に記載のテキスト認識方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
  11. コンピュータプログラムであって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項1~6のいずれか一項に記載のテキスト認識方法を実行することを前記プロセッサに行わせる、コンピュータプログラム。
JP2020561646A 2019-03-29 2020-01-17 テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7153088B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910251661.4 2019-03-29
CN201910251661.4A CN111753822B (zh) 2019-03-29 2019-03-29 文本识别方法及装置、电子设备和存储介质
PCT/CN2020/072804 WO2020199730A1 (zh) 2019-03-29 2020-01-17 文本识别方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021520002A JP2021520002A (ja) 2021-08-12
JP7153088B2 true JP7153088B2 (ja) 2022-10-13

Family

ID=72664623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561646A Active JP7153088B2 (ja) 2019-03-29 2020-01-17 テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (6)

Country Link
US (1) US12014275B2 (ja)
JP (1) JP7153088B2 (ja)
CN (1) CN111753822B (ja)
SG (1) SG11202010916SA (ja)
TW (1) TW202036464A (ja)
WO (1) WO2020199730A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7363107B2 (ja) * 2019-06-04 2023-10-18 コニカミノルタ株式会社 発想支援装置、発想支援システム及びプログラム
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
US11227009B1 (en) * 2019-09-30 2022-01-18 Amazon Technologies, Inc. Text de-obfuscation with image recognition of text
CN112487826A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 信息抽取方法、抽取模型训练方法、装置以及电子设备
CN112733830A (zh) * 2020-12-31 2021-04-30 上海芯翌智能科技有限公司 店铺招牌识别方法及装置、存储介质和计算机设备
CN112949477B (zh) * 2021-03-01 2024-03-15 苏州美能华智能科技有限公司 基于图卷积神经网络的信息识别方法、装置及存储介质
CN113190643B (zh) * 2021-04-13 2023-02-03 安阳师范学院 信息生成方法、终端设备和计算机可读介质
CN113762050B (zh) * 2021-05-12 2024-05-24 腾讯云计算(北京)有限责任公司 图像数据处理方法、装置、设备以及介质
CN113326887B (zh) * 2021-06-16 2024-03-29 深圳思谋信息科技有限公司 文本检测方法、装置、计算机设备
CN113448477B (zh) * 2021-08-31 2021-11-23 南昌航空大学 交互式图像编辑方法、装置、可读存储介质及电子设备
CN113704478B (zh) * 2021-09-07 2023-08-22 平安银行股份有限公司 文本要素提取方法、装置、电子设备及介质
CN113792741B (zh) * 2021-09-17 2023-08-11 平安普惠企业管理有限公司 文字识别方法、装置、设备及存储介质
CN113837965B (zh) * 2021-09-26 2024-06-18 北京百度网讯科技有限公司 图像清晰度识别方法、装置、电子设备及存储介质
CN113688955B (zh) * 2021-10-25 2022-02-15 北京世纪好未来教育科技有限公司 文本识别方法、装置、设备及介质
CN114239598A (zh) * 2021-12-17 2022-03-25 上海高德威智能交通系统有限公司 文本元素阅读顺序确定方法、装置、电子设备及存储介质
CN113963358B (zh) * 2021-12-20 2022-03-04 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN114207673A (zh) * 2021-12-20 2022-03-18 商汤国际私人有限公司 序列识别方法及装置、电子设备和存储介质
CN114495101A (zh) * 2022-01-12 2022-05-13 北京百度网讯科技有限公司 文本检测方法、文本检测网络的训练方法及装置
CN114495102A (zh) * 2022-01-12 2022-05-13 北京百度网讯科技有限公司 文本识别方法、文本识别网络的训练方法及装置
CN114492437B (zh) * 2022-02-16 2023-07-18 平安科技(深圳)有限公司 关键词识别方法、装置、电子设备及存储介质
CN115062118B (zh) * 2022-07-26 2023-01-31 神州医疗科技股份有限公司 双通道信息抽取方法、装置、电子设备和介质
CN115601752A (zh) * 2022-10-26 2023-01-13 维沃移动通信有限公司(Cn) 文字识别方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017194806A (ja) 2016-04-19 2017-10-26 AI inside株式会社 文字認識装置、方法およびプログラム
WO2018094294A1 (en) 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN108287585A (zh) 2018-01-25 2018-07-17 西安文理学院 一种稳压电源

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0954814A (ja) * 1995-08-04 1997-02-25 At & T Corp 入力記号表現の分析及び入力記号表現の可能解釈のスコアリングシステム
GB201511887D0 (en) * 2015-07-07 2015-08-19 Touchtype Ltd Improved artificial neural network for language modelling and prediction
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN107168952B (zh) * 2017-05-15 2021-06-04 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN108228686B (zh) * 2017-06-15 2021-03-23 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
US10628668B2 (en) * 2017-08-09 2020-04-21 Open Text Sa Ulc Systems and methods for generating and using semantic images in deep learning for classification and data extraction
CN107590192B (zh) * 2017-08-11 2023-05-05 深圳市腾讯计算机系统有限公司 文本问题的数学化处理方法、装置、设备和存储介质
CN107644209A (zh) * 2017-09-21 2018-01-30 百度在线网络技术(北京)有限公司 人脸检测方法和装置
US10438371B2 (en) 2017-09-22 2019-10-08 Zoox, Inc. Three-dimensional bounding box from two-dimensional image and point cloud data
CN107797985B (zh) * 2017-09-27 2022-02-25 百度在线网络技术(北京)有限公司 建立同义鉴别模型以及鉴别同义文本的方法、装置
US10810467B2 (en) * 2017-11-17 2020-10-20 Hong Kong Applied Science and Technology Research Institute Company Limited Flexible integrating recognition and semantic processing
CN108288078B (zh) * 2017-12-07 2020-09-29 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108615036B (zh) * 2018-05-09 2021-10-01 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN108874174B (zh) * 2018-05-29 2020-04-24 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
US10585988B2 (en) * 2018-06-08 2020-03-10 Microsoft Technology Licensing, Llc Graph representations for identifying a next word
CN108960330B (zh) * 2018-07-09 2021-09-10 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
EP3598339A1 (en) * 2018-07-19 2020-01-22 Tata Consultancy Services Limited Systems and methods for end-to-end handwritten text recognition using neural networks
CN109389091B (zh) * 2018-10-22 2022-05-03 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质
US11010560B2 (en) * 2018-11-08 2021-05-18 International Business Machines Corporation Multi-resolution convolutional neural networks for sequence modeling
CN109471945B (zh) * 2018-11-12 2021-11-23 中山大学 基于深度学习的医疗文本分类方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017194806A (ja) 2016-04-19 2017-10-26 AI inside株式会社 文字認識装置、方法およびプログラム
WO2018094294A1 (en) 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN108287585A (zh) 2018-01-25 2018-07-17 西安文理学院 一种稳压电源

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Xuebo Liu,FOTS: Fast Oriented Text Spotting with a Unified Network,2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年06月18日,pp.5676 - 5685,URL,https://ieeexplore.ieee.org/document/8578693

Also Published As

Publication number Publication date
TW202036464A (zh) 2020-10-01
US12014275B2 (en) 2024-06-18
CN111753822A (zh) 2020-10-09
CN111753822B (zh) 2024-05-24
JP2021520002A (ja) 2021-08-12
US20210042474A1 (en) 2021-02-11
SG11202010916SA (en) 2020-12-30
WO2020199730A1 (zh) 2020-10-08

Similar Documents

Publication Publication Date Title
JP7153088B2 (ja) テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム
CN110688951B (zh) 图像处理方法及装置、电子设备和存储介质
CN111310616B (zh) 图像处理方法及装置、电子设备和存储介质
CN109615006B (zh) 文字识别方法及装置、电子设备和存储介质
CN109522910B (zh) 关键点检测方法及装置、电子设备和存储介质
CN107527059B (zh) 文字识别方法、装置及终端
CN110287874B (zh) 目标追踪方法及装置、电子设备和存储介质
CN111445493B (zh) 图像处理方法及装置、电子设备和存储介质
CN109934275B (zh) 图像处理方法及装置、电子设备和存储介质
JP2021520561A (ja) テキスト認識
CN111126108B (zh) 图像检测模型的训练和图像检测方法及装置
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
CN111539410B (zh) 字符识别方法及装置、电子设备和存储介质
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN111259967B (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN109685041B (zh) 图像分析方法及装置、电子设备和存储介质
CN110781813A (zh) 图像识别方法及装置、电子设备和存储介质
US20230252778A1 (en) Formula recognition method and apparatus
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN116030524B (zh) 一种人脸识别方法及装置、电子设备和存储介质
CN117893591B (zh) 光幕模板识别方法及装置、设备、存储介质和程序产品
CN110119652B (zh) 视频的镜头分割方法及装置
CN111382734B (zh) 电话号码的检测及识别方法、装置及存储介质
CN113869426A (zh) 一种公式识别方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220930

R150 Certificate of patent or registration of utility model

Ref document number: 7153088

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150