JP2022504404A - テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体 - Google Patents

テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2022504404A
JP2022504404A JP2021518910A JP2021518910A JP2022504404A JP 2022504404 A JP2022504404 A JP 2022504404A JP 2021518910 A JP2021518910 A JP 2021518910A JP 2021518910 A JP2021518910 A JP 2021518910A JP 2022504404 A JP2022504404 A JP 2022504404A
Authority
JP
Japan
Prior art keywords
text
text sequence
binary tree
sequence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021518910A
Other languages
English (en)
Other versions
JP7123255B2 (ja
Inventor
シアオユー ユエ
ジャンフイ クアン
ホンビン スン
シアオモン ソン
ウェイ ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022504404A publication Critical patent/JP2022504404A/ja
Application granted granted Critical
Publication of JP7123255B2 publication Critical patent/JP7123255B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022504404000001
本願は、テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体に関する。ここで、該方法は、テキストシーケンスを含む処理されるべき画像を取得することと、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得ることと、を含む。

Description

(関連出願の相互参照)
本願は、2019年09月27日に中国特許局に提出された、出願番号が201910927338.4であり、出願名称が「テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、データ処理技術分野に関し、特にテキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体に関する。
テキストシーケンス認識シーンにおいて、不規則な文字の認識は、視覚的理解、自動運転などの分野で重要な役割を果たしている。不規則な文字は、交通標識、店頭の看板などの自然のシーンに多数存在する。視角の変動、光照射の変動などの要因により、規則的な文字の認識の難度に比べて、不規則な文字の認識の難度はより高い。それにする認識性能を補完する必要がある。
本願は、テキストシーケンス認識の技術的解決手段を提供する。
本願の一態様によれば、テキストシーケンス認識方法を提供する。前記テキストシーケンス認識方法は、
テキストシーケンスを含む処理されるべき画像を取得することと、
認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得ることと、を含む。
本願によれば、テキストシーケンスを含む処理されるべき画像を取得する。認識ネットワークに基づいて、テキストシーケンスを認識することで、該テキストシーケンスを構成する複数の単一文字を得ることができ、文字間のセマンティック関係に依存しない。従って、複数の単一文字に対して文字並行処理を行い、認識結果を得ることで、認識精度を向上させ、また、並行処理により、処理効率を向上させることができる。
可能な実現形態において、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得ることは、
前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することを含む。
本願によれば、二分木処理に基づいて、複数の単一文字に対して並行した符号化及びデコードを行うという役割を果たし、単一文字の認識精度を大幅に向上させることができる。
可能な実現形態において、前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することは、
前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、
前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識することと、を含む。
本願によれば、二分木に基づく符号化過程において、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行うことで、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることができる。つまり、1つのテキストシーケンスを符号化により二分木のノード特徴に変換する。これにより、後続で該二分木に基づいて符号化処理を行うことに寄与する。
可能な実現形態において、テキストシーケンスを含む処理されるべき画像を取得した後、前記テキストシーケンス認識方法は、
前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得ることを更に含む。
本願によれば、前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得ることができる。画像特徴に基づいて処理を行う、ため、後続で、直接的にセマンティック抽出を行うことなく、セマンティック分析を行う。セマンティック抽出に比べて、セマンティック分析の結果はより正確である。従って、認識精度を向上させる。
可能な実現形態において、前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得ることは、
前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力することと、
前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得ることと、を含む。
本願によれば、認識ネットワークにおける特徴抽出モジュールにより特徴抽出を行うことができる。ネットワークは、パラメータが適応的に調整されたものであるため、特徴抽出により得られた特徴マップは、より正確である。従って、認識精度を向上させる。
可能な実現形態において、前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力することと、
前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得ることと、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含む。
本願によれば、二分木に基づく符号化過程において、認識ネットワークにおけるシーケンス分割アテンションモジュールにより符号化を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることができる。つまり、1つのテキストシーケンスをシーケンス分割アテンションモジュールにおける二分木に基づく符号化により、二分木のノード特徴に変換し、後続で、該二分木に基づいてデコード処理を行う。ネットワークは、パラメータが適応的に調整されたものであるため、シーケンス分割アテンションモジュールにより得られた符号化結果は、より正確である。従って、認識精度を向上させる。
可能な実現形態において、前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行うことは、
前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うことを含む。
本願によれば、シーケンス分割アテンションモジュールにおける二分木により符号化を行う過程において、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行い、文本分割に用いられる複数のターゲットチャネル群を得ることができる。
可能な実現形態において、前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得ることと、
前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得ることと、
前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含む。
本願によれば、シーケンス分割アテンションモジュールにおける二分木により符号化を行う過程において、前記複数のターゲットチャネル群に基づいて、テキスト分割を行い、複数のアテンション特徴マップを得、複数のアテンション特徴マップと特徴マップに対する畳み込み処理で得られた畳み込み結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることができる。これにより、後続で、該二分木に基づいてデコード処理を行う。
可能な実現形態において、前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識することは、
前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得ることと、
前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することと、を含む。
本願によれば、二分木に基づくデコード過程において、分類モジュールを用いて分類処理を行うことができる。分類処理により、二分木及びこの前の符号化により得られた二分木ノード特徴を認識ネットワークにおける分類モジュールに入力してノード分類を行い、分類結果を得、前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することができる。二分木に基づくデコード処理も並行して行われ、また、ネットワークは、パラメータが適応的に調整されたものであるため、分類モジュールにより得られたデコード結果はより正確である。従って、認識精度を向上させる。
可能な実現形態において、前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することは、
前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識することを含む。
本願によれば、二分木に基づくデコード過程において、分類モジュールを用いて分類処理を行うことができる。分類処理で得られた分類結果が単一文字に対応する特徴である場合、単一文字に対応する特徴のテキストセマンティックを判定することで、単一文字特徴に対応するセマンティックカテゴリを認識することができる。直接的にセマンティック抽出を行うことなく、分析によりセマンティックカテゴリを得るため、認識精度を向上させる。
本願の一態様によれば、テキストシーケンス認識装置を提供する。前記テキストシーケンス認識装置は、
テキストシーケンスを含む処理されるべき画像を取得するように構成される取得ユニットと、
認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得るように構成される認識ユニットと、を備える。
可能な実現形態において、前記認識ユニットは、
前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識するように構成される。
可能な実現形態において、前記認識ユニットは、
前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得、
前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成される。
可能な実現形態において、前記認識ユニットは、
前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得るように構成される。
可能な実現形態において、前記認識ユニットは、
前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力し、
前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得るように構成される。
可能な実現形態において、前記認識ユニットは、
前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力し、
前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成される。
可能な実現形態において、前記認識ユニットは、
前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うように構成される。
可能な実現形態において、前記認識ユニットは、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得、
前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得、
前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成される。
可能な実現形態において、前記認識ユニットは、
前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得、
前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成される。
可能な実現形態において、前記認識ユニットは、
前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識するように構成される。
本願の一態様によれば、電子機器を提供する。前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記テキストシーケンス認識方法を実行するように構成される。
本願の一態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されるときに、プロセッサに上記テキストシーケンス認識方法を実現させる。
本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器におけるプロセッサに、上記テキストシーケンス認識方法を実行させる。
本願の実施例において、テキストシーケンスを含む処理されるべき画像を取得し、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得る。本願によれば、テキストシーケンスを含む処理されるべき画像を取得する。認識ネットワークに基づいて、テキストシーケンスを認識することで、該テキストシーケンスを構成する複数の単一文字を得ることができ、文字間のセマンティック関係に依存しない。従って、複数の単一文字に対して文字並行処理を行い、認識結果を得ることで、認識精度を向上させ、また、並行処理により、処理効率を向上させることができる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
本願の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
本願の実施例によるテキストシーケンス認識方法を示すフローチャートである。 本願の実施例によるテキストシーケンス認識方法を示すフローチャートである。 本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークを示す概略図である。 本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。 本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。 本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。 本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。 本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークにおけるシーケンス分割アテンションモジュールを示す概略図である。 本願の実施例による処理装置を示すブロック図である。 本願の実施例による電子機器を示すブロック図である。 本願の実施例による電子機器を示すブロック図である。
以下、図面を参照しながら本願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
なお、本願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
テキストシーケンス認識シーンにおいて、規則的な文字を認識できるだけでなく、不規則な文字も認識できる。不規則な文字の認識を例として、例えば店舗の店舗名または標識が不規則な文字であり、交通標識が不規則な文字であり、不規則な文字の認識は、視覚的理解、自動運転などの分野で重要な役割を果たしている。
規則的な文字の認識について、例えば、文書解析などのタスクは、関連技術において、良好に解決された。しかしながら、規則的な文字の認識と異なっており、不規則な文字の認識について、不規則な文字は、交通標識、店頭の看板などの自然のシーンに多数存在する。視角の変動、光照射の変動などの要因により、規則的な文字の認識の難度に比べて、不規則な文字の認識の難度はより高い。従って、規則的な文字の認識技術は、不規則な文字の認識の適用需要を満たすことができない。
不規則な文字の認識技術は、符号化-デコードフレームワークを用いることができる。ここで、符号化器及びデコード器部分は、再帰型ニューラルネットワークを用いることができる。再帰型ニューラルネットワークは、シリアル処理ネットワークである。その本質は、各ステップで一回の入力を行い、1つの出力結果を対応的に得ることである。規則的な文字であるかそれとも不規則な文字であるかに関わらず、再帰型ニューラルネットワークを用いる符号化及びデコードにおいて、文字を1つずつ符号化、デコードして出力しなければならない。
再帰型ニューラルネットワークを規則的な文字の認識に適用する場合、1つの畳み込みニューラルネットワークを用いて入力画像に対してダウンサンプリングを行い、最終的に、高さが1画素であって幅がw画素である特徴マップを得る。続いて、長短期記憶(LSTM:long short term memory)などの再帰型ニューラルネットワークを用いて、左から右へ、テキストシーケンスにおける文字に対して符号化を行い、特徴ベクトルを得る。続いて、コネクショニスト時間的分類器(CTC:connectionist temporal classification)アルゴリズムを用いてデコード操作を行い、最終的な文字出力を得る。
再帰型ニューラルネットワークを不規則な文字の認識に適用する場合、左から右へ、テキストシーケンスにおける文字に対して符号化を行うことができる。画像特徴をより良好に抽出するために、アテンションモジュールと再帰型ニューラルネットワークの組み合わせにより、画像特徴を抽出することができる。該ネットワークは、畳み込みニューラルネットワークであってもよい。畳み込みニューラルネットワーク構造の利用方法は、上記規則的な文字の認識における利用方法とほぼ同じであるが、ダウンサンプリングの倍率が制御されるため、最終的な特徴マップの高さは、1ではなく、hとなる。その後、最大プーリング層を用いて特徴マップの高さを1にする。続いて、依然として再帰型ニューラルネットワークを用いて符号化を行い、再帰型ニューラルネットワークの最後の出力を符号化結果とする。デコード器は、もう1つの再帰型ニューラルネットワークに置き換えられる。1回目の再帰型入力は、符号器の出力である。その後、各回の再帰型出力は、アテンションモジュールに入力されて該特徴マップに対して重み付けを行い、各ステップの文字出力を得る。各ステップの文字出力は、1つの文字に対応し、また、最終回の出力は、終了文字である。
要するに、規則的な文字であるかそれとも不規則な文字であるかに関わらず、いずれも再帰型ニューラルネットワークを符号化器又はデコード器として用いる。文字認識は、本質的にシーケンス化したタスクである。再帰型ニューラルネットワークを用いて符号化又はデコードを行うと、該再帰型ニューラルネットワークがシリアル処理のみを実行できるという特性を有するため、その各回の再帰型出力は、この前の出力に依存することが多く、累積誤差を招きやすくて、文字認識の精度が低くなり、また、シリアル処理は、文字認識の処理効率を大きく制限する。上記から分かるように、再帰型ニューラルネットワークのシリアル処理特性は、シーケンス化した文字認識タスクに適用できない。特に、不規則な文字の認識について、画像特徴の符号化に依存せず、デコード器によるコンテキストセマンティックの符号化に大きく依存する。これは、例えば車両ナンバーの認識などのような、重複文字を有するか又は文字が意味を持たないシーンにおいて、認識精度の低下を招く。
本願の認識ネットワーク(アテンションメカニズムに基づく畳み込みニューラルネットワークであってもよい)を用いて前記処理されるべき画像におけるテキストシーケンスに対して認識を行い、前記テキストシーケンスを構成する複数の単一文字を得る。認識ネットワークに基づいて、前記複数の単一文字に対して文字並行処理を行い、認識結果(例えば、複数の単一文字で構成される上記テキストシーケンスを含む)を得る。従って、該認識ネットワーク及び並行処理により、テキストシーケンス認識タスクの認識精度及び認識効率を向上させる。ここで、認識ネットワークにより認識を行う過程は、二分木に基づいて符号化を行い、テキストシーケンスにおけるテキストセグメントの二分木ノード特徴を得ることと、二分木に基づいてデコードを行う場合、二分木ノード特徴に基づいて単一文字の認識を行うことと、を含んでもよい。二分木に基づく符号化及びデコードも並行処理メカニズムであるため、テキストシーケンス認識タスクの認識精度及び認識効率を更に向上させることができる。
本願は、二分木に基づく並行処理により、シリアル処理タスクを分解し、1つ又は複数の二分木に割り当てて同時に処理を行うことができることに留意されたい。二分木は、ツリー状に接続されたデータ構造である。本願は、二分木に基づく符号化及びデコードに限定されず、三分木などのツリー型ネットワーク構造及び他の非ツリー型ネットワーク構造であってもよい。並行した符号化及びデコードを実現できるネットワーク構造は、いずれも本願の保護範囲内に含まれる。
図1は、本願の実施例によるテキストシーケンス認識方法を示すフローチャートである。該方法は、テキストシーケンス認識装置に適用される。例えば、該装置は、端末装置、サーバ又は他の処理機器に配置されて実行される場合、画像分類、画像検出及びビデオ処理等を実行することができる。ここで、端末装置は、ユーザ装置(UE:User Equipment)、携帯機器、セルラ電話、コードレス電話、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該処理方法は、ロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。図1に示すように、該プロセスは以下を含む。
ステップS101において、テキストシーケンスを含む処理されるべき画像を取得する。
一例において、ターゲット対象(例えば、店舗名)に対して画像収集を行い、テキストシーケンス(例えば、不規則なテキストシーケンス)を含む処理されるべき画像を得る。勿論、外部機器から伝送された処理されるべき画像を受信することもできる。不規則なテキストシーケンスは、店舗の店舗名又は標識であってもよく、各タイプの交通標識などであってもよい。文字シーケンスが規則的なものであるかどうかを文字行の形状により判定することができる。例えば、単一行が水平であると、規則的である。スターバックスの標識のような湾曲した文字行は、不規則である。
ステップS102において、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得る。
一例において、前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することができる。認識ネットワークは、アテンションメカニズムに基づく畳み込みニューラルネットワークであってもよく、本願は、該具体的なネットワーク構造を限定しない。二分木が設定されており、該二分木に基づいて複数の単一文字を認識できるニューラルネットワークは、いずれも本願の保護範囲内に含まれる。
一例において、前記認識ネットワークに基づいて前記複数の単一文字に対して文字並行処理を行い、複数の単一文字で構成されるテキストシーケンスを得る。該テキストシーケンスは、該認識結果である。本願の認識ネットワークに設定された二分木により、下記のような符号化及びデコードを行うことで、テキストシーケンスをテキストセグメントに分割し、該テキストセグメントにおける複数の単一文字を認識することができる。複数の単一文字を認識した後、引き続き、該認識ネットワークを適用して文字並行処理を行う。認識ネットワークは、本質的には、人工ニューラルネットワークに基づくニューラルネットワークモデルであり、ニューラルネットワークモデルの特性の1つは、並行分布処理を実現できるため、複数の単一文字をニューラルネットワークモデルに基づいて並行処理し、複数の単一文字で構成されるテキストシーケンスを得ることができる。
該認識プロセスは、以下を含んでもよい。1)において、二分木に基づいて符号化を行い、テキストシーケンスにおけるテキストセグメントの二分木ノード特徴を得る。2)において、二分木に基づいてデコードを行う場合、二分木ノード特徴に基づいて単一文字の認識を行う。例えば、特徴抽出モジュールにより特徴マップを得、続いて、該特徴マップをアテンションメカニズムに基づくシーケンス分割アテンションモジュールに入力して符号化を行い、二分分割ツリーに対応するノードの特徴を得る。つまり、上記テキストセグメントの二分木ノード特徴を得る。続いて、テキストセグメントの二分木ノード特徴を分類モジュールに出力してデコードを行う。デコード過程において、二回の分類を行い、テキストセグメントにおける単一文字の意味を認識により得ることができる。
関連技術において、再帰型ニューラルネットワークを用いてシリアル処理を行う。例えば、不規則な文字に対して、左から右へ、文字符号化を行う。符号化は、文字間のセマンティック関係に依存する。本願により、テキストシーケンスを含む処理されるべき画像を取得した後、認識ネットワーク(例えば、アテンションメカニズムに基づく畳み込みニューラルネットワーク)により、該テキストシーケンスを構成する複数の単一文字を得、複数の単一文字に対して文字並行処理を行い、認識結果を得ることができる。文字間のセマンティック関係に依存する必要がなく、複数の単一文字を得た後に、並行処理を行うため、文字認識タスクの認識精度及び認識効率を向上させる。
図2は、本願の実施例によるテキストシーケンス認識方法を示すフローチャートである。図2に示すように、該プロセスは以下を含む。
ステップS201において、ターゲット対象に対して画像収集を行い、テキストシーケンスを含む処理されるべき画像を得る。
収集プロセッサ(例えばカメラ)を備える収集装置により、ターゲット画像に対して画像収集を行い、不規則なテキストシーケンスのようなテキストシーケンスを含む処理されるべき画像を得ることができる。
ステップS202において、前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得る。
一例において、前記認識ネットワーク(例えば、アテンションメカニズムに基づく畳み込みニューラルネットワーク)により、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出することで、画像畳み込み特徴マップを得ることができる。関連技術において、再帰型ニューラルネットワークを用いると、シリアル処理のみを実行できる。例えば、不規則な文字に対して、左から右へ、文字に対して符号化を行う。このような方式で、画像特徴を良好に抽出できず、また、一般的にコンテキストセマンティックが抽出される。本願の認識ネットワークにより抽出されたものは、画像畳み込み特徴マップであり、コンテキストセマンティックに比べて、より多くの特徴情報を含み、後続の認識処理に寄与する。
一例において、該アテンションメカニズムに基づく畳み込みニューラルネットワークにおいて、そのアテンションメカニズムは、シーケンス分割アテンションルールであってもよい。
ここで、アテンションメカニズムは、自然言語処理、画像認識及び音声認識などの少なくとも1つのタイプが異なる深層学習タスクに広く適用されている。その目的は、多数の情報から、現在のタスクターゲットに対してより肝心な情報を選択することであり、大量の情報から、価値の高い情報の選別の正確度及び処理効率を向上させる。一般的には、人間のアテンションメカニズムと類似する。例えば、人間は、テキストを高速走査することで、注目されるべき領域である注視点を得る。その後、該領域に対して、より多くのアテンションリソースを投入し、より多くの注目されるべき対象の細部情報を取得し、他の無用な情報を抑え、価値が高い情報を選別するという目的を達成する。
ここで、前記シーケンス分割アテンションルールは、前記テキストシーケンスにおける単一文字の位置を表すために用いられる。該ルールは、前記テキストシーケンスにおける単一文字の位置を表すことができ、また、二分木により符号化を行う目的は、文字間のセマンティックに依存することなく、テキストシーケンスをテキストセグメントに分割し、テキストセグメントにおける複数の単一文字を更に認識し、二分木に基づく符号化及び後続のデコードに対応するように、該符号化により、テキストセグメントをテキストシーケンスにおけるテキストセグメントの二分木ノード特徴で記述することであるため、該ルールに従い、二分木の幅を優先してトラバースする。従って、符号化が文字間のセマンティックに依存することなく、並行符号化を実現させ、認識精度及び処理効率を向上させる。つまり、テキストシーケンス又は音声信号シーケンスなどを本願の認識ネットワークに入力し、シーケンス分割アテンションルール及び二分木により、これらのシーケンスを中間層の記述(例えば、テキストセグメントの二分木ノード特徴で記述する)に変換し、続いて、該中間層の記述で提供された情報に基づいて最終的な認識結果を得る。
幅の優先トラバースについて言えば、ルートノードから二分木の幅に沿って探索し、ツリーの少なくとも1つのノードを深くトラバースし、該二分木の少なくとも1つの分岐を探索する。例えば、二分木の1つのノード(ルートノードであってもよく、リーフノードであってもよい)から、該ノードに接続される他のノードを検査し、該少なくとも1つのアクセス分岐を得る。
ネットワーク構造について言えば、該アテンションメカニズムに基づく畳み込みニューラルネットワークは少なくとも、特徴マップを抽出するための特徴抽出モジュール(グラフ畳み込みニューラルネットワークにより実現可能である)と、二分木により実現されるシーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールと、を備える。前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力して特徴抽出を行い、特徴マップを得ることができる。前記特徴抽出モジュールは、前記認識ネットワークのフロントエンド部の基幹(Backbone)モジュールである。前記特徴マップを、前記二分木を含むシーケンス分割アテンションモジュールに入力し、該シーケンス分割アテンションモジュールにより、入力された特徴マップに対して符号化処理を行い、二分分割ツリーの各ノードに対応する特徴を生成する。つまり、テキストシーケンスにおけるテキストセグメントの二分木ノード特徴を生成する。前記シーケンス分割アテンションモジュールは、該シーケンス分割アテンションルールに基づく畳み込みニューラルネットワークの文字位置判別モジュールである。前記シーケンス分割アテンションモジュールは、分類モジュールに接続されてもよい。これにより、テキストシーケンスにおけるテキストセグメントの二分木ノード特徴を該分類モジュールに入力してデコード処理を行う。
図3は、本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークを示す概略図である。該畳み込みニューラルネットワークは、特徴抽出モジュール11と、シーケンス分割アテンションモジュール12と、分類モジュール13と、を備える。シーケンス分割アテンションモジュール12に、所定の二分木(二分分割ツリー又は二分選択ツリーと呼ばれてもよい)が含まれる。特徴抽出モジュール11により、入力された画像に基づいて、対応する特徴マップ(例えば画像畳み込み特徴マップ)を生成することができる。シーケンス分割アテンションモジュール12により、特徴抽出モジュールから出力された特徴マップを入力として、シーケンス分割アテンションモジュールに含まれる二分木に基づいて符号化を行い、テキストシーケンスにおける異なる位置での文字セグメントに対して特徴抽出を行い、各二分木ノードに対応する特徴を生成する。例えば、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を生成する。分類モジュール13により、シーケンス分割アテンションモジュールの出力結果121を分類し、最終的な認識結果を得ることができる。つまり、分類処理を行った後に、テキストセグメントで構成される該テキストシーケンスを認識により得て認識結果とする。ここで、特徴抽出モジュールは、畳み込みニューラルネットワーク(CNN:convolutional neural network)又はグラフ畳み込みネットワーク(GCN:graph convolutional network)であってもよい。シーケンス分割アテンションモジュールは、シーケンス分割アテンションネットワーク(SPA2Net,sequence partition-aware attention network)であってもよい。
ここで、シーケンス分割アテンションモジュールに設定された二分木により符号化を行う過程において、二分木の各ノードはいずれも、次元が画像畳み込み特徴マップのチャネル数の次元と同じであるベクトルであるため、二分木により画像畳み込み特徴マップの各チャネルに対して選択を行う時、選択されたチャネル群から、現在注目されている文字シーケンス部のアテンション位置を得ることができる。ここで、選択されたチャネルに対応する二分木のノードチャネル値は、1であり、その他は0である。例えば、「連続した一部の1」で1組のチャネルを表すことができる。二分木の各ノードはいずれも1つのベクトルであり、1及び0で、二分木ノード特徴を表すことができる。例えば、図4a~図4dに示すように、ノード特徴に基づく符号化により、現在注目されている文字シーケンス部のアテンション位置を記述する。また、画像畳み込み特徴マップに基づいてアテンション行列を得た後に、前記各チャネルの選択処理を行うこともできる。前記各チャネルの選択処理を行った後、得られた異なるアテンション特徴マップと前記画像畳み込み特徴マップに対して重み付けを行い、得られた加重和に基づいて、ニューラルネットワークの全結合層(Full Connected layer:FC層)(例えば図3におけるFC層)に基づく2回の分類を行うことができる。ここで、1回目の分類により、該文字シーケンス位置で1つのみの文字が含まれるかどうかを判定することができる。1つ以上の文字が含まれると、テキストセグメントに対する、次回の二分木に基づくテキスト分割符号化処理を行う。1つのみの文字が含まれると、2回目の分類を行い、2回目の分類に基づいて、単一文字のカテゴリを分類し、そのセマンティック特徴を知り、セマンティック特徴に基づいて単一文字の意味を認識する。
シーケンス分割アテンションモジュールに設定された二分木の各ノードはいずれも並行して演算を行うことができ、また、各文字の予測は、その前後の文字の予測に依存しないため、二分木のリーフノードにより符号化を行い、複数の単一文字を得た後、シーケンス分割アテンションモジュールが基づく上記シーケンス分割アテンションルールに従い、二分木の幅を優先してトラバースし、少なくとも1つの文字出力を得ることができる。従って、文字間のセマンティックに依存することなく、並行符号化を実現させ、認識精度及び処理効率を向上させる。図4a-図4dは、本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。図4a-図4dで用いられる符号化フォーマットは、それぞれ、異なる二分木に基づいて、長さが異なる文字列に対して符号化を行う。図4aに示す二分木によりテキストセグメントに対して符号化を行う場合、該テキストセグメントに単一文字「a」が含まれる。図4bに示す二分木によりテキストセグメントに対して符号化を行う場合、該テキストセグメントは、「ab」であり、複数の単一文字「a」及び「b」を含む。図4cに示す二分木によりテキストセグメントに対して符号化を行う場合、該テキストセグメントは、「abc」であり、複数の単一文字「a」、「b」及び「c」を含む。図4dに示す二分木によりテキストセグメントに対して符号化を行う場合、該テキストセグメントは、「abcd」であり、複数の単一文字a」、「b」、「c」及び「d」を含む。少なくとも1つの二分木において各ノードについて並行演算を行う。具体的に適用する場合、上記のように幅優先トラバースを追加し、少なくとも1つのアクセス分岐を得ることができる。
ステップS203において、認識ネットワークに設定された二分木に基づいて、処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得る。
一例において、認識ネットワークに設定された二分木に基づいて、処理されるべき画像におけるテキストシーケンスに対して、テキストシーケンスのテキスト分割のための符号化処理を行うことができる。これは、テキスト分割の符号化処理と略称されてもよい。
ステップS204において、認識ネットワークに設定された二分木に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴に対してデコード処理を行い、該テキストセグメントにおける複数の単一文字を認識する。
一例において、該二分木に基づいて該二分木ノード特徴に対してデコードを行う過程は、分類モジュールにより実現されてもよい。本願は、分類処理によりデコード処理を実現すること及び具体的なモジュール構造を限定しない。二分木に基づいてデコードを実現できる処理モジュールはいずれも本願の保護範囲内に含まれる。
例えば、分類モジュールの1回目の分類により、テキストシーケンスにおける対応するテキストセグメントに単一文字のみが含まれるかどうかを判定する。単一文字のみが含まれると、2回目の分類を行う。単一文字のみが含まれるものではないと、次回のテキスト分割の符号化処理を行う。2回目の分類は、単一文字のセマンティック特徴を認識する。最終的に、テキストセグメントにおける複数の単一文字を全て認識した。
上記ステップS203-ステップS204により、認識ネットワークに基づいて処理されるべき画像におけるテキストシーケンスを認識し、テキストシーケンスを構成する複数の単一文字を得ることを実現させることができる。
ステップS205において、前記認識ネットワークに基づいて、前記複数の単一文字に対して文字並行処理を行い、認識結果を得る。
一例において、前記認識ネットワーク(アテンションメカニズムに基づく畳み込みニューラルネットワーク)に基づいて前記複数の単一文字に対して文字並行処理を行い、複数の単一文字で構成されるテキストシーケンスを得る。該テキストシーケンスは、該認識結果である。
本願によれば、認識ネットワークに設定された二分木に基づいて、処理されるべき画像におけるテキストシーケンスに対して符号化処理及び対応するデコード処理を行うことができる。該認識ネットワークは、シーケンス分割アテンションルールに基づいて並行処理を行うことができる。つまり、本願は、二分木を含む該認識ネットワークに基づいて行う符号化とデコード処理も並行した処理であり、また、該認識ネットワークにおける二分木により、固定比率のチャネルを用いて比率長さが同じである文字行位置を符号化することができる。
ここで、二分木が基づく二分法の実現原理は以下のとおりである。二分法は、テキストシーケンスに対して、1回あたり「1/2の固定比率」でテキストシーケンスにおける1つの数字を取って比較を行い、該テキストシーケンスを如何に2つのテキストセグメントに分割するかを決定する。また、分割で得られたテキストセグメントに対して引き続き「1/2の固定比率」で比較を行い、比較結果を得る。1つの単一文字のみが残る場合、分割処理を終了する。二分法を二分木に適用する場合、二分木の構造は、ルートノード、ルートノードの下のリーフノード、リーフノードの下のリーフノードの子ノードなどを含み、また、少なくとも1つのノードを接続するチャネルは、ノードチャネルと呼ばれる。従って、二分木の符号化の観点から、テキストシーケンスを、1回あたり「1/2の固定比率チャネル」で分割し、半分のテキストセグメントを如何に除去して次のノードの、該テキストセグメントに対応するノード特徴とするかを決定し、分割で得られたテキストセグメントに対して引き続き「1/2の固定比率チャネル」で比較を行い、比較結果を得る。1つの単一文字のみが残る場合、分割処理を終了する。例えば、二分木のルートノードでテキストシーケンス「abcdf」全体を表す。該ルートノードは、5つの文字を符号化した。該ルートノードの後の左右の子(左右の子は、ルートノードのリーフノードを表す。リーフノードの下にリーフノードの子ノードがあってもよい)はそれぞれ、該ルートノードで表されるテキストシーケンス「abcdf」の前半のテキストセグメント「abc」と後半のテキストセグメント「df」に対応する。続いて、引き続き、前半のテキストセグメント「abc」を「1/2の固定比率チャネル」で分割し、前半のテキストセグメント「ab」及び後半のテキストセグメント「c」を得る。後半のテキストセグメント「c」を含むノードチャネルが単一の文字のみを含むため、該ノードチャネルに対する分割を終了する。引き続き、前半のテキストセグメント「ab」を「1/2の固定比率チャネル」で分割し、前半のテキストセグメント「a」及び後半のテキストセグメント「b」を得る。単一文字のみが残るため、該ノードチャネルに対する分割を終了する。同様に、テキストセグメント「df」を「1/2の固定比率チャネル」で分割し、前半のテキストセグメント「d」及び後半のテキストセグメント「f」を得る。単一文字のみが残るため、該ノードチャネルに対する分割を終了する。二分木は、二分法に基づいて分割の符号化処理を行う場合、いずれも「1/2の固定比率チャネル」で分割を行うが、文字が文字シーケンスにおけるどの具体的な文字行位置にあるかに関わらず、いずれも同一の比率長さで符号化する。例えば、長さが4bitであるコード「1000」で「a」を表し、長さが4bitであるコード「0011」で「c」を表し、長さが4bitであるコード「1100」で「ab」を表し、長さが4bitであるコード「1111」で「abc」を表す。つまり、コードの長さは同一の比率長さであるが、「1」と「0」の異なるコード組み合わせにより、テキストシーケンスにおける異なる文字行位置にある文字を記述することができる。
図5は、本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークにおけるシーケンス分割アテンションモジュールを示す概略図である。特徴抽出モジュール(例えば、CNN又はGCN)により、入力された画像に基づいて対応する特徴マップ(例えば画像畳み込み特徴マップ)を生成することができる。例えば、図5におけるXは、該特徴マップである。シーケンス分割アテンションモジュール(例えば、SPA2Net)は、特徴抽出モジュールから出力された特徴マップを入力とし、シーケンス分割アテンションモジュールに含まれる二分木に基づいて符号化を行い、テキストシーケンスにおける異なる位置での文字セグメントに対して特徴抽出を行い、各二分木ノードに対応する特徴を生成する。例えば、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を生成する。具体的には、1つのテキストセグメントに基づいて、1つの二分木を得ることができる。1つのテキストシーケンスに基づいて1つの二分木を得ることもできる。1つの二分木ノードは、1つのテキストセグメントである。
ここで、シーケンス分割アテンションモジュールにおけるaモジュール及びbモジュールは、それぞれ、畳み込みニューラルネットワークであってもよい。例えば、それぞれ2つの畳み込み層を含むCNNであってもよく、それぞれアテンション予測及び特徴マップの変動に用いることができる。例えば、aモジュールは、特徴マップXを得た後にアテンション出力を取得するために用いられる。例えば、図5における相対的位置セルフアテンションモジュールにより、Transformerアルゴリズムで演算を行うことで出力特徴を得、該出力特徴を少なくとも1つの畳み込みモジュールにより演算してSigmoidのような活性化関数により非線形演算し、アテンション行列xを得る。bモジュールは、特徴を引き続き抽出し、該特徴マップを更新するために用いられる。xは、aモジュールから出力されたアテンション行列である。xに対して、cモジュール(例えば、二分木を含むモジュール)によりマルチチャネル選択を行う。例えば、図5において、cモジュールにより、xに対して、チャネルごとに乗算を行い、各チャネルのアテンション特徴マップdを得る。選択された異なるアテンション特徴マップdは、bモジュールの出力に対して重み付け加算を行うために用いられる。これにより、各部の特徴eを抽出し、該特徴eをシーケンス分割アテンションモジュールで得られた出力結果121として分類モジュールに提供して分類処理を行う。ここで、該特徴eは、シーケンステキスト全体における1つのテキストセグメントの特徴を表すためのものであり、各二分木ノードに対応する特徴と呼ばれてもよい。例えば、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴と呼ばれる。分類モジュールにより分類処理を行う過程において、該特徴が単一文字認識による特徴であるかどうかをまず判定する。単一文字認識による特徴である場合、文字のカテゴリを判定し、そのセマンティック特徴を知る。これにより、セマンティック特徴に基づいて、単一文字の意味を認識する。
上記シーケンス分割アテンションモジュールの処理は、主に下記式(1)-式(3)で実現する。ここで、式(1)は、aモジュールから出力されたアテンション行列xを算出するために用いられる。式(2)は、アテンション行列xに対してcモジュール(例えば、二分木を含むモジュール)によりマルチチャネル選択を行った後に選択された異なるアテンション特徴マップdを算出するために用いられる。式(3)は、異なるアテンション特徴マップdによりbモジュールの出力に対して重み付け加算を行い、各部の特徴eを抽出し、該特徴eをシーケンス分割アテンションモジュールで得られた出力結果121とするために用いられる。
Figure 2022504404000002
Figure 2022504404000003
Figure 2022504404000004
ここで、式(1)において、Xは、入力された画像を特徴抽出モジュールにより処理することで得られた畳み込み特徴マップである。Wa1及びWa2はそれぞれ畳み込み演算の畳み込みカーネルであり、*は、畳み込み演算子であり、T(X)は、特徴マップXを相対的位置セルフアテンションモジュールにより演算することで得られた出力特徴であり、δは、Sigmoid関数のような活性化関数で演算を行うことで、最終的にaモジュールから出力されたアテンション行列xを得ることを表す。式(2)において、xは、aモジュールから出力されたアテンション行列であり、
Figure 2022504404000005
は、チャネル毎の乗算演算子であり、Pは、二分木に基づいてテキストシーケンスを対応するテキストセグメントに分割する符号化過程におけるt番目の二分木ノード特徴であり、つまり、対応するテキストセグメントの文字位置コードである。ここで、tは、二分木のノード番号である。例えば、図4a-図4dに示すノード番号0-ノード番番号6である。maxpoolは、チャネル方向に沿った最大プーリング演算子であり、dは、マルチチャネル選択の後に選択された異なるアテンション特徴マップである。式(3)において、Xは、入力された画像を特徴抽出モジュールにより処理することで得られた特徴マップであり、Wf1及びWf2はそれぞれ畳み込み演算の畳み込みカーネルであり、H及びWはそれぞれアテンション特徴マップdの高さ情報及び幅情報であり、dは、マルチチャネル選択の後に選択された異なるアテンション特徴マップであり、eは、異なるアテンション特徴マップdと畳み込み特徴マップ(bモジュールの出力)を重み付けすることで得られた特徴ベクトルである。式(2)-式(3)におけるiは、いずれも、二分木に基づいて幅優先トラバースを行う場合に用いられるトラバースパラメータである。d及びeはいずれも汎用表現であり、dは、dであってもよく、dは具体的には、二分木ノードのi位置までトラバースした特徴マップを表す。eは、eであってもよく、eは具体的には、dに基づいて得られた特徴ベクトルを表す。
本願の符号化部について以下のように説明する。
可能な実現形態において、前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対してテキスト分割の符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
前記特徴マップを、前記二分木を含むシーケンス分割アテンションモジュールに入力することであって、前記シーケンス分割アテンションモジュールは、前記認識ネットワークの文字位置判別モジュールである、ことと、前記二分木に基づいて、前記特徴マップに対してマルチチャネル(例えば各チャネル)選択を行い、複数のターゲットチャネル群を得ることと、前記複数のターゲットチャネル群に基づいてテキスト分割の符号化を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含む。
可能な実現形態において、前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行うことは、前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列(例えば、図5におけるx)を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うことを含む。例えば、シーケンス分割アテンションルールに従って予測を行った後に、アテンション行列を得る。続いて、該アテンション行列を二分木に提供してマルチチャネル選択を行い、最後に複数の異なるアテンション特徴マップ(例えば図5におけるd)を出力する。
可能な実現形態において、前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、前記二分木に基づいて前記特徴マップに対してマルチチャネル選択を行うことで得られた該複数のターゲットチャネル群に基づいてテキスト分割の符号化を行い、複数のアテンション特徴マップ(例えば図5におけるd)を得ることと、該認識ネットワークに最初から入力された前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果(例えば、図5におけるbモジュールの出力)を得ることと、前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴(例えば図5におけるe)を得ることと、を含む。
本願のデコード部は、符号化部に比べて、相対的簡単である。分類モジュールに、2回の分類を行うために、2つの分類器(例えば、ノード分類器及び文字分類器)が含まれてもよい。ノード分類器により、1回目の分類を行い、つまり、二分木ノード特徴を分類し、ノード分類器に基づく出力を得る。出力結果(単一文字)を文字分類器に入力して2回目の分類を行う。つまり、単一文字に対応するテキストセマンティックを分類する。
本願のデコード部について以下のように説明する。
可能な実現形態において、前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントにおける前記複数の単一文字を認識することは、前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得ることと、前記分類結果に基づいて、前記テキストセグメントにおける前記複数の単一文字を認識することと、を含む。ここで、前記分類結果に基づいて、前記テキストセグメントにおける前記複数の単一文字を認識することは、前記分類結果が、単一文字に対応する特徴である場合、該二分木ノード特徴に対応する前記テキストセグメントに単一文字が含まれることを表すため、前記単一文字に対応する特徴のテキストセマンティックを判定し(単一文字に対応する意味を知る)、前記単一文字特徴に対応するセマンティックカテゴリを認識することを含む。
具体的な実施形態の上記方法において、各ステップの記述順番は、具体的な実行順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。
本願の実施例で提供される上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本願において逐一説明しないことが理解されるべきである。
なお、本願の実施例は、テキストシーケンス認識装置、電子機器、コンピュータ可読記憶媒体及びプログラムを更に提供する。上記はいずれも、本願の実施例で提供されるいずれか1つのテキストシーケンス認識方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。
図6は、本願の実施例によるテキストシーケンス認識装置を示すブロック図である。図6に示すように、該装置は、テキストシーケンスを含む処理されるべき画像を取得するように構成される取得ユニット31と、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得るように構成される認識ユニット32と、を備える。
可能な実現形態において、前記認識ユニットは、前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識するように構成される。
可能な実現形態において、前記認識ユニットは、前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得、前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成される。
可能な実現形態において、前記認識ユニットは、前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得るように構成される。
可能な実現形態において、前記認識ユニットは、前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力し、前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得るように構成される。
可能な実現形態において、前記認識ユニットは、前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力し、前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得、前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成される。
可能な実現形態において、前記認識ユニットは、前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うように構成される。
可能な実現形態において、前記認識ユニットは、前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得、前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得、前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成される。
可能な実現形態において、前記認識ユニットは、前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得、前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成される。
可能な実現形態において、前記認識ユニットは、前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識するように構成される。
幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法の実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法の実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されるときに、上記方法を実現させる。コンピュータ可読記憶媒体は揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。
本願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で実行されるときに、機器におけるプロセッサは、上記いずれか1つの実施例で提供されるテキストシーケンス認識命令を実行する。
本願の実施例は、もう1つのコンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータ可読命令を記憶するように構成され、命令が実行されるときに、コンピュータに上記いずれか1つの実施例で提供されるテキストシーケンス認識方法の操作を実行させる。
該コンピュータプログラム製品は具体的には、ハードウェア、ソフトウェア又はその組み合わせにより実現することができる。1つの選択可能な実施例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として具現化され、もう1つの選択可能な実施例において、コンピュータプログラム製品は具体的には、例えば、ソフトウェア開発キット(SDK:Software Development Kit)などのようなソフトウェア製品として具現化される。
本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、上記方法を実行するように構成される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図7は、一例示的な実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
図7を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814及び通信コンポーネント816のうちの1つ又は複数を備えてもよい。
処理コンポーネント802は一般的には、電子機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理コンポーネント802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント802はマルチメディアモジュールを備えることで、マルチメディアコンポーネント808と処理コンポーネント802とのインタラクションに寄与する。
メモリ804は、各種のデータを記憶することで電子機器800における操作をサポートするように構成される。これらのデータの例として、電子機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源コンポーネント806は電子機器800の様々なユニットに電力を提供する。電源コンポーネント806は、電源管理システム、1つ又は複数の電源、及び電子機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアコンポーネント808は、上記電子機器800とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアコンポーネント808は、フロントカメラ及び/又はリアカメラを備える。電子機器800が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオコンポーネント810は、マイクロホン(MIC)を備える。電子機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信コンポーネント816を経由して送信することができる。幾つかの実施例において、オーディオコンポーネント810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース812は、処理コンポーネント802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサコンポーネント814は、1つ又は複数のセンサを備え、電子機器800のために様々な状態の評価を行うように構成される。例えば、センサコンポーネント814は、電子機器800のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器800のディスプレイ及びキーパッドである。センサコンポーネント814は電子機器800又は電子機器800における1つのユニットの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位又は加速/減速及び電子機器800の温度の変動を検出することもできる。センサコンポーネント814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサコンポーネント814は、CMOS又はCCD画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサコンポーネント814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信コンポーネント816は、電子機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器800は、WiFi、2G又は3G、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信コンポーネント816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信コンポーネント816は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、電子機器800は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
例示的な実施例において、コンピュータプログラム命令を記憶したメモリ804のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器800のプロセッサ820により実行され上記方法を完了する。
図8は、一例示的な実施例による電子機器900を示すブロック図である。例えば、電子機器900は、サーバとして提供されてもよい。図8を参照すると、電子機器900は、処理コンポーネント922を備える。それは、1つ又は複数のプロセッサ、及びメモリ932で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理コンポーネント922により実行される命令を記憶するためのものである。メモリ932に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理コンポーネント922は、命令を実行して、上記方法を実行するように構成される。
電子機器900は、電子機器900の電源管理を実行するように構成される電源コンポーネント926と、電子機器900をネットワークに接続するように構成される有線又は無線ネットワークインタフェース950と、入力出力(I/O)インタフェース958と、を更に備えてもよい。電子機器900は、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM又は類似したもの等、メモリ932に記憶されているオペレーティングシステムを実行することができる。
例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ932のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器900の処理コンポーネント922により実行されて上記方法を完了する。
本願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
本願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、任意の種類のネットワーク(ローカルエリアネットワーク(LAN)やワイドエリアネットワーク(WAN)を含む)を通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブル論理アレイ(PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。
ここで、本願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行されるときに、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
図面におけるフローチャート及びブック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
論理から逸脱しない限り、本願の異なる実施例を互いに組み合わせることができ、本願の各々の実施例に対する説明はそれぞれ偏りがあり、説明に重点を置かれていない部分は、他の実施例における記載を参照することができる。
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。

Claims (23)

  1. テキストシーケンス認識方法であって、
    テキストシーケンスを含む処理されるべき画像を取得することと、
    認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得ることと、を含む、テキストシーケンス認識方法。
  2. 前記認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得ることは、
    前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することを含むことを特徴とする
    請求項1に記載のテキストシーケンス認識方法。
  3. 前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することは、
    前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、
    前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識することと、を含むことを特徴とする
    請求項2に記載のテキストシーケンス認識方法。
  4. 前記テキストシーケンスを含む処理されるべき画像を取得した後、
    前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得ることを更に含むことを特徴とする
    請求項1~3のうちいずれか一項に記載のテキストシーケンス認識方法。
  5. 前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得ることは、
    前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力することと、
    前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得ることと、を含むことを特徴とする
    請求項4に記載のテキストシーケンス認識方法。
  6. 前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
    前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力することと、
    前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得ることと、
    前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含むことを特徴とする
    請求項4又は5に記載のテキストシーケンス認識方法。
  7. 前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行うことは、
    前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うことを含むことを特徴とする
    請求項6に記載のテキストシーケンス認識方法。
  8. 前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
    前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得ることと、
    前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得ることと、
    前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含むことを特徴とする
    請求項6又は7に記載のテキストシーケンス認識方法。
  9. 前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識することは、
    前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得ることと、
    前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することと、を含むことを特徴とする
    請求項4~8のうちいずれか一項に記載のテキストシーケンス認識方法。
  10. 前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することは、
    前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識することを含むことを特徴とする
    請求項9に記載のテキストシーケンス認識方法。
  11. テキストシーケンス認識装置であって、
    テキストシーケンスを含む処理されるべき画像を取得するように構成される取得ユニットと、
    認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得るように構成される認識ユニットと、を備える、テキストシーケンス認識装置。
  12. 前記認識ユニットは、
    前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識するように構成されることを特徴とする
    請求項11に記載のテキストシーケンス認識装置。
  13. 前記認識ユニットは、
    前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得、
    前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成されることを特徴とする
    請求項12に記載のテキストシーケンス認識装置。
  14. 前記認識ユニットは、
    前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得るように構成されることを特徴とする
    請求項11~13のうちいずれか一項に記載のテキストシーケンス認識装置。
  15. 前記認識ユニットは、
    前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力し、
    前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得るように構成されることを特徴とする
    請求項14に記載のテキストシーケンス認識装置。
  16. 前記認識ユニットは、
    前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力し、
    前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得、
    前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成されることを特徴とする
    請求項14又は15に記載のテキストシーケンス認識装置。
  17. 前記認識ユニットは、
    前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うように構成されることを特徴とする
    請求項16に記載のテキストシーケンス認識装置。
  18. 前記認識ユニットは、
    前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得、
    前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得、
    前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成されることを特徴とする
    請求項16又は17に記載のテキストシーケンス認識装置。
  19. 前記認識ユニットは、
    前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得、
    前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成されることを特徴とする
    請求項14~18のうちいずれか一項に記載のテキストシーケンス認識装置。
  20. 前記認識ユニットは、
    前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識するように構成されることを特徴とする
    請求項19に記載のテキストシーケンス認識装置。
  21. 電子機器であって、
    プロセッサと、
    プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、請求項1から10のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
  22. コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されるときに、プロセッサに請求項1から10のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
  23. コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器におけるプロセッサに、請求項1から10のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。
JP2021518910A 2019-09-27 2019-10-15 テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体 Active JP7123255B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910927338.4A CN110659640B (zh) 2019-09-27 2019-09-27 文本序列的识别方法及装置、电子设备和存储介质
CN201910927338.4 2019-09-27
PCT/CN2019/111170 WO2021056621A1 (zh) 2019-09-27 2019-10-15 文本序列的识别方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022504404A true JP2022504404A (ja) 2022-01-13
JP7123255B2 JP7123255B2 (ja) 2022-08-22

Family

ID=69039586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021518910A Active JP7123255B2 (ja) 2019-09-27 2019-10-15 テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体

Country Status (7)

Country Link
US (1) US20210232847A1 (ja)
JP (1) JP7123255B2 (ja)
KR (1) KR20210054563A (ja)
CN (1) CN110659640B (ja)
SG (1) SG11202105174XA (ja)
TW (1) TWI732338B (ja)
WO (1) WO2021056621A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494616B2 (en) * 2019-05-09 2022-11-08 Shenzhen Malong Technologies Co., Ltd. Decoupling category-wise independence and relevance with self-attention for multi-label image classification
US11763433B2 (en) * 2019-11-14 2023-09-19 Samsung Electronics Co., Ltd. Depth image generation method and device
CN111539410B (zh) * 2020-04-16 2022-09-06 深圳市商汤科技有限公司 字符识别方法及装置、电子设备和存储介质
CN111626293A (zh) * 2020-05-21 2020-09-04 咪咕文化科技有限公司 图像文本识别方法、装置、电子设备及存储介质
CN111814796A (zh) * 2020-06-29 2020-10-23 北京市商汤科技开发有限公司 字符序列识别方法及装置、电子设备和存储介质
CN111860506B (zh) * 2020-07-24 2024-03-29 北京百度网讯科技有限公司 识别文字的方法和装置
CN112132150B (zh) * 2020-09-15 2024-05-28 上海高德威智能交通系统有限公司 文本串识别方法、装置及电子设备
CN112560862B (zh) 2020-12-17 2024-02-13 北京百度网讯科技有限公司 文本识别方法、装置及电子设备
CN112837204A (zh) * 2021-02-26 2021-05-25 北京小米移动软件有限公司 序列处理方法、序列处理装置及存储介质
CN113313127B (zh) * 2021-05-18 2023-02-14 华南理工大学 文本图像识别方法、装置、计算机设备和存储介质
CN113343981A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 一种视觉特征增强的字符识别方法、装置和设备
CN113504891B (zh) * 2021-07-16 2022-09-02 爱驰汽车有限公司 一种音量调节方法、装置、设备以及存储介质
CN113569839B (zh) * 2021-08-31 2024-02-09 重庆紫光华山智安科技有限公司 证件识别方法、系统、设备及介质
CN113723094B (zh) * 2021-09-03 2022-12-27 北京有竹居网络技术有限公司 文本处理方法、模型训练方法、设备及存储介质
CN114207673A (zh) * 2021-12-20 2022-03-18 商汤国际私人有限公司 序列识别方法及装置、电子设备和存储介质
AU2021290429A1 (en) * 2021-12-20 2022-02-10 Sensetime International Pte. Ltd. Sequence recognition method and apparatus, electronic device, and storage medium
CN115497106B (zh) * 2022-11-14 2023-01-24 合肥中科类脑智能技术有限公司 基于数据增强和多任务模型的电池激光喷码识别方法
CN115546810B (zh) * 2022-11-29 2023-04-11 支付宝(杭州)信息技术有限公司 图像元素类别的识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147417A (ja) * 1994-11-22 1996-06-07 Oki Electric Ind Co Ltd 単語照合装置
US20020136462A1 (en) * 2001-01-24 2002-09-26 Advanced Digital Systems, Inc. System, device, computer program product, and method for representing a plurality of electronic ink data points
CN109615006A (zh) * 2018-12-10 2019-04-12 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
JP2019160285A (ja) * 2018-10-30 2019-09-19 株式会社三井E&Sマシナリー 読取システム及び読取方法
WO2019174405A1 (zh) * 2018-03-14 2019-09-19 台达电子工业股份有限公司 车牌辨识方法以及其系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748807A (en) * 1992-10-09 1998-05-05 Panasonic Technologies, Inc. Method and means for enhancing optical character recognition of printed documents
US8549399B2 (en) * 2011-01-18 2013-10-01 Apple Inc. Identifying a selection of content in a structured document
CN102509112A (zh) * 2011-11-02 2012-06-20 珠海逸迩科技有限公司 车牌识别方法及其识别系统
AU2014230809B2 (en) * 2013-03-14 2019-05-02 Ventana Medical Systems, Inc. Whole slide image registration and cross-image annotation devices, systems and methods
US10354168B2 (en) * 2016-04-11 2019-07-16 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning
CN107527059B (zh) * 2017-08-07 2021-12-21 北京小米移动软件有限公司 文字识别方法、装置及终端
CN108108746B (zh) * 2017-09-13 2021-04-09 湖南理工学院 基于Caffe深度学习框架的车牌字符识别方法
CN109871843B (zh) * 2017-12-01 2022-04-08 北京搜狗科技发展有限公司 字符识别方法和装置、用于字符识别的装置
US10262235B1 (en) * 2018-02-26 2019-04-16 Capital One Services, Llc Dual stage neural network pipeline systems and methods
CN110135427B (zh) * 2019-04-11 2021-07-27 北京百度网讯科技有限公司 用于识别图像中的字符的方法、装置、设备和介质
TWM583989U (zh) * 2019-04-17 2019-09-21 洽吧智能股份有限公司 序號檢測系統
CN110163206B (zh) * 2019-05-04 2023-03-24 苏州科技大学 车牌识别方法、系统、存储介质和装置
CN110245557B (zh) * 2019-05-07 2023-12-22 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
CN110097019B (zh) * 2019-05-10 2023-01-10 腾讯科技(深圳)有限公司 字符识别方法、装置、计算机设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147417A (ja) * 1994-11-22 1996-06-07 Oki Electric Ind Co Ltd 単語照合装置
US20020136462A1 (en) * 2001-01-24 2002-09-26 Advanced Digital Systems, Inc. System, device, computer program product, and method for representing a plurality of electronic ink data points
WO2019174405A1 (zh) * 2018-03-14 2019-09-19 台达电子工业股份有限公司 车牌辨识方法以及其系统
JP2019160285A (ja) * 2018-10-30 2019-09-19 株式会社三井E&Sマシナリー 読取システム及び読取方法
CN109615006A (zh) * 2018-12-10 2019-04-12 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HONGCHAO GAO ET AL.: "Ensemble Attention For Text Recognition In Natural Images", 2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), JPN6022018483, 19 July 2019 (2019-07-19), pages 1 - 8, XP033621847, ISSN: 0004774649, DOI: 10.1109/IJCNN.2019.8852010 *

Also Published As

Publication number Publication date
WO2021056621A1 (zh) 2021-04-01
JP7123255B2 (ja) 2022-08-22
TW202113660A (zh) 2021-04-01
SG11202105174XA (en) 2021-06-29
CN110659640B (zh) 2021-11-30
KR20210054563A (ko) 2021-05-13
CN110659640A (zh) 2020-01-07
US20210232847A1 (en) 2021-07-29
TWI732338B (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
JP2022504404A (ja) テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体
JP6926339B2 (ja) 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体
JP7041284B2 (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム
CN110378976B (zh) 图像处理方法及装置、电子设备和存储介质
JP2021528742A (ja) 画像処理方法及び装置、電子機器、並びに記憶媒体
JP7066007B2 (ja) テキスト認識
JP2022516518A (ja) ニューラルネットワークをトレーニングする方法及び装置、画像を処理する方法及び装置
CN111612070B (zh) 基于场景图的图像描述生成方法及装置
WO2021012564A1 (zh) 视频处理方法及装置、电子设备和存储介质
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN111539410B (zh) 字符识别方法及装置、电子设备和存储介质
CN110659690B (zh) 神经网络的构建方法及装置、电子设备和存储介质
JP2022520120A (ja) 顔画像認識方法及び装置、電気機器並びに記憶媒体
WO2020173115A1 (zh) 网络模块和分配方法及装置、电子设备和存储介质
JP7394147B2 (ja) 画像生成方法及び装置、電子機器並びに記憶媒体
CN110909861B (zh) 神经网络优化方法及装置、电子设备和存储介质
CN110942143A (zh) 基于卷积神经网络的玩具检测加速方法和装置
KR20220116015A (ko) 네트워크 트레이닝 방법 및 장치, 이미지 생성 방법 및 장치
JP2022515274A (ja) 検出器の配置方法、検出器の配置装置及び非一時的コンピュータ可読記憶媒体
JP2022524254A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN114446318A (zh) 音频数据分离方法、装置、电子设备及存储介质
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN113919292A (zh) 一种用于公式识别的模型训练方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210406

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220809

R150 Certificate of patent or registration of utility model

Ref document number: 7123255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150