JP2022172381A - テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 - Google Patents

テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 Download PDF

Info

Publication number
JP2022172381A
JP2022172381A JP2022145248A JP2022145248A JP2022172381A JP 2022172381 A JP2022172381 A JP 2022172381A JP 2022145248 A JP2022145248 A JP 2022145248A JP 2022145248 A JP2022145248 A JP 2022145248A JP 2022172381 A JP2022172381 A JP 2022172381A
Authority
JP
Japan
Prior art keywords
detection
features
extracted
multimodal
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022145248A
Other languages
English (en)
Other versions
JP7423715B2 (ja
Inventor
シアメン・チン
Xiameng Qin
シヤオチアーン・ジャーン
Xiaoqiang Zhang
ジュ・ホワーン
Ju Huang
ユーリン・リー
Yulin Li
チュンイ・シエ
Qunyi Xie
クン・ヤオ
Kun Yao
ジュンユ・ハン
Junyu Han
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022172381A publication Critical patent/JP2022172381A/ja
Application granted granted Critical
Publication of JP7423715B2 publication Critical patent/JP7423715B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • G06V30/1823Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】複数の様式の証明書手形に対してテキスト情報抽出を行うことができ、抽出効率を向上させるテキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器を提供する。【解決手段】方法は、検出待ち画像の視覚的符号化特徴を取得し、検出待ち画像から複数組のマルチモーダル特徴を抽出する。各組のマルチモーダル特徴は、検出待ち画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報と、を含む。方法はさらに、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得する。抽出待ち属性は、抽出される必要のあるテキスト情報の属性である。【選択図】図1

Description

本開示は、人工知能技術分野に関し、特にコンピュータビジョン技術分野に関する。
情報伝達の効率を高めるために、構造化テキストは、一般的に使用される情報担体となっており、デジタル化及び自動化されたオフィスシナリオで広く使用されている。現在では、多くの実体文書における情報は、電子化された構造化テキストとして記録される必要があることがある。例えば、企業のオフィスインテリジェント化を支援するためには、大量の実体手形における情報を抽出し、構造化テキストとして保存する必要がある。
本開示は、テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器を提供する。
本開示の第1の態様によれば、テキスト抽出方法を提供し、前記方法は、
検出待ち画像の視覚的符号化特徴を取得すること、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出することであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることとを含む。
本開示の第2の態様によれば、テキスト抽出モデルのトレーニング方法を提供し、ここで、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記方法は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと、
前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングすることとを含む。
本開示の第3態様によれば、テキスト抽出装置を提供し、前記装置は、
検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュールであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む抽出モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュールとを含む。
本開示の第4態様によれば、テキスト抽出モデルのトレーニング装置を提供し、ここで、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記装置は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュールであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む第2の取得モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュールと、
前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングするためのトレーニングモジュールとを含む。
本開示の第5態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに上記第1の態様又は第2の態様のいずれか1項に記載の方法を実行させる。
本開示の第6態様によれば、コンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体を提供し、前記ピュータ命令は、前記コンピュータに上記第1の態様又は第2の態様のいずれか1項に記載の方法を実行させるために用いられる。
本開示の第7態様によれば、プロセッサによって実行されると、上記第1の態様又は第2の態様のいずれか1項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。
図面は、本発明をより良く理解するために、本開示に対する制限を構成していないことである。ここで、
本開示の実施例によるテキスト抽出方法のフローチャートである。 本開示の実施例による別のテキスト抽出方法のフローチャートである。 本開示の実施例による別のテキスト抽出方法のフローチャートである。 本開示の実施例による別のテキスト抽出方法のフローチャートである。 本開示の実施例によるテキスト抽出モデルのトレーニング方法のフローチャートである。 本開示の実施例による別のテキスト抽出モデルのトレーニング方法のフローチャートである。 本開示の実施例による別のテキスト抽出モデルのトレーニング方法のフローチャートである。 本開示の実施例によるテキスト抽出モデルの例示的な概略図である。 本開示の実施例によるテキスト抽出装置の構造概略図である。 本開示の実施例によるテキスト抽出モデルのトレーニング装置の構造概略図である。 本開示の実施例のテキスト抽出方法又はテキスト抽出モデルのトレーニング方法を実現するための電子機器のブロック図である。
以下、図面に合わせて本開示の例示的な実施形態を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲および精神から逸脱することなく、本明細書で説明された実施形態に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略している。
本願の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公順良俗に違反しない。
現在では、種々のシナリオにおいて、構造化テキストを生成するために、実体文書から情報を抽出し、構造化記憶を行ってもよく、ここで、実体文書は、具体的に、紙文書、種々の手形、証明書又はカードなどであってもよい。
現在では一般的に用いられる構造化情報抽出方式には、抽出される必要のある情報を実体文書から手作業で取得し、構造化テキストに記録する手動記録の方式がある。
又は、さらに、テンプレートマッチングに基づく方法を用いてもよく、即ち、構造が簡単である証明書について、これらの証明書における各部分が一般的に一定の幾何学的様式を有するため、構造が同じである証明書に対して標準テンプレートを構築してもよい。この標準テンプレートは、証明書のどれらの幾何学的領域からテキスト情報を抽出するかを指定している。標準テンプレートに基づき、各証明書における一定の位置から、テキスト情報を抽出した後、光学文字認識(Optical Character Recognition、OCR)によって、抽出されたテキスト情報を認識し、さらに、抽出されたテキスト情報に対して構造化記憶を行う。
又は、さらに、キーシンボル検索に基づく方法を用いてもよく、即ち、検索ルールを予め設定し、キーシンボルの前又は後の指定された長さの領域内でテキストを検索することを予め指定する。例えば、キーシンボル「日付」の後に、「XX年XX月XX日」というフォーマットを満たすテキストを検索し、検索されたテキストを構造化テキストにおける「日付」というフィールドの属性値とする。
上記の方法はいずれも大量の手作業を必要とし、即ち、手作業で情報を抽出し、又は、各構造の証明書に対してテンプレートを手作業で構築し、又は、検索ルールを手作業で設定する必要があり、大量の労働力を要し、種々の様式の実体文書の抽出には適用できず、抽出効率が比較的に低い。
上記問題を解決するために、本開示の実施例は、電子機器によって実行可能なテキスト抽出方法を提供し、この電子機器は、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、サーバなどの機器であってもよい。
以下は、本開示の実施例によるテキスト抽出方法を詳しく説明する。
図1に示すように、本開示の実施例は、テキスト抽出方法を提供し、この方法は、以下を含む。
S101、検出待ち画像の視覚的符号化特徴を取得する。
ここで、検出待ち画像は、上記実体文書の画像、例えば、紙文書の画像、種々の手形、証明書又はカードの画像などであってもよい。
検出待ち画像の視覚的符号化特徴は、検出待ち画像に対して特徴抽出を行い、抽出された特徴に対して符号化操作を行った後に得られる特徴であり、視覚的符号化特徴の取得方法について、後続の実施例において詳しく説明する。
視覚的符号化特徴は、検出待ち画像におけるテキストのコンテキスト情報を表すことができる。
S102、検出待ち画像から複数組のマルチモーダル特徴を抽出する。
ここで、各組のマルチモーダル特徴は、検出待ち画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む。
本開示の実施例において、検出枠は、矩形であってもよく、検出枠の位置情報は、(x,y,w,h)で表されてもよく、ここで、xとyは、検出待ち画像における検出枠のいずれか1つの隅部の位置座標を表し、例えば、検出待ち画像における検出枠の左上隅部の位置座標であってもよく、wとhは、それぞれ検出枠の幅と高さを表す。例えば、検出枠の位置情報が(3,5,6,7)で表されば、検出待ち画像におけるこの検出枠の左上隅部の位置座標は、(3,5)であり、この検出枠の幅は、6であり、高さは、7である。
本開示の実施例は、検出枠の位置情報の表現形式を限定せず、検出枠の位置情報を表すことができる他の形式であってもよく、例えば、検出枠の4つの隅部の座標であってもよい。
検出枠における検出特徴は、検出待ち画像におけるこの検出枠部分画像の特徴である。
S103、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得する。
ここで、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である。
例えば、検出待ち画像は、乗車券画像であり、抽出される必要のあるテキスト情報は、この乗車券における出発駅の駅名であれば、抽出待ち属性は、出発駅名である。例えば、乗車券における出発駅の駅名が「北京」であれば、「北京」は、抽出される必要のあるテキスト情報である。
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴によって、各組のマルチモーダル特徴に含まれる第1のテキスト情報が抽出待ち属性にマッチングするかどうかを確定することができ、それによって抽出待ち属性にマッチングする第2のテキスト情報を取得する。
本開示の実施例を用いると、視覚的符号化特徴と複数組のマルチモーダル特徴によって、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得することができる。複数組のマルチモーダル特徴に検出待ち画像における複数の第1のテキスト情報が含まれ、そのうち、抽出待ち属性にマッチングするテキスト情報と抽出待ち属性にマッチングしていないテキスト情報があり、且つ視覚的符号化特徴が検出待ち画像におけるテキストのグローバルコンテキスト情報を表すことができるため、視覚的符号化特徴に基づき、複数組のマルチモーダル特徴から、抽出待ち属性にマッチングする第2のテキスト情報を取得することができる。上記プロセスにおいて、手作業を必要とせず、且つ検出待ち画像に対する特徴抽出は、検出待ち画像の様式によって制限されず、各様式の実体文書に対してそれぞれテンプレートを作成するか又は検索ルールを設定する必要がなく、情報抽出の効率を向上させることができる。
本開示の別の実施例において、視覚的符号化特徴の取得プロセスを説明する。図2に示すように、上記実施例を基礎として、S101、検出待ち画像の視覚的符号化特徴を取得することは、具体的に、以下のステップを含んでもよい。
S1011、検出待ち画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得する。
ここで、バックボーンネットワーク(Backbone)は、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)であってもよく、例えば、具体的に、深層残差ネットワーク(Deep residual network、ResNet)であってもよい。又は、バックボーンネットワークは、Transformerベースのニューラルネットワークであってもよい。
Transformerベースのバックボーンネットワークを用いることを例として、このバックボーンネットワークは、階層化設計を用いてもよく、例えば、順に接続される4層の特徴抽出層を含んでもよく、即ち、このバックボーンネットワークは、4つの特徴抽出段階(stage)を実現することができる。各層の特徴抽出層から出力される特徴マップの解像度は、順に低下し、CNNと類似しており、受容野を層ごとに広げることができる。
ここで、第1の層の特徴抽出層は、トークン埋め込み(Token Embedding)モジュールと、Transformerアーキテクチャにおける符号化ブロック(Transformer Block)とを含み、後続の3層の特徴抽出層は、いずれもトークン融合(Token Merging)モジュールと、符号化ブロック(Transformer Block)とを含む。第1の層の特徴抽出層のToken Embeddingモジュールは、画像分割と位置情報埋め込みの操作を行うことができ、残りの層のToken Mergingモジュールは、主に、下位層のサンプリングの役割を果たし、各層における符号化ブロックは、特徴に対して符号化を行うためのものであり、各符号化ブロックは、2つのTransformerエンコーダを含んでもよい。ここで、1番目のTransformerエンコーダのセルフアテンション層は、ウィンドウセルフアテンション層であり、アテンション計算を固定サイズのウィンドウ内に集中させ、計算量を低減させるためのものである。2番目のTransformerエンコーダにおけるセルフアテンション層は、異なるウィンドウ間の情報伝達を確保することができ、このように局所から全体への特徴抽出が実現され、バックボーンネットワーク全体の特徴抽出能力を著しく向上させることができる。
S1012、画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、検出待ち画像の視覚的符号化特徴を得る。
ここで、予め設定される位置ベクトルに対して位置埋め込み(position Embedding)を行い、予め設定される位置符号化特徴を得る。この予め設定される位置ベクトルは、実際の必要に応じて設定されてもよく、画像特徴と予め設定される位置符号化特徴を加算することで、2D空間位置情報を体現できる視覚的特徴を得ることができる。
本開示の実施例において、融合ネットワークによって、画像特徴と予め設定される位置符号化特徴を加算し、視覚的特徴を得ることができる。そして、視覚的特徴を1つのTransformerエンコーダ又は他のタイプのエンコーダに入力して符号化操作を行い、視覚的符号化特徴を得る。
Transformerエンコーダを用いて符号化操作を行えば、まず、視覚的特徴を一次元ベクトルに変換してもよく、例えば、1*1の畳み込み層によって、加算結果に対して次元縮小を行って、Transformerエンコーダのシーケンス化入力要件を満たさせ、さらに、この一次元ベクトルをTransformerエンコーダに入力して符号化操作を行ってもよく、このように、エンコーダの計算量を低減させることができる。
説明すべきこととして、上記S1011-S1012は、予めトレーニングされたテキスト抽出モデルに含まれる視覚的符号化サブモデルによって実現してもよく、テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。
この方法を用いると、バックボーンネットワークによって、検出待ち画像の画像特徴を取得し、そしてこの画像特徴と予め設定される位置符号化特徴を加算し、テキストコンテキスト情報に対する得られる視覚的特徴の表現能力を向上させ、検出待ち画像に対する後続で得られる視覚的符号化特徴の表現の正確性を向上させることができ、さらに、この視覚的符号化特徴によって、後続で抽出される第2のテキスト情報の正確性を向上させることもできる。
本開示の別の実施例において、マルチモーダル特徴の抽出プロセスを説明する。ここで、マルチモーダル特徴は、検出枠の位置情報、検出枠における検出特徴、及び検出枠における文字内容という3つの部分を含む。図3に示すように、上記S102、検出待ち画像から複数組のマルチモーダル特徴を抽出することは、具体的に、以下のステップとして実現してもよい。
S1021、検出待ち画像を予め設定される検出モデルに入力し、検出待ち画像の特徴マップと複数の検出枠の位置情報を得る。
ここで、予め設定される検出モデルは、画像における、テキスト情報を含む検出枠を抽出するためのモデルであってもよく、このモデルは、OCRモデルであってもよく、関連技術における他のモデル、例えば、ニューラルネットワークモデルであってもよく、本開示の実施例は、これを限定しない。
検出待ち画像を予め設定される検出モデルに入力した後、予め設定される検出モデルは、検出待ち画像の特徴マップ(feature map)、及び検出待ち画像における、テキスト情報を含む検出枠の位置情報を出力することができる。位置情報の表現方式は、上記S102における関連記述を参照してもよく、ここで説明を省略する。
S1022、複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得る。
理解できるように、検出待ち画像の特徴マップと各検出枠の位置情報を得た後、それぞれ、各検出枠の位置情報に基づき、特徴マップから、この検出枠の位置にマッチングする特徴を、この検出枠に対応する検出特徴として切り取る(crop)ことができる。
S1023、複数の検出枠の位置情報を利用して、検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得る。
ここで、検出枠の位置情報が検出待ち画像における検出枠の位置を表すためのものであるため、各検出枠の位置情報に基づき、検出待ち画像における検出枠の位置する画像を切り出し、切り出されるサブ画像を検出待ちサブマップとすることができる。
S1024、予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得る。
ここで、予め設定される認識モデルは、関連技術におけるいずれか1つのテキスト認識モデルであってもよく、例えば、OCRモデルであってもよい。
S1025、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得る。
本開示の実施例において、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してそれぞれ埋め込み(embedding)操作を行い、特徴ベクトルの形式に変換した後、さらに、スティッチングを行うことによって、この検出枠のマルチモーダル特徴を得ることができる。
説明すべきこととして、上記S1021-S1025は、予めトレーニングされるテキスト抽出モデルに含まれる検出サブモデルによって実現してもよく、この検出サブモデルは、上記予め設定される検出モデルと、予め設定される認識モデルとを含む。テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。
この方法を用いると、検出待ち画像から、各検出枠の位置情報、検出特徴及び第1のテキスト情報を正確に抽出することができ、後続で、抽出される第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を抽出することを容易にする。本開示の実施例では、マルチモーダル特徴を抽出する時、テンプレートに規定される位置又はキーワード位置に依存していないため、検出待ち画像における第1のテキスト情報に歪み変形、プリントずれなどの問題があっても、検出待ち画像から、マルチモーダル特徴を正確に抽出することができる。
本開示の別の実施例において、図4に示すように、上記実施例を基礎として、S103は、具体的に、以下として実現してもよい。
S1031、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得る。
ここで、このデコーダは、Transformerデコーダであってもよく、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、S1031は、具体的に、以下として実現してもよい。
ステップ1、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダのセルフアテンション層に入力し、複数の融合特徴を得る。ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴である。
本開示の実施例において、マルチモーダル特徴は、Transformerネットワークにおけるマルチモーダルqueriesとしてもよく、抽出待ち属性は、key queryとしてもよい。抽出待ち属性に対してembedding操作を行った後、デコーダのセルフアテンション層に入力し、複数組のマルチモーダル特徴をセルフアテンション層に入力してもよく、さらに、セルフアテンション層は、各組のマルチモーダル特徴と抽出待ち属性を融合し、各組のマルチモーダル特徴に対応する融合特徴を出力することができる。
Key queyをセルフアテンション層によってマルチモーダル特徴queriesに融合することで、Transformerネットワークに、key queryとマルチモーダル特徴における第1のテキスト情報(value)を同時に理解させることができ、それによってkey-value間の関係を理解させる。
ステップ2、複数の融合特徴と視覚的符号化特徴をデコーダのコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得る。
セルフアテンションメカニズムによって、抽出待ち属性とマルチモーダル特徴を融合することで、抽出待ち属性と複数組のマルチモーダル特徴に含まれる第1のテキスト情報との関連付けを得るとともに、Transformerデコーダのアテンションメカニズムは、検出待ち画像のコンテキスト情報を表す視覚的符号化特徴を取得し、さらに、デコーダは、視覚的符号化特徴に基づき、マルチモーダル特徴と抽出待ち属性との関係を得ることができ、即ち、シーケンスベクトルは、各組のマルチモーダル特徴と抽出待ち属性との関係を反映することができ、さらに、後続の多層パーセプトロンネットワークがシーケンスベクトルに基づき、各組のマルチモーダル特徴のクラスを正確に確定することができる。
S1032、デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得る。
ここで、多層パーセプトロンネットワークから出力されるクラスは、正しいクラス(right answer)と、誤ったクラス(wrong answer)とを含む。正しいクラスは、マルチモーダル特徴における第1のテキスト情報の属性が抽出待ち属性であることを表し、誤ったクラスは、マルチモーダル特徴における第1のテキスト情報の属性が抽出待ち属性ではないことを表す。
本開示の実施例における多層パーセプトロンネットワークは、多層パーセプトロンメカニズム(Multilayer Perceptron、MLP)ネットワークである。MLPネットワークは、具体的に、各組のマルチモーダルqueriesのクラスを出力することができ、即ち、MLPから出力される一組のマルチモーダルqueriesのクラスがright answerであれば、この組のマルチモーダルqueriesに含まれる第1のテキスト情報が抽出待ち第2のテキスト情報であることを表し、MLPネットワークから出力される一組のマルチモーダルqueriesのクラスがwrong answerであれば、この組のマルチモーダルqueriesに含まれる第1のテキスト情報が抽出待ち第2のテキスト情報ではないことを表す。
説明すべきこととして、本開示の実施例におけるデコーダと多層パーセプトロンネットワークは、いずれも、トレーニングされたものであり、具体的なトレーニング方法について、後続の実施例において説明する。
S1033、正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とする。
説明すべきこととして、上記S1031-S1033は、予めトレーニングされるテキスト抽出モデルに含まれる検出サブモデルによって実現してもよく、この検出サブモデルは、上記デコーダと、多層パーセプトロンネットワークとを含む。テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。
本開示の実施例を用いると、デコーダにおけるアテンションメカニズムによって、複数組のマルチモーダル特徴、抽出待ち属性及び視覚的符号化特徴に対して復号を行い、シーケンスベクトルを得、さらに、多層パーセプトロンネットワークは、シーケンスベクトルに基づいて、各第1のテキスト情報のクラスを出力し、正しいクラスである第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報として確定することができ、種々の様式の証明書手形に対するテキスト抽出を実現し、人件費を節約し、且つ抽出効率を向上させることができる。
同じ技術的構想によれば、本開示の実施例は、テキスト抽出モデルのトレーニング方法をさらに提供し、このテキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、図5に示すように、この方法は、以下を含む。
S501、視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得する。
ここで、サンプル画像は、上記実体文書の画像、例えば、紙文書の画像、種々の手形、証明書又はカードの画像などである。
視覚的符号化特徴は、サンプル画像におけるテキストのコンテキスト情報を表すことができる。
S502、検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得する。
ここで、各組のマルチモーダル特徴は、サンプル画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む。
ここで、検出枠の位置情報と検出枠における検出特徴について、上記S102における関連記述を参照してもよく、ここで説明を省略する。
S503、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴を出力サブモデルに入力し、出力サブモデルから出力される、抽出待ち属性にマッチングする第2のテキスト情報を得る。
ここで、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である。
例えば、サンプル画像は、乗車券画像であり、抽出される必要のあるテキスト情報は、この乗車券における出発駅の駅名であれば、抽出待ち属性は、出発駅名である。例えば、乗車券における出発駅の駅名が「北京」であれば、「北京」は、抽出される必要のあるテキスト情報である。
S504、出力サブモデルから出力される第2のテスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、テキスト抽出モデルをトレーニングする。
本開示の実施例において、サンプル画像のアノテーションは、サンプル画像における実際に抽出される必要のあるテキスト情報である。抽出待ち属性にマッチングする第2のテキスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、損失関数値を計算し、損失関数値に基づいて、テキスト抽出モデルのパラメータを調整し、テキスト抽出モデルが収束しているかどうかを判断することができる。収束していなければ、引き続き、次のサンプル画像に基づき、S501-S503を実行し、損失関数値を再計算し、損失関数値に基づき、テキスト抽出モデルが収束していると確定するまで継続し、トレーニングが完了されているテキスト抽出モデルを得る。
本開示の実施例を用いると、テキスト抽出モデルは、サンプル画像の視覚的符号化特徴と複数組のマルチモーダル特徴によって、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得することができる。複数組のマルチモーダル特徴に検出待ち画像における複数の第1のテキスト情報が含まれ、そのうち、抽出待ち属性にマッチングするテキスト情報と抽出待ち属性にマッチングしていないテキスト情報があり、且つ視覚的符号化特徴が検出待ち画像におけるテキストのグローバルコンテキスト情報を表すことができるため、テキスト抽出モデルは、視覚的符号化特徴に基づき、複数組のマルチモーダル特徴から、抽出待ち属性にマッチングする第2のテキスト情報を取得することができる。このテキスト抽出モデルをトレーニングした後、後続で、このテキスト抽出モデルによって、第2のテキスト情報の抽出を直接的に行うことができ、手作業を必要とせず、且つテキスト情報抽出を要する実体文書の様式によって制限されず、情報抽出効率を向上させることができる。
本開示の別の実施例において、上記視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、図6に示すように、上記S501は、具体的に、以下のステップを含む。
S5011、サンプル画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得する。
ここで、視覚的符号化サブモデルに含まれるバックボーンネットワークは、上記実施例で記述されたバックボーンネットワークと同じであり、上記実施例におけるバックボーンネットワークに関わる関連記述を参照してもよく、ここで説明を省略する。
S5012、画像特徴と予め設定される位置符号化特徴を加算した後、エンコーダに入力し、符号化操作を行い、サンプル画像の視覚的符号化特徴を得る。
このステップにおけるサンプル画像の画像特徴に対する処理は、上記S1012における検出待ち画像の画像特徴に対する処理プロセスと同じであり、上記S1012における関連記述を参照してもよく、ここで説明を省略する。
この方法を用いると、視覚的符号化サブモデルのバックボーンネットワークによって、検出待ち画像の画像特徴を取得し、そしてこの画像特徴と予め設定される位置符号化特徴を加算し、テキストコンテキスト情報に対する得られる視覚的特徴の表現能力を向上させ、検出待ち画像に対する後続でエンコーダによって得られる視覚的符号化特徴の表現の正確性を向上させることができ、さらに、この視覚的符号化特徴によって、後続で抽出される第2のテキスト情報の正確性を向上させることもできる。
本開示の別の実施例において、上記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、これを基礎として、上記S502、検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得することは、具体的に、以下のステップとして実現してもよい。
ステップ1、サンプル画像を予め設定される検出モデルに入力し、サンプル画像の特徴マップと複数の検出枠の位置情報を得る。
ステップ2、複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得る。
ステップ3、複数の検出枠の位置情報を利用して、サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得る。
ステップ4、予め設定される認識モデルを利用して、各サンプルサブマップにおける第1のテキスト情報を認識し、各検出枠における第1のテキスト情報を得る。
ステップ5、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得る。
上記ステップ1からステップ5におけるサンプル画像から複数組のマルチモーダル特徴を抽出する方法は、上記図3に対応する実施例に記述された検出待ち画像からマルチモーダル特徴を抽出する方法と同じであり、上記実施例における関連記述を参照してもよく、ここで説明を省略する。
この方法を用いると、トレーニングされた検出サブモデルを用いて、サンプル画像から、各検出枠の位置情報、検出特徴及び第1のテキスト情報を正確に抽出することができ、後続で、抽出される第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を抽出することを容易にする。本開示の実施例では、マルチモーダル特徴を抽出する時、テンプレートに規定される位置又はキーワード位置に依存していないため、検出待ち画像における第1のテキスト情報に歪み変形、プリントずれなどの問題があっても、検出待ち画像から、マルチモーダル特徴を正確に抽出することができる。
本開示の別の実施例において、出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、図7に示すように、S503は、以下のステップを含んでもよい。
S5031、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得る。
ここで、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、S5031は、以下として実現してもよい。
抽出待ち属性及び複数組のマルチモーダル特徴をセルフアテンション層に入力し、複数の融合特徴を得る。そして、複数の融合特徴と視覚的符号化特徴をコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得る。ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴である。
セルフアテンションメカニズムによって、抽出待ち属性とマルチモーダル特徴を融合することで、抽出待ち属性と複数組のマルチモーダル特徴に含まれる第1のテキスト情報との関連付けを得るとともに、Transformerデコーダのアテンションメカニズムは、検出待ち画像のコンテキスト情報を表す視覚的符号化特徴を取得し、さらに、デコーダは、視覚的符号化特徴に基づき、マルチモーダル特徴と抽出待ち属性との関係を得ることができ、即ち、シーケンスベクトルは、各組のマルチモーダル特徴と抽出待ち属性との関係を反映することができ、さらに、後続の多層パーセプトロンネットワークがシーケンスベクトルに基づき、各組のマルチモーダル特徴のクラスを正確に確定することができる。
S5032、デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得る。
ここで、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、正しいクラスは、マルチモーダル特徴における第1のテキスト情報の属性が抽出待ち属性であることを表し、誤ったクラスは、マルチモーダル特徴における第1のテキスト情報の属性が抽出待ち属性ではないことを表す。
S5033、正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とする。
本開示の実施例を用いると、デコーダにおけるアテンションメカニズムによって、複数組のマルチモーダル特徴、抽出待ち属性及び視覚的符号化特徴に対して復号を行い、シーケンスベクトルを得、さらに、多層パーセプトロンネットワークは、シーケンスベクトルに基づいて、各第1のテキスト情報のクラスを出力し、正しいクラスである第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報として確定することができ、種々の様式の証明書手形に対するテキスト抽出を実現し、人件費を節約し、且つ抽出効率を向上させることができる。
以下、図8に示すテキスト抽出モデルを結びつけて、本開示の実施例によるテキスト抽出方法を説明し、検出待ち画像が列車乗車券であることを例として、図8に示すように、検出待ち画像から、複数組のマルチモーダル特徴queriesを抽出してもよく、マルチモーダル特徴は、検出枠の位置情報Bbox(x,y,w,h)と、検出特徴(Detection Features)と、第1のテキスト情報(Text)とを含む。
本開示の実施例において、元々keyとする抽出待ち属性をqueryとし、抽出待ち属性をKey Queryと称してもよく、例として、抽出待ち属性は、具体的に、出発駅であってもよい。
検出待ち画像(Image)をバックボーンネットワーク(Backbone)に入力し、画像特徴を抽出し、画像特徴に対して位置埋め込み(Position embedding)を行い、一次元ベクトルに変換する。
一次元ベクトルをTransformerエンコーダ(Transformer Encoder)に入力して符号化し、視覚的符号化特徴を得る。
視覚的符号化特徴、マルチモーダル特徴queries及び抽出待ち属性(Key Query)をTransformerデコーダ(Transformer Decoder)に入力し、シーケンスベクトルを得る。
シーケンスベクトルをMLPに入力し、各マルチモーダル特徴に含まれる第1のテキスト情報のクラスを得、クラスは、正しいクラス(right answer、又はRight Valueと称される)又は誤ったクラス(wrong answer、又はWrong Valueと称される)である。
ここで、第1のテキスト情報が正しいクラスであることは、この第1のテキスト情報の属性が抽出待ち属性であり、この第1のテキスト情報が、抽出されるべきテキストであることを表し、図7における抽出待ち属性が出発駅であり、「天津西駅」というクラスが正しいクラスであり、「天津西駅」は、抽出されるべき第2のテキスト情報である。
本開示の実施例を用いると、key(抽出待ち属性)をQueryと定義し、Transformerデコーダのセルフアテンション層に入力し、各組のマルチモーダル特徴Queriesを抽出待ち属性にそれぞれ融合し、即ち、Transformerデコーダを利用して、マルチモーダル特徴と抽出待ち属性との関係を構築する。その後、さらに、Transformerエンコーダのコーデックアテンション層を利用して、マルチモーダル特徴、抽出待ち属性と視覚的符号化特徴との融合を実現し、最終的に、MLPがkey queryに対応するvalue answersを出力することができ、エンドツーエンドの構造化情報の抽出を実現する。key-valueをquestion-answerと定義する方式で、テキスト抽出モデルのトレーニングは、異なる様式の証明書手形に対応でき、トレーニングで得られるテキスト抽出モデルが種々の固定様式及び非固定様式の証明書手形に対して構造化テキスト抽出を行うことができ、手形認識業務の範囲を拡大し、且つ手形の歪み変形とプリントずれなどの要因による影響に耐え、特定のテキスト情報を正確に抽出することができる。
上記方法の実施例に対応して、図9に示すように、本開示の実施例は、テキスト抽出装置をさらに提供し、前記装置は、
検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュール901と、
検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュール902であって、各組のマルチモーダル特徴は、検出待ち画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む抽出モジュール902と、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュール903であって、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュール903とを含む。
本開示の別の実施例において、第2の取得モジュール903は、具体的に、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得、
デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、
正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とするために用いられる。
本開示の別の実施例において、第2の取得モジュール903は、具体的に、
抽出待ち属性及び複数組のマルチモーダル特徴をデコーダのセルフアテンション層に入力し、複数の融合特徴を得、ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴であり、
複数の融合特徴と視覚的符号化特徴をデコーダのコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得るために用いられる。
本開示の別の実施例において、第1の取得モジュール901は、具体的に、
検出待ち画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得し、
画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、検出待ち画像の視覚的符号化特徴を得るために用いられる。
本開示の別の実施例において、抽出モジュール902は、具体的に、
検出待ち画像を予め設定される検出モデルに入力し、検出待ち画像の特徴マップと複数の検出枠の位置情報を得、
複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得、
複数の検出枠の位置情報を利用して、検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得、
検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの前記検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得るために用いられる。
上記方法の実施例に対応して、本開示の実施例は、テキスト抽出モデルのトレーニング装置をさらに提供し、ここで、テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、図10に示すように、この装置は、
視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュール1001と、
検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュール1002であって、各組のマルチモーダル特徴は、サンプル画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む第2の取得モジュール1002と、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴を出力サブモデルに入力し、出力サブモデルから出力される、抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュール1003であって、抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュール1003と、
出力サブモデルから出力される第2のテスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、テキスト抽出モデルをトレーニングするためのトレーニングモジュール1004とを含む。
本開示の別の実施例において、出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、テキスト抽出モジュール1003は、具体的に、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得、
デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、
正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とするために用いられる。
本開示の別の実施例において、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、テキスト抽出モジュール1003は、具体的に、
抽出待ち属性及び複数組のマルチモーダル特徴をセルフアテンション層に入力し、複数の融合特徴を得、ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴であり、
複数の融合特徴と視覚的符号化特徴をコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得るために用いられる。
本開示の別の実施例において、視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、第1の取得モジュール1001は、具体的に、
サンプル画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得し、
画像特徴と予め設定される位置符号化特徴を加算した後、エンコーダに入力し、符号化操作を行い、サンプル画像の視覚的符号化特徴を得るために用いられる。
本開示の別の実施例において、前記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、第2の取得モジュール1002は、具体的に、
サンプル画像を予め設定される検出モデルに入力し、サンプル画像の特徴マップと複数の検出枠の位置情報を得、
複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得、
複数の検出枠の位置情報を利用して、サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得、
予め設定される認識モデルを利用して、各サンプルサブマップにおけるテキスト情報を認識し、各検出枠におけるテキスト情報を得、
検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得るために用いられる。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図11は本開示の実施例を実施するための例示的な電子機器1100を示す概略ブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび/又は請求した本開示の実現を制限しない。
図11に示すように、機器1100は、計算ユニット1101を含み、それはリードオンリーメモリ(ROM)1102に記憶されるコンピュータプログラムまた記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。RAM 1103において、さらに機器1100の動作に必要な種々のプログラムとデータを記憶することができる。計算ユニット1101、ROM 1102及びRAM 1103はバス1104によって互いに接続される。入力/出力(I/O)インターフェース1105もバス1104に接続される。
機器1100における複数の部品はI/Oインターフェース1105に接続され、例えばキーボード、マウスなどの入力ユニット1106、例えば様々なタイプのディスプレイ、スピーカーなどの出力ユニット1107、例えば磁気ディスク、光ディスクなどの記憶ユニット1108、および例えばネットワークカード、変調復調器、無線通信送受信機などの通信ユニット1109を含む。通信ユニット1109は、機器1100が例えばインターネットなどのコンピュータネットワークおよび/又は様々な電気通信ネットワークを介して他の装置と情報/データを交換することを可能にする。
計算ユニット1101は処理およびコンピューティング能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1101の例には、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット1101は、例えばテキスト抽出方法又はテキスト抽出モデルのトレーニング方法などの以上に記載の各方法および処理を実行する。例えば、いくつかの実施例において、テキスト抽出方法又はテキスト抽出モデルのトレーニング方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット1108に有形に含まれる。いくつかの実施例において、コンピュータプログラムの部分又は全てはROM 1102および/又は通信ユニット1109を経由して機器1100にロードおよび/又はインストールされてよい。コンピュータプログラムがRAM 1103にロードされて計算ユニット1101によって実行される場合、以上で説明されるテキスト抽出方法又はテキスト抽出モデルのトレーニング方法の1つまたは複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット1101は他のいかなる適切な方式で(例えば、ファームウェアにより)テキスト抽出方法又はテキスト抽出モデルのトレーニング方法を実行するように構成されてよい。
本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑なプログラマブル論理デバイス(CPLD)、コンピューターハードウェア、ファームウェア、ソフトウェア、および/またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施され、この1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび/又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、少なくとも1つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも1つの入力装置、この少なくとも1つの出力装置に送信してよいこと、を含んでもよい。
本願の方法を実施するプログラムコードは1つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび/又はブロック図に規定の機能/操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。
本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)監視モニタ)、およびキーボードとポインティング装置(例えば、マウスやトラックボール)を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形態(音入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してよい。
ここで述べたシステムや技術は、バックステージ部材を含む計算システム(例えば、データサーバとして)や、ミドルウェア部材を含む計算システム(例えば、アプリケーションサーバ)や、フロントエンド部材を含む計算システム(例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる)、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信(例えば、通信ネットワーク)により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク(LAN)、広域ネットワーク(WAN)とインターネットを含む。
コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側-サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバの関係を生成する。サーバーは、クラウドサーバであってもよく、分散型システムのサーバでも、またはブロックチェーンと組み合わされサーバであってもよい。
理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよいことである。例えば、本開示に記載された各ことは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。
上述した実施形態は、本開示特許請求の範囲を限定するものではない。当業者が理解すべきこととして、設計要求と他の要因に基づいて、様々な修正、組み合わせ、一部の組み合わせと代替を行うことができることである。本開示における精神および原則から逸脱することなく行われるいかなる修正、同等物による置換や改良等は、いずれも本開示の保護範囲に含まれるものである。

Claims (19)

  1. テキスト抽出方法であって、
    検出待ち画像の視覚的符号化特徴を取得することと、
    前記検出待ち画像から複数組のマルチモーダル特徴を抽出することであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
    前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモード特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることとを含む、テキスト抽出方法。
  2. 前述した、前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することは、
    前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることと、
    前記デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
    正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることとを含む、請求項1に記載の方法。
  3. 前述した、前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることは、
    前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダのセルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
    前記複数の融合特徴と前記視覚的符号化特徴を前記デコーダのコーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることとを含む、請求項2に記載の方法。
  4. 前述した、検出待ち画像の視覚的符号化特徴を取得することは、
    前記検出待ち画像をバックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得することと、
    前記画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、前記検出待ち画像の視覚的符号化特徴を得ることとを含む、請求項1~3のいずれか1項に記載の方法。
  5. 前述した、前記検出待ち画像から複数組のマルチモーダル特徴を抽出することは、
    前記検出待ち画像を予め設定される検出モデルに入力し、前記検出待ち画像の特徴マップと複数の検出枠の位置情報を得ることと、
    前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ることと、
    前記複数の検出枠の位置情報を利用して、前記検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得ることと、
    予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ることと、
    検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることとを含む、請求項1~3のいずれか1項に記載の方法。
  6. テキスト抽出モデルのトレーニング方法であって、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記方法は、
    前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することと、
    前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
    前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと、
    前記出力サブモデルから出力される第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングすることとを含む、テキスト抽出モデルのトレーニング方法。
  7. 前記出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、前述した、前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることは、
    前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることと、
    前記デコーダから出力されるシーケンスベクトルを前記多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
    正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることとを含む、請求項6に記載の方法。
  8. 前記デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、前述した、前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることは、
    前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記セルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
    前記複数の融合特徴と前記視覚的符号化特徴を前記コーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることとを含む、請求項7に記載の方法。
  9. 前記視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、前述した、前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することは、
    前記サンプル画像を前記バックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得することと、
    前記画像特徴と予め設定される位置符号化特徴を加算した後、前記エンコーダに入力し、符号化操作を行い、前記サンプル画像の視覚的符号化特徴を得ることとを含む、請求項6~8のいずれか1項に記載の方法。
  10. 前記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、前述した、前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することは、
    前記サンプル画像を前記予め設定される検出モデルに入力し、前記サンプル画像の特徴マップと複数の検出枠の位置情報を得ることと、
    前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ることと、
    前記複数の検出枠の位置情報を利用して、前記サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得ることと、
    前記予め設定される認識モデルを利用して、各サンプルサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ることと、
    検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることとを含む、請求項6~8のいずれか1項に記載の方法。
  11. テキスト抽出装置であって、
    検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
    前記検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュールであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む抽出モジュールと、
    前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュールとを含む、テキスト抽出装置。
  12. 前記第2の取得モジュールは、具体的に、
    前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ること、
    前記デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むこと、
    正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることのために用いられる、請求項11に記載の装置。
  13. 前記第2の取得モジュールは、具体的に、
    前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダのセルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であること、
    前記複数の融合特徴と前記視覚的符号化特徴を前記デコーダのコーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることのために用いられる、請求項12に記載の装置。
  14. 前記第1の取得モジュールは、具体的に、
    前記検出待ち画像をバックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得すること、
    前記画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、前記検出待ち画像の視覚的符号化特徴を得ることのために用いられる、請求項11~13のいずれか1項に記載の装置。
  15. 前記抽出モジュールは、具体的に、
    前記検出待ち画像を予め設定される検出モデルに入力し、前記検出待ち画像の特徴マップと複数の検出枠の位置情報を得ること、
    前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ること、
    前記複数の検出枠の位置情報を利用して、前記検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得ること、
    予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ること、
    検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることのために用いられる、請求項11~13のいずれか1項に記載の装置。
  16. テキスト抽出モデルのトレーニング装置であって、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記装置は、
    前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
    前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュールであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む第2の取得モジュールと、
    前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュールと、
    前記出力サブモデルから出力される第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングするためのトレーニングモジュールとを含む、テキスト抽出モデルのトレーニング装置。
  17. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~3又は6~8のいずれか1項に記載の方法を実行させる、電子機器。
  18. コンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~3又は6~8のいずれか1項に記載の方法を実行させるために用いられる、非一時的コンピュータ可読記憶媒体。
  19. プロセッサによって実行されると、請求項1~3又は6~8のいずれか1項に記載の方法を実現するコンピュータプログラムを含む、コンピュータプログラム製品。
JP2022145248A 2022-03-10 2022-09-13 テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 Active JP7423715B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210234230.9 2022-03-10
CN202210234230.9A CN114821622B (zh) 2022-03-10 2022-03-10 文本抽取方法、文本抽取模型训练方法、装置及设备

Publications (2)

Publication Number Publication Date
JP2022172381A true JP2022172381A (ja) 2022-11-15
JP7423715B2 JP7423715B2 (ja) 2024-01-29

Family

ID=82528699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022145248A Active JP7423715B2 (ja) 2022-03-10 2022-09-13 テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器

Country Status (4)

Country Link
US (1) US20230106873A1 (ja)
JP (1) JP7423715B2 (ja)
KR (1) KR20220133141A (ja)
CN (1) CN114821622B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797751A (zh) * 2023-01-18 2023-03-14 中国科学技术大学 基于对比掩码图像建模的图像分析方法与系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546488B (zh) * 2022-11-07 2023-05-19 北京百度网讯科技有限公司 信息分割方法、信息提取方法和信息分割模型的训练方法
CN116110056B (zh) * 2022-12-29 2023-09-26 北京百度网讯科技有限公司 信息抽取方法及装置、电子设备和存储介质
CN116168216B (zh) * 2023-04-21 2023-07-18 中国科学技术大学 一种基于场景提示的单目标跟踪方法
CN116597467B (zh) * 2023-07-17 2023-10-31 粤港澳大湾区数字经济研究院(福田) 一种图纸检测方法、系统、设备及存储介质
CN117351257B (zh) * 2023-08-24 2024-04-02 长江水上交通监测与应急处置中心 一种基于多模态信息的航运数据抽取方法及系统
CN116912871B (zh) * 2023-09-08 2024-02-23 上海蜜度信息技术有限公司 身份证信息抽取方法、系统、存储介质及电子设备
CN117197737B (zh) * 2023-09-08 2024-05-28 数字广东网络建设有限公司 一种土地用途的检测方法、装置、设备及存储介质
CN117037136B (zh) * 2023-10-10 2024-02-23 中国科学技术大学 场景文本识别方法、系统、设备及存储介质
CN117351331A (zh) * 2023-10-24 2024-01-05 北京云上曲率科技有限公司 一种为视觉大模型添加适配器的方法及装置
CN117274564B (zh) * 2023-11-20 2024-03-15 民航成都电子技术有限责任公司 基于图文语义差异的机场跑道异物检测方法及系统
CN117523543B (zh) * 2024-01-08 2024-03-19 成都大学 一种基于深度学习的金属压印字符识别方法
CN117711001B (zh) * 2024-02-04 2024-05-07 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090265307A1 (en) * 2008-04-18 2009-10-22 Reisman Kenneth System and method for automatically producing fluent textual summaries from multiple opinions
US20170147577A9 (en) * 2009-09-30 2017-05-25 Gennady LAPIR Method and system for extraction
TWI753034B (zh) * 2017-03-31 2022-01-21 香港商阿里巴巴集團服務有限公司 特徵向量的產生、搜索方法、裝置及電子設備
CN110019812B (zh) * 2018-02-27 2021-08-20 中国科学院计算技术研究所 一种用户自生产内容检测方法和系统
US11023210B2 (en) * 2019-03-20 2021-06-01 International Business Machines Corporation Generating program analysis rules based on coding standard documents
CN110110715A (zh) * 2019-04-30 2019-08-09 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
US11100145B2 (en) * 2019-09-11 2021-08-24 International Business Machines Corporation Dialog-based image retrieval with contextual information
CN111091824B (zh) * 2019-11-30 2022-10-04 华为技术有限公司 一种语音匹配方法及相关设备
CN111090987B (zh) * 2019-12-27 2021-02-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN112016438B (zh) * 2020-08-26 2021-08-10 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
CN112001368A (zh) 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质
CN112801010B (zh) * 2021-02-07 2023-02-14 华南理工大学 一种针对实际ocr场景下的视觉富文档信息抽取方法
CN113033534B (zh) * 2021-03-10 2023-07-25 北京百度网讯科技有限公司 建立票据类型识别模型与识别票据类型的方法、装置
CN113032672A (zh) * 2021-03-24 2021-06-25 北京百度网讯科技有限公司 多模态poi特征的提取方法和装置
CN113378832B (zh) * 2021-06-25 2024-05-28 北京百度网讯科技有限公司 文本检测模型训练方法、文本预测框方法及装置
CN113657390B (zh) * 2021-08-13 2022-08-12 北京百度网讯科技有限公司 文本检测模型的训练方法和检测文本方法、装置和设备
CN113722490B (zh) * 2021-09-06 2023-05-26 华南理工大学 一种基于键值匹配关系的视觉富文档信息抽取方法
CN113971222A (zh) * 2021-10-28 2022-01-25 重庆紫光华山智安科技有限公司 一种多模态复合编码图像检索方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797751A (zh) * 2023-01-18 2023-03-14 中国科学技术大学 基于对比掩码图像建模的图像分析方法与系统

Also Published As

Publication number Publication date
CN114821622A (zh) 2022-07-29
JP7423715B2 (ja) 2024-01-29
KR20220133141A (ko) 2022-10-04
CN114821622B (zh) 2023-07-21
US20230106873A1 (en) 2023-04-06

Similar Documents

Publication Publication Date Title
JP7423715B2 (ja) テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器
EP3923185A2 (en) Image classification method and apparatus, electronic device and storage medium
EP4141733A1 (en) Model training method and apparatus, electronic device, and storage medium
CN112949415B (zh) 图像处理方法、装置、设备和介质
US20220309549A1 (en) Identifying key-value pairs in documents
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
WO2024098533A1 (zh) 图文双向搜索方法、装置、设备及非易失性可读存储介质
WO2024098623A1 (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN114818708B (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
JP2023541527A (ja) テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法
EP4057283A2 (en) Method for detecting voice, method for training, apparatuses and smart speaker
EP3920074A2 (en) Method for industry text increment, related apparatus, and computer program product
CN114724156A (zh) 表单识别方法、装置及电子设备
CN114186690A (zh) 飞行器知识图谱构建方法、装置、设备及存储介质
US20220382991A1 (en) Training method and apparatus for document processing model, device, storage medium and program
CN115130473B (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN115035351B (zh) 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质
JP2023010805A (ja) ドキュメント情報抽出モデルのトレーニングおよびドキュメント情報の抽出のための方法、装置、電子機器、記憶媒体並びにコンピュータプログラム
CN113361522B (zh) 用于确定字符序列的方法、装置和电子设备
CN113536797A (zh) 一种切片文档关键信息单模型抽取方法及系统
CN114445833A (zh) 文本识别方法、装置、电子设备和存储介质
CN113971810A (zh) 文档生成方法、装置、平台、电子设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240117

R150 Certificate of patent or registration of utility model

Ref document number: 7423715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150