JP2022172381A

JP2022172381A - テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器

Info

Publication number: JP2022172381A
Application number: JP2022145248A
Authority: JP
Inventors: シアメン・チン; Xiameng Qin; シヤオチアーン・ジャーン; Xiaoqiang Zhang; ジュ・ホワーン; Ju Huang; ユーリン・リー; Yulin Li; チュンイ・シエ; Qunyi Xie; クン・ヤオ; Kun Yao; ジュンユ・ハン; Junyu Han
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-10
Filing date: 2022-09-13
Publication date: 2022-11-15
Anticipated expiration: 2042-09-13
Also published as: CN114821622A; JP7423715B2; KR20220133141A; CN114821622B; US20230106873A1

Abstract

【課題】複数の様式の証明書手形に対してテキスト情報抽出を行うことができ、抽出効率を向上させるテキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器を提供する。【解決手段】方法は、検出待ち画像の視覚的符号化特徴を取得し、検出待ち画像から複数組のマルチモーダル特徴を抽出する。各組のマルチモーダル特徴は、検出待ち画像から抽出される１つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第１のテキスト情報と、を含む。方法はさらに、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、抽出待ち属性にマッチングする第２のテキスト情報を取得する。抽出待ち属性は、抽出される必要のあるテキスト情報の属性である。【選択図】図１

Description

本開示は、人工知能技術分野に関し、特にコンピュータビジョン技術分野に関する。

情報伝達の効率を高めるために、構造化テキストは、一般的に使用される情報担体となっており、デジタル化及び自動化されたオフィスシナリオで広く使用されている。現在では、多くの実体文書における情報は、電子化された構造化テキストとして記録される必要があることがある。例えば、企業のオフィスインテリジェント化を支援するためには、大量の実体手形における情報を抽出し、構造化テキストとして保存する必要がある。

本開示は、テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器を提供する。
本開示の第１の態様によれば、テキスト抽出方法を提供し、前記方法は、
検出待ち画像の視覚的符号化特徴を取得すること、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出することであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される１つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第１のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、前記抽出待ち属性にマッチングする第２のテキスト情報を取得することであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることとを含む。

本開示の第２の態様によれば、テキスト抽出モデルのトレーニング方法を提供し、ここで、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記方法は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される１つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第１のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第２のテキスト情報を得ることであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと、
前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第２のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングすることとを含む。

本開示の第３態様によれば、テキスト抽出装置を提供し、前記装置は、
検出待ち画像の視覚的符号化特徴を取得するための第１の取得モジュールと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュールであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される１つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第１のテキスト情報とを含む抽出モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、前記抽出待ち属性にマッチングする第２のテキスト情報を取得するための第２の取得モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第２の取得モジュールとを含む。

本開示の第４態様によれば、テキスト抽出モデルのトレーニング装置を提供し、ここで、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記装置は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第１の取得モジュールと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第２の取得モジュールであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される１つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第１のテキスト情報とを含む第２の取得モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第２のテキスト情報を得るためのテキスト抽出モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュールと、
前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第２のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングするためのトレーニングモジュールとを含む。

本開示の第５態様によれば、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに上記第１の態様又は第２の態様のいずれか１項に記載の方法を実行させる。

本開示の第６態様によれば、コンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体を提供し、前記ピュータ命令は、前記コンピュータに上記第１の態様又は第２の態様のいずれか１項に記載の方法を実行させるために用いられる。

本開示の第７態様によれば、プロセッサによって実行されると、上記第１の態様又は第２の態様のいずれか１項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

理解すべきこととして、この部分に説明される内容は、本開示の実施例の要点または重要な特徴を識別することを意図しておらず、本開示の保護範囲を限定するためのものではないことである。本開示の他の特徴は、以下の明細書によって容易に理解されるであろう。

図面は、本発明をより良く理解するために、本開示に対する制限を構成していないことである。ここで、
本開示の実施例によるテキスト抽出方法のフローチャートである。本開示の実施例による別のテキスト抽出方法のフローチャートである。本開示の実施例による別のテキスト抽出方法のフローチャートである。本開示の実施例による別のテキスト抽出方法のフローチャートである。本開示の実施例によるテキスト抽出モデルのトレーニング方法のフローチャートである。本開示の実施例による別のテキスト抽出モデルのトレーニング方法のフローチャートである。本開示の実施例による別のテキスト抽出モデルのトレーニング方法のフローチャートである。本開示の実施例によるテキスト抽出モデルの例示的な概略図である。本開示の実施例によるテキスト抽出装置の構造概略図である。本開示の実施例によるテキスト抽出モデルのトレーニング装置の構造概略図である。本開示の実施例のテキスト抽出方法又はテキスト抽出モデルのトレーニング方法を実現するための電子機器のブロック図である。

以下、図面に合わせて本開示の例示的な実施形態を説明して、それに含まれる本開示の実施例における様々な詳細が理解を助けるためので、それらは単なる例示的なものと考えられるべきである。したがって、当業者であれば、本開示の範囲および精神から逸脱することなく、本明細書で説明された実施形態に対して様々な変更および修正を行うことができることを認識すべきである。同様に、明瞭と簡潔のために、以下の説明では公知の機能および構造についての説明を省略している。

本願の技術案において、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供と公開などの処理は、すべて関連法律法規の規定に符合し、かつ公順良俗に違反しない。

現在では、種々のシナリオにおいて、構造化テキストを生成するために、実体文書から情報を抽出し、構造化記憶を行ってもよく、ここで、実体文書は、具体的に、紙文書、種々の手形、証明書又はカードなどであってもよい。

現在では一般的に用いられる構造化情報抽出方式には、抽出される必要のある情報を実体文書から手作業で取得し、構造化テキストに記録する手動記録の方式がある。
又は、さらに、テンプレートマッチングに基づく方法を用いてもよく、即ち、構造が簡単である証明書について、これらの証明書における各部分が一般的に一定の幾何学的様式を有するため、構造が同じである証明書に対して標準テンプレートを構築してもよい。この標準テンプレートは、証明書のどれらの幾何学的領域からテキスト情報を抽出するかを指定している。標準テンプレートに基づき、各証明書における一定の位置から、テキスト情報を抽出した後、光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）によって、抽出されたテキスト情報を認識し、さらに、抽出されたテキスト情報に対して構造化記憶を行う。

又は、さらに、キーシンボル検索に基づく方法を用いてもよく、即ち、検索ルールを予め設定し、キーシンボルの前又は後の指定された長さの領域内でテキストを検索することを予め指定する。例えば、キーシンボル「日付」の後に、「ＸＸ年ＸＸ月ＸＸ日」というフォーマットを満たすテキストを検索し、検索されたテキストを構造化テキストにおける「日付」というフィールドの属性値とする。

上記の方法はいずれも大量の手作業を必要とし、即ち、手作業で情報を抽出し、又は、各構造の証明書に対してテンプレートを手作業で構築し、又は、検索ルールを手作業で設定する必要があり、大量の労働力を要し、種々の様式の実体文書の抽出には適用できず、抽出効率が比較的に低い。

上記問題を解決するために、本開示の実施例は、電子機器によって実行可能なテキスト抽出方法を提供し、この電子機器は、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、サーバなどの機器であってもよい。

以下は、本開示の実施例によるテキスト抽出方法を詳しく説明する。
図１に示すように、本開示の実施例は、テキスト抽出方法を提供し、この方法は、以下を含む。

Ｓ１０１、検出待ち画像の視覚的符号化特徴を取得する。
ここで、検出待ち画像は、上記実体文書の画像、例えば、紙文書の画像、種々の手形、証明書又はカードの画像などであってもよい。

検出待ち画像の視覚的符号化特徴は、検出待ち画像に対して特徴抽出を行い、抽出された特徴に対して符号化操作を行った後に得られる特徴であり、視覚的符号化特徴の取得方法について、後続の実施例において詳しく説明する。
視覚的符号化特徴は、検出待ち画像におけるテキストのコンテキスト情報を表すことができる。

Ｓ１０２、検出待ち画像から複数組のマルチモーダル特徴を抽出する。
ここで、各組のマルチモーダル特徴は、検出待ち画像から抽出される１つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第１のテキスト情報とを含む。

本開示の実施例において、検出枠は、矩形であってもよく、検出枠の位置情報は、（ｘ，ｙ，ｗ，ｈ）で表されてもよく、ここで、ｘとｙは、検出待ち画像における検出枠のいずれか１つの隅部の位置座標を表し、例えば、検出待ち画像における検出枠の左上隅部の位置座標であってもよく、ｗとｈは、それぞれ検出枠の幅と高さを表す。例えば、検出枠の位置情報が（３，５，６，７）で表されば、検出待ち画像におけるこの検出枠の左上隅部の位置座標は、（３，５）であり、この検出枠の幅は、６であり、高さは、７である。

本開示の実施例は、検出枠の位置情報の表現形式を限定せず、検出枠の位置情報を表すことができる他の形式であってもよく、例えば、検出枠の４つの隅部の座標であってもよい。
検出枠における検出特徴は、検出待ち画像におけるこの検出枠部分画像の特徴である。

Ｓ１０３、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、抽出待ち属性にマッチングする第２のテキスト情報を取得する。

ここで、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である。
例えば、検出待ち画像は、乗車券画像であり、抽出される必要のあるテキスト情報は、この乗車券における出発駅の駅名であれば、抽出待ち属性は、出発駅名である。例えば、乗車券における出発駅の駅名が「北京」であれば、「北京」は、抽出される必要のあるテキスト情報である。

視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴によって、各組のマルチモーダル特徴に含まれる第１のテキスト情報が抽出待ち属性にマッチングするかどうかを確定することができ、それによって抽出待ち属性にマッチングする第２のテキスト情報を取得する。

本開示の実施例を用いると、視覚的符号化特徴と複数組のマルチモーダル特徴によって、複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、抽出待ち属性にマッチングする第２のテキスト情報を取得することができる。複数組のマルチモーダル特徴に検出待ち画像における複数の第１のテキスト情報が含まれ、そのうち、抽出待ち属性にマッチングするテキスト情報と抽出待ち属性にマッチングしていないテキスト情報があり、且つ視覚的符号化特徴が検出待ち画像におけるテキストのグローバルコンテキスト情報を表すことができるため、視覚的符号化特徴に基づき、複数組のマルチモーダル特徴から、抽出待ち属性にマッチングする第２のテキスト情報を取得することができる。上記プロセスにおいて、手作業を必要とせず、且つ検出待ち画像に対する特徴抽出は、検出待ち画像の様式によって制限されず、各様式の実体文書に対してそれぞれテンプレートを作成するか又は検索ルールを設定する必要がなく、情報抽出の効率を向上させることができる。

本開示の別の実施例において、視覚的符号化特徴の取得プロセスを説明する。図２に示すように、上記実施例を基礎として、Ｓ１０１、検出待ち画像の視覚的符号化特徴を取得することは、具体的に、以下のステップを含んでもよい。

Ｓ１０１１、検出待ち画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得する。
ここで、バックボーンネットワーク（Ｂａｃｋｂｏｎｅ）は、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）であってもよく、例えば、具体的に、深層残差ネットワーク（Ｄｅｅｐｒｅｓｉｄｕａｌｎｅｔｗｏｒｋ、ＲｅｓＮｅｔ）であってもよい。又は、バックボーンネットワークは、Ｔｒａｎｓｆｏｒｍｅｒベースのニューラルネットワークであってもよい。

Ｔｒａｎｓｆｏｒｍｅｒベースのバックボーンネットワークを用いることを例として、このバックボーンネットワークは、階層化設計を用いてもよく、例えば、順に接続される４層の特徴抽出層を含んでもよく、即ち、このバックボーンネットワークは、４つの特徴抽出段階（ｓｔａｇｅ）を実現することができる。各層の特徴抽出層から出力される特徴マップの解像度は、順に低下し、ＣＮＮと類似しており、受容野を層ごとに広げることができる。

ここで、第１の層の特徴抽出層は、トークン埋め込み（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇ）モジュールと、Ｔｒａｎｓｆｏｒｍｅｒアーキテクチャにおける符号化ブロック（ＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ）とを含み、後続の３層の特徴抽出層は、いずれもトークン融合（ＴｏｋｅｎＭｅｒｇｉｎｇ）モジュールと、符号化ブロック（ＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ）とを含む。第１の層の特徴抽出層のＴｏｋｅｎＥｍｂｅｄｄｉｎｇモジュールは、画像分割と位置情報埋め込みの操作を行うことができ、残りの層のＴｏｋｅｎＭｅｒｇｉｎｇモジュールは、主に、下位層のサンプリングの役割を果たし、各層における符号化ブロックは、特徴に対して符号化を行うためのものであり、各符号化ブロックは、２つのＴｒａｎｓｆｏｒｍｅｒエンコーダを含んでもよい。ここで、１番目のＴｒａｎｓｆｏｒｍｅｒエンコーダのセルフアテンション層は、ウィンドウセルフアテンション層であり、アテンション計算を固定サイズのウィンドウ内に集中させ、計算量を低減させるためのものである。２番目のＴｒａｎｓｆｏｒｍｅｒエンコーダにおけるセルフアテンション層は、異なるウィンドウ間の情報伝達を確保することができ、このように局所から全体への特徴抽出が実現され、バックボーンネットワーク全体の特徴抽出能力を著しく向上させることができる。

Ｓ１０１２、画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、検出待ち画像の視覚的符号化特徴を得る。
ここで、予め設定される位置ベクトルに対して位置埋め込み（ｐｏｓｉｔｉｏｎＥｍｂｅｄｄｉｎｇ）を行い、予め設定される位置符号化特徴を得る。この予め設定される位置ベクトルは、実際の必要に応じて設定されてもよく、画像特徴と予め設定される位置符号化特徴を加算することで、２Ｄ空間位置情報を体現できる視覚的特徴を得ることができる。

本開示の実施例において、融合ネットワークによって、画像特徴と予め設定される位置符号化特徴を加算し、視覚的特徴を得ることができる。そして、視覚的特徴を１つのＴｒａｎｓｆｏｒｍｅｒエンコーダ又は他のタイプのエンコーダに入力して符号化操作を行い、視覚的符号化特徴を得る。

Ｔｒａｎｓｆｏｒｍｅｒエンコーダを用いて符号化操作を行えば、まず、視覚的特徴を一次元ベクトルに変換してもよく、例えば、１＊１の畳み込み層によって、加算結果に対して次元縮小を行って、Ｔｒａｎｓｆｏｒｍｅｒエンコーダのシーケンス化入力要件を満たさせ、さらに、この一次元ベクトルをＴｒａｎｓｆｏｒｍｅｒエンコーダに入力して符号化操作を行ってもよく、このように、エンコーダの計算量を低減させることができる。

説明すべきこととして、上記Ｓ１０１１－Ｓ１０１２は、予めトレーニングされたテキスト抽出モデルに含まれる視覚的符号化サブモデルによって実現してもよく、テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。

この方法を用いると、バックボーンネットワークによって、検出待ち画像の画像特徴を取得し、そしてこの画像特徴と予め設定される位置符号化特徴を加算し、テキストコンテキスト情報に対する得られる視覚的特徴の表現能力を向上させ、検出待ち画像に対する後続で得られる視覚的符号化特徴の表現の正確性を向上させることができ、さらに、この視覚的符号化特徴によって、後続で抽出される第２のテキスト情報の正確性を向上させることもできる。

本開示の別の実施例において、マルチモーダル特徴の抽出プロセスを説明する。ここで、マルチモーダル特徴は、検出枠の位置情報、検出枠における検出特徴、及び検出枠における文字内容という３つの部分を含む。図３に示すように、上記Ｓ１０２、検出待ち画像から複数組のマルチモーダル特徴を抽出することは、具体的に、以下のステップとして実現してもよい。

Ｓ１０２１、検出待ち画像を予め設定される検出モデルに入力し、検出待ち画像の特徴マップと複数の検出枠の位置情報を得る。
ここで、予め設定される検出モデルは、画像における、テキスト情報を含む検出枠を抽出するためのモデルであってもよく、このモデルは、ＯＣＲモデルであってもよく、関連技術における他のモデル、例えば、ニューラルネットワークモデルであってもよく、本開示の実施例は、これを限定しない。

検出待ち画像を予め設定される検出モデルに入力した後、予め設定される検出モデルは、検出待ち画像の特徴マップ（ｆｅａｔｕｒｅｍａｐ）、及び検出待ち画像における、テキスト情報を含む検出枠の位置情報を出力することができる。位置情報の表現方式は、上記Ｓ１０２における関連記述を参照してもよく、ここで説明を省略する。

Ｓ１０２２、複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得る。
理解できるように、検出待ち画像の特徴マップと各検出枠の位置情報を得た後、それぞれ、各検出枠の位置情報に基づき、特徴マップから、この検出枠の位置にマッチングする特徴を、この検出枠に対応する検出特徴として切り取る（ｃｒｏｐ）ことができる。

Ｓ１０２３、複数の検出枠の位置情報を利用して、検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得る。
ここで、検出枠の位置情報が検出待ち画像における検出枠の位置を表すためのものであるため、各検出枠の位置情報に基づき、検出待ち画像における検出枠の位置する画像を切り出し、切り出されるサブ画像を検出待ちサブマップとすることができる。

Ｓ１０２４、予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第１のテキスト情報を得る。
ここで、予め設定される認識モデルは、関連技術におけるいずれか１つのテキスト認識モデルであってもよく、例えば、ＯＣＲモデルであってもよい。

Ｓ１０２５、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第１のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得る。

本開示の実施例において、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第１のテキスト情報に対してそれぞれ埋め込み（ｅｍｂｅｄｄｉｎｇ）操作を行い、特徴ベクトルの形式に変換した後、さらに、スティッチングを行うことによって、この検出枠のマルチモーダル特徴を得ることができる。

説明すべきこととして、上記Ｓ１０２１－Ｓ１０２５は、予めトレーニングされるテキスト抽出モデルに含まれる検出サブモデルによって実現してもよく、この検出サブモデルは、上記予め設定される検出モデルと、予め設定される認識モデルとを含む。テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。

この方法を用いると、検出待ち画像から、各検出枠の位置情報、検出特徴及び第１のテキスト情報を正確に抽出することができ、後続で、抽出される第１のテキスト情報から、抽出待ち属性にマッチングする第２のテキスト情報を抽出することを容易にする。本開示の実施例では、マルチモーダル特徴を抽出する時、テンプレートに規定される位置又はキーワード位置に依存していないため、検出待ち画像における第１のテキスト情報に歪み変形、プリントずれなどの問題があっても、検出待ち画像から、マルチモーダル特徴を正確に抽出することができる。

本開示の別の実施例において、図４に示すように、上記実施例を基礎として、Ｓ１０３は、具体的に、以下として実現してもよい。

Ｓ１０３１、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得る。

ここで、このデコーダは、Ｔｒａｎｓｆｏｒｍｅｒデコーダであってもよく、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、Ｓ１０３１は、具体的に、以下として実現してもよい。

ステップ１、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダのセルフアテンション層に入力し、複数の融合特徴を得る。ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴である。

本開示の実施例において、マルチモーダル特徴は、Ｔｒａｎｓｆｏｒｍｅｒネットワークにおけるマルチモーダルｑｕｅｒｉｅｓとしてもよく、抽出待ち属性は、ｋｅｙｑｕｅｒｙとしてもよい。抽出待ち属性に対してｅｍｂｅｄｄｉｎｇ操作を行った後、デコーダのセルフアテンション層に入力し、複数組のマルチモーダル特徴をセルフアテンション層に入力してもよく、さらに、セルフアテンション層は、各組のマルチモーダル特徴と抽出待ち属性を融合し、各組のマルチモーダル特徴に対応する融合特徴を出力することができる。

Ｋｅｙｑｕｅｙをセルフアテンション層によってマルチモーダル特徴ｑｕｅｒｉｅｓに融合することで、Ｔｒａｎｓｆｏｒｍｅｒネットワークに、ｋｅｙｑｕｅｒｙとマルチモーダル特徴における第１のテキスト情報（ｖａｌｕｅ）を同時に理解させることができ、それによってｋｅｙ－ｖａｌｕｅ間の関係を理解させる。

ステップ２、複数の融合特徴と視覚的符号化特徴をデコーダのコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得る。
セルフアテンションメカニズムによって、抽出待ち属性とマルチモーダル特徴を融合することで、抽出待ち属性と複数組のマルチモーダル特徴に含まれる第１のテキスト情報との関連付けを得るとともに、Ｔｒａｎｓｆｏｒｍｅｒデコーダのアテンションメカニズムは、検出待ち画像のコンテキスト情報を表す視覚的符号化特徴を取得し、さらに、デコーダは、視覚的符号化特徴に基づき、マルチモーダル特徴と抽出待ち属性との関係を得ることができ、即ち、シーケンスベクトルは、各組のマルチモーダル特徴と抽出待ち属性との関係を反映することができ、さらに、後続の多層パーセプトロンネットワークがシーケンスベクトルに基づき、各組のマルチモーダル特徴のクラスを正確に確定することができる。

Ｓ１０３２、デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第１のテキスト情報の属するクラスを得る。

ここで、多層パーセプトロンネットワークから出力されるクラスは、正しいクラス（ｒｉｇｈｔａｎｓｗｅｒ）と、誤ったクラス（ｗｒｏｎｇａｎｓｗｅｒ）とを含む。正しいクラスは、マルチモーダル特徴における第１のテキスト情報の属性が抽出待ち属性であることを表し、誤ったクラスは、マルチモーダル特徴における第１のテキスト情報の属性が抽出待ち属性ではないことを表す。

本開示の実施例における多層パーセプトロンネットワークは、多層パーセプトロンメカニズム（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ、ＭＬＰ）ネットワークである。ＭＬＰネットワークは、具体的に、各組のマルチモーダルｑｕｅｒｉｅｓのクラスを出力することができ、即ち、ＭＬＰから出力される一組のマルチモーダルｑｕｅｒｉｅｓのクラスがｒｉｇｈｔａｎｓｗｅｒであれば、この組のマルチモーダルｑｕｅｒｉｅｓに含まれる第１のテキスト情報が抽出待ち第２のテキスト情報であることを表し、ＭＬＰネットワークから出力される一組のマルチモーダルｑｕｅｒｉｅｓのクラスがｗｒｏｎｇａｎｓｗｅｒであれば、この組のマルチモーダルｑｕｅｒｉｅｓに含まれる第１のテキスト情報が抽出待ち第２のテキスト情報ではないことを表す。

説明すべきこととして、本開示の実施例におけるデコーダと多層パーセプトロンネットワークは、いずれも、トレーニングされたものであり、具体的なトレーニング方法について、後続の実施例において説明する。

Ｓ１０３３、正しいクラスに属する第１のテキスト情報を抽出待ち属性にマッチングする第２のテキスト情報とする。
説明すべきこととして、上記Ｓ１０３１－Ｓ１０３３は、予めトレーニングされるテキスト抽出モデルに含まれる検出サブモデルによって実現してもよく、この検出サブモデルは、上記デコーダと、多層パーセプトロンネットワークとを含む。テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。

本開示の実施例を用いると、デコーダにおけるアテンションメカニズムによって、複数組のマルチモーダル特徴、抽出待ち属性及び視覚的符号化特徴に対して復号を行い、シーケンスベクトルを得、さらに、多層パーセプトロンネットワークは、シーケンスベクトルに基づいて、各第１のテキスト情報のクラスを出力し、正しいクラスである第１のテキスト情報を抽出待ち属性にマッチングする第２のテキスト情報として確定することができ、種々の様式の証明書手形に対するテキスト抽出を実現し、人件費を節約し、且つ抽出効率を向上させることができる。

同じ技術的構想によれば、本開示の実施例は、テキスト抽出モデルのトレーニング方法をさらに提供し、このテキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、図５に示すように、この方法は、以下を含む。

Ｓ５０１、視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得する。
ここで、サンプル画像は、上記実体文書の画像、例えば、紙文書の画像、種々の手形、証明書又はカードの画像などである。

視覚的符号化特徴は、サンプル画像におけるテキストのコンテキスト情報を表すことができる。
Ｓ５０２、検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得する。

ここで、各組のマルチモーダル特徴は、サンプル画像から抽出される１つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第１のテキスト情報とを含む。

ここで、検出枠の位置情報と検出枠における検出特徴について、上記Ｓ１０２における関連記述を参照してもよく、ここで説明を省略する。
Ｓ５０３、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴を出力サブモデルに入力し、出力サブモデルから出力される、抽出待ち属性にマッチングする第２のテキスト情報を得る。

ここで、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である。
例えば、サンプル画像は、乗車券画像であり、抽出される必要のあるテキスト情報は、この乗車券における出発駅の駅名であれば、抽出待ち属性は、出発駅名である。例えば、乗車券における出発駅の駅名が「北京」であれば、「北京」は、抽出される必要のあるテキスト情報である。

Ｓ５０４、出力サブモデルから出力される第２のテスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、テキスト抽出モデルをトレーニングする。

本開示の実施例において、サンプル画像のアノテーションは、サンプル画像における実際に抽出される必要のあるテキスト情報である。抽出待ち属性にマッチングする第２のテキスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、損失関数値を計算し、損失関数値に基づいて、テキスト抽出モデルのパラメータを調整し、テキスト抽出モデルが収束しているかどうかを判断することができる。収束していなければ、引き続き、次のサンプル画像に基づき、Ｓ５０１－Ｓ５０３を実行し、損失関数値を再計算し、損失関数値に基づき、テキスト抽出モデルが収束していると確定するまで継続し、トレーニングが完了されているテキスト抽出モデルを得る。

本開示の実施例を用いると、テキスト抽出モデルは、サンプル画像の視覚的符号化特徴と複数組のマルチモーダル特徴によって、複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、抽出待ち属性にマッチングする第２のテキスト情報を取得することができる。複数組のマルチモーダル特徴に検出待ち画像における複数の第１のテキスト情報が含まれ、そのうち、抽出待ち属性にマッチングするテキスト情報と抽出待ち属性にマッチングしていないテキスト情報があり、且つ視覚的符号化特徴が検出待ち画像におけるテキストのグローバルコンテキスト情報を表すことができるため、テキスト抽出モデルは、視覚的符号化特徴に基づき、複数組のマルチモーダル特徴から、抽出待ち属性にマッチングする第２のテキスト情報を取得することができる。このテキスト抽出モデルをトレーニングした後、後続で、このテキスト抽出モデルによって、第２のテキスト情報の抽出を直接的に行うことができ、手作業を必要とせず、且つテキスト情報抽出を要する実体文書の様式によって制限されず、情報抽出効率を向上させることができる。

本開示の別の実施例において、上記視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、図６に示すように、上記Ｓ５０１は、具体的に、以下のステップを含む。

Ｓ５０１１、サンプル画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得する。
ここで、視覚的符号化サブモデルに含まれるバックボーンネットワークは、上記実施例で記述されたバックボーンネットワークと同じであり、上記実施例におけるバックボーンネットワークに関わる関連記述を参照してもよく、ここで説明を省略する。

Ｓ５０１２、画像特徴と予め設定される位置符号化特徴を加算した後、エンコーダに入力し、符号化操作を行い、サンプル画像の視覚的符号化特徴を得る。
このステップにおけるサンプル画像の画像特徴に対する処理は、上記Ｓ１０１２における検出待ち画像の画像特徴に対する処理プロセスと同じであり、上記Ｓ１０１２における関連記述を参照してもよく、ここで説明を省略する。

この方法を用いると、視覚的符号化サブモデルのバックボーンネットワークによって、検出待ち画像の画像特徴を取得し、そしてこの画像特徴と予め設定される位置符号化特徴を加算し、テキストコンテキスト情報に対する得られる視覚的特徴の表現能力を向上させ、検出待ち画像に対する後続でエンコーダによって得られる視覚的符号化特徴の表現の正確性を向上させることができ、さらに、この視覚的符号化特徴によって、後続で抽出される第２のテキスト情報の正確性を向上させることもできる。

本開示の別の実施例において、上記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、これを基礎として、上記Ｓ５０２、検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得することは、具体的に、以下のステップとして実現してもよい。

ステップ１、サンプル画像を予め設定される検出モデルに入力し、サンプル画像の特徴マップと複数の検出枠の位置情報を得る。
ステップ２、複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得る。

ステップ３、複数の検出枠の位置情報を利用して、サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得る。
ステップ４、予め設定される認識モデルを利用して、各サンプルサブマップにおける第１のテキスト情報を認識し、各検出枠における第１のテキスト情報を得る。

ステップ５、検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第１のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得る。

上記ステップ１からステップ５におけるサンプル画像から複数組のマルチモーダル特徴を抽出する方法は、上記図３に対応する実施例に記述された検出待ち画像からマルチモーダル特徴を抽出する方法と同じであり、上記実施例における関連記述を参照してもよく、ここで説明を省略する。

この方法を用いると、トレーニングされた検出サブモデルを用いて、サンプル画像から、各検出枠の位置情報、検出特徴及び第１のテキスト情報を正確に抽出することができ、後続で、抽出される第１のテキスト情報から、抽出待ち属性にマッチングする第２のテキスト情報を抽出することを容易にする。本開示の実施例では、マルチモーダル特徴を抽出する時、テンプレートに規定される位置又はキーワード位置に依存していないため、検出待ち画像における第１のテキスト情報に歪み変形、プリントずれなどの問題があっても、検出待ち画像から、マルチモーダル特徴を正確に抽出することができる。

本開示の別の実施例において、出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、図７に示すように、Ｓ５０３は、以下のステップを含んでもよい。
Ｓ５０３１、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得る。

ここで、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、Ｓ５０３１は、以下として実現してもよい。
抽出待ち属性及び複数組のマルチモーダル特徴をセルフアテンション層に入力し、複数の融合特徴を得る。そして、複数の融合特徴と視覚的符号化特徴をコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得る。ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴である。

セルフアテンションメカニズムによって、抽出待ち属性とマルチモーダル特徴を融合することで、抽出待ち属性と複数組のマルチモーダル特徴に含まれる第１のテキスト情報との関連付けを得るとともに、Ｔｒａｎｓｆｏｒｍｅｒデコーダのアテンションメカニズムは、検出待ち画像のコンテキスト情報を表す視覚的符号化特徴を取得し、さらに、デコーダは、視覚的符号化特徴に基づき、マルチモーダル特徴と抽出待ち属性との関係を得ることができ、即ち、シーケンスベクトルは、各組のマルチモーダル特徴と抽出待ち属性との関係を反映することができ、さらに、後続の多層パーセプトロンネットワークがシーケンスベクトルに基づき、各組のマルチモーダル特徴のクラスを正確に確定することができる。

Ｓ５０３２、デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第１のテキスト情報の属するクラスを得る。

ここで、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、正しいクラスは、マルチモーダル特徴における第１のテキスト情報の属性が抽出待ち属性であることを表し、誤ったクラスは、マルチモーダル特徴における第１のテキスト情報の属性が抽出待ち属性ではないことを表す。

Ｓ５０３３、正しいクラスに属する第１のテキスト情報を抽出待ち属性にマッチングする第２のテキスト情報とする。
本開示の実施例を用いると、デコーダにおけるアテンションメカニズムによって、複数組のマルチモーダル特徴、抽出待ち属性及び視覚的符号化特徴に対して復号を行い、シーケンスベクトルを得、さらに、多層パーセプトロンネットワークは、シーケンスベクトルに基づいて、各第１のテキスト情報のクラスを出力し、正しいクラスである第１のテキスト情報を抽出待ち属性にマッチングする第２のテキスト情報として確定することができ、種々の様式の証明書手形に対するテキスト抽出を実現し、人件費を節約し、且つ抽出効率を向上させることができる。

以下、図８に示すテキスト抽出モデルを結びつけて、本開示の実施例によるテキスト抽出方法を説明し、検出待ち画像が列車乗車券であることを例として、図８に示すように、検出待ち画像から、複数組のマルチモーダル特徴ｑｕｅｒｉｅｓを抽出してもよく、マルチモーダル特徴は、検出枠の位置情報Ｂｂｏｘ（ｘ，ｙ，ｗ，ｈ）と、検出特徴（ＤｅｔｅｃｔｉｏｎＦｅａｔｕｒｅｓ）と、第１のテキスト情報（Ｔｅｘｔ）とを含む。

本開示の実施例において、元々ｋｅｙとする抽出待ち属性をｑｕｅｒｙとし、抽出待ち属性をＫｅｙＱｕｅｒｙと称してもよく、例として、抽出待ち属性は、具体的に、出発駅であってもよい。

検出待ち画像（Ｉｍａｇｅ）をバックボーンネットワーク（Ｂａｃｋｂｏｎｅ）に入力し、画像特徴を抽出し、画像特徴に対して位置埋め込み（Ｐｏｓｉｔｉｏｎｅｍｂｅｄｄｉｎｇ）を行い、一次元ベクトルに変換する。

一次元ベクトルをＴｒａｎｓｆｏｒｍｅｒエンコーダ（ＴｒａｎｓｆｏｒｍｅｒＥｎｃｏｄｅｒ）に入力して符号化し、視覚的符号化特徴を得る。
視覚的符号化特徴、マルチモーダル特徴ｑｕｅｒｉｅｓ及び抽出待ち属性（ＫｅｙＱｕｅｒｙ）をＴｒａｎｓｆｏｒｍｅｒデコーダ（ＴｒａｎｓｆｏｒｍｅｒＤｅｃｏｄｅｒ）に入力し、シーケンスベクトルを得る。

シーケンスベクトルをＭＬＰに入力し、各マルチモーダル特徴に含まれる第１のテキスト情報のクラスを得、クラスは、正しいクラス（ｒｉｇｈｔａｎｓｗｅｒ、又はＲｉｇｈｔＶａｌｕｅと称される）又は誤ったクラス（ｗｒｏｎｇａｎｓｗｅｒ、又はＷｒｏｎｇＶａｌｕｅと称される）である。

ここで、第１のテキスト情報が正しいクラスであることは、この第１のテキスト情報の属性が抽出待ち属性であり、この第１のテキスト情報が、抽出されるべきテキストであることを表し、図７における抽出待ち属性が出発駅であり、「天津西駅」というクラスが正しいクラスであり、「天津西駅」は、抽出されるべき第２のテキスト情報である。

本開示の実施例を用いると、ｋｅｙ（抽出待ち属性）をＱｕｅｒｙと定義し、Ｔｒａｎｓｆｏｒｍｅｒデコーダのセルフアテンション層に入力し、各組のマルチモーダル特徴Ｑｕｅｒｉｅｓを抽出待ち属性にそれぞれ融合し、即ち、Ｔｒａｎｓｆｏｒｍｅｒデコーダを利用して、マルチモーダル特徴と抽出待ち属性との関係を構築する。その後、さらに、Ｔｒａｎｓｆｏｒｍｅｒエンコーダのコーデックアテンション層を利用して、マルチモーダル特徴、抽出待ち属性と視覚的符号化特徴との融合を実現し、最終的に、ＭＬＰがｋｅｙｑｕｅｒｙに対応するｖａｌｕｅａｎｓｗｅｒｓを出力することができ、エンドツーエンドの構造化情報の抽出を実現する。ｋｅｙ－ｖａｌｕｅをｑｕｅｓｔｉｏｎ－ａｎｓｗｅｒと定義する方式で、テキスト抽出モデルのトレーニングは、異なる様式の証明書手形に対応でき、トレーニングで得られるテキスト抽出モデルが種々の固定様式及び非固定様式の証明書手形に対して構造化テキスト抽出を行うことができ、手形認識業務の範囲を拡大し、且つ手形の歪み変形とプリントずれなどの要因による影響に耐え、特定のテキスト情報を正確に抽出することができる。

上記方法の実施例に対応して、図９に示すように、本開示の実施例は、テキスト抽出装置をさらに提供し、前記装置は、
検出待ち画像の視覚的符号化特徴を取得するための第１の取得モジュール９０１と、
検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュール９０２であって、各組のマルチモーダル特徴は、検出待ち画像から抽出される１つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第１のテキスト情報とを含む抽出モジュール９０２と、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、抽出待ち属性にマッチングする第２のテキスト情報を取得するための第２の取得モジュール９０３であって、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第２の取得モジュール９０３とを含む。

本開示の別の実施例において、第２の取得モジュール９０３は、具体的に、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得、
デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第１のテキスト情報の属するクラスを得、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、
正しいクラスに属する第１のテキスト情報を抽出待ち属性にマッチングする第２のテキスト情報とするために用いられる。

本開示の別の実施例において、第２の取得モジュール９０３は、具体的に、
抽出待ち属性及び複数組のマルチモーダル特徴をデコーダのセルフアテンション層に入力し、複数の融合特徴を得、ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴であり、
複数の融合特徴と視覚的符号化特徴をデコーダのコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得るために用いられる。

本開示の別の実施例において、第１の取得モジュール９０１は、具体的に、
検出待ち画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得し、
画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、検出待ち画像の視覚的符号化特徴を得るために用いられる。

本開示の別の実施例において、抽出モジュール９０２は、具体的に、
検出待ち画像を予め設定される検出モデルに入力し、検出待ち画像の特徴マップと複数の検出枠の位置情報を得、
複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得、
複数の検出枠の位置情報を利用して、検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第１のテキスト情報を得、
検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの前記検出枠における第１のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得るために用いられる。

上記方法の実施例に対応して、本開示の実施例は、テキスト抽出モデルのトレーニング装置をさらに提供し、ここで、テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、図１０に示すように、この装置は、
視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第１の取得モジュール１００１と、
検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第２の取得モジュール１００２であって、各組のマルチモーダル特徴は、サンプル画像から抽出される１つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第１のテキスト情報とを含む第２の取得モジュール１００２と、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴を出力サブモデルに入力し、出力サブモデルから出力される、抽出待ち属性にマッチングする第２のテキスト情報を得るためのテキスト抽出モジュール１００３であって、抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュール１００３と、
出力サブモデルから出力される第２のテスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、テキスト抽出モデルをトレーニングするためのトレーニングモジュール１００４とを含む。

本開示の別の実施例において、出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、テキスト抽出モジュール１００３は、具体的に、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得、
デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第１のテキスト情報の属するクラスを得、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、
正しいクラスに属する第１のテキスト情報を抽出待ち属性にマッチングする第２のテキスト情報とするために用いられる。

本開示の別の実施例において、デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、テキスト抽出モジュール１００３は、具体的に、
抽出待ち属性及び複数組のマルチモーダル特徴をセルフアテンション層に入力し、複数の融合特徴を得、ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴であり、
複数の融合特徴と視覚的符号化特徴をコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得るために用いられる。

本開示の別の実施例において、視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、第１の取得モジュール１００１は、具体的に、
サンプル画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得し、
画像特徴と予め設定される位置符号化特徴を加算した後、エンコーダに入力し、符号化操作を行い、サンプル画像の視覚的符号化特徴を得るために用いられる。

本開示の別の実施例において、前記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、第２の取得モジュール１００２は、具体的に、
サンプル画像を予め設定される検出モデルに入力し、サンプル画像の特徴マップと複数の検出枠の位置情報を得、
複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得、
複数の検出枠の位置情報を利用して、サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得、
予め設定される認識モデルを利用して、各サンプルサブマップにおけるテキスト情報を認識し、各検出枠におけるテキスト情報を得、
検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第１のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得るために用いられる。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体およびコンピュータプログラム製品をさらに提供する。
図１１は本開示の実施例を実施するための例示的な電子機器１１００を示す概略ブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび／又は請求した本開示の実現を制限しない。

図１１に示すように、機器１１００は、計算ユニット１１０１を含み、それはリードオンリーメモリ（ＲＯＭ）１１０２に記憶されるコンピュータプログラムまた記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされるコンピュータプログラムによって、種々の適当な操作と処理を実行することができる。ＲＡＭ１１０３において、さらに機器１１００の動作に必要な種々のプログラムとデータを記憶することができる。計算ユニット１１０１、ＲＯＭ１１０２及びＲＡＭ１１０３はバス１１０４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース１１０５もバス１１０４に接続される。

機器１１００における複数の部品はＩ／Ｏインターフェース１１０５に接続され、例えばキーボード、マウスなどの入力ユニット１１０６、例えば様々なタイプのディスプレイ、スピーカーなどの出力ユニット１１０７、例えば磁気ディスク、光ディスクなどの記憶ユニット１１０８、および例えばネットワークカード、変調復調器、無線通信送受信機などの通信ユニット１１０９を含む。通信ユニット１１０９は、機器１１００が例えばインターネットなどのコンピュータネットワークおよび／又は様々な電気通信ネットワークを介して他の装置と情報／データを交換することを可能にする。

計算ユニット１１０１は処理およびコンピューティング能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット１１０１の例には、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラ、マイクロコントローラなどが含まれるがこれらに限定されないことである。計算ユニット１１０１は、例えばテキスト抽出方法又はテキスト抽出モデルのトレーニング方法などの以上に記載の各方法および処理を実行する。例えば、いくつかの実施例において、テキスト抽出方法又はテキスト抽出モデルのトレーニング方法はコンピュータソフトウェアプログラムとして実現してよく、機械可読媒体、例えば、記憶ユニット１１０８に有形に含まれる。いくつかの実施例において、コンピュータプログラムの部分又は全てはＲＯＭ１１０２および／又は通信ユニット１１０９を経由して機器１１００にロードおよび／又はインストールされてよい。コンピュータプログラムがＲＡＭ１１０３にロードされて計算ユニット１１０１によって実行される場合、以上で説明されるテキスト抽出方法又はテキスト抽出モデルのトレーニング方法の１つまたは複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット１１０１は他のいかなる適切な方式で（例えば、ファームウェアにより）テキスト抽出方法又はテキスト抽出モデルのトレーニング方法を実行するように構成されてよい。

本明細書で上述したシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑なプログラマブル論理デバイス（ＣＰＬＤ）、コンピューターハードウェア、ファームウェア、ソフトウェア、および／またはこれらの組み合わせにおいて実装することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実施され、この１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行しおよび／又は解釈してもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、少なくとも１つの出力装置からデータと命令を受信し、データと命令をこの記憶システム、この少なくとも１つの入力装置、この少なくとも１つの出力装置に送信してよいこと、を含んでもよい。

本願の方法を実施するプログラムコードは１つ又は複数のプログラミング言語のいかなる組み合わせで書かれてよい。これらのプログラムコードを汎用コンピュータ、特殊目的のコンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供してよく、よってプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャートおよび／又はブロック図に規定の機能／操作を実施する。プログラムコードは完全に機械で実行してよく、部分的に機械で実行してよく、独立ソフトウェアパッケージとして部分的に機械で実行し且つ部分的に遠隔機械で実行してよく、又は完全に遠隔機械又はサーバで実行してよい。

本開示の文脈において、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又はデバイスに使用される又は命令実行システム、装置又はデバイスに結合されて使用されるプログラムを具備又は記憶してよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記内容のいかなる適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のリード線による電気接続、ポータブルコンピュータディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容のいかなる適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにはここで説明したシステムと技術を実施してよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）監視モニタ）、およびキーボードとポインティング装置（例えば、マウスやトラックボール）を備え、ユーザはこのキーボードとこのポインティング装置を介してコンピュータに入力してよい。その他の種類の装置は更に、ユーザとのインタラクティブを提供するためのものであってもよい。例えば、ユーザに提供するフィードバックはいかなる形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形態（音入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信してよい。

ここで述べたシステムや技術は、バックステージ部材を含む計算システム（例えば、データサーバとして）や、ミドルウェア部材を含む計算システム（例えば、アプリケーションサーバ）や、フロントエンド部材を含む計算システム（例えば、グラフィカルユーザインターフェースやウェブブラウザを有するユーザコンピュータ、ユーザが、そのグラフィカルユーザインターフェースやウェブブラウザを通じて、それらのシステムや技術の実施形態とのインタラクティブを実現できる）、あるいは、それらのバックステージ部材、ミドルウェア部材、あるいはフロントエンド部材の任意の組み合わせからなる計算システムには実施されてもよい。システムの部材は、任意の形式や媒体のデジタルデータ通信（例えば、通信ネットワーク）により相互に接続されてもよい。通信ネットワークの一例は、ローカルネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）とインターネットを含む。

コンピュータシステムは、クライアント側とサーバを含んでもよい。クライアント側とサーバは、一般的に相互に遠く離れ、通常、通信ネットワークを介してインタラクションを行う。互にクライアント側－サーバという関係を有するコンピュータプログラムを対応するコンピュータで運転することによってクライアント側とサーバの関係を生成する。サーバーは、クラウドサーバであってもよく、分散型システムのサーバでも、またはブロックチェーンと組み合わされサーバであってもよい。

理解すべきこととして、前述した様々な形態のフローを用いて、ステップを改めて順位付け、増加又は削除してよいことである。例えば、本開示に記載された各ことは、並列的に実行してもよいし、順次実行してもよいし、異なる順序で実行させてもよいし、本開示に開示された技術案が所望する結果を実現できれば、本文はこれに限定されないことである。

上述した実施形態は、本開示特許請求の範囲を限定するものではない。当業者が理解すべきこととして、設計要求と他の要因に基づいて、様々な修正、組み合わせ、一部の組み合わせと代替を行うことができることである。本開示における精神および原則から逸脱することなく行われるいかなる修正、同等物による置換や改良等は、いずれも本開示の保護範囲に含まれるものである。

Claims

テキスト抽出方法であって、
検出待ち画像の視覚的符号化特徴を取得することと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出することであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される１つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第１のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモード特徴に含まれる第１のテキスト情報から、前記抽出待ち属性にマッチングする第２のテキスト情報を取得することであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることとを含む、テキスト抽出方法。
前述した、前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、前記抽出待ち属性にマッチングする第２のテキスト情報を取得することは、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることと、
前記デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第１のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
正しいクラスに属する第１のテキスト情報を前記抽出待ち属性にマッチングする第２のテキスト情報とすることとを含む、請求項１に記載の方法。
前述した、前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることは、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダのセルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
前記複数の融合特徴と前記視覚的符号化特徴を前記デコーダのコーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることとを含む、請求項２に記載の方法。
前述した、検出待ち画像の視覚的符号化特徴を取得することは、
前記検出待ち画像をバックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得することと、
前記画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、前記検出待ち画像の視覚的符号化特徴を得ることとを含む、請求項１～３のいずれか１項に記載の方法。
前述した、前記検出待ち画像から複数組のマルチモーダル特徴を抽出することは、
前記検出待ち画像を予め設定される検出モデルに入力し、前記検出待ち画像の特徴マップと複数の検出枠の位置情報を得ることと、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ることと、
前記複数の検出枠の位置情報を利用して、前記検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得ることと、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第１のテキスト情報を得ることと、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第１のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることとを含む、請求項１～３のいずれか１項に記載の方法。
テキスト抽出モデルのトレーニング方法であって、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記方法は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される１つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第１のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第２のテキスト情報を得ることであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと、
前記出力サブモデルから出力される第２のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングすることとを含む、テキスト抽出モデルのトレーニング方法。
前記出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、前述した、前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第２のテキスト情報を得ることは、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることと、
前記デコーダから出力されるシーケンスベクトルを前記多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第１のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
正しいクラスに属する第１のテキスト情報を前記抽出待ち属性にマッチングする第２のテキスト情報とすることとを含む、請求項６に記載の方法。
前記デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、前述した、前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることは、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記セルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
前記複数の融合特徴と前記視覚的符号化特徴を前記コーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることとを含む、請求項７に記載の方法。
前記視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、前述した、前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することは、
前記サンプル画像を前記バックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得することと、
前記画像特徴と予め設定される位置符号化特徴を加算した後、前記エンコーダに入力し、符号化操作を行い、前記サンプル画像の視覚的符号化特徴を得ることとを含む、請求項６～８のいずれか１項に記載の方法。
前記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、前述した、前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することは、
前記サンプル画像を前記予め設定される検出モデルに入力し、前記サンプル画像の特徴マップと複数の検出枠の位置情報を得ることと、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ることと、
前記複数の検出枠の位置情報を利用して、前記サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得ることと、
前記予め設定される認識モデルを利用して、各サンプルサブマップにおけるテキスト情報を認識し、各検出枠における第１のテキスト情報を得ることと、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第１のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることとを含む、請求項６～８のいずれか１項に記載の方法。
テキスト抽出装置であって、
検出待ち画像の視覚的符号化特徴を取得するための第１の取得モジュールと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュールであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される１つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第１のテキスト情報とを含む抽出モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第１のテキスト情報から、前記抽出待ち属性にマッチングする第２のテキスト情報を取得するための第２の取得モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第２の取得モジュールとを含む、テキスト抽出装置。
前記第２の取得モジュールは、具体的に、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ること、
前記デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第１のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むこと、
正しいクラスに属する第１のテキスト情報を前記抽出待ち属性にマッチングする第２のテキスト情報とすることのために用いられる、請求項１１に記載の装置。
前記第２の取得モジュールは、具体的に、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダのセルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であること、
前記複数の融合特徴と前記視覚的符号化特徴を前記デコーダのコーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることのために用いられる、請求項１２に記載の装置。
前記第１の取得モジュールは、具体的に、
前記検出待ち画像をバックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得すること、
前記画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、前記検出待ち画像の視覚的符号化特徴を得ることのために用いられる、請求項１１～１３のいずれか１項に記載の装置。
前記抽出モジュールは、具体的に、
前記検出待ち画像を予め設定される検出モデルに入力し、前記検出待ち画像の特徴マップと複数の検出枠の位置情報を得ること、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ること、
前記複数の検出枠の位置情報を利用して、前記検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得ること、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第１のテキスト情報を得ること、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第１のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることのために用いられる、請求項１１～１３のいずれか１項に記載の装置。
テキスト抽出モデルのトレーニング装置であって、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記装置は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第１の取得モジュールと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第２の取得モジュールであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される１つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第１のテキスト情報とを含む第２の取得モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第２のテキスト情報を得るためのテキスト抽出モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュールと、
前記出力サブモデルから出力される第２のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングするためのトレーニングモジュールとを含む、テキスト抽出モデルのトレーニング装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに請求項１～３又は６～８のいずれか１項に記載の方法を実行させる、電子機器。
コンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～３又は６～８のいずれか１項に記載の方法を実行させるために用いられる、非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～３又は６～８のいずれか１項に記載の方法を実現するコンピュータプログラムを含む、コンピュータプログラム製品。