JP2022504404A

JP2022504404A - テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体

Info

Publication number: JP2022504404A
Application number: JP2021518910A
Authority: JP
Inventors: シアオユーユエ; ジャンフイクアン; ホンビンスン; シアオモンソン; ウェイジャン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-10-15
Publication date: 2022-01-13
Anticipated expiration: 2039-10-15
Also published as: SG11202105174XA; TW202113660A; US20210232847A1; JP7123255B2; CN110659640B; WO2021056621A1; TWI732338B; KR20210054563A; CN110659640A

Abstract

本願は、テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体に関する。ここで、該方法は、テキストシーケンスを含む処理されるべき画像を取得することと、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得ることと、を含む。

Description

（関連出願の相互参照）
本願は、２０１９年０９月２７日に中国特許局に提出された、出願番号が２０１９１０９２７３３８．４であり、出願名称が「テキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、データ処理技術分野に関し、特にテキストシーケンス認識方法及びその装置、電子機器並びに記憶媒体に関する。

テキストシーケンス認識シーンにおいて、不規則な文字の認識は、視覚的理解、自動運転などの分野で重要な役割を果たしている。不規則な文字は、交通標識、店頭の看板などの自然のシーンに多数存在する。視角の変動、光照射の変動などの要因により、規則的な文字の認識の難度に比べて、不規則な文字の認識の難度はより高い。それにする認識性能を補完する必要がある。

本願は、テキストシーケンス認識の技術的解決手段を提供する。

本願の一態様によれば、テキストシーケンス認識方法を提供する。前記テキストシーケンス認識方法は、
テキストシーケンスを含む処理されるべき画像を取得することと、
認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得ることと、を含む。

本願によれば、テキストシーケンスを含む処理されるべき画像を取得する。認識ネットワークに基づいて、テキストシーケンスを認識することで、該テキストシーケンスを構成する複数の単一文字を得ることができ、文字間のセマンティック関係に依存しない。従って、複数の単一文字に対して文字並行処理を行い、認識結果を得ることで、認識精度を向上させ、また、並行処理により、処理効率を向上させることができる。

可能な実現形態において、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得ることは、
前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することを含む。

本願によれば、二分木処理に基づいて、複数の単一文字に対して並行した符号化及びデコードを行うという役割を果たし、単一文字の認識精度を大幅に向上させることができる。

可能な実現形態において、前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することは、
前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、
前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識することと、を含む。

本願によれば、二分木に基づく符号化過程において、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行うことで、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることができる。つまり、１つのテキストシーケンスを符号化により二分木のノード特徴に変換する。これにより、後続で該二分木に基づいて符号化処理を行うことに寄与する。

可能な実現形態において、テキストシーケンスを含む処理されるべき画像を取得した後、前記テキストシーケンス認識方法は、
前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得ることを更に含む。

本願によれば、前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得ることができる。画像特徴に基づいて処理を行う、ため、後続で、直接的にセマンティック抽出を行うことなく、セマンティック分析を行う。セマンティック抽出に比べて、セマンティック分析の結果はより正確である。従って、認識精度を向上させる。

可能な実現形態において、前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得ることは、
前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力することと、
前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得ることと、を含む。

本願によれば、認識ネットワークにおける特徴抽出モジュールにより特徴抽出を行うことができる。ネットワークは、パラメータが適応的に調整されたものであるため、特徴抽出により得られた特徴マップは、より正確である。従って、認識精度を向上させる。

可能な実現形態において、前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力することと、
前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得ることと、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含む。

本願によれば、二分木に基づく符号化過程において、認識ネットワークにおけるシーケンス分割アテンションモジュールにより符号化を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることができる。つまり、１つのテキストシーケンスをシーケンス分割アテンションモジュールにおける二分木に基づく符号化により、二分木のノード特徴に変換し、後続で、該二分木に基づいてデコード処理を行う。ネットワークは、パラメータが適応的に調整されたものであるため、シーケンス分割アテンションモジュールにより得られた符号化結果は、より正確である。従って、認識精度を向上させる。

可能な実現形態において、前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行うことは、
前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うことを含む。

本願によれば、シーケンス分割アテンションモジュールにおける二分木により符号化を行う過程において、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行い、文本分割に用いられる複数のターゲットチャネル群を得ることができる。

可能な実現形態において、前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得ることと、
前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得ることと、
前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含む。

本願によれば、シーケンス分割アテンションモジュールにおける二分木により符号化を行う過程において、前記複数のターゲットチャネル群に基づいて、テキスト分割を行い、複数のアテンション特徴マップを得、複数のアテンション特徴マップと特徴マップに対する畳み込み処理で得られた畳み込み結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることができる。これにより、後続で、該二分木に基づいてデコード処理を行う。

可能な実現形態において、前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識することは、
前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得ることと、
前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することと、を含む。

本願によれば、二分木に基づくデコード過程において、分類モジュールを用いて分類処理を行うことができる。分類処理により、二分木及びこの前の符号化により得られた二分木ノード特徴を認識ネットワークにおける分類モジュールに入力してノード分類を行い、分類結果を得、前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することができる。二分木に基づくデコード処理も並行して行われ、また、ネットワークは、パラメータが適応的に調整されたものであるため、分類モジュールにより得られたデコード結果はより正確である。従って、認識精度を向上させる。

可能な実現形態において、前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することは、
前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識することを含む。

本願によれば、二分木に基づくデコード過程において、分類モジュールを用いて分類処理を行うことができる。分類処理で得られた分類結果が単一文字に対応する特徴である場合、単一文字に対応する特徴のテキストセマンティックを判定することで、単一文字特徴に対応するセマンティックカテゴリを認識することができる。直接的にセマンティック抽出を行うことなく、分析によりセマンティックカテゴリを得るため、認識精度を向上させる。

本願の一態様によれば、テキストシーケンス認識装置を提供する。前記テキストシーケンス認識装置は、
テキストシーケンスを含む処理されるべき画像を取得するように構成される取得ユニットと、
認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得るように構成される認識ユニットと、を備える。

可能な実現形態において、前記認識ユニットは、
前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識するように構成される。

可能な実現形態において、前記認識ユニットは、
前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得、
前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成される。

可能な実現形態において、前記認識ユニットは、
前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得るように構成される。

可能な実現形態において、前記認識ユニットは、
前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力し、
前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得るように構成される。

可能な実現形態において、前記認識ユニットは、
前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力し、
前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成される。

可能な実現形態において、前記認識ユニットは、
前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うように構成される。

可能な実現形態において、前記認識ユニットは、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得、
前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得、
前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成される。

可能な実現形態において、前記認識ユニットは、
前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得、
前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成される。

可能な実現形態において、前記認識ユニットは、
前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識するように構成される。

本願の一態様によれば、電子機器を提供する。前記電子機器は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、上記テキストシーケンス認識方法を実行するように構成される。

本願の一態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されるときに、プロセッサに上記テキストシーケンス認識方法を実現させる。

本願の一態様によれば、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器におけるプロセッサに、上記テキストシーケンス認識方法を実行させる。

本願の実施例において、テキストシーケンスを含む処理されるべき画像を取得し、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得る。本願によれば、テキストシーケンスを含む処理されるべき画像を取得する。認識ネットワークに基づいて、テキストシーケンスを認識することで、該テキストシーケンスを構成する複数の単一文字を得ることができ、文字間のセマンティック関係に依存しない。従って、複数の単一文字に対して文字並行処理を行い、認識結果を得ることで、認識精度を向上させ、また、並行処理により、処理効率を向上させることができる。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。

本願の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
本願の実施例によるテキストシーケンス認識方法を示すフローチャートである。本願の実施例によるテキストシーケンス認識方法を示すフローチャートである。本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークを示す概略図である。本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークにおけるシーケンス分割アテンションモジュールを示す概略図である。本願の実施例による処理装置を示すブロック図である。本願の実施例による電子機器を示すブロック図である。本願の実施例による電子機器を示すブロック図である。

以下、図面を参照しながら本願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。

ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。

本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

なお、本願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。

テキストシーケンス認識シーンにおいて、規則的な文字を認識できるだけでなく、不規則な文字も認識できる。不規則な文字の認識を例として、例えば店舗の店舗名または標識が不規則な文字であり、交通標識が不規則な文字であり、不規則な文字の認識は、視覚的理解、自動運転などの分野で重要な役割を果たしている。

規則的な文字の認識について、例えば、文書解析などのタスクは、関連技術において、良好に解決された。しかしながら、規則的な文字の認識と異なっており、不規則な文字の認識について、不規則な文字は、交通標識、店頭の看板などの自然のシーンに多数存在する。視角の変動、光照射の変動などの要因により、規則的な文字の認識の難度に比べて、不規則な文字の認識の難度はより高い。従って、規則的な文字の認識技術は、不規則な文字の認識の適用需要を満たすことができない。

不規則な文字の認識技術は、符号化－デコードフレームワークを用いることができる。ここで、符号化器及びデコード器部分は、再帰型ニューラルネットワークを用いることができる。再帰型ニューラルネットワークは、シリアル処理ネットワークである。その本質は、各ステップで一回の入力を行い、１つの出力結果を対応的に得ることである。規則的な文字であるかそれとも不規則な文字であるかに関わらず、再帰型ニューラルネットワークを用いる符号化及びデコードにおいて、文字を１つずつ符号化、デコードして出力しなければならない。

再帰型ニューラルネットワークを規則的な文字の認識に適用する場合、１つの畳み込みニューラルネットワークを用いて入力画像に対してダウンサンプリングを行い、最終的に、高さが１画素であって幅がｗ画素である特徴マップを得る。続いて、長短期記憶（ＬＳＴＭ：ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ）などの再帰型ニューラルネットワークを用いて、左から右へ、テキストシーケンスにおける文字に対して符号化を行い、特徴ベクトルを得る。続いて、コネクショニスト時間的分類器（ＣＴＣ：ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ）アルゴリズムを用いてデコード操作を行い、最終的な文字出力を得る。

再帰型ニューラルネットワークを不規則な文字の認識に適用する場合、左から右へ、テキストシーケンスにおける文字に対して符号化を行うことができる。画像特徴をより良好に抽出するために、アテンションモジュールと再帰型ニューラルネットワークの組み合わせにより、画像特徴を抽出することができる。該ネットワークは、畳み込みニューラルネットワークであってもよい。畳み込みニューラルネットワーク構造の利用方法は、上記規則的な文字の認識における利用方法とほぼ同じであるが、ダウンサンプリングの倍率が制御されるため、最終的な特徴マップの高さは、１ではなく、ｈとなる。その後、最大プーリング層を用いて特徴マップの高さを１にする。続いて、依然として再帰型ニューラルネットワークを用いて符号化を行い、再帰型ニューラルネットワークの最後の出力を符号化結果とする。デコード器は、もう１つの再帰型ニューラルネットワークに置き換えられる。１回目の再帰型入力は、符号器の出力である。その後、各回の再帰型出力は、アテンションモジュールに入力されて該特徴マップに対して重み付けを行い、各ステップの文字出力を得る。各ステップの文字出力は、１つの文字に対応し、また、最終回の出力は、終了文字である。

要するに、規則的な文字であるかそれとも不規則な文字であるかに関わらず、いずれも再帰型ニューラルネットワークを符号化器又はデコード器として用いる。文字認識は、本質的にシーケンス化したタスクである。再帰型ニューラルネットワークを用いて符号化又はデコードを行うと、該再帰型ニューラルネットワークがシリアル処理のみを実行できるという特性を有するため、その各回の再帰型出力は、この前の出力に依存することが多く、累積誤差を招きやすくて、文字認識の精度が低くなり、また、シリアル処理は、文字認識の処理効率を大きく制限する。上記から分かるように、再帰型ニューラルネットワークのシリアル処理特性は、シーケンス化した文字認識タスクに適用できない。特に、不規則な文字の認識について、画像特徴の符号化に依存せず、デコード器によるコンテキストセマンティックの符号化に大きく依存する。これは、例えば車両ナンバーの認識などのような、重複文字を有するか又は文字が意味を持たないシーンにおいて、認識精度の低下を招く。

本願の認識ネットワーク（アテンションメカニズムに基づく畳み込みニューラルネットワークであってもよい）を用いて前記処理されるべき画像におけるテキストシーケンスに対して認識を行い、前記テキストシーケンスを構成する複数の単一文字を得る。認識ネットワークに基づいて、前記複数の単一文字に対して文字並行処理を行い、認識結果（例えば、複数の単一文字で構成される上記テキストシーケンスを含む）を得る。従って、該認識ネットワーク及び並行処理により、テキストシーケンス認識タスクの認識精度及び認識効率を向上させる。ここで、認識ネットワークにより認識を行う過程は、二分木に基づいて符号化を行い、テキストシーケンスにおけるテキストセグメントの二分木ノード特徴を得ることと、二分木に基づいてデコードを行う場合、二分木ノード特徴に基づいて単一文字の認識を行うことと、を含んでもよい。二分木に基づく符号化及びデコードも並行処理メカニズムであるため、テキストシーケンス認識タスクの認識精度及び認識効率を更に向上させることができる。

本願は、二分木に基づく並行処理により、シリアル処理タスクを分解し、１つ又は複数の二分木に割り当てて同時に処理を行うことができることに留意されたい。二分木は、ツリー状に接続されたデータ構造である。本願は、二分木に基づく符号化及びデコードに限定されず、三分木などのツリー型ネットワーク構造及び他の非ツリー型ネットワーク構造であってもよい。並行した符号化及びデコードを実現できるネットワーク構造は、いずれも本願の保護範囲内に含まれる。

図１は、本願の実施例によるテキストシーケンス認識方法を示すフローチャートである。該方法は、テキストシーケンス認識装置に適用される。例えば、該装置は、端末装置、サーバ又は他の処理機器に配置されて実行される場合、画像分類、画像検出及びビデオ処理等を実行することができる。ここで、端末装置は、ユーザ装置（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、携帯機器、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。幾つかの可能な実現形態において、該処理方法は、ロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出すことで実現することができる。図１に示すように、該プロセスは以下を含む。

ステップＳ１０１において、テキストシーケンスを含む処理されるべき画像を取得する。

一例において、ターゲット対象（例えば、店舗名）に対して画像収集を行い、テキストシーケンス（例えば、不規則なテキストシーケンス）を含む処理されるべき画像を得る。勿論、外部機器から伝送された処理されるべき画像を受信することもできる。不規則なテキストシーケンスは、店舗の店舗名又は標識であってもよく、各タイプの交通標識などであってもよい。文字シーケンスが規則的なものであるかどうかを文字行の形状により判定することができる。例えば、単一行が水平であると、規則的である。スターバックスの標識のような湾曲した文字行は、不規則である。

ステップＳ１０２において、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得る。

一例において、前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することができる。認識ネットワークは、アテンションメカニズムに基づく畳み込みニューラルネットワークであってもよく、本願は、該具体的なネットワーク構造を限定しない。二分木が設定されており、該二分木に基づいて複数の単一文字を認識できるニューラルネットワークは、いずれも本願の保護範囲内に含まれる。

一例において、前記認識ネットワークに基づいて前記複数の単一文字に対して文字並行処理を行い、複数の単一文字で構成されるテキストシーケンスを得る。該テキストシーケンスは、該認識結果である。本願の認識ネットワークに設定された二分木により、下記のような符号化及びデコードを行うことで、テキストシーケンスをテキストセグメントに分割し、該テキストセグメントにおける複数の単一文字を認識することができる。複数の単一文字を認識した後、引き続き、該認識ネットワークを適用して文字並行処理を行う。認識ネットワークは、本質的には、人工ニューラルネットワークに基づくニューラルネットワークモデルであり、ニューラルネットワークモデルの特性の１つは、並行分布処理を実現できるため、複数の単一文字をニューラルネットワークモデルに基づいて並行処理し、複数の単一文字で構成されるテキストシーケンスを得ることができる。

該認識プロセスは、以下を含んでもよい。１）において、二分木に基づいて符号化を行い、テキストシーケンスにおけるテキストセグメントの二分木ノード特徴を得る。２）において、二分木に基づいてデコードを行う場合、二分木ノード特徴に基づいて単一文字の認識を行う。例えば、特徴抽出モジュールにより特徴マップを得、続いて、該特徴マップをアテンションメカニズムに基づくシーケンス分割アテンションモジュールに入力して符号化を行い、二分分割ツリーに対応するノードの特徴を得る。つまり、上記テキストセグメントの二分木ノード特徴を得る。続いて、テキストセグメントの二分木ノード特徴を分類モジュールに出力してデコードを行う。デコード過程において、二回の分類を行い、テキストセグメントにおける単一文字の意味を認識により得ることができる。

関連技術において、再帰型ニューラルネットワークを用いてシリアル処理を行う。例えば、不規則な文字に対して、左から右へ、文字符号化を行う。符号化は、文字間のセマンティック関係に依存する。本願により、テキストシーケンスを含む処理されるべき画像を取得した後、認識ネットワーク（例えば、アテンションメカニズムに基づく畳み込みニューラルネットワーク）により、該テキストシーケンスを構成する複数の単一文字を得、複数の単一文字に対して文字並行処理を行い、認識結果を得ることができる。文字間のセマンティック関係に依存する必要がなく、複数の単一文字を得た後に、並行処理を行うため、文字認識タスクの認識精度及び認識効率を向上させる。

図２は、本願の実施例によるテキストシーケンス認識方法を示すフローチャートである。図２に示すように、該プロセスは以下を含む。

ステップＳ２０１において、ターゲット対象に対して画像収集を行い、テキストシーケンスを含む処理されるべき画像を得る。

収集プロセッサ（例えばカメラ）を備える収集装置により、ターゲット画像に対して画像収集を行い、不規則なテキストシーケンスのようなテキストシーケンスを含む処理されるべき画像を得ることができる。

ステップＳ２０２において、前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得る。

一例において、前記認識ネットワーク（例えば、アテンションメカニズムに基づく畳み込みニューラルネットワーク）により、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出することで、画像畳み込み特徴マップを得ることができる。関連技術において、再帰型ニューラルネットワークを用いると、シリアル処理のみを実行できる。例えば、不規則な文字に対して、左から右へ、文字に対して符号化を行う。このような方式で、画像特徴を良好に抽出できず、また、一般的にコンテキストセマンティックが抽出される。本願の認識ネットワークにより抽出されたものは、画像畳み込み特徴マップであり、コンテキストセマンティックに比べて、より多くの特徴情報を含み、後続の認識処理に寄与する。

一例において、該アテンションメカニズムに基づく畳み込みニューラルネットワークにおいて、そのアテンションメカニズムは、シーケンス分割アテンションルールであってもよい。

ここで、アテンションメカニズムは、自然言語処理、画像認識及び音声認識などの少なくとも１つのタイプが異なる深層学習タスクに広く適用されている。その目的は、多数の情報から、現在のタスクターゲットに対してより肝心な情報を選択することであり、大量の情報から、価値の高い情報の選別の正確度及び処理効率を向上させる。一般的には、人間のアテンションメカニズムと類似する。例えば、人間は、テキストを高速走査することで、注目されるべき領域である注視点を得る。その後、該領域に対して、より多くのアテンションリソースを投入し、より多くの注目されるべき対象の細部情報を取得し、他の無用な情報を抑え、価値が高い情報を選別するという目的を達成する。

ここで、前記シーケンス分割アテンションルールは、前記テキストシーケンスにおける単一文字の位置を表すために用いられる。該ルールは、前記テキストシーケンスにおける単一文字の位置を表すことができ、また、二分木により符号化を行う目的は、文字間のセマンティックに依存することなく、テキストシーケンスをテキストセグメントに分割し、テキストセグメントにおける複数の単一文字を更に認識し、二分木に基づく符号化及び後続のデコードに対応するように、該符号化により、テキストセグメントをテキストシーケンスにおけるテキストセグメントの二分木ノード特徴で記述することであるため、該ルールに従い、二分木の幅を優先してトラバースする。従って、符号化が文字間のセマンティックに依存することなく、並行符号化を実現させ、認識精度及び処理効率を向上させる。つまり、テキストシーケンス又は音声信号シーケンスなどを本願の認識ネットワークに入力し、シーケンス分割アテンションルール及び二分木により、これらのシーケンスを中間層の記述（例えば、テキストセグメントの二分木ノード特徴で記述する）に変換し、続いて、該中間層の記述で提供された情報に基づいて最終的な認識結果を得る。

幅の優先トラバースについて言えば、ルートノードから二分木の幅に沿って探索し、ツリーの少なくとも１つのノードを深くトラバースし、該二分木の少なくとも１つの分岐を探索する。例えば、二分木の１つのノード（ルートノードであってもよく、リーフノードであってもよい）から、該ノードに接続される他のノードを検査し、該少なくとも１つのアクセス分岐を得る。

ネットワーク構造について言えば、該アテンションメカニズムに基づく畳み込みニューラルネットワークは少なくとも、特徴マップを抽出するための特徴抽出モジュール（グラフ畳み込みニューラルネットワークにより実現可能である）と、二分木により実現されるシーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールと、を備える。前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力して特徴抽出を行い、特徴マップを得ることができる。前記特徴抽出モジュールは、前記認識ネットワークのフロントエンド部の基幹（Ｂａｃｋｂｏｎｅ）モジュールである。前記特徴マップを、前記二分木を含むシーケンス分割アテンションモジュールに入力し、該シーケンス分割アテンションモジュールにより、入力された特徴マップに対して符号化処理を行い、二分分割ツリーの各ノードに対応する特徴を生成する。つまり、テキストシーケンスにおけるテキストセグメントの二分木ノード特徴を生成する。前記シーケンス分割アテンションモジュールは、該シーケンス分割アテンションルールに基づく畳み込みニューラルネットワークの文字位置判別モジュールである。前記シーケンス分割アテンションモジュールは、分類モジュールに接続されてもよい。これにより、テキストシーケンスにおけるテキストセグメントの二分木ノード特徴を該分類モジュールに入力してデコード処理を行う。

図３は、本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークを示す概略図である。該畳み込みニューラルネットワークは、特徴抽出モジュール１１と、シーケンス分割アテンションモジュール１２と、分類モジュール１３と、を備える。シーケンス分割アテンションモジュール１２に、所定の二分木（二分分割ツリー又は二分選択ツリーと呼ばれてもよい）が含まれる。特徴抽出モジュール１１により、入力された画像に基づいて、対応する特徴マップ（例えば画像畳み込み特徴マップ）を生成することができる。シーケンス分割アテンションモジュール１２により、特徴抽出モジュールから出力された特徴マップを入力として、シーケンス分割アテンションモジュールに含まれる二分木に基づいて符号化を行い、テキストシーケンスにおける異なる位置での文字セグメントに対して特徴抽出を行い、各二分木ノードに対応する特徴を生成する。例えば、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を生成する。分類モジュール１３により、シーケンス分割アテンションモジュールの出力結果１２１を分類し、最終的な認識結果を得ることができる。つまり、分類処理を行った後に、テキストセグメントで構成される該テキストシーケンスを認識により得て認識結果とする。ここで、特徴抽出モジュールは、畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）又はグラフ畳み込みネットワーク（ＧＣＮ：ｇｒａｐｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ）であってもよい。シーケンス分割アテンションモジュールは、シーケンス分割アテンションネットワーク（ＳＰＡ２Ｎｅｔ，ｓｅｑｕｅｎｃｅｐａｒｔｉｔｉｏｎ－ａｗａｒｅａｔｔｅｎｔｉｏｎｎｅｔｗｏｒｋ）であってもよい。

ここで、シーケンス分割アテンションモジュールに設定された二分木により符号化を行う過程において、二分木の各ノードはいずれも、次元が画像畳み込み特徴マップのチャネル数の次元と同じであるベクトルであるため、二分木により画像畳み込み特徴マップの各チャネルに対して選択を行う時、選択されたチャネル群から、現在注目されている文字シーケンス部のアテンション位置を得ることができる。ここで、選択されたチャネルに対応する二分木のノードチャネル値は、１であり、その他は０である。例えば、「連続した一部の１」で１組のチャネルを表すことができる。二分木の各ノードはいずれも１つのベクトルであり、１及び０で、二分木ノード特徴を表すことができる。例えば、図４ａ～図４ｄに示すように、ノード特徴に基づく符号化により、現在注目されている文字シーケンス部のアテンション位置を記述する。また、画像畳み込み特徴マップに基づいてアテンション行列を得た後に、前記各チャネルの選択処理を行うこともできる。前記各チャネルの選択処理を行った後、得られた異なるアテンション特徴マップと前記画像畳み込み特徴マップに対して重み付けを行い、得られた加重和に基づいて、ニューラルネットワークの全結合層（ＦｕｌｌＣｏｎｎｅｃｔｅｄｌａｙｅｒ：ＦＣ層）（例えば図３におけるＦＣ層）に基づく２回の分類を行うことができる。ここで、１回目の分類により、該文字シーケンス位置で１つのみの文字が含まれるかどうかを判定することができる。１つ以上の文字が含まれると、テキストセグメントに対する、次回の二分木に基づくテキスト分割符号化処理を行う。１つのみの文字が含まれると、２回目の分類を行い、２回目の分類に基づいて、単一文字のカテゴリを分類し、そのセマンティック特徴を知り、セマンティック特徴に基づいて単一文字の意味を認識する。

シーケンス分割アテンションモジュールに設定された二分木の各ノードはいずれも並行して演算を行うことができ、また、各文字の予測は、その前後の文字の予測に依存しないため、二分木のリーフノードにより符号化を行い、複数の単一文字を得た後、シーケンス分割アテンションモジュールが基づく上記シーケンス分割アテンションルールに従い、二分木の幅を優先してトラバースし、少なくとも１つの文字出力を得ることができる。従って、文字間のセマンティックに依存することなく、並行符号化を実現させ、認識精度及び処理効率を向上させる。図４ａ－図４ｄは、本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークに含まれる二分木を示す概略図である。図４ａ－図４ｄで用いられる符号化フォーマットは、それぞれ、異なる二分木に基づいて、長さが異なる文字列に対して符号化を行う。図４ａに示す二分木によりテキストセグメントに対して符号化を行う場合、該テキストセグメントに単一文字「ａ」が含まれる。図４ｂに示す二分木によりテキストセグメントに対して符号化を行う場合、該テキストセグメントは、「ａｂ」であり、複数の単一文字「ａ」及び「ｂ」を含む。図４ｃに示す二分木によりテキストセグメントに対して符号化を行う場合、該テキストセグメントは、「ａｂｃ」であり、複数の単一文字「ａ」、「ｂ」及び「ｃ」を含む。図４ｄに示す二分木によりテキストセグメントに対して符号化を行う場合、該テキストセグメントは、「ａｂｃｄ」であり、複数の単一文字ａ」、「ｂ」、「ｃ」及び「ｄ」を含む。少なくとも１つの二分木において各ノードについて並行演算を行う。具体的に適用する場合、上記のように幅優先トラバースを追加し、少なくとも１つのアクセス分岐を得ることができる。

ステップＳ２０３において、認識ネットワークに設定された二分木に基づいて、処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得る。

一例において、認識ネットワークに設定された二分木に基づいて、処理されるべき画像におけるテキストシーケンスに対して、テキストシーケンスのテキスト分割のための符号化処理を行うことができる。これは、テキスト分割の符号化処理と略称されてもよい。

ステップＳ２０４において、認識ネットワークに設定された二分木に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴に対してデコード処理を行い、該テキストセグメントにおける複数の単一文字を認識する。

一例において、該二分木に基づいて該二分木ノード特徴に対してデコードを行う過程は、分類モジュールにより実現されてもよい。本願は、分類処理によりデコード処理を実現すること及び具体的なモジュール構造を限定しない。二分木に基づいてデコードを実現できる処理モジュールはいずれも本願の保護範囲内に含まれる。

例えば、分類モジュールの１回目の分類により、テキストシーケンスにおける対応するテキストセグメントに単一文字のみが含まれるかどうかを判定する。単一文字のみが含まれると、２回目の分類を行う。単一文字のみが含まれるものではないと、次回のテキスト分割の符号化処理を行う。２回目の分類は、単一文字のセマンティック特徴を認識する。最終的に、テキストセグメントにおける複数の単一文字を全て認識した。

上記ステップＳ２０３－ステップＳ２０４により、認識ネットワークに基づいて処理されるべき画像におけるテキストシーケンスを認識し、テキストシーケンスを構成する複数の単一文字を得ることを実現させることができる。

ステップＳ２０５において、前記認識ネットワークに基づいて、前記複数の単一文字に対して文字並行処理を行い、認識結果を得る。

一例において、前記認識ネットワーク（アテンションメカニズムに基づく畳み込みニューラルネットワーク）に基づいて前記複数の単一文字に対して文字並行処理を行い、複数の単一文字で構成されるテキストシーケンスを得る。該テキストシーケンスは、該認識結果である。

本願によれば、認識ネットワークに設定された二分木に基づいて、処理されるべき画像におけるテキストシーケンスに対して符号化処理及び対応するデコード処理を行うことができる。該認識ネットワークは、シーケンス分割アテンションルールに基づいて並行処理を行うことができる。つまり、本願は、二分木を含む該認識ネットワークに基づいて行う符号化とデコード処理も並行した処理であり、また、該認識ネットワークにおける二分木により、固定比率のチャネルを用いて比率長さが同じである文字行位置を符号化することができる。

ここで、二分木が基づく二分法の実現原理は以下のとおりである。二分法は、テキストシーケンスに対して、１回あたり「１／２の固定比率」でテキストシーケンスにおける１つの数字を取って比較を行い、該テキストシーケンスを如何に２つのテキストセグメントに分割するかを決定する。また、分割で得られたテキストセグメントに対して引き続き「１／２の固定比率」で比較を行い、比較結果を得る。１つの単一文字のみが残る場合、分割処理を終了する。二分法を二分木に適用する場合、二分木の構造は、ルートノード、ルートノードの下のリーフノード、リーフノードの下のリーフノードの子ノードなどを含み、また、少なくとも１つのノードを接続するチャネルは、ノードチャネルと呼ばれる。従って、二分木の符号化の観点から、テキストシーケンスを、１回あたり「１／２の固定比率チャネル」で分割し、半分のテキストセグメントを如何に除去して次のノードの、該テキストセグメントに対応するノード特徴とするかを決定し、分割で得られたテキストセグメントに対して引き続き「１／２の固定比率チャネル」で比較を行い、比較結果を得る。１つの単一文字のみが残る場合、分割処理を終了する。例えば、二分木のルートノードでテキストシーケンス「ａｂｃｄｆ」全体を表す。該ルートノードは、５つの文字を符号化した。該ルートノードの後の左右の子（左右の子は、ルートノードのリーフノードを表す。リーフノードの下にリーフノードの子ノードがあってもよい）はそれぞれ、該ルートノードで表されるテキストシーケンス「ａｂｃｄｆ」の前半のテキストセグメント「ａｂｃ」と後半のテキストセグメント「ｄｆ」に対応する。続いて、引き続き、前半のテキストセグメント「ａｂｃ」を「１／２の固定比率チャネル」で分割し、前半のテキストセグメント「ａｂ」及び後半のテキストセグメント「ｃ」を得る。後半のテキストセグメント「ｃ」を含むノードチャネルが単一の文字のみを含むため、該ノードチャネルに対する分割を終了する。引き続き、前半のテキストセグメント「ａｂ」を「１／２の固定比率チャネル」で分割し、前半のテキストセグメント「ａ」及び後半のテキストセグメント「ｂ」を得る。単一文字のみが残るため、該ノードチャネルに対する分割を終了する。同様に、テキストセグメント「ｄｆ」を「１／２の固定比率チャネル」で分割し、前半のテキストセグメント「ｄ」及び後半のテキストセグメント「ｆ」を得る。単一文字のみが残るため、該ノードチャネルに対する分割を終了する。二分木は、二分法に基づいて分割の符号化処理を行う場合、いずれも「１／２の固定比率チャネル」で分割を行うが、文字が文字シーケンスにおけるどの具体的な文字行位置にあるかに関わらず、いずれも同一の比率長さで符号化する。例えば、長さが４ｂｉｔであるコード「１０００」で「ａ」を表し、長さが４ｂｉｔであるコード「００１１」で「ｃ」を表し、長さが４ｂｉｔであるコード「１１００」で「ａｂ」を表し、長さが４ｂｉｔであるコード「１１１１」で「ａｂｃ」を表す。つまり、コードの長さは同一の比率長さであるが、「１」と「０」の異なるコード組み合わせにより、テキストシーケンスにおける異なる文字行位置にある文字を記述することができる。

図５は、本願の実施例によるアテンションメカニズムに基づく畳み込みニューラルネットワークにおけるシーケンス分割アテンションモジュールを示す概略図である。特徴抽出モジュール（例えば、ＣＮＮ又はＧＣＮ）により、入力された画像に基づいて対応する特徴マップ（例えば画像畳み込み特徴マップ）を生成することができる。例えば、図５におけるＸは、該特徴マップである。シーケンス分割アテンションモジュール（例えば、ＳＰＡ２Ｎｅｔ）は、特徴抽出モジュールから出力された特徴マップを入力とし、シーケンス分割アテンションモジュールに含まれる二分木に基づいて符号化を行い、テキストシーケンスにおける異なる位置での文字セグメントに対して特徴抽出を行い、各二分木ノードに対応する特徴を生成する。例えば、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を生成する。具体的には、１つのテキストセグメントに基づいて、１つの二分木を得ることができる。１つのテキストシーケンスに基づいて１つの二分木を得ることもできる。１つの二分木ノードは、１つのテキストセグメントである。

ここで、シーケンス分割アテンションモジュールにおけるａモジュール及びｂモジュールは、それぞれ、畳み込みニューラルネットワークであってもよい。例えば、それぞれ２つの畳み込み層を含むＣＮＮであってもよく、それぞれアテンション予測及び特徴マップの変動に用いることができる。例えば、ａモジュールは、特徴マップＸを得た後にアテンション出力を取得するために用いられる。例えば、図５における相対的位置セルフアテンションモジュールにより、Ｔｒａｎｓｆｏｒｍｅｒアルゴリズムで演算を行うことで出力特徴を得、該出力特徴を少なくとも１つの畳み込みモジュールにより演算してＳｉｇｍｏｉｄのような活性化関数により非線形演算し、アテンション行列ｘ_ａを得る。ｂモジュールは、特徴を引き続き抽出し、該特徴マップを更新するために用いられる。ｘ_ａは、ａモジュールから出力されたアテンション行列である。ｘ_ａに対して、ｃモジュール（例えば、二分木を含むモジュール）によりマルチチャネル選択を行う。例えば、図５において、ｃモジュールにより、ｘ_ａに対して、チャネルごとに乗算を行い、各チャネルのアテンション特徴マップｄを得る。選択された異なるアテンション特徴マップｄは、ｂモジュールの出力に対して重み付け加算を行うために用いられる。これにより、各部の特徴ｅを抽出し、該特徴ｅをシーケンス分割アテンションモジュールで得られた出力結果１２１として分類モジュールに提供して分類処理を行う。ここで、該特徴ｅは、シーケンステキスト全体における１つのテキストセグメントの特徴を表すためのものであり、各二分木ノードに対応する特徴と呼ばれてもよい。例えば、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴と呼ばれる。分類モジュールにより分類処理を行う過程において、該特徴が単一文字認識による特徴であるかどうかをまず判定する。単一文字認識による特徴である場合、文字のカテゴリを判定し、そのセマンティック特徴を知る。これにより、セマンティック特徴に基づいて、単一文字の意味を認識する。

上記シーケンス分割アテンションモジュールの処理は、主に下記式（１）－式（３）で実現する。ここで、式（１）は、ａモジュールから出力されたアテンション行列ｘ_ａを算出するために用いられる。式（２）は、アテンション行列ｘ_ａに対してｃモジュール（例えば、二分木を含むモジュール）によりマルチチャネル選択を行った後に選択された異なるアテンション特徴マップｄを算出するために用いられる。式（３）は、異なるアテンション特徴マップｄによりｂモジュールの出力に対して重み付け加算を行い、各部の特徴ｅを抽出し、該特徴ｅをシーケンス分割アテンションモジュールで得られた出力結果１２１とするために用いられる。

ここで、式（１）において、Ｘは、入力された画像を特徴抽出モジュールにより処理することで得られた畳み込み特徴マップである。Ｗ_ａ１及びＷ_ａ２はそれぞれ畳み込み演算の畳み込みカーネルであり、＊は、畳み込み演算子であり、Ｔ（Ｘ）は、特徴マップＸを相対的位置セルフアテンションモジュールにより演算することで得られた出力特徴であり、δは、Ｓｉｇｍｏｉｄ関数のような活性化関数で演算を行うことで、最終的にａモジュールから出力されたアテンション行列ｘ_ａを得ることを表す。式（２）において、ｘ_ａは、ａモジュールから出力されたアテンション行列であり、

は、チャネル毎の乗算演算子であり、Ｐ_ｔは、二分木に基づいてテキストシーケンスを対応するテキストセグメントに分割する符号化過程におけるｔ番目の二分木ノード特徴であり、つまり、対応するテキストセグメントの文字位置コードである。ここで、ｔは、二分木のノード番号である。例えば、図４ａ－図４ｄに示すノード番号０－ノード番番号６である。ｍａｘｐｏｏｌは、チャネル方向に沿った最大プーリング演算子であり、ｄは、マルチチャネル選択の後に選択された異なるアテンション特徴マップである。式（３）において、Ｘは、入力された画像を特徴抽出モジュールにより処理することで得られた特徴マップであり、Ｗ_ｆ１及びＷ_ｆ２はそれぞれ畳み込み演算の畳み込みカーネルであり、Ｈ及びＷはそれぞれアテンション特徴マップｄの高さ情報及び幅情報であり、ｄは、マルチチャネル選択の後に選択された異なるアテンション特徴マップであり、ｅは、異なるアテンション特徴マップｄと畳み込み特徴マップ（ｂモジュールの出力）を重み付けすることで得られた特徴ベクトルである。式（２）－式（３）におけるｉは、いずれも、二分木に基づいて幅優先トラバースを行う場合に用いられるトラバースパラメータである。ｄ及びｅはいずれも汎用表現であり、ｄは、ｄ_ｉであってもよく、ｄ_ｉは具体的には、二分木ノードのｉ位置までトラバースした特徴マップを表す。ｅは、ｅ_ｉであってもよく、ｅ_ｉは具体的には、ｄ_ｉに基づいて得られた特徴ベクトルを表す。

本願の符号化部について以下のように説明する。

可能な実現形態において、前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対してテキスト分割の符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
前記特徴マップを、前記二分木を含むシーケンス分割アテンションモジュールに入力することであって、前記シーケンス分割アテンションモジュールは、前記認識ネットワークの文字位置判別モジュールである、ことと、前記二分木に基づいて、前記特徴マップに対してマルチチャネル（例えば各チャネル）選択を行い、複数のターゲットチャネル群を得ることと、前記複数のターゲットチャネル群に基づいてテキスト分割の符号化を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含む。

可能な実現形態において、前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行うことは、前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列（例えば、図５におけるｘ_ａ）を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うことを含む。例えば、シーケンス分割アテンションルールに従って予測を行った後に、アテンション行列を得る。続いて、該アテンション行列を二分木に提供してマルチチャネル選択を行い、最後に複数の異なるアテンション特徴マップ（例えば図５におけるｄ）を出力する。

可能な実現形態において、前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、前記二分木に基づいて前記特徴マップに対してマルチチャネル選択を行うことで得られた該複数のターゲットチャネル群に基づいてテキスト分割の符号化を行い、複数のアテンション特徴マップ（例えば図５におけるｄ）を得ることと、該認識ネットワークに最初から入力された前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果（例えば、図５におけるｂモジュールの出力）を得ることと、前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴（例えば図５におけるｅ）を得ることと、を含む。

本願のデコード部は、符号化部に比べて、相対的簡単である。分類モジュールに、２回の分類を行うために、２つの分類器（例えば、ノード分類器及び文字分類器）が含まれてもよい。ノード分類器により、１回目の分類を行い、つまり、二分木ノード特徴を分類し、ノード分類器に基づく出力を得る。出力結果（単一文字）を文字分類器に入力して２回目の分類を行う。つまり、単一文字に対応するテキストセマンティックを分類する。

本願のデコード部について以下のように説明する。

可能な実現形態において、前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントにおける前記複数の単一文字を認識することは、前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得ることと、前記分類結果に基づいて、前記テキストセグメントにおける前記複数の単一文字を認識することと、を含む。ここで、前記分類結果に基づいて、前記テキストセグメントにおける前記複数の単一文字を認識することは、前記分類結果が、単一文字に対応する特徴である場合、該二分木ノード特徴に対応する前記テキストセグメントに単一文字が含まれることを表すため、前記単一文字に対応する特徴のテキストセマンティックを判定し（単一文字に対応する意味を知る）、前記単一文字特徴に対応するセマンティックカテゴリを認識することを含む。

具体的な実施形態の上記方法において、各ステップの記述順番は、具体的な実行順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。

本願の実施例で提供される上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本願において逐一説明しないことが理解されるべきである。

なお、本願の実施例は、テキストシーケンス認識装置、電子機器、コンピュータ可読記憶媒体及びプログラムを更に提供する。上記はいずれも、本願の実施例で提供されるいずれか１つのテキストシーケンス認識方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。

図６は、本願の実施例によるテキストシーケンス認識装置を示すブロック図である。図６に示すように、該装置は、テキストシーケンスを含む処理されるべき画像を取得するように構成される取得ユニット３１と、認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得るように構成される認識ユニット３２と、を備える。

可能な実現形態において、前記認識ユニットは、前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識するように構成される。

可能な実現形態において、前記認識ユニットは、前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得、前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成される。

可能な実現形態において、前記認識ユニットは、前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得るように構成される。

可能な実現形態において、前記認識ユニットは、前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力し、前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得るように構成される。

可能な実現形態において、前記認識ユニットは、前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力し、前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得、前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成される。

可能な実現形態において、前記認識ユニットは、前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うように構成される。

可能な実現形態において、前記認識ユニットは、前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得、前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得、前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成される。

可能な実現形態において、前記認識ユニットは、前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得、前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成される。

可能な実現形態において、前記認識ユニットは、前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識するように構成される。

幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法の実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法の実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。

本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されるときに、上記方法を実現させる。コンピュータ可読記憶媒体は揮発性コンピュータ可読記憶媒体又は不揮発性コンピュータ可読記憶媒体であってもよい。

本願の実施例は、コンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードが機器で実行されるときに、機器におけるプロセッサは、上記いずれか１つの実施例で提供されるテキストシーケンス認識命令を実行する。

本願の実施例は、もう１つのコンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータ可読命令を記憶するように構成され、命令が実行されるときに、コンピュータに上記いずれか１つの実施例で提供されるテキストシーケンス認識方法の操作を実行させる。

該コンピュータプログラム製品は具体的には、ハードウェア、ソフトウェア又はその組み合わせにより実現することができる。１つの選択可能な実施例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として具現化され、もう１つの選択可能な実施例において、コンピュータプログラム製品は具体的には、例えば、ソフトウェア開発キット（ＳＤＫ：ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）などのようなソフトウェア製品として具現化される。

本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、前記プロセッサは、上記方法を実行するように構成される。

電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

図７は、一例示的な実施例による電子機器８００を示すブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。

図７を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４及び通信コンポーネント８１６のうちの１つ又は複数を備えてもよい。

処理コンポーネント８０２は一般的には、電子機器８００の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント８０２は、指令を実行するための１つ又は複数のプロセッサ８２０を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理コンポーネント８０２は、他のユニットとのインタラクションのために、１つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント８０２はマルチメディアモジュールを備えることで、マルチメディアコンポーネント８０８と処理コンポーネント８０２とのインタラクションに寄与する。

メモリ８０４は、各種のデータを記憶することで電子機器８００における操作をサポートするように構成される。これらのデータの例として、電子機器８００上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ８０４は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、電気的に消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、読出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。

電源コンポーネント８０６は電子機器８００の様々なユニットに電力を提供する。電源コンポーネント８０６は、電源管理システム、１つ又は複数の電源、及び電子機器８００のための電力生成、管理、分配に関連する他のユニットを備えてもよい。

マルチメディアコンポーネント８０８は、上記電子機器８００とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する１つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアコンポーネント８０８は、フロントカメラ及び／又はリアカメラを備える。電子機器８００が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。

オーディオコンポーネント８１０は、オーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント８１０は、マイクロホン（ＭＩＣ）を備える。電子機器８００が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ８０４に記憶するか、又は通信コンポーネント８１６を経由して送信することができる。幾つかの実施例において、オーディオコンポーネント８１０は、オーディオ信号を出力するように構成されるスピーカーを更に備える。

Ｉ／Ｏインタフェース８１２は、処理コンポーネント８０２と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。

センサコンポーネント８１４は、１つ又は複数のセンサを備え、電子機器８００のために様々な状態の評価を行うように構成される。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器８００のディスプレイ及びキーパッドである。センサコンポーネント８１４は電子機器８００又は電子機器８００における１つのユニットの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位又は加速／減速及び電子機器８００の温度の変動を検出することもできる。センサコンポーネント８１４は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサコンポーネント８１４は、ＣＭＯＳ又はＣＣＤ画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサコンポーネント８１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。

通信コンポーネント８１６は、電子機器８００と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器８００は、ＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信コンポーネント８１６は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信コンポーネント８１６は、近接場通信（ＮＦＣ）モジュールを更に備えることで近距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及び他の技術に基づいて実現される。

例示的な実施例において、電子機器８００は、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。

例示的な実施例において、コンピュータプログラム命令を記憶したメモリ８０４のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０により実行され上記方法を完了する。

図８は、一例示的な実施例による電子機器９００を示すブロック図である。例えば、電子機器９００は、サーバとして提供されてもよい。図８を参照すると、電子機器９００は、処理コンポーネント９２２を備える。それは、１つ又は複数のプロセッサ、及びメモリ９３２で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理コンポーネント９２２により実行される命令を記憶するためのものである。メモリ９３２に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する１つ又は1つ以上のモジュールを含んでもよい。なお、処理コンポーネント９２２は、命令を実行して、上記方法を実行するように構成される。

電子機器９００は、電子機器９００の電源管理を実行するように構成される電源コンポーネント９２６と、電子機器９００をネットワークに接続するように構成される有線又は無線ネットワークインタフェース９５０と、入力出力（Ｉ／Ｏ）インタフェース９５８と、を更に備えてもよい。電子機器９００は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭ又は類似したもの等、メモリ９３２に記憶されているオペレーティングシステムを実行することができる。

例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ９３２のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器９００の処理コンポーネント９２２により実行されて上記方法を完了する。

本願は、システム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。

コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。

ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング／処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング／処理装置におけるコンピュータ可読記憶媒体に記憶する。

本願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、任意の種類のネットワーク（ローカルエリアネットワーク（ＬＡＮ）やワイドエリアネットワーク（ＷＡＮ）を含む）を通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる（例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する）。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブル論理アレイ（ＰＬＡ）のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。

ここで、本願の実施例の方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行されるときに、フローチャート及び/又はブロック図における１つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び／又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図おける１つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。

コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能/操作を実現させる。

図面におけるフローチャート及びブック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、１つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。

論理から逸脱しない限り、本願の異なる実施例を互いに組み合わせることができ、本願の各々の実施例に対する説明はそれぞれ偏りがあり、説明に重点を置かれていない部分は、他の実施例における記載を参照することができる。

以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。

Claims

テキストシーケンス認識方法であって、
テキストシーケンスを含む処理されるべき画像を取得することと、
認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得ることと、を含む、テキストシーケンス認識方法。
前記認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得ることは、
前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することを含むことを特徴とする
請求項１に記載のテキストシーケンス認識方法。
前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識することは、
前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、
前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識することと、を含むことを特徴とする
請求項２に記載のテキストシーケンス認識方法。
前記テキストシーケンスを含む処理されるべき画像を取得した後、
前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得ることを更に含むことを特徴とする
請求項１～３のうちいずれか一項に記載のテキストシーケンス認識方法。
前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得ることは、
前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力することと、
前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得ることと、を含むことを特徴とする
請求項４に記載のテキストシーケンス認識方法。
前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力することと、
前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得ることと、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含むことを特徴とする
請求項４又は５に記載のテキストシーケンス認識方法。
前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行うことは、
前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うことを含むことを特徴とする
請求項６に記載のテキストシーケンス認識方法。
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることは、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得ることと、
前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得ることと、
前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得ることと、を含むことを特徴とする
請求項６又は７に記載のテキストシーケンス認識方法。
前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識することは、
前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得ることと、
前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することと、を含むことを特徴とする
請求項４～８のうちいずれか一項に記載のテキストシーケンス認識方法。
前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識することは、
前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識することを含むことを特徴とする
請求項９に記載のテキストシーケンス認識方法。
テキストシーケンス認識装置であって、
テキストシーケンスを含む処理されるべき画像を取得するように構成される取得ユニットと、
認識ネットワークに基づいて、前記処理されるべき画像におけるテキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得、前記複数の単一文字に対して文字並行処理を行い、認識結果を得るように構成される認識ユニットと、を備える、テキストシーケンス認識装置。
前記認識ユニットは、
前記認識ネットワークに設定された二分木に基づいて、前記処理されるべき画像における、前記テキストシーケンスを構成する前記複数の単一文字を認識するように構成されることを特徴とする
請求項１１に記載のテキストシーケンス認識装置。
前記認識ユニットは、
前記二分木に基づいて、前記処理されるべき画像におけるテキストシーケンスに対して符号化処理を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得、
前記二分木に基づいて、前記二分木ノード特徴に対してデコード処理を行い、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成されることを特徴とする
請求項１２に記載のテキストシーケンス認識装置。
前記認識ユニットは、
前記認識ネットワークにより、前記処理されるべき画像におけるテキストシーケンスの画像特徴を抽出し、特徴マップを得、前記特徴マップに基づいて、前記テキストシーケンスを認識し、前記テキストシーケンスを構成する複数の単一文字を得るように構成されることを特徴とする
請求項１１～１３のうちいずれか一項に記載のテキストシーケンス認識装置。
前記認識ユニットは、
前記処理されるべき画像におけるテキストシーケンスを特徴抽出モジュールに入力し、
前記特徴抽出モジュールにより特徴抽出を行い、前記特徴マップを得るように構成されることを特徴とする
請求項１４に記載のテキストシーケンス認識装置。
前記認識ユニットは、
前記特徴マップを、シーケンス分割アテンションルールに基づくシーケンス分割アテンションモジュールに入力し、
前記シーケンス分割アテンションモジュールに含まれる前記二分木に基づいて、前記特徴マップに対してマルチチャネル選択を行い、複数のターゲットチャネル群を得、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成されることを特徴とする
請求項１４又は１５に記載のテキストシーケンス認識装置。
前記認識ユニットは、
前記特徴マップに対して、前記シーケンス分割アテンションルールに基づいて処理を行い、アテンション特徴行列を得た後、前記二分木に基づいて、前記アテンション特徴行列に対してマルチチャネル選択を行うように構成されることを特徴とする
請求項１６に記載のテキストシーケンス認識装置。
前記認識ユニットは、
前記複数のターゲットチャネル群に基づいてテキスト分割を行い、複数のアテンション特徴マップを得、
前記特徴マップに対して畳み込み処理を行い、畳み込み処理結果を得、
前記複数のアテンション特徴マップと前記畳み込み処理結果に対して重み付けを行い、重み付け結果に基づいて、テキストシーケンスにおける対応するテキストセグメントの二分木ノード特徴を得るように構成されることを特徴とする
請求項１６又は１７に記載のテキストシーケンス認識装置。
前記認識ユニットは、
前記二分木及び前記二分木ノード特徴を分類モジュールに入力してノード分類を行い、分類結果を得、
前記分類結果に基づいて、前記テキストセグメントを構成する前記複数の単一文字を認識するように構成されることを特徴とする
請求項１４～１８のうちいずれか一項に記載のテキストシーケンス認識装置。
前記認識ユニットは、
前記分類結果が、単一文字に対応する特徴である場合、前記単一文字に対応する特徴のテキストセマンティックを判定し、前記単一文字特徴に対応するセマンティックカテゴリを認識するように構成されることを特徴とする
請求項１９に記載のテキストシーケンス認識装置。
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、請求項１から１０のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行されるときに、プロセッサに請求項１から１０のうちいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器におけるプロセッサに、請求項１から１０のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。