JP7153088B2

JP7153088B2 - テキスト認識方法及びテキスト認識装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7153088B2
Application number: JP2020561646A
Authority: JP
Inventors: ▲劉▼学博
Original assignee: ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
Priority date: 2019-03-29
Filing date: 2020-01-17
Publication date: 2022-10-13
Anticipated expiration: 2040-01-17
Also published as: TW202036464A; US12014275B2; CN111753822A; CN111753822B; JP2021520002A; US20210042474A1; SG11202010916SA; WO2020199730A1

Description

（関連出願の相互参照）
本出願は、２０１９年３月２９日に提出された、出願番号が２０１９１０２５１６６１．４であり、発明名称が「テキスト認識方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張する。

本出願は、コンピュータビジョン技術分野に関し、特にテキスト認識方法及び装置、電子機器並びに記憶媒体に関する。

自然のシーンにおけるテキスト認識は、画像理解及び画像復元分野における重要な課題である。正確なテキスト認識は、例えば画像理解、自動翻訳、視覚障害者誘導、ロボットナビゲーションなどに用いられる。現在、コーデックフレームワークに基づいたテキスト認識システムは、一般的には、エンコーダ及びデコーダとして再帰型ニューラルネットワークを用いる。

本出願の一態様によれば、テキスト認識方法を提供する。該方法は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することと、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることとを含む。

本出願の実施例のテキスト認識方法によれば、テキスト認識の精度を向上させることができる。

幾つかの実施例において、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることは、前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの１つであることと、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含む。

このような方式によれば、先験的情報に基づいて得られた重みパラメータを利用してターゲットセマンティックベクトルに対して重み付けを行い、ターゲットセマンティックベクトル認識過程において、先験的情報を参照することで、ターゲットセマンティックベクトルの認識精度を向上させることができる。

幾つかの実施例において、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び／又は開始記号を含む。

幾つかの実施例において、前記先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、前記畳み込みニューラルネットワークにおける少なくとも１つの第１畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第１ベクトルを得ることと、前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得ることと、前記第１ベクトル及び前記第２ベクトルに基づいて、前記重みパラメータを決定することとを含む。

このような方式によれば、重みパラメータに先験的情報を包含させ、ターゲットセマンティックベクトルの認識のための依拠を提供することができる。

幾つかの実施例において、前記先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得ることは、前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、前記先験的情報に対応する特徴ベクトルを得ることと、前記特徴ベクトルに対して符号化処理を行い、前記第２ベクトルを得ることとを含む。

このような方式によれば、畳み込みニューラルネットワークにより、直前の文字の認識結果に基づいて、現在のターゲットセマンティックベクトルに対応する文字を認識することができ、制御不能な長さ依存性の課題を避け、認識の正解率を向上させる。

幾つかの実施例において、前記先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得ることは、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第２ベクトルを得ることを含む。

幾つかの実施例において、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含む。

幾つかの実施例において、前記検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることとを含む。

本出願のもう１つの態様によれば、テキスト認識装置を提供する。該装置は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する抽出モジュールと、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得るように構成される認識モジュールとを備える。

本出願のもう１つの態様によれば、電子機器を提供する。該電子機器は、プロセッサと、該プロセッサによる実行可能な命令を記憶するためのメモリとを備え、前記プロセッサは、前記メモリに記憶された指令を実行する時、上記テキスト認識方法を実現させる。

本出願のもう１つの態様によれば、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体には、コンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、該プロセッサに上記テキスト認識方法を実現させる。
例えば、本願は以下の項目を提供する。
（項目１）
テキスト認識方法であって、
検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることと、を含む、前記方法。
（項目２）
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの１つであることと、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することとを含むことを特徴とする
項目１に記載の方法。
（項目３）
前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び／又は開始記号を含むことを特徴とする
項目２に記載の方法。
（項目４）
畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも１つの第１畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第１ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得ることと、
前記第１ベクトル及び前記第２ベクトルに基づいて、前記重みパラメータを決定することと、を含むことを特徴とする
項目２又は３に記載の方法。
（項目５）
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得ることは、
前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、前記先験的情報に対応する特徴ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記特徴ベクトルに対して符号化処理を行い、前記第２ベクトルを得ることとを含むことを特徴とする
項目４に記載の方法。
（項目６）
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第２ベクトルを得ることを含むことを特徴とする
項目４又は５に記載の方法。
（項目７）
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと、を含むことを特徴とする
項目２から６のいずれか一項に記載の方法。
（項目８）
前記検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、
前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、
前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることと、を含むことを特徴とする
項目１から７のいずれか一項に記載の方法。
（項目９）
テキスト認識装置であって、
検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する抽出モジュールと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得るように構成される認識モジュールと、を備える、テキスト認識装置。
（項目１０）
前記認識モジュールは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成され、
前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの１つであることを特徴とする
項目９に記載の装置。
（項目１１）
前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び／又は開始記号を含むことを特徴とする
項目１０に記載の装置。
（項目１２）
前記認識モジュールは、
前記畳み込みニューラルネットワークにおける少なくとも１つの第１畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第１ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得て、
前記第１ベクトル及び前記第２ベクトルに基づいて、前記重みパラメータを決定するように構成されることを特徴とする
項目１０又は１１に記載の装置。
（項目１３）
前記認識モジュールは、
前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該先験的情報に対応する特徴ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記特徴ベクトルに対して符号化処理を行い、前記第２ベクトルを得るように構成されることを特徴とする
項目１２に記載の装置。
（項目１４）
前記認識モジュールは、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第２ベクトルを得るように構成されることを特徴とする
項目１２又は１３に記載の装置。
（項目１５）
前記認識モジュールは、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得て、
前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成されることを特徴とする
項目１０－１４のいずれか一項に記載の装置。
（項目１６）
前記抽出モジュールは、
前記検出対象画像に対して特徴抽出を行い、特徴情報を得て、
前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得るように構成されることを特徴とする
項目９－１５のいずれか一項に記載の装置。
（項目１７）
電子機器であって、
プロセッサと、
前記プロセッサにより実行される命令を記憶するためのメモリと、を備え、
前記プロセッサは、前記メモリに記憶されている命令を実行する時、項目１から８のいずれか一項に記載の方法を実現させる、電子機器。
（項目１８）
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される時、プロセッサに項目１から８のいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。

本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。

本出願の実施例によるテキスト認識方法を示すフローチャートである。本出願の実施例によるテキスト認識のための、畳み込みニューラルネットワークに基づいたコーデックフレームワークを示す概略図である。本出願の実施例によるテキスト認識装置を示すブロック図である。本出願の実施例による電子機器を示すブロック図である。本出願の実施例による電子機器を示すブロック図である。

以下、図面を参照しながら本出願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。

本出願で用いられる用語は、特定の実施例を説明するためのものに過ぎず、本出願を限定するものではない。本出願で用いられる単数形「１つ」、「前記」及び「該」等は、文脈上明確に別途に示されていない限り、複数形も同じように含むことが意図されている。「Ａ及び／又はＢ」は、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。「Ａ、Ｂ、Ｃのうちの少なくとも１つを含む」は、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

本出願において、用語「第１」、「第２」、「第３」などにより、様々な情報を説明するが、これらの情報は、これらの用語を限定するものではない。これらの用語は、同一のタイプの情報を区別するためのものに過ぎない。例えば、本出願の範囲から逸脱することなく、第１情報は第２情報と呼ばれてもよい。同様に、第２情報は、第１情報と呼ばれてもよい。文脈によっては、ここで用いられる用語「すれば」、「・・の場合」又は「・・時」又は「に応答して」と解釈されてもよい。

なお、本出願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。

図１は、本出願の実施例によるテキスト認識方法を示すフローチャートである。図１に示すように、前記方法は、ステップＳ１１及びＳ１２を含んでもよい。

ステップＳ１１において、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する。

ステップＳ１２において、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得る。

幾つかの実施例において、前記テキスト認識方法は、端末装置により実行されてもよい。端末装置は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラ電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアブル機器などであってもよい。前記方法は、端末装置におけるプロセッサにより、メモリに記憶されているコンピュータプログラム命令を呼び出すことで実現される。又は、端末装置により、検出対象画像を取得し、検出対象画像をサーバに送信し、サーバにより前記方法を実行してもよい。

幾つかの実施例において、ステップＳ１１は、前記検出対象画像に対して特徴抽出を行い、特徴情報を得ることと、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得ることとを含んでもよい。

幾つかの実施例において、前記特徴情報は、特徴マップ又は特徴ベクトル等を含んでもよいが、これらに限定されない。

例において、検出対象画像は、例えば複数のテキスト文字からなるテキストシーケンスを有してもよい。前記テキストシーケンスの各テキスト文字同士の間は、一定のセマンティック接続関係を有してもよい。つまり、前記テキストシーケンスは、あるセマンティックを有してもよい。

幾つかの実施例において、特徴抽出ネットワークを利用して、検出対象画像における複数のセマンティックベクトルを抽出することができる。該特徴抽出ネットワークは、例えば畳み込みニューラルネットワークなどのニューラルネットワークであってもよい。検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得ることは、前記検出対象画像を特徴抽出ネットワークに入力し、前記複数のセマンティックベクトルを得ることを含んでもよい。

例において、特徴抽出ネットワークは、符号化処理などにより、検出対象画像の１つ又は複数の特徴行列を取得することができる。該特徴行列の次元は、Ｍ×Ｐであってもよい。例えば、Ｐは、３２であってもよい。ＭとＰとの比は、検出対象画像のアスペクト比に対応してもよい。例えば、検出対象画像の解像度が１０２４×７６８であるとすれば、符号化処理により、１つ又は複数の４３×３２の特徴マップを得ることができる。

例において、特徴抽出ネットワークは、該特徴行列に対してダウンサンプリング処理を行い、１つ又は複数の特徴ベクトルをセマンティックベクトルとして得ることができる。例えば、次元がＭ×Ｐである特徴行列に対して、ダウンサンプリング処理を行い、１つ又は複数の次元がＭ×１である特徴ベクトルを一次元セマンティックベクトルとして得ることができる。上述した例において符号化処理により得られた４３×３２の特徴マップに対して、ダウンサンプリング処理により、１つ又は複数の４３×１の特徴ベクトルを得ることができる。

上記特徴抽出処理により、テキスト認識の複雑さを低減させ、テキスト認識の効率を向上させることができる。

幾つかの実施例において、特徴抽出ネットワークを利用して検出対象画像に対して特徴抽出処理を行う前に、前記特徴抽出ネットワークを訓練することができる。

幾つかの実施例において、多種の背景、多種の解像度、多種のフォント、多種の照明条件、多種のサイズスケール、多種の傾斜方向及び多重のぼけ度合いの複数の画像を第１サンプル画像として撮影し、特徴抽出ネットワークを訓練することができる。

幾つかの実施例において、確率辞書に基づいて、第１サンプル画像におけるテキストに対してラベル付けを行い、第１サンプル画像のラベリングセマンティックベクトル（以下、第１サンプル画像の真のセマンティックベクトルと呼ばれてもよい）を得ることができる。前記確率辞書は、ユーザにより定義された、テキストに関する確率分布を含んでもよい。例えば、複数の要素を含むベクトルで、確率辞書における各テキストの確率分布情報を表すことができる。各テキストの確率分布情報に基づいて、確率辞書におけるテキストを決定するか、又は確率辞書におけるテキストの確率分布情報を決定することことができ、それによって前記テキストに対応するセマンティックベクトルを決定することができる。例において、第１サンプル画像におけるテキストの前記確率辞書における確率分布情報を決定することで、第１サンプル画像におけるテキストに対応するセマンティックベクトルを決定し、前記セマンティックベクトルに基づいて、第１サンプル画像に対してラベル付けを行い、アノテーション情報を得ることができる。従って、前記アノテーション情報は、第１サンプル画像の真のセマンティックベクトルを表すことができる。

幾つかの実施例において、第１サンプル画像を前記特徴抽出ネットワークに入力して処理し、第１サンプル画像に対応するサンプルセマンティックベクトルを得ることができる。前記サンプルセマンティックベクトルは、特徴抽出ネットワークからの該第１サンプル画像の出力結果である。該出力結果には、誤差が存在する可能性がある。

幾つかの実施例において、第１サンプル画像のアノテーション情報及び出力結果に基づいて、特徴抽出ネットワークのネットワーク損失を決定することができる。例において、第１サンプル画像の真のセマンティックベクトル（即ち、アノテーション情報）とサンプルセマンティックベクトル（即ち、出力結果）を比較し、両者間の差異を特徴抽出ネットワークの損失関数と決定することができる。また、例えば、アノテーション情報及び出力結果に基づいて、特徴抽出ネットワークの交差エントロピー損失関数を決定することができる。例において、正則化の損失関数を特徴抽出ネットワークのネットワーク損失として用いることができ、それによって反復訓練過程において特徴抽出ネットワークのネットワークパラメータに過剰適合が生じることを避けることができる。

幾つかの実施例において、ネットワーク損失に基づいて、特徴抽出ネットワークのネットワークパラメータを調整することができる。例において、ネットワークパラメータを調整することでネットワーク損失を最小にし、調整された特徴抽出ネットワークに高い適合度を持たせると共に、過剰適合を避けることができる。例において、勾配降下法により、ネットワーク損失の逆伝搬を行い、特徴抽出ネットワークのネットワークパラメータを調整することができる。例えば、各ニューロンの間でツリー型によって接続されている特徴抽出ネットワークに対して、ランダム勾配降下法などにより、ネットワークパラメータを調整し、ネットワークパラメータ調整過程の複雑さを低下させ、ネットワークパラメータの調整効率を向上させ、調整されたネットワークパラメータに過剰適合が発生することを避けることができる。

幾つかの実施例において、特徴抽出ネットワークに対して反復訓練を行い、訓練要件を満たした特徴抽出ネットワークをセマンティックベクトルの取得に用いることができる。訓練要件は、調整回数、ネットワーク損失の大きさ又はネットワーク損失の収束性及び拡散性などを含んでもよい。特徴抽出ネットワークに所定の数の第１サンプル画像を入力する。つまり、特徴抽出ネットワークのネットワークパラメータを所定の回数で調整する。調整回数が前記所定の回数に達した時、訓練要件を満たしていると見なす。又は、調整回数を限定せず、ネットワーク損失が所定の程度まで低下したか、又は所定の閾値内に収束した時、調整を終了し、調整された特徴抽出ネットワークを得る。又、調整された特徴抽出ネットワークを検出対象画像のセマンティックベクトルの取得に用いる。アノテーション情報と出力結果との差により、特徴抽出ネットワークを訓練し、損失関数の複雑さを低下させ、訓練速度を向上させることができる。

幾つかの実施例において、ステップＳ１２において、グラフィック処理ユニット（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＧＰＵ）を利用して畳み込みニューラルネットワークを加速し、畳み込みニューラルネットワークの処理効率を向上させることができる。

幾つかの実施例において、ステップＳ１２において、畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得ることができる。ここで、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの１つである。また、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。

幾つかの実施例において、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び／又は開始記号を含む。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルであると、前記先験的情報は、開始記号であってもよい。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、前記先験的情報は、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果であってもよい。

幾つかの実施例において、前記畳み込みニューラルネットワークにおける少なくとも１つの第１畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第１ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得ることができる。続いて、前記第１ベクトル及び前記第２ベクトルに基づいて、前記ターゲットセマンティックベクトルの重みパラメータを決定することができる。

幾つかの実施例において、前記第１ベクトルは、ターゲットセマンティックベクトルのセマンティック情報を有してもよく、また、第１ベクトルは、ターゲットセマンティックベクトルに対応する文字のセマンティック接続関係を有する。

幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルであり、つまり、ターゲットセマンティックベクトルがテキストシーケンスにおける最初の文字に対応するセマンティックベクトルである場合、前記ターゲットセマンティックベクトルの先験的情報における開始記号に対応する開始ベクトルにより、符号化処理し、該先験的情報に対応する第２ベクトルを得ることができる。例において、開始記号に対応する開始ベクトルは、要素が所定の値（例えば、要素が全て１である）であるベクトルであってもよい。例において、テキストシーケンスにおける文字がＡ、Ｂ、Ｃ及びＤであり、開始記号Ｓに対応する開始ベクトルに対して符号化処理を行い、第２ベクトルを得ることができる。

幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、前記先験的情報には前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得て、前記特徴ベクトルに対して符号化処理を行い、該先験的情報に対応する第２ベクトルを得ることができる。例えば、テキストシーケンスにおける文字がＡ、Ｂ、Ｃ及びＤであり、ターゲットセマンティックベクトルがＢ、Ｃ又はＤに対応するセマンティックベクトルであると、ターゲットセマンティックベクトルの直前のセマンティックベクトルのテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得て、該特徴ベクトルに対して符号化処理を行い、該先験的情報に対応する第２ベクトルを得ることができる。

幾つかの実施例において、ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトルではないと、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該テキスト認識結果に対応する特徴ベクトルを決定することができる。例において、Ｗｏｒｄ２Ｖｅｃ又はＧｌｏＶｅ等のようなモデルのアルゴリズムにより、直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、先験的情報に対応する特徴ベクトルを得ることができる。

幾つかの実施例において、ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキストを認識する過程において、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報を認識することができる。つまり、前記直前のセマンティックベクトルに対応するテキスト認識結果は、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報によるものである。従って、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルは、後続の文字認識の依拠とすることができる。なお、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルは、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック情報を有し、且つ、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック接続関係を有する。

幾つかの実施例において、前記第１ベクトル及び前記第２ベクトルに基づいて、前記重みパラメータを決定することができる。前記重みパラメータは、重み行列であってもよい。例えば、第１ベクトル及び第２ベクトルに対してベクトル乗算を行い、前記重み行列を得ることができる。

幾つかの実施例において、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。

幾つかの実施例において、重みパラメータ（重み行列）とターゲットセマンティックベクトルを行列乗算し（即ち、ターゲットセマンティックベクトルに対して重み付け処理を行う）、前記注意分配ベクトルを得ることができる。従って、注意分配ベクトルは、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォント等の情報並びにターゲットセマンティックベクトルのセマンティック情報を有する。

幾つかの実施例において、注意分配ベクトルに基づいて、確率辞書に関する確率分布情報を決定することができる。例えば、前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報を得ることができる。続いて、確率分布情報に基づいて、確率辞書におけるテキストを決定し、つまり、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。該テキスト認識結果は、次の文字の認識処理過程に用いられる。このように類推して、テキストシーケンスにおける全ての文字の認識が完了するまで継続する。テキストシーケンスにおける全ての文字の認識が完了した時、畳み込みニューラルネットワークに終了ベクトルを入力してもよい。前記終了ベクトルの要素は、所定のものであってもよい（例えば、要素が全て１である）。終了ベクトルを入力する時、検出対象画像におけるテキストシーケンスの認識動作が完了し、前記テキストシーケンスの認識結果が得られる。

幾つかの実施例において、前記直前のセマンティックベクトルに対応するテキスト認識結果のセマンティック情報は、前記直前のセマンティックベクトルに対応するテキスト認識結果に対応する特徴ベクトルの重みパラメータ（重み行列）に含まれてもよい。該重みパラメータにおける要素は、検出対象画像の背景、撮影角度、サイズ、照明条件及びフォントなどの情報を有してもよく、テキストシーケンスにおける後続文字の認識の依拠とすることができる。該重みパラメータに含まれるセマンティック情報は、後続文字の認識の依拠とすることもできる。例えば、ターゲットセマンティックベクトルが２番目のセマンティックベクトルであれば、ターゲットセマンティックベクトルの直前のセマンティックベクトルは最初のセマンティックベクトルであり、それに対応する文字は、テキストシーケンスにおける最初の文字である。最初の文字の認識結果は、ターゲットセマンティックベクトルに対応する文字の認識の依拠とすることができる。また、ターゲットセマンティックベクトルの認識結果は、３番目のセマンティックベクトル（即ち、ターゲットセマンティックベクトルの次のセマンティックベクトル）に対応する文字の認識の依拠とすることができる。

例において、テキストシーケンスにおける最初の文字を認識する時、認識対象画像には、認識された文字が存在しないため、先験的情報としての開始記号を利用して最初の文字を認識する。例を挙げると、テキストシーケンスに文字Ａ、Ｂ、Ｃ及びＤが存在する時、まず、開始記号Ｓを先験的情報とし、開始記号Ｓに対応する開始ベクトルを利用して文字Ａを認識し、テキストシーケンスにおける最初の文字の認識結果Ａを得る。続いて、認識された文字Ａを利用して文字Ｂを認識し、２番目の文字の認識結果Ｂを得る。このように類推して、全ての文字Ａ、Ｂ、Ｃ及びＤを認識するまで継続し、テキストシーケンスの認識結果を得る。

幾つかの実施例において、畳み込みニューラルネットワークを利用してテキスト認識結果を決定する前に、前記畳み込みニューラルネットワークを訓練することができる。

幾つかの実施例において、多種の背景、多種の解像度、多種のフォント、多種の照明条件、多種のサイズスケール、多種の傾斜方向及び多重のぼけ度合いの複数の画像を第２サンプル画像として撮影し、複数の第２サンプル画像を利用して畳み込みニューラルネットワークを訓練することができる。

幾つかの実施例において、確率辞書に基づいて、各第２サンプル画像における文字の確率分布情報を得て、前記確率分布情報に基づいて、該第２サンプル画像に対してラベル付けを行い、該第２サンプル画像における各文字のアノテーション情報を得ることができる。つまり、前記アノテーション情報は、第２サンプル画像における対応する文字の真の確率分布情報である。

幾つかの実施例において、いずれか１つの第２サンプル画像に対して特徴抽出処理を行い、第２サンプル画像における複数の文字にそれぞれ対応する複数のセマンティックベクトルを得ることができる。畳み込みニューラルネットワークにおける第１畳み込み層に最初のセマンティックベクトルを入力し、第２畳み込み層に開始記号を入力することで、最初のセマンティックベクトルの重みパラメータを得ることができる。更に、該重みパラメータ（重み行列）を利用して最初のセマンティックベクトルに対して重み付けを行い（つまり、行列乗算を行う）、最初のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。

幾つかの実施例において、畳み込みニューラルネットワークにおける逆畳み込み層によりサンプル注意分配ベクトルを復号処理し、畳み込みニューラルネットワークから出力された確率分布情報を得る。つまり、畳み込みニューラルネットワークの出力結果を得る。更に、アノテーション情報（真の確率分布情報）及び出力結果（畳み込みニューラルネットワークから出力された確率分布情報）に基づいて、畳み込みニューラルネットワークのネットワーク損失を決定することができる。例において、第２サンプル画像における文字のアノテーション情報と畳み込みニューラルネットワークの出力結果を比較し、両者間の差異を畳み込みニューラルネットワークの損失関数と決定することができる。また、例えば、アノテーション情報及び出力結果に基づいて、畳み込みニューラルネットワークの交差エントロピー損失関数を決定することができる。例において、正則化された損失関数を畳み込みニューラルネットワークのネットワーク損失として用いることで、反復訓練過程において畳み込みニューラルネットワークのネットワークパラメータに過剰適合が生じることを避けることができる。

幾つかの実施例において、ネットワーク損失に基づいて、畳み込みニューラルネットワークのネットワークパラメータを調整することができる。例において、ネットワークパラメータを調整することでネットワーク損失を最小にし、調整された畳み込みニューラルネットワークに高い適合度を持たせると共に、過剰適合を避けることができる。例において、勾配降下法により、ネットワーク損失の逆伝搬を行い、畳み込みニューラルネットワークのネットワークパラメータを調整することができる。例えば、各ニューロンの間でツリー型によって接続されている畳み込みニューラルネットワークに対して、ランダム勾配降下法などにより、ネットワークパラメータを調整し、ネットワークパラメータ調整過程の複雑さを低下させ、ネットワークパラメータの調整効率を向上させ、調整されたネットワークパラメータに過剰適合が発生することを避けることができる。

幾つかの実施例において、畳み込みニューラルネットワークから出力された確率分布情報及び確率辞書に基づいて、畳み込みニューラルネットワークにより認識された文字を決定し、該文字に対して単語埋め込み処理を行い、該文字に対応する特徴ベクトルを得ることができる。更に、該特徴ベクトルを畳み込みニューラルネットワークにおける第２畳み込み層に入力し、第２サンプル画像における２番目のセマンティックベクトルを畳み込みニューラルネットワークにおける第１畳み込み層に入力し、２番目のセマンティックベクトルの重みパラメータを得る。該重みパラメータを利用して２番目のセマンティックベクトルに対して重み付けを行い、２番目のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。続いて、畳み込みニューラルネットワークにおける逆畳み込み層により、該サンプル注意分配ベクトルを復号し、確率分布情報を得ることができる。該確率分布情報及び２番目の文字のアノテーション情報に基づいて、ネットワーク損失を決定し、ネットワーク損失を利用して、畳み込みニューラルネットワークのネットワークパラメータを再調整することができる。例において、このような方式により、反復調整を行うことができる。例えば、畳み込みニューラルネットワークにより認識された２番目の文字に対応する特徴ベクトル及び３番目のセマンティックベクトルに基づいて、３番目のセマンティックベクトルの重みパラメータを得て、更に、３番目のセマンティックベクトルに対応するサンプル注意分配ベクトルを得ることができる。それに対して復号処理を行ってから、ネットワーク損失を決定し、ネットワーク損失に基づいて畳み込みニューラルネットワークを再調整することができる。このように類推すると、３番目の文字及び４番目のセマンティックベクトルに基づいて、畳み込みニューラルネットワークを調整し、４番目の文字及び５番目のセマンティックベクトルに基づいて畳み込みニューラルネットワークを調整し、該第２サンプル画像における全ての文字の認識が完了するまで継続する。従って、畳み込みニューラルネットワークのネットワークパラメータが複数回調整される
幾つかの実施例において、畳み込みニューラルネットワークが訓練要件を満たした場合、畳み込みニューラルネットワークを検出対象画像におけるテキストシーケンスの認識に用いることができる。訓練要件は、調整回数、ネットワーク損失の大きさ又はネットワーク損失の収束性及び拡散性などを含んでもよい。畳み込みニューラルネットワークのネットワークパラメータを所定の回数で調整する。調整回数が前記所定の回数に達した時、訓練要件を満たしていると認められる。又は、調整回数を限定せず、ネットワーク損失が所定の程度まで低下したか又は所定の閾値内に収束した時、調整を終了し、調整されたみ込みニューラルネットワークを得る。

本出願の実施例のテキスト認識方法によれば、検出対象画像からセマンティックベクトルを抽出し、テキスト認識の複雑さを低下させ、テキスト認識の効率を向上させることができる。畳み込みニューラルネットワークを利用して、直前の文字の認識結果に基づいて、現在のターゲットセマンティックベクトルに対応する文字を認識することで、制御不能な長さ依存性の課題を避け、認識の正解率を向上させる。ＧＰＵを利用して畳み込みニューラルネットワークを加速し、畳み込みニューラルネットワークの処理効率を向上させることができる。

図２は、本出願の実施例によるテキスト認識のための、畳み込みニューラルネットワークに基づいたコーデックフレームワークを示す概略図である。

幾つかの実施例において、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得る。畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、また、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することができる。前記ターゲットセマンティックベクトルは、複数のセマンティックベクトルのうちのいずれか１つである。

幾つかの実施例において、複数のセマンティックベクトルは、テキストシーケンスにおける複数の文字に対応してもよい。例えば、テキストシーケンスにおける複数の文字のうちの各文字は、複数のセマンティックベクトルのうちの１つのセマンティックベクトルに対応するが、本出願の実施例はこれに限定されない。ターゲットセマンティックベクトルが複数のセマンティックベクトルのうちの最初のセマンティックベクトル（即ち、検出対象画像におけるテキストシーケンスにおける最初の文字に対応するセマンティックベクトル）であれば、ターゲットセマンティックベクトルを前記畳み込みニューラルネットワークにおける第１畳み込み層に入力して符号化処理し、第１ベクトルを得て、開始記号に対応する開始ベクトルを前記畳み込みニューラルネットワークにおける第２畳み込み層に入力して符号化処理し、第２ベクトルを得ることができる。更に、第１ベクトルと第２ベクトルに対してベクトル乗算を行い、最初のセマンティックベクトルの重みパラメータである重み行列を得る。

幾つかの実施例において、該重み行列を利用して最初のセマンティックベクトルに対して重み付けを行い、最初のセマンティックベクトルに対応する注意分配ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報を得ることができる。更に、該確率分布情報に基づいて確率辞書におけるテキストを決定する。つまり、最初のセマンティックベクトルに対応するテキスト認識結果を得ることで、最初の文字の認識結果を得る。

幾つかの実施例において、最初の文字の認識結果に対して単語埋め込み処理を行い、最初の文字に対応する特徴ベクトルを得ることができる。最初の文字に対応する特徴ベクトルを前記畳み込みニューラルネットワークにおける第２畳み込み層に入力して符号化処理し、最初の文字に対応する第２ベクトルを得ることができる。２番目のセマンティックベクトル（即ち、検出対象画像における文字シーケンスにおける２番目の文字に対応するセマンティックベクトル）を畳み込みニューラルネットワークにおける第１畳み込み層に入力して符号化処理し、２番目のセマンティックベクトルの第１ベクトルを得ることができる。更に、２番目のセマンティックベクトルの第１ベクトルと最初の文字に対応する第２ベクトルに対してベクトル乗算を行い、２番目のセマンティックベクトルの重み行列を得ることができる。該重み行列を利用して２番目のセマンティックベクトルに対して重み付けを行い（つまり、行列乗算を行う）、重み付けされた２番目のセマンティックベクトルを畳み込みニューラルネットワークの全結合層に入力し、２番目のセマンティックベクトルに対応する注意分配ベクトルを得ることができる。前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、２番目のセマンティックベクトルに対応する注意分配ベクトルを復号処理し、確率辞書に関する確率分布情報（即ち、２番目の文字の認識結果の確率分布）を得ることができる。該確率分布情報に基づいて、確率辞書におけるテキストを決定する。つまり、２番目の文字の認識結果を得ることができる。更に、２番目の文字の認識結果を利用して、３番目の文字の認識結果を決定し、３番目の文字の認識結果を利用して、４番目の文字の認識結果を決定することもできる。以下、同様である。

例において、テキストシーケンスにおける最初の文字を認識する時、認識対象画像には、認識された文字が存在しないため、先験的情報とした開始記号を利用して最初の文字を認識する。例を挙げると、テキストシーケンスに文字Ａ、Ｂ、Ｃ及びＤが存在する時、まず、開始記号Ｓを先験的情報とし、開始記号Ｓに対応する開始ベクトルを利用して文字Ａを認識し、テキストシーケンスにおける最初の文字の認識結果Ａを得る。続いて、認識された文字Ａを利用して文字Ｂを認識し、２番目の文字の認識結果Ｂを得る。このように類推して、全ての文字Ａ、Ｂ、Ｃ及びＤを認識するまで継続し、テキストシーケンスの認識結果を得る。

幾つかの実施例において、上記方式により、処理されるべき画像における各セマンティックベクトルを反復処理することで、検出対象画像における各文字の認識結果を得て、テキストシーケンスにおける全ての文字の認識が完了するまで継続する。テキストシーケンスにおける全ての文字の認識が完了した時、畳み込みニューラルネットワークに終了ベクトルを入力し、検出対象画像におけるテキストシーケンスの認識動作を完了させ、テキストシーケンスの認識結果を得ることができる。

図３は、上記いずれか１つの実施例によるテキスト認識方法を実現させるテキスト認識装置を示すブロック図である。図３に示すように、前記装置は、抽出モジュール１１と、認識モジュール１２とを備える。

抽出モジュール１１は、検出対象画像に対して特徴抽出処理を行い、複数のセマンティックベクトルを得、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応することができる。認識モジュール１２は、畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行い、前記テキストシーケンスの認識結果を得ることができる。

幾つかの実施例において、前記認識モジュールは、畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行い、前記ターゲットセマンティックベクトルの重みパラメータを得て、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成され、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの１つである。

幾つかの実施例において、前記認識モジュールは、前記畳み込みニューラルネットワークにおける少なくとも１つの第１畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行い、前記ターゲットセマンティックベクトルの第１ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行い、前記先験的情報に対応する第２ベクトルを得て、前記第１ベクトル及び前記第２ベクトルに基づいて、前記重みパラメータを決定するように構成される。

幾つかの実施例において、前記認識モジュールは、前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行い、該先験的情報に対応する特徴ベクトルを得て、前記特徴ベクトルに対して符号化処理を行い、前記第２ベクトルを得るように構成される。

幾つかの実施例において、前記認識モジュールは、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行い、前記第２ベクトルを得るように構成される。

幾つかの実施例において、前記認識モジュールは、前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得て、前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、前記注意分配ベクトルを復号処理し、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定するように構成される。

幾つかの実施例において、前記抽出モジュールは、前記検出対象画像に対して特徴抽出を行い、特徴情報を得て、前記特徴情報に対してダウンサンプリング処理を行い、前記複数のセマンティックベクトルを得るように構成される。

図４は一例示的な実施例による電子機器８００を示すブロック図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどであってもよい。

図４を参照すると、電子機器８００は、処理ユニット８０２、メモリ８０４、電源ユニット８０６、マルチメディアユニット８０８、オーディオユニット８１０、入力／出力（Ｉ／Ｏ）インタフェース８１２、センサユニット８１４及び通信ユニット８１６のうちの１つ又は複数を備えてもよい。

処理ユニット８０２は一般的には、電子機器８００の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット８０２は、指令を実行するための１つ又は複数のプロセッサ８２０を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット８０２は、他のユニットとのインタラクションのために、１つ又は複数のモジュールを備えてもよい。例えば、処理ユニット８０２はマルチメディアモジュールを備えることで、マルチメディアユニット８０８と処理ユニット８０２とのインタラクションに寄与する。

メモリ８０４は、各種のデータを記憶することで電子機器８００における操作をサポートするように構成される。これらのデータの例として、電子機器８００上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ８０４は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、電気的に消去可能なプログラマブル読出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読出し専用メモリ（ＰＲＯＭ）、読出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。

電源ユニット８０６は電子機器８００の様々なユニットに電力を提供する。電源ユニット８０６は、電源管理システム、１つ又は複数の電源、及び電子機器８００のための電力生成、管理、分配に関連する他のユニットを備えてもよい。

マルチメディアユニット８０８は、上記電子機器８００とユーザとの間にインタフェース（例えば、グラフィックユーザインタフェース（ＧＵＩ））を提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する１つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット８０８は、フロントカメラ及び／又はリアカメラを備える。電子機器８００が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。

オーディオユニット８１０は、オーディオ信号を出力／入力するように構成される。例えば、オーディオユニット８１０は、マイクロホンを備える。電子機器８００が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ８０４に記憶するか、又は通信ユニット８１６を経由して送信することができる。幾つかの実施例において、オーディオユニット８１０は、オーディオ信号を出力するように構成されるスピーカーを更に備える。

Ｉ／Ｏインタフェース８１２は、処理ユニット８０２と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。

センサユニット８１４は、１つ又は複数のセンサを備え、電子機器８００のために様々な状態情報を提供するように構成される。例えば、センサユニット８１４は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット８１４は、相補型金属酸化膜半導体（ＣＭＯＳ）又は電荷結合素子（ＣＣＤ）画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット８１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。

通信ユニット８１６は、電子機器８００と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器８００は、ＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット８１６は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット８１６は、近接場通信（ＮＦＣ）モジュールを更に備えることで近距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術及び他の技術に基づいて実現される。

例示的な実施例において、電子機器８００は、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理機器（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、いずれか１つのテキスト認識方法を実行するように構成されてもよい。

例示的な実施例において、コンピュータプログラム命令を記憶した非一時的コンピュータ可読記憶媒体（例えば、メモリ８０４）を更に提供する。該コンピュータプログラム命令は、プロセッサ（例えば、プロセッサ８２０）により実行される時、該プロセッサに上記いずれか１つのテキスト認識方法を実現させる。

図５は、一例示的な実施例による電子機器１９００を示すブロック図である。例えば、電子機器１９００は、サーバであってもよい。

図５を参照すると、電子機器１９００は、処理ユニット１９２２を備える。ぞれは1つ又は複数のプロセッサと、メモリ１９３２で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット１９２２により実行される命令を記憶するためのものである。処理ユニット１９２２は、命令を実行して、上記いずれか１つのテキスト認識方法を実現させる。

電子機器１９００は、電子機器１９００の電源管理を実行するように構成される電源ユニット１９２６と、電子機器１９００をネットワークに接続するように構成される有線又は無線ネットワークインタフェース１９５０と、入力出力（Ｉ／Ｏ）インタフェース１９５８を更に備えてもよい。

電子機器１９００は、メモリ１９３２に記憶されているオペレーティングシステム（例えば、Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ^ＴＭ、ＭａｃＯＳＸ^ＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤ^ＴＭなど）に基づいて動作することができる。

例示的な実施例において、例えば、コンピュータプログラム命令を記憶した不揮発性コンピュータ可読記憶媒体（例えば、メモリ１９３２）を更に提供する。該コンピュータプログラム命令は、プロセッサ（例えば、処理ユニット１９２２）により実行される時、該プロセッサに上記いずれか１つのテキスト認識方法を実現させる。

本出願は、装置（システム）、方法及び／又はコンピュータプログラム製品として実現されてもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願のテキスト認識方法を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。

図面におけるフローチャート及びブロック図は、本出願の各実施例による装置（システム）、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、１つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。

以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、本出願を限定するものではない。本出願の範囲及び精神から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本出願の精神及び原則を脱逸することなく行われる如何なる修正、均等物による置換、改良などは、いずれも本出願の範囲内に含まれるものとする。

Claims

テキスト認識方法であって、
検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得ることであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する、ことと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得ることと
を含み、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得ることは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの１つであり、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び／又は開始記号を含み、前記重みパラメータは、ターゲットセマンティックベクトルに対して重み付け処理を行うことによって前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを決定するためのものである、ことと、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと
を含む、テキスト認識方法。
畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも１つの第１畳み込み層により、前記ターゲットセマンティックベクトルに対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの符号化後の第１ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第２ベクトルを得ることと、
前記第１ベクトル及び前記第２ベクトルに基づいて、前記重みパラメータを決定することと
を含む、請求項１に記載のテキスト認識方法。
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第２ベクトルを得ることは、
前記先験的情報に前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果が含まれることに応答して、前記直前のセマンティックベクトルに対応するテキスト認識結果に対して単語埋め込み処理を行うことによって、前記先験的情報の単語埋め込み後の特徴ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記特徴ベクトルに対して符号化処理を行うことによって、前記第２ベクトルを得ることと
を含む、請求項２に記載のテキスト認識方法。
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記先験的情報の符号化後の第２ベクトルを得ることは、
前記畳み込みニューラルネットワークにおける少なくとも１つの第２畳み込み層により、前記先験的情報における開始記号に対応する開始ベクトルに対して符号化処理を行うことによって、前記第２ベクトルを得ることを含む、請求項２又は３に記載のテキスト認識方法。
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することは、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを得ることと、
前記畳み込みニューラルネットワークにおける少なくとも１つの逆畳み込み層により、前記注意分配ベクトルを復号処理することによって、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと
を含む、請求項１～４のいずれか一項に記載のテキスト認識方法。
前記検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得ることは、
前記検出対象画像に対して特徴抽出を行うことによって、特徴情報を得ることと、
前記特徴情報に対してダウンサンプリング処理を行うことによって、前記複数のセマンティックベクトルを得ることと
を含む、請求項１～５のいずれか一項に記載のテキスト認識方法。
テキスト認識装置であって、
検出対象画像に対して特徴抽出処理を行うことによって、複数のセマンティックベクトルを得るように構成される抽出モジュールであって、前記複数のセマンティックベクトルが、前記検出対象画像におけるテキストシーケンスの複数の文字にそれぞれ対応する、抽出モジュールと、
畳み込みニューラルネットワークにより、前記複数のセマンティックベクトルに対して順に認識処理を行うことによって、前記テキストシーケンスの認識結果を得るように構成される認識モジュールと
を備え、
前記認識モジュールは、
前記畳み込みニューラルネットワークにより、ターゲットセマンティックベクトルの先験的情報に対して符号化処理を行うことによって、前記ターゲットセマンティックベクトルの重みパラメータを得ることであって、前記ターゲットセマンティックベクトルが、前記複数のセマンティックベクトルのうちの１つであり、前記先験的情報は、前記ターゲットセマンティックベクトルの直前のセマンティックベクトルに対応するテキスト認識結果及び／又は開始記号を含み、前記重みパラメータは、ターゲットセマンティックベクトルに対して重み付け処理を行うことによって前記ターゲットセマンティックベクトルに対応する注意分配ベクトルを決定するためのものである、ことと、
前記重みパラメータ及び前記ターゲットセマンティックベクトルに基づいて、前記ターゲットセマンティックベクトルに対応するテキスト認識結果を決定することと
を行う、テキスト認識装置。
前記抽出モジュールは、
前記検出対象画像に対して特徴抽出を行うことによって、特徴情報を得ることと、
前記特徴情報に対してダウンサンプリング処理を行うことによって、前記複数のセマンティックベクトルを得ることと
を行う、請求項７に記載のテキスト認識装置。
電子機器であって、
プロセッサと、
前記プロセッサにより実行される命令を記憶するメモリと
を備え、
前記プロセッサは、前記メモリに記憶されている前記命令を実行することにより、請求項１～６のいずれか一項に記載のテキスト認識方法を実行する、電子機器。
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令は、プロセッサによって実行されると、請求項１～６のいずれか一項に記載のテキスト認識方法を実行することを前記プロセッサに行わせる、コンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムは、プロセッサによって実行されると、請求項１～６のいずれか一項に記載のテキスト認識方法を実行することを前記プロセッサに行わせる、コンピュータプログラム。