JP2022133474A

JP2022133474A - テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP2022133474A
Application number: JP2022111007A
Authority: JP
Inventors: 杜宇寧; Yuning Du; 楊▲イェ▼華; Yehua Yang; 李晨霞; Chenxia Li; 劉其文; Qiwen Liu; 胡曉光; Xiaoguang Hu; 于佃海; Dianhai Yu; 馬艷軍; Yanjun Ma; 畢然; Ran Bi
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-10
Filing date: 2022-07-11
Publication date: 2022-09-13
Also published as: US20220343662A1; CN114187435A

Abstract

【課題】軽量化ネットワークを用いてテキストの認識を行うことでテキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くないテキストの認識の方法、装置、電子機器および記憶媒体を提供する。【解決手段】上記方法は、目標画像を受信することと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることと、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることとを含む。【選択図】図２

Description

本出願は、コンピュータ技術分野に関し、具体的には、深層学習技術分野に関し、特にテキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。

ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ，光学的文字認識）は、画像から文字情報を抽出する技術である。現在、このタスクは応用シーンが広く、地図作成中の扁額道路標識のアノテート、カード証票情報の抽出入力審査、工場の自動化、政府部門と病院などの文書の電子化、オンライン教育などのテキスト抽出認識が必要なシーンを含む。しかし、現在使用されているＯＣＲアルゴリズムは計算量が多く、計算用ハードウェアに対する要求が高い。

本出願はテキストの認識の方法、装置、電子機器および記憶媒体を提供する。

第１の態様によれば、目標画像を受信することと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることと、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることとを含むテキストの認識の方法を提供する。

第２の態様によれば、目標画像を受信するように構成される画像受信ユニットと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得るように構成されるテキスト検出ユニットと、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成されるテキスト認識ユニットと、を備えるテキストの認識の装置を提供する。

第３の態様によれば、少なくとも１つのプロセッサと、上記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも１つのプロセッサによって実行可能な指令が格納され、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに第１の態様に記載のテキストの認識の方法を実行させる、電子機器を提供する。

第４の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、上記コンピュータ指令は第１態様に記載のテキストの認識の方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。

第５の態様によれば、プロセッサによって実行されると、第１の態様に記載のテキストの認識の方法が実現されるコンピュータプログラムを含む、コンピュータプログラム製品を提供する。

本出願の技術によれば、軽量化ネットワークを用いてテキストの認識を行うことができるため、テキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くない。

なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって理解が容易になる。

図面は本出願をよりよく理解するために用いられ、本出願を限定するものではない。
本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。本出願に係るテキストの認識の方法の一実施形態のフローチャートである。本出願に係るテキストの認識の方法の一応用シーンの概略図である。本出願に係るテキストの認識の方法のもう一つの実施形態のフローチャートである。本出願に係るテキストの認識の装置の一実施形態の構造概略図である。本出願の実施形態に係るテキストの認識の方法が実現されるための電子機器のブロック図である。

以下は、図面を参照して本出願の例示的な実施形態を説明し、ここでは理解を助けるために、本出願の実施形態の様々な詳細を記載しているが、これらは単なる例示的なものに過ぎないと理解すべきである。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。

なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。

図１は、本出願に係るテキストの認識の方法またはテキストの認識の装置の実施形態が適用可能な例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供するための媒体として使用される。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。

ユーザは、メッセージを送受信するために、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と情報のやり取りをすることができる。端末装置１０１、１０２、１０３には、例えば、スキャンアプリケーションまたは画像処理アプリケーションなどの様々な通信クライアントアプリケーションをインストールしてもよい。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、車載コンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むことができるが、これらに限定されるものではない。端末装置１０１、１０２および１０３がソフトウェアである場合は、上記の電子機器にインストールされてもよい。複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。

サーバ１０５は、様々なサービスを提供するサーバ、例えば、端末装置１０１、１０２、１０３にテキスト処理のためのモデルを提供するバックエンドサーバであってもよい。バックエンドサーバは、様々な軽量化ネットワークモデルをトレーニングし、トレーニングされた軽量化ネットワークモデルを端末装置１０１、１０２、１０３にフィードバックしてもよい。

なお、サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ１０５がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。

なお、本出願の実施形態に係るテキストの認識の方法は、端末装置１０１、１０２、１０３によって実行されてもよいし、サーバ１０５によって実行されてもよい。対応して、テキストの認識の装置は、端末装置１０１、１０２、１０３に設けられてもよいし、サーバ１０５に設けられてもよい。

図１における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。

次に、本出願に係るテキストの認識の方法の一実施形態のフロー２００を示す図２を参照する。この実施形態のテキストの認識の方法は、以下のステップを含む。

ステップ２０１では、目標画像を受信する。
本実施形態では、テキストの認識の方法の実行主体は、様々な方法で目標画像を受信することができる。例えば、実行主体は、スキャンによって目標画像を取得してもよいし、種々の扁額を撮影して目標画像を取得してもよい。目標画像には、少なくとも１つのテキストが含まれてもよく、上記テキストは漢字、アルファベット等であってもよい。

ステップ２０２では、予めトレーニングされた軽量化テキスト検出ネットワークを用いて、目標画像のテキスト検出を行い、テキスト検出枠を得る。

実行主体は、目標画像を受信すると、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることができる。ここで軽量化テキスト検出ネットワークは、モバイル側での利用に適したバックボーンネットワーク、例えば、ＭｏｂｉｌｅＮｅｔ（ＭｏｂｉｌｅＮｅｔｓは流線形アーキテクチャに基づいて、深層分離可能な畳み込みを用いて軽量な深層ニューラルネットワークを構築する）、ＳｈｕｆｆｌｅＮｅｔなどのシリーズのモデルであってもよい。また、ネットワークをさらに軽量化するために、検出ヘッド（ｄｅｔｅｃｔｉｏｎｈｅａｄ）のチャネル数を削減してもよい。上記軽量化テキスト検出ネットワークは、蒸留によりトレーニングすることで得るか、または、トレーニングサンプルを用いてトレーニングすることで得るか、様々な方法でトレーニングすることで得ることができる。上記軽量化テキスト検出ネットワークは、テキスト検出枠を用いて、検出されたテキストをアノテート（ａｎｎｏｔａｔｅ）することができる。上記テキスト検出枠は、矩形であってもよく、上記矩形はテキストの連結領域の最小外接矩形であってもよい。

ステップ２０３では、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得る。

実行主体は、テキスト検出枠を得た後、さらに、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることができる。上記軽量化テキスト認識ネットワークは、モバイル側での使用に適したバックボーンネットワークであってもよく、その構成は軽量化テキスト検出ネットワークの構成と同じであってもよく異なっていてもよい。さらに、軽量化テキスト認識ネットワークのボリュームを小さくするために、検出ヘッドのチャネル数をさらに少なくしてもよい。テキスト認識結果には、認識された各種文字、例えば漢字、アルファベットなどが含まれてもよい。さらに、実行主体は、テキスト認識ネットワークの性能をユーザに理解させるために、各テキストの信頼度を表示するようにしてもよい。

次に、本出願に係るテキストの認識の方法の一の応用シーンの概略図を示す図３を参照する。図３の応用シーンでは、ユーザが端末を介して書類の画像をスキャンし、上記画像を目標画像としてさらなる処理を行う。端末に軽量化テキスト検出ネットワークと軽量化テキスト認識ネットワークをインストールすることにより、端末は上記目標画像に対してテキスト検出とテキスト認識を行って、テキスト認識結果を得ることができる。ユーザは、上記テキスト認識結果に対して、編集、コピー等の操作を行って、テキスト認識結果を修正したり、編集したりすることができるようになる。

本出願の上記実施形態に係るテキストの認識の方法は、軽量化ネットワークを用いてテキストの認識を行うことができ、それによってテキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くない。

さらに、本出願に係るテキストの認識の方法のもう一つの実施形態のフロー４００を示す図４を参照する。図４に示すように、本実施形態に係る方法は以下のステップを含んでもよい。

ステップ４０１では、目標画像を受信する。

ステップ４０２では、予めトレーニングされた軽量化テキスト検出ネットワークを用いて、目標画像のテキスト検出を行い、テキスト検出枠を得る。

ステップ４０３では、テキスト検出枠における各文字の配列方向を検出する。

実行主体は、各テキスト検出枠を確定した後、さらに、テキスト検出枠における各文字の配列方向を確定することができる。具体的には、実行主体は、テキスト検出枠内のテキスト画像に対して様々な画像処理を行い、各文字の矩形枠を確定してもよい。各文字の矩形枠の位置に基づいて、各文字の配列方向を判断する。上記配列方向は、水平方向、垂直方向、斜め方向を含んでもよい。

ステップ４０４では、テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、テキスト検出枠内の各文字が正方向であるか否かを判断する。

実行主体は、テキスト検出枠における各文字の配列方向が水平であると判断された場合、さらに、テキスト検出枠における各文字が正方向であるか否かを検出することができる。正方向とは、文字の正しい方向をいい、正方向でない場合は、横方向、逆方向などを含むことができ、つまり回転または鏡像変更によって正方向に変更する必要がある場合である。

ステップ４０５では、テキスト検出枠内の各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行う。

実行主体は、さらに、テキスト検出枠内の各文字が正方向であると判断された場合、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行うことができる。これにより、テキスト認識の精度を効果的に向上させることができる。

ステップ４０６では、テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整する。

本実施形態では、実行主体は、テキスト検出枠における各文字の配列方向が水平でないと判断された場合、各文字の配列方向が水平になるように各文字の位置を調整することができる。調整時には、実行主体は各文字列の頭文字を確定し、頭文字の位置を基準に他の文字の位置を変更してもよい。いくつかの具体的な実施形態において、実行主体は、同様に軽量化ネットワークを用いて文字位置の調整を行ってもよい。

本実施形態のいくつかのオプション的な実施形態において、上記軽量化テキスト検出ネットワークおよび／または軽量化テキスト認識ネットワークは、蒸留によってトレーニングすることで得られる。このようなトレーニング方法により、軽量化ネットワークの性能または効果を確保しつつ、トレーニング効率を向上させることができる。

本実施形態のいくつかのオプション的な実施形態において、上記軽量化テキスト検出ネットワークおよび／または軽量化テキスト認識ネットワークのボリュームをさらに小さくするために、上記軽量化テキスト検出ネットワークおよび／または軽量化テキスト認識ネットワークのパラメータを整数型に変換することができる。具体的には、実行主体は、様々な量子化方法によってパラメータのタイプを調整することができ、例えば、オフライン量子化、ＰＡＣＴ等の量子化方法によって、モデルパラメータを浮動小数点型から整数型に量子化することにより、モデルサイズをより小さくする目的を達成できる。

本出願の上記実施形態に係るテキストの認識の方法は、テキスト検出ネットワークおよびテキスト認識ネットワークのボリュームを様々な方法で低減させることができ、さらにＯＣＲシステムの容量を圧縮して端末における適用に便宜を図る。

さらに図５を参照すると、上記の各図に示された方法の実施態様として、本出願は、テキストの認識の装置の一実施形態を提供し、当該装置の実施形態は、図２に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。

図５に示すように、本実施形態のテキスト認識装置５００は、画像受信ユニット５０１と、テキスト検出ユニット５０２と、テキスト認識ユニット５０３とを備える。

画像受信ユニット５０１は目標画像を受信するように構成される。

テキスト検出ユニット５０２は、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得るように構成される。

テキスト認識ユニット５０３は、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成される。

本実施形態のいくつかのオプション的な実施形態において、テキスト認識ユニット５０３は、さらに、テキスト検出枠における各文字の配列方向を検出し、テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行うように構成されてもよい。

本実施形態のいくつかのオプション的な実施形態において、装置５００は、テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整するように構成される位置調整ユニットをさらに備えてもよい。

本実施形態のいくつかのオプション的な実施形態において、テキスト認識ユニット５０３は、テキスト検出枠における各文字が正方向であるか否かを判断し、テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行うようにさらに構成されてもよい。

本実施形態のいくつかのオプション的な実施形態において、軽量化テキスト検出ネットワークおよび／または軽量化テキスト認識ネットワークは、蒸留によってトレーニングすることで得られる。

本実施形態のいくつかのオプション的な実施形態において、装置５００は、軽量化テキスト検出ネットワークおよび／または軽量化テキスト認識ネットワークのパラメータを整数型に変換するように構成されるパラメータ変換ユニットをさらに備えてもよい。

テキスト認識装置５００に記載のユニット５０１～ユニット５０３はそれぞれ、図２を参照して記述した方法の各ステップに対応することを理解すべきである。したがって、テキストの認識の方法について上記で説明した動作および特徴は、装置５００およびその中に含まれるユニットに対しても同様に適用可能であり、ここではその説明を省略する。

本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗には反しない。

本出願の実施形態によれば、本出願は電子機器、読み取り可能な記憶媒体およびコンピュータプログラムをさらに提供する。

図６は、本出願の実施形態に係るテキストの認識の方法を実行するための電子機器６００のブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等のような様々な形態のデジタルコンピュータを表すものである。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等のような様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで記述および／または要求した本出願の実施形態を限定することを意図するものではない。

図６に示すように、電子機器６００は、読み出し専用メモリ（ＲＯＭ）６０２に格納されているコンピュータプログラムまたはメモリ６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムによって様々な適切な動作および処理を実行可能なプロセッサ６０１を備える。ＲＡＭ６０３には、電子機器６００の動作に必要な様々なプログラムおよびデータがさらに格納可能である。プロセッサ６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。Ｉ／Ｏインターフェース（入／出力インターフェース）６０５もバス６０４に接続されている。

電子機器６００において、キーボード、マウスなどの入力ユニット６０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット６０７と、磁気ディスク、光ディスクなどのメモリ６０８と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット６０９とを含む複数のコンポーネントは、Ｉ／Ｏインターフェース６０５に接続されている。通信ユニット６０９は、電子機器６００がインターネットなどのコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。

プロセッサ６０１は、処理および計算能力を有する様々な汎用および／または専用処理モジュールであってもよい。プロセッサ６０１のいくつかの例示としては、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々なプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、およびあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。プロセッサ６０１は、テキストの認識の方法のような上述した様々な方法および処理を実行する。例えば、いくつかの実施形態では、テキストの認識の方法は、メモリ６０８などの機械可読記憶媒体に有形に含まれたコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ６０２および／または通信ユニット６０９を介して電子機器６００にロードおよび／またはインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされ、プロセッサ６０１によって実行されると、上述したテキストの認識の方法における１つまたは複数のステップが実行され得る。あるいは、他の実施形態では、プロセッサ６０１は、他の任意の適切な形態によって（例えば、ファームウェアを介して）テキストの認識の方法を実行するように構成されてもよい。

ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、１つまたは複数のコンピュータプログラムに実装され、該１つまたは複数のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および／または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置および少なくとも一つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも一つの入力装置および該少なくとも一つの出力装置に伝送することを含み得る。

本出願の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。上記プログラムコードは、コンピュータプログラムとしてパッケージ化されてもよい。これらのプログラムコードまたはコンピュータプログラムは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサ６０１によって実行されると、フローチャートおよび／またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。

本出願のコンテキストでは、機械可読記憶媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読記憶媒体は、機械可読信号記憶媒体または機械可読記憶媒体であり得る。機械可読記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。

ユーザとのやりとりを提供するために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで記述したシステムおよび技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバ）に実施されてもよく、またはミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）に実施されてもよく、またはフロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは当該グラフィカルユーザインターフェースまたはウェブブラウザを介して、ここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）およびインターネットなどを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント－サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、従来の物理ホストとＶＰＳ（ＶＰＳ、ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決したクラウドコンピューティングサービスシステムにおけるホスト製品である。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。

上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行ってもよいことを理解すべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術方案の所望の効果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限はしない。

上記具体的な実施形態は本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要素に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

目標画像を受信することと、
予めトレーニングされた軽量化テキスト検出ネットワークを用いて前記目標画像のテキスト検出を行い、テキスト検出枠を得ることと、
予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることと
を含むテキストの認識の方法。
前記予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行うことは、
前記テキスト検出枠における各文字の配列方向を検出することと、
前記テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うことと
を含む請求項１に記載のテキストの認識の方法。
前記テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整することをさらに含む請求項２に記載のテキストの認識の方法。
前記予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行うことは、
前記テキスト検出枠における各文字が正方向であるか否かを判断することと、
前記テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うことを含む請求項２に記載のテキストの認識の方法。
前記軽量化テキスト検出ネットワークおよび／または前記軽量化テキスト認識ネットワークは、蒸留によりトレーニングすることで得る請求項１に記載のテキストの認識の方法。
前記軽量化テキスト検出ネットワークおよび／または前記軽量化テキスト認識ネットワークのパラメータを整数型に変換することをさらに含む請求項１に記載のテキストの認識の方法。
目標画像を受信するように構成される画像受信ユニットと、
予めトレーニングされた軽量化テキスト検出ネットワークを用いて前記目標画像のテキスト検出を行い、テキスト検出枠を得るように構成されるテキスト検出ユニットと、
予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成されるテキスト認識ユニットと、を備えるテキストの認識の装置。
前記テキスト認識ユニットは、さらに
前記テキスト検出枠における各文字の配列方向を検出し、
前記テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うように構成される請求項７に記載のテキストの認識の装置。
前記テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整するように構成される位置調整ユニットをさらに備える請求項８に記載のテキストの認識の装置。
前記テキスト認識ユニットは、さらに
前記テキスト検出枠における各文字が正方向であるか否かを判断し、
前記テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うように構成される請求項８に記載のテキストの認識の装置。
前記軽量化テキスト検出ネットワークおよび／または前記軽量化テキスト認識ネットワークは、蒸留によりトレーニングすることで得る請求項７に記載のテキストの認識の装置。
前記軽量化テキスト検出ネットワークおよび／または前記軽量化テキスト認識ネットワークのパラメータを整数型に変換するように構成されるパラメータ変換ユニットをさらに備える請求項７に記載のテキストの認識の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～６のいずれか１項に記載のテキストの認識の方法を実行させる、電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに請求項１～６のいずれか１項に記載のテキストの認識の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１～６のいずれか１項に記載のテキストの認識の方法が実行されるコンピュータプログラム。