JP2021103545A

JP2021103545A - テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品

Info

Publication number: JP2021103545A
Application number: JP2021043037A
Authority: JP
Inventors: 珊珊劉; Shanshan Liu; 成全章; Chengquan Zhang; 軒李; Ken Ri; 孟一恩; Mengyi En; 海倫許; Hailun Xu; 曉強張; Xiaoqiang Zhang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-04-28
Filing date: 2021-03-17
Publication date: 2021-07-15
Anticipated expiration: 2041-03-17
Also published as: KR20210036319A; CN111539438B; CN111539438A; JP7124153B2; EP3905112A1; US11810384B2; US20210334602A1

Abstract

【課題】文字盤の画像内のテキストコンテンツを正確、かつ、迅速に認識でき、計器盤の計測コンテンツの認識精度及び効率を向上させるテキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品を提供する。【解決手段】方法は、文字盤の画像を取得し、文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内の各行のテキストのテキストコンテンツを認識する。【選択図】図１

Description

本願は、コンピュータの技術分野におけるテキスト認識技術に関し、特に、テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品に関する。

計器盤は計測装置として、機械製造、水道システム、電力システム、自動車、医療などの様々な分野で広く適用されている。現在、計器による計測の技術の発展に伴い、従来の指針計器盤は徐々にデジタル計器盤に取って代わり、デジタル計器盤は、設置された液晶表示パネルなどの文字盤により、計測指標項目や計測値などの計測コンテンツを表示する。

計器盤の検針効率を向上させるために、現在、一般的には、計器盤に設置されたデータ収集装置により計器盤の画像を収集してから、サーバなどの電子機器により計器盤の画像内の計測コンテンツを認識する。しかしながら、現在、計器盤の計測コンテンツの認識プロセスにおいて、計測コンテンツの認識にエラーが発生しやすいため、計器盤の計測コンテンツの認識精度が低下する。

現在、計器盤の計測コンテンツの認識プロセスにおいて、認識精度が低いという問題があることが分かっている。

発明の内容

現在、計器盤の計測コンテンツの認識プロセスにおいて認識精度が低いという問題を解決するために、テキストコンテンツの認識方法、装置及び電子機器を提供する。

第１の態様に係る、電子機器に適用されるテキストコンテンツの認識方法は、文字盤の画像を取得するステップと、前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出するステップと、前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識するステップとを含む。

第２の態様に係る、電子機器に適用されるテキストコンテンツの認識装置は、文字盤の画像を取得する画像取得モジュールと、前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュールと、前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュールとを備える。

第３の態様に係る電子機器は、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信接続されたメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサに実行可能で、前記少なくとも１つのプロセッサによって実行されると、上記第１の態様に記載の方法を前記少なくとも１つのプロセッサに実行させる命令が記憶されている。

本願の第４の態様に係る、非一時的なコンピュータ可読記憶媒体には、上記第１の態様に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されている。

本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は文字盤の画像内のテキストコンテンツを正確かつ迅速に認識できるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。

本部分で説明された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書により容易に理解できる。

図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。

本願の第１の実施例に係る概略図その１である。本願の第１の実施例に係る概略図その２である。本願の第２の実施例に係る概略図その１である。本願の第２の実施例に係る概略図その２である。本願の第２の実施例に係る概略図その３である。本願の第２の実施例に係る概略図その４である。本願の第２の実施例に係る概略図その５である。本願の第２の実施例に係る概略図その６である。本願の実施例に係るテキストコンテンツの認識方法を実現する電子機器のブロック図である。

以下、図面を参照しながら本願の例示的な実施例を説明し、理解を容易にするための本願の実施例の様々な詳細を含むが、それらが単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確さと簡潔さのために、以下の説明では、公知の機能及び構造についての説明を省略する。

図１を参照すると、本願の実施例に係る、電子機器に適用可能なテキストコンテンツの認識方法は図１に示すように、以下のステップ１０１〜ステップ１０３を含む。

ステップ１０１では、文字盤の画像を取得する。

本願において、電子機器は、計器盤の撮像画像を受信した場合に、該計器盤の撮像画像から文字盤の画像を取得することができる。上記文字盤の画像は、撮像画像内の計器盤の文字盤の所在する領域の画像を含み、上記文字盤は計器盤における表示画面の所在する領域を指す。

例えば、図２に示すように、電子機器は、入力された計器盤の撮像画像２１を受信すると、撮像画像２１内の文字盤の所在する領域の画像２１１により、文字盤の画像２２を生成する。

なお、上記電子機器が計器盤の撮像画像により文字盤の画像を取得することは、以下のとおりであってよい。電子機器は、撮像画像内でオペレータが撮像画像内の計器盤の文字盤の所在する領域の画像を注釈する注釈操作を受け取り、該注釈操作に応答して、該注釈操作によって注釈された画像から上記文字盤の画像を生成する。

あるいは、いくつかの実施形態では、上記ステップ１０１は、計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するステップと、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定するステップと、前記文字盤領域の画像を前記文字盤の画像として出力するステップとを含んでよい。

電子機器は、計器盤の撮像画像に対してマルチスケール特徴処理、中心線検出、及び境界ボックス回帰処理を行うことにより、撮像画像内の計器盤の文字盤の位置を正確に識別できるため、計器盤内のテキストコンテンツの認識精度を向上させることができる。

撮像画像の画像特徴に対する上記マルチスケール特徴処理は、マルチスケール特徴処理を行うプリセットアルゴリズムで実現することができる。

具体的には、図２に示す品質管理プロセスにおいて、本体ネットワーク内の軽量ネットワーク（複合スケーリング法を使用して、従来の畳み込みニューラルネットワーク（ＣＮＮ）を最適化した軽量ネットワークＥｆｆｉｃｉｅｎｔＮｅｔＢ０Ｓｍａｌｌなど）を介して入力画像（即ち、上記撮像画像）に対して本体特徴抽出を行い、深層学習分割ネットワーク（ＵＮｅｔなど）と組み合わせて特徴次元のマルチスケール適応を実現し、つまり、まず、入力画像をダウンサンプリングし、次に、様々な程度の畳み込みにより、入力画像の深層特徴を学習して取得し（ＥｆｆｉｃｉｅｎｔＮｅｔＢ０Ｓｍａｌｌで実現し）、最後に、入力画像の深層特徴をアップサンプリングしてオリジナル画像のサイズに復元することにより、マルチスケール特徴を有する入力画像を取得する。アップサンプリングは、逆畳み込みによって実現される。ここで、軽量ネットワークを使用して撮像画像の画像特徴に対してマルチスケール特徴処理を行うことにより、処理の正確率及び効率を向上させることができる。

さらに、電子機器は、計器盤の撮像画像に対してマルチスケール特徴処理を行った後、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理をさらに行って、撮像画像内の文字盤領域を決定することができる。

具体的には、図２に示すように、マルチスケール特徴を有する入力画像を取得した後、電子機器は、品質管理プロセスのＥｓｔ検出中に、マルチスケール特徴を有する入力画像に分類と回帰をさらに行うことができる。例えば、分類ネットワークと回帰ネットワークは、いずれも２レベルの３×３のネットワークと一つの分類層を使用して、前景と回帰の位置情報を抽出し、かつ分類に対してｄｉｃｅ＿ｌｏｓｓを介して教師あり学習を行い、回帰に対してｓｍｏｏｔｈ＿ｌ１＿ｌｏｓｓを介して教師あり学習を行うことにより、文字盤の撮像画像内の位置を決定し、撮像画像内の文字盤領域の位置決めを実現する。

当然のことながら、撮像画像の画像特徴に対してマルチスケール特徴処理を行う上記ステップの前に、電子機器は、撮像画像に前処理を行うことができ、具体的には、上記撮像画像をプリセットサイズにトリミングし、かつ上記撮像画像に対して平均減算処理を行う。

例えば、上記計器盤の撮像画像を受信した場合に、電子機器は、入力画像を長辺に応じてプリセットサイズ（２５６スケールなど）に統一して変更することにより、文字盤の画像を取得する処理速度を向上させることができる。さらに、画像に対して平均減算処理を行うことにより、計算の複雑さを軽減すると共に、個々の特徴の違いを強調することができる。

ステップ１０２では、前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する。

本願において、電子機器は、上記文字盤の画像を取得した後、文字盤の画像内の少なくとも１本のテキスト中心線と少なくとも１つの境界ボックスとを検出することができる。少なくとも１本のテキスト中心線は少なくとも１つの境界ボックスに１対１で対応し、つまり、各テキスト中心線はそれに対応する境界ボックスを有する。

上記各テキスト中心線は、上記文字盤の画像内の各行のテキストの中心線であり、各境界ボックスは、それに対応するテキスト中心線上のテキストの外縁に沿って形成される枠である。

なお、前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する上記ステップは、テキスト中心線と境界ボックスとを検出する任意のプリセットアルゴリズムによって実現することができ、ここで限定しない。

具体的には、図２に示すエンドツーエンド認識（１段階ｏｎｅ−ｓｔａｇｅのエンドツーエンド認識であってよい）プロセスにおいて、電子機器は、文字盤の画像の特徴を検出ブランチの入力として、文字盤の画像のテキスト中心線を検出し、テキスト中心線の境界ボックスを回帰させる目標を達成することができる。該検出ブランチは、テキスト中心線の検出とテキスト中心線の境界ボックスの回帰の２つの部分に分かれ、具体的には、以下のとおりである。

テキスト中心線の検出中に、バックボーン特徴（文字盤の画像の特徴）から、まず、いくつかの畳み込み層より検出前の背景分類の特徴マップを取得し、単一のフィルタの畳み込み層により単一特徴マップ（ｍａｐ）を取得して、前景と背景の分割を表現し、分割された前景と背景に対して教師あり学習（例えば、ｄｉｃｅ−ｌｏｓｓ教師あり学習）を行って、前景が１、背景が０の特徴マップを取得し、特徴マップ内のテキスト中心線をハイライト形式とすることにより、文字盤の画像のテキスト中心を決定する。
テキスト中心線の境界ボックスの回帰中に、バックボーン特徴から、まず、いくつかの畳み込み層により高レベルの特徴を取得し、その後に、第１の数のフィルタ（例えば、４つのフィルタ）を含む畳み込み層により分類結果（分類結果には第１の数の特徴マップが含まれる）を取得する。第１の数の特徴マップ（例えば、４つの特徴マップ）は、中心線の上部境界と下部境界からの各ピクセルの（ｘ、ｙ）を表現する。最後に、第１の数の特徴マップに対して教師あり学習（例えば、ｓｍｏｏｔｈｌ１−ｌｏｓｓ教師あり学習）を行って、中心線の境界ボックスを回帰させる。

いくつかの実施形態では、上記ステップ１０２の前に、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するステップをさらに含む。

電子機器は、文字盤の画像に対してマルチスケール特徴処理を行うことにより、計器盤のテキスト認識プロセスを様々な解像度の文字盤の画像に適応させて、さらにテキストの認識精度を向上させることができる。

文字盤の画像の画像特徴に対してマルチスケール特徴処理を行う上記ステップは、マルチスケール特徴処理を行うプリセットアルゴリズムによって実現することができる。

具体的には、電子機器は、軽量ネットワーク（例えば、ＥｆｆｉｃｉｅｎｔＮｅｔＢ０Ｓｍａｌｌ）と特徴ピラミッドネットワーク（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ，ＦＰＮ）を介して、文字盤の画像の画像特徴に対するマルチスケール特徴処理を実現することができる。即ち、図２に示すように、エンドツーエンド認識プロセスの本体ネットワークにおいて、電子機器は、軽量ネットワークを使用して、文字盤の画像の異なるスケールの特徴を異なるブロック（ｂｌｏｃｋ）に格納し、ＦＰＮネットワークを介してより抽象的で、強力なセマンティックな高レベルの特徴マップをアップサンプリングし、その後に、該アップサンプリングされた特徴を前レベルの特徴に横方向に接続することにより、文字盤の画像の高レベルの特徴を強化し、各レベルの予測に使用される特徴マップ（Ｆｅａｔｕｒｅｍａｐ）が、異なる解像度とセマンティック強度が異なる特徴を融合し、対応する解像度の対象物の検出を完了でき、各レベルに適切な解像度と強力なセマンティック特徴があることを保証することができる。

当然のことながら、文字盤の画像を検出する上記ステップ１０２の前に、電子機器は、文字盤の画像に前処理を行うことができ、具体的には、上記ステップ１０２の前に、前記文字盤の画像に対して前処理を行うステップをさらに含み、前記前処理は、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含むため、文字盤の画像を取得する処理速度を向上させるだけでなく、計算の複雑さを軽減すると共に、個々の特徴の違いを強調することができる。

ステップ１０３では、前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。

本願において、上記電子機器は、上記少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出した後、上記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内の各行のテキストのテキストコンテンツを認識することができる。

少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内の各行のテキストのテキストコンテンツを認識する上記ステップは、テキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、該テキスト中心線上の該テキストを識別する任意の方法によって実現することができ、ここで限定しない。

具体的には、上記ステップ１０３は、ターゲットテキスト中心線と前記第１のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも１つのサンプリングポイントのテキスト特徴を取得するステップであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも１本のテキスト中心線のいずれか１つであるステップと、前記少なくとも１つのサンプリングポイントのテキスト特徴にシリアル化処理を行ってて、ターゲットテキストの特徴シーケンスを取得するステップと、プリセット損失関数でターゲットテキストの特徴シーケンスに教師あり学習を行うステップと、教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得するステップとを含んでよい。

テキスト中心線上のサンプリングポイントに特徴抽出を行い、かつ抽出された特徴に教師あり学習を行うことにより、テキスト中心線に対応するテキストコンテンツの認識を実現して、認識精度を向上させることができる。

電子機器は、いずれかのテキスト中心線と該テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内のターゲット行テキストに対応する少なくとも１つのサンプリングポイントのテキスト特徴を取得することができる。例えば、一般的なＣＮＮネットワークを使用することにより実現することができる。

あるいは、図２に示すように、認識ブランチは、検出出力位置のコンテンツの認識を実現するものであり、異なる認識タスクは分類カテゴリの数が異なり、カテゴリの数は、認識される文字の数を意味する。実現プロセスは以下のとおりである。電子機器は、エンドツーエンド認識プロセスにおける本体ネットワークによって出力された特徴（即ち、上記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに対応する特徴）を認識ブランチの入力として、畳み込み層と、カテゴリの数＋１個のフィルタにより全体図レベルの特徴であるテキスト特徴（ｆ＿ｃｈａｒとする）を抽出し、全体図レベルの特徴に基づいて、テキスト中心線上のテキストの特徴（即ち、ターゲット行テキストに対応する少なくとも１つのサンプリングポイントのテキスト特徴）を学習し、例えば、深層学習トレーニングフレームワーク統合ツールを使用して、ｇａｔｈｅｒ＿ｎｄ層（ｇａｔｈｅｒ＿ｎｄ層は、多次元ベクトルインデックスにより特徴マップから不連続な特徴を抽出することをサポートする）で特徴抽出を行い、即ち、データ処理段階でテキスト中心線上のサンプリングポイントの数を事前設定し、データ処理によってサンプリングポイントの位置と対応するラベル（ｌａｂｅｌ）を定義し、ｔｃｌ＿ｐｏｓとし、その後に、ｆ＿ｃｈａｒとｔｃｌ＿ｐｏｓをｇａｔｈｅｒ＿ｎｄ層に送り、テキスト中心線上のサンプリングポイントの特徴を取得し、取得されたサンプリングポイントの特徴の次元は、カテゴリの数＋１となる。

さらに、電子機器は、損失関数として一般的ｗａｒｐｃｔｃｌｏｓｓを使用して、ターゲットテキストの特徴シーケンスに対して教師あり学習を行い、ｃｔｃ復号によって予測されたサンプル（即ち、ターゲット行テキストのテキストコンテンツ）を取得して出力することができる。

いくつかの実施形態では、前記少なくとも１つのサンプリングポイントのテキスト特徴にシリアル化処理を行う上記ステップの前に、前記少なくとも１つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うステップをさらに含み、前記少なくとも１つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う前記ステップは、バックグラウンド抑制処理後の前記少なくとも１つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うステップを含む。

サンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行って、認識精度をさらに向上させることができる。

なお、抽出されたサンプリングポイントのテキスト特徴には前景情報と背景情報が含まれているため、電子機器は、上記抽出されたサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行い、例えば、ｍａｓｋにより背景ｍａｐの背景を強化し、前景ｍａｐの背景を抑制することにより、背景ｍａｐの背景予測確率がいずれも１であり、前景ｍａｐの背景予測確率が０であることを保証することができる。

本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は、文字盤の画像内のテキストコンテンツを正確かつ迅速に認識することができるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。

図３を参照すると、本願の実施例において、電子機器に適用されるテキストコンテンツの認識装置を提供する。テキストコンテンツの認識装置３００は、図３に示すように、文字盤の画像を取得する画像取得モジュール３０１と、前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュール３０２と、前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュール３０３とを備える。

好ましくは、図４に示すように、前記認識モジュール３０３は、ターゲットテキスト中心線と前記第１のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも１つのサンプリングポイントのテキスト特徴を取得する特徴取得ユニット３０３１であって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも１本のテキスト中心線のいずれか１つである特徴取得ユニット３０３１と、前記少なくとも１つのサンプリングポイントのテキスト特徴にシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得するシリアル化ユニット３０３２と、プリセット損失関数でターゲットテキストの特徴シーケンスに教師あり学習を行う教師あり学習ユニット３０３３と、教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得する復号ユニット３０３４とを備える。

好ましくは、図５に示すように、前記認識モジュール３０３は、前記少なくとも１つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うバックグラウンド抑制ユニット３０３５をさらに備え、前記シリアル化ユニット３０３２は、具体的には、バックグラウンド抑制処理後の前記少なくとも１つのサンプリングポイントのテキスト特徴にシリアル化処理を行う。

好ましくは、図６に示すように、前記装置３００は、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するマルチスケール特徴モジュール３０４をさらに備える。

好ましくは、図７に示すように、前記画像取得モジュール３０１は、計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するマルチスケール特徴ユニット３０１１と、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定する分類回帰ユニット３０１２と、前記文字盤領域の画像を前記文字盤の画像として出力する画像出力ユニット３０１３とを備える。

好ましくは、図８に示すように、前記装置３００は、前記文字盤の画像に対して前処理を行う前処理モジュール３０５をさらに備え、前記前処理は、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む。

なお、テキストコンテンツの認識装置３００は、本願の図１の方法の実施例における電子機器によって実現される各プロセスを実現し、かつ同じ有益な効果を達成することができ、重複を避けるために、ここでは説明を省略する。

本願の実施例によれば、本願は電子機器と読み取り可能な記憶媒体をさらに提供する。

図９は、本願の実施例に係るテキストコンテンツの認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータなどの、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、セルラー電話、スマートフォン、ウェアラブルデバイス、及びその他の類似するコンピューティングデバイスなどの、様々な形式のモバイルデバイスを表すこともできる。本明細書で示されているコンポーネントと、それらの接続及び関係と、それらの機能とは例示的ものに過ぎず、本明細書で説明及び／又は要求された本願の実現を制限することを意図するものではない。

図９に示すように、該電子機器は、一つ又は複数のプロセッサ９０１と、メモリ９０２と、各コンポーネントを接続し高速インタフェース及び低速インタフェースを備えるインタフェースと、を含む。各コンポーネントは異なるバスを介して相互に接続され、共通のマザーボードに取り付けられれもよく、必要に応じて他の方法で取り付けられてもよい。プロセッサは、メモリ内に記憶されている命令、又は外部入力／出力装置（例えば、インタフェースに結合された表示装置）にＧＵＩのグラフィック情報を表示するメモリ上の命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び／又は複数のバスを複数のメモリと共に使用することができる。同様に、それぞれが必要な操作の一部を提供する複数の電子機器（例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステム）を接続することができる。図９では、１つのプロセッサ９０１を例とする。

メモリ９０２は、即ち、本願に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも１つのプロセッサに実行可能で、本願に係るテキストコンテンツの認識方法を前記少なくとも１つのプロセッサに実行させる命令が記憶されている。本願の非一時的なコンピュータ可読記憶媒体には、本願に係るテキストコンテンツの認識方法をコンピュータに実行させるコンピュータ命令が記憶されている。

メモリ９０２は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本願の実施例におけるテキストコンテンツの認識方法に対応するプログラム命令／モジュール（例えば、図３に示す画像取得モジュール３０１、検出モジュール３０２及び認識モジュール３０３）を記憶することができる。プロセッサ９０１は、メモリ９０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上記方法実施例におけるテキストコンテンツの認識方法を実現する。

メモリ９０２は、プログラム記憶領域とデータ記憶領域を備えてもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、エコー遅延を検出する電子機器の使用により作成されたデータなどを記憶することができる。さらに、メモリ９０２は、高速ランダムアクセスメモリを備えてもよく、少なくとも１つの磁気ディスクメモリ装置、フラッシュメモリ装置、又は他の非一時的な固体メモリ装置などの非一時的なメモリをさらに備えてもよい。いくつかの実施例では、メモリ９０２は、好ましくは、プロセッサ９０１に対して遠隔設置されたメモリを備えてもよく、これらの遠隔メモリは、ネットワークを介してエコー遅延の検出の電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。

テキストコンテンツの認識方法の電子機器は、入力装置９０３及び出力装置９０４をさらに備えてもよい。プロセッサ９０１、メモリ９０２、入力装置９０３、及び出力装置９０４は、バス又は他の方法で接続することができ、図９では、バスを介する接続を例とする。

入力装置９０３は、入力された数字又は文字情報を受信し、かつエコー遅延の検出の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。入力装置は、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックである。出力装置９０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを備えてもよい。該表示装置は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えてもよいが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってよい。

本明細書で説明されたシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの実施形態は、１つ又は複数のコンピュータプログラムでの実行を含んでよく、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び／又は解釈することでき、該プログラム可能なプロセッサは、専用又は汎用プログラム可能なプロセッサでであってよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に送信することができる。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラム可能なプロセッサの機械命令を含み、高レベルの手順及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ／機械言語によって実行することができる。本明細書で使用された用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械命令及び／又はデータをプログラム可能なプロセッサに提供する任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械可読信号としての機械命令を受信する機械可読信媒体を含む。用語「機械可読信号」は、機械命令及び／又はデータをプログラム可能なプロセッサに提供する任意の信号を指す。

ユーザとの対話を提供するために、本明細書で説明されたシステム及び技術をコンピュータ上で実行することができ、該コンピュータは、ユーザに情報を表示する表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、該キーボードと該ポインティングデバイスによりコンピュータに入力を提供することができる。他のタイプの装置は、ユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック）であってよく、また、任意の形式（音響入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信することができる。

本明細書で説明されたシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとして）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、ユーザが本明細書で説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又はＷｅｂブラウザを備えたユーザコンピュータ）、又はそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、若しくはフロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実行することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムのコンポーネントを相互に接続することができる。通信ネットワークの例として、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットが挙げられる。

コンピュータシステムは、クライアントとサーバを備えてもよい。クライアントとサーバは通常、互いに遠く離れ、かつ一般的には通信ネットワークを介して対話する。対応するコンピュータ上で実行し、相互にクライアント−サーバの関係を持つコンピュータプログラムによりクライアントとサーバの関係を生成する。

本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は文字盤の画像内のテキストコンテンツを正確かつ迅速に認識することができるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。

上述した各形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本願に開示されている技術手段の所望の結果を達成できる限り、本願に記載の各ステップは、並行して、順次、又は異なる順序で実行してよいが、本明細書はこれを限定しない。

上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができることを理解すべきである。本願の精神及び原則の範囲内で行われた修正、同等置換、及び改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims

文字盤の画像を取得することと、
前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出することと、
前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識することと、
を含む、電子機器に適用されるテキストコンテンツの認識方法。
前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストを認識することが、
ターゲットテキスト中心線と前記第１のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも１つのサンプリングポイントのテキスト特徴を取得することであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも１本のテキスト中心線のいずれか１つであることと、
前記少なくとも１つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得することと、
プリセット損失関数でターゲットテキストの特徴シーケンスに対して教師あり学習を行うことと、
教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得することと、
を含む請求項１に記載の認識方法。
前記少なくとも１つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う前に、前記少なくとも１つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うことを含み、
前記少なくとも１つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うことが、バックグラウンド抑制処理後の前記少なくとも１つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うことを含む請求項２に記載の認識方法。
前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する前に、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得することを含む請求項１に記載の認識方法。
前記文字盤の画像を取得することが、
計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得することと、
マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定することと、
前記文字盤領域の画像を前記文字盤の画像として出力することと、
を含む請求項１に記載の認識方法。
前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する前に、前記文字盤の画像に対して前処理を行うことを含み、
前記前処理が、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む請求項１に記載の認識方法。
文字盤の画像を取得する画像取得モジュールと、
前記文字盤の画像内の少なくとも１本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュールと、
前記少なくとも１本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュールと、
を備える、電子機器に適用されるテキストコンテンツの認識装置。
前記認識モジュールが、
ターゲットテキスト中心線と前記第１のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも１つのサンプリングポイントのテキスト特徴を取得する特徴取得ユニットであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも１本のテキスト中心線のいずれか１つである特徴取得ユニットと、
前記少なくとも１つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得するシリアル化ユニットと、
プリセット損失関数でターゲットテキストの特徴シーケンスに対して教師あり学習を行う教師あり学習ユニットと、
教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得する復号ユニットと、
を備える請求項７に記載の認識装置。
前記認識モジュールが、前記少なくとも１つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うバックグラウンド抑制ユニットを備え、
前記シリアル化ユニットが、バックグラウンド抑制処理後の前記少なくとも１つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う請求項８に記載の認識装置。
前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するマルチスケール特徴モジュールを備える請求項７に記載の認識装置。
前記画像取得モジュールが、
計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するマルチスケール特徴ユニットと、
マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定する分類回帰ユニットと、
前記文字盤領域の画像を前記文字盤の画像として出力する画像出力ユニットと、
を備える請求項７に記載の認識装置。
前記文字盤の画像に対して前処理を行う前処理モジュールを備え、
前記前処理が、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む請求項７に記載の認識装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信接続されたメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサに実行可能で、前記少なくとも１つのプロセッサによって実行されると、請求項１から６のいずれか一項に記載の方法を前記少なくとも１つのプロセッサに実行させる命令が記憶されている電子機器。
コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ命令が、請求項１から６のいずれか一項に記載の方法をコンピュータに実行させる非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１から６のいずれか一項に記載の方法が実現されるコンピュータプログラムを備えるコンピュータプログラム製品。