JP2021103545A - テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 - Google Patents

テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP2021103545A
JP2021103545A JP2021043037A JP2021043037A JP2021103545A JP 2021103545 A JP2021103545 A JP 2021103545A JP 2021043037 A JP2021043037 A JP 2021043037A JP 2021043037 A JP2021043037 A JP 2021043037A JP 2021103545 A JP2021103545 A JP 2021103545A
Authority
JP
Japan
Prior art keywords
text
image
dial
centerline
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021043037A
Other languages
English (en)
Other versions
JP7124153B2 (ja
Inventor
珊珊 劉
Shanshan Liu
珊珊 劉
成全 章
Chengquan Zhang
成全 章
軒 李
Ken Ri
軒 李
孟一 恩
Mengyi En
孟一 恩
海倫 許
Hailun Xu
海倫 許
曉強 張
Xiaoqiang Zhang
曉強 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021103545A publication Critical patent/JP2021103545A/ja
Application granted granted Critical
Publication of JP7124153B2 publication Critical patent/JP7124153B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks

Abstract

【課題】文字盤の画像内のテキストコンテンツを正確、かつ、迅速に認識でき、計器盤の計測コンテンツの認識精度及び効率を向上させるテキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品を提供する。【解決手段】方法は、文字盤の画像を取得し、文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内の各行のテキストのテキストコンテンツを認識する。【選択図】図1

Description

本願は、コンピュータの技術分野におけるテキスト認識技術に関し、特に、テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品に関する。
計器盤は計測装置として、機械製造、水道システム、電力システム、自動車、医療などの様々な分野で広く適用されている。現在、計器による計測の技術の発展に伴い、従来の指針計器盤は徐々にデジタル計器盤に取って代わり、デジタル計器盤は、設置された液晶表示パネルなどの文字盤により、計測指標項目や計測値などの計測コンテンツを表示する。
計器盤の検針効率を向上させるために、現在、一般的には、計器盤に設置されたデータ収集装置により計器盤の画像を収集してから、サーバなどの電子機器により計器盤の画像内の計測コンテンツを認識する。しかしながら、現在、計器盤の計測コンテンツの認識プロセスにおいて、計測コンテンツの認識にエラーが発生しやすいため、計器盤の計測コンテンツの認識精度が低下する。
現在、計器盤の計測コンテンツの認識プロセスにおいて、認識精度が低いという問題があることが分かっている。
発明の内容
現在、計器盤の計測コンテンツの認識プロセスにおいて認識精度が低いという問題を解決するために、テキストコンテンツの認識方法、装置及び電子機器を提供する。
第1の態様に係る、電子機器に適用されるテキストコンテンツの認識方法は、文字盤の画像を取得するステップと、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出するステップと、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識するステップとを含む。
第2の態様に係る、電子機器に適用されるテキストコンテンツの認識装置は、文字盤の画像を取得する画像取得モジュールと、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュールと、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュールとを備える。
第3の態様に係る電子機器は、少なくとも1つのプロセッサと、該少なくとも1つのプロセッサと通信接続されたメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、上記第1の態様に記載の方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている。
本願の第4の態様に係る、非一時的なコンピュータ可読記憶媒体には、上記第1の態様に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されている。
本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は文字盤の画像内のテキストコンテンツを正確かつ迅速に認識できるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。
本部分で説明された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書により容易に理解できる。
図面は、本解決手段をよりよく理解するためのものであり、本願を限定するものではない。
本願の第1の実施例に係る概略図その1である。 本願の第1の実施例に係る概略図その2である。 本願の第2の実施例に係る概略図その1である。 本願の第2の実施例に係る概略図その2である。 本願の第2の実施例に係る概略図その3である。 本願の第2の実施例に係る概略図その4である。 本願の第2の実施例に係る概略図その5である。 本願の第2の実施例に係る概略図その6である。 本願の実施例に係るテキストコンテンツの認識方法を実現する電子機器のブロック図である。
以下、図面を参照しながら本願の例示的な実施例を説明し、理解を容易にするための本願の実施例の様々な詳細を含むが、それらが単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確さと簡潔さのために、以下の説明では、公知の機能及び構造についての説明を省略する。
図1を参照すると、本願の実施例に係る、電子機器に適用可能なテキストコンテンツの認識方法は図1に示すように、以下のステップ101〜ステップ103を含む。
ステップ101では、文字盤の画像を取得する。
本願において、電子機器は、計器盤の撮像画像を受信した場合に、該計器盤の撮像画像から文字盤の画像を取得することができる。上記文字盤の画像は、撮像画像内の計器盤の文字盤の所在する領域の画像を含み、上記文字盤は計器盤における表示画面の所在する領域を指す。
例えば、図2に示すように、電子機器は、入力された計器盤の撮像画像21を受信すると、撮像画像21内の文字盤の所在する領域の画像211により、文字盤の画像22を生成する。
なお、上記電子機器が計器盤の撮像画像により文字盤の画像を取得することは、以下のとおりであってよい。電子機器は、撮像画像内でオペレータが撮像画像内の計器盤の文字盤の所在する領域の画像を注釈する注釈操作を受け取り、該注釈操作に応答して、該注釈操作によって注釈された画像から上記文字盤の画像を生成する。
あるいは、いくつかの実施形態では、上記ステップ101は、計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するステップと、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定するステップと、前記文字盤領域の画像を前記文字盤の画像として出力するステップとを含んでよい。
電子機器は、計器盤の撮像画像に対してマルチスケール特徴処理、中心線検出、及び境界ボックス回帰処理を行うことにより、撮像画像内の計器盤の文字盤の位置を正確に識別できるため、計器盤内のテキストコンテンツの認識精度を向上させることができる。
撮像画像の画像特徴に対する上記マルチスケール特徴処理は、マルチスケール特徴処理を行うプリセットアルゴリズムで実現することができる。
具体的には、図2に示す品質管理プロセスにおいて、本体ネットワーク内の軽量ネットワーク(複合スケーリング法を使用して、従来の畳み込みニューラルネットワーク(CNN)を最適化した軽量ネットワークEfficientNetB0Smallなど)を介して入力画像(即ち、上記撮像画像)に対して本体特徴抽出を行い、深層学習分割ネットワーク(UNetなど)と組み合わせて特徴次元のマルチスケール適応を実現し、つまり、まず、入力画像をダウンサンプリングし、次に、様々な程度の畳み込みにより、入力画像の深層特徴を学習して取得し(EfficientNetB0Smallで実現し)、最後に、入力画像の深層特徴をアップサンプリングしてオリジナル画像のサイズに復元することにより、マルチスケール特徴を有する入力画像を取得する。アップサンプリングは、逆畳み込みによって実現される。ここで、軽量ネットワークを使用して撮像画像の画像特徴に対してマルチスケール特徴処理を行うことにより、処理の正確率及び効率を向上させることができる。
さらに、電子機器は、計器盤の撮像画像に対してマルチスケール特徴処理を行った後、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理をさらに行って、撮像画像内の文字盤領域を決定することができる。
具体的には、図2に示すように、マルチスケール特徴を有する入力画像を取得した後、電子機器は、品質管理プロセスのEst検出中に、マルチスケール特徴を有する入力画像に分類と回帰をさらに行うことができる。例えば、分類ネットワークと回帰ネットワークは、いずれも2レベルの3×3のネットワークと一つの分類層を使用して、前景と回帰の位置情報を抽出し、かつ分類に対してdice_lossを介して教師あり学習を行い、回帰に対してsmooth_l1_lossを介して教師あり学習を行うことにより、文字盤の撮像画像内の位置を決定し、撮像画像内の文字盤領域の位置決めを実現する。
当然のことながら、撮像画像の画像特徴に対してマルチスケール特徴処理を行う上記ステップの前に、電子機器は、撮像画像に前処理を行うことができ、具体的には、上記撮像画像をプリセットサイズにトリミングし、かつ上記撮像画像に対して平均減算処理を行う。
例えば、上記計器盤の撮像画像を受信した場合に、電子機器は、入力画像を長辺に応じてプリセットサイズ(256スケールなど)に統一して変更することにより、文字盤の画像を取得する処理速度を向上させることができる。さらに、画像に対して平均減算処理を行うことにより、計算の複雑さを軽減すると共に、個々の特徴の違いを強調することができる。
ステップ102では、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する。
本願において、電子機器は、上記文字盤の画像を取得した後、文字盤の画像内の少なくとも1本のテキスト中心線と少なくとも1つの境界ボックスとを検出することができる。少なくとも1本のテキスト中心線は少なくとも1つの境界ボックスに1対1で対応し、つまり、各テキスト中心線はそれに対応する境界ボックスを有する。
上記各テキスト中心線は、上記文字盤の画像内の各行のテキストの中心線であり、各境界ボックスは、それに対応するテキスト中心線上のテキストの外縁に沿って形成される枠である。
なお、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する上記ステップは、テキスト中心線と境界ボックスとを検出する任意のプリセットアルゴリズムによって実現することができ、ここで限定しない。
具体的には、図2に示すエンドツーエンド認識(1段階one−stageのエンドツーエンド認識であってよい)プロセスにおいて、電子機器は、文字盤の画像の特徴を検出ブランチの入力として、文字盤の画像のテキスト中心線を検出し、テキスト中心線の境界ボックスを回帰させる目標を達成することができる。該検出ブランチは、テキスト中心線の検出とテキスト中心線の境界ボックスの回帰の2つの部分に分かれ、具体的には、以下のとおりである。
テキスト中心線の検出中に、バックボーン特徴(文字盤の画像の特徴)から、まず、いくつかの畳み込み層より検出前の背景分類の特徴マップを取得し、単一のフィルタの畳み込み層により単一特徴マップ(map)を取得して、前景と背景の分割を表現し、分割された前景と背景に対して教師あり学習(例えば、dice−loss教師あり学習)を行って、前景が1、背景が0の特徴マップを取得し、特徴マップ内のテキスト中心線をハイライト形式とすることにより、文字盤の画像のテキスト中心を決定する。
テキスト中心線の境界ボックスの回帰中に、バックボーン特徴から、まず、いくつかの畳み込み層により高レベルの特徴を取得し、その後に、第1の数のフィルタ(例えば、4つのフィルタ)を含む畳み込み層により分類結果(分類結果には第1の数の特徴マップが含まれる)を取得する。第1の数の特徴マップ(例えば、4つの特徴マップ)は、中心線の上部境界と下部境界からの各ピクセルの(x、y)を表現する。最後に、第1の数の特徴マップに対して教師あり学習(例えば、smoothl1−loss教師あり学習)を行って、中心線の境界ボックスを回帰させる。
いくつかの実施形態では、上記ステップ102の前に、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するステップをさらに含む。
電子機器は、文字盤の画像に対してマルチスケール特徴処理を行うことにより、計器盤のテキスト認識プロセスを様々な解像度の文字盤の画像に適応させて、さらにテキストの認識精度を向上させることができる。
文字盤の画像の画像特徴に対してマルチスケール特徴処理を行う上記ステップは、マルチスケール特徴処理を行うプリセットアルゴリズムによって実現することができる。
具体的には、電子機器は、軽量ネットワーク(例えば、EfficientNetB0Small)と特徴ピラミッドネットワーク(Feature Pyramid Networks,FPN)を介して、文字盤の画像の画像特徴に対するマルチスケール特徴処理を実現することができる。即ち、図2に示すように、エンドツーエンド認識プロセスの本体ネットワークにおいて、電子機器は、軽量ネットワークを使用して、文字盤の画像の異なるスケールの特徴を異なるブロック(block)に格納し、FPNネットワークを介してより抽象的で、強力なセマンティックな高レベルの特徴マップをアップサンプリングし、その後に、該アップサンプリングされた特徴を前レベルの特徴に横方向に接続することにより、文字盤の画像の高レベルの特徴を強化し、各レベルの予測に使用される特徴マップ(Feature map)が、異なる解像度とセマンティック強度が異なる特徴を融合し、対応する解像度の対象物の検出を完了でき、各レベルに適切な解像度と強力なセマンティック特徴があることを保証することができる。
当然のことながら、文字盤の画像を検出する上記ステップ102の前に、電子機器は、文字盤の画像に前処理を行うことができ、具体的には、上記ステップ102の前に、前記文字盤の画像に対して前処理を行うステップをさらに含み、前記前処理は、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含むため、文字盤の画像を取得する処理速度を向上させるだけでなく、計算の複雑さを軽減すると共に、個々の特徴の違いを強調することができる。
ステップ103では、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。
本願において、上記電子機器は、上記少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出した後、上記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内の各行のテキストのテキストコンテンツを認識することができる。
少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内の各行のテキストのテキストコンテンツを認識する上記ステップは、テキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、該テキスト中心線上の該テキストを識別する任意の方法によって実現することができ、ここで限定しない。
具体的には、上記ステップ103は、ターゲットテキスト中心線と前記第1のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得するステップであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも1本のテキスト中心線のいずれか1つであるステップと、前記少なくとも1つのサンプリングポイントのテキスト特徴にシリアル化処理を行ってて、ターゲットテキストの特徴シーケンスを取得するステップと、プリセット損失関数でターゲットテキストの特徴シーケンスに教師あり学習を行うステップと、教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得するステップとを含んでよい。
テキスト中心線上のサンプリングポイントに特徴抽出を行い、かつ抽出された特徴に教師あり学習を行うことにより、テキスト中心線に対応するテキストコンテンツの認識を実現して、認識精度を向上させることができる。
電子機器は、いずれかのテキスト中心線と該テキスト中心線に対応する境界ボックスとに基づいて、文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得することができる。例えば、一般的なCNNネットワークを使用することにより実現することができる。
あるいは、図2に示すように、認識ブランチは、検出出力位置のコンテンツの認識を実現するものであり、異なる認識タスクは分類カテゴリの数が異なり、カテゴリの数は、認識される文字の数を意味する。実現プロセスは以下のとおりである。電子機器は、エンドツーエンド認識プロセスにおける本体ネットワークによって出力された特徴(即ち、上記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに対応する特徴)を認識ブランチの入力として、畳み込み層と、カテゴリの数+1個のフィルタにより全体図レベルの特徴であるテキスト特徴(f_charとする)を抽出し、全体図レベルの特徴に基づいて、テキスト中心線上のテキストの特徴(即ち、ターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴)を学習し、例えば、深層学習トレーニングフレームワーク統合ツールを使用して、gather_nd層(gather_nd層は、多次元ベクトルインデックスにより特徴マップから不連続な特徴を抽出することをサポートする)で特徴抽出を行い、即ち、データ処理段階でテキスト中心線上のサンプリングポイントの数を事前設定し、データ処理によってサンプリングポイントの位置と対応するラベル(label)を定義し、tcl_posとし、その後に、f_charとtcl_posをgather_nd層に送り、テキスト中心線上のサンプリングポイントの特徴を取得し、取得されたサンプリングポイントの特徴の次元は、カテゴリの数+1となる。
さらに、電子機器は、損失関数として一般的warpctc lossを使用して、ターゲットテキストの特徴シーケンスに対して教師あり学習を行い、ctc復号によって予測されたサンプル(即ち、ターゲット行テキストのテキストコンテンツ)を取得して出力することができる。
いくつかの実施形態では、前記少なくとも1つのサンプリングポイントのテキスト特徴にシリアル化処理を行う上記ステップの前に、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うステップをさらに含み、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う前記ステップは、バックグラウンド抑制処理後の前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うステップを含む。
サンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行って、認識精度をさらに向上させることができる。
なお、抽出されたサンプリングポイントのテキスト特徴には前景情報と背景情報が含まれているため、電子機器は、上記抽出されたサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行い、例えば、maskにより背景mapの背景を強化し、前景mapの背景を抑制することにより、背景mapの背景予測確率がいずれも1であり、前景mapの背景予測確率が0であることを保証することができる。
本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は、文字盤の画像内のテキストコンテンツを正確かつ迅速に認識することができるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。
図3を参照すると、本願の実施例において、電子機器に適用されるテキストコンテンツの認識装置を提供する。テキストコンテンツの認識装置300は、図3に示すように、文字盤の画像を取得する画像取得モジュール301と、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュール302と、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュール303とを備える。
好ましくは、図4に示すように、前記認識モジュール303は、ターゲットテキスト中心線と前記第1のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得する特徴取得ユニット3031であって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも1本のテキスト中心線のいずれか1つである特徴取得ユニット3031と、前記少なくとも1つのサンプリングポイントのテキスト特徴にシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得するシリアル化ユニット3032と、プリセット損失関数でターゲットテキストの特徴シーケンスに教師あり学習を行う教師あり学習ユニット3033と、教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得する復号ユニット3034とを備える。
好ましくは、図5に示すように、前記認識モジュール303は、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うバックグラウンド抑制ユニット3035をさらに備え、前記シリアル化ユニット3032は、具体的には、バックグラウンド抑制処理後の前記少なくとも1つのサンプリングポイントのテキスト特徴にシリアル化処理を行う。
好ましくは、図6に示すように、前記装置300は、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するマルチスケール特徴モジュール304をさらに備える。
好ましくは、図7に示すように、前記画像取得モジュール301は、計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するマルチスケール特徴ユニット3011と、マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定する分類回帰ユニット3012と、前記文字盤領域の画像を前記文字盤の画像として出力する画像出力ユニット3013とを備える。
好ましくは、図8に示すように、前記装置300は、前記文字盤の画像に対して前処理を行う前処理モジュール305をさらに備え、前記前処理は、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む。
なお、テキストコンテンツの認識装置300は、本願の図1の方法の実施例における電子機器によって実現される各プロセスを実現し、かつ同じ有益な効果を達成することができ、重複を避けるために、ここでは説明を省略する。
本願の実施例によれば、本願は電子機器と読み取り可能な記憶媒体をさらに提供する。
図9は、本願の実施例に係るテキストコンテンツの認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータなどの、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、セルラー電話、スマートフォン、ウェアラブルデバイス、及びその他の類似するコンピューティングデバイスなどの、様々な形式のモバイルデバイスを表すこともできる。本明細書で示されているコンポーネントと、それらの接続及び関係と、それらの機能とは例示的ものに過ぎず、本明細書で説明及び/又は要求された本願の実現を制限することを意図するものではない。
図9に示すように、該電子機器は、一つ又は複数のプロセッサ901と、メモリ902と、各コンポーネントを接続し高速インタフェース及び低速インタフェースを備えるインタフェースと、を含む。各コンポーネントは異なるバスを介して相互に接続され、共通のマザーボードに取り付けられれもよく、必要に応じて他の方法で取り付けられてもよい。プロセッサは、メモリ内に記憶されている命令、又は外部入力/出力装置(例えば、インタフェースに結合された表示装置)にGUIのグラフィック情報を表示するメモリ上の命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び/又は複数のバスを複数のメモリと共に使用することができる。同様に、それぞれが必要な操作の一部を提供する複数の電子機器(例えば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステム)を接続することができる。図9では、1つのプロセッサ901を例とする。
メモリ902は、即ち、本願に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも1つのプロセッサに実行可能で、本願に係るテキストコンテンツの認識方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている。本願の非一時的なコンピュータ可読記憶媒体には、本願に係るテキストコンテンツの認識方法をコンピュータに実行させるコンピュータ命令が記憶されている。
メモリ902は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本願の実施例におけるテキストコンテンツの認識方法に対応するプログラム命令/モジュール(例えば、図3に示す画像取得モジュール301、検出モジュール302及び認識モジュール303)を記憶することができる。プロセッサ901は、メモリ902に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上記方法実施例におけるテキストコンテンツの認識方法を実現する。
メモリ902は、プログラム記憶領域とデータ記憶領域を備えてもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができ、データ記憶領域は、エコー遅延を検出する電子機器の使用により作成されたデータなどを記憶することができる。さらに、メモリ902は、高速ランダムアクセスメモリを備えてもよく、少なくとも1つの磁気ディスクメモリ装置、フラッシュメモリ装置、又は他の非一時的な固体メモリ装置などの非一時的なメモリをさらに備えてもよい。いくつかの実施例では、メモリ902は、好ましくは、プロセッサ901に対して遠隔設置されたメモリを備えてもよく、これらの遠隔メモリは、ネットワークを介してエコー遅延の検出の電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
テキストコンテンツの認識方法の電子機器は、入力装置903及び出力装置904をさらに備えてもよい。プロセッサ901、メモリ902、入力装置903、及び出力装置904は、バス又は他の方法で接続することができ、図9では、バスを介する接続を例とする。
入力装置903は、入力された数字又は文字情報を受信し、かつエコー遅延の検出の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。入力装置は、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックである。出力装置904は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを備えてもよい。該表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えてもよいが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってよい。
本明細書で説明されたシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの実施形態は、1つ又は複数のコンピュータプログラムでの実行を含んでよく、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行及び/又は解釈することでき、該プログラム可能なプロセッサは、専用又は汎用プログラム可能なプロセッサでであってよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に送信することができる。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラム可能なプロセッサの機械命令を含み、高レベルの手順及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械言語によって実行することができる。本明細書で使用された用語「機械可読媒体」及び「コンピュータ可読媒体」は、機械命令及び/又はデータをプログラム可能なプロセッサに提供する任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械可読信号としての機械命令を受信する機械可読信媒体を含む。用語「機械可読信号」は、機械命令及び/又はデータをプログラム可能なプロセッサに提供する任意の信号を指す。
ユーザとの対話を提供するために、本明細書で説明されたシステム及び技術をコンピュータ上で実行することができ、該コンピュータは、ユーザに情報を表示する表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、該キーボードと該ポインティングデバイスによりコンピュータに入力を提供することができる。他のタイプの装置は、ユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってよく、また、任意の形式(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
本明細書で説明されたシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、ユーザが本明細書で説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又はWebブラウザを備えたユーザコンピュータ)、又はそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、若しくはフロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実行することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムのコンポーネントを相互に接続することができる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが挙げられる。
コンピュータシステムは、クライアントとサーバを備えてもよい。クライアントとサーバは通常、互いに遠く離れ、かつ一般的には通信ネットワークを介して対話する。対応するコンピュータ上で実行し、相互にクライアント−サーバの関係を持つコンピュータプログラムによりクライアントとサーバの関係を生成する。
本願において、文字盤の画像を取得し、前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出し、前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する。このように、電子機器は文字盤の画像内のテキストコンテンツを正確かつ迅速に認識することができるため、計器盤の計測コンテンツの認識精度及び効率を向上させる。
上述した各形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本願に開示されている技術手段の所望の結果を達成できる限り、本願に記載の各ステップは、並行して、順次、又は異なる順序で実行してよいが、本明細書はこれを限定しない。
上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができることを理解すべきである。本願の精神及び原則の範囲内で行われた修正、同等置換、及び改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims (15)

  1. 文字盤の画像を取得することと、
    前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出することと、
    前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識することと、
    を含む、電子機器に適用されるテキストコンテンツの認識方法。
  2. 前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストを認識することが、
    ターゲットテキスト中心線と前記第1のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得することであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも1本のテキスト中心線のいずれか1つであることと、
    前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得することと、
    プリセット損失関数でターゲットテキストの特徴シーケンスに対して教師あり学習を行うことと、
    教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得することと、
    を含む請求項1に記載の認識方法。
  3. 前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う前に、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うことを含み、
    前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うことが、バックグラウンド抑制処理後の前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行うことを含む請求項2に記載の認識方法。
  4. 前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する前に、前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得することを含む請求項1に記載の認識方法。
  5. 前記文字盤の画像を取得することが、
    計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得することと、
    マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定することと、
    前記文字盤領域の画像を前記文字盤の画像として出力することと、
    を含む請求項1に記載の認識方法。
  6. 前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する前に、前記文字盤の画像に対して前処理を行うことを含み、
    前記前処理が、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む請求項1に記載の認識方法。
  7. 文字盤の画像を取得する画像取得モジュールと、
    前記文字盤の画像内の少なくとも1本のテキスト中心線と、各テキスト中心線に対応する境界ボックスとを検出する検出モジュールと、
    前記少なくとも1本のテキスト中心線と各テキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内の各行のテキストのテキストコンテンツを認識する認識モジュールと、
    を備える、電子機器に適用されるテキストコンテンツの認識装置。
  8. 前記認識モジュールが、
    ターゲットテキスト中心線と前記第1のテキスト中心線に対応する境界ボックスとに基づいて、前記文字盤の画像内のターゲット行テキストに対応する少なくとも1つのサンプリングポイントのテキスト特徴を取得する特徴取得ユニットであって、前記ターゲット行テキストが前記ターゲットテキスト中心線に対応する境界ボックスにあり、前記ターゲットテキスト中心線が前記少なくとも1本のテキスト中心線のいずれか1つである特徴取得ユニットと、
    前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行って、ターゲットテキストの特徴シーケンスを取得するシリアル化ユニットと、
    プリセット損失関数でターゲットテキストの特徴シーケンスに対して教師あり学習を行う教師あり学習ユニットと、
    教師あり学習後の前記ターゲットテキストの特徴シーケンスを復号して、前記ターゲット行テキストのテキストコンテンツを取得する復号ユニットと、
    を備える請求項7に記載の認識装置。
  9. 前記認識モジュールが、前記少なくとも1つのサンプリングポイントのテキスト特徴に対してバックグラウンド抑制処理を行うバックグラウンド抑制ユニットを備え、
    前記シリアル化ユニットが、バックグラウンド抑制処理後の前記少なくとも1つのサンプリングポイントのテキスト特徴に対してシリアル化処理を行う請求項8に記載の認識装置。
  10. 前記文字盤の画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する文字盤の画像を取得するマルチスケール特徴モジュールを備える請求項7に記載の認識装置。
  11. 前記画像取得モジュールが、
    計器盤の撮像画像を受信した場合に、前記撮像画像の画像特徴に対してマルチスケール特徴処理を行って、マルチスケール特徴を有する撮像画像を取得するマルチスケール特徴ユニットと、
    マルチスケール特徴を有する撮像画像に対して特徴分類と回帰処理を行って、前記撮像画像内の文字盤領域を決定する分類回帰ユニットと、
    前記文字盤領域の画像を前記文字盤の画像として出力する画像出力ユニットと、
    を備える請求項7に記載の認識装置。
  12. 前記文字盤の画像に対して前処理を行う前処理モジュールを備え、
    前記前処理が、前記文字盤の画像をプリセットサイズにトリミングすることと、前記文字盤の画像に対して平均減算処理を行うこととを含む請求項7に記載の認識装置。
  13. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信接続されたメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサに実行可能で、前記少なくとも1つのプロセッサによって実行されると、請求項1から6のいずれか一項に記載の方法を前記少なくとも1つのプロセッサに実行させる命令が記憶されている電子機器。
  14. コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ命令が、請求項1から6のいずれか一項に記載の方法をコンピュータに実行させる非一時的なコンピュータ可読記憶媒体。
  15. プロセッサによって実行されると、請求項1から6のいずれか一項に記載の方法が実現されるコンピュータプログラムを備えるコンピュータプログラム製品。
JP2021043037A 2020-04-28 2021-03-17 テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品 Active JP7124153B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010349150.9 2020-04-28
CN202010349150.9A CN111539438B (zh) 2020-04-28 2020-04-28 文本内容的识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
JP2021103545A true JP2021103545A (ja) 2021-07-15
JP7124153B2 JP7124153B2 (ja) 2022-08-23

Family

ID=71980255

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021043037A Active JP7124153B2 (ja) 2020-04-28 2021-03-17 テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品

Country Status (5)

Country Link
US (1) US11810384B2 (ja)
EP (1) EP3905112A1 (ja)
JP (1) JP7124153B2 (ja)
KR (1) KR20210036319A (ja)
CN (1) CN111539438B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN112686843B (zh) * 2020-12-21 2023-09-15 福建新大陆软件工程有限公司 一种基于神经网络的木板缺陷检测方法及系统
CN114283411B (zh) * 2021-12-20 2022-11-15 北京百度网讯科技有限公司 文本识别方法、文本识别模型的训练方法及装置
CN114708580B (zh) * 2022-04-08 2024-04-16 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序
CN114882485A (zh) * 2022-04-25 2022-08-09 华南理工大学 一种面向细长文本的自然场景文字检测方法、系统及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160210507A1 (en) * 2015-01-16 2016-07-21 Sony Corporation Image processing system with layout analysis and method of operation thereof

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
US7644053B2 (en) * 2004-03-03 2010-01-05 The Boeing Company System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support
US7454063B1 (en) * 2005-09-22 2008-11-18 The United States Of America As Represented By The Director National Security Agency Method of optical character recognition using feature recognition and baseline estimation
US8271902B1 (en) * 2006-07-20 2012-09-18 Adobe Systems Incorporated Communication of emotions with data
US8670597B2 (en) * 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US8977639B2 (en) * 2009-12-02 2015-03-10 Google Inc. Actionable search results for visual queries
US9183224B2 (en) * 2009-12-02 2015-11-10 Google Inc. Identifying matching canonical documents in response to a visual query
US20110258195A1 (en) * 2010-01-15 2011-10-20 Girish Welling Systems and methods for automatically reducing data search space and improving data extraction accuracy using known constraints in a layout of extracted data elements
JP5768451B2 (ja) * 2011-04-07 2015-08-26 株式会社リコー コンテンツ処理装置、コンテンツ処理方法及びコンテンツ処理装置の制御プログラム
WO2013123171A1 (en) 2012-02-15 2013-08-22 Wayans Damon K Method and apparatus for implementing video game that includes social darts
CN104580110A (zh) 2013-10-24 2015-04-29 西安群丰电子信息科技有限公司 基于gprs的车载语音数据实时传输方法
JP6231453B2 (ja) * 2014-08-18 2017-11-15 株式会社日立製作所 通信制御装置
CN105574526A (zh) * 2015-12-10 2016-05-11 广东小天才科技有限公司 一种实现逐行扫描的方法及系统
CN106485246B (zh) * 2016-09-19 2019-07-16 北京小米移动软件有限公司 字符识别方法及装置
CN107967471A (zh) 2017-09-20 2018-04-27 北京工业大学 一种基于机器视觉的表具自动识别方法
CN109993040B (zh) 2018-01-03 2021-07-30 北京世纪好未来教育科技有限公司 文本识别方法及装置
CN108805131B (zh) * 2018-05-22 2021-08-10 北京旷视科技有限公司 文本行检测方法、装置及系统
CN110033000B (zh) * 2019-03-21 2021-05-18 华中科技大学 一种票据图像的文本检测与识别方法
CN110032990A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种发票文本识别方法、系统及相关组件
CN110197227B (zh) 2019-05-30 2023-10-27 成都中科艾瑞科技有限公司 一种多模型融合的仪表读数智能识别方法
CN110458011A (zh) 2019-07-05 2019-11-15 北京百度网讯科技有限公司 端到端的文字识别方法及装置、计算机设备及可读介质
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110598690B (zh) * 2019-08-01 2023-04-28 达而观信息科技(上海)有限公司 一种端到端光学字符检测识别方法与系统
CN110458107B (zh) * 2019-08-13 2023-06-16 北京百度网讯科技有限公司 用于图像识别的方法和装置
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及系统
CN110929665B (zh) * 2019-11-29 2022-08-26 河海大学 一种自然场景曲线文本检测方法
CN111027613A (zh) * 2019-12-04 2020-04-17 浙江省北大信息技术高等研究院 一种场景文字识别方法、装置、存储介质及终端
CN111027456B (zh) * 2019-12-06 2023-06-20 四川杰森机电有限公司 基于图像识别的机械水表读数识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160210507A1 (en) * 2015-01-16 2016-07-21 Sony Corporation Image processing system with layout analysis and method of operation thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEI FENG ET AL.: "TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting", 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6022010338, 27 October 2019 (2019-10-27), pages 9075 - 9084, XP033723342, ISSN: 0004727915, DOI: 10.1109/ICCV.2019.00917 *

Also Published As

Publication number Publication date
KR20210036319A (ko) 2021-04-02
CN111539438B (zh) 2024-01-12
CN111539438A (zh) 2020-08-14
JP7124153B2 (ja) 2022-08-23
EP3905112A1 (en) 2021-11-03
US11810384B2 (en) 2023-11-07
US20210334602A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
JP2021103545A (ja) テキストコンテンツの認識方法、装置、電子機器及びコンピュータプログラム製品
US11694461B2 (en) Optical character recognition method and apparatus, electronic device and storage medium
US11710215B2 (en) Face super-resolution realization method and apparatus, electronic device and storage medium
US20210216717A1 (en) Method, electronic device and storage medium for generating information
CN110569846A (zh) 图像文字识别方法、装置、设备及存储介质
US11763552B2 (en) Method for detecting surface defect, method for training model, apparatus, device, and media
EP3859604A2 (en) Image recognition method and apparatus, device, and computer storage medium
US20210209401A1 (en) Character recognition method and apparatus, electronic device and computer readable storage medium
EP3852011A2 (en) Method and apparatus for determining target anchor, device and storage medium
CN112270399A (zh) 基于深度学习的算子注册处理方法、装置及电子设备
US11468655B2 (en) Method and apparatus for extracting information, device and storage medium
US11921276B2 (en) Method and apparatus for evaluating image relative definition, device and medium
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
US11704811B2 (en) Method and apparatus for generating background-free image, device, and medium
CN111783998B (zh) 一种违规账号识别模型训练方法、装置及电子设备
CN111967490A (zh) 用于地图检测的模型训练方法和地图检测方法
CN115409990A (zh) 一种医学图像分割方法、装置、设备及存储介质
CN112508027B (zh) 用于实例分割的头部模型、实例分割模型、图像分割方法及装置
CN112560459B (zh) 用于模型训练的样本筛选方法、装置、设备及存储介质
CN112001369B (zh) 船舶烟囱的检测方法、装置、电子设备及可读存储介质
US20210192725A1 (en) Method, apparatus and electronic device for determining skin smoothness
CN112558810A (zh) 检测指尖位置的方法、装置、设备和存储介质
JP7269979B2 (ja) 歩行者を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112101368B (zh) 一种字符图像处理方法、装置、设备和介质
CN117952938A (zh) 一种图像检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220810

R150 Certificate of patent or registration of utility model

Ref document number: 7124153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150