JP2022133474A - テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2022133474A
JP2022133474A JP2022111007A JP2022111007A JP2022133474A JP 2022133474 A JP2022133474 A JP 2022133474A JP 2022111007 A JP2022111007 A JP 2022111007A JP 2022111007 A JP2022111007 A JP 2022111007A JP 2022133474 A JP2022133474 A JP 2022133474A
Authority
JP
Japan
Prior art keywords
text
network
text recognition
character
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022111007A
Other languages
English (en)
Inventor
杜宇寧
Yuning Du
楊▲イェ▼華
Yehua Yang
李晨霞
Chenxia Li
劉其文
Qiwen Liu
胡曉光
Xiaoguang Hu
于佃海
Dianhai Yu
馬艷軍
Yanjun Ma
畢然
Ran Bi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022133474A publication Critical patent/JP2022133474A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】軽量化ネットワークを用いてテキストの認識を行うことでテキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くないテキストの認識の方法、装置、電子機器および記憶媒体を提供する。【解決手段】上記方法は、目標画像を受信することと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることと、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることとを含む。【選択図】図2

Description

本出願は、コンピュータ技術分野に関し、具体的には、深層学習技術分野に関し、特にテキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
OCR(Optical Character Recognition,光学的文字認識)は、画像から文字情報を抽出する技術である。現在、このタスクは応用シーンが広く、地図作成中の扁額道路標識のアノテート、カード証票情報の抽出入力審査、工場の自動化、政府部門と病院などの文書の電子化、オンライン教育などのテキスト抽出認識が必要なシーンを含む。しかし、現在使用されているOCRアルゴリズムは計算量が多く、計算用ハードウェアに対する要求が高い。
本出願はテキストの認識の方法、装置、電子機器および記憶媒体を提供する。
第1の態様によれば、目標画像を受信することと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることと、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることとを含むテキストの認識の方法を提供する。
第2の態様によれば、目標画像を受信するように構成される画像受信ユニットと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得るように構成されるテキスト検出ユニットと、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成されるテキスト認識ユニットと、を備えるテキストの認識の装置を提供する。
第3の態様によれば、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様に記載のテキストの認識の方法を実行させる、電子機器を提供する。
第4の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、上記コンピュータ指令は第1態様に記載のテキストの認識の方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
第5の態様によれば、プロセッサによって実行されると、第1の態様に記載のテキストの認識の方法が実現されるコンピュータプログラムを含む、コンピュータプログラム製品を提供する。
本出願の技術によれば、軽量化ネットワークを用いてテキストの認識を行うことができるため、テキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くない。
なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって理解が容易になる。
図面は本出願をよりよく理解するために用いられ、本出願を限定するものではない。
本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。 本出願に係るテキストの認識の方法の一実施形態のフローチャートである。 本出願に係るテキストの認識の方法の一応用シーンの概略図である。 本出願に係るテキストの認識の方法のもう一つの実施形態のフローチャートである。 本出願に係るテキストの認識の装置の一実施形態の構造概略図である。 本出願の実施形態に係るテキストの認識の方法が実現されるための電子機器のブロック図である。
以下は、図面を参照して本出願の例示的な実施形態を説明し、ここでは理解を助けるために、本出願の実施形態の様々な詳細を記載しているが、これらは単なる例示的なものに過ぎないと理解すべきである。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。
図1は、本出願に係るテキストの認識の方法またはテキストの認識の装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103には、例えば、スキャンアプリケーションまたは画像処理アプリケーションなどの様々な通信クライアントアプリケーションをインストールしてもよい。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、車載コンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むことができるが、これらに限定されるものではない。端末装置101、102および103がソフトウェアである場合は、上記の電子機器にインストールされてもよい。複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
サーバ105は、様々なサービスを提供するサーバ、例えば、端末装置101、102、103にテキスト処理のためのモデルを提供するバックエンドサーバであってもよい。バックエンドサーバは、様々な軽量化ネットワークモデルをトレーニングし、トレーニングされた軽量化ネットワークモデルを端末装置101、102、103にフィードバックしてもよい。
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
なお、本出願の実施形態に係るテキストの認識の方法は、端末装置101、102、103によって実行されてもよいし、サーバ105によって実行されてもよい。対応して、テキストの認識の装置は、端末装置101、102、103に設けられてもよいし、サーバ105に設けられてもよい。
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
次に、本出願に係るテキストの認識の方法の一実施形態のフロー200を示す図2を参照する。この実施形態のテキストの認識の方法は、以下のステップを含む。
ステップ201では、目標画像を受信する。
本実施形態では、テキストの認識の方法の実行主体は、様々な方法で目標画像を受信することができる。例えば、実行主体は、スキャンによって目標画像を取得してもよいし、種々の扁額を撮影して目標画像を取得してもよい。目標画像には、少なくとも1つのテキストが含まれてもよく、上記テキストは漢字、アルファベット等であってもよい。
ステップ202では、予めトレーニングされた軽量化テキスト検出ネットワークを用いて、目標画像のテキスト検出を行い、テキスト検出枠を得る。
実行主体は、目標画像を受信すると、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることができる。ここで軽量化テキスト検出ネットワークは、モバイル側での利用に適したバックボーンネットワーク、例えば、MobileNet(MobileNetsは流線形アーキテクチャに基づいて、深層分離可能な畳み込みを用いて軽量な深層ニューラルネットワークを構築する)、ShuffleNetなどのシリーズのモデルであってもよい。また、ネットワークをさらに軽量化するために、検出ヘッド(detection head)のチャネル数を削減してもよい。上記軽量化テキスト検出ネットワークは、蒸留によりトレーニングすることで得るか、または、トレーニングサンプルを用いてトレーニングすることで得るか、様々な方法でトレーニングすることで得ることができる。上記軽量化テキスト検出ネットワークは、テキスト検出枠を用いて、検出されたテキストをアノテート(annotate)することができる。上記テキスト検出枠は、矩形であってもよく、上記矩形はテキストの連結領域の最小外接矩形であってもよい。
ステップ203では、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得る。
実行主体は、テキスト検出枠を得た後、さらに、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることができる。上記軽量化テキスト認識ネットワークは、モバイル側での使用に適したバックボーンネットワークであってもよく、その構成は軽量化テキスト検出ネットワークの構成と同じであってもよく異なっていてもよい。さらに、軽量化テキスト認識ネットワークのボリュームを小さくするために、検出ヘッドのチャネル数をさらに少なくしてもよい。テキスト認識結果には、認識された各種文字、例えば漢字、アルファベットなどが含まれてもよい。さらに、実行主体は、テキスト認識ネットワークの性能をユーザに理解させるために、各テキストの信頼度を表示するようにしてもよい。
次に、本出願に係るテキストの認識の方法の一の応用シーンの概略図を示す図3を参照する。図3の応用シーンでは、ユーザが端末を介して書類の画像をスキャンし、上記画像を目標画像としてさらなる処理を行う。端末に軽量化テキスト検出ネットワークと軽量化テキスト認識ネットワークをインストールすることにより、端末は上記目標画像に対してテキスト検出とテキスト認識を行って、テキスト認識結果を得ることができる。ユーザは、上記テキスト認識結果に対して、編集、コピー等の操作を行って、テキスト認識結果を修正したり、編集したりすることができるようになる。
本出願の上記実施形態に係るテキストの認識の方法は、軽量化ネットワークを用いてテキストの認識を行うことができ、それによってテキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くない。
さらに、本出願に係るテキストの認識の方法のもう一つの実施形態のフロー400を示す図4を参照する。図4に示すように、本実施形態に係る方法は以下のステップを含んでもよい。
ステップ401では、目標画像を受信する。
ステップ402では、予めトレーニングされた軽量化テキスト検出ネットワークを用いて、目標画像のテキスト検出を行い、テキスト検出枠を得る。
ステップ403では、テキスト検出枠における各文字の配列方向を検出する。
実行主体は、各テキスト検出枠を確定した後、さらに、テキスト検出枠における各文字の配列方向を確定することができる。具体的には、実行主体は、テキスト検出枠内のテキスト画像に対して様々な画像処理を行い、各文字の矩形枠を確定してもよい。各文字の矩形枠の位置に基づいて、各文字の配列方向を判断する。上記配列方向は、水平方向、垂直方向、斜め方向を含んでもよい。
ステップ404では、テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、テキスト検出枠内の各文字が正方向であるか否かを判断する。
実行主体は、テキスト検出枠における各文字の配列方向が水平であると判断された場合、さらに、テキスト検出枠における各文字が正方向であるか否かを検出することができる。正方向とは、文字の正しい方向をいい、正方向でない場合は、横方向、逆方向などを含むことができ、つまり回転または鏡像変更によって正方向に変更する必要がある場合である。
ステップ405では、テキスト検出枠内の各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行う。
実行主体は、さらに、テキスト検出枠内の各文字が正方向であると判断された場合、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行うことができる。これにより、テキスト認識の精度を効果的に向上させることができる。
ステップ406では、テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整する。
本実施形態では、実行主体は、テキスト検出枠における各文字の配列方向が水平でないと判断された場合、各文字の配列方向が水平になるように各文字の位置を調整することができる。調整時には、実行主体は各文字列の頭文字を確定し、頭文字の位置を基準に他の文字の位置を変更してもよい。いくつかの具体的な実施形態において、実行主体は、同様に軽量化ネットワークを用いて文字位置の調整を行ってもよい。
本実施形態のいくつかのオプション的な実施形態において、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークは、蒸留によってトレーニングすることで得られる。このようなトレーニング方法により、軽量化ネットワークの性能または効果を確保しつつ、トレーニング効率を向上させることができる。
本実施形態のいくつかのオプション的な実施形態において、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのボリュームをさらに小さくするために、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのパラメータを整数型に変換することができる。具体的には、実行主体は、様々な量子化方法によってパラメータのタイプを調整することができ、例えば、オフライン量子化、PACT等の量子化方法によって、モデルパラメータを浮動小数点型から整数型に量子化することにより、モデルサイズをより小さくする目的を達成できる。
本出願の上記実施形態に係るテキストの認識の方法は、テキスト検出ネットワークおよびテキスト認識ネットワークのボリュームを様々な方法で低減させることができ、さらにOCRシステムの容量を圧縮して端末における適用に便宜を図る。
さらに図5を参照すると、上記の各図に示された方法の実施態様として、本出願は、テキストの認識の装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図5に示すように、本実施形態のテキスト認識装置500は、画像受信ユニット501と、テキスト検出ユニット502と、テキスト認識ユニット503とを備える。
画像受信ユニット501は目標画像を受信するように構成される。
テキスト検出ユニット502は、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得るように構成される。
テキスト認識ユニット503は、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成される。
本実施形態のいくつかのオプション的な実施形態において、テキスト認識ユニット503は、さらに、テキスト検出枠における各文字の配列方向を検出し、テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行うように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、装置500は、テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整するように構成される位置調整ユニットをさらに備えてもよい。
本実施形態のいくつかのオプション的な実施形態において、テキスト認識ユニット503は、テキスト検出枠における各文字が正方向であるか否かを判断し、テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行うようにさらに構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークは、蒸留によってトレーニングすることで得られる。
本実施形態のいくつかのオプション的な実施形態において、装置500は、軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのパラメータを整数型に変換するように構成されるパラメータ変換ユニットをさらに備えてもよい。
テキスト認識装置500に記載のユニット501~ユニット503はそれぞれ、図2を参照して記述した方法の各ステップに対応することを理解すべきである。したがって、テキストの認識の方法について上記で説明した動作および特徴は、装置500およびその中に含まれるユニットに対しても同様に適用可能であり、ここではその説明を省略する。
本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗には反しない。
本出願の実施形態によれば、本出願は電子機器、読み取り可能な記憶媒体およびコンピュータプログラムをさらに提供する。
図6は、本出願の実施形態に係るテキストの認識の方法を実行するための電子機器600のブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等のような様々な形態のデジタルコンピュータを表すものである。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等のような様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているコンピュータプログラムまたはメモリ608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムによって様々な適切な動作および処理を実行可能なプロセッサ601を備える。RAM603には、電子機器600の動作に必要な様々なプログラムおよびデータがさらに格納可能である。プロセッサ601、ROM602およびRAM603は、バス604を介して互いに接続されている。I/Oインターフェース(入/出力インターフェース)605もバス604に接続されている。
電子機器600において、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどのメモリ608と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット609とを含む複数のコンポーネントは、I/Oインターフェース605に接続されている。通信ユニット609は、電子機器600がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
プロセッサ601は、処理および計算能力を有する様々な汎用および/または専用処理モジュールであってもよい。プロセッサ601のいくつかの例示としては、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々なプロセッサ、デジタル信号プロセッサ(DSP)、およびあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。プロセッサ601は、テキストの認識の方法のような上述した様々な方法および処理を実行する。例えば、いくつかの実施形態では、テキストの認識の方法は、メモリ608などの機械可読記憶媒体に有形に含まれたコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して電子機器600にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM603にロードされ、プロセッサ601によって実行されると、上述したテキストの認識の方法における1つまたは複数のステップが実行され得る。あるいは、他の実施形態では、プロセッサ601は、他の任意の適切な形態によって(例えば、ファームウェアを介して)テキストの認識の方法を実行するように構成されてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、該1つまたは複数のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置および少なくとも一つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも一つの入力装置および該少なくとも一つの出力装置に伝送することを含み得る。
本出願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。上記プログラムコードは、コンピュータプログラムとしてパッケージ化されてもよい。これらのプログラムコードまたはコンピュータプログラムは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサ601によって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本出願のコンテキストでは、機械可読記憶媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読記憶媒体は、機械可読信号記憶媒体または機械可読記憶媒体であり得る。機械可読記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのやりとりを提供するために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで記述したシステムおよび技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは当該グラフィカルユーザインターフェースまたはウェブブラウザを介して、ここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、従来の物理ホストとVPS(VPS、Virtual Private Server)サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決したクラウドコンピューティングサービスシステムにおけるホスト製品である。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行ってもよいことを理解すべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術方案の所望の効果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限はしない。
上記具体的な実施形態は本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要素に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (15)

  1. 目標画像を受信することと、
    予めトレーニングされた軽量化テキスト検出ネットワークを用いて前記目標画像のテキスト検出を行い、テキスト検出枠を得ることと、
    予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることと
    を含むテキストの認識の方法。
  2. 前記予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行うことは、
    前記テキスト検出枠における各文字の配列方向を検出することと、
    前記テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うことと
    を含む請求項1に記載のテキストの認識の方法。
  3. 前記テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整することをさらに含む請求項2に記載のテキストの認識の方法。
  4. 前記予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行うことは、
    前記テキスト検出枠における各文字が正方向であるか否かを判断することと、
    前記テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うことを含む請求項2に記載のテキストの認識の方法。
  5. 前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークは、蒸留によりトレーニングすることで得る請求項1に記載のテキストの認識の方法。
  6. 前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークのパラメータを整数型に変換することをさらに含む請求項1に記載のテキストの認識の方法。
  7. 目標画像を受信するように構成される画像受信ユニットと、
    予めトレーニングされた軽量化テキスト検出ネットワークを用いて前記目標画像のテキスト検出を行い、テキスト検出枠を得るように構成されるテキスト検出ユニットと、
    予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成されるテキスト認識ユニットと、を備えるテキストの認識の装置。
  8. 前記テキスト認識ユニットは、さらに
    前記テキスト検出枠における各文字の配列方向を検出し、
    前記テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うように構成される請求項7に記載のテキストの認識の装置。
  9. 前記テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整するように構成される位置調整ユニットをさらに備える請求項8に記載のテキストの認識の装置。
  10. 前記テキスト認識ユニットは、さらに
    前記テキスト検出枠における各文字が正方向であるか否かを判断し、
    前記テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うように構成される請求項8に記載のテキストの認識の装置。
  11. 前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークは、蒸留によりトレーニングすることで得る請求項7に記載のテキストの認識の装置。
  12. 前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークのパラメータを整数型に変換するように構成されるパラメータ変換ユニットをさらに備える請求項7に記載のテキストの認識の装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載のテキストの認識の方法を実行させる、電子機器。
  14. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令は、コンピュータに請求項1~6のいずれか1項に記載のテキストの認識の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
  15. プロセッサによって実行されると、請求項1~6のいずれか1項に記載のテキストの認識の方法が実行されるコンピュータプログラム。
JP2022111007A 2021-12-10 2022-07-11 テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム Pending JP2022133474A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111504537.8 2021-12-10
CN202111504537.8A CN114187435A (zh) 2021-12-10 2021-12-10 文本识别方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
JP2022133474A true JP2022133474A (ja) 2022-09-13

Family

ID=80604287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022111007A Pending JP2022133474A (ja) 2021-12-10 2022-07-11 テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (3)

Country Link
US (1) US20220343662A1 (ja)
JP (1) JP2022133474A (ja)
CN (1) CN114187435A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880486B (zh) * 2023-02-27 2023-06-02 广东电网有限责任公司肇庆供电局 一种目标检测网络蒸馏方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260274A (ja) * 2005-03-17 2006-09-28 Ricoh Co Ltd 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP2017173925A (ja) * 2016-03-18 2017-09-28 株式会社湯山製作所 光学文字認識装置
CN111860479A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4347513B2 (ja) * 2000-11-17 2009-10-21 シャープ株式会社 文字入力装置及び文字入力方法
CN111242126A (zh) * 2020-01-15 2020-06-05 上海眼控科技股份有限公司 不规则文本校正方法、装置、计算机设备和存储介质
CN113313111B (zh) * 2021-05-28 2024-02-13 北京百度网讯科技有限公司 文本识别方法、装置、设备和介质
CN113392827A (zh) * 2021-06-22 2021-09-14 平安健康保险股份有限公司 一种文字识别方法、装置、设备及介质
CN113627439A (zh) * 2021-08-11 2021-11-09 北京百度网讯科技有限公司 文本结构化处理方法、处理装置、电子设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006260274A (ja) * 2005-03-17 2006-09-28 Ricoh Co Ltd 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP2017173925A (ja) * 2016-03-18 2017-09-28 株式会社湯山製作所 光学文字認識装置
CN111860479A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
今井 拓司: "キオクシアが探るエッジDNNの最適実装枝刈り後にファイル単位で量子化する", NIKKEI ROBOTICS 第73号, JPN6023027371, 10 July 2021 (2021-07-10), JP, pages 28 - 33, ISSN: 0005100609 *
矢野 正基: "スナップショットアンサンブルを用いたDNNに対する蒸留手法の提案", 電子情報通信学会技術研究報告 VOL.117 NO.211 IEICE TECHNICAL REPORT, vol. 第117巻, JPN6023027370, 8 September 2017 (2017-09-08), JP, pages 53 - 58, ISSN: 0005100608 *

Also Published As

Publication number Publication date
US20220343662A1 (en) 2022-10-27
CN114187435A (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
JP7331171B2 (ja) 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
US10176409B2 (en) Method and apparatus for image character recognition model generation, and vertically-oriented character image recognition
WO2023015941A1 (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
WO2023116507A1 (zh) 一种目标检测模型的训练方法、目标检测的方法和装置
US20220415072A1 (en) Image processing method, text recognition method and apparatus
US20220309549A1 (en) Identifying key-value pairs in documents
US11810319B2 (en) Image detection method, device, storage medium and computer program product
JP2023541119A (ja) 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7273129B2 (ja) 車線検出方法、装置、電子機器、記憶媒体及び車両
CN113792854A (zh) 一种模型训练及字库建立方法、装置、设备及存储介质
JP7300034B2 (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
US20220189189A1 (en) Method of training cycle generative networks model, and method of building character library
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN113901907A (zh) 图文匹配模型训练方法、图文匹配方法及装置
CN113360699A (zh) 模型训练方法和装置、图像问答方法和装置
CN113627439A (zh) 文本结构化处理方法、处理装置、电子设备以及存储介质
JP7324891B2 (ja) バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
JP2022133474A (ja) テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2023036753A (ja) テキスト認識方法、テキスト認識モデルのトレーニング方法及び装置
US20230048495A1 (en) Method and platform of generating document, electronic device and storage medium
WO2023159819A1 (zh) 视觉处理及模型训练方法、设备、存储介质及程序产品
CN114724144B (zh) 文本识别方法、模型的训练方法、装置、设备及介质
JP2023133274A (ja) Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240213