JP2022133474A - テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents
テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2022133474A JP2022133474A JP2022111007A JP2022111007A JP2022133474A JP 2022133474 A JP2022133474 A JP 2022133474A JP 2022111007 A JP2022111007 A JP 2022111007A JP 2022111007 A JP2022111007 A JP 2022111007A JP 2022133474 A JP2022133474 A JP 2022133474A
- Authority
- JP
- Japan
- Prior art keywords
- text
- network
- text recognition
- character
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004590 computer program Methods 0.000 title claims description 13
- 238000001514 detection method Methods 0.000 claims abstract description 95
- 230000004044 response Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 238000004821 distillation Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
【課題】軽量化ネットワークを用いてテキストの認識を行うことでテキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くないテキストの認識の方法、装置、電子機器および記憶媒体を提供する。【解決手段】上記方法は、目標画像を受信することと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることと、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることとを含む。【選択図】図2
Description
本出願は、コンピュータ技術分野に関し、具体的には、深層学習技術分野に関し、特にテキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
OCR(Optical Character Recognition,光学的文字認識)は、画像から文字情報を抽出する技術である。現在、このタスクは応用シーンが広く、地図作成中の扁額道路標識のアノテート、カード証票情報の抽出入力審査、工場の自動化、政府部門と病院などの文書の電子化、オンライン教育などのテキスト抽出認識が必要なシーンを含む。しかし、現在使用されているOCRアルゴリズムは計算量が多く、計算用ハードウェアに対する要求が高い。
本出願はテキストの認識の方法、装置、電子機器および記憶媒体を提供する。
第1の態様によれば、目標画像を受信することと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることと、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることとを含むテキストの認識の方法を提供する。
第2の態様によれば、目標画像を受信するように構成される画像受信ユニットと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得るように構成されるテキスト検出ユニットと、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成されるテキスト認識ユニットと、を備えるテキストの認識の装置を提供する。
第3の態様によれば、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様に記載のテキストの認識の方法を実行させる、電子機器を提供する。
第4の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、上記コンピュータ指令は第1態様に記載のテキストの認識の方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
第5の態様によれば、プロセッサによって実行されると、第1の態様に記載のテキストの認識の方法が実現されるコンピュータプログラムを含む、コンピュータプログラム製品を提供する。
本出願の技術によれば、軽量化ネットワークを用いてテキストの認識を行うことができるため、テキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くない。
なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって理解が容易になる。
図面は本出願をよりよく理解するために用いられ、本出願を限定するものではない。
本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
本出願に係るテキストの認識の方法の一実施形態のフローチャートである。
本出願に係るテキストの認識の方法の一応用シーンの概略図である。
本出願に係るテキストの認識の方法のもう一つの実施形態のフローチャートである。
本出願に係るテキストの認識の装置の一実施形態の構造概略図である。
本出願の実施形態に係るテキストの認識の方法が実現されるための電子機器のブロック図である。
以下は、図面を参照して本出願の例示的な実施形態を説明し、ここでは理解を助けるために、本出願の実施形態の様々な詳細を記載しているが、これらは単なる例示的なものに過ぎないと理解すべきである。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。
図1は、本出願に係るテキストの認識の方法またはテキストの認識の装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103には、例えば、スキャンアプリケーションまたは画像処理アプリケーションなどの様々な通信クライアントアプリケーションをインストールしてもよい。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、車載コンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むことができるが、これらに限定されるものではない。端末装置101、102および103がソフトウェアである場合は、上記の電子機器にインストールされてもよい。複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
サーバ105は、様々なサービスを提供するサーバ、例えば、端末装置101、102、103にテキスト処理のためのモデルを提供するバックエンドサーバであってもよい。バックエンドサーバは、様々な軽量化ネットワークモデルをトレーニングし、トレーニングされた軽量化ネットワークモデルを端末装置101、102、103にフィードバックしてもよい。
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
なお、本出願の実施形態に係るテキストの認識の方法は、端末装置101、102、103によって実行されてもよいし、サーバ105によって実行されてもよい。対応して、テキストの認識の装置は、端末装置101、102、103に設けられてもよいし、サーバ105に設けられてもよい。
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
次に、本出願に係るテキストの認識の方法の一実施形態のフロー200を示す図2を参照する。この実施形態のテキストの認識の方法は、以下のステップを含む。
ステップ201では、目標画像を受信する。
本実施形態では、テキストの認識の方法の実行主体は、様々な方法で目標画像を受信することができる。例えば、実行主体は、スキャンによって目標画像を取得してもよいし、種々の扁額を撮影して目標画像を取得してもよい。目標画像には、少なくとも1つのテキストが含まれてもよく、上記テキストは漢字、アルファベット等であってもよい。
本実施形態では、テキストの認識の方法の実行主体は、様々な方法で目標画像を受信することができる。例えば、実行主体は、スキャンによって目標画像を取得してもよいし、種々の扁額を撮影して目標画像を取得してもよい。目標画像には、少なくとも1つのテキストが含まれてもよく、上記テキストは漢字、アルファベット等であってもよい。
ステップ202では、予めトレーニングされた軽量化テキスト検出ネットワークを用いて、目標画像のテキスト検出を行い、テキスト検出枠を得る。
実行主体は、目標画像を受信すると、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることができる。ここで軽量化テキスト検出ネットワークは、モバイル側での利用に適したバックボーンネットワーク、例えば、MobileNet(MobileNetsは流線形アーキテクチャに基づいて、深層分離可能な畳み込みを用いて軽量な深層ニューラルネットワークを構築する)、ShuffleNetなどのシリーズのモデルであってもよい。また、ネットワークをさらに軽量化するために、検出ヘッド(detection head)のチャネル数を削減してもよい。上記軽量化テキスト検出ネットワークは、蒸留によりトレーニングすることで得るか、または、トレーニングサンプルを用いてトレーニングすることで得るか、様々な方法でトレーニングすることで得ることができる。上記軽量化テキスト検出ネットワークは、テキスト検出枠を用いて、検出されたテキストをアノテート(annotate)することができる。上記テキスト検出枠は、矩形であってもよく、上記矩形はテキストの連結領域の最小外接矩形であってもよい。
ステップ203では、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得る。
実行主体は、テキスト検出枠を得た後、さらに、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることができる。上記軽量化テキスト認識ネットワークは、モバイル側での使用に適したバックボーンネットワークであってもよく、その構成は軽量化テキスト検出ネットワークの構成と同じであってもよく異なっていてもよい。さらに、軽量化テキスト認識ネットワークのボリュームを小さくするために、検出ヘッドのチャネル数をさらに少なくしてもよい。テキスト認識結果には、認識された各種文字、例えば漢字、アルファベットなどが含まれてもよい。さらに、実行主体は、テキスト認識ネットワークの性能をユーザに理解させるために、各テキストの信頼度を表示するようにしてもよい。
次に、本出願に係るテキストの認識の方法の一の応用シーンの概略図を示す図3を参照する。図3の応用シーンでは、ユーザが端末を介して書類の画像をスキャンし、上記画像を目標画像としてさらなる処理を行う。端末に軽量化テキスト検出ネットワークと軽量化テキスト認識ネットワークをインストールすることにより、端末は上記目標画像に対してテキスト検出とテキスト認識を行って、テキスト認識結果を得ることができる。ユーザは、上記テキスト認識結果に対して、編集、コピー等の操作を行って、テキスト認識結果を修正したり、編集したりすることができるようになる。
本出願の上記実施形態に係るテキストの認識の方法は、軽量化ネットワークを用いてテキストの認識を行うことができ、それによってテキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くない。
さらに、本出願に係るテキストの認識の方法のもう一つの実施形態のフロー400を示す図4を参照する。図4に示すように、本実施形態に係る方法は以下のステップを含んでもよい。
ステップ401では、目標画像を受信する。
ステップ402では、予めトレーニングされた軽量化テキスト検出ネットワークを用いて、目標画像のテキスト検出を行い、テキスト検出枠を得る。
ステップ403では、テキスト検出枠における各文字の配列方向を検出する。
実行主体は、各テキスト検出枠を確定した後、さらに、テキスト検出枠における各文字の配列方向を確定することができる。具体的には、実行主体は、テキスト検出枠内のテキスト画像に対して様々な画像処理を行い、各文字の矩形枠を確定してもよい。各文字の矩形枠の位置に基づいて、各文字の配列方向を判断する。上記配列方向は、水平方向、垂直方向、斜め方向を含んでもよい。
ステップ404では、テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、テキスト検出枠内の各文字が正方向であるか否かを判断する。
実行主体は、テキスト検出枠における各文字の配列方向が水平であると判断された場合、さらに、テキスト検出枠における各文字が正方向であるか否かを検出することができる。正方向とは、文字の正しい方向をいい、正方向でない場合は、横方向、逆方向などを含むことができ、つまり回転または鏡像変更によって正方向に変更する必要がある場合である。
ステップ405では、テキスト検出枠内の各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行う。
実行主体は、さらに、テキスト検出枠内の各文字が正方向であると判断された場合、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行うことができる。これにより、テキスト認識の精度を効果的に向上させることができる。
ステップ406では、テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整する。
本実施形態では、実行主体は、テキスト検出枠における各文字の配列方向が水平でないと判断された場合、各文字の配列方向が水平になるように各文字の位置を調整することができる。調整時には、実行主体は各文字列の頭文字を確定し、頭文字の位置を基準に他の文字の位置を変更してもよい。いくつかの具体的な実施形態において、実行主体は、同様に軽量化ネットワークを用いて文字位置の調整を行ってもよい。
本実施形態のいくつかのオプション的な実施形態において、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークは、蒸留によってトレーニングすることで得られる。このようなトレーニング方法により、軽量化ネットワークの性能または効果を確保しつつ、トレーニング効率を向上させることができる。
本実施形態のいくつかのオプション的な実施形態において、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのボリュームをさらに小さくするために、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのパラメータを整数型に変換することができる。具体的には、実行主体は、様々な量子化方法によってパラメータのタイプを調整することができ、例えば、オフライン量子化、PACT等の量子化方法によって、モデルパラメータを浮動小数点型から整数型に量子化することにより、モデルサイズをより小さくする目的を達成できる。
本出願の上記実施形態に係るテキストの認識の方法は、テキスト検出ネットワークおよびテキスト認識ネットワークのボリュームを様々な方法で低減させることができ、さらにOCRシステムの容量を圧縮して端末における適用に便宜を図る。
さらに図5を参照すると、上記の各図に示された方法の実施態様として、本出願は、テキストの認識の装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図5に示すように、本実施形態のテキスト認識装置500は、画像受信ユニット501と、テキスト検出ユニット502と、テキスト認識ユニット503とを備える。
画像受信ユニット501は目標画像を受信するように構成される。
テキスト検出ユニット502は、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得るように構成される。
テキスト認識ユニット503は、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成される。
本実施形態のいくつかのオプション的な実施形態において、テキスト認識ユニット503は、さらに、テキスト検出枠における各文字の配列方向を検出し、テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行うように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、装置500は、テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整するように構成される位置調整ユニットをさらに備えてもよい。
本実施形態のいくつかのオプション的な実施形態において、テキスト認識ユニット503は、テキスト検出枠における各文字が正方向であるか否かを判断し、テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行うようにさらに構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークは、蒸留によってトレーニングすることで得られる。
本実施形態のいくつかのオプション的な実施形態において、装置500は、軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのパラメータを整数型に変換するように構成されるパラメータ変換ユニットをさらに備えてもよい。
テキスト認識装置500に記載のユニット501~ユニット503はそれぞれ、図2を参照して記述した方法の各ステップに対応することを理解すべきである。したがって、テキストの認識の方法について上記で説明した動作および特徴は、装置500およびその中に含まれるユニットに対しても同様に適用可能であり、ここではその説明を省略する。
本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗には反しない。
本出願の実施形態によれば、本出願は電子機器、読み取り可能な記憶媒体およびコンピュータプログラムをさらに提供する。
図6は、本出願の実施形態に係るテキストの認識の方法を実行するための電子機器600のブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等のような様々な形態のデジタルコンピュータを表すものである。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等のような様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているコンピュータプログラムまたはメモリ608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムによって様々な適切な動作および処理を実行可能なプロセッサ601を備える。RAM603には、電子機器600の動作に必要な様々なプログラムおよびデータがさらに格納可能である。プロセッサ601、ROM602およびRAM603は、バス604を介して互いに接続されている。I/Oインターフェース(入/出力インターフェース)605もバス604に接続されている。
電子機器600において、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどのメモリ608と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット609とを含む複数のコンポーネントは、I/Oインターフェース605に接続されている。通信ユニット609は、電子機器600がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
プロセッサ601は、処理および計算能力を有する様々な汎用および/または専用処理モジュールであってもよい。プロセッサ601のいくつかの例示としては、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々なプロセッサ、デジタル信号プロセッサ(DSP)、およびあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。プロセッサ601は、テキストの認識の方法のような上述した様々な方法および処理を実行する。例えば、いくつかの実施形態では、テキストの認識の方法は、メモリ608などの機械可読記憶媒体に有形に含まれたコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して電子機器600にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM603にロードされ、プロセッサ601によって実行されると、上述したテキストの認識の方法における1つまたは複数のステップが実行され得る。あるいは、他の実施形態では、プロセッサ601は、他の任意の適切な形態によって(例えば、ファームウェアを介して)テキストの認識の方法を実行するように構成されてもよい。
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、該1つまたは複数のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置および少なくとも一つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも一つの入力装置および該少なくとも一つの出力装置に伝送することを含み得る。
本出願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。上記プログラムコードは、コンピュータプログラムとしてパッケージ化されてもよい。これらのプログラムコードまたはコンピュータプログラムは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサ601によって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本出願のコンテキストでは、機械可読記憶媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読記憶媒体は、機械可読信号記憶媒体または機械可読記憶媒体であり得る。機械可読記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
ユーザとのやりとりを提供するために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで記述したシステムおよび技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは当該グラフィカルユーザインターフェースまたはウェブブラウザを介して、ここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、従来の物理ホストとVPS(VPS、Virtual Private Server)サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決したクラウドコンピューティングサービスシステムにおけるホスト製品である。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行ってもよいことを理解すべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術方案の所望の効果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限はしない。
上記具体的な実施形態は本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要素に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。
Claims (15)
- 目標画像を受信することと、
予めトレーニングされた軽量化テキスト検出ネットワークを用いて前記目標画像のテキスト検出を行い、テキスト検出枠を得ることと、
予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることと
を含むテキストの認識の方法。 - 前記予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行うことは、
前記テキスト検出枠における各文字の配列方向を検出することと、
前記テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うことと
を含む請求項1に記載のテキストの認識の方法。 - 前記テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整することをさらに含む請求項2に記載のテキストの認識の方法。
- 前記予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行うことは、
前記テキスト検出枠における各文字が正方向であるか否かを判断することと、
前記テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うことを含む請求項2に記載のテキストの認識の方法。 - 前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークは、蒸留によりトレーニングすることで得る請求項1に記載のテキストの認識の方法。
- 前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークのパラメータを整数型に変換することをさらに含む請求項1に記載のテキストの認識の方法。
- 目標画像を受信するように構成される画像受信ユニットと、
予めトレーニングされた軽量化テキスト検出ネットワークを用いて前記目標画像のテキスト検出を行い、テキスト検出枠を得るように構成されるテキスト検出ユニットと、
予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成されるテキスト認識ユニットと、を備えるテキストの認識の装置。 - 前記テキスト認識ユニットは、さらに
前記テキスト検出枠における各文字の配列方向を検出し、
前記テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うように構成される請求項7に記載のテキストの認識の装置。 - 前記テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整するように構成される位置調整ユニットをさらに備える請求項8に記載のテキストの認識の装置。
- 前記テキスト認識ユニットは、さらに
前記テキスト検出枠における各文字が正方向であるか否かを判断し、
前記テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うように構成される請求項8に記載のテキストの認識の装置。 - 前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークは、蒸留によりトレーニングすることで得る請求項7に記載のテキストの認識の装置。
- 前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークのパラメータを整数型に変換するように構成されるパラメータ変換ユニットをさらに備える請求項7に記載のテキストの認識の装置。
- 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載のテキストの認識の方法を実行させる、電子機器。 - コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに請求項1~6のいずれか1項に記載のテキストの認識の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。 - プロセッサによって実行されると、請求項1~6のいずれか1項に記載のテキストの認識の方法が実行されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111504537.8 | 2021-12-10 | ||
CN202111504537.8A CN114187435A (zh) | 2021-12-10 | 2021-12-10 | 文本识别方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022133474A true JP2022133474A (ja) | 2022-09-13 |
Family
ID=80604287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022111007A Pending JP2022133474A (ja) | 2021-12-10 | 2022-07-11 | テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220343662A1 (ja) |
JP (1) | JP2022133474A (ja) |
CN (1) | CN114187435A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115880486B (zh) * | 2023-02-27 | 2023-06-02 | 广东电网有限责任公司肇庆供电局 | 一种目标检测网络蒸馏方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006260274A (ja) * | 2005-03-17 | 2006-09-28 | Ricoh Co Ltd | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 |
JP2017173925A (ja) * | 2016-03-18 | 2017-09-28 | 株式会社湯山製作所 | 光学文字認識装置 |
CN111860479A (zh) * | 2020-06-16 | 2020-10-30 | 北京百度网讯科技有限公司 | 光学字符识别方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4347513B2 (ja) * | 2000-11-17 | 2009-10-21 | シャープ株式会社 | 文字入力装置及び文字入力方法 |
CN111242126A (zh) * | 2020-01-15 | 2020-06-05 | 上海眼控科技股份有限公司 | 不规则文本校正方法、装置、计算机设备和存储介质 |
CN113313111B (zh) * | 2021-05-28 | 2024-02-13 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备和介质 |
CN113392827A (zh) * | 2021-06-22 | 2021-09-14 | 平安健康保险股份有限公司 | 一种文字识别方法、装置、设备及介质 |
CN113627439A (zh) * | 2021-08-11 | 2021-11-09 | 北京百度网讯科技有限公司 | 文本结构化处理方法、处理装置、电子设备以及存储介质 |
-
2021
- 2021-12-10 CN CN202111504537.8A patent/CN114187435A/zh active Pending
-
2022
- 2022-07-11 US US17/861,741 patent/US20220343662A1/en active Pending
- 2022-07-11 JP JP2022111007A patent/JP2022133474A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006260274A (ja) * | 2005-03-17 | 2006-09-28 | Ricoh Co Ltd | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 |
JP2017173925A (ja) * | 2016-03-18 | 2017-09-28 | 株式会社湯山製作所 | 光学文字認識装置 |
CN111860479A (zh) * | 2020-06-16 | 2020-10-30 | 北京百度网讯科技有限公司 | 光学字符识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
今井 拓司: "キオクシアが探るエッジDNNの最適実装枝刈り後にファイル単位で量子化する", NIKKEI ROBOTICS 第73号, JPN6023027371, 10 July 2021 (2021-07-10), JP, pages 28 - 33, ISSN: 0005100609 * |
矢野 正基: "スナップショットアンサンブルを用いたDNNに対する蒸留手法の提案", 電子情報通信学会技術研究報告 VOL.117 NO.211 IEICE TECHNICAL REPORT, vol. 第117巻, JPN6023027370, 8 September 2017 (2017-09-08), JP, pages 53 - 58, ISSN: 0005100608 * |
Also Published As
Publication number | Publication date |
---|---|
US20220343662A1 (en) | 2022-10-27 |
CN114187435A (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7331171B2 (ja) | 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
US10176409B2 (en) | Method and apparatus for image character recognition model generation, and vertically-oriented character image recognition | |
WO2023015941A1 (zh) | 文本检测模型的训练方法和检测文本方法、装置和设备 | |
WO2023116507A1 (zh) | 一种目标检测模型的训练方法、目标检测的方法和装置 | |
US20220415072A1 (en) | Image processing method, text recognition method and apparatus | |
US20220309549A1 (en) | Identifying key-value pairs in documents | |
US11810319B2 (en) | Image detection method, device, storage medium and computer program product | |
JP2023541119A (ja) | 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP7273129B2 (ja) | 車線検出方法、装置、電子機器、記憶媒体及び車両 | |
CN113792854A (zh) | 一种模型训练及字库建立方法、装置、设备及存储介质 | |
JP7300034B2 (ja) | テーブル生成方法、装置、電子機器、記憶媒体及びプログラム | |
US20220189189A1 (en) | Method of training cycle generative networks model, and method of building character library | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN113901907A (zh) | 图文匹配模型训练方法、图文匹配方法及装置 | |
CN113360699A (zh) | 模型训练方法和装置、图像问答方法和装置 | |
CN113627439A (zh) | 文本结构化处理方法、处理装置、电子设备以及存储介质 | |
JP7324891B2 (ja) | バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
JP2022133474A (ja) | テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP2023036753A (ja) | テキスト認識方法、テキスト認識モデルのトレーニング方法及び装置 | |
US20230048495A1 (en) | Method and platform of generating document, electronic device and storage medium | |
WO2023159819A1 (zh) | 视觉处理及模型训练方法、设备、存储介质及程序产品 | |
CN114724144B (zh) | 文本识别方法、模型的训练方法、装置、设备及介质 | |
JP2023133274A (ja) | Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体 | |
CN115565186A (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240213 |