JP2023007011A - 文字認識装置、文字認識方法及び文字認識プログラム - Google Patents

文字認識装置、文字認識方法及び文字認識プログラム Download PDF

Info

Publication number
JP2023007011A
JP2023007011A JP2021109954A JP2021109954A JP2023007011A JP 2023007011 A JP2023007011 A JP 2023007011A JP 2021109954 A JP2021109954 A JP 2021109954A JP 2021109954 A JP2021109954 A JP 2021109954A JP 2023007011 A JP2023007011 A JP 2023007011A
Authority
JP
Japan
Prior art keywords
character
recognition
unit
character string
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021109954A
Other languages
English (en)
Other versions
JP7235995B2 (ja
Inventor
悟史 山上
Satoshi Yamagami
聡 柳本
Satoshi Yanagida
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daikin Industries Ltd
Original Assignee
Daikin Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daikin Industries Ltd filed Critical Daikin Industries Ltd
Priority to JP2021109954A priority Critical patent/JP7235995B2/ja
Priority to CN202280043601.3A priority patent/CN117501324A/zh
Priority to PCT/JP2022/023216 priority patent/WO2023276599A1/ja
Publication of JP2023007011A publication Critical patent/JP2023007011A/ja
Application granted granted Critical
Publication of JP7235995B2 publication Critical patent/JP7235995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識装置、文字認識方法及び文字認識プログラムを提供する。【解決手段】文字認識装置120は、撮影画像から、特定の文字列を抽出する抽出部310と、抽出された特定の文字列の位置に応じて、撮影画像の処理領域を決定する決定部320と、撮影画像のうち、決定された処理領域を対象に、文字認識を行う認識部330とを有する。【選択図】図3

Description

本開示は、文字認識装置、文字認識方法及び文字認識プログラムに関する。
現場に設置されている各種機器に付された機器銘板を、携帯端末等を用いて撮影し、文字認識処理により文字列を読み取る光学的文字認識技術が知られている。当該技術によれば、例えば、各種機器に付された機器銘板から機器データを読み取ることができる。
特開2020-119195号公報 特開2013-206131号公報
一方で、機器銘板には、アルファベットや数字、記号、漢字など、多くの文字種が含まれており、文字認識処理による文字列の読み取りには、一定程度の時間がかかる。
本開示は、文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識装置、文字認識方法及び文字認識プログラムを提供する。
本開示の第1の態様は、文字認識装置であって、
撮影画像から、特定の文字列を抽出する抽出部と、
抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定部と、
前記撮影画像のうち、決定された処理領域を対象に、文字認識を行う認識部とを有する。
本開示の第1の態様によれば、文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識装置を提供することができる。
また、本開示の第2の態様は、第1の態様に記載の文字認識装置であって、
前記抽出部が前記特定の文字列を抽出する際の文字認識において用いる第1ライブラリの文字種は、前記認識部が文字認識を行う際に用いる第2ライブラリの文字種よりも少ない。
また、本開示の第3の態様は、第2の態様に記載の文字認識装置であって、
前記特定の文字列に含まれる文字の構成を規定した判断情報を保持する第1保持部を有し、
前記抽出部は、前記撮影画像を対象に前記第1ライブラリを用いて文字認識を行い、認識した文字から文字列を識別し、識別した文字列のうち前記判断情報により規定された文字の構成を含む文字列を判定することで、前記特定の文字列を抽出する。
また、本開示の第4の態様は、第3の態様に記載の文字認識装置であって、
前記判断情報は、前記文字の構成として、文字数、文字種、文字順序のいずれかを規定する。
また、本開示の第5の態様は、第4の態様に記載の文字認識装置であって、
前記決定部は、前記抽出部が前記特定の文字列を抽出する際に用いたバウンディングボックスを含む領域であって、前記バウンディングボックスの高さの所定倍の高さを有し、かつ、前記特定の文字列の位置から前記撮影画像の端部位置までの幅を有する領域を、前記処理領域として決定する。
また、本開示の第6の態様は、第1の態様に記載の文字認識装置であって、
認識情報リストを保持する第2保持部を有し、
前記認識部は、認識した文字が前記認識情報リストに含まれるいずれかの認識情報に該当するかを判断する。
また、本開示の第7の態様は、第6の態様に記載の文字認識装置であって、
前記認識部により前記認識情報リストに含まれるいずれかの認識情報に該当すると判断された場合、前記抽出された特定の文字列を、該当する認識情報に対応するデータとして出力する出力部を有する。
また、本開示の第8の態様は、第7の態様に記載の文字認識装置であって、
複数の前記処理領域の一部が互いに重複することで、複数の前記処理領域に同じ認識情報が含まれる場合、前記出力部は、前記同じ認識情報の位置により近い特定の文字列を、前記同じ認識情報に対応するデータとして出力する。
また、本開示の第9の態様は、第6の態様に記載の文字認識装置であって、
前記認識情報リストに含まれる認識情報は機器のラベルであり、少なくとも、機種名、製造番号、製造年月、冷媒種類、冷媒量、圧縮機能力のいずれか1つを含む。
また、本開示の第10の態様は、第1の態様に記載の文字認識装置であって、
前記撮影画像は、機器に付された銘板を撮影した画像である。
また、本開示の第11の態様は、文字認識方法であって、
撮影画像から、特定の文字列を抽出する抽出工程と、
抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定工程と、
前記撮影画像のうち、決定された処理領域を対象に文字認識を行う認識工程とを有する。
本開示の第11の態様によれば、文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識方法を提供することができる。
また、本開示の第12の態様は、文字認識プログラムであって、
撮影画像から、特定の文字列を抽出する抽出工程と、
抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定工程と、
前記撮影画像のうち、決定された処理領域を対象に文字認識を行う認識工程と
をコンピュータに実行させる。
本開示の第12の態様によれば、文字認識処理により文字列を読み取る際の読み取り時間を短縮する文字認識プログラムを提供することができる。
文字認識装置の利用例を示す図である。 文字認識装置のハードウェア構成の一例を示す図である。 文字認識装置の機能構成の一例を示す図である。 抽出部の機能構成の詳細を示す図である。 抽出部の処理の具体例を示す図である。 決定部の機能構成の詳細を示す図である。 決定部の処理の具体例を示す図である。 認識部の機能構成の詳細を示す図である。 認識部の処理の具体例を示す図である。 文字認識処理の流れを示す第1のフローチャートである。 文字認識処理の流れを示す第2のフローチャートである。
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省く。
[第1の実施形態]
<文字認識装置の利用例>
はじめに、第1の実施形態に係る文字認識装置の利用例について説明する。図1は、文字認識装置の利用例を示す図である。図1の左側に示すように、文字認識装置120は、例えば、現場機器110の側面等に付された機器銘板111から、機器データを読み取るシーン等において利用される。
文字認識装置120によれば、例えば、保守作業者130が現場調査を行い、調査結果を不図示のサーバ装置等に登録する際、調査対象である現場機器110を特定するための機器データを、保守作業者130が手入力する手間を省くことができる。また、保守作業者130が機器データを誤入力するのを防止することができる。
なお、本実施形態では、現場機器110が空調機器の室外機であり、文字認識装置120が携帯端末であるとして説明する。ただし、現場機器110は空調機器の室外機に限定されるものではなく、空調機器の室外機以外のユニットであってもよいし、空調機器以外の現場機器であってもよい。また、文字認識装置120は携帯端末に限定されず、光学的文字認識機能を有する端末であれば、携帯端末以外の端末であってもよい。
図1の右側は、保守作業者130が機器銘板111を撮影したことで、文字認識装置120の表示画面に、撮影画像121が表示された様子を示している。図1の右側に示すように、撮影画像121には、機器銘板111に対応する画像領域122が含まれる。
現場機器110が空調機器の室外機の場合、画像領域122に示すように、機器銘板111には、例えば、
・室外機であることを示す記載、
・冷房と暖房とを兼用する室外機であることを示す記載、
・機種についての記載(ラベル、機種コードデータ)、
・製造番号についての記載(ラベル、製造番号データ)、
・製品質量についての記載(ラベル、質量データ)、
・電源仕様についての記載(ラベル、相数データ、電圧データ、周波数データ)、
・圧縮機電動機の出力についての記載(ラベル、消費電力量データ)、
・管理番号についての記載(ラベル、管理コードデータ)、
・冷媒の量及び種類についての記載(ラベル、冷媒量データ、冷媒種コード)、
・設計圧力についての記載(ラベル、圧力データ)、
・JISマークの記載、
・JISについての記載(登録認証機関コードデータ、JISコードデータ)、
等が含まれる。このように、機器銘板111の記載には、アルファベットや数字、記号、漢字(現場機器110が設置された国の言語)など、多くの文字種が含まれる。なお、図1の画像領域122には示されていないが、機器銘板111には、上記記載のほか、例えば、製造年月についての記載(ラベル、製造年月データ)が含まれていてもよい。
<文字認識装置のハードウェア構成>
次に、文字認識装置120のハードウェア構成について説明する。図2は、文字認識装置のハードウェア構成の一例を示す図である。図2に示すように、文字認識装置120は、プロセッサ201、メモリ202、補助記憶装置203、ユーザインタフェース装置204、撮像装置205、通信装置206を有する。なお、文字認識装置120の各ハードウェアは、バス207を介して相互に接続されている。
プロセッサ201は、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ201は、各種プログラム(例えば、後述する文字認識プログラム等)をメモリ202上に読み出して実行する。
メモリ202は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ201とメモリ202とは、いわゆるコンピュータを形成し、プロセッサ201が、メモリ202上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
補助記憶装置203は、各種プログラムや、各種プログラムがプロセッサ201によって実行される際に用いられる各種データ(例えば、後述する第1ライブラリ、機器データルール、第2ライブラリ、ラベルリスト等)を格納する。
ユーザインタフェース装置204は、例えば、保守作業者130が各種操作を行うための操作機能と、文字認識装置120により実行される各種処理の処理結果を表示する表示機能とを有する。
撮像装置205は、機器銘板111を撮影し、撮影画像121を生成する。通信装置206は、ネットワークを介して外部装置(例えば、不図示のサーバ装置)と通信を行うための通信デバイスである。
なお、補助記憶装置203にインストールされる各種プログラムは、例えば、通信装置206を介してネットワークからダウンロードされることで、インストールされる。
<文字認識装置の機能構成>
次に、文字認識装置120の機能構成について説明する。上述したように、文字認識装置120には、文字認識プログラムがインストールされており、当該プログラムが実行されることで、文字認識装置120は、
・抽出部310、
・決定部320、
・認識部330、
として機能する。
抽出部310は、撮像装置205により撮影された撮影画像(例えば、撮影画像121)を取得する。また、抽出部310は、取得した撮影画像に対して、第1ライブラリ記憶部340に記憶された第1ライブラリを用いて文字認識を行い、認識した文字から文字列を識別する。
また、抽出部310は、識別した文字列のうち、機器データルール保持部350(第1保持部の一例)に保持された機器データルール(判断情報)により規定された文字の構成を含む文字列を判定することで、機器データの候補(特定の文字列)を抽出する。
また、抽出部310は、抽出した機器データの候補(特定の文字列)を認識部330に通知する。更に抽出部310は、機器データの候補(特定の文字列)を抽出する際に用いたバウンディングボックスの情報(高さ、幅、撮影画像内での位置)を決定部320に通知する。
なお、第1ライブラリ記憶部340に記憶されている第1ライブラリは、例えば、英数字により構成されており、一般的な文字認識用のライブラリよりも文字種が少ないライブラリであるとする。ここでいう一般的な文字認識用のライブラリとは、英数字のほか、現場機器110が設置された国の言語を表す文字及び数字、機器銘板に用いられる文字(例えば、ギリシャ数字、ローマ字等)、各種記号、等を含むライブラリを指す。
また、機器データルール保持部350に保持されている機器データルールは、本実施形態の場合、空調機器の室外機の機器データの文字の構成を規定した情報である。なお、空調機器の室外機の機器データには、例えば、
・機種コードデータ、
・製造番号データ、
・製造年月データ、
・冷媒種コード、
・冷媒量データ、
・圧縮機電動機の消費電力量データ、
等が含まれる。
つまり、抽出部310は、第1ライブラリを構成する英数字を用いて、撮影画像121の画像領域122内の文字の領域を対象に文字認識を行う。また、抽出部310は、認識した英数字の文字列を識別し、識別した文字列のうち、機器データルールにより規定された文字の構成を含む文字列を判定する。これにより、抽出部310は、空調機器の室外機の機器データの候補を抽出し、認識部330に通知する。
決定部320は、撮像装置205により撮影された撮影画像を取得するとともに、抽出部310から通知された、バウンディングボックスの情報(高さ、幅、撮影画像内での位置)を取得する。また、決定部320は、取得したバウンディングボックスの情報に基づいて、撮影画像の処理領域を決定し、認識部330に通知する。
なお、決定部320が決定する処理領域は、認識部330が文字認識を行う対象領域であり、機器データの候補に対応する「ラベル」(認識情報の一例)を探索する対象領域である。
認識部330は、決定部320が決定した処理領域を取得し、取得した処理領域を対象に、第2ライブラリ記憶部360に記憶された第2ライブラリを用いて文字認識を行い、認識した文字から文字列を識別する。
なお、第2ライブラリ記憶部360に記憶されている第2ライブラリは、上述した一般的な文字認識用のライブラリである。
また、認識部330は、ラベルリスト保持部370(第2保持部の一例)に保持されているラベルリスト(認識情報リストの一例)を参照し、処理領域において識別した文字列が、ラベルリストに含まれるいずれかのラベルに該当するかを判断する。また、認識部330は、ラベルリストに含まれるいずれかのラベルに該当すると判断した場合、機器データの候補を、該当するラベルの機器データとして、ラベルと対応付けて出力する。
つまり、認識部330は、処理領域において識別した文字列の中から、機器データの候補に対応する「ラベル」を特定する。
このように、文字認識装置120では、機器銘板111から、機器データを読み取る際、多くの文字種全てを文字認識する代わりに、
・文字種の少ない第1ライブラリを用いて文字認識を行うとともに、文字の構成を規定した機器ルールデータを用いて機器データの候補を抽出することで、処理領域を絞り込む。そして、絞り込んだ処理領域を対象に、文字種の多い第2ライブラリを用いて文字認識を行う。
・第2ライブラリを用いて文字認識を行うことで識別した文字列について、ラベルリストを用いてラベルに該当するかを判断し、該当すると判断した場合に、機器データの候補を、該当するラベルの機器データとして出力する。
これにより、第1の実施形態によれば、文字認識処理により、機器銘板から機器データを読み取る際の読み取り時間を短縮することができる。また、第1の実施形態によれば、読み取り精度を向上させることができる。
<抽出部の機能構成の詳細>
次に、抽出部310の機能構成の詳細について説明する。図4は、抽出部の機能構成の詳細を示す図である。図4に示すように、抽出部310は、文字列識別部410、特定文字列判定部420、バウンディングボックス判定部430を有する。
文字列識別部410は、撮像装置205により撮影された撮影画像を取得し、第1ライブラリ記憶部340に記憶された第1ライブラリを用いて文字認識を行い、認識した英数字から文字列を識別する。
特定文字列判定部420は、文字列識別部410により識別された文字列が、機器データルールにより規定された文字の構成を含む文字列であるか否かを判定することで、機器データの候補を抽出する。
機器データルール440には、空調機器の室外機の機器データの文字の構成(文字数、文字種、文字順序等)が規定されている。機器データルール440によれば、「機種コードデータ」の文字の構成は、"6文字以上 かつ 11文字以下 かつ 英数字大文字1文字以上 かつ 数字2文字以上"と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を「機種コードデータ」の候補と判定して抽出する。
また、機器データルール440によれば、「製造番号データ」の文字の構成は、「(6文字以上 かつ 12文字以下 かつ 一文字目が大文字英数字) または (6文字以上 かつ12文字以下 かつ すべて数字)」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「製造番号データ」と判定して抽出する。
また、機器データルール440によれば、「製造年月データ」の文字の構成は、「"/"を含む かつ "/"の前後が2文字以上 かつ "/"の前後2文字以内は数字 かつ 製造月は12以下の整数」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「製造年月データ」の候補と判定して抽出する。
また、機器データルール440によれば、「冷媒種コード」の文字の構成は、「5文字以下 かつ 一文字目が"G" かつ 数字2文字以上」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「冷媒種コード」の候補と判定して抽出する。
また、機器データルール440によれば、「冷媒量データ」の文字の構成は、「同じ高さに"kg"、"ke"、"k"のいずれかを含む かつ 同じ高さに冷媒種類を含む かつ "."と数字とを含む」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「冷媒量データ」の候補と判定して抽出する。
また、機器データルール440によれば、「圧縮機電動機の消費電力量データ」の文字の構成は、「同じ高さに"kw"、"km"のいずれかを含む かつ "."と数字とを含む」と規定されている。したがって、特定文字列判定部420では、当該文字の構成を含む文字列を、「圧縮機電動機の消費電力量データ」の候補と判定して抽出する。
特定文字列判定部420は、判定した機器データの候補を、認識部330に通知する。具体的には、特定文字列判定部420は、機種コードデータの候補、製造番号データの候補、製造年月データの候補、冷媒種コードの候補、冷媒量データの候補、圧縮機電動機の消費電力量データの候補等を、認識部330に通知する。
また、特定文字列判定部420は、判定した機器データの候補を抽出する際に用いたバウンディングボックスを、バウンディングボックス判定部430に通知する。
バウンディングボックス判定部430は、取得したバウンディングボックスに基づいて高さ、幅、撮影画像内での位置を算出し、バウンディングボックスの情報(高さ、幅、撮影画像内での位置)を決定部320に通知する。
<抽出部の処理の具体例>
次に、抽出部310の処理の具体例について説明する。図5は、抽出部の処理の具体例を示す図である。
このうち、図5(a)は、文字列識別部410が取得した撮影画像121のうち、機器銘板111に対応する画像領域122を抜粋して示したものである。
また、図5(b)は、文字列識別部410が第1ライブラリを用いて文字認識を行い、認識した英数字の文字列(符号501~符号512)を識別した様子を示している。
また、図5(c)は、特定文字列判定部420が、識別された文字列のうち、機器データルールにより規定された文字の構成を含む文字列として、符号501、符号502、符号505~符号508、符号512に示す文字列を判定して抽出した様子を示している。
なお、バウンディングボックス判定部430では、特定文字列判定部420により判定された文字列(符号501、符号502、符号505~符号508、符号512に示す文字列)を抽出する際に用いられたバウンディングボックスを取得する。
<決定部の機能構成の詳細>
次に、決定部320の機能構成の詳細について説明する。図6は、決定部の機能構成の詳細を示す図である。図6に示すように、決定部320は、高さ情報算出部610、幅情報算出部620、処理領域決定部630を有する。
高さ情報算出部610は、バウンディングボックス判定部430から通知された、バウンディングボックスの情報(高さ、幅、撮影画像内での位置)を取得し、取得したバウンディングボックスの高さ情報を所定倍することで、処理領域の高さ情報を算出する。これにより、高さ情報算出部610では、処理領域の下辺の位置と上辺の位置とを特定する。
幅情報算出部620は、バウンディングボックス判定部430から通知された、バウンディングボックスの情報(高さ、幅、撮影画像内の位置)を取得し、取得したバウンディングボックスを幅方向の端部まで拡大することで、処理領域の幅情報を算出する。これにより、幅情報算出部620は、処理領域の右辺の位置と左辺の位置とを特定する。
なお、幅方向の端部とは、撮影画像121の左端位置または右端位置を指し、幅情報算出部620が幅方向の左端位置まで拡大するか、右端位置まで拡大するかは、機器銘板111の記載方向による。例えば、機器銘板111の「ラベル」を記載する言語が、左から右へと記載する記載方向の言語である場合、幅情報算出部620では、バウンディングボックスを、撮影画像の左端位置まで拡大する。一方、機器銘板111の「ラベル」を記載する言語が、右から左へと記載する記載方向の言語である場合、幅情報算出部620では、バウンディングボックスを、撮影画像の右端位置まで拡大する。
処理領域決定部630は、高さ情報算出部610により算出された高さ情報と、幅情報算出部620により算出された幅情報とに基づいて、処理領域を決定する。また、撮影画像121から、決定した処理領域を抽出し、抽出した処理領域を認識部330に通知する。
<決定部の処理の具体例>
次に、決定部320の処理の具体例について説明する。図7は、決定部の処理の具体例を示す図である。
このうち、図7(a)は、バウンディングボックス判定部430より通知された、撮影画像121の画像領域122内の、各バウンディングボックス(バウンディングボックス701~707)を示している。
図7(b)は、各バウンディングボックス701~707のうち、バウンディングボックス701、バウンディングボックス707について、処理領域を決定した様子を示している。
このうち、処理領域710は、バウンディングボックス701を、高さ方向に所定倍し、撮影画像121の端部位置700まで、幅方向に拡大することで決定された処理領域を示している。
同様に、処理領域720は、バウンディングボックス707を、高さ方向に所定倍し、撮影画像121の端部位置700まで、幅方向に拡大することで決定された処理領域を示している。
<認識部の機能構成の詳細>
次に、認識部330の機能構成の詳細について説明する。図8は、認識部の機能構成の詳細を示す図である。図8に示すように、認識部330は、処理領域文字認識部810、判断部820を有する。
処理領域文字認識部810は、処理領域決定部630から処理領域を取得し、第2ライブラリ記憶部360に記憶された第2ライブラリを用いて、処理領域内の文字の領域を対象に文字認識を行い、認識した文字の文字列を識別する。これにより、処理領域文字認識部810は、機器データの候補に対応する「ラベル」の候補を、判断部820に通知する。
判断部820は出力部の一例であり、処理領域文字認識部810から通知された、機器データの候補に対応する「ラベル」の候補を取得する。また、判断部820は、ラベルリスト保持部370に保持されているラベルリストを参照し、処理領域において識別した文字列が、ラベルリストに含まれるいずれのラベルに該当するかを判断する。これにより、判断部820では、機器データの候補に対応する「ラベル」を特定する。
なお、異なる処理領域の一部が重なることで、異なる領域それぞれから同じ「ラベル」の候補が取得された場合、判断部820は、より適切な機器データの候補を、該当するラベルに対応する機器データと判定する。より適切な機器データの候補とは、例えば、
・一方の機器データの候補と、「ラベル」の候補との間の距離と、
・他方の機器データの候補と、「ラベル」の候補との間の距離と、
を対比した際のより近い方の機器データの候補を指す。
あるいは、より適切な機器データの候補とは、例えば、
・一方の機器データの候補と、「ラベル」の候補とが属する行と、
・他方の機器データの候補と、「ラベル」の候補とが属する行と、
を対比した際に同じ行またはより近い行に属する方の機器データの候補を指す。
また、判断部820は、抽出部310から通知された機器データの候補のうち、特定したラベルに対応する機器データの候補を、機器データとして、特定したラベルとともに出力する。
<認識部の処理の具体例>
次に、認識部330の処理の具体例について説明する。図9は、認識部の処理の具体例を示す図である。
このうち、図9(a)は、バウンディングボックス701の情報に基づいて決定された処理領域710において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9(a)によれば、機器データの候補に対応するラベルとして、「機種」(機種名)が特定され(符号921)、「機種:A12BCD」が出力される。
また、図9(b)は、バウンディングボックス702の情報に基づいて決定された処理領域911において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9(b)によれば、機器データの候補に対応するラベルとして、「製造番号」が特定され(符号922)、「製造番号:EF34567」が出力される。
また、図9(c)は、バウンディングボックス703の情報に基づいて決定された処理領域912において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9(c)によれば、機器データの候補に対応するラベルとして、「圧縮機電動機出力」(圧縮機能力)が特定され(符号923)、「圧縮機電動機出力:yy.y kW」が出力される。
また、図9(d)は、バウンディングボックス704の情報に基づいて決定された処理領域913において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9(d)の場合、機器データの候補に対応するラベルが、特定されず、機器データは出力されない。
より具体的には、図9(d)は、処理領域913において文字認識された「圧縮機電動機出力」が、ラベルの候補となるが、「圧縮機電動機出力」については、処理領域912においても文字認識され、ラベルの候補となっている。更に、処理領域912におけるラベルの候補と機器データの候補とは、同じ行に位置しているのに対して、処理領域913におけるラベルの候補と機器データの候補とは、異なる行に位置している。したがって、「圧縮機電動機出力」については、処理領域912の機器データの候補に対応するラベルとして特定される。このため、判断部820では、処理領域913において、機器データの候補に対応するラベルが特定できなかったと判断する。この結果、処理領域913からは、機器データが出力されない。
また、図9(e)は、バウンディングボックス705の情報に基づいて決定された処理領域914において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9(e)によれば、機器データの候補に対応するラベルが特定され(符号924)、「冷媒量:zz.z kg」が出力される。
また、図9(f)は、バウンディングボックス706の情報に基づいて決定された処理領域915において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9(f)によれば、機器データの候補に対応するラベルとして、「冷媒」が特定され(符号924)、「冷媒種類:G89」が出力される。
また、図9(g)は、バウンディングボックス707の情報に基づいて決定された処理領域720において、処理領域文字認識部810が、文字の領域を対象に文字認識を行った様子を示している。図9(g)によれば、機器データの候補に対応するラベルが特定されず、機器データは出力されない。
より具体的には、図9(g)は、処理領域720において文字認識された「低圧部」が、ラベルリストに含まれていない文字列であるため、判断部820では、機器データの候補に対応するラベルが特定できなかったと判断する。
このように、認識部330は、
・機器データの候補に対応するバウンディングボックスに基づいて処理領域を決定し、
・決定した処理領域の文字の領域に対して文字認識を行うことでラベルを特定し、
・特定したラベルに対応する機器データの候補を機器データとして、特定したラベルと対応付けて出力する。
この結果、機器銘板111から読み取った機器データとして、認識部330では、
・機種:A12BCD、
・製造番号:EF34567、
・圧縮機電動機出力:yy.y kW、
・冷媒量:zz.z kg、
・冷媒種類:G89、
を出力する。
<文字認識装置による文字認識処理の流れ>
次に、文字認識装置120による文字認識処理の流れについて説明する。図10及び図11は、文字認識処理の流れを示す第1及び第2のフローチャートである。
ステップS1001において、抽出部310は、撮像装置205により機器銘板111が撮影されることで生成された撮影画像を取得する。
ステップS1002において、抽出部310は、取得した撮影画像に含まれる文字の領域を抽出する。
ステップS1003において、抽出部310は、抽出した文字の領域について、第1ライブラリを用いて文字認識を行う。
ステップS1004において、抽出部310は、認識した文字から文字列を識別し、識別した文字列のうち、機器データルールにより規定された文字の構成を含む文字列を判定する。
ステップS1004において、機器データルールにより規定された文字の構成を含まない文字列であると判定した場合には(ステップS1004においてNOの場合には)、ステップS1006に進む。
一方、ステップS1004において、機器データルールにより規定された文字の構成を含む文字列であると判定した場合には(ステップS1004においてYESの場合には)、ステップS1005に進む。
ステップS1005において、抽出部310は、識別した文字列を、機器データの候補と判定する。
ステップS1006において、抽出部310は、ステップS1002において抽出した文字の領域全てについて、文字認識を行ったか否かを判定する。
ステップS1006において、文字認識を行っていない文字の領域があると判定した場合には(ステップS1006においてNOの場合には)、ステップS1003に戻る。
一方、ステップS1006において、ステップS1002において抽出した文字の領域全てについて、文字認識を行ったと判定した場合には(ステップS1006においてYESの場合には)、ステップS1007に進む。
ステップS1007において、決定部320は、機器データの候補を抽出する際に用いたバウンディングボックスに基づいて処理領域を決定する。
図11のステップS1101において、認識部330は、決定した処理領域から文字の領域を抽出する。
ステップS1102において、認識部330は、抽出した文字の領域について、第2ライブラリを用いて文字認識を行う。
ステップS1103において、認識部330は、ラベルリストを参照し、処理領域において識別した文字列が、ラベルリストに含まれるいずれかのラベルに該当するかを判断する。
ステップS1103において、処理領域において識別した文字列が、ラベルリストに含まれるいずれのラベルにも該当しないと判断した場合には(ステップS1103においてNOの場合には)、ステップS1105に進む。
一方、ステップS1103において、処理領域において識別した文字列が、ラベルリストに含まれるいずれかのラベルに該当すると判断した場合には(ステップS1103においてYESの場合には)、ステップS1104に進む。
ステップS1104において、認識部330は、機器データの候補を、該当するラベルに対応する機器データと判定する。
ステップS1105において、認識部330は、ステップS1101において抽出した文字の領域全てについて、文字認識を行ったか否かを判定する。
ステップS1105において、文字認識を行っていない文字の領域があると判定した場合には(ステップS1105においてNOの場合には)、ステップS1103に戻る。
一方、ステップS1105において、ステップS1101において抽出した文字の領域全てについて文字認識を行ったと判定した場合には(ステップS1105においてYESの場合には)、ステップS1106に進む。
ステップS1106において、認識部330は、同じラベルに、機器データの候補が複数あるか否かを判定する。ステップS1106において、機器データの候補が複数ないと判定した場合には(ステップS1106においてNOの場合には)、ステップS1108に進む。
一方、ステップS1106において、機器データの候補が複数あると判定した場合には(ステップS1106においてYESの場合には)、ステップS1107に進む。
ステップS1107において、認識部330は、複数の機器データの候補の中から、より適切な機器データの候補を判定する。
ステップS1107において、認識部330は、判定した機器データの候補を、該当するラベルに対応する機器データとして、該当するラベルと対応付けて出力した後、文字認識処理を終了する。
<まとめ>
以上の説明から明らかなように、第1の実施形態に係る文字認識装置120は、
・撮影画像から、第1ライブラリに基づいて機器データの候補を抽出する。
・機器データの候補を抽出する際に用いたバウンディングボックスの位置に応じて、撮影画像の処理領域を決定する。
・撮影画像のうち、決定した処理領域を対象に、文字認識を行う。
これにより、第1の実施形態によれば、機器銘板を撮影した撮影画像に対して文字認識処理を行うことで機器データを読み取る際の読み取り時間を短縮することができる。
[第2の実施形態]
上記第1の実施形態において決定部320は、抽出部310が機器データの候補を抽出する際のバウンディングボックスに基づいて、処理領域を決定するものとして説明した。しかしながら、決定部320は、バウンディングボックス以外の情報(機器データの候補となる文字列の高さ、幅、撮影画像内での位置を示す情報等)に基づいて処理領域を決定してもよい。
また、上記第1の実施形態において決定部320は、バウンディングボックスの高さ情報を所定倍することで処理領域の高さ情報を算出し、バウンディングボックスを幅方向の端部まで拡大することで、処理領域の幅情報を算出するものとして説明した。しかしながら、決定部320が処理領域を決定する際の、高さ情報及び幅情報の算出方法はこれに限定されない。例えば、幅方向についても、バウンディングボックスの幅情報を所定倍することで処理領域の幅情報を算出してもよい。あるいは、撮影画像の幅方向の端部の代わりに、例えば、機器銘板111の画像領域122の端部まで拡大することで、処理領域の幅情報を算出してもよい。
また、上記第1の実施形態では、同じラベルに複数の機器データ候補があると判定された際、より適切な機器データ候補を判定するにあたり、ラベルと機器データ候補との間の距離を対比するものとして説明した。あるいは、ラベル及び機器データ候補がそれぞれ属する行を対比するものとして説明した。しかしながら、より適切な機器データ候補の判定方法はこれらに限定されず、例えば、機器データの候補とラベルとの組み合わせルールを予め用意しておき、当該組み合わせルールに基づいて判定してもよい。
また、上記第1の実施形態では、機器銘板から機器データを読み取る場合について説明したが、機器データを読み取る対象は、機器銘板に限定されない。あるいは、機器銘板から読み取る対象は、機器データに限定されない。更に、撮像装置が撮影する対象は機器銘板に限定されず、特定の文字列が含まれていればよい。
また、上記第1の実施形態では、現場機器が空調機器の室外機である場合の機器データルールについて例示したが、現場機器が異なる場合には、異なる現場機器に応じた機器データルールが用いられるものとする。同様に、上記第1の実施形態では、現場機器が空調機器の室外機である場合のラベルリストについて例示したが、現場機器が異なる場合には、異なる現場機器に応じたラベルリストが用いられるものとする。
以上、実施形態を説明したが、特許請求の範囲の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。
110 :現場機器
111 :機器銘板
120 :文字認識装置
121 :撮影画像
205 :撮像装置
310 :抽出部
320 :決定部
330 :認識部
410 :文字列識別部
420 :特定文字列判定部
430 :バウンディングボックス判定部
440 :機器データルール
610 :高さ情報算出部
620 :幅情報算出部
630 :処理領域決定部
701~707 :バウンディングボックス
710、720 :処理領域
810 :処理領域文字認識部
820 :判断部
911~915 :処理領域

Claims (12)

  1. 撮影画像から、特定の文字列を抽出する抽出部と、
    抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定部と、
    前記撮影画像のうち、決定された処理領域を対象に、文字認識を行う認識部と
    を有する文字認識装置。
  2. 前記抽出部が前記特定の文字列を抽出する際の文字認識において用いる第1ライブラリの文字種は、前記認識部が文字認識を行う際に用いる第2ライブラリの文字種よりも少ない、請求項1に記載の文字認識装置。
  3. 前記特定の文字列に含まれる文字の構成を規定した判断情報を保持する第1保持部を有し、
    前記抽出部は、前記撮影画像を対象に前記第1ライブラリを用いて文字認識を行い、認識した文字から文字列を識別し、識別した文字列のうち前記判断情報により規定された文字の構成を含む文字列を判定することで、前記特定の文字列を抽出する、請求項2に記載の文字認識装置。
  4. 前記判断情報は、前記文字の構成として、文字数、文字種、文字順序のいずれかを規定する、請求項3に記載の文字認識装置。
  5. 前記決定部は、前記抽出部が前記特定の文字列を抽出する際に用いたバウンディングボックスを含む領域であって、前記バウンディングボックスの高さの所定倍の高さを有し、かつ、前記特定の文字列の位置から前記撮影画像の端部位置までの幅を有する領域を、前記処理領域として決定する、請求項4に記載の文字認識装置。
  6. 認識情報リストを保持する第2保持部を有し、
    前記認識部は、認識した文字が前記認識情報リストに含まれるいずれかの認識情報に該当するかを判断する、請求項1に記載の文字認識装置。
  7. 前記認識部により前記認識情報リストに含まれるいずれかの認識情報に該当すると判断された場合、前記抽出された特定の文字列を、該当する認識情報に対応するデータとして出力する出力部を有する、請求項6に記載の文字認識装置。
  8. 複数の前記処理領域の一部が互いに重複することで、複数の前記処理領域に同じ認識情報が含まれる場合、前記出力部は、前記同じ認識情報の位置により近い特定の文字列を、前記同じ認識情報に対応するデータとして出力する、請求項7に記載の文字認識装置。
  9. 前記認識情報リストに含まれる認識情報は機器のラベルであり、少なくとも、機種名、製造番号、製造年月、冷媒種類、冷媒量、圧縮機能力のいずれか1つを含む、請求項6に記載の文字認識装置。
  10. 前記撮影画像は、機器に付された銘板を撮影した画像である、請求項1に記載の文字認識装置。
  11. 撮影画像から、特定の文字列を抽出する抽出工程と、
    抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定工程と、
    前記撮影画像のうち、決定された処理領域を対象に文字認識を行う認識工程と
    を有する文字認識方法。
  12. 撮影画像から、特定の文字列を抽出する抽出工程と、
    抽出された特定の文字列の位置に応じて、前記撮影画像の処理領域を決定する決定工程と、
    前記撮影画像のうち、決定された処理領域を対象に文字認識を行う認識工程と
    をコンピュータに実行させるための文字認識プログラム。
JP2021109954A 2021-07-01 2021-07-01 文字認識装置、文字認識方法及び文字認識プログラム Active JP7235995B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021109954A JP7235995B2 (ja) 2021-07-01 2021-07-01 文字認識装置、文字認識方法及び文字認識プログラム
CN202280043601.3A CN117501324A (zh) 2021-07-01 2022-06-09 字符识别装置、字符识别方法以及字符识别程序
PCT/JP2022/023216 WO2023276599A1 (ja) 2021-07-01 2022-06-09 文字認識装置、文字認識方法及び文字認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021109954A JP7235995B2 (ja) 2021-07-01 2021-07-01 文字認識装置、文字認識方法及び文字認識プログラム

Publications (2)

Publication Number Publication Date
JP2023007011A true JP2023007011A (ja) 2023-01-18
JP7235995B2 JP7235995B2 (ja) 2023-03-09

Family

ID=84690284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021109954A Active JP7235995B2 (ja) 2021-07-01 2021-07-01 文字認識装置、文字認識方法及び文字認識プログラム

Country Status (3)

Country Link
JP (1) JP7235995B2 (ja)
CN (1) CN117501324A (ja)
WO (1) WO2023276599A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060251A (ja) * 1999-08-23 2001-03-06 Fuji Photo Film Co Ltd 画像処理装置、画像処理方法、及び記録媒体
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2019220069A (ja) * 2018-06-22 2019-12-26 株式会社東芝 カード番号認識装置およびカード番号認識方法
JP2020184275A (ja) * 2019-05-09 2020-11-12 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI607387B (zh) * 2016-11-25 2017-12-01 財團法人工業技術研究院 字符辨識系統及其字符辨識方法
JP7225548B2 (ja) * 2018-03-22 2023-02-21 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060251A (ja) * 1999-08-23 2001-03-06 Fuji Photo Film Co Ltd 画像処理装置、画像処理方法、及び記録媒体
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
JP2019220069A (ja) * 2018-06-22 2019-12-26 株式会社東芝 カード番号認識装置およびカード番号認識方法
JP2020184275A (ja) * 2019-05-09 2020-11-12 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Also Published As

Publication number Publication date
CN117501324A (zh) 2024-02-02
WO2023276599A1 (ja) 2023-01-05
JP7235995B2 (ja) 2023-03-09

Similar Documents

Publication Publication Date Title
US11138425B2 (en) Named entity recognition with convolutional networks
Clausner et al. Scenario driven in-depth performance evaluation of document layout analysis methods
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
EP3916634A2 (en) Text recognition method and device, and electronic device
CN112597773B (zh) 文档结构化方法、系统、终端及介质
CN109740425A (zh) 基于增强现实的图像标注方法、系统、设备及存储介质
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
WO2022001256A1 (zh) 图像标注方法、装置、电子设备及存储介质
CN111931771B (zh) 票据内容识别方法、装置、介质及电子设备
KR20120066397A (ko) 텍스트 영역의 추출 방법, 추출 장치 및 이를 이용한 번호판 자동 인식 시스템
EP3975139A1 (en) Querying semantic data from unstructured documents
CN113094533B (zh) 一种基于混合粒度匹配的图文跨模态检索方法
CN107908843B (zh) 基于图签信息提取的管理系统
JP4589159B2 (ja) ラスタ地図検索装置
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
CN111046669A (zh) 一种兴趣点的匹配方法、装置及计算机系统
KR101911447B1 (ko) 구조설계 도면의 패턴분석을 통한 3차원 구조해석 모델 생성 장치
KR101768914B1 (ko) 지오 태깅 방법, 지오 태깅 장치 및 이를 수행하는 프로그램을 기록하는 기록매체
JP7235995B2 (ja) 文字認識装置、文字認識方法及び文字認識プログラム
CN113762109A (zh) 一种文字定位模型的训练方法及文字定位方法
CN112417687A (zh) 智能审图方法及相关装置
US9378428B2 (en) Incomplete patterns
CN108170838B (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN115048599A (zh) 企业产品的界面配置方法、装置、设备及介质
CN114741697A (zh) 恶意代码分类方法、装置、电子设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R151 Written notification of patent or utility model registration

Ref document number: 7235995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151