JP2019160285A

JP2019160285A - 読取システム及び読取方法

Info

Publication number: JP2019160285A
Application number: JP2018203849A
Authority: JP
Inventors: 一樹滝澤; Kazuki Takizawa; 佐藤　功一; Koichi Sato; 功一佐藤
Original assignee: Mitsui E&S Machinery Co Ltd
Current assignee: Mitsui E&S Machinery Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-09-19
Anticipated expiration: 2038-03-16
Also published as: JP7181761B2

Abstract

【課題】撮像条件が悪い場合や画像に複数の文字列が存在する場合でも、所定の識別用文字列のみを高精度に自動認識することができる読取システム及び読取方法を提供する。【解決手段】既知の特徴を有する特徴文字列２１と検査文字２２とからなる識別用文字列２０を、入力された画像１４から読取る読取システム４０は、文字列を認識単位として、画像１４の中に含まれる複数の文字列の中から既知の特徴に基づいて特徴文字列２１を認識する文字列認識部４１と、単文字を認識単位として、文字列認識部４１が探し出した特徴文字列２１の位置に基づいて検査文字２２を認識する単文字認識部４２と、文字列認識部４１が認識した特徴文字列２１から算出した算出文字２５と検査文字２２とが一致した場合に、識別用文字列２０として認識して出力する出力部４４とを備える。【選択図】図４

Description

本発明は、読取システム及び読取方法に関し、具体的には、所定の識別用文字列を高精度に自動認識する読取システム及び読取方法に関する。

識別用文字列の自動認識する装置としては、カメラで取り込んだ画像に対して二値化処理を施し、二値化された画像から記号の特徴量に適合するものに対して一文字ずつ認識処理を施して識別用文字列として把握する装置が提案されている。（例えば、特許文献１参照）。

特開平１０−１０５６４７号公報

ところで、文字を認識する技術として、ニューラルネットワークを用いて識別精度を向上させる試みがある。つまり、上記の特許文献１に記載の装置において、文字の認識にニューラルネットワークを用いることで識別精度をより向上させることが可能になる。

文字を認識する代表的なニューラルネットワークとしては、ＬｅＮｅｔに代表される畳み込みニューラルネットワークが例示される。畳み込みニューラルネットワークは、単文字が写っている画像を複数のカテゴリに分類するように学習して、単文字を認識するニューラルネットワークである。

しかし、畳み込みニューラルネットワークは、認識単位が単文字に限定されることから、識別用文字列を認識するには画像処理を施して、画像から対象となる個々の単文字を切り出す必要がある。それ故、画像に写り込んだ影の影響や画像におけるコントラスト比などの撮像条件によっては、物品の表面に記録された識別用文字列の認識精度が落ち、認識率が低くなるという問題があった。また、画像に複数の文字列が存在する場合に、読み取る対象となる識別用文字列のみを認識することは難しく、不要な文字列にも処理を施す必要があった。

本発明の目的は、撮像条件が悪い場合や画像に複数の文字列が存在する場合でも、所定の識別用文字列のみを高精度に自動認識することができる読取システム及び読取方法を提供することである。

上記の目的を達成する本発明の読取システムは、既知の特徴を有する特徴文字列と、その特徴文字列の近傍に配置されて、その特徴文字列に対して所定の規則を適用して算出された単文字の検査文字とからなる識別用文字列を、入力された画像から読取る読取システムであって、前記画像の中に含まれる文字列が占有する文字列領域における先端から後尾までの間の特徴量の連なりから文字列を認識単位として、前記画像の中に含まれる複数の文字列の中から前記既知の特徴に基づいて前記特徴文字列を認識する文字列認識部と、前記画像の中に含まれる単文字が判別可能に切り出された単文字画像データから単文字を認識単位として、前記文字列認識部が認識した前記特徴文字列の位置に基づいて前記検査文字を認識する単文字認識部と、前記文字列認識部が認識した前記特徴文字列に対して前記所定の規則を適用して算出した算出文字と、前記検査文字とが一致した場合に、前記特徴文字列、及び前記検査文字を順に並べた文字列を前記識別用文字列として認識して出力する出力部とを備えることを特徴とする。

上記の目的を達成する本発明の読取方法は、既知の特徴を有する特徴文字列と、その特徴文字列の近傍に配置されて、その特徴文字列に対して所定の規則を適用して算出された単文字の検査文字とからなる識別用文字列を、入力された画像から読み取る読取方法であって、前記画像の中に含まれる文字列が占有する文字列領域における先端から後尾までの間の特徴量の連なりから文字列を認識単位として、前記画像の中に含まれる複数の文字列の中から前記既知の特徴に基づいて前記特徴文字列を認識し、前記画像の中に含まれる単文字が判別可能に切り出された単文字画像データから単文字を認識単位として、探し出した前記特徴文字列の位置に基づいて前記検査文字を認識し、前記文字列認識部が認識した前記特徴文字列に対して前記所定の規則を適用して算出文字を算出し、前記算出文字と、前記検査文字とが一致するか否かを判定し、前記算出文字と前記検査文字とが一致したと判定した場合に、前記特徴文字列、及び前記検査文字を順に並べた文字列を前記識別用文字列として認識することを特徴とする。

本発明は、文字列を認識単位として既知の特徴を手がかりとして特徴文字列を認識する文字列認識部と、単文字を認識単位として特徴文字列が認識されたことで位置が特定された単文字を検査文字として認識する単文字認識部とを併用する。それ故、本発明によれば、画像から対象となる文字を一文字ずつ切り出す画像処理を省き、画像処理を起因とする特徴文字列の認識の低下を解消することができる。同時に、特徴文字列を認識することで検査文字の位置を特定することで、高精度に検査文字を認識することが可能になり、特徴文字列の不確かな認識結果を排除することができる。これにより、撮像条件が悪い場合や画像に複数の文字列が存在する場合でも、所定の識別用文字列のみを高精度に自動認識することができる。

読取システムの実施形態を例示する構成図である。図１の撮像装置が撮像した画像を例示する説明図である。識別用文字列の配列を例示する説明図である。図１の読取システムを例示するブロック図である。読取方法を例示するフロー図の一部である。図５のＡから続く読取方法を例示するフロー図の一部である。図６のＢから続く読取方法を例示するフロー図の一部である。図７のＣから続く読取方法を例示するフロー図の一部である。図７のＤから続く読取方法を例示するフロー図の一部である。図５の規則を例示する説明図である。図６の規則を例示する説明図である。図７の規則を例示する説明図である。

以下、読取システムの実施形態について説明する。なお、本明細書において、文字列の書字方向は、文字列が左から右へ順に並べられる左横書きとし、文字列の先頭は文字列の左端とし、後尾は文字列の右端とする。

図１に例示するように、読取システム４０は、コンテナターミナル１１で扱われる貨物１２に記載された識別用文字列２０を認識するシステムであり、撮像装置１３により撮像された画像１４から識別用文字列２０を認識するシステムである。また、読取システム４０は、エッジデバイス３０に組み込まれたシステムである。

コンテナターミナル１１は、貨物１２の海上輸送及び陸上輸送の結節点となる港湾施設である。コンテナターミナル１１では、出入口であるゲート１５からコンテナターミナル１１への進入時や退出時に、撮像装置１３により撮像された画像１４から貨物１２に記載された識別用文字列２０を認識する作業が行われる。

貨物１２は、コンテナやコンテナタンクが例示される。貨物１２は、コンテナターミナル１１と外部との間で行き来する外来シャーシ１６に搭載された状態で、外来シャーシ１６の後退方向に向いた面に識別用文字列２０が記載される。なお、識別用文字列２０の記載場所は特に限定されず、貨物１２の側面や上面に記載されてもよい。

撮像装置１３は、ゲート１５に設置されて、外来シャーシ１６に搭載された状態の貨物１２に記載の識別用文字列２０を含む画像１４を撮像する装置である。撮像装置１３は、撮像した画像１４に識別用文字列２０が含まれていればよく、設置場所は限定されない。なお、貨物１２において識別用文字列２０が記載される箇所が特定可能な場合は、撮像装置１３に、貨物１２における特定した箇所のみを撮像させて、画像１４における識別用文字列２０とは異なる文字列の含有量を少なくするとよい。

図２に例示するように、貨物１２がコンテナの場合に、その面には開閉扉１７が形成され、識別用文字列２０が外来シャーシ１６を背面視で開閉扉１７の右上の領域に記載される。また、識別用文字列２０の配置位置によっては、識別用文字列２０が開閉扉１７の開閉バー１８を避けるように複数に分割されて記載される場合もある。

識別用文字列２０は、貨物１２の背面に記載された複数の文字列のうちで、貨物１２の背面の隅の近傍に記載される可能性が高い文字列であり、貨物１２がコンテナの場合に背面の右上に記載される可能性が高い。なお、識別用文字列２０は、貨物１２がコンテナタンクの場合に背面の右下に記載されることもある。

識別用文字列２０は、特徴文字列２１及び検査文字（チェックデジットともいう）２２を有する十一桁の文字列である。特徴文字列２１は、識別用文字列２０の先頭に配置され、第一文字列２３及び第二文字列２４を有する。

第一文字列２３は、特徴文字列２１の先頭に配置され、四桁のアルファベットで構成される。第一文字列２３は、先頭側の三桁のアルファベットが貨物１２の所有者ごとに異なる所有者コードを示し、後尾の一桁のアルファベットが装置区分識別子を示す。貨物１２の装置区分識別子としては、「Ｕ」が用いられる。第二文字列２４は、特徴文字列２１の後尾に配置され、六桁の数字で構成され、貨物１２の固有のシリアルナンバーを示す。検査文字２２は、識別用文字列２０に隣接するように配置され、特徴文字列２１に対して所定の計算式を適用して算出される単文字の数字で構成される。

なお、所有者コードは、Ｂ．Ｉ．Ｃ（ＴｈｅＢｕｒｅａｕＩｎｔｅｒｎａｔｉｏｎａｌｄｅｓＣｏｎｔａｉｎｅｒｓｅｔｄｕＴｒａｎｓｐｏｒｔＩｎｔｅｒｍｏｄａｌ）に登録されたコードである。

つまり、貨物１２の識別用文字列２０は、先頭から後尾に向かって順に、三桁のアルファベット、一桁のアルファベットである「Ｕ」、六桁の数字、及び、一桁の数字が並ぶという既知の特徴を有する。また、第一文字列２３は、三桁のアルファベットの組み合わせのうちのＢ．Ｉ．Ｃに登録された所有者コードに候補が絞られるという既知の特徴を有する。さらに、検査文字２２は、特徴文字列２１の後尾の近傍に配置された一桁の数字であるという既知の特徴を有する。なお、検査文字２２においては、特徴文字列２１と区別可能に枠により囲われる場合がある。そこで、特徴文字列２１の近傍に配置された一桁の数字が枠に囲われることを既知の特徴としてもよい。

図３（ａ）〜図３（ｃ）に例示するように、識別用文字列２０は、第一文字列２３、第二文字列２４、及び検査文字２２の配置が貨物１２ごとに異なる。例えば、図３（ａ）に例示するように、第一文字列２３の下方に第二文字列２４が四桁の数字と二桁の数字との二つの文字列に区分されて一列に配置される場合がある。また、図３（ｂ）に例示するように、第一文字列２３の右方に第二文字列２４が三桁の数字と三桁の数字との二つの文字列に区分されて一列に配置される場合もある。さらに、図３（ｃ）に例示するように、第一文字列２３の右方に第二文字列２４が三桁の数字と三桁の数字との二つの文字列に区分された上下二列に配置される場合もある。但し、いずれの場合においても、第二文字列２４は第一文字列２３の近傍に配置され、検査文字２２は第二文字列２４の後尾の近傍に配置される。

図４に例示するように、エッジデバイス３０は、ゲート１５に設置され、各種情報処理を行うＣＰＵ、その各種情報処理を行うために用いられるプログラムや情報処理結果を読み書き可能な内部記憶装置、及び各種インターフェースなどから構成されるハードウェアである。エッジデバイス３０は、撮像装置１３、表示装置３１、及び入力装置３２に通信可能に接続され、各機能要素として、文字列領域検出システム３３及び読取システム４０を備える。各機能要素は、互いに独立したプログラムとして内部記憶装置に記憶されていて、適時、ＣＰＵにより実行されている。なお、各機能要素としては、プログラムの他にそれぞれが独立して機能するプログラマブルコントローラ（ＰＬＣ）で構成されてもよい。

表示装置３１及び入力装置３２は、ゲート１５で作業する作業者に携帯される携帯端末に組み込まれる装置である。なお、表示装置３１及び入力装置３２は、携帯端末以外にエッジデバイス３０が設置される図示しない管理棟に設けられてもよい。

文字列領域検出システム３３は、撮像装置１３が撮像した画像１４が入力されて、文字列領域（シーンテキストともいう）Ｔｎ及びその文字列領域Ｔｎの位置Ｐｎが検出されたデータ３４を出力するシステムである。文字列領域Ｔｎは、画像１４の中に含まれる文字列が占有する領域であり、隣り合う文字どうしの間隔が所定の閾値以下の場合はそれらの文字どうしが同一の領域に存在するとして設定された領域である。つまり、文字列領域ＴｎのＸ方向の長さは連なる文字数に応じて設定され、Ｙ方向の長さは文字の大きさに応じて設定される。位置Ｐｎは、画像１４における文字列領域Ｔｎの位置であり、画像１４の中心を原点として文字列領域Ｔｎの所定の点（実施形態では領域の中心点）の二次元座標として示される。なお、文字列領域Ｔｎは、文字及び背景のコントラスト比や文字列において隣り合う文字どうしの間隔の閾値を設定することで、Ｘ方向の拡大や縮小を自在にコントロール可能であり、文字列領域Ｔｎに存在する文字列の文字数を変えることが可能であることが望ましい。文字列領域Ｔｎの検出には、様々な手法が提案されており、文字列領域検出システム３３としては、提案されている周知の手法であればよい。

読取システム４０は、データ３４が入力されて、識別用文字列２０の認識が成功した場合にその識別用文字列２０を出力する一方で、識別用文字列２０の認識が失敗した場合に認識が失敗したことを出力する機能要素である。読取システム４０は、機能要素として文字列認識部４１、単文字認識部４２、判定部４３、出力部４４、及び画像処理部４７を備える。

文字列認識部４１は、データ３４が入力されて、認識した特徴文字列２１を判定部４３に出力すると共に特徴文字列２１の位置を画像処理部４７に出力する機能要素である。文字列認識部４１は、文字列を認識単位として、データ３４に存在する複数の文字列の中から上述した既知の特徴に基づいて、複合型ニューラルネットワークを用いて、特徴文字列２１を認識する機能要素である。文字列認識部４１は、第一文字列認識部３５、及び第二文字列認識部３６を有する。

また、文字列認識部４１は、認識可能な特徴文字列２１が存在する文字列領域Ｔｎを文字ごとに分割して生成された単文字画像データ４８が教師データとして入力される機能要素である。

複合型ニューラルネットワークとしては、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）と再帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）と複合したニューラルネットワークが望ましい。複合型ニューラルネットワークは、文字列領域Ｔｎを文字の配列方向の先端から後尾に向かって複数に区画し、区画ごとの特徴量を畳み込みニューラルネットワークにより抽出し、先端から後尾までの間の特徴量の連なりを再帰型ニューラルネットワークにより同時に捉えて、文字列を認識するニューラルネットワークである。つまり、複合型ニューラルネットワークは、文字列領域Ｔｎに存在する文字列を個々の文字に切り出す必要がなく、文字列を認識単位として認識可能なニューラルネットワークである。

複合型ニューラルネットワークに与えられる学習のための教師データは、識別用文字列２０に用いられるフォントデータや所有者コードになる。このように、複合型ニューラルネットワークに実際の貨物１２の識別用文字列２０に使用されるデータを教師データとして予め入力することで、複合型ニューラルネットワークを用いた文字列の認識精度を向上するには有利になる。なお、フォントデータとしては、一種類に限定せずに様々な種類や所定の角度で回転させたもの、上下左右を反転させたものを用いてもよく、実際に貨物を撮像した画像から切り出した文字を用いることが好ましい。

第一文字列認識部４５は、データ３４が入力されて、複合型ニューラルネットワークを用いて認識した第一文字列２３を判定部４３に出力すると共に第一文字列２３の位置を第二文字列認識部４６に出力する機能要素である。第一文字列認識部４５は、第一文字列２３が四桁のアルファベットであり、且つ、後尾に特定文字として「Ｕ」が存在するという既知の特徴に基づいて、第一文字列２３を認識する。

第二文字列認識部４６は、データ３４及び第一文字列２３の位置が入力されて、複合型ニューラルネットワークを用いて認識した第二文字列２４を判定部４３に出力すると共に第二文字列２４の位置を画像処理部４７に出力する機能要素である。第二文字列認識部４６は、第二文字列２４が第一文字列２３の近傍に配置されることと六桁の数字であるという既知の特徴に基づいて、第二文字列２４を認識する。

単文字認識部４２は、画像処理部４７で単文字が判別可能に切り出された単文字画像データ４８（４８ａ、４８ｂ）が入力されて、認識した検査文字２２を判定部４３に出力する機能要素である。単文字認識部４２は、単文字を認識単位として、畳み込みニューラルネットワークを用いて、検査文字２２を認識する機能要素である。

また、単文字認識部４２は、文字列認識部４１が特徴文字列２１を認識不可の場合に、特徴文字列２１を構成する文字の全て又は一部を一文字ずつ畳み込みニューラルネットワークを用いて再認識した再認識文字列２６を文字列認識部４１及び判定部４３に出力する機能要素でもある。

畳み込みニューラルネットワークとしては、ＬｅＮｅｔが例示される。単文字認識部４２の畳み込みニューラルネットワークに与えられる学習のための教師データは、識別用文字列２０に用いられるフォントデータである。なお、フォントデータとしては、複合型ニューラルネットワークの教師データと同様に、一種類に限定せずに様々な種類や所定の角度で回転させたもの、上下左右を反転させたものを用いてもよく、実際に貨物を撮像した画像から切り出した文字を用いることが好ましい。

判定部４３は、文字列認識部４１から出力された特徴文字列２１と単文字認識部４２から出力された検査文字２２とが入力されて、特徴文字列２１に対して所定の計算式を適用して算出された算出文字２５と検査文字２２とを照合する機能要素である。また、判定部４３は、算出文字２５と検査文字２２とを照合して、それらが一致した場合に出力部４４に特徴文字列２１及び検査文字２２を出力する機能要素である。一方、判定部４３は、算出文字２５と検査文字２２とを照合して、それらが不一致の場合に特徴文字列２１の位置に基づいて単文字認識部４２に特徴文字列２１を構成する文字の全て又は一部を一文字ずつ再認識させた再認識文字列２６を特徴文字列２１として判定部４３に出力させる機能要素である。

出力部４４は、判定部４３から出力された特徴文字列２１及び検査文字２２が入力されて、特徴文字列２１及び検査文字２２を先頭から順に並べた文字列を識別用文字列２０として出力し、表示装置３１に出力した識別用文字列２０を表示させる機能要素である。また、判定部４３から識別用文字列２０の認識不可が指示されると表示装置３１に「認識不可」を表示させる機能要素でもある。

画像処理部４７は、第二文字列認識部４６から出力された第二文字列２４の位置が入力されて、検査文字２２が判別可能に切り出された検査文字画像データ４８ａを単文字認識部４２に出力する機能要素である。また、画像処理部４７は、第二文字列２４が存在する文字列領域Ｔｎが文字ごとに分割された複数の第二文字列画像データ４８ｂを単文字認識部４２に出力する機能要素でもある。なお、第二文字列画像データ４８ｂは、第二文字列２４の桁数と同数の個数となる。

図５〜図９に例示するように、識別用文字列２０の認識方法は、文字列領域検出システム３３から出力されたデータ３４が入力するとスタートし、表示装置３１に識別用文字列２０が表示される又は「認識不可」が表示されると終了する方法である。また、識別用文字列２０の認識方法は、繰り返し行う過程でニューラルネットワークの教師データが蓄積されるに連れて、認識精度が向上する方法である。

図５に例示するように、データ３４が入力されると、第一文字列認識部４５は、予め設定された規則Ｐに従ってデータ３４に存在する複数の文字列領域Ｔｎを序列する（Ｓ１１０）。

図１０に例示するように、データ３４は、文字列が占有する領域が複数の文字列領域Ｔｎ（ｎ＝１、２、・・・、２５）として検出されたデータであり、その文字列領域Ｔｎの位置と占有面積とが平面座標として検出されたデータである。規則Ｐは、複数の文字列領域Ｔｎに対して優先順位を設定する規則であり、画像１４の四隅のうちのいずれかの隅を原点Ｐ０として、原点Ｐ０と文字列領域Ｔｎとの距離に基づく規則である。この実施形態で、規則Ｐは、識別用文字列２０が貨物１２の背面の右上に記載されるという慣例に基づいて画像１４の右上隅を原点Ｐ０とする。また、規則Ｐは、原点Ｐ０に最も近い文字列領域Ｔ３を先頭とし、最も遠い文字列領域Ｔ２１を後尾とし、原点Ｐ０との距離が近い順（Ｔ３、Ｔ２、Ｔ４、Ｔ１、Ｔ８、・・・、Ｔ２１）に序列する。

次いで、第一文字列認識部４５は、複合型ニューラルネットワークを用いて序列のａ番目の文字列領域Ｔｎに存在する文字列を認識する（Ｓ１２０）。文字列が左横書きに記載される場合に、文字列領域Ｔｎの左端を先頭とし、右端を後尾とするとよく、文字列領域Ｔｎを区切る区画数を第一文字列２３の桁数以上とするとよい。

次いで、第一文字列認識部４５は、認識した文字列に対して予め設定された条件Ａが成立するか否かを判定する（Ｓ１４０）。条件Ａは、第一文字列２３の既知の特徴に基づく条件である。条件Ａは、認識した文字列が四桁のアルファベットで構成され、且つ、後尾に特定文字として「Ｕ」が存在する場合に成立することが好ましい。また、条件Ａは、認識した文字列の先頭から３桁までがＢ．Ｉ．Ｃに登録された管理者コードのいずれかであり、且つ、後尾に「Ｕ」が存在する場合に成立することがより好ましい。

次いで、条件Ａが成立した場合に（Ｓ１４０：ＹＥＳ）、第一文字列認識部４５は、認識した文字列を第一文字列２３として判定部４３に出力すると共に、第二文字列認識部４６に第一文字列２３のデータを出力する（Ｓ１５０）。

一方、条件Ａが不成立の場合に（Ｓ１４０：ＮＯ）、第一文字列認識部４５は、序列の順番をカウントアップする（Ｓ１６０）。次いで、第一文字列認識部４５は、カウントアップした順番が規則Ｐで序列した最後尾の順番よりも大きいか否かを判定する（Ｓ１７０）。順番が最後尾の順番よりも大きいと判定すると、データ３４から第一文字列２３を認識できないとして、表示装置３１に「認識不可（ＥＲＲＯＲ）」を表示させる（Ｓ１８０）。一方、順番が最後尾の順番以下と判定すると、ステップＳ１２０へ戻り、序列の（ａ＋１）番目の文字列領域Ｔｎを選択し、ステップＳ１２０以降を行う。

図６に例示するように、第一文字列認識部４５から出力された第一文字列２３のデータが入力されると、第二文字列認識部４６は、予め設定された規則Ｑに従って文字列領域Ｔｎを選択する（Ｓ２１０）。規則Ｑは、第一文字列２３の文字列領域Ｔｎの近傍に位置する複数の文字列領域Ｔｎに対して優先順位を設定する規則である。

図１１に例示するように、第二文字列２４は第一文字列２３の近傍に配置される。前述したとおり、第二文字列２４は、第一文字列２３の右方又は下方に配置される。加えて、第二文字列２４は、一列の文字列、又は上下二列に分かれた二つの文字列で構成される。そこで、規則Ｑは図中の点線で囲われた範囲内の文字列領域（Ｔ２、Ｔ３、Ｔ４）を選択する。

図６に例示するように、第二文字列認識部４６は、複合型ニューラルネットワークを用いて選択した文字列領域Ｔｎに存在する文字列を認識する（Ｓ２２０）。このステップで、文字列領域Ｔ２、Ｔ３、Ｔ４を区切る区画数を第二文字列２４の桁数以上とするとよい。

次いで、第二文字列認識部４６は、認識した文字列に対して予め設定された条件Ｂが成立するか否かを判定する（Ｓ２３０）。条件Ｂは、第二文字列２４の既知の特徴に基づく条件である。条件Ｂは、認識した文字列を組み合わせたときの文字数が合計して七文字以下で、且つその全てが数字であることが条件の一つである。なお、認識した文字列の組み合わせには、文字列が一つの場合を含むものとする。また、条件Ｂは、認識した文字列から六桁の数字が構成される場合に成立することが好ましい。つまり、条件Ｂは、認識した一つの文字列が横一列の六桁の数字、認識した一つの文字列が横一列の七桁の数字（後尾の一桁の数字は検査文字）、認識した二つの文字列が横一列の六桁の数字（三桁＋三桁、四桁＋二桁など）、認識した二つの文字列が上下二列の六桁の数字が構成される場合に成立することがより好ましい。

この実施形態で、条件Ｂが成立するか否かを第二文字列２４が存在すると予測される複数の文字列領域Ｔｎを選択して、それらに存在する文字列を認識して、それらの文字列の組み合わせで判断したが、左横書きの順番に文字列領域Ｔｎごとに条件Ｂの成否を判断してもよい。例えば、文字列領域Ｔ２〜Ｔ４に存在する文字列を順番に認識し、文字列領域Ｔ２に存在する文字列が六桁の場合に条件Ｂが成立したと見做してもよい。また、文字列領域Ｔ２に存在する文字列が三桁の場合に、文字列領域Ｔ３又は文字列領域Ｔ４のそれぞれに存在する文字列が三桁のときに、条件Ｂが成立したと見做してもよい。

次いで、条件Ｂが成立した場合に（Ｓ２３０：ＹＥＳ）、第二文字列認識部４６は、認識した文字列を第二文字列２４として判定部４３に出力すると共に、画像処理部４７に第二文字列２４のデータを出力する（Ｓ２４０）。

一方、条件Ｂが不成立の場合に（Ｓ２３０：ＮＯ）、第二文字列認識部４６は、文字列領域検出システム３３に文字列領域Ｔｎを文字の配列方向に拡大させる指示をする（Ｓ２５０）。次いで、第二文字列認識部４６は、拡大した文字列領域Ｔｎが最大限まで拡大したか否かを判定する（Ｓ２６０）。文字列領域Ｔｎが最大限まで拡大したと判定すると、データ３４から第二文字列２４を認識できないとして、表示装置３１に「認識不可（ＥＲＲＯＲ）」を表示させる（Ｓ２７０）。一方、文字列領域Ｔｎが最大限まで拡大していないと判定すると、ステップＳ２１０へ戻り、拡大された文字列領域Ｔｎに対して規則Ｑで選択し、ステップＳ２１０以降を行う。

図７に例示するように、データ３４及び第二文字列認識部４６が出力した第二文字列２４のデータが入力されると、画像処理部４７は、予め設定された規則Ｒに従ってデータ３４に存在する複数の文字列領域Ｔｎの中から検査文字２２が存在すると予測される文字列領域Ｔｎを選択する（Ｓ３１０）。規則Ｒは、検査文字２２が第二文字列２４の後尾の近傍に配置される一文字の数字であることに基づいて、第二文字列２４の後尾を基準とした所定の範囲内に存在する文字列領域Ｔ４を選択する規則である。

図１２に例示するように、検査文字２２は、第二文字列２４の後尾の近傍に配置される。前述したとおり、検査文字２２は、第二文字列２４の後尾の右方又は下方に単文字として配置される。そこで、規則Ｒは図中の点線で囲われた範囲内の文字列領域（Ｔ３）を選択する。なお、上記のステップＳ２１０における条件Ｂの成否の過程で七桁の数字が認識された場合は、先頭側の六桁の数字が第二文字列２４、最後尾の一桁の数字が検査文字２２となることから、対象となる文字列領域Ｔ４の最後尾に当たる部位を画像処理部４７で切り出すとよい。

図７に例示するように、画像処理部４７は、選択された文字列領域Ｔｎを画像処理した検査文字画像データ４８ａを単文字認識部４２に出力する（Ｓ３２０）。

次いで、単文字認識部４２は、畳み込みニューラルネットワークを用いて検査文字画像データ４８ａに存在する単文字を認識する（Ｓ３３０）。次いで、単文字認識部４２は、認識した単文字を検査文字２２として判定部４３に出力する（Ｓ３４０）。

次いで、判定部４３は、第一文字列２３と第二文字列２４とに所定の計算式を適用して算出文字２５を算出する（Ｓ３５０）。所定の計算式は、第一文字列２３と第二文字列２４とからなる特徴文字列２１から検査文字２２を算出する際の計算式である。次いで、判定部４３は、第一文字列２３及び第二文字列２４から算出した算出文字２５が、単文字認識部４２で認識された検査文字２２に一致するか否かを判定する（Ｓ３６０）。

図８に例示するように、算出文字２５が検査文字２２に一致すると判定する（Ｓ３６０：ＹＥＳ）と、判定部４３は、画像処理部４７に指示を出し、画像処理部４７に第二文字列２４が存在する文字列領域Ｔｎから文字ごとに分割する画像処理を施した複数の第二文字列画像データ４８ｂを生成する（Ｓ４１０）。次いで、画像処理部４７は、生成した複数の第二文字列画像データ４８ｂをランダムに並び替えて（Ｓ４２０）、教師データとして第二文字列認識部４６に入力する（Ｓ４３０）。

次いで、判定部４３は出力部４４に指示を出し、その指示に基づいて出力部４４は、表示装置３１に読取システム４０が識別用文字列２０を読み取れたことを示すように、読み取った識別用文字列２０を表示させて（Ｓ４４０）、この読取方法が完了する。

図９に例示するように、算出文字２５が検査文字２２に一致しないと判定する（Ｓ３６０：ＮＯ）と、判定部４３は、画像処理部４７に指示を出し、画像処理部４７に第二文字列２４が存在する文字列領域Ｔｎから文字ごとに分割する画像処理を施した複数の第二文字列画像データ４８ｂを生成する（Ｓ５１０）。次いで、画像処理部４７は、生成した複数の第二文字列画像データ４８ｂの並び順を替えずに第二文字列認識部４６に出力する（Ｓ５２０）。

次いで、単文字認識部４２は、畳み込みニューラルネットワークを用いて複数の第二文字列画像データ４８ｂに存在する単文字を認識する（Ｓ５３０）。次いで、単文字認識部４２は、判定部４３に再認識文字列２６を出力する（Ｓ５４０）。

次いで、判定部４３は、第一文字列２３と再認識文字列２６とに所定の計算式を適用して再算出文字２８を算出する（Ｓ５５０）。次いで、判定部４３は、算出した再算出文字２８が、検査文字２２に一致するか否かを判定する（Ｓ５６０）。再算出文字２８が検査文字２２に一致すると判定する（Ｓ５６０：ＹＥＳ）と、図８のステップＳ４２０へ進み、この読取方法が完了する。

一方、再算出文字２８が検査文字２２に一致しないと判定する（Ｓ５６０：ＮＯ）と、判定部４３は出力部４４に指示を出し、その指示に基づいて出力部４４は、表示装置３１に読取システム４０が識別用文字列２０を読み取れなかったことを示すように、「認識不可」を表示させて（Ｓ５７０）、この読取方法が完了する。

上記の読取方法において、表示装置３１に「認識不可」が表示された場合は、作業者が目視により貨物１２に記載される識別用文字列２０を読み取り、読み取った文字を端末の入力装置３２に入力する。次いで、入力装置３２に入力された入力文字列２７は、エッジデバイス３０に送信されて、エッジデバイス３０は貨物１２の識別用文字列２０を認識することが可能になる。

このように、読取システム４０による識別用文字列２０の読取方法は、識別用文字列２０が認識できない場合に学習のための教師データがステップＳ４２０、Ｓ４３０の工程により入力される。つまり、読取方法は繰り返し行われることで、特徴文字列認識部４１における特徴文字列２１の認識精度が高くなる。それ故、経時的に図９に例示する第二文字列２４を単文字認識部４２に認識させる工程が低減する。

以上のように、読取システム４０は、既知の特徴を手がかりとして文字列認識部４１が複数の文字から構成される特徴文字列２１を認識し、特徴文字列２１が認識されたことで位置が特定された単文字を単文字認識部４２が検査文字２２として認識する構成である。

つまり、文字列を個々の文字に分解する画像処理の工程により認識率が低下する特徴文字列２１を認識単位が文字列の文字列認識部４１に認識させることで、画像処理の工程を省いて、画像処理を起因とする特徴文字列２１の認識の低下を解消することができる。一方、文字列認識部４１の数字の認識率が低いというデメリットを解消するために、単文字の検査文字２２を認識単位が単文字の単文字認識部４２に高精度に認識させることで、特徴文字列の不確かな認識結果を排除することができる。

以上のように、読取システム４０は、識別用文字列２０が既知の特徴を有する特徴文字列２１とその特徴文字列２１の近傍に配置される検査文字２２とから構成されることに着目して、識別用文字列２０の認識に異なる二つの認識方法を用いることで、それぞれの認識方法のデメリットを解消することができる。これにより、撮像装置１３の撮像条件が悪い場合や画像１４に複数の文字列が存在する場合でも、所定の識別用文字列２０のみを高精度に自動認識することができる。

また、読取システム４０は、導入直後に文字列認識部４１の第二文字列認識部４６における第二文字列２４の認識率が低い状態である。これに関して、認識可能時の複数の第二文字列画像データ４８ｂをランダムに並び替えて教師データとして活用する教師あり学習により、繰り返し認識を行う過程で第二文字列２４の認識率を向上することができる。

読取システム４０は、文字列認識部４１が識別用文字列２０の既知の特徴に基づいて特徴文字列２１を一度に認識することも可能であるが、実施形態のように、特徴文字列２１を既知の特徴ごとに区分して、それぞれを順番に認識することが望ましい。具体的に、まず、文字列認識部４１の第一文字列認識部４５が、識別用文字列２０の既知の特徴として第一文字列２３の桁数、並びに、特定文字の字形及び順番に基づいて、第一文字列２３を認識する。次いで、第二文字列認識部４６がその第一文字列２３の画像１４における位置、並びに、第二文字列２４の桁数に基づいて、第二文字列２４を認識する。このように、特徴文字列２１を既知の特徴ごとに区分して、それぞれを順番に認識するようにしたことで、それぞれの認識候補を大幅に絞ることができる。これにより、認識率の向上には有利になり、高精度の自動認識が可能になる。なお、既知の特徴に基づいて、特徴文字列２１を三つ以上に区分して、それぞれを認識可能な認識部を三つ以上設けてもよい。

読取システム４０は、文字の読み取り方式が特に限定されないが、文字列認識部４１として複合型ニューラルネットワークを用いて認識単位を文字列にし、単文字認識部４２として畳み込みニューラルネットワークを用いて認識単位を単文字にすることが望ましい。畳み込みニューラルネットワークと再帰型ニューラルネットワークとを複合した複合型ニューラルネットワークは、時系列の流れに意味を持つデータの予測や分類に適するニューラルネットワークである。従って、このような複合型ニューラルネットワークは、特徴文字列２１のように、複数の文字の組み合わせを認識させるには適したニューラルネットワークである。また、畳み込みニューラルネットワークは、文字や画像など各部位から特徴を検出することに適するニューラルネットワークである。

上述したとおり、第一文字列２３は、所有者コードと「Ｕ」との組み合わせであり、認識候補を十分に絞ることができる。一方で、第二文字列２４は、貨物１２のシリアルナンバーを示しており、認識候補を絞ることができない。それ故、第二文字列２４の認識精度は、第一文字列２３の認識精度に比して低くなるおそれがある。そこで、判定部４３により算出文字２５が検査文字２２と不一致であると判定した場合に、単文字認識部４２に第二文字列２４を一文字ずつ認識させることで、認識精度を向上することができる。

既述した実施形態の読取システム４０は、コンテナターミナル１１で扱われる貨物１２に記載された識別用文字列２０を認識するシステムを例に説明したが、識別用文字列２０が既知の特徴を有するものであれば、貨物１２以外に記載された識別用文字列を認識することも可能である。例えば、日本国における自動車登録番号標が例示される。

既述した実施形態では、認識過程に入力される教師データの対象を第二文字列２４を例に説明したが、第一文字列２３も同様にして教師データの対象としてもよい。また、検査文字２２も教師データの対象としてもよい。

記述した実施形態では、第一文字列２３に特徴文字である「Ｕ」が含まれることから、先に第一文字列認識部４５で第一文字列２３を認識し、その後、第二文字列認識部４６で第二文字列２３を認識する構成にしたが、この構成に限定されない。例えば、第二文字列に特徴文字が含まれる識別用文字列を認識する場合は、第二文字列から認識させてもよい。

表示装置３１に「認識不可」が表示された場合に、入力装置３２により入力される入力文字列２７に基づいて、教師データを入力してもよい。

２０識別用文字列
２１特徴文字列
２２検査文字
４０読取システム
４１文字列認識部
４２単文字認識部
４３判定部
４４出力部

Claims

既知の特徴を有する特徴文字列と、その特徴文字列の近傍に配置されて、その特徴文字列に対して所定の規則を適用して算出された単文字の検査文字とからなる識別用文字列を、入力された画像から読取る読取システムであって、
前記画像の中に含まれる文字列が占有する文字列領域における先端から後尾までの間の特徴量の連なりから文字列を認識単位として、前記画像の中に含まれる複数の文字列の中から前記既知の特徴に基づいて前記特徴文字列を認識する文字列認識部と、
前記画像の中に含まれる単文字が判別可能に切り出された単文字画像データから単文字を認識単位として、前記文字列認識部が認識した前記特徴文字列の位置に基づいて前記検査文字を認識する単文字認識部と、
前記文字列認識部が認識した前記特徴文字列に対して前記所定の規則を適用して算出した算出文字と、前記検査文字とが一致した場合に、前記特徴文字列、及び前記検査文字を順に並べた文字列を前記識別用文字列として認識して出力する出力部とを備えることを特徴とする読取システム。
前記特徴文字列は、二桁以上の予め特定された桁数で構成されると共に予め字形及び順番が特定された特定文字を少なくとも一文字含む第一文字列と、前記第一文字列の近傍に配置されると共に予め特定された二桁以上の桁数で構成される第二文字列とから構成され、
前記文字列認識部は、前記既知の特徴として前記第一文字列の桁数、並びに、前記特定文字の字形及び順番に基づいて、前記第一文字列を認識し、認識したその第一文字列の前記画像における位置、並びに、前記第二文字列の桁数に基づいて、前記第二文字列を認識する機能を有する請求項１に記載の読取システム。
前記文字列認識部は、畳み込みニューラルネットワークと再帰型ニューラルネットワークとを複合した複合型ニューラルネットワークを用いて前記特徴文字列を認識する機能を有し、
前記単文字認識部は、畳み込みニューラルネットワークを用いて前記検査文字を認識する機能を有する請求項１又は２に記載の読取システム。
前記算出文字が前記検査文字と一致するか否かを判定する判定部を備えると共に前記文字列認識部がニューラルネットワークを用いて前記特徴文字列を認識する機能を有し、
前記判定部は、前記算出文字が前記検査文字と不一致であると判定した場合に、前記単文字認識部に、前記特徴文字列を構成する文字の全て又はその一部を一文字ずつ再認識させ、
前記判定部は、前記単文字認識部に再認識させた文字を含む再認識文字列に対して前記所定の規則を適用して算出した再算出文字が前記検査文字と一致すると判定した場合に、前記文字列認識部に対して、前記再認識文字列を文字ごとに分割した画像データをランダムに並び替えて教師データとして入力する機能を有する請求項１〜３のいずれか１項に記載の読取システム。
前記算出文字が前記検査文字と一致するか否かを判定する判定部を備えると共に前記文字列認識部がニューラルネットワークを用いて前記特徴文字列を認識する機能を有し、
前記判定部は、前記算出文字が前記検査文字に一致したと判定した場合に、前記文字列認識部に対して、その文字列認識部が認識した文字列を文字ごとに分割した画像データをランダムに並び替えて教師データとして入力する機能を有する請求項１〜４のいずれか１項に記載の読取システム。
既知の特徴を有する特徴文字列と、その特徴文字列の近傍に配置されて、その特徴文字列に対して所定の規則を適用して算出された単文字の検査文字とからなる識別用文字列を、入力された画像から読み取る読取方法であって、
前記画像の中に含まれる文字列が占有する文字列領域における先端から後尾までの間の特徴量の連なりから文字列を認識単位として、前記画像の中に含まれる複数の文字列の中から前記既知の特徴に基づいて前記特徴文字列を認識し、
前記画像の中に含まれる単文字が判別可能に切り出された単文字画像データから単文字を認識単位として、探し出した前記特徴文字列の位置に基づいて前記検査文字を認識し、
前記文字列認識部が認識した前記特徴文字列に対して前記所定の規則を適用して算出文字を算出し、
前記算出文字と、前記検査文字とが一致するか否かを判定し、
前記算出文字と前記検査文字とが一致したと判定した場合に、前記特徴文字列、及び前記検査文字を順に並べた文字列を前記識別用文字列として認識することを特徴とする読取方法。