JP2022136656A

JP2022136656A - 情報処理装置、プログラム及びシステム

Info

Publication number: JP2022136656A
Application number: JP2021036368A
Authority: JP
Inventors: 杜朗鳥居; Morio Torii; 泰弘大川; Yasuhiro Okawa; 一隆朝日; Kazutaka Asahi; 和也藤井; Kazuya Fujii; 翔太永渕; Shota Nagabuchi; 和久吉田; Kazuhisa Yoshida; 裕之堺; Hiroyuki Sakai; 崇青木; Takashi Aoki; 琢磨赤木; Takuma Akagi; 賢太郎瀬崎; Kentaro Sezaki
Original assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Current assignee: Toshiba Corp; Toshiba Infrastructure Systems and Solutions Corp
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-09-21
Also published as: WO2022190900A1

Abstract

【課題】文字認識を行う装置への転送量を抑制することができる情報処理装置、プログラム及びシステムを提供する。【解決手段】実施形態によれば、情報処理装置は、画像インターフェースと、通信インターフェースと、プロセッサと、を備える。画像インターフェースは、文字列を含む撮影画像を取得する。通信インターフェースは、外部装置に接続する。プロセッサは、前記撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成し、前記通信インターフェースを通じて前記中間情報を前記外部装置に送信する。【選択図】図１

Description

本発明の実施形態は、情報処理装置、プログラム及びシステムに関する。

端末が取得した画像の文字認識をクラウドサーバで行うシステムが提供されている。そのようなシステムでは、端末は、取得された画像をクラウドサーバに送信して、クラウドサーバから文字認識の結果を取得する。

従来、システムは、端末からクラウドサーバに画像を送信する必要があるため転送量が大きいという課題がある。

特開２０１５－９０６２３号公報

上記の課題を解決するため、文字認識を行う装置への転送量を抑制することができる情報処理装置、プログラム及びシステムを提供する。

実施形態によれば、情報処理装置は、画像インターフェースと、通信インターフェースと、プロセッサと、を備える。画像インターフェースは、文字列を含む撮影画像を取得する。通信インターフェースは、外部装置に接続する。プロセッサは、前記撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成し、前記通信インターフェースを通じて前記中間情報を前記外部装置に送信する。

図１は、実施形態に係る認識システムの構成例を示すブロック図である。図２は、実施形態に係るＯＣＲ装置の構成例を示すブロック図である。図３は、実施形態に係るサーバの構成例を示すブロック図である。図４は、実施形態に係るＯＣＲ装置の動作例を示す図である。図５は、実施形態に係る中間情報の構成例を示す図である。図６は、実施形態に係るサーバの動作例を示す図である。図７は、実施形態に係るＯＣＲ装置の動作例を示すフローチャートである。図８は、実施形態に係るサーバの動作例を示すフローチャートである。図９は、実施形態に係るＯＣＲ装置の他の動作例を示す図である。

以下、図面を参照して実施形態について説明する。
実施形態に係る認識システムは、文字認識処理（ＯＣＲ（Optical Character Recognition）処理）を用いて画像から文字列を認識する。ここでは、認識システムは、荷物に添付されている伝票などの画像から荷物の宛先を認識する。認識システムは、認識された宛先に基づいて荷物を区分する。

図１は、実施形態に係る認識システム１の構成例を示す。図１が示すように、認識システム１は、区分装置２、カメラ３、ネットワーク６、ＯＣＲ装置１０及びサーバ２０などを備える。

ＯＣＲ装置１０は、区分装置２及びカメラ３に接続する。また、ＯＣＲ装置１０及びサーバ２０は、ネットワーク６に接続する。

なお、認識システム１は、図１が示すような構成の他に必要に応じた構成をさらに具備したり、認識システム１から特定の構成が除外されたりしてもよい。

区分装置２は、オペレータ、搬送ベルト又はロボットなどによって投入された荷物を区分する。区分装置２は、荷物の宛先（文字列）に関連する宛先情報（文字列情報）をＯＣＲ装置１０から受信する。区分装置２は、宛先情報に基づいて荷物を区分する。たとえば、区分装置２は、区分先としてのシュータ、ポケット、カート又はトレイなどに荷物を区分する。たとえば、区分装置２は、ソータ、搬送ベルト又はロボットなどから構成される。

カメラ３は、区分装置２に投入される荷物を撮影する。カメラ３は、宛先が表示されている面を撮影する。たとえば、カメラ３は、伝票が添付されている面を撮影する。カメラ３は、撮影で得られた画像（撮影画像）をＯＣＲ装置１０に供給する。

たとえば、カメラ３は、ＣＣＤ（Charge Coupled Device）カメラである。また、カメラ３は、荷物を照らす光源を備えるものであってもよい。

ＯＣＲ装置１０（情報処理装置、第１の情報処理装置、外部装置）は、撮影画像をカメラ３から取得する。ＯＣＲ装置１０は、撮影画像からＯＣＲ処理に関連する中間情報を生成する。ＯＣＲ装置１０は、中間情報をサーバ２０に送信し、撮影画像に写る荷物の宛先に関連する宛先情報をサーバ２０から受信する。ＯＣＲ装置１０は、受信された宛先情報を区分装置２に入力する。ＯＣＲ装置１０及び中間情報については、後に詳述する。

ネットワーク６は、ＯＣＲ装置１０とサーバ２０との間の通信を中継する。たとえば、ネットワーク６は、インターネットである。

サーバ２０（情報処理装置、第２の情報処理装置、外部装置）は、中間情報をＯＣＲ装置１０から受信する。サーバ２０は、受信された中間情報に基づいて宛先情報を生成する。サーバ２０は、生成された宛先情報をＯＣＲ装置１０に供給する。サーバ２０については、後に詳述する。

次に、ＯＣＲ装置１０について説明する。
図２は、実施形態に係るＯＣＲ装置１０の構成例を示す。図２は、ＯＣＲ装置１０の構成例を示すブロック図である。図２が示すように、ＯＣＲ装置１０は、プロセッサ１１、ＲＯＭ１２、ＲＡＭ１３、ＮＶＭ１４、通信部１５、操作部１６、表示部１７、区分装置インターフェース１８及びカメラインターフェース１９などを備える。

プロセッサ１１と、ＲＯＭ１２、ＲＡＭ１３、ＮＶＭ１４、通信部１５、操作部１６、表示部１７、区分装置インターフェース１８及びカメラインターフェース１９と、は、データバスなどを介して互いに接続する。
なお、ＯＣＲ装置１０は、図２が示すような構成の他に必要に応じた構成を具備したり、ＯＣＲ装置１０から特定の構成が除外されたりしてもよい。

プロセッサ１１（第１のプロセッサ）は、ＯＣＲ装置１０全体の動作を制御する機能を有する。プロセッサ１１は、内部キャッシュ及び各種のインターフェースなどを備えてもよい。プロセッサ１１は、内部メモリ、ＲＯＭ１２又はＮＶＭ１４が予め記憶するプログラムを実行することにより種々の処理を実現する。

なお、プロセッサ１１がプログラムを実行することにより実現する各種の機能のうちの一部は、ハードウエア回路により実現されるものであってもよい。この場合、プロセッサ１１は、ハードウエア回路により実行される機能を制御する。

ＲＯＭ１２は、制御プログラム及び制御データなどが予め記憶された不揮発性のメモリである。ＲＯＭ１２に記憶される制御プログラム及び制御データは、ＯＣＲ装置１０の仕様に応じて予め組み込まれる。

ＲＡＭ１３は、揮発性のメモリである。ＲＡＭ１３は、プロセッサ１１の処理中のデータなどを一時的に格納する。ＲＡＭ１３は、プロセッサ１１からの命令に基づき種々のアプリケーションプログラムを格納する。また、ＲＡＭ１３は、アプリケーションプログラムの実行に必要なデータ及びアプリケーションプログラムの実行結果などを格納してもよい。

ＮＶＭ１４は、データの書き込み及び書き換えが可能な不揮発性のメモリである。ＮＶＭ１４は、たとえば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）又はフラッシュメモリなどから構成される。ＮＶＭ１４は、ＯＣＲ装置１０の運用用途に応じて制御プログラム、アプリケーション及び種々のデータなどを格納する。

通信部１５（通信インターフェース、第１の通信インターフェース）は、ネットワーク６に接続するためのインターフェースである。即ち、通信部１５は、ネットワーク６を通じてサーバ２０などとデータを送受信するためのインターフェースである。たとえば、通信部１５は、有線又は無線のＬＡＮ（Local Area Network）接続をサポートするインターフェースである。

操作部１６は、オペレータから種々の操作の入力を受け付ける。操作部１６は、入力された操作を示す信号をプロセッサ１１へ送信する。操作部１６は、タッチパネルから構成されてもよい。

表示部１７は、プロセッサ１１からの画像データを表示する。たとえば、表示部１７は、液晶モニタから構成される。操作部１６がタッチパネルから構成される場合、表示部１７は、操作部１６と一体的に形成されてもよい。

区分装置インターフェース１８は、区分装置２に接続するためのインターフェースである。区分装置インターフェース１８は、プロセッサ１１からの信号（たとえば、宛先情報）を区分装置２に送信する。また、区分装置インターフェース１８は、区分装置２からの信号をプロセッサ１１に送信する。

カメラインターフェース１９（画像インターフェース）は、カメラ３に接続するためのインターフェースである。カメラインターフェース１９は、プロセッサ１１からの信号をカメラ３に送信する。また、カメラインターフェース１９は、カメラ３からの信号（撮影画像など）をプロセッサ１１に送信する。

次に、サーバ２０について説明する。
図３は、実施形態に係るサーバ２０の構成例を示す。図３は、サーバ２０の構成例を示すブロック図である。図３が示すように、サーバ２０は、プロセッサ２１、ＲＯＭ２２、ＲＡＭ２３、ＮＶＭ２４、通信部２５、操作部２６及び表示部２７などを備える。

プロセッサ２１と、ＲＯＭ２２、ＲＡＭ２３、ＮＶＭ２４、通信部２５、操作部２６及び表示部２７と、は、データバスなどを介して互いに接続する。
なお、サーバ２０は、図３が示すような構成の他に必要に応じた構成を具備したり、サーバ２０から特定の構成が除外されたりしてもよい。

プロセッサ２１（第２のプロセッサ）は、サーバ２０全体の動作を制御する機能を有する。プロセッサ２１は、内部キャッシュ及び各種のインターフェースなどを備えてもよい。プロセッサ２１は、内部メモリ、ＲＯＭ２２又はＮＶＭ２４が予め記憶するプログラムを実行することにより種々の処理を実現する。

なお、プロセッサ２１がプログラムを実行することにより実現する各種の機能のうちの一部は、ハードウエア回路により実現されるものであってもよい。この場合、プロセッサ２１は、ハードウエア回路により実行される機能を制御する。

ＲＯＭ２２は、制御プログラム及び制御データなどが予め記憶された不揮発性のメモリである。ＲＯＭ２２に記憶される制御プログラム及び制御データは、サーバ２０の仕様に応じて予め組み込まれる。

ＲＡＭ２３は、揮発性のメモリである。ＲＡＭ２３は、プロセッサ２１の処理中のデータなどを一時的に格納する。ＲＡＭ２３は、プロセッサ２１からの命令に基づき種々のアプリケーションプログラムを格納する。また、ＲＡＭ２３は、アプリケーションプログラムの実行に必要なデータ及びアプリケーションプログラムの実行結果などを格納してもよい。

ＮＶＭ２４は、データの書き込み及び書き換えが可能な不揮発性のメモリである。ＮＶＭ２４は、たとえば、ＨＤＤ、ＳＳＤ又はフラッシュメモリなどから構成される。ＮＶＭ２４は、サーバ２０の運用用途に応じて制御プログラム、アプリケーション及び種々のデータなどを格納する。

通信部２５（通信インターフェース、第２の通信インターフェース）は、ネットワーク６に接続するためのインターフェースである。即ち、通信部２５は、ネットワーク６を通じてＯＣＲ装置１０などとデータを送受信するためのインターフェースである。たとえば、通信部２５は、有線又は無線のＬＡＮ接続をサポートするインターフェースである。

操作部２６は、オペレータから種々の操作の入力を受け付ける。操作部２６は、入力された操作を示す信号をプロセッサ２１へ送信する。操作部２６は、タッチパネルから構成されてもよい。

表示部２７は、プロセッサ２１からの画像データを表示する。たとえば、表示部２７は、液晶モニタから構成される。操作部２６がタッチパネルから構成される場合、表示部２７は、操作部２６と一体的に形成されてもよい。

次に、ＯＣＲ装置１０が実現する機能について説明する。ＯＣＲ装置１０が実現する機能は、プロセッサ１１が内部メモリ、ＲＯＭ１２又はＮＶＭ１４などに格納されるプログラムを実行することで実現される。

図４は、ＯＣＲ装置１０が実現する機能について説明するための図である。

まず、プロセッサ１１は、撮影画像を取得する機能（第１の工程）を有する。
ここでは、カメラ３が撮影可能な位置に区分装置２に投入される荷物が存在するものとする。

プロセッサ１１は、カメラインターフェース１９を通じて、カメラ３に荷物を撮影させる。プロセッサ１１は、カメラインターフェース１９を通じて、荷物が写る撮影画像１０３をカメラ３から取得する。

また、プロセッサ１１は、取得された撮影画像１０３のパラメータを取得する。ここでは、プロセッサ１１は、取得された撮影画像１０３のサイズを取得する。

また、プロセッサ１１は、撮影画像から荷物が写る荷物画像を抽出する機能（第２の工程）を有する。

プロセッサ１１は、所定の画像処理を用いて撮影画像１０３から荷物画像１０４を抽出する。たとえば、プロセッサ１１は、エッジ検出によって荷物画像１０４を抽出する。また、プロセッサ１１は、ニューラルネットワークなどの人工知能を用いて荷物画像１０４を抽出してもよい。プロセッサ１１が撮影画像１０３から荷物画像１０４を抽出する方法は、特定の方法に限定されるものではない。

また、プロセッサ１１は、抽出された荷物画像１０４のパラメータを取得する。ここでは、プロセッサ１１は、荷物画像１０４の座標、サイズ、角度（荷物画像１０４の傾き）及び色を取得する。

また、プロセッサ１１は、荷物画像１０４から文字列が写る文字列画像を抽出する機能を有する。

ここでは、荷物画像１０４には、宛先の文字列、バーコード及びラベルが写っているものとする。

プロセッサ１１は、所定の画像処理を用いて荷物画像１０４から宛先の文字列が写る文字列画像を抽出する。たとえば、プロセッサ１１は、パターン認識によって文字列画像を検出して抽出する。また、プロセッサ１１は、ニューラルネットワークなどの人工知能を用いて文字列画像を抽出してもよい。プロセッサ１１が荷物画像１０４から文字列画像を抽出する方法は、特定の方法に限定されるものではない。

また、プロセッサ１１は、抽出された文字列画像のパラメータを取得する。ここでは、プロセッサ１１は、文字列画像の座標及びサイズを取得する。また、プロセッサ１１は、文字列画像の文字列が手書き又は印字であるかを示すフラグを取得してもよい。たとえば、プロセッサ１１は、所定の画像処理を用いて文字列画像の文字列が手書き又は印字であるかを判定する。

また、プロセッサ１１は、荷物画像１０４からバーコードを読み取ってもよい。たとえば、プロセッサ１１は、バーコードの座標及びサイズを取得する。また、プロセッサ１１は、バーコードをデコードして、バーコードが示す情報を取得する。

また、プロセッサ１１は、荷物画像１０４からラベルを読み取ってもよい。たとえば、プロセッサ１１は、ラベルの座標及びサイズを取得する。また、プロセッサ１１は、ラベルに対してＯＣＲ処理を行って、ラベルに記載されている情報（注意書きなど）を取得する。

また、プロセッサ１１は、文字列画像から１つの文字を含む領域の候補である文字候補（画像）を抽出する機能（第３の工程）を有する。

プロセッサ１１は、文字列画像から、線に重なりのある文字候補１０５を抽出する。ここでは、文字候補１０５は、矩形に囲まれたパターンである。文字候補１０５を抽出すると、プロセッサ１１は、文字候補１０５の座標などに基づいて、文字候補１０５の繋がりパターンを抽出する。繋がりパターンは、各文字候補１０５によって形成される一連の文字列のパターンを示す。

図４が示すように、プロセッサ１１は、複数の繋がりパターンを抽出する。図４では、文字候補１０５間の線１０６は、文字候補１０５同士の繋がりを示す。即ち、繋がりパターンは、線１０６によって文字候補１０５を始点１０７から終点１０８まで繋げることで示される文字候補１０５の繋がりを示す。

また、プロセッサ１１は、ＯＣＲ処理によって文字候補１０５が所定の文字列である可能性を示すスコア（尤度）を算出する機能（第５の工程）を有する。

プロセッサ１１は、ＯＣＲ処理によって、文字候補１０５と辞書情報とをマッチングする。プロセッサ１１は、マッチングによって、文字候補１０５のスコアを算出する。ここで、スコアは、文字候補１０５の画像が所定の文字である可能性を示す。

ここでは、プロセッサ１１は、複数の所定の文字に関してスコアを算出する。即ち、プロセッサ１１は、複数の所定の文字に関して、文字候補１０５が当該所定の文字である可能性を示すスコアをそれぞれ算出する。
プロセッサ１１は、各文字候補１０５に対して同様にスコアを算出する。

また、プロセッサ１１は、第１の工程乃至第５の工程で得られた情報に基づいて中間情報を生成する機能を有する。
中間情報は、ＯＣＲ処理の過程で生成される情報から構成される。即ち、中間情報は、文字列を認識するための情報である。ここでは、中間情報は、撮影画像１０３、荷物画像１０４及び認識結果を含まない。また、中間情報は、バイナリデータである。

図５は、中間情報の構成例を示す。図５が示すように、中間情報は、「画像のサイズ」、「荷物の座標」、「荷物のサイズ」、「荷物の角度」、「荷物の色」、「文字列の座標」、「文字列の切り出しサイズ」、「バーコード」、「ラベル」、「手書き・印字判定」、「文字候補の座標」、「文字候補の切り出しサイズ」、「文字候補の繋がり」及び「文字候補のスコア」などから構成される。

なお、中間情報は、図５が示すような構成の他に必要に応じた構成を具備したり、中間情報から特定の構成が除外されたりしてもよい。

「画像のサイズ」は、第１の工程によって取得される。
「画像のサイズ」は、撮影画像１０３のサイズを示す。

「荷物の座標」、「荷物のサイズ」、「荷物の角度」及び「荷物の色」は、第２の工程によって取得される。

「荷物の座標」は、荷物画像１０４の座標を示す。
「荷物のサイズ」は、荷物画像１０４のサイズを示す。
「荷物の角度」は、荷物画像１０４の傾きを示す。
「荷物の色」は、荷物画像１０４の色を示す。

「文字列の座標」、「文字列の切り出しサイズ」、「バーコード」、「ラベル」及び「手書き・印字判定」は、第３の工程によって取得される。

「文字列の座標」は、文字列画像の座標を示す。
「文字列の切り出しサイズ」は、文字列画像のサイズを示す。
「バーコード」は、荷物画像１０４のバーコードに関連する情報である。たとえば、「バーコード」は、バーコードの座標、バーコードのサイズ及びバーコードが示す情報を示す。

「ラベル」は、荷物画像１０４のラベルに関連する情報である。たとえば、「ラベル」は、ラベルの座標、ラベルのサイズ及びラベルに記載されている情報を示す。
「手書き・印字判定」は、文字列画像の文字列が手書き又は印字であるかを示す。

「文字候補の座標」、「文字候補の切り出しサイズ」及び「文字候補の繋がり」は、第４の工程によって取得される。
「文字候補の座標」は、文字候補１０５の座標を示す。
「文字候補の切り出しサイズ」は、文字候補１０５のサイズを示す。
「文字候補の繋がり」は、文字候補１０５の各繋がりパターンを示す。

「文字候補のスコア」は、第５の工程によって取得される。
「文字候補のスコア」は、各文字候補１０５の各スコアを示す。

また、プロセッサ１１は、宛先に関連する宛先情報を区分装置２に送信する機能を有する。
中間情報を生成すると、プロセッサ１１は、通信部１５を通じて、生成された中間情報をサーバ２０に送信する。

後述するように、サーバ２０は、中間情報に対して宛先情報をＯＣＲ装置１０に送信する。

プロセッサ１１は、通信部１５を通じて宛先情報をサーバ２０から受信する。宛先情報を受信すると、プロセッサ１１は、区分装置インターフェース１８を通じて、受信された宛先情報を区分装置２に送信する。

次に、サーバ２０が実現する機能について説明する。サーバ２０が実現する機能は、プロセッサ２１が内部メモリ、ＲＯＭ２２又はＮＶＭ２４などに格納されるプログラムを実行することで実現される。

図６は、サーバ２０が実現する機能について説明するための図である。

まず、プロセッサ２１は、中間情報に基づいて文字列画像に記載されている文字列を認識する機能を有する。
前述の通り、ＯＣＲ装置１０のプロセッサ２１は、通信部１５を通じて中間情報をサーバ２０に送信する。

サーバ２０のプロセッサ２１は、通信部１５を通じて中間情報をＯＣＲ装置１０から受信する。

中間情報を受信すると、プロセッサ２１は、中間情報から１つの繋がりパターンを取得する。

１つの繋がりパターンを取得すると、プロセッサ２１は、当該繋がりパターンと所定の候補（文字列）とをマッチングする。ここでは、プロセッサ２１は、当該繋がりパターンが示す文字列が所定の候補である可能性を示す評価値を算出する。プロセッサ２１は、複数の候補において、候補ごとに評価値を算出する。

たとえば、ＮＶＭ２４は、複数の候補（ここでは、住所の候補）を示す住所データベースを格納する。プロセッサ２１は、住所データベースが示す各候補及び中間情報が示す各情報を所定の評価関数に入力して、各候補の評価値を算出する。

プロセッサ２１は、中間情報が示す各繋がりパターンについて同様に各候補の評価値を算出する。

各繋がりパターンについて各候補の評価値を算出すると、プロセッサ２１は、最も大きな評価値を特定する。最も大きな評価値を特定すると、プロセッサ２１は、特定された評価値に対応する候補を取得する。プロセッサ２１は、文字列画像に記載されている文字列（ここでは、宛先）として当該候補を取得する。

また、プロセッサ２１は、認識された文字列に関連する宛先情報をＯＣＲ装置１０に送信する機能を有する。

前述の通り、プロセッサ２１は、文字列画像に記載されている文字列を認識する。ここでは、プロセッサ２１は、文字列として宛先を認識したものとする。宛先を認識すると、プロセッサ２１は、認識された宛先に関連する宛先情報を生成する。

たとえば、宛先情報は、認識された宛先（宛先自体）を含む。また、宛先情報は、認識された宛先の荷物が区分される区分先を示すものであってもよい。たとえば、宛先情報は、区分装置２におけて物品が仕分されるシュータ、ポケット、カート又はトレイなどを示すものであってもよい。宛先情報の構成は、特定の構成に限定されるものではない。

宛先情報を生成すると、プロセッサ２１は、通信部２５を通じて、生成された宛先情報をＯＣＲ装置１０に送信する。

次に、認識システム１の動作例について説明する。
まず、ＯＣＲ装置１０の動作例について説明する。図７は、ＯＣＲ装置１０の動作例について説明するためのフローチャートである。

まず、ＯＣＲ装置１０のプロセッサ１１は、カメラ３から撮影画像１０３を取得する（Ｓ１１）。撮影画像１０３を取得すると、プロセッサ１１は、撮影画像１０３から荷物画像１０４を抽出する（Ｓ１２）。

荷物画像１０４を抽出すると、プロセッサ１１は、荷物画像１０４から文字列画像を抽出する（Ｓ１３）。文字列画像を抽出すると、プロセッサ１１は、文字列画像に記載されている文字列が手書きであるか印字であるかを判定する（Ｓ１４）。

文字列画像に記載されている文字列が手書きであるか印字であるかを判定すると、プロセッサ１１は、文字列画像から文字候補１０５を抽出する（Ｓ１５）。文字候補１０５を抽出すると、プロセッサ２１は、各文字候補１０５のスコアを算出する（Ｓ１６）。

各文字候補１０５のスコアを算出すると、プロセッサ２１は、中間情報を生成する（Ｓ１７）。中間情報を生成すると、プロセッサ２１は、通信部２５を通じて、生成された中間情報をサーバ２０に送信する（Ｓ１８）。

中間情報をサーバ２０に送信すると、プロセッサ２１は、通信部２５を通じて宛先情報を受信したかを判定する（Ｓ１９）。通信部２５を通じて宛先情報を受信していないと判定すると（Ｓ１９、ＮＯ）、プロセッサ２１は、Ｓ１９に戻る。

通信部２５を通じて宛先情報を受信したと判定すると（Ｓ１９、ＹＥＳ）、プロセッサ２１は、区分装置インターフェース１８を通じて、受信された宛先情報を区分装置２に送信する（Ｓ２０）。
宛先情報を区分装置２に送信すると、プロセッサ２１は、動作を終了する。

次に、サーバ２０の動作例について説明する。図８は、サーバ２０の動作例について説明するためのフローチャートである。

まず、サーバ２０のプロセッサ２１は、通信部２５を通じて中間情報をＯＣＲ装置１０から受信する（Ｓ２１）。中間情報を受信すると、プロセッサ２１は、中間情報から１つの繋がりパターンを取得する（Ｓ２２）。

１つの繋がりパターンを取得すると、プロセッサ２１は、当該繋がりパターンと各候補とをマッチングする（Ｓ２３）。プロセッサ２１は、当該繋がりパターンと各候補とをマッチングして、各候補の評価値を算出する（Ｓ２４）。

各候補の評価値を算出すると、プロセッサ２１は、他に繋がりパターンが存在するかを判定する（Ｓ２５）。他に繋がりパターンが存在すると判定すると（Ｓ２５、ＹＥＳ）、プロセッサ２１は、Ｓ２２に戻る。

他に繋がりパターンが存在しないと判定すると（Ｓ２５、ＮＯ）、プロセッサ２１は、各評価値に基づいて文字列画像に記載されている文字列を認識する（Ｓ２６）。文字列を認識すると、プロセッサ２１は、通信部２５を通じて、認識された文字列に関連する宛先情報をＯＣＲ装置１０に送信する（Ｓ２７）。
宛先情報をＯＣＲ装置１０に送信すると、プロセッサ２１は、動作を終了する。

次に、ＯＣＲ装置１０の変形例について説明する。
ここでは、ＯＣＲ装置１０のプロセッサ１１は、スコアマップを生成する。

図９は、変形例においてＯＣＲ装置１０が実現する機能について説明するための図である。

第１の工程乃至第３の工程は、前述の通りであるため説明を省略する。

プロセッサ１１は、第４の工程において、スコアマップを生成する。

スコアマップは、文字列画像に対し機械学習、パターン認識又はＣＮＮ（Convolutional Neural Network）などを適用することで求めることができる。スコアマップの幅Ｗは、文字列画像の幅に応じて変化する（比例、もしくは同一）。スコアマップの幅Ｈは、認識対象となる文字の種類数＋１である。

図９の例では、「ΦＡＢＣＤＥＦ」でＨ＝７となっている（実際のＯＣＲでは数字、漢字などを含むためＨ＝数千）。

ここで「Φ」は「何も無い」を表す特殊文字である。
スコアマップの各行（縦座標）は、認識対象となる各文字（ΦＡＢＣＤＥＦ）に対応する。
スコアマップの各列（横座標）は、文字列画像の各列に対応する。

スコアマップは、文字列画像に記載されている「文字」に対応する行の、対応する列のスコア（値）が大きい特性をもつ。

図９の例では、「ＣＡＦＦＥＥ」の「Ｃ」に対応する４行目の２列目と３列目が他の行（Φ ＢＣＥＦ）より大きな値となっている（下の図では各列における最も大きな値をボールド表記している）。
「Ａ」や「Ｅ」に同様に関しても同様である。

サーバ２０は、スコアマップの各列における最大スコアに対応する各文字を求めることで、文字列画像に記載されている文字を認識することができる。

プロセッサ１１は、スコアマップを含む中間情報を生成する。なお、中間情報は、第１乃至第３の工程から取得された情報を含むものであってもよい。
中間情報を生成すると、プロセッサ１１は、通信部１５を通じて、生成された中間情報をサーバ２０に送信する。

なお、ＯＣＲ装置１０のプロセッサ１１は、宛先情報に基づいて区分先を示す情報を生成してもよい。たとえば、宛先情報が宛先を含む場合、プロセッサ１１は、当該宛先の荷物を区分する区分先を示す情報を生成してもよい。プロセッサ１１は、生成された情報を区分装置２に送信する。

また、区分装置２とカメラ３とは、一体的に形成されるものであってもよい。また、区分装置２、カメラ３及びＯＣＲ装置１０は、一体的に形成されるものであってもよい。

以上のように構成された認識システムは、ＯＣＲ装置において撮影画像から中間情報を生成する。認識システムは、中間情報をサーバに送信する。認識システムは、サーバにおいて、中間情報に基づいて文字列を認識する。その結果、認識システムは、画像をサーバに送信する場合よりもサーバへの転送量を抑制することができる。従って、認識システムは、サーバへの転送時間を抑制することができ、迅速に文字列を認識することができる。

また、認識システムは、画像をサーバに送信しないため、画像が読み取られることを防止することができる。その結果、認識システムは、個人情報の流出などの危険を軽減することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…認識システム、２…区分装置、３…カメラ、６…ネットワーク、１０…ＯＣＲ装置、１１…プロセッサ、１２…ＲＯＭ、１３…ＲＡＭ、１４…ＮＶＭ、１５…通信部、１６…操作部、１７…表示部、１８…区分装置インターフェース、１９…カメラインターフェース、２０…サーバ、２１…プロセッサ、２２…ＲＯＭ、２３…ＲＡＭ、２４…ＮＶＭ、２５…通信部、２６…操作部、２７…表示部、１０３…撮影画像、１０４…荷物画像、１０５…文字候補、１０６…線、１０７…始点、１０８…終点。

Claims

文字列を含む撮影画像を取得する画像インターフェースと、
外部装置に接続する通信インターフェースと、
前記撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成し、
前記通信インターフェースを通じて前記中間情報を前記外部装置に送信する、
プロセッサと、
を備える情報処理装置。
前記プロセッサは、
前記撮影画像から文字候補を抽出し、
前記文字候補の繋がりパターンを抽出し、
前記文字候補に記載されている文字が所定の文字列である可能性を示すスコアを算出し、
前記中間情報は、前記文字候補の繋がりパターンと前記スコアとを含む、
請求項１に記載の情報処理装置。
前記中間情報は、前記文字候補の座標及びサイズを含む、
請求項２に記載の情報処理装置。
前記中間情報は、前記文字列が手書き又は印字であるかを示す、
請求項１乃至３の何れか１項に記載の情報処理装置。
前記プロセッサは、前記通信インターフェースを通じて前記文字列に関連する文字列情報を前記外部装置から受信する、
請求項１乃至４の何れか１項に記載の情報処理装置。
前記文字列は、宛先である、
請求項５に記載の情報処理装置。
物品を区分する区分装置に接続する区分装置インターフェースを備え、
前記プロセッサは、前記区分装置インターフェースを通じて、前記文字列情報を前記区分装置に送信する、
請求項６に記載の情報処理装置。
プロセッサによって実行されるプログラムであって、
前記プロセッサに、
文字列を含む撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成する機能と、
前記中間情報を外部装置に送信する機能と、
を実現させるプログラム。
外部装置とデータを送受信する通信インターフェースと、
前記通信インターフェースを通じて、文字列を含む撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を前記外部装置から受信し、
前記中間情報に基づいて前記文字列を認識し、
認識された前記文字列に関連する文字列情報を生成する、
プロセッサと、
を備える情報処理装置。
前記中間情報は、前記撮影画像から抽出された文字候補の繋がりパターンと、前記文字候補に記載されている文字が所定の文字である可能性を示すスコアとを含み、
前記プロセッサは、
前記繋がりパターンと前記スコアとに基づいて前記文字列が所定の候補である可能性を示す評価値を算出し、
前記評価値に基づいて前記文字列を認識する、
請求項９に記載の情報処理装置。
前記プロセッサは、前記通信インターフェースを通じて前記文字列に関連する文字列情報を前記外部装置に送信する、
請求項９又は１０に記載の情報処理装置。
プロセッサによって実行されるプログラムであって、
前記プロセッサに、
文字列を含む撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を外部装置から受信する機能と、
前記中間情報に基づいて前記文字列を認識する機能と、
認識された前記文字列に関連する文字列情報を生成する機能と、
を実現させるプログラム。
第１の情報処理装置と第２の情報処理装置とから構成されるシステムであって、
前記第１の情報処理装置は、
文字列を含む撮影画像を取得する画像インターフェースと、
前記第２の情報処理装置に接続する第１の通信インターフェースと、
前記撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成し、
前記第１の通信インターフェースを通じて前記中間情報を前記第２の情報処理装置に送信する、
第１のプロセッサと、
を備え、
前記第２の情報処理装置は、
前記第１の情報処理装置とデータを送受信する第２の通信インターフェースと、
前記第２の通信インターフェースを通じて、前記中間情報を前記第１の情報処理装置から受信し、
前記中間情報に基づいて前記文字列を認識し、
認識された前記文字列に関連する文字列情報を生成する、
第２のプロセッサと、
を備える、
システム。