JP2022136656A - 情報処理装置、プログラム及びシステム - Google Patents
情報処理装置、プログラム及びシステム Download PDFInfo
- Publication number
- JP2022136656A JP2022136656A JP2021036368A JP2021036368A JP2022136656A JP 2022136656 A JP2022136656 A JP 2022136656A JP 2021036368 A JP2021036368 A JP 2021036368A JP 2021036368 A JP2021036368 A JP 2021036368A JP 2022136656 A JP2022136656 A JP 2022136656A
- Authority
- JP
- Japan
- Prior art keywords
- information
- processor
- character
- string
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 28
- 238000004891 communication Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 8
- 238000012015 optical character recognition Methods 0.000 description 55
- 230000006870 function Effects 0.000 description 23
- 239000000284 extract Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/424—Postal images, e.g. labels or addresses on parcels or postal envelopes
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
【課題】文字認識を行う装置への転送量を抑制することができる情報処理装置、プログラム及びシステムを提供する。【解決手段】実施形態によれば、情報処理装置は、画像インターフェースと、通信インターフェースと、プロセッサと、を備える。画像インターフェースは、文字列を含む撮影画像を取得する。通信インターフェースは、外部装置に接続する。プロセッサは、前記撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成し、前記通信インターフェースを通じて前記中間情報を前記外部装置に送信する。【選択図】 図1
Description
本発明の実施形態は、情報処理装置、プログラム及びシステムに関する。
端末が取得した画像の文字認識をクラウドサーバで行うシステムが提供されている。そのようなシステムでは、端末は、取得された画像をクラウドサーバに送信して、クラウドサーバから文字認識の結果を取得する。
従来、システムは、端末からクラウドサーバに画像を送信する必要があるため転送量が大きいという課題がある。
上記の課題を解決するため、文字認識を行う装置への転送量を抑制することができる情報処理装置、プログラム及びシステムを提供する。
実施形態によれば、情報処理装置は、画像インターフェースと、通信インターフェースと、プロセッサと、を備える。画像インターフェースは、文字列を含む撮影画像を取得する。通信インターフェースは、外部装置に接続する。プロセッサは、前記撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成し、前記通信インターフェースを通じて前記中間情報を前記外部装置に送信する。
以下、図面を参照して実施形態について説明する。
実施形態に係る認識システムは、文字認識処理(OCR(Optical Character Recognition)処理)を用いて画像から文字列を認識する。ここでは、認識システムは、荷物に添付されている伝票などの画像から荷物の宛先を認識する。認識システムは、認識された宛先に基づいて荷物を区分する。
実施形態に係る認識システムは、文字認識処理(OCR(Optical Character Recognition)処理)を用いて画像から文字列を認識する。ここでは、認識システムは、荷物に添付されている伝票などの画像から荷物の宛先を認識する。認識システムは、認識された宛先に基づいて荷物を区分する。
図1は、実施形態に係る認識システム1の構成例を示す。図1が示すように、認識システム1は、区分装置2、カメラ3、ネットワーク6、OCR装置10及びサーバ20などを備える。
OCR装置10は、区分装置2及びカメラ3に接続する。また、OCR装置10及びサーバ20は、ネットワーク6に接続する。
なお、認識システム1は、図1が示すような構成の他に必要に応じた構成をさらに具備したり、認識システム1から特定の構成が除外されたりしてもよい。
区分装置2は、オペレータ、搬送ベルト又はロボットなどによって投入された荷物を区分する。区分装置2は、荷物の宛先(文字列)に関連する宛先情報(文字列情報)をOCR装置10から受信する。区分装置2は、宛先情報に基づいて荷物を区分する。たとえば、区分装置2は、区分先としてのシュータ、ポケット、カート又はトレイなどに荷物を区分する。たとえば、区分装置2は、ソータ、搬送ベルト又はロボットなどから構成される。
カメラ3は、区分装置2に投入される荷物を撮影する。カメラ3は、宛先が表示されている面を撮影する。たとえば、カメラ3は、伝票が添付されている面を撮影する。カメラ3は、撮影で得られた画像(撮影画像)をOCR装置10に供給する。
たとえば、カメラ3は、CCD(Charge Coupled Device)カメラである。また、カメラ3は、荷物を照らす光源を備えるものであってもよい。
OCR装置10(情報処理装置、第1の情報処理装置、外部装置)は、撮影画像をカメラ3から取得する。OCR装置10は、撮影画像からOCR処理に関連する中間情報を生成する。OCR装置10は、中間情報をサーバ20に送信し、撮影画像に写る荷物の宛先に関連する宛先情報をサーバ20から受信する。OCR装置10は、受信された宛先情報を区分装置2に入力する。OCR装置10及び中間情報については、後に詳述する。
ネットワーク6は、OCR装置10とサーバ20との間の通信を中継する。たとえば、ネットワーク6は、インターネットである。
サーバ20(情報処理装置、第2の情報処理装置、外部装置)は、中間情報をOCR装置10から受信する。サーバ20は、受信された中間情報に基づいて宛先情報を生成する。サーバ20は、生成された宛先情報をOCR装置10に供給する。サーバ20については、後に詳述する。
次に、OCR装置10について説明する。
図2は、実施形態に係るOCR装置10の構成例を示す。図2は、OCR装置10の構成例を示すブロック図である。図2が示すように、OCR装置10は、プロセッサ11、ROM12、RAM13、NVM14、通信部15、操作部16、表示部17、区分装置インターフェース18及びカメラインターフェース19などを備える。
図2は、実施形態に係るOCR装置10の構成例を示す。図2は、OCR装置10の構成例を示すブロック図である。図2が示すように、OCR装置10は、プロセッサ11、ROM12、RAM13、NVM14、通信部15、操作部16、表示部17、区分装置インターフェース18及びカメラインターフェース19などを備える。
プロセッサ11と、ROM12、RAM13、NVM14、通信部15、操作部16、表示部17、区分装置インターフェース18及びカメラインターフェース19と、は、データバスなどを介して互いに接続する。
なお、OCR装置10は、図2が示すような構成の他に必要に応じた構成を具備したり、OCR装置10から特定の構成が除外されたりしてもよい。
なお、OCR装置10は、図2が示すような構成の他に必要に応じた構成を具備したり、OCR装置10から特定の構成が除外されたりしてもよい。
プロセッサ11(第1のプロセッサ)は、OCR装置10全体の動作を制御する機能を有する。プロセッサ11は、内部キャッシュ及び各種のインターフェースなどを備えてもよい。プロセッサ11は、内部メモリ、ROM12又はNVM14が予め記憶するプログラムを実行することにより種々の処理を実現する。
なお、プロセッサ11がプログラムを実行することにより実現する各種の機能のうちの一部は、ハードウエア回路により実現されるものであってもよい。この場合、プロセッサ11は、ハードウエア回路により実行される機能を制御する。
ROM12は、制御プログラム及び制御データなどが予め記憶された不揮発性のメモリである。ROM12に記憶される制御プログラム及び制御データは、OCR装置10の仕様に応じて予め組み込まれる。
RAM13は、揮発性のメモリである。RAM13は、プロセッサ11の処理中のデータなどを一時的に格納する。RAM13は、プロセッサ11からの命令に基づき種々のアプリケーションプログラムを格納する。また、RAM13は、アプリケーションプログラムの実行に必要なデータ及びアプリケーションプログラムの実行結果などを格納してもよい。
NVM14は、データの書き込み及び書き換えが可能な不揮発性のメモリである。NVM14は、たとえば、HDD(Hard Disk Drive)、SSD(Solid State Drive)又はフラッシュメモリなどから構成される。NVM14は、OCR装置10の運用用途に応じて制御プログラム、アプリケーション及び種々のデータなどを格納する。
通信部15(通信インターフェース、第1の通信インターフェース)は、ネットワーク6に接続するためのインターフェースである。即ち、通信部15は、ネットワーク6を通じてサーバ20などとデータを送受信するためのインターフェースである。たとえば、通信部15は、有線又は無線のLAN(Local Area Network)接続をサポートするインターフェースである。
操作部16は、オペレータから種々の操作の入力を受け付ける。操作部16は、入力された操作を示す信号をプロセッサ11へ送信する。操作部16は、タッチパネルから構成されてもよい。
表示部17は、プロセッサ11からの画像データを表示する。たとえば、表示部17は、液晶モニタから構成される。操作部16がタッチパネルから構成される場合、表示部17は、操作部16と一体的に形成されてもよい。
区分装置インターフェース18は、区分装置2に接続するためのインターフェースである。区分装置インターフェース18は、プロセッサ11からの信号(たとえば、宛先情報)を区分装置2に送信する。また、区分装置インターフェース18は、区分装置2からの信号をプロセッサ11に送信する。
カメラインターフェース19(画像インターフェース)は、カメラ3に接続するためのインターフェースである。カメラインターフェース19は、プロセッサ11からの信号をカメラ3に送信する。また、カメラインターフェース19は、カメラ3からの信号(撮影画像など)をプロセッサ11に送信する。
次に、サーバ20について説明する。
図3は、実施形態に係るサーバ20の構成例を示す。図3は、サーバ20の構成例を示すブロック図である。図3が示すように、サーバ20は、プロセッサ21、ROM22、RAM23、NVM24、通信部25、操作部26及び表示部27などを備える。
図3は、実施形態に係るサーバ20の構成例を示す。図3は、サーバ20の構成例を示すブロック図である。図3が示すように、サーバ20は、プロセッサ21、ROM22、RAM23、NVM24、通信部25、操作部26及び表示部27などを備える。
プロセッサ21と、ROM22、RAM23、NVM24、通信部25、操作部26及び表示部27と、は、データバスなどを介して互いに接続する。
なお、サーバ20は、図3が示すような構成の他に必要に応じた構成を具備したり、サーバ20から特定の構成が除外されたりしてもよい。
なお、サーバ20は、図3が示すような構成の他に必要に応じた構成を具備したり、サーバ20から特定の構成が除外されたりしてもよい。
プロセッサ21(第2のプロセッサ)は、サーバ20全体の動作を制御する機能を有する。プロセッサ21は、内部キャッシュ及び各種のインターフェースなどを備えてもよい。プロセッサ21は、内部メモリ、ROM22又はNVM24が予め記憶するプログラムを実行することにより種々の処理を実現する。
なお、プロセッサ21がプログラムを実行することにより実現する各種の機能のうちの一部は、ハードウエア回路により実現されるものであってもよい。この場合、プロセッサ21は、ハードウエア回路により実行される機能を制御する。
ROM22は、制御プログラム及び制御データなどが予め記憶された不揮発性のメモリである。ROM22に記憶される制御プログラム及び制御データは、サーバ20の仕様に応じて予め組み込まれる。
RAM23は、揮発性のメモリである。RAM23は、プロセッサ21の処理中のデータなどを一時的に格納する。RAM23は、プロセッサ21からの命令に基づき種々のアプリケーションプログラムを格納する。また、RAM23は、アプリケーションプログラムの実行に必要なデータ及びアプリケーションプログラムの実行結果などを格納してもよい。
NVM24は、データの書き込み及び書き換えが可能な不揮発性のメモリである。NVM24は、たとえば、HDD、SSD又はフラッシュメモリなどから構成される。NVM24は、サーバ20の運用用途に応じて制御プログラム、アプリケーション及び種々のデータなどを格納する。
通信部25(通信インターフェース、第2の通信インターフェース)は、ネットワーク6に接続するためのインターフェースである。即ち、通信部25は、ネットワーク6を通じてOCR装置10などとデータを送受信するためのインターフェースである。たとえば、通信部25は、有線又は無線のLAN接続をサポートするインターフェースである。
操作部26は、オペレータから種々の操作の入力を受け付ける。操作部26は、入力された操作を示す信号をプロセッサ21へ送信する。操作部26は、タッチパネルから構成されてもよい。
表示部27は、プロセッサ21からの画像データを表示する。たとえば、表示部27は、液晶モニタから構成される。操作部26がタッチパネルから構成される場合、表示部27は、操作部26と一体的に形成されてもよい。
次に、OCR装置10が実現する機能について説明する。OCR装置10が実現する機能は、プロセッサ11が内部メモリ、ROM12又はNVM14などに格納されるプログラムを実行することで実現される。
図4は、OCR装置10が実現する機能について説明するための図である。
まず、プロセッサ11は、撮影画像を取得する機能(第1の工程)を有する。
ここでは、カメラ3が撮影可能な位置に区分装置2に投入される荷物が存在するものとする。
ここでは、カメラ3が撮影可能な位置に区分装置2に投入される荷物が存在するものとする。
プロセッサ11は、カメラインターフェース19を通じて、カメラ3に荷物を撮影させる。プロセッサ11は、カメラインターフェース19を通じて、荷物が写る撮影画像103をカメラ3から取得する。
また、プロセッサ11は、取得された撮影画像103のパラメータを取得する。ここでは、プロセッサ11は、取得された撮影画像103のサイズを取得する。
また、プロセッサ11は、撮影画像から荷物が写る荷物画像を抽出する機能(第2の工程)を有する。
プロセッサ11は、所定の画像処理を用いて撮影画像103から荷物画像104を抽出する。たとえば、プロセッサ11は、エッジ検出によって荷物画像104を抽出する。また、プロセッサ11は、ニューラルネットワークなどの人工知能を用いて荷物画像104を抽出してもよい。プロセッサ11が撮影画像103から荷物画像104を抽出する方法は、特定の方法に限定されるものではない。
また、プロセッサ11は、抽出された荷物画像104のパラメータを取得する。ここでは、プロセッサ11は、荷物画像104の座標、サイズ、角度(荷物画像104の傾き)及び色を取得する。
また、プロセッサ11は、荷物画像104から文字列が写る文字列画像を抽出する機能を有する。
ここでは、荷物画像104には、宛先の文字列、バーコード及びラベルが写っているものとする。
プロセッサ11は、所定の画像処理を用いて荷物画像104から宛先の文字列が写る文字列画像を抽出する。たとえば、プロセッサ11は、パターン認識によって文字列画像を検出して抽出する。また、プロセッサ11は、ニューラルネットワークなどの人工知能を用いて文字列画像を抽出してもよい。プロセッサ11が荷物画像104から文字列画像を抽出する方法は、特定の方法に限定されるものではない。
また、プロセッサ11は、抽出された文字列画像のパラメータを取得する。ここでは、プロセッサ11は、文字列画像の座標及びサイズを取得する。また、プロセッサ11は、文字列画像の文字列が手書き又は印字であるかを示すフラグを取得してもよい。たとえば、プロセッサ11は、所定の画像処理を用いて文字列画像の文字列が手書き又は印字であるかを判定する。
また、プロセッサ11は、荷物画像104からバーコードを読み取ってもよい。たとえば、プロセッサ11は、バーコードの座標及びサイズを取得する。また、プロセッサ11は、バーコードをデコードして、バーコードが示す情報を取得する。
また、プロセッサ11は、荷物画像104からラベルを読み取ってもよい。たとえば、プロセッサ11は、ラベルの座標及びサイズを取得する。また、プロセッサ11は、ラベルに対してOCR処理を行って、ラベルに記載されている情報(注意書きなど)を取得する。
また、プロセッサ11は、文字列画像から1つの文字を含む領域の候補である文字候補(画像)を抽出する機能(第3の工程)を有する。
プロセッサ11は、文字列画像から、線に重なりのある文字候補105を抽出する。ここでは、文字候補105は、矩形に囲まれたパターンである。文字候補105を抽出すると、プロセッサ11は、文字候補105の座標などに基づいて、文字候補105の繋がりパターンを抽出する。繋がりパターンは、各文字候補105によって形成される一連の文字列のパターンを示す。
図4が示すように、プロセッサ11は、複数の繋がりパターンを抽出する。図4では、文字候補105間の線106は、文字候補105同士の繋がりを示す。即ち、繋がりパターンは、線106によって文字候補105を始点107から終点108まで繋げることで示される文字候補105の繋がりを示す。
また、プロセッサ11は、OCR処理によって文字候補105が所定の文字列である可能性を示すスコア(尤度)を算出する機能(第5の工程)を有する。
プロセッサ11は、OCR処理によって、文字候補105と辞書情報とをマッチングする。プロセッサ11は、マッチングによって、文字候補105のスコアを算出する。ここで、スコアは、文字候補105の画像が所定の文字である可能性を示す。
ここでは、プロセッサ11は、複数の所定の文字に関してスコアを算出する。即ち、プロセッサ11は、複数の所定の文字に関して、文字候補105が当該所定の文字である可能性を示すスコアをそれぞれ算出する。
プロセッサ11は、各文字候補105に対して同様にスコアを算出する。
プロセッサ11は、各文字候補105に対して同様にスコアを算出する。
また、プロセッサ11は、第1の工程乃至第5の工程で得られた情報に基づいて中間情報を生成する機能を有する。
中間情報は、OCR処理の過程で生成される情報から構成される。即ち、中間情報は、文字列を認識するための情報である。ここでは、中間情報は、撮影画像103、荷物画像104及び認識結果を含まない。また、中間情報は、バイナリデータである。
中間情報は、OCR処理の過程で生成される情報から構成される。即ち、中間情報は、文字列を認識するための情報である。ここでは、中間情報は、撮影画像103、荷物画像104及び認識結果を含まない。また、中間情報は、バイナリデータである。
図5は、中間情報の構成例を示す。図5が示すように、中間情報は、「画像のサイズ」、「荷物の座標」、「荷物のサイズ」、「荷物の角度」、「荷物の色」、「文字列の座標」、「文字列の切り出しサイズ」、「バーコード」、「ラベル」、「手書き・印字判定」、「文字候補の座標」、「文字候補の切り出しサイズ」、「文字候補の繋がり」及び「文字候補のスコア」などから構成される。
なお、中間情報は、図5が示すような構成の他に必要に応じた構成を具備したり、中間情報から特定の構成が除外されたりしてもよい。
「画像のサイズ」は、第1の工程によって取得される。
「画像のサイズ」は、撮影画像103のサイズを示す。
「画像のサイズ」は、撮影画像103のサイズを示す。
「荷物の座標」、「荷物のサイズ」、「荷物の角度」及び「荷物の色」は、第2の工程によって取得される。
「荷物の座標」は、荷物画像104の座標を示す。
「荷物のサイズ」は、荷物画像104のサイズを示す。
「荷物の角度」は、荷物画像104の傾きを示す。
「荷物の色」は、荷物画像104の色を示す。
「荷物のサイズ」は、荷物画像104のサイズを示す。
「荷物の角度」は、荷物画像104の傾きを示す。
「荷物の色」は、荷物画像104の色を示す。
「文字列の座標」、「文字列の切り出しサイズ」、「バーコード」、「ラベル」及び「手書き・印字判定」は、第3の工程によって取得される。
「文字列の座標」は、文字列画像の座標を示す。
「文字列の切り出しサイズ」は、文字列画像のサイズを示す。
「バーコード」は、荷物画像104のバーコードに関連する情報である。たとえば、「バーコード」は、バーコードの座標、バーコードのサイズ及びバーコードが示す情報を示す。
「文字列の切り出しサイズ」は、文字列画像のサイズを示す。
「バーコード」は、荷物画像104のバーコードに関連する情報である。たとえば、「バーコード」は、バーコードの座標、バーコードのサイズ及びバーコードが示す情報を示す。
「ラベル」は、荷物画像104のラベルに関連する情報である。たとえば、「ラベル」は、ラベルの座標、ラベルのサイズ及びラベルに記載されている情報を示す。
「手書き・印字判定」は、文字列画像の文字列が手書き又は印字であるかを示す。
「手書き・印字判定」は、文字列画像の文字列が手書き又は印字であるかを示す。
「文字候補の座標」、「文字候補の切り出しサイズ」及び「文字候補の繋がり」は、第4の工程によって取得される。
「文字候補の座標」は、文字候補105の座標を示す。
「文字候補の切り出しサイズ」は、文字候補105のサイズを示す。
「文字候補の繋がり」は、文字候補105の各繋がりパターンを示す。
「文字候補の座標」は、文字候補105の座標を示す。
「文字候補の切り出しサイズ」は、文字候補105のサイズを示す。
「文字候補の繋がり」は、文字候補105の各繋がりパターンを示す。
「文字候補のスコア」は、第5の工程によって取得される。
「文字候補のスコア」は、各文字候補105の各スコアを示す。
「文字候補のスコア」は、各文字候補105の各スコアを示す。
また、プロセッサ11は、宛先に関連する宛先情報を区分装置2に送信する機能を有する。
中間情報を生成すると、プロセッサ11は、通信部15を通じて、生成された中間情報をサーバ20に送信する。
中間情報を生成すると、プロセッサ11は、通信部15を通じて、生成された中間情報をサーバ20に送信する。
後述するように、サーバ20は、中間情報に対して宛先情報をOCR装置10に送信する。
プロセッサ11は、通信部15を通じて宛先情報をサーバ20から受信する。宛先情報を受信すると、プロセッサ11は、区分装置インターフェース18を通じて、受信された宛先情報を区分装置2に送信する。
次に、サーバ20が実現する機能について説明する。サーバ20が実現する機能は、プロセッサ21が内部メモリ、ROM22又はNVM24などに格納されるプログラムを実行することで実現される。
図6は、サーバ20が実現する機能について説明するための図である。
まず、プロセッサ21は、中間情報に基づいて文字列画像に記載されている文字列を認識する機能を有する。
前述の通り、OCR装置10のプロセッサ21は、通信部15を通じて中間情報をサーバ20に送信する。
前述の通り、OCR装置10のプロセッサ21は、通信部15を通じて中間情報をサーバ20に送信する。
サーバ20のプロセッサ21は、通信部15を通じて中間情報をOCR装置10から受信する。
中間情報を受信すると、プロセッサ21は、中間情報から1つの繋がりパターンを取得する。
1つの繋がりパターンを取得すると、プロセッサ21は、当該繋がりパターンと所定の候補(文字列)とをマッチングする。ここでは、プロセッサ21は、当該繋がりパターンが示す文字列が所定の候補である可能性を示す評価値を算出する。プロセッサ21は、複数の候補において、候補ごとに評価値を算出する。
たとえば、NVM24は、複数の候補(ここでは、住所の候補)を示す住所データベースを格納する。プロセッサ21は、住所データベースが示す各候補及び中間情報が示す各情報を所定の評価関数に入力して、各候補の評価値を算出する。
プロセッサ21は、中間情報が示す各繋がりパターンについて同様に各候補の評価値を算出する。
各繋がりパターンについて各候補の評価値を算出すると、プロセッサ21は、最も大きな評価値を特定する。最も大きな評価値を特定すると、プロセッサ21は、特定された評価値に対応する候補を取得する。プロセッサ21は、文字列画像に記載されている文字列(ここでは、宛先)として当該候補を取得する。
また、プロセッサ21は、認識された文字列に関連する宛先情報をOCR装置10に送信する機能を有する。
前述の通り、プロセッサ21は、文字列画像に記載されている文字列を認識する。ここでは、プロセッサ21は、文字列として宛先を認識したものとする。宛先を認識すると、プロセッサ21は、認識された宛先に関連する宛先情報を生成する。
たとえば、宛先情報は、認識された宛先(宛先自体)を含む。また、宛先情報は、認識された宛先の荷物が区分される区分先を示すものであってもよい。たとえば、宛先情報は、区分装置2におけて物品が仕分されるシュータ、ポケット、カート又はトレイなどを示すものであってもよい。宛先情報の構成は、特定の構成に限定されるものではない。
宛先情報を生成すると、プロセッサ21は、通信部25を通じて、生成された宛先情報をOCR装置10に送信する。
次に、認識システム1の動作例について説明する。
まず、OCR装置10の動作例について説明する。図7は、OCR装置10の動作例について説明するためのフローチャートである。
まず、OCR装置10の動作例について説明する。図7は、OCR装置10の動作例について説明するためのフローチャートである。
まず、OCR装置10のプロセッサ11は、カメラ3から撮影画像103を取得する(S11)。撮影画像103を取得すると、プロセッサ11は、撮影画像103から荷物画像104を抽出する(S12)。
荷物画像104を抽出すると、プロセッサ11は、荷物画像104から文字列画像を抽出する(S13)。文字列画像を抽出すると、プロセッサ11は、文字列画像に記載されている文字列が手書きであるか印字であるかを判定する(S14)。
文字列画像に記載されている文字列が手書きであるか印字であるかを判定すると、プロセッサ11は、文字列画像から文字候補105を抽出する(S15)。文字候補105を抽出すると、プロセッサ21は、各文字候補105のスコアを算出する(S16)。
各文字候補105のスコアを算出すると、プロセッサ21は、中間情報を生成する(S17)。中間情報を生成すると、プロセッサ21は、通信部25を通じて、生成された中間情報をサーバ20に送信する(S18)。
中間情報をサーバ20に送信すると、プロセッサ21は、通信部25を通じて宛先情報を受信したかを判定する(S19)。通信部25を通じて宛先情報を受信していないと判定すると(S19、NO)、プロセッサ21は、S19に戻る。
通信部25を通じて宛先情報を受信したと判定すると(S19、YES)、プロセッサ21は、区分装置インターフェース18を通じて、受信された宛先情報を区分装置2に送信する(S20)。
宛先情報を区分装置2に送信すると、プロセッサ21は、動作を終了する。
宛先情報を区分装置2に送信すると、プロセッサ21は、動作を終了する。
次に、サーバ20の動作例について説明する。図8は、サーバ20の動作例について説明するためのフローチャートである。
まず、サーバ20のプロセッサ21は、通信部25を通じて中間情報をOCR装置10から受信する(S21)。中間情報を受信すると、プロセッサ21は、中間情報から1つの繋がりパターンを取得する(S22)。
1つの繋がりパターンを取得すると、プロセッサ21は、当該繋がりパターンと各候補とをマッチングする(S23)。プロセッサ21は、当該繋がりパターンと各候補とをマッチングして、各候補の評価値を算出する(S24)。
各候補の評価値を算出すると、プロセッサ21は、他に繋がりパターンが存在するかを判定する(S25)。他に繋がりパターンが存在すると判定すると(S25、YES)、プロセッサ21は、S22に戻る。
他に繋がりパターンが存在しないと判定すると(S25、NO)、プロセッサ21は、各評価値に基づいて文字列画像に記載されている文字列を認識する(S26)。文字列を認識すると、プロセッサ21は、通信部25を通じて、認識された文字列に関連する宛先情報をOCR装置10に送信する(S27)。
宛先情報をOCR装置10に送信すると、プロセッサ21は、動作を終了する。
宛先情報をOCR装置10に送信すると、プロセッサ21は、動作を終了する。
次に、OCR装置10の変形例について説明する。
ここでは、OCR装置10のプロセッサ11は、スコアマップを生成する。
ここでは、OCR装置10のプロセッサ11は、スコアマップを生成する。
図9は、変形例においてOCR装置10が実現する機能について説明するための図である。
第1の工程乃至第3の工程は、前述の通りであるため説明を省略する。
プロセッサ11は、第4の工程において、スコアマップを生成する。
スコアマップは、文字列画像に対し機械学習、パターン認識又はCNN(Convolutional Neural Network)などを適用することで求めることができる。スコアマップの幅Wは、文字列画像の幅に応じて変化する(比例、もしくは同一)。スコアマップの幅Hは、認識対象となる文字の種類数+1である。
図9の例では、「ΦABCDEF」でH=7となっている(実際のOCRでは数字、漢字などを含むためH=数千)。
ここで「Φ」は「何も無い」を表す特殊文字である。
スコアマップの各行(縦座標)は、認識対象となる各文字(ΦABCDEF)に対応する。
スコアマップの各列(横座標)は、文字列画像の各列に対応する。
スコアマップの各行(縦座標)は、認識対象となる各文字(ΦABCDEF)に対応する。
スコアマップの各列(横座標)は、文字列画像の各列に対応する。
スコアマップは、文字列画像に記載されている「文字」に対応する行の、対応する列のスコア(値)が大きい特性をもつ。
図9の例では、「CAFFEE」の「C」に対応する4行目の2列目と3列目が他の行(Φ BCEF)より大きな値となっている(下の図では各列における最も大きな値をボールド表記している)。
「A」や「E」に同様に関しても同様である。
「A」や「E」に同様に関しても同様である。
サーバ20は、スコアマップの各列における最大スコアに対応する各文字を求めることで、文字列画像に記載されている文字を認識することができる。
プロセッサ11は、スコアマップを含む中間情報を生成する。なお、中間情報は、第1乃至第3の工程から取得された情報を含むものであってもよい。
中間情報を生成すると、プロセッサ11は、通信部15を通じて、生成された中間情報をサーバ20に送信する。
中間情報を生成すると、プロセッサ11は、通信部15を通じて、生成された中間情報をサーバ20に送信する。
なお、OCR装置10のプロセッサ11は、宛先情報に基づいて区分先を示す情報を生成してもよい。たとえば、宛先情報が宛先を含む場合、プロセッサ11は、当該宛先の荷物を区分する区分先を示す情報を生成してもよい。プロセッサ11は、生成された情報を区分装置2に送信する。
また、区分装置2とカメラ3とは、一体的に形成されるものであってもよい。また、区分装置2、カメラ3及びOCR装置10は、一体的に形成されるものであってもよい。
以上のように構成された認識システムは、OCR装置において撮影画像から中間情報を生成する。認識システムは、中間情報をサーバに送信する。認識システムは、サーバにおいて、中間情報に基づいて文字列を認識する。その結果、認識システムは、画像をサーバに送信する場合よりもサーバへの転送量を抑制することができる。従って、認識システムは、サーバへの転送時間を抑制することができ、迅速に文字列を認識することができる。
また、認識システムは、画像をサーバに送信しないため、画像が読み取られることを防止することができる。その結果、認識システムは、個人情報の流出などの危険を軽減することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…認識システム、2…区分装置、3…カメラ、6…ネットワーク、10…OCR装置、11…プロセッサ、12…ROM、13…RAM、14…NVM、15…通信部、16…操作部、17…表示部、18…区分装置インターフェース、19…カメラインターフェース、20…サーバ、21…プロセッサ、22…ROM、23…RAM、24…NVM、25…通信部、26…操作部、27…表示部、103…撮影画像、104…荷物画像、105…文字候補、106…線、107…始点、108…終点。
Claims (13)
- 文字列を含む撮影画像を取得する画像インターフェースと、
外部装置に接続する通信インターフェースと、
前記撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成し、
前記通信インターフェースを通じて前記中間情報を前記外部装置に送信する、
プロセッサと、
を備える情報処理装置。 - 前記プロセッサは、
前記撮影画像から文字候補を抽出し、
前記文字候補の繋がりパターンを抽出し、
前記文字候補に記載されている文字が所定の文字列である可能性を示すスコアを算出し、
前記中間情報は、前記文字候補の繋がりパターンと前記スコアとを含む、
請求項1に記載の情報処理装置。 - 前記中間情報は、前記文字候補の座標及びサイズを含む、
請求項2に記載の情報処理装置。 - 前記中間情報は、前記文字列が手書き又は印字であるかを示す、
請求項1乃至3の何れか1項に記載の情報処理装置。 - 前記プロセッサは、前記通信インターフェースを通じて前記文字列に関連する文字列情報を前記外部装置から受信する、
請求項1乃至4の何れか1項に記載の情報処理装置。 - 前記文字列は、宛先である、
請求項5に記載の情報処理装置。 - 物品を区分する区分装置に接続する区分装置インターフェースを備え、
前記プロセッサは、前記区分装置インターフェースを通じて、前記文字列情報を前記区分装置に送信する、
請求項6に記載の情報処理装置。 - プロセッサによって実行されるプログラムであって、
前記プロセッサに、
文字列を含む撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成する機能と、
前記中間情報を外部装置に送信する機能と、
を実現させるプログラム。 - 外部装置とデータを送受信する通信インターフェースと、
前記通信インターフェースを通じて、文字列を含む撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を前記外部装置から受信し、
前記中間情報に基づいて前記文字列を認識し、
認識された前記文字列に関連する文字列情報を生成する、
プロセッサと、
を備える情報処理装置。 - 前記中間情報は、前記撮影画像から抽出された文字候補の繋がりパターンと、前記文字候補に記載されている文字が所定の文字である可能性を示すスコアとを含み、
前記プロセッサは、
前記繋がりパターンと前記スコアとに基づいて前記文字列が所定の候補である可能性を示す評価値を算出し、
前記評価値に基づいて前記文字列を認識する、
請求項9に記載の情報処理装置。 - 前記プロセッサは、前記通信インターフェースを通じて前記文字列に関連する文字列情報を前記外部装置に送信する、
請求項9又は10に記載の情報処理装置。 - プロセッサによって実行されるプログラムであって、
前記プロセッサに、
文字列を含む撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を外部装置から受信する機能と、
前記中間情報に基づいて前記文字列を認識する機能と、
認識された前記文字列に関連する文字列情報を生成する機能と、
を実現させるプログラム。 - 第1の情報処理装置と第2の情報処理装置とから構成されるシステムであって、
前記第1の情報処理装置は、
文字列を含む撮影画像を取得する画像インターフェースと、
前記第2の情報処理装置に接続する第1の通信インターフェースと、
前記撮影画像から文字認識処理の過程で生成される情報から構成される中間情報を生成し、
前記第1の通信インターフェースを通じて前記中間情報を前記第2の情報処理装置に送信する、
第1のプロセッサと、
を備え、
前記第2の情報処理装置は、
前記第1の情報処理装置とデータを送受信する第2の通信インターフェースと、
前記第2の通信インターフェースを通じて、前記中間情報を前記第1の情報処理装置から受信し、
前記中間情報に基づいて前記文字列を認識し、
認識された前記文字列に関連する文字列情報を生成する、
第2のプロセッサと、
を備える、
システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021036368A JP2022136656A (ja) | 2021-03-08 | 2021-03-08 | 情報処理装置、プログラム及びシステム |
PCT/JP2022/007871 WO2022190900A1 (ja) | 2021-03-08 | 2022-02-25 | 情報処理装置、プログラム及びシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021036368A JP2022136656A (ja) | 2021-03-08 | 2021-03-08 | 情報処理装置、プログラム及びシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022136656A true JP2022136656A (ja) | 2022-09-21 |
Family
ID=83226780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021036368A Pending JP2022136656A (ja) | 2021-03-08 | 2021-03-08 | 情報処理装置、プログラム及びシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022136656A (ja) |
WO (1) | WO2022190900A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03230287A (ja) * | 1990-02-06 | 1991-10-14 | Ricoh Co Ltd | 情報送受信システム |
JP2006092027A (ja) * | 2004-09-21 | 2006-04-06 | Fuji Xerox Co Ltd | 文字認識装置、文字認識方法および文字認識プログラム |
JP2017216497A (ja) * | 2016-05-30 | 2017-12-07 | 株式会社東芝 | 画像処理装置、画像処理システム、画像処理方法、およびプログラム |
JP6868052B2 (ja) * | 2019-04-11 | 2021-05-12 | ソフトバンク株式会社 | 画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム |
-
2021
- 2021-03-08 JP JP2021036368A patent/JP2022136656A/ja active Pending
-
2022
- 2022-02-25 WO PCT/JP2022/007871 patent/WO2022190900A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022190900A1 (ja) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2575539B2 (ja) | 書類上の金額フィールドの位置特定方法および識別方法 | |
EP1870170B1 (en) | Capturing a non-singulated image of a plurality of forms travelling on a moving conveyor belt | |
US8965126B2 (en) | Character recognition device, character recognition method, character recognition system, and character recognition program | |
US6778683B1 (en) | Method and apparatus for reading and decoding information | |
JP6527410B2 (ja) | 文字認識装置、文字認識方法、及びプログラム | |
US20220019834A1 (en) | Automatically predicting text in images | |
CN101558416A (zh) | 移动通信设备的文本检测 | |
JP6151141B2 (ja) | 仕分装置および仕分方法 | |
KR20010031815A (ko) | 우편물의 루팅 정보를 인식하기 위한 방법 및 시스템 | |
US10785452B2 (en) | Identifying consumer products in images | |
JP2021193553A (ja) | カメラ及び画像データ処理方法 | |
CN109389115B (zh) | 文本识别方法、装置、存储介质和计算机设备 | |
CN111967286A (zh) | 信息承载介质的识别方法、识别装置、计算机设备和介质 | |
CN111177308B (zh) | 一种文本内容的识别情绪方法 | |
JP2018171579A (ja) | 宛先認識装置、小包自動区分システム、宛先認識方法及びプログラム | |
US10217020B1 (en) | Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another | |
WO2022190900A1 (ja) | 情報処理装置、プログラム及びシステム | |
US20160063034A1 (en) | Address recognition apparatus, sorting apparatus, integrated address recognition apparatus and address recognition method | |
JP2022140466A (ja) | 配達物処理装置、配達物処理方法、及び配達物処理プログラム | |
Khan et al. | Text detection and recognition on traffic panel in roadside imagery | |
US10296788B1 (en) | Method and system for processing candidate strings detected in an image to identify a match of a model string in the image | |
JP2014182618A (ja) | 区分装置及びパターン認識装置 | |
KR102396885B1 (ko) | 문자를 포함한 이미지 정렬 처리방법 | |
US20210044424A1 (en) | Structurally matching images by hashing gradient singularity descriptors | |
JP6976158B2 (ja) | 区分装置および区分システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231213 |