JP2021117920A - Storage device - Google Patents
Storage device Download PDFInfo
- Publication number
- JP2021117920A JP2021117920A JP2020012839A JP2020012839A JP2021117920A JP 2021117920 A JP2021117920 A JP 2021117920A JP 2020012839 A JP2020012839 A JP 2020012839A JP 2020012839 A JP2020012839 A JP 2020012839A JP 2021117920 A JP2021117920 A JP 2021117920A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- warehousing
- document
- image
- cover
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本技術は、書籍、ファイル、図面及び封書などの書類を収納する収納装置に関する。 The present technology relates to a storage device for storing documents such as books, files, drawings and envelopes.
オフィス内の本棚または図書館の書庫などには、書籍、ファイル、図面及び封書などの書類が収納される。書類は共用され、様々な場所に移動する。そのため、所望の書類の所在が不明となることがある。 Documents such as books, files, drawings and envelopes are stored in bookshelves in offices or library libraries. Documents are shared and moved to various places. Therefore, the location of the desired document may be unknown.
特許文献1には、空間、例えば棚及び書類が置かれた部屋の天井にカメラを設置し、書類の棚への出し入れを認識する画像処理装置が開示されている。画像処理装置は、カメラによって撮像された書類の画像から文字情報を取り出して、書類を識別し、識別された書類の棚への出し入れを認識する。
前記画像処理装置は、部屋に設置されたカメラによって、所望の書類が収納された棚を認識する。しかし、部屋の天井などにカメラが設置されている場合、カメラと書類との間の距離は長く、撮像された画像から、書類を識別することは、カメラの解像度によっては、困難となる。 The image processing device recognizes a shelf containing desired documents by a camera installed in the room. However, when the camera is installed on the ceiling of a room or the like, the distance between the camera and the document is long, and it is difficult to identify the document from the captured image depending on the resolution of the camera.
本開示は斯かる事情に鑑みてなされたものであり、収納庫内における書類を認識し易い収納装置を提供することを目的とする。 The present disclosure has been made in view of such circumstances, and an object of the present disclosure is to provide a storage device that makes it easy to recognize documents in the storage.
本開示の一実施形態に係る収納装置は、書類を収納する収納庫と、該収納庫の内側面に配置され、入庫または出庫する前記書類の表紙を撮像する撮像部と、前記撮像部にて撮像された表紙画像に基づいて、入庫する前記書類の特徴量を生成する生成部と、該生成部にて生成され、入庫する前記書類の特徴量を、入庫を示す入庫フラグに紐づけて登録する登録部とを備える。 The storage device according to an embodiment of the present disclosure includes a storage for storing documents, an imaging unit arranged on the inner side surface of the storage and imaging the cover of the document to be stored or delivered, and the imaging unit. Based on the captured cover image, the generation unit that generates the feature amount of the document to be stored and the feature amount of the document generated and stored by the generation unit are registered in association with the receipt flag indicating the receipt. It has a registration unit to do.
本開示の一実施形態に係る収納装置にあっては、収納庫の内側に撮像部を配置し、撮像部にて撮像された表紙画像に基づいて、書類の特徴量を生成する。収納庫内に撮像部を設けているので、入庫または出庫する書類と撮像部との距離が短くなり、画像から書類を認識し易くなる。また生成した書類の特徴量に入庫フラグを紐づけて、登録するので、ユーザは登録情報を参照して、収納庫内の書類を認識することができる。 In the storage device according to the embodiment of the present disclosure, an imaging unit is arranged inside the storage, and a feature amount of a document is generated based on a cover image captured by the imaging unit. Since the image pickup unit is provided in the storage, the distance between the document to be received or delivered and the image pickup section is shortened, and the document can be easily recognized from the image. Further, since the warehousing flag is associated with the feature amount of the generated document and registered, the user can recognize the document in the storage by referring to the registration information.
(実施の形態1)
以下本発明を、実施の形態1に係る収納装置を示す図面に基づいて説明する。図1は、収納庫の略示斜視図である。以下の説明では、図中に示す上下前後左右を使用する。収納装置は、書籍またはファイルなどの書類を収納する収納庫1を備える。収納庫1は、例えば、前面に開口が形成された直方体をなす。収納庫1は矩形の底板2を有し、該底板2の左右辺に、対向する二つの側板3がそれぞれ設けられている。側板3は、上下に延びた矩形をなす。
(Embodiment 1)
Hereinafter, the present invention will be described with reference to the drawings showing the storage device according to the first embodiment. FIG. 1 is a schematic perspective view of the storage. In the following description, the top, bottom, front, back, left, and right shown in the figure are used. The storage device includes a
該二つの側板3の間に、開口に対向する矩形の裏板4が配置されている。裏板4は、底板2及び二つの側板3の後辺に連なる。底板2に対向する天板5が、裏板4及び二つの側板3の上辺に連なる。収納庫1の内側において、二つの側板3に、天板5及び底板2に平行な複数の棚板が支持されている。複数の棚板は、上下方向に並んでいる。棚板の前辺は、側板3、天板5及び底板2の前辺よりも、後側に位置している。底板2の下側には、一又は複数の引き出し7が設けられている。
A
二つの側板3それぞれの内側の面には、複数のカメラ9が設けられている。複数のカメラ9は、二つの棚板の間、棚板と天板5との間、及び棚板と底板2との間に、それぞれ設けられている。右側の側板3に設けられたカメラ9は、左側の側板3に向けられ、左側の側板3に設けられたカメラ9は、右側の側板3に向けられている。カメラ9は、側板3の前辺と、棚板の前辺との間に配置されており、入出庫する書類の表表紙及び裏表紙を撮像することができる。
A plurality of
また右側の側板3に、複数の位置検出器10が設けられている。位置検出器10は、例えば、光学センサまたは超音波センサなどの非接触の近接センサである。複数の位置検出器10は、二つの棚板の間、棚板と天板5との間、及び棚板と底板2との間に、それぞれ設けられている。位置検出器10は、側板3の前辺と、棚板の前辺との間に配置されており、入庫する書類の位置、換言すれば、どの棚板に入庫したのかを検出することができる。なお位置検出器10は、左側の側板3に設けてもよく、左右二つの側板3に設けてもよい。なおカメラ9による撮像のために、側板3に照明を設けてもよい。
Further, a plurality of
開口には、観音開きの二つの扉8が設けられている。二つの扉8は、ヒンジ11を介して二つの側板3にそれぞれ回転可能に取り付けられている。天板5の前辺には、二つの開閉検出器12が設けられている。二つの開閉検出器12は、閉じた状態の二つの扉8にそれぞれ対向するように、配置される。開閉検出器12は、例えば、光学センサ若しくは超音波センサなどの非接触の近接センサ、または接触式のスイッチである。
Two
図2は、制御装置20付近の構成を示すブロック図である。収納装置は、制御装置20を備える。制御装置20は、制御部21、記憶部22、演算部23、タイマ24、画像処理部25及びサムネイル画像生成部26を備える。撮像した書類の画像がカメラ9からインタフェース(図示略)を介して制御装置20に入力され、入庫した書類の位置が位置検出器10から入力され、扉8が開いたことを示す信号(開信号)または閉じたことを示す信号(閉信号)が開閉検出器12から入力される。制御部21は、インタフェースを介して、カメラ9に撮像開始または撮像終了を示す信号を出力する。外部装置30、例えば、パーソナルコンピュータ、スマートフォンまたはタブレット端末は、インタフェースを介して、制御装置20に接続することができる。制御部21は、外部装置30からの要求に応じて、外部装置30にデータを出力することができる。なおインタフェースは、有線または無線のインタフェースである。なお、収納庫1に、タッチパネル、または、表示画面及びキーボードを取り付け、これらを外部装置30として使用してもよい。
FIG. 2 is a block diagram showing a configuration near the
制御部21、演算部23、画像処理部25及びサムネイル画像生成部26は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、またはロジック回路(例えばFPGA)などによって構成されている。記憶部22は、例えば、EEPROM(Electrically Erasable Programmable Read-Only Memory)若しくはEPROM(Erasable Programmable Read Only Memory)などの不揮発性メモリ、またはハードディスクなどの書き換え可能な記憶媒体である。
The
画像処理部25は、入力された書類の画像から文字画像を抽出する。演算部23は、抽出された文字画像、及び位置検出器10の検出結果などに基づいて、種々の情報を演算する。記憶部22は、制御プログラム、後述の入出庫テーブル、及び登録テーブルなどを記憶する。サムネイル画像生成部26は、入力された書類の画像に基づいて、サムネイル画像を生成する。制御部21は、制御プログラムに基づいて、後述の画像処理及び演算を実行する。なお制御装置20の少なくとも一部が、ネットワークを介してアクセス可能なサーバに設けられていてもよい。
The
制御装置20は、後述する撮像処理、文字画像抽出処理、データ演算処理、及び更新処理を実行する。まず撮像処理について説明する。図3は、制御装置20による撮像処理を説明するフローチャート、図4は、書類の表表紙の表紙画像の一例を示す図、図5は、書類の裏表紙の表紙画像の一例を示す図、図6は、入庫または出庫の区別を説明する説明図である。
The
図3に示すように、制御部21は、開閉検出器12から開信号が入力されたか否か判定する(S1)。開信号が入力されていない場合(S1:NO)、S1に処理を戻す。開信号が入力された場合(S1:YES)、制御部21はカメラ9に撮像開始信号を出力する(S2)。このとき、カメラ9は、入庫または出庫する書類の表表紙及び裏表紙の表紙画像を撮像する。位置検出器10は、入庫または出庫する書類の位置を検出する。
As shown in FIG. 3, the
制御部21は、カメラ9から表表紙及び裏表紙の表紙画像(図4及び図5参照)を取得し、位置検出器10から位置を取得し、タイマ24から撮像した時刻を取得する(S3)。同時刻における表表紙及び裏表紙の表紙画像が記憶部22に記憶される。表紙画像は二値画像として記憶される。
The
制御部21は、開閉検出器12から閉信号が入力されたか否か判定する(S4)。閉信号が入力されていない場合(S4:NO)、制御部21はS3に処理を戻す。閉信号が入力されている場合(S4:YES)、制御部21はカメラ9に撮像終了信号を出力する(S5)。カメラ9は撮像を終了する。カメラ9は、扉8が開いている間、撮像を継続し、表表紙及び裏表紙それぞれについて、連続的に表紙画像を撮像する。制御部21は、記憶部22の入出庫テーブル(図14参照)に、入出庫識別子を記憶し(S6)、該入出庫識別子に紐づけて、S3にて取得した、表表紙及び裏表紙それぞれの連続的な表紙画像、時刻及び位置を記憶する(S7)。時刻は、表紙画像に紐づけられている。なお図14において、時刻の記載を省略する。
The
制御部21は、撮像された表紙画像に基づいて、書類が入庫されたか否か判定する(S8)。制御部21は、例えば、記憶部22に記憶された表表紙の複数の表紙画像について、経時的な位置の変化を確認する。図6の白抜き矢印に示すように、表紙画像の位置が前側から後側に変化した場合、入庫と判定し、図6の実線矢印にて示すように、表紙画像の位置が後側から前側に変化した場合、出庫と判定する。なお、裏表紙の表紙画像について、位置の変化を確認してもよい。
The
書類が入庫されたと判定した場合(S8:YES)、入庫したことを示す入庫フラグを入出庫識別子に紐付けて、入出庫テーブルに記憶し(S9)、処理を終了する。書類が入庫されていない、即ち出庫されたと判定した場合(S8:NO)、出庫したことを示す出庫フラグを入出庫識別子に紐付けて、入出庫テーブルに記憶し(S10)、撮像処理を終了する。図4及び図5に示すように、撮像された表紙画像には、文字が含まれているところ、この文字は、画像(即ち図形)として認識される。 When it is determined that the document has been received (S8: YES), the warehousing flag indicating that the document has been received is associated with the warehousing / delivery identifier, stored in the warehousing / delivery table (S9), and the process is terminated. When it is determined that the document has not been received, that is, it has been issued (S8: NO), the issue flag indicating that the document has been issued is linked to the entry / exit identifier, stored in the entry / exit table (S10), and the imaging process is completed. do. As shown in FIGS. 4 and 5, where the captured cover image contains characters, the characters are recognized as an image (that is, a figure).
撮像処理の終了後、制御部21は画像処理部25に文字画像抽出処理を実行させる。図7は、制御装置20による文字画像抽出処理を説明するフローチャート、図8は、輪郭追跡を説明する説明図、図9は、矩形領域を説明する説明図である。
After the imaging process is completed, the
図7に示すように、画像処理部25は、記憶部22に記憶された表表紙または裏表紙における複数の表紙画像から一の表紙画像を選択する(S11)。例えば、表表紙の複数の表紙画像の内、表表紙全体が明瞭に撮像された画像を一つ選択する。画像処理部25は、選択された表紙画像に対して、走査を行い、開始点を探索し、設定する(S12)。
As shown in FIG. 7, the
前述したように、表紙画像は二値画像であり、図8に示すように、二値画像の各画素には、X方向及びY方向の座標が付与される。画素は、予め定めた所定の閾値以下の輝度を有する黒画素と、前記閾値よりも高い輝度を有する白画素を含む。白画素との境界に位置する黒画素が開始点になる。なお走査は、例えば表紙画像の左上の画素から開始され、X方向に沿って走査が行われ、黒画素が発見されない場合、Y方向に画素一つ分移動し、X方向に沿って走査が行われる。図8は、例えば、図4の表表紙の表紙画像に対して、開始点の探索が行われた場合を示している。図8では、図形「A」の頂点Kが開始点に設定される。 As described above, the cover image is a binary image, and as shown in FIG. 8, each pixel of the binary image is given coordinates in the X direction and the Y direction. The pixel includes a black pixel having a brightness equal to or less than a predetermined threshold value and a white pixel having a brightness higher than the threshold value. The black pixel located at the boundary with the white pixel becomes the starting point. Note that the scanning is started from, for example, the upper left pixel of the cover image, scanning is performed along the X direction, and if no black pixel is found, the scanning is performed by moving one pixel in the Y direction and scanning along the X direction. It is said. FIG. 8 shows, for example, a case where a search for a starting point is performed on the cover image of the front cover of FIG. In FIG. 8, the vertex K of the figure “A” is set as the starting point.
画像処理部25は、例えば、図8の矢印に示すように、設定された開始点から、反時計回りに4近傍を調査し、図形の輪郭追跡を行う(S13)。なお時計回りの調査でもよく、8近傍を調査してもよい。画像処理部25は、輪郭を構成する黒画素のX座標及びY座標を、配列として記憶部22に記憶させる(S14)。
For example, as shown by the arrow in FIG. 8, the
画像処理部25は、配列内のX座標における最大値及び最小値と、Y座標における最大値及び最小値と含む矩形領域を作成する(S15)。例えば、図8においては、K点は、Y座標の最大値を有し、L及びM点はY座標の最小値を有する。M点は、X座標の最大値を有し、L点は、X座標の最小値を有する。したがって、矩形領域は、図9に示すようなK、L、M点が矩形の辺上に位置する領域となる。
The
画像処理部25は、矩形領域内の画像を文字画像として抽出し、入出庫テーブルに記憶する(S16)。画像処理部25は、選択した表紙画像の全領域に対して、走査を行ったか否かを判定する(S17)。例えば、全てのY座標について、走査を行ったか否かを判定する。全領域に対して、走査を行っていない場合(S17:NO)、画像処理部25はS12に処理を戻し、矩形領域を除いた領域について、図形の開始点を探索する。
The
全領域に対して、走査を行った場合(S17:YES)、表表紙及び裏表紙の両方の表紙画像について、輪郭追跡が終了したか否か判定する(S18)。両方の表紙画像について、輪郭追跡が終了していない場合(S18:NO)、S11に処理を戻し、輪郭追跡を行っていない表紙(表表紙または裏表紙)の一の表紙画像を選択する。両方の表紙画像について、輪郭追跡が終了している場合(S18:YES)、画像処理部25は処理を終了する。
When scanning is performed on the entire area (S17: YES), it is determined whether or not the contour tracking is completed for both the front and back cover images (S18). If contour tracking has not been completed for both cover images (S18: NO), the process is returned to S11, and one cover image of the front cover (front cover or back cover) for which contour tracking has not been performed is selected. When the contour tracking is completed for both cover images (S18: YES), the
制御部21は、文字画像抽出処理の終了後、データ演算処理を演算部23に実行させる。図10は、制御装置20によるデータ演算処理を説明するフローチャート、図11は、抽出された文字画像の一例を示す概念図、図12は、サイズ分類の一例を示す概念図、図13は、図4の表表紙の表紙画像に対する行の座標分類の一例を示す概念図である。図10に示すように、演算部23は、抽出された文字(文字画像)をサイズ毎に分類する(S31)。例えば、演算部23は、抽出された各文字画像(図11参照)のX方向寸法及びY方向寸法を取得し、サイズの分類を行う(図12参照)。なお図11は、図4に示す表表紙の表紙画像から抽出された文字画像A〜D、E〜I、P〜Tと、図5に示す裏表紙の表紙画像から抽出された文字画像X〜Zを示す。
After the character image extraction process is completed, the
書類に記載されている文字は、標準化されたフォントによって、記載されていることが多い。そのため、文字画像をサイズ(X方向寸法及びY方向寸法)に基づいて、分類した場合、複数の文字を同じグループに分類することができる。例えば、図12に示すように、大サイズグループG1、中サイズグループG2、小サイズグループG3に分類することができる。図11に示された文字画像の場合、文字画像A〜Dは大サイズグループG1に分類され、文字画像E〜I、X〜Zは中サイズグループG2に分類され、文字画像P〜Tは小サイズグループG3に分類される。 The characters on the documents are often written in standardized fonts. Therefore, when the character images are classified based on the size (X-direction dimension and Y-direction dimension), a plurality of characters can be classified into the same group. For example, as shown in FIG. 12, it can be classified into a large size group G1, a medium size group G2, and a small size group G3. In the case of the character images shown in FIG. 11, the character images A to D are classified into the large size group G1, the character images E to I and X to Z are classified into the medium size group G2, and the character images P to T are small. It is classified into size group G3.
演算部23は、分類毎に文字の計数を行う(S32)。例えば、図11に示された文字画像の場合、大サイズグループG1の文字数は4であり、中サイズグループG2の文字数は8であり、小サイズグループG3の文字数は5である。各文字数は、入出庫テーブルに記憶される(図14参照)。なお各文字数を、表表紙及び裏表紙に分けて、入出庫テーブルに記憶してもよい。
The
次に演算部23は、各文字画像の座標を取得し(S33)、文字画像によって構成される行の座標を取得する(S34)。例えば、図4の表表紙の表紙画像は、文字画像A〜D、E〜I、P〜Tを含む。図13に示すように、文字画像A〜Dは大サイズグループG1に属し、且つY座標は同じy1である。文字画像E〜Iは中サイズグループG2に属し、且つY座標は同じy2である。文字画像P〜Tは小サイズグループG3に属し、且つY座標は同じy3である。同じサイズグループに属し、且つ同じY座標を含む文字画像群は、横行を構成すると考えられる。なお、同じサイズグループに属し、且つ同じX座標を含む文字画像群は、縦行を構成すると考えられる。
Next, the
即ちS34において、演算部23は、同じサイズグループに属し、且つ同じY座標である文字画像群のY座標を、横行の座標として取得する。取得した横行の座標は、表表紙及び裏表紙に分けて、入出庫テーブルに記憶される(図14参照)。また同じサイズグループに属し、且つX座標を含む文字画像群のX座標を、縦行の座標として取得する。取得した縦行の座標は、表表紙及び裏表紙に分けて、入出庫テーブルに記憶される。
That is, in S34, the
演算部23は、取得した横行の座標の数を、横行の行数として取得し、縦行の座標の数を縦行の行数として取得し(S35)、処理を終了する。例えば、図4の表表紙の横行数は3であり、縦行数は0である。図5の裏表紙の横行数は1であり、縦行数は0である。取得した横行及び縦行の行数は、表表紙及び裏表紙それぞれについて、入出庫テーブルに記憶される。
The
制御部21は、データ演算処理の終了後、後述の登録テーブルの更新処理を実行する。図14は、記憶部22に記憶された入出庫テーブルの一例を示す概念図である。入出庫テーブルには、収納庫1に新たに入庫した書類及び収納庫1から新たに出庫した書類に関する情報が記憶される。
After the data calculation process is completed, the
図15は、記憶部22に記憶された登録テーブルの一例を示す概念図である。登録テーブルは、ユーザが書類の所在位置を確認する場合に、アクセスするためのテーブルである。ここで、登録テーブルには、入出庫テーブルに記憶された新たな書類の情報は、反映されていないとする。図15に示すように、登録テーブルには、入出庫テーブルの入出庫識別子及び表紙画像に代えて、登録識別子及びサムネイル画像が記憶されていることを除けば、入出庫テーブルと同じ情報が記憶されている。制御部21は、所定時間経過毎に、入出庫テーブルを参照し、入出庫テーブルに情報がある場合、以下の更新処理を実行する。
FIG. 15 is a conceptual diagram showing an example of a registration table stored in the
図16は、制御装置20による更新処理を説明するフローチャートである。制御部21は、入出庫テーブルの情報の一つを取得する(S41)。例えば、入出庫識別子順に取得する。図14の場合、まず入出庫識別子1の情報を取得し、以降更新処理を繰り返す毎に、入出庫識別子2、3・・の順に取得する。次に制御部21は、取得した入出庫テーブルの情報が、入庫フラグを備えるか否か判定する(S42)。
FIG. 16 is a flowchart illustrating an update process by the
入庫フラグを備える場合(S42:YES)、制御部21は、登録テーブルにおける出庫フラグを備える情報を順に取得する(S43)。制御部21は、取得した入出庫テーブルの情報と、取得した登録テーブルとが一致するか否か判定する(S44)。
When the warehousing flag is provided (S42: YES), the
制御部21は、例えば、文字画像数、縦行数、横行数、縦行座標及び横行座標について、二乗平均誤差を求め、両者の一致性を求める。前記誤差が所定範囲内にあれば、一致していると判定し、所定範囲外にあれば、不一致であると判定する。なお、二乗平均誤差以外の誤差を求め、一致性を評価してもよい。例えば、上記全項目それぞれについて、差分を求め、該差分から絶対平均誤差を求めてもよいし、上記項目の一部について、二乗平均誤差または絶対平均誤差を求めてもよい。
For example, the
両者の情報が一致する場合(S44:YES)、制御部21は、取得した登録テーブルの情報における出庫フラグを入庫フラグに変更し(S45)、収納庫位置を記憶する(S46)。例えば、入出庫識別子1の情報と、登録識別子2の情報とが一致する場合、登録識別子2の出庫フラグを入庫フラグに変更し、取得した入出庫テーブルの収納庫位置を記憶する。
When both information match (S44: YES), the
両者の情報が一致しない場合(S44:NO)、取得した入出庫テーブルの情報を、登録テーブルに新規登録する(S47)。例えば、入出庫識別子2の情報を取得した場合、入出庫識別子2の文字画像数、縦行数、横行数、縦行座標及び横行座標を登録テーブルに新規登録する。
If the two information do not match (S44: NO), the acquired warehousing / delivery table information is newly registered in the registration table (S47). For example, when the information of the warehousing /
制御部21は、取得した入出庫テーブルの情報に含まれる表紙画像に基づいて、サムネイル画像を生成し、新規登録した情報に紐づけて、登録テーブルに記憶する(S48)。例えば、サムネイル画像生成部26は、表表紙の表紙画像から抽出され、入出庫テーブルに記憶された文字画像(S16、図11参照)を取得し、一の文字画像と、一の文字画像から所定距離内に位置する二つの文字画像とを列挙して、前後に並べ、これを繰り返す。なお前後関係は、X座標またはY座標から区別できる。そして、文字画像を正しい順序に並び替えて、サムネイル画像を生成する。なお裏表紙の表紙画像に基づいて、サムネイル画像を生成してもよい。
The
S42において、取得した入出庫テーブルの情報が、入庫フラグを備えない場合(S42:NO)、即ち、前記情報が出庫フラグを備える場合、制御部21は、登録テーブルにおける入庫フラグを備える情報を順に取得する(S49)。制御部21は、取得した入出庫テーブルの情報と、取得した登録テーブルとが一致するか否か判定する(S50)。両者が一致する場合(S50:YES)、制御部21は、取得した登録テーブルの情報における入庫フラグを出庫フラグに変更し(S51)、収納庫内位置を消去する。(S52)。
In S42, when the acquired warehousing / delivery table information does not have a warehousing flag (S42: NO), that is, when the information has a warehousing flag, the
ステップS50において、両者が一致しない場合(S50:NO)、制御部21は、取得した入出庫テーブルの情報を、登録テーブルにエラー登録する(S53)。例えば、エラーフラグを立てて、取得した入出庫テーブルの情報を登録テーブルに登録する。なお図14において、「エラー」欄の1はエラーフラグが立っていることを示し、0はエラーフラグが立っていないことを示す。制御部21は、取得した入出庫テーブルの情報に含まれる表紙画像に基づいて、サムネイル画像を生成し、エラー登録した情報に紐づけて、登録テーブルに記憶する(S54)。
In step S50, when the two do not match (S50: NO), the
S46、S48、S52またはS54の処理を行った後、制御部21は、入出庫テーブルの全ての入出庫識別子について、情報を確認したか否か判定する(S55)。全ての入出庫識別子について、情報を確認していない場合(S55:NO)、S41に処理も戻し、次の入出庫識別子の情報を取得する。
After performing the processing of S46, S48, S52 or S54, the
全ての入出庫識別子について、情報を確認している場合(S55:YES)、制御部21は、入出庫テーブルに記憶した情報をクリアし(S56)、処理を終了する。なお、入出庫テーブルに記憶した情報をクリアせずに、更新済みのフラグを立てて、未更新の情報と区別できるようにしてもよい。
When the information is confirmed for all the warehousing / delivery identifiers (S55: YES), the
実施の形態1に係る収納装置にあっては、収納庫1の内側にカメラ9を配置し、カメラ9にて撮像された表紙画像に基づいて、自動的に識別する。また位置検出器10によって、収納庫1における入庫位置を取得する。
図17は、書類の情報を表示する表示画面の一例を示す模式図である。書類の識別情報に入庫位置及び入庫フラグを紐づけて、登録しているので、例えばユーザの操作によってパーソナルコンピュータ、スマートフォン又はタブレット端末はネットワークに接続され、サーバ40に登録テーブルの情報を要求して取得し、サムネイル画像51及び収納庫1内の位置52を表示画面50に表示することができる。またユーザはエラー登録された情報を確認し、タッチパネル、キーボードなどを操作して前記情報を訂正することができる。ユーザは、例えば画面に表示されたアイコンを操作して、予めインストールされたアプリケーションプログラムを呼び出し、上述の書類に関する情報を表示画面50に表示させ、また情報を訂正できる。ユーザは、入庫及び出庫時に更新作業を自ら行うことなく、書類の入庫または出庫、及び収納庫1内の書類の位置を認識することができる。
In the storage device according to the first embodiment, the
FIG. 17 is a schematic view showing an example of a display screen for displaying document information. Since the warehousing position and the warehousing flag are linked to the document identification information and registered, for example, the personal computer, smartphone or tablet terminal is connected to the network by the operation of the user, and the
なお引き出し7に収納された書類についても、上述の処理を行ってもよい。この場合、引き出し7の上側にカメラ9、照明及び位置検出器10を設置し、書類の表紙画像を撮像し、引き出し7の深さ方向における位置を検出する。
The documents stored in the
(実施の形態2)
以下本発明を実施の形態2に係る収納装置を示す図面に基づいて説明する。実施の形態2に係る構成の内、実施の形態1と同様な構成については、同じ符号を付し、その詳細な説明を省略する。図18は、複数の図形を有する文字に対して設定された複数の矩形領域を示す模式図である。なお図18において、矩形領域、X座標及びY座標を明確にするために、黒にて表示されるべき箇所の一部が白抜きにて表示されている。
(Embodiment 2)
Hereinafter, the present invention will be described with reference to the drawings showing the storage device according to the second embodiment. Among the configurations according to the second embodiment, the same configurations as those of the first embodiment are designated by the same reference numerals, and detailed description thereof will be omitted. FIG. 18 is a schematic diagram showing a plurality of rectangular areas set for a character having a plurality of figures. In FIG. 18, in order to clarify the rectangular area, the X coordinate, and the Y coordinate, a part of the portion to be displayed in black is displayed in white.
実施の形態2においては、複数の図形から構成される文字を、一つの文字画像として認識するための構成を説明する。ここでは、図18に示すように、日本語の「な」が表紙に含まれている場合について説明する。図18に示すように、「な」は、第一図形、第二図形及び第三図形を含む。 In the second embodiment, a configuration for recognizing a character composed of a plurality of figures as one character image will be described. Here, as shown in FIG. 18, a case where the Japanese "na" is included in the cover page will be described. As shown in FIG. 18, "na" includes a first figure, a second figure, and a third figure.
画像処理部25は、実施の形態1と同様に、第一図形、第二図形及び第三図形それぞれに対して、輪郭追跡を行い、矩形領域を作成する。画像処理部25は、二つの矩形領域が重なるか否か判定し、重なる場合、両者を統合する。二つの矩形領域が重なるか否かの判定は以下のようにして行われる。第一図形の矩形領域における最大のX座標Ax1及びY座標点Ay1を有する点をA1とし、第一図形の矩形領域における最小のX座標Ax2及びY座標点Ay2を有する点をA2とする。また第二図形の矩形領域における最大のX座標Bx1及びY座標点By1を有する点をB1とし、第二図形の矩形領域における最小のX座標Bx2及びY座標点By2を有する点をB2とする。
Similar to the first embodiment, the
画像処理部25は、Ax1≦Bx1またはBx2≦Ax2、且つ、Ay1≦By1またはBy2≦Ay2の関係が成り立つか否か判定し、成り立つ場合、第一図形及び第二図形を統合する。即ち、最小のX座標をAx1とし、最大のX座標をBx2とし、最小のY座標をBy2とし、最大のY座標をAy1とする矩形領域を作成する。そして、第三図形の矩形領域についても、前述の統合された矩形領域に重なるか否か判定する。第三図形の矩形領域は、統合された矩形領域に重なるので、両者は統合される。
The
図19は、複数の図形を有する文字に対して設定された複数の円形領域を示す模式図である。日本語の「に」、または、アルファベットの「i」若しくは「j」のように、複数の図形から構成される一つの文字であって、各図形の矩形領域が重ならない文字がある。この場合に対応すべく、画像処理部25は、以下に示す方法によって、二つの矩形領域が重なるか否か判定し、重なる場合、両者を統合する。
FIG. 19 is a schematic diagram showing a plurality of circular regions set for a character having a plurality of figures. There is a character such as "ni" in Japanese or "i" or "j" in the alphabet, which is one character composed of a plurality of figures and whose rectangular areas do not overlap. In order to deal with this case, the
以下の説明では、図19に示す「に」に関する図形の統合について、説明する。「に」は、第四図形、第五図形及び第六図形を含む。第四図形、第五図形及び第六図形それぞれの矩形領域は重ならない。それぞれの矩形領域の形に着目すると、一方向に延びたアスペクト比(長辺/短辺)の大きい長方形であることがわかる。 In the following description, the integration of the figures related to "ni" shown in FIG. 19 will be described. "Ni" includes the fourth figure, the fifth figure and the sixth figure. The rectangular areas of the fourth figure, the fifth figure, and the sixth figure do not overlap. Focusing on the shape of each rectangular area, it can be seen that the rectangle has a large aspect ratio (long side / short side) extending in one direction.
矩形領域が重ならない場合には、以下の式(1)によって半径を求め、矩形領域の中心の周りに、前記半径を有する円を作成する。
式(1):半径=アスペクト比*√矩形領域の面積*α
なお矩形領域の面積の平方根を使用するのは、図形の大きさに比例した大きさの円を作成するためである。またαは、試行実験によって求められる係数であり、例えば0.636である。
When the rectangular regions do not overlap, the radius is obtained by the following equation (1), and a circle having the radius is created around the center of the rectangular regions.
Equation (1): Radius = Aspect ratio * √ Area of rectangular area * α
The square root of the area of the rectangular area is used to create a circle whose size is proportional to the size of the figure. Further, α is a coefficient obtained by a trial experiment, and is, for example, 0.636.
次に一の矩形領域の中心の周りに作成された円の半径内に、他の矩形領域の中心が位置する場合、換言すれば、二つの矩形領域間の距離が、式(1)によって求まる半径よりも小さい場合、二つの矩形領域を統合する。そして、統合した矩形領域のアスペクト比を求め、求めたアスペクト比が1.3以下の場合、統合ができたものとみなす。 Next, when the center of another rectangular area is located within the radius of the circle created around the center of one rectangular area, in other words, the distance between the two rectangular areas can be obtained by the equation (1). If less than the radius, merge the two rectangular areas. Then, the aspect ratio of the integrated rectangular area is obtained, and when the obtained aspect ratio is 1.3 or less, it is considered that the integration has been completed.
例えば、第四図形の矩形領域の中心の周りに作成された円の内側に、第五図形の矩形領域の中心が位置する場合、第四図形及び第五図形の矩形領域を統合する。そして、統合した矩形領域と、第六図形の矩形領域が重なる場合、両矩形領域を統合する。なお、文字と文字との間には、十分な距離が空いており、第四図形、第五図形または第六図形の中心に作成された円の内側に、隣の文字を構成する図形は、位置しないものとする。 For example, when the center of the rectangular area of the fifth figure is located inside the circle created around the center of the rectangular area of the fourth figure, the rectangular areas of the fourth figure and the fifth figure are integrated. Then, when the integrated rectangular area and the rectangular area of the sixth figure overlap, both rectangular areas are integrated. In addition, there is a sufficient distance between the characters, and the figures that make up the adjacent character inside the circle created in the center of the fourth figure, fifth figure, or sixth figure are It shall not be located.
図20は、制御装置20による文字画像抽出処理を説明するフローチャートである。なお実施の形態1に係るS11〜S15及びS18の処理(図7参照)は、実施の形態2における文字画像抽出処理においても同じなので、その記載を省略し、異なる処理のみ説明する。S15の処理後、画像処理部25は、作成された矩形領域が他の矩形領域に重なるか否か判定する(S61)。
FIG. 20 is a flowchart illustrating a character image extraction process by the
作成された矩形領域が他の矩形領域に重なる場合(S61:YES)、画像処理部25は、両矩形領域を統合し(S62)、選択した表紙画像の全領域に対して、走査を行ったか否かを判定する(S63)。全領域に対して、走査を行っていない場合(S63:NO)、画像処理部25はS12に処理を戻し、作成または統合された矩形領域を除いた領域について、図形の開始点を探索する。全領域に対して、走査を行った場合(S63:YES)、作成または統合された矩形領域内の画像を文字画像として抽出し、入出庫テーブルに記憶し(S64)、S18へ処理を進める。
When the created rectangular area overlaps with another rectangular area (S61: YES), the
作成された矩形領域が他の矩形領域に重ならない場合(S61:NO)、画像処理部25は、作成された矩形領域の中心の周りに円を作成し(S65)、作成した円の内側に、他の図形の矩形領域の中心が位置するか否か判定する(S66)。
When the created rectangular area does not overlap with another rectangular area (S61: NO), the
他の図形の矩形領域の中心が位置する場合(S66:YES)、画像処理部25は、円を作成した矩形領域と、他の図形の矩形領域を統合する(S67)。S66において、他の図形の矩形領域の中心が位置しない場合(S66:NO)、またはS67の処理後、画像処理部25はS63に処理を進める。
When the center of the rectangular area of the other figure is located (S66: YES), the
(実施の形態3)
以下本発明を実施の形態3に係る収納装置を示す図面に基づいて説明する。実施の形態3に係る構成の内、実施の形態1または2と同様な構成については同じ符号を付し、その詳細な説明を省略する。図21は、収納装置の構成を略示するブロック図である。
(Embodiment 3)
Hereinafter, the present invention will be described with reference to the drawings showing the storage device according to the third embodiment. Of the configurations according to the third embodiment, the same configurations as those of the first or second embodiment are designated by the same reference numerals, and detailed description thereof will be omitted. FIG. 21 is a block diagram illustrating the configuration of the storage device.
収納装置の制御装置20は、制御部21、記憶部22及びタイマ24を備え、ネットワークを介してサーバに接続されている。サーバは、制御部41、演算部23、画像処理部25、サムネイル画像生成部26、記憶部42及び表紙推定部43を備える。制御装置20は、前述の撮像処理を実行し、処理結果をサーバに送信する。サーバは、受信した処理結果を記憶部42に記憶し、前述の文字画像抽出処理及びデータ演算処理を実行する。サーバの記憶部42には、入出庫テーブル及び登録テーブルが記憶される。なお、制御部41、演算部23、画像処理部25、サムネイル画像生成部26、記憶部42及び表紙推定部43は制御装置20に設けられてもよい。
The
表紙推定部43は、例えば、複数のCPU、複数のGPU、或いはCPU及びGPUの組み合わせ、記憶部によって構成することができる。所定のプログラミング言語によって、表紙画像を推定するための推定モデルが作成されており、推定モデルは表紙推定部43の記憶部に格納されている。
The
図22は、表紙推定部43の構成例を模式的に示す説明図である。図22は、表紙推定部43をニューラルネットワークモデルによって構成されたものであり、例えばCNN(Convolutional Neural Network)で構成されている。表紙推定部43の構成は、図22の例のような多層のニューラルネットワーク(深層学習)に限定されるものではなく、他の機械学習(例えば、サポートベクターマシン、ランダムフォレスト)のアルゴリズムを用いることもできる。
FIG. 22 is an explanatory diagram schematically showing a configuration example of the
図22に示すように、表紙推定部43は、入力層、出力層及び複数の中間層によって構成される。図22では、便宜上二つの中間層を図示しているが、中間層の層数は二つに限定されず、三つ以上であってもよい。入力層のノード数は、例えばn個であり、出力層のノード数は、例えば3である。出力層のノードは、4以上または2以下であってもよい。
As shown in FIG. 22, the
入力層、出力層及び中間層には複数のノード(ニューロン)が存在し、各層のノードは、前後の層に存在するノードと一方向に所望の重みで結合される。入力層のノードの数nと同数の値が表紙推定部43の入力データとして入力層に入力される。
There are a plurality of nodes (neurons) in the input layer, the output layer, and the intermediate layer, and the nodes in each layer are connected to the nodes in the previous and next layers in one direction with a desired weight. A value equal to the number n of nodes in the input layer is input to the input layer as input data of the
入力層の各ノードに入力されたデータ、即ち入出庫テーブルに記憶された所定の表紙画像に関する文字画像数、縦行数、横行数、縦行座標及び横行座標、並びに入庫フラグまたは出庫フラグは、最初の中間層に入力として与えられると、重み及び活性化関数を用いて中間層は出力値を算出し、算出した出力値が次の中間層に入力し、以下同様にして出力層が出力値を出力するまで、次々と後の層(下層)に値が伝達される。尚、推定モデルには、文字画像数、縦行数、横行数、縦行座標及び横行座標を学習データとし、該学習データに対応するサムネイル画像を教師ラベルとして、図示しない学習処理部によって、予め学習が行われている。学習処理部の学習アルゴリズムがノードを結合する重みのすべてを計算する。なお教師ラベルのサムネイル画像は、実施の形態1に示す方法によって作成される。 The data input to each node of the input layer, that is, the number of character images, the number of vertical rows, the number of horizontal rows, the vertical row coordinates and the horizontal rows coordinates, and the warehousing flag or the warehousing flag related to the predetermined cover image stored in the warehousing / delivery table are When given as an input to the first intermediate layer, the intermediate layer calculates the output value using the weight and activation function, the calculated output value is input to the next intermediate layer, and so on. The value is transmitted to the subsequent layer (lower layer) one after another until the output is output. In the estimation model, the number of character images, the number of vertical rows, the number of horizontal rows, the vertical row coordinates, and the horizontal row coordinates are used as training data, and the thumbnail image corresponding to the training data is used as a teacher label in advance by a learning processing unit (not shown). Learning is taking place. The learning algorithm of the learning processing unit calculates all the weights that connect the nodes. The thumbnail image of the teacher label is created by the method shown in the first embodiment.
出力層は、入力データに基づいて、登録テーブルに記憶されたサムネイル画像に該当する確率の内、上位3個の確率を出力する。最も確率の高い出力が推定結果となる。例えば、登録識別子1のサムネイル画像である確率が80%、登録識別子2のサムネイル画像である確率が10%、登録識別子3のサムネイル画像である確率が5%である場合、表紙推定部43は、入力データに関する表紙は登録識別子1の表紙であると推定する。
Based on the input data, the output layer outputs the top three probabilities among the probabilities corresponding to the thumbnail images stored in the registration table. The output with the highest probability is the estimation result. For example, when the probability of being a thumbnail image of
なお入力データに入庫フラグが含まれている場合、表紙推定部43は、出庫フラグが立てられたサムネイル画像に該当する確率を出力するように、構成されており、入力データに出庫フラグが含まれている場合、表紙推定部43は、入庫フラグが立てられたサムネイル画像に該当する確率を出力するように、構成されている。
When the input data includes the warehousing flag, the
サーバの制御部41は、所定時間経過毎に、更新処理を実行する。図23は、サーバによる更新処理を説明するフローチャートである。サーバの制御部41は、入出庫テーブルにデータが有るか否か判定する(S71)。データがない場合(S71:NO)、所定時間待機し(S78)、S71に処理を戻す。サーバは、所定時間経過毎に、更新処理を開始する。
The
入出庫テーブルにデータが有る場合(S71:YES)、制御部41は入出庫テーブルから入力データを取得し(S72)、表紙推定部43に、いずれの登録識別子のサムネイル画像であるか、換言すれば、いずれの表紙であるか推定させる(S73)。制御部41は、表紙推定部43から推定結果を取得する(S74)。
When there is data in the warehousing / delivery table (S71: YES), the
制御部41は、推定結果に基づいて、登録テーブルを更新する(S75)。制御部41は、入力データに入庫フラグが含まれている場合、最上位確率の書類の出庫フラグを入庫フラグに変更する。入力データに出庫フラグが含まれている場合、最上位確率の書類の入庫フラグを出庫フラグに変更する。また、入力データに入庫フラグが含まれている場合であって、推定結果の最上位の確率が所定確率以下、例えば10%以下である場合、新規に入庫された書類であると判定し、登録テーブルに新規登録を行う。入力データに出庫フラグが含まれている場合であって、推定結果の最上位の確率が所定確率以下、例えば10%以下である場合、エラーであると判定し、登録テーブルにエラー登録を行う。
The
制御部41は、入出庫テーブルの全データについて、更新処理を行ったか否か判定する(S76)。全データについて更新処理を行っていない場合(S76:NO)、制御部41は、S72に処理を戻し、次の入力データを取得する。全データについて更新処理を行った場合(S76:YES)、制御部41は入出庫テーブルをクリアし(S77)、所定時間待機した後(S78)、S71に処理を戻す。
The
なお表紙画像を学習データとし、該学習データに対応する「文書」又は「図面」を教師ラベルとして、予め学習させた分類推定モデルをサーバ40に設けてもよい。この場合、分類推定モデルの入力層に、表紙画像を入力することによって、出力層からは「文書」及び「図面」に該当する確率が出力される。サーバ40の制御部41は、高確率の出力を採用し、登録テーブルに、入力された表紙画像に対応する登録識別子に紐づけて、採用された分類(「文書」又は「図面」)を登録する。ユーザは書類を検索する場合、「文書」又は「図面」を指定して、検索することができる。
The
例えば「文書」としての履歴書を検索する場合について説明する。ここでは、同じ書式の履歴書を検索する。予め、入庫した履歴書の表紙画像から、複数の四角(記入欄)の数、位置及び寸法が読み取られ、履歴書のサムネイル画像と共に、登録テーブルに登録されている。ユーザは外部装置30を操作して、登録テーブルにおける入庫済みの履歴書のサムネイル画像から、所望の書式を有する履歴書を選択する。外部装置30は、選択された履歴書と同様な四角の数、位置及び寸法を有する履歴書を示すサムネイル画像、即ち、選択された履歴書に類似する履歴書を、表示画面に複数表示させる。
For example, a case of searching a resume as a "document" will be described. Here, search for resumes in the same format. The number, position, and dimensions of a plurality of squares (entry fields) are read in advance from the cover image of the received resume, and are registered in the registration table together with the thumbnail image of the resume. The user operates the
「図面」を検索する場合について説明する。予め、入庫した図面の表紙画像から、特徴点が読み取られ、図面のサムネイル画像と共に、登録テーブルに登録されている。特徴点は、例えば、図面に記載された図形の画像(図形画像)の数、位置及び寸法が該当する。図形画像は、上述した文字画像に対応し、文字画像と同様に矩形領域の設定によって、定められる。ユーザは外部装置30を操作して、登録テーブルにおける入庫済みの図面のサムネイル画像から、所望の図面に類似したサムネイル画像を選択する。外部装置30は、選択された図面と同様な図形画像の数、位置及び寸法を有する図面、即ち、選択された図面に類似する図面のサムネイル画像を、表示画面に複数表示させる。なおサムネイル画像に代えて、表紙画像を登録テーブルに登録し、表紙画像が選択されるようにしてもよい。類似度(一致度)の判定には、例えば、実施の形態1と同様な方法が採用される(S44、S50参照)。
The case of searching for "drawing" will be described. The feature points are read from the cover image of the received drawing in advance, and are registered in the registration table together with the thumbnail image of the drawing. The feature points correspond to, for example, the number, position, and dimensions of the image (graphic image) of the graphic described in the drawing. The graphic image corresponds to the character image described above, and is determined by setting a rectangular area in the same manner as the character image. The user operates the
(実施の形態4)
以下本発明を実施の形態4に係る収納装置を示す図面に基づいて、説明する。実施の形態4に係る構成の内、実施の形態1〜3と同様な構成については、同じ符号を付し、その詳細な説明を省略する。図24は、収納装置の構成を略示するブロック図である。
(Embodiment 4)
Hereinafter, the present invention will be described with reference to the drawings showing the storage device according to the fourth embodiment. Of the configurations according to the fourth embodiment, the same configurations as those of the first to third embodiments are designated by the same reference numerals, and detailed description thereof will be omitted. FIG. 24 is a block diagram illustrating the configuration of the storage device.
実施の形態4に係る収納装置は、実施の形態3と同様に、制御装置20及びサーバを備える。実施の形態4に係るサーバは、実施の形態3とは異なり、文字推定部44を備える。文字推定部44は、例えば、複数のCPU、複数のGPU、或いはCPU及びGPUの組み合わせ、記憶部によって構成することができる。所定のプログラミング言語によって、文字画像から文字を推定するための推定モデルが作成されており、推定モデルは文字推定部44の記憶部に格納されている。なおサーバの構成は、制御装置20に設けられてもよい。
The storage device according to the fourth embodiment includes the
図25は、文字推定部44の構成例を模式的に示す説明図である。図25は、文字推定部44をニューラルネットワークモデル、例えばCNNによって構成されている。文字推定部44の構成は、図25の例のような多層のニューラルネットワークに限定されるものではなく、他の機械学習のアルゴリズムを用いることもできる。
FIG. 25 is an explanatory diagram schematically showing a configuration example of the
図25に示すように、文字推定部44は、入力層、出力層及び複数の中間層によって構成する。図25では、便宜上二つの中間層を図示しているが、中間層の層数は二つに限定されず、三つ以上であってもよい。入力層のノード数は、例えばn個であり、出力層のノード数は、例えばNである。
As shown in FIG. 25, the
入力層、出力層及び中間層には複数のノード(ニューロン)が存在し、各層のノードは、前後の層に存在するノードと一方向に所望の重みで結合する。入力層のノードの数nと同数の値が文字推定部44の入力データとして入力層に入力する。
There are a plurality of nodes (neurons) in the input layer, the output layer, and the intermediate layer, and the nodes in each layer are connected to the nodes in the previous and next layers in one direction with a desired weight. A value equal to the number n of nodes in the input layer is input to the input layer as input data of the
サーバの制御部41は、画像処理部25によって抽出された文字画像の画素の輝度を入力層に入力させる。このとき、制御部41は画像処理部25に、大、中及び小サイズの文字画像の画素を、所定の次元に統一させて、例えば、16×16画素の画像に変換してから、各画素の輝度を入力層に入力させる。
The
入力層の各ノードに入力したデータ、即ち文字画像を構成するn個(例えば256個)の画素の輝度は、最初の中間層に入力として与えられると、重み及び活性化関数を用いて中間層は出力値を算出し、算出した出力値が次の中間層に入力し、以下同様にして出力層が出力値を出力するまで、次々と後の層(下層)に値が伝達する。尚、推定モデルには、文字画像を構成する画素の輝度を学習データとし、該学習データに対応する文字(例えば、コンピュータにて利用可能な文字コード)を教師ラベルとして、図示しない学習処理部によって、予め学習が行われている。学習処理部の学習アルゴリズムがノードを結合する重みのすべてを計算する。 The data input to each node of the input layer, that is, the brightness of the n (for example, 256) pixels constituting the character image, is given to the first intermediate layer as an input, and the intermediate layer is used with a weight and an activation function. Calculates the output value, inputs the calculated output value to the next intermediate layer, and transmits the value to the subsequent layer (lower layer) one after another until the output layer outputs the output value in the same manner. In the estimation model, the brightness of the pixels constituting the character image is used as learning data, and the character corresponding to the learning data (for example, a character code that can be used by a computer) is used as a teacher label by a learning processing unit (not shown). , Learning has been done in advance. The learning algorithm of the learning processing unit calculates all the weights that connect the nodes.
出力層は、入力データに基づいて、N個の文字それぞれについて、その文字である確率を出力する。例えば、文字Aである確率P[A]、文字Bである確率P[B]などを出力する。最も確率の高い出力が推定結果となる。例えば、「A」である確率が98%、「B」である確率が1%、「D」である確率が0.5%である場合、文字推定部44は、入力データに係る文字は「A」であると推定する。なお出力層は、アルファベットに限らず、ひらがな、カタカナまたは漢字など、他の原語の文字である確率を出力することもできる。
The output layer outputs the probability of being a character for each of the N characters based on the input data. For example, the probability P [A] of the character A, the probability P [B] of the character B, and the like are output. The output with the highest probability is the estimation result. For example, when the probability of being "A" is 98%, the probability of being "B" is 1%, and the probability of being "D" is 0.5%, the
サーバの記憶部42は、入出庫テーブルを格納している。図26は、入出庫テーブルの一例を示す概念図である。入出庫テーブルには、実施の形態1と同様に、入出庫識別子、表表紙及び裏表紙の表紙画像、入庫フラグまたは出庫フラグ、及び収納庫1内の位置が格納されている。
The
サーバの記憶部42は、入出庫識別子に紐づけられた文字テーブルが記憶されている。図27は、文字テーブルの一例を示す概念図である。図27においては、入出庫識別子1の文字テーブルが表されている。文字テーブルは、抽出された文字画像と、該文字画像に対応する文字と、該文字画像の座標とが格納されている。文字は、文字推定部44によって最も確率が高いとされた文字である。座標は、文字画像のいずれかの点の座標である。例えば、実施の形態1にて作成した矩形領域の中心点または頂点の座標が挙げられる。なお入出庫識別子2以降についても、同様に文字テーブルが作成される。
The
サーバの記憶部42は、登録テーブルを格納している。図28は、登録テーブルの一例を示す概念図である。登録テーブルには、実施の形態1と同様に、登録識別子、サムネイル画像、入庫フラグまたは出庫フラグ、及び収納庫1内の位置が格納されている。
The
サーバの記憶部42は、登録識別子に紐づけられた文字テーブルが記憶されている。図29は、文字テーブルの一例を示す概念図である。図29においては、登録識別子1の文字テーブルが表されている。文字テーブルは、抽出された文字画像と、該文字画像に対応する文字(換言すれば、コンピュータにて利用可能な文字コード)と、該文字画像の座標とが格納されている。なお登録識別子2以降についても、同様に文字テーブルが作成される。
The
図30は、表紙推定部43の構成例を模式的に示す説明図である。図30は、表紙推定部43をニューラルネットワークモデルによって構成されたものであり、例えばCNNで構成されている。表紙推定部43の構成は、他の機械学習のアルゴリズムを用いることもできる。
FIG. 30 is an explanatory diagram schematically showing a configuration example of the
図30に示すように、表紙推定部43は、入力層、出力層及び複数の中間層によって構成される。図30では、便宜上二つの中間層を図示しているが、中間層の層数は二つに限定されず、三つ以上であってもよい。入力層のノード数は、例えばn個であり、出力層のノード数は、例えば3である。出力層のノードは、4以上または2以下であってもよい。入力層の各ノードに、入庫または出庫フラグ、並びに入出庫識別子に対応した文字テーブルに記憶された文字及び座標が入力される。文字及び座標は、紐づけられた組として、入力される。
As shown in FIG. 30, the
入力層の各ノードに入力されたデータは、最初の中間層に入力として与えられると、重み及び活性化関数を用いて中間層は出力値を算出し、算出した出力値が次の中間層に入力され、以下同様にして出力層が出力値を出力するまで、次々と後の層(下層)に値が伝達される。尚、推定モデルには、文字及び座標を学習データとし、該学習データに対応するサムネイル画像を教師ラベルとして、図示しない学習処理部によって、予め学習が行われている。学習処理部の学習アルゴリズムがノードを結合する重みのすべてを計算する。なお教師ラベルのサムネイル画像は、実施の形態1に示す方法によって作成される。出力層は、入力データに基づいて、登録テーブルに記憶されたサムネイル画像に該当する確率の内、上位3個の確率を出力する。最も確率の高い出力が推定結果となる。 When the data input to each node of the input layer is given as an input to the first intermediate layer, the intermediate layer calculates the output value using the weight and activation function, and the calculated output value is transferred to the next intermediate layer. The value is transmitted to the subsequent layers (lower layers) one after another until the input is input and the output layer outputs the output value in the same manner. In the estimation model, characters and coordinates are used as learning data, and thumbnail images corresponding to the learning data are used as teacher labels, and learning is performed in advance by a learning processing unit (not shown). The learning algorithm of the learning processing unit calculates all the weights that connect the nodes. The thumbnail image of the teacher label is created by the method shown in the first embodiment. Based on the input data, the output layer outputs the top three probabilities among the probabilities corresponding to the thumbnail images stored in the registration table. The output with the highest probability is the estimation result.
なお入力データに入庫フラグが含まれている場合、表紙推定部43は、出庫フラグが立てられたサムネイル画像に該当する確率を出力するように、構成されており、入力データに出庫フラグが含まれている場合、表紙推定部43は、入庫フラグが立てられたサムネイル画像に該当する確率を出力するように、構成されている。
When the input data includes the warehousing flag, the
サーバの制御部41は、所定時間経過毎に、更新処理を実行する。入力データが入庫または出庫フラグ、並びに入出庫識別子に対応した文字テーブルに記憶された文字及び座標であることを除けば、更新処理は、実施の形態3の更新処理と同様であるので(図23参照)、その詳細な説明を省略する。なお入力データに、文字画像のX方向サイズ及びY方向サイズを含めてもよい。
The
図31は、書類の情報を表示する表示画面の一例を示す模式図である。ユーザの操作によって外部装置30(端末)はネットワークに接続され、サーバ40に登録テーブルの情報を要求して取得する。端末は文字の入力を受け付け、書類の検索を行う。端末の表示画面50には、検索結果として、例えば書類のサムネイル画像51、収納庫1内の位置52、検索文字53、及び検索文字と候補書類との一致確率54が、確率の高い順に表示される。なお確率は、検索文字53と、候補書類の表紙に記載された文字との一致する文字の数、連続して一致する文字の長さの割合(例えば検索文字がABCDEであって、ABCDが連続して一致する場合には、一致する文字の長さの割合は0.8である)などに基づいて求められる。端末にインストールされたアプリケーションプログラムが上記表示及び検索処理を実行する。なお文字推定部44は、ニューラルネットワークモデルに代えて、OCR(Optical Character Recognition)を用いて、文字画像を文字に変換してもよい。なお実施の形態3及び4において、実施の形態2のように、矩形領域を統合する処理を行い、文字画像を抽出してもよい。
FIG. 31 is a schematic diagram showing an example of a display screen for displaying document information. The external device 30 (terminal) is connected to the network by the operation of the user, and requests and acquires the information of the registration table from the
複数の収納庫1を使用する場合、それぞれの収納庫1に識別子を割り当てて、登録テーブルに記憶してもよい。図32は、複数の収納庫1に収納された書類の情報を表示する表示画面の一例を示す模式図である。図32に示すように、端末の表示画面50には、書類のサムネイル画像51、収納庫1内の位置52、検索文字53、検索文字と候補書類との一致確率54、及び候補書類が収納されている収納庫を示す情報55が、確率の高い順に表示される。所望の書類が収納された収納庫1を表示することができ、多数の収納庫1を必要とする施設(例えば図書館)において、利便性を高めることができる。ユーザは、例えば、画面に表示されたアイコンを操作して、予めインストールされたアプリケーションプログラムを呼び出し、上述の書類に関する情報(図31、図32参照)を表示画面50に表示させ、また情報を訂正することができる。
When a plurality of
今回開示した実施の形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。各実施例にて記載されている技術的特徴は互いに組み合わせることができ、本発明の範囲は、特許請求の範囲内での全ての変更及び特許請求の範囲と均等の範囲が含まれることが意図される。 The embodiments disclosed this time should be considered to be exemplary in all respects and not restrictive. The technical features described in each example can be combined with each other and the scope of the invention is intended to include all modifications within the claims and scope equivalent to the claims. Will be done.
1 収納庫 9 カメラ 10 位置検出器 20 制御装置 23 演算部 25 画像処理部 40 サーバ 43 表紙推定部 44 文字推定部
1
Claims (7)
該収納庫の内側面に配置され、入庫または出庫する前記書類の表紙を撮像する撮像部と、
前記撮像部にて撮像された表紙画像に基づいて、入庫する前記書類の特徴量を生成する生成部と、
該生成部にて生成され、入庫する前記書類の特徴量を、入庫を示す入庫フラグに紐づけて登録する登録部と
を備える収納装置。 A storage for storing documents and
An imaging unit that is arranged on the inner surface of the storage and captures the cover of the document to be stored or delivered.
A generation unit that generates a feature amount of the document to be stored based on the cover image captured by the imaging unit, and a generation unit.
A storage device including a registration unit that registers the feature amount of the document generated and stored in the generation unit in association with a warehousing flag indicating warehousing.
前記登録部は、入庫する前記書類の特徴量を、前記位置検出器にて検出された入庫位置に紐づけて登録する
請求項1に記載の収納装置。 A position detector for detecting the storage position of the document in the storage is provided.
The storage device according to claim 1, wherein the registration unit registers the feature amount of the document to be stored in association with the storage position detected by the position detector.
該第二生成部にて生成された特徴量に対応し、前記登録部に登録されている特徴量に紐付いた前記入庫位置を消去し、前記入庫フラグを、出庫を示す出庫フラグに書き換える更新部と
を備える請求項2に記載の収納装置。 A second generation unit that generates a feature amount of the document to be delivered based on the cover image captured by the imaging unit, and a second generation unit.
An update unit that corresponds to the feature amount generated by the second generation unit, erases the warehousing position associated with the feature amount registered in the registration unit, and rewrites the warehousing flag to the warehousing flag indicating the warehousing. 2. The storage device according to claim 2.
請求項1から3のいずれか一つに記載の収納装置。 The generation unit has an extraction unit that extracts a character image from the cover image, and any of claims 1 to 3 that generates a feature amount of the document based on the character image extracted by the extraction unit. The storage device described in one.
前記文字画像に含まれる複数の図形の輪郭を追跡する追跡部と、
該追跡部にて追跡した輪郭に基づいて、前記複数の図形それぞれを囲む領域を作成する作成部と、
該作成部にて作成した各領域が重なるか否か判定する判定部と、
該判定部にて、重なると判定された場合、重なる前記領域を統合する統合部と
を有する請求項4に記載の収納装置。 The extraction unit
A tracking unit that tracks the contours of a plurality of figures included in the character image, and
A creation unit that creates an area surrounding each of the plurality of figures based on the contour tracked by the tracking unit, and a creation unit.
A determination unit that determines whether or not the areas created by the creation unit overlap, and a determination unit.
The storage device according to claim 4, further comprising an integrated unit that integrates the overlapping regions when the determination unit determines that they overlap.
請求項5に記載の収納装置。 When the figure includes the first figure and the second figure, in the first direction, one end of the second figure is arranged between both ends of the first figure, and the determination unit is in the first direction. The storage device according to claim 5, wherein when one end of the second figure is arranged between both ends of the first figure in the intersecting second direction, it is determined that the first figure and the second figure overlap. ..
矩形領域を作成する矩形作成部と、
該矩形作成部にて作成された前記矩形領域のアスペクト比を導出する導出部と、
該導出部にて導出された前記アスペクト比に基づいて定まる距離を半径にした円を前記矩形領域の中心の周りに作成する円作成部と
を有し、
前記判定部は、前記矩形作成部にて作成された各矩形領域が重ならない場合、前記円作成部にて作成された各円が重なるか否かを判定する
請求項5に記載の収納装置。 The creation part
A rectangle creation part that creates a rectangle area, and
A derivation unit for deriving the aspect ratio of the rectangular region created by the rectangle creation unit, and a derivation unit.
It has a circle creating unit that creates a circle with a radius determined based on the aspect ratio derived by the deriving unit around the center of the rectangular region.
The storage device according to claim 5, wherein the determination unit determines whether or not the circles created by the circle creation unit overlap when the rectangle regions created by the rectangle creation unit do not overlap.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020012839A JP2021117920A (en) | 2020-01-29 | 2020-01-29 | Storage device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020012839A JP2021117920A (en) | 2020-01-29 | 2020-01-29 | Storage device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021117920A true JP2021117920A (en) | 2021-08-10 |
Family
ID=77175078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020012839A Pending JP2021117920A (en) | 2020-01-29 | 2020-01-29 | Storage device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021117920A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002063350A (en) * | 2000-06-08 | 2002-02-28 | Bank Of Tokyo-Mitsubishi Ltd | System and method for actual thing centralized management, and system and method for document management |
JP2015081762A (en) * | 2013-10-24 | 2015-04-27 | 三菱電機株式会社 | Refrigerator |
US20190186817A1 (en) * | 2017-12-15 | 2019-06-20 | International Business Machines Corporation | Content and context aware microscopic cooling optimization for refrigerators |
-
2020
- 2020-01-29 JP JP2020012839A patent/JP2021117920A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002063350A (en) * | 2000-06-08 | 2002-02-28 | Bank Of Tokyo-Mitsubishi Ltd | System and method for actual thing centralized management, and system and method for document management |
JP2015081762A (en) * | 2013-10-24 | 2015-04-27 | 三菱電機株式会社 | Refrigerator |
US20190186817A1 (en) * | 2017-12-15 | 2019-06-20 | International Business Machines Corporation | Content and context aware microscopic cooling optimization for refrigerators |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bluche et al. | Feature extraction with convolutional neural networks for handwritten word recognition | |
US7958070B2 (en) | Parameter learning method, parameter learning apparatus, pattern classification method, and pattern classification apparatus | |
Forsyth et al. | Object recognition with gradient-based learning | |
Juang et al. | A TS fuzzy system learned through a support vector machine in principal component space for real-time object detection | |
Davis et al. | Deep visual template-free form parsing | |
US20200167993A1 (en) | Map constructing apparatus and map constructing method | |
CN108027876A (en) | For identifying the system and method and product of multiple object inputs | |
Haghighi et al. | Stacking ensemble model of deep learning and its application to Persian/Arabic handwritten digits recognition | |
CN109886223B (en) | Face recognition method, bottom library input method and device and electronic equipment | |
Peng et al. | A fast and accurate fully convolutional network for end-to-end handwritten Chinese text segmentation and recognition | |
US20210256707A1 (en) | Learning to Segment via Cut-and-Paste | |
JP2001126081A (en) | Device and method for identifying picture | |
CN111414913B (en) | Character recognition method, recognition device and electronic equipment | |
JP7006782B2 (en) | Information processing equipment, control methods, and programs | |
Manandhar et al. | Magic layouts: Structural prior for component detection in user interface designs | |
KR20230036327A (en) | Automatic extraction method of indoor spatial information from floor plan images through patch-based deep learning algorithms and device thereof | |
JP2021117920A (en) | Storage device | |
Bolohova et al. | Image processing models and methods research and ways of improving marker recognition technologies in added reality systems | |
CN107368830A (en) | Method for text detection and device and text recognition system | |
US20230169784A1 (en) | Text processing method and apparatus, and electronic device and storage medium | |
CN113221523A (en) | Method of processing table, computing device, and computer-readable storage medium | |
Zhou et al. | Library on-shelf book segmentation and recognition based on deep visual features | |
Wu et al. | Optimized visual recognition algorithm in service robots | |
Bianchini et al. | Recursive neural networks learn to localize faces | |
Macias-Garcia et al. | Cnn based perception system for collision avoidance in mobile robots using stereo vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220906 |