JP2019120983A - Imaging control device and imaging control method - Google Patents

Imaging control device and imaging control method Download PDF

Info

Publication number
JP2019120983A
JP2019120983A JP2017253136A JP2017253136A JP2019120983A JP 2019120983 A JP2019120983 A JP 2019120983A JP 2017253136 A JP2017253136 A JP 2017253136A JP 2017253136 A JP2017253136 A JP 2017253136A JP 2019120983 A JP2019120983 A JP 2019120983A
Authority
JP
Japan
Prior art keywords
image
imaging
display screen
terminal device
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017253136A
Other languages
Japanese (ja)
Inventor
後藤 聡
Satoshi Goto
聡 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Edge Inc
Original Assignee
Toppan Forms Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Forms Co Ltd filed Critical Toppan Forms Co Ltd
Priority to JP2017253136A priority Critical patent/JP2019120983A/en
Publication of JP2019120983A publication Critical patent/JP2019120983A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

To provide an imaging control device capable of acquiring a picked-up image obtained by reducing image distortion.SOLUTION: An imaging control device includes: an image enlargement part for enlarging an area including a center part of an image acquired from a camera for imaging a business form to display the area on a display screen; and an image acquisition part for acquiring an image which is enlarged and displayed and in which an area of a character recognition object of the business form is fit into the display screen as a picked-up image.SELECTED DRAWING: Figure 1

Description

本発明は、撮像制御装置および撮像制御方法に関する。   The present invention relates to an imaging control apparatus and an imaging control method.

携帯電話やスマートフォンによって運転免許証等の各種証明書を撮像して得られた撮像データと、当該撮像データを文字認識することで得られる文字情報とを用いて各種申込手続を電子的に行なうことが行なわれている。携帯電話のカメラで撮像して文字認識するものとしては、例えば、特許文献1に記載された画像管理装置がある。   Perform various application procedures electronically by using imaging data obtained by imaging various certificates such as a driver's license with a mobile phone or a smartphone and character information obtained by character recognition of the imaging data Has been done. An example of an image management apparatus described in Patent Document 1 is one that is imaged by a camera of a mobile phone and character recognition is performed.

特開2011−070601号公報JP, 2011-070601, A

しかしながら、携帯電話やスマートフォンのカメラに用いられているレンズは、一般に、広い画角で撮像可能なレンズが用いられている。そのため、撮像する中心近傍は画像のゆがみが少ないが、撮像領域の中心から離れるほど、レンズの特性の影響を受けて、画像がゆがむ。例えば、撮像画像は、レンズの歪曲収差の影響を受け、周縁側においていわゆる樽型に歪曲する。
そうすると、撮像領域の中心から離れた位置において撮像された文字は、ゆがんだ状態の画像となるため、その画像をOCR(光学的文字認識)処理をすると、文字を正しく認識することができず、誤認識してしまう場合がある。
However, in general, a lens capable of imaging at a wide angle of view is used as a lens used for a camera of a mobile phone or a smart phone. For this reason, although there is little distortion of the image in the vicinity of the center to be imaged, the image is distorted as it is influenced by the characteristics of the lens as it gets farther from the center of the imaging region. For example, a captured image is distorted in a so-called barrel shape on the peripheral side under the influence of lens distortion.
Then, since the characters imaged at a position away from the center of the imaging area become an image in a distorted state, the characters can not be recognized correctly if the image is subjected to an OCR (optical character recognition) process, It may be misrecognized.

本発明は、このような事情に鑑みてなされたもので、その目的は、画像のゆがみを低減させた撮像画像を得ることができる撮像制御装置、撮像制御方法を提供することにある。   The present invention has been made in view of such circumstances, and an object thereof is to provide an imaging control apparatus and an imaging control method capable of obtaining a captured image in which distortion of an image is reduced.

上述した課題を解決するために、本発明は、帳票を撮像するカメラから得られる画像の中心部を含む領域を拡大して表示画面に表示させる画像拡大部と、前記拡大して表示された画像であって前記帳票の文字認識対象の領域が前記表示画面に収まる状態の画像を撮像画像として取得する画像取得部と、を有する。
また、本発明は、端末装置における撮像制御方法であって、画像拡大部が、帳票を撮像するカメラから得られる画像の中心部を含む領域を拡大して表示画面に表示させ、画像取得部が、前記拡大して表示された画像であって前記帳票の文字認識対象の領域が前記表示画面に収まる状態の画像を撮像画像として取得する撮像制御方法である。
In order to solve the problems described above, according to the present invention, there is provided an image enlargement unit for enlarging a region including a central portion of an image obtained from a camera for imaging a form and displaying the region on a display screen; And an image acquisition unit that acquires, as a captured image, an image in a state where the character recognition target area of the form fits on the display screen.
Further, the present invention is the imaging control method in the terminal device, wherein the image enlargement unit enlarges an area including the central portion of the image obtained from the camera for imaging the form, and displays the region on the display screen. According to another aspect of the present invention, there is provided an imaging control method for acquiring, as a captured image, an image that is displayed in an enlarged manner and in which an area for character recognition of the form fits within the display screen.

以上説明したように、この発明によれば、帳票を撮像するカメラから得られる画像の中心部を含む領域を拡大して表示画面に表示し、文字認識対象の領域が表示画面に収まる状態の画像を得るようにした。これにより、撮像領域の中心部であって文字認識対象の領域を含む領域を切り出して撮像データとして得ることができるため、撮像領域の外周側の画像を利用せずにすみ、画像のゆがみを低減させた撮像画像を得ることができる。画像のゆがみを低減させた撮像画像を得られるため、文字認識処理を行なった場合に、文字認識率を向上させることができる。   As described above, according to the present invention, an area including the central portion of an image obtained from a camera for imaging a form is enlarged and displayed on the display screen, and an image in a state where the character recognition target area fits on the display screen To get the As a result, it is possible to cut out an area including the area for character recognition which is the center of the imaging area and includes the area for character recognition, so that the image on the outer peripheral side of the imaging area is not used and image distortion is reduced. The captured image can be obtained. Since the captured image with reduced distortion of the image can be obtained, the character recognition rate can be improved when the character recognition process is performed.

この発明の一実施形態による帳票データ管理システム1の構成を示す概略構成図である。It is a schematic block diagram which shows the structure of the slip data management system 1 by one Embodiment of this invention. 撮像される画像の概念を説明する概念図である。It is a conceptual diagram explaining the concept of the picture picturized. 撮像される画像の概念を説明する概念図である。It is a conceptual diagram explaining the concept of the picture picturized. 撮像される画像の概念を説明する概念図である。It is a conceptual diagram explaining the concept of the picture picturized. 端末装置10の表示画面に表示される画面例を示す図である。FIG. 6 is a view showing an example of a screen displayed on a display screen of the terminal device 10; 端末装置10の動作を説明するフローチャートである。5 is a flowchart illustrating an operation of the terminal device 10;

以下、本発明の一実施形態による撮像制御装置を用いた帳票データ管理システムについて図面を参照して説明する。図1は、この発明の一実施形態による帳票データ管理システム1の構成を示す概略構成図である。
帳票データ管理システム1は、複数の端末装置10と帳票データ管理装置20とOCRサーバ30とがネットワーク40を介して接続される。
Hereinafter, a form data management system using an imaging control apparatus according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a schematic block diagram showing the configuration of a form data management system 1 according to an embodiment of the present invention.
In the form data management system 1, a plurality of terminal devices 10, a form data management apparatus 20, and an OCR server 30 are connected via a network 40.

端末装置10は、例えば、スマートフォンや携帯電話等であり、ネットワークに接続されたサービス提供サーバに接続するか、当該サービス提供サーバからダウンロードした所定のアプリケーションを実行することで、帳票の撮像を行なって撮像データを生成して帳票データ管理装置20に送信し、銀行の口座開設や、各種保険の申込、各種サービスの会員登録等の手続を電子的に行なうことができる。以下、端末装置10が1つである場合について説明するが、複数台であってもよい。   The terminal device 10 is, for example, a smartphone or a mobile phone, and performs imaging of a form by connecting to a service providing server connected to a network or executing a predetermined application downloaded from the service providing server. The imaging data can be generated and transmitted to the form data management device 20, and procedures such as opening a bank account, applying for various insurances, and registering members of various services can be performed electronically. Hereinafter, although the case where one terminal device 10 is provided will be described, a plurality of terminal devices 10 may be provided.

また、ここで帳票は、例えば、運転免許証、保険証(健康保険証)、住民票等の公的機関が発行した書面や、上述の手続のサービスを行なうにあたり利用可能として指定された書面(例えば、電気やガスや水道等の料金の支払証明書、クレジット支払明細書など)であって、手続を申し込みするユーザの氏名や住所等が記載され、これら氏名や住所が正しいことを証明可能な書面である。このような帳票を撮像し、OCRサーバ30によって文字認識処理を行なって、帳票から文字情報を取得することで、この文字情報を利用して各種申込手続等を電子的に行なうことができる。例えば、この文字情報を利用することで、ユーザは、氏名や住所等を自分自身で全て入力する必要がなく、得られた文字情報を確認して間違いが無ければ、帳票データ管理装置20に送信し、各種申込手続を進めることができる。また、ユーザによってタッチパネルやキーボード等を介して入力された氏名等の文字列と文字認識処理結果の文字情報とが一致するか否かの判定を行なうことで、ユーザの氏名等の入力情報が正しいかを判定することもできる。   Also, here, the slips may be, for example, a document issued by a public organization such as a driver's license, a health insurance card (health insurance card) or a resident card, or a document designated as usable in performing the above-mentioned service. For example, a certificate of payment for electricity, gas, water, etc., credit payment statement, etc.), and the name and address of the user who applies for the procedure is described, and it is possible to prove that these names and addresses are correct. It is a document. By imaging such a form, performing character recognition processing by the OCR server 30, and acquiring character information from the form, various application procedures can be performed electronically by using the character information. For example, by using this character information, the user does not have to input all the name, address, etc. by oneself, and if there is no mistake in confirming the obtained character information, the form data management device 20 is transmitted. Can proceed with various application procedures. Further, the user's input information such as the user's name is correct by determining whether the character string of the name or the like input through the touch panel or the keyboard matches the character information of the character recognition processing result. It can also be determined.

端末装置10は、例えば携帯電話やスマートフォン、タブレット等であり、カメラ101、表示部102、画像拡大部103、画像取得部104、撮像ガイド枠表示制御部105を含んで構成され、ネットワーク40を介して通信を行なう機能を有する。
カメラ101は、光学系であるレンズを介して撮像素子(例えばCCD(固体撮像素子))によって光を受光し、撮像データを生成する。一般的に、携帯電話やスマートフォンにおいては、光学ズーム機能を有していない機種と光学ズーム機能を有している機種や、広角レンズと望遠レンズとが設けられ撮像対象に応じていずれか一方のレンズに切り替えて撮像可能な機種がある。このカメラ101としては、光学ズーム機能を有していても有していなくてもよく、また、広角レンズと望遠レンズを切り替えて撮像する機能を有していても有していなくてもよい。また、光学系としては、光学ズーム機能がないレンズが1組であって、画角が固定されているカメラであってもよい。
表示部102は、例えば液晶表示装置やタッチパネル等であり、各種情報を表示する。
The terminal device 10 is, for example, a mobile phone, a smartphone, or a tablet, and includes a camera 101, a display unit 102, an image enlargement unit 103, an image acquisition unit 104, and an imaging guide frame display control unit 105. Communication function.
The camera 101 receives light by an imaging device (for example, a CCD (solid-state imaging device)) through a lens that is an optical system, and generates imaging data. Generally, in mobile phones and smartphones, models that do not have an optical zoom function and models that have an optical zoom function, or a wide-angle lens and a telephoto lens are provided according to the imaging target. There is a model which can switch to a lens and can image. The camera 101 may or may not have an optical zoom function, and may or may not have a function of switching between a wide-angle lens and a telephoto lens for imaging. The optical system may be a camera having a single lens without an optical zoom function and a fixed angle of view.
The display unit 102 is, for example, a liquid crystal display device or a touch panel, and displays various types of information.

画像拡大部103は、帳票を撮像するカメラから得られる画像の中心部を含む領域を拡大して表示部102の表示画面に表示させる。
画像取得部104は、拡大して表示された画像であって帳票の文字認識対象の領域が表示画面に収まる状態の画像を撮像画像として取得する。
撮像ガイド枠表示制御部105は、表示画面の画面サイズを表す情報または表示画面を備える端末装置の機種情報を取得し、取得した情報に基づいて、表示画面の画面サイズを特定し、特定された画面サイズに対応したサイズの撮像ガイド枠を表示画面に表示する。
The image enlargement unit 103 enlarges an area including the central part of an image obtained from a camera that captures a form, and causes the display screen of the display unit 102 to display the enlarged area.
The image acquisition unit 104 acquires, as a captured image, an image which is enlarged and displayed and in which the character recognition target area of the form fits on the display screen.
The imaging guide frame display control unit 105 acquires information representing the screen size of the display screen or model information of the terminal device having the display screen, identifies the screen size of the display screen based on the acquired information, and is identified. Display an imaging guide frame of a size corresponding to the screen size on the display screen.

ここで、図2から図4は、撮像される画像の概念を説明する概念図である。一般的な方法で帳票(例えば、運転免許証)を撮像する場合、ユーザは、例えば、机等の台の上に帳票を置き、ユーザ自身は椅子に座り、端末装置10を胸の高さ程度に保持することで、運転免許証から端末装置を十数センチメートル程度離れた位置に構えて撮像する。このような状態で運転免許証を撮像すると、例えば図2のように、表示画面(符号200)において、運転免許証(符号201)の全体が収まり、かつ、運転免許証の外周部が表示画面の端部から少しの間隔を空けた状態で撮像される。このような場合、端末装置が有するカメラのレンズの特性によっては歪曲収差の影響を受け、例えば、符号202に示す縦方向及び横方向のそれぞれ曲線のように、撮像対象の中心に比べて撮像領域の外周側に近づくほど画像がゆがむ(いわゆる樽型歪曲)。このような状態でシャッターを切って撮像データが得られた場合、撮像領域の中心部(例えば、符号203に示す領域)は歪曲収差の影響が少ないため、文字認識処理を精度よく行なうことができる。その一方で、画像の中心部の外側においては、歪曲収差の影響が中心部に比べて大きいため、運転免許証の画像がゆがんだ状態となり、そのため文字認識処理を行なったとしても、文字認識精度が中心部に比べて低下し、誤認識あるいは文字の認識自体できない場合がある。   Here, FIGS. 2 to 4 are conceptual diagrams illustrating the concept of an image to be captured. When imaging a form (for example, a driver's license) by a general method, the user places the form on a table such as a desk, and the user himself sits in a chair, and the height of the chest of the terminal device 10 By holding the terminal device from the driver's license, the terminal device is held at a position about ten centimeters away and imaged. If the driver's license is imaged in such a state, for example, as shown in FIG. 2, the entire driver's license (code 201) fits on the display screen (code 200), and the outer peripheral portion of the driver's license The image is taken slightly apart from the end of the. In such a case, depending on the characteristics of the lens of the camera that the terminal device has, it is affected by distortion, for example, as indicated by a curve 202 in the longitudinal direction and the lateral direction indicated by reference numeral 202, compared to the center of the imaging target The image gets distorted as it gets closer to the outer periphery of the image (so-called barrel distortion). When imaging data is obtained by releasing the shutter in such a state, the character recognition processing can be performed with high accuracy because distortion of the central portion of the imaging region (for example, the region indicated by reference numeral 203) is small. . On the other hand, outside of the central part of the image, the influence of distortion is greater than that of the central part, so the image of the driver's license is distorted, so even if character recognition processing is performed, the character recognition accuracy However, there is a possibility that misrecognition or character recognition itself can not be made.

次に、例えば、図3に示すように、表示画面(符号300)の撮像領域の中心部(符号303)に運転免許証(符号301)が収まるように撮影することで歪曲収差の影響を低減することが考えられる。これにより、符号302に示す縦方向及び横方向の曲線のうち、ゆがみが少ない領域において運転免許証を撮像することができる。しかし、このような撮像領域の中心部に運転免許証が収まるように撮像しようとすると、運転免許証から端末装置を離して(図2の例における撮像距離よりも離して)撮影する必要がある。そうすると、端末装置を胸の高さ程度に保持する姿勢ではなく、ユーザ自身の顔あるいは頭上程度の高さまで端末装置を持ち上げるような姿勢をとることになる。このような姿勢はユーザにとって撮影し難い姿勢である。また、端末装置を高く持ち上げるほど、例えば、端末装置を目の高さよりも高い位置まで端末装置を持ち上げると、端末装置の表示画面を視認することができないため、運転免許証が正しく撮像領域範囲に収まっているか、また、焦点が合っているか等を確認することができない問題が生じる。また、ユーザは、どの程度の高さまで端末装置を持ち上げれば、歪曲収差の影響を低減できるのか、さらには、文字認識率が低減しないように撮像できるかについて、表示画面の表示内容を見ただけでは判断できない。   Next, for example, as shown in FIG. 3, the influence of distortion is reduced by imaging so that the driver's license (code 301) fits in the center part (code 303) of the imaging area of the display screen (code 300). It is possible to do. As a result, it is possible to image the driver's license in the region with less distortion among the vertical and horizontal curves indicated by reference numeral 302. However, when imaging is performed so that the driver's license falls within the center of such an imaging area, it is necessary to separate the terminal device from the driver's license (to be apart from the imaging distance in the example of FIG. 2) and perform imaging. . In this case, the terminal device is not lifted up to the chest level, but is lifted up to the height of the user's own face or overhead. Such a posture is a posture that is difficult for the user to shoot. Also, as the terminal device is lifted higher, for example, if the terminal device is lifted to a position higher than the eye level, the display screen of the terminal device can not be viewed, so the driver's license is properly in the imaging area range. There is a problem that it can not be confirmed whether the subject is in focus or in focus. In addition, the user looked at the display content of the display screen as to whether the height of the terminal device can be lifted to reduce the influence of distortion, and whether the character recognition rate can not be reduced. I can not judge by myself.

そこで、本実施形態における端末装置10は、図4に示すように、カメラ101の広角を最も広くするとともに、カメラ101によって撮像された撮像領域の中心部近傍をいわゆるデジタルズームを行なうことで拡大表示し、シャッターが切られると、その拡大表示された画像を撮像データとして取得する。これにより、レンズを介して得られる画像のうち、撮像領域の中心部を含む一部の領域を切り出して撮像データとして得ることができるため、撮像領域の外周近傍の画像についてはゆがみが大きいため利用しないようにすることができる。
さらに、表示部102に拡大表示するようにしたので、運転免許証が表示画面内に収まる程度まで端末装置10を持ち上げるような姿勢をとることで、帳票をゆがみが少ない領域の範囲内に収めるようにすることができ、どの程度の高さまで持ち上げればよいかを簡単に把握することができる。
また、このような倍率で拡大表示して撮像することで、端末装置10の表示画面から帳票の画像がはみ出さないように収めることができ、かつ無理のない姿勢で撮像することができる。
Therefore, as shown in FIG. 4, the terminal device 10 in the present embodiment enlarges and displays the vicinity of the central portion of the imaging region imaged by the camera 101 by performing so-called digital zoom, while widening the wide angle of the camera 101 most. When the shutter is released, the magnified image is acquired as imaging data. As a result, a part of the image obtained through the lens, including the central part of the imaging region, can be cut out and obtained as imaging data, and the image in the vicinity of the outer periphery of the imaging region has a large distortion. It can not be done.
Furthermore, since enlarged display is made on the display unit 102, by taking a posture to lift the terminal device 10 to such an extent that the driver's license falls within the display screen, the document can be contained within the range of less distortion. You can easily grasp how high you can lift it.
Further, by enlarging and displaying the image with such a magnification, the image of the form can be stored so as not to protrude from the display screen of the terminal device 10, and the image can be taken in a reasonable posture.

ここで、撮像ガイド枠表示制御部105は、拡大表示された画面において、撮像ガイド枠を表示する。図5は、端末装置10の表示画面に表示される画面例を示す図である。この図において、端末装置10の表示部102の拡大表示された表示画面には、表示画面の外周に接しないサイズであって、表示画面の表示領域の端部から中心側に向かって所定の距離に設定された略矩形形状の撮像ガイド枠(符号110)が表示される。ユーザは、運転免許証がこの撮像ガイド枠に沿うように、端末装置10の水平方向の位置と、高さ方向の位置を調整し、撮像ガイド枠と運転免許証の外周が概ね一致した際にシャッターを切ることで、撮像データを生成することができる。
ここでは、撮像ガイド枠のサイズが、表示画面のサイズに近いほど、帳票までの距離を短くすることができる。すなわち、ユーザは帳票が大きく撮像されるように端末装置10を帳票に近づけるような姿勢をとることができるため、高く持ち上げ過ぎることなく、撮像することができる。
撮像ガイド枠の形状は、撮像対象が予め解っている場合であって、帳票の輪郭形状が矩形である場合、その帳票の輪郭のアスペクト比とほぼ同様のアスペクト比とされた撮像ガイド枠の形状とすることができる。これにより、ユーザにとっては、撮像ガイド枠に帳票の輪郭を合わせやすいメリットがある。
Here, the imaging guide frame display control unit 105 displays the imaging guide frame on the screen displayed in an enlarged manner. FIG. 5 is a view showing an example of a screen displayed on the display screen of the terminal device 10. In this figure, the enlarged display screen of the display unit 102 of the terminal device 10 has a size not in contact with the outer periphery of the display screen, and a predetermined distance from the end of the display area of the display screen toward the center A substantially rectangular imaging guide frame (reference numeral 110) set to is displayed. The user adjusts the position of the terminal device 10 in the horizontal direction and the position in the height direction so that the driver's license conforms to the imaging guide frame, and the outer circumferences of the imaging guide frame and the driver's license approximately match. By releasing the shutter, imaging data can be generated.
Here, as the size of the imaging guide frame is closer to the size of the display screen, the distance to the form can be shortened. That is, since the user can take such a posture as to bring the terminal device 10 close to the form so that the form is imaged largely, it is possible to perform imaging without raising too high.
The shape of the imaging guide frame is the case where the imaging target is known in advance, and when the outline shape of the form is rectangular, the shape of the imaging guide frame having an aspect ratio substantially similar to the aspect ratio of the outline of the form. It can be done. As a result, for the user, there is an advantage that the outline of the form can be easily aligned with the imaging guide frame.

ここで、拡大表示する際の倍率は、撮像された画像が画面上に表示される際に拡大される倍率であり、任意に設定することが可能である。例えば、身長が140cmから190cm程度のユーザが椅子に座った状態で机の上に証明書を置き、その椅子に座った姿勢のまま、持ち上げすぎない程度の高さに端末装置を保持し、撮像ガイド枠に帳票が収まるように視認しつつ、ストレスのない姿勢にて撮像することができ、また、撮像データにおいて文字認識処理を行なった場合における誤認識が生じないようにして撮像できる倍率の条件は、1.5倍〜3倍程度、好ましくは、1.5倍から2.5倍程度である。このときの帳票から端末装置までの距離は、概ね18から20センチメートル程度であり、高さとしては、ユーザの胸の高さから顎の高さ程度の間の高さである。これにより、一般的な撮像の仕方に比べて高さ方向に端末装置10を持ち上げるが、無理のない姿勢で帳票を撮像することができる。仮に端末装置10を鼻や目の高さ程度まで持ち上げたとしても、帳票が画面に収まらないよう状態で表示されるため、ユーザは、帳票が表示画面内に収まるように端末装置10の高さを下げることとなる。そのため、ユーザに対し、必要以上に高い位置に端末装置10を持ち上げさせることがなくなる。
このような倍率で拡大表示することで、必要以上に帳票から端末装置10を離すような姿勢(端末装置10を頭上に持ち上げる、椅子から立ち上がる等)の姿勢をとることがなくなるため、表示画面を視認しやすい状態でシャッターを切ることができる。また、表示画面を視認しやすいため、焦点があっているか否かを確認した上でシャッターを切ることもできる。
Here, the magnification at the time of the enlargement display is a magnification that is enlarged when the captured image is displayed on the screen, and can be set arbitrarily. For example, a user with a height of about 140 cm to 190 cm places a certificate on a desk while sitting in a chair, holds the terminal device at a height that does not lift too much while sitting on the chair, and captures an image Conditions of magnification that can be imaged in a stress-free posture while visually recognizing a form within the guide frame, and can be imaged without erroneous recognition when character recognition processing is performed on imaged data Is about 1.5 times to about 3 times, preferably about 1.5 times to about 2.5 times. The distance from the form to the terminal at this time is about 18 to about 20 cm, and the height is a height between the chest height of the user and the height of the jaw. As a result, the terminal device 10 is lifted in the height direction as compared with the general imaging method, but the form can be imaged in a reasonable posture. Even if the terminal device 10 is lifted to the height of the nose or eyes, the form is displayed so as not to fit on the screen. Therefore, the user can set the height of the terminal device 10 so that the form fits in the display screen. Will be lowered. Therefore, the user is not required to lift the terminal device 10 to a position higher than necessary.
By enlarging the display with such a magnification, the display screen is not taken because it does not take the attitude of lifting the terminal device 10 away from the form more than necessary (lifting the terminal device 10 overhead, standing up from a chair, etc.) The shutter can be released in a state where it is easy to see. In addition, since the display screen is easy to view, it is possible to release the shutter after confirming whether or not the focus is on.

ここで、帳票をイメージスキャナを用いて撮像して文字認識することも考えられる。イメージスキャナを用いる場合、撮像対象を走査して画像を得るため、端末装置に設けられたカメラを用いて撮像する場合に比べて、画像のゆがみが生じにくい。そのため、文字認識処理を精度よく行なうことが可能であり、上述のような端末装置のカメラを利用する場合における問題が生じにくい。
また、イメージスキャナは、端末装置とは別の装置として存在しており、また、スマートフォンや携帯電話に比べて普及率が低いため、イメージスキャナを所有していないユーザは利用することができない。また、イメージスキャナを利用する場合、端末装置のカメラで撮像する場合に比べて、外出先で利用できない等、手軽に利用できないため、ユーザにとって利用し難いという問題がある。
Here, it is also possible to capture a form by using an image scanner and recognize characters. In the case of using an image scanner, in order to obtain an image by scanning an imaging target, distortion of the image is less likely to occur than in the case of imaging using a camera provided in a terminal device. Therefore, the character recognition process can be performed with high accuracy, and the problem in the case of using the camera of the terminal device as described above hardly occurs.
In addition, the image scanner exists as a device separate from the terminal device, and the penetration rate is lower than that of a smartphone or a mobile phone, and therefore it can not be used by a user who does not own the image scanner. When an image scanner is used, it can not be used easily, for example, it can not be used outside the office, as compared to the case where an image is taken with a camera of a terminal device.

また、レンズの特性や、レンズの個体差によっては、撮像領域の左側と右側(あるいは上側と下側)において、画像のゆがみ方が必ずしも対称ではないため、撮像領域の外周部(左右端部、上下端部等)の画像は文字認識処理の対象として利用しにくい。   In addition, depending on the lens characteristics and individual differences of the lens, the distortion of the image is not necessarily symmetrical between the left side and the right side (or upper side and lower side) of the imaging area. It is difficult to use the image at the upper and lower ends etc. as a target of character recognition processing.

図1に戻り、帳票データ管理装置20は、例えば、Webサーバとしてネットワーク40に接続される。帳票データ管理装置20は、端末装置10から送信される撮像データを受信し、送信元の端末装置10あるいは送信をしたユーザの識別情報とともに記憶する。また、帳票データ管理装置20はさらに、OCRサーバ30から送信される文字認識処理が行なわれた結果である文字情報を受信して文字認識処理を行なった対象の撮像データに対応付けて記憶することもできる。この文字情報は、例えば、部分画像に含まれる文字情報が文字認識されることで生成されるテキスト情報が含まれており、例えば、ユーザの氏名や住所、郵便番号等を表す文字列が用いられる。   Returning to FIG. 1, the form data management device 20 is connected to the network 40 as a Web server, for example. The form data management device 20 receives the imaging data transmitted from the terminal device 10, and stores the data together with the identification information of the transmission source terminal device 10 or the user who transmitted the data. Further, the form data management device 20 further receives the character information which is the result of the character recognition processing transmitted from the OCR server 30, and stores the character information in association with the imaging data of the target subjected to the character recognition processing. You can also. This character information includes, for example, text information generated by character recognition of character information included in a partial image, and, for example, a character string representing a user's name, address, postal code, etc. is used. .

OCRサーバ30は、端末装置10から送信される撮像データを受信し、撮像データを対象として文字認識処理を行ない、文字情報を取得する機能を有する。また、OCRサーバ30は、生成された文字情報を帳票データ管理装置20に送信する。
ネットワーク40は、インターネットやLAN(ローカルエリアネットワーク)等であり、一部に無線の区間があってもよい。
以下の実施形態において、撮像データに基づく文字認識処理は、OCRサーバ30が行なう場合について説明するが、文字認識処理の機能を端末装置10に設け、端末装置10が文字認識処理を行なうようにすることもできる。
The OCR server 30 has a function of receiving imaging data transmitted from the terminal device 10, performing character recognition processing on imaging data, and acquiring character information. In addition, the OCR server 30 transmits the generated character information to the form data management device 20.
The network 40 is the Internet, a LAN (local area network), or the like, and may have a wireless section in part.
In the following embodiment, although character recognition processing based on imaging data will be described as being performed by the OCR server 30, the function of character recognition processing is provided in the terminal device 10, and the terminal device 10 performs character recognition processing. It can also be done.

次に、上述した帳票データ管理システム1における端末装置10の動作を説明する。図6は、端末装置10の動作を説明するフローチャートである。
端末装置10は、ユーザからのタッチパネル等を介して帳票撮像モードが起動の指示が入力されたか否かに基づいて、帳票モードを起動するか否かを判定する(ステップS101)。帳票撮像モードの起動指示が入力されていない場合には、一定時間毎にステップS101を繰り返して判定する。一方、帳票撮像モードを起動する指示が入力されたことが検出された場合、端末装置10は、帳票撮像モードを起動する。
端末装置10は、帳票撮影モードを起動すると、カメラ101の広角が広くなるように(例えば、画角が最も広くなるように)に変更した上で撮像する(ステップS102)。例えば、端末装置10は、光学ズーム機能がある機種である場合には、光学ズームの状態が最も広角となるように変更し、広角レンズと望遠レンズの両方を備えた機種である場合には、広角レンズを用いるよう選択して撮像する。光学ズーム機能や広角レンズと望遠レンズの切り替えの機能を有していない場合、端末装置10は、広角を光学的に変更する機能を有していないため、ステップ102の処理はスキップして撮像する。
Next, the operation of the terminal device 10 in the above-described form data management system 1 will be described. FIG. 6 is a flowchart for explaining the operation of the terminal device 10.
The terminal device 10 determines whether to activate the form mode based on whether or not an instruction to activate the form imaging mode has been input from the user via the touch panel or the like (step S101). When the start instruction of the form imaging mode is not input, step S101 is repeated and determined every constant time. On the other hand, when it is detected that an instruction to activate the form imaging mode is detected, the terminal device 10 activates the form imaging mode.
When the document photographing mode is activated, the terminal device 10 changes the camera 101 so that the wide angle of the camera 101 is wide (for example, the field angle is widest) and then performs imaging (step S102). For example, if the terminal device 10 is a model having an optical zoom function, the state of the optical zoom is changed to the widest angle, and if the model has both a wide-angle lens and a telephoto lens, Select to use a wide-angle lens for imaging. If the terminal device 10 does not have the function of changing the wide angle optically when the optical zoom function or the function of switching between the wide-angle lens and the telephoto lens is not provided, the process of step 102 is skipped and imaging is performed. .

次に、端末装置10の画像拡大部103は、拡大表示の倍率を設定する(ステップS103)。この拡大表示の倍率は、予め決められていれば、その倍率を決める設定値の読み出しを行なう。   Next, the image enlargement unit 103 of the terminal device 10 sets the magnification of the enlargement display (step S103). If the magnification of this enlarged display is determined in advance, the setting value for determining the magnification is read out.

次に、端末装置10の撮像ガイド枠表示制御部105は、画面サイズの検出を行なう(ステップS104)。例えば、撮像ガイド枠表示制御部105は、表示画面の画面サイズを表す情報または表示画面を備える端末装置の機種情報を取得し、得られた情報から画面サイズを特定する。画面サイズを表す情報や端末装置の機種情報は、例えば、端末装置10の内部に、端末装置10の仕様等を記憶する記憶領域に記憶されている。撮像ガイド枠表示制御部105は、この記憶領域を参照することで、画面サイズを特定する。なお、端末装置の機種情報が得られた場合には、この機種に対応する画面サイズの情報を外部のサーバ等に問い合わせるか、あるいは、機種と画面サイズを対応付けたテーブル情報を端末装置10の内部の記憶領域に記憶しておき、このテーブルを参照することで画面サイズを特定することができる。例えば、この撮影ガイド枠のサイズは、機種毎に予め決められており、端末装置10の機種または画面サイズが特定されることに応じて、機種または画面サイズに対応する撮影ガイド枠を、予め決められた中から選択して表示することができる。
なお、機種情報や画面サイズを表す情報に基づいて端末装置10の画面サイズを特定し、特定された画面サイズに対応するように(例えば内接するように)撮影ガイド枠を拡大または縮小して表示するようにしてもよい。
Next, the imaging guide frame display control unit 105 of the terminal device 10 detects the screen size (step S104). For example, the imaging guide frame display control unit 105 acquires information representing the screen size of the display screen or model information of the terminal device including the display screen, and identifies the screen size from the obtained information. The information indicating the screen size and the model information of the terminal device are stored, for example, inside the terminal device 10 in a storage area that stores specifications of the terminal device 10 and the like. The imaging guide frame display control unit 105 specifies the screen size by referring to this storage area. When the model information of the terminal device is obtained, the information on the screen size corresponding to the model is inquired to an external server or the like, or the table information in which the model and the screen size are associated is The screen size can be specified by storing it in an internal storage area and referencing this table. For example, the size of the shooting guide frame is determined in advance for each model, and the shooting guide frame corresponding to the model or screen size is determined in advance in response to the model or screen size of the terminal device 10 being specified. It can be selected and displayed.
Note that the screen size of the terminal device 10 is specified based on the model information and the information indicating the screen size, and the shooting guide frame is enlarged or reduced to correspond to the specified screen size (for example, inscribed) You may do it.

次に、撮像ガイド枠表示制御部105は、画面サイズが特定されると、特定された画面サイズに基づいて、設定された拡大表示の倍率に応じたサイズとなるように撮像ガイド枠の表示サイズを決定する(ステップS105)。
撮像ガイド枠の表示サイズが決定されると、画像拡大部103は、カメラ101によって撮像された画像を、設定された倍率にしたがって、拡大して表示部102に表示させ、撮像ガイド枠表示制御部105は、決定された表示サイズにしたがって撮像ガイド枠を拡大表示された画面上に重ねて表示する。
端末装置10の画像取得部104は、シャッターボタンが押下されたか否かを判定し(ステップS107)、シャッターボタンが押下されない場合には、一定時間後に再度ステップS107の判定を繰り返し、シャッターボタンが押下された場合には、表示部102に拡大表示された領域の画像を撮像データとして取り込むことで、撮像データを生成する(ステップS108)。ここでは、カメラ101の固体撮像素子によって受光された結果に基づく画面のうち、拡大表示された領域の画像を撮像データとして取り込むことで、撮像ガイド枠が撮像データに含まれない画像を取り込む。そして、端末装置10は、取り込んだ撮像データをOCRサーバ30に送信する(ステップS109)。
Next, when the screen size is specified, the imaging guide frame display control unit 105 displays the display size of the imaging guide frame so that the size corresponds to the set magnification of the enlarged display based on the specified screen size. Are determined (step S105).
When the display size of the imaging guide frame is determined, the image enlargement unit 103 enlarges the image captured by the camera 101 according to the set magnification and causes the display unit 102 to display the image, and the imaging guide frame display control unit In step 105, the imaging guide frame is superimposed and displayed on the enlarged screen according to the determined display size.
The image acquisition unit 104 of the terminal device 10 determines whether or not the shutter button is pressed (step S107). If the shutter button is not pressed, the determination of step S107 is repeated again after a predetermined time, and the shutter button is pressed. In the case where it is determined, the imaging data is generated by capturing an image of the area enlarged and displayed on the display unit 102 as imaging data (step S108). Here, by capturing an image of a magnified area of the screen based on the result of light reception by the solid-state imaging device of the camera 101 as imaging data, an image in which the imaging guide frame is not included in the imaging data is captured. Then, the terminal device 10 transmits the captured image data to the OCR server 30 (step S109).

以上説明した実施形態における端末装置10によれば、文字認識処理における文字認識の精度を向上させることができる。
また、上述した実施形態によれば、帳票モードが起動された場合に、ユーザから拡大表示をする操作入力をしてもらうことなく、拡大表示を行なうようにしたので、ユーザに意図的に拡大表示の操作をしてもらう必要がない。
According to the terminal device 10 in the embodiment described above, the accuracy of character recognition in the character recognition process can be improved.
Further, according to the above-described embodiment, when the document mode is activated, the enlarged display is performed without receiving an operation input for enlarging the display from the user, so the user intentionally enlarges the display There is no need to have the operation of

また、上述した実施形態において、OCRサーバ30は、撮像対象が運転免許証など、文字等が記載された欄の寸法や、レイアウトが予め決められている帳票を撮像する場合には、枠線に対して文字が存在しうる位置、氏名に相当する文字列や住所に相当する文字列が記載された位置を把握することができる。そのため、OCRサーバ30では、撮像データにおける枠線の矩形形状を検出することで、その矩形形状内にある画像から文字認識をする機能を有するものもある。そのようなOCRサーバ30である場合、上述した端末装置10によって撮像された撮像データを対象として文字認識する場合、撮像データは、ゆがみが少ないため、その撮像データ内の枠線の矩形形状についても、ゆがみがすくない状態の撮像データが得られる。そのため、枠線の矩形形状の検出・認識率も向上させることができる。   Further, in the above-described embodiment, the OCR server 30 uses the frame line when capturing an object whose imaging target is a dimension such as a driver's license, a dimension of a column in which characters and the like are described, or a layout is determined in advance. On the other hand, it is possible to grasp the position where the character can exist, the position where the character string corresponding to the name or the character string corresponding to the address is written. Therefore, the OCR server 30 may have a function of recognizing characters from an image within the rectangular shape by detecting a rectangular shape of a frame line in imaging data. In the case of such an OCR server 30, when character recognition is performed on the imaging data imaged by the above-described terminal device 10, the imaging data has little distortion, so the rectangular shape of the frame line in the imaging data is also The imaging data in a less distorted state can be obtained. Therefore, the detection / recognition rate of the rectangular shape of the frame line can also be improved.

上述した実施形態における端末装置10をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。   The terminal device 10 in the embodiment described above may be realized by a computer. In that case, a program for realizing this function may be recorded in a computer readable recording medium, and the program recorded in the recording medium may be read and executed by a computer system. Here, the “computer system” includes an OS and hardware such as peripheral devices. The term "computer-readable recording medium" refers to a storage medium such as a flexible disk, a magneto-optical disk, a ROM, a portable medium such as a ROM or a CD-ROM, or a hard disk built in a computer system. Furthermore, “computer-readable recording medium” dynamically holds a program for a short time, like a communication line in the case of transmitting a program via a network such as the Internet or a communication line such as a telephone line. It may also include one that holds a program for a certain period of time, such as volatile memory in a computer system that becomes a server or a client in that case. Further, the program may be for realizing a part of the functions described above, or may be realized in combination with the program already recorded in the computer system. It may be realized using a programmable logic device such as an FPGA (Field Programmable Gate Array).

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design and the like within the scope of the present invention.

1…帳票データ管理システム、10…端末装置、20…帳票データ管理装置、30…OCRサーバ30、40…ネットワーク、101…カメラ、102…表示装置、103…画像拡大部、104…画像取得部、105…撮像ガイド枠表示部   DESCRIPTION OF SYMBOLS 1 ... form data management system, 10 ... terminal device, 20 ... form data management apparatus, 30 ... OCR server 30, 40 ... network, 101 ... camera, 102 ... display device, 103 ... image enlargement unit, 104 ... image acquisition unit, 105: Imaging guide frame display unit

Claims (3)

帳票を撮像するカメラから得られる画像の中心部を含む領域を拡大して表示画面に表示させる画像拡大部と、
前記拡大して表示された画像であって前記帳票の文字認識対象の領域が前記表示画面に収まる状態の画像を撮像画像として取得する画像取得部と、
を有する撮像制御装置。
An image enlargement unit for enlarging a region including the center of an image obtained from a camera for imaging a form and displaying the region on a display screen;
An image acquisition unit configured to acquire, as a captured image, the image displayed in the enlarged state and in a state in which the character recognition target area of the form fits on the display screen;
An imaging control apparatus having:
前記表示画面の画面サイズを表す情報または前記表示画面を備える端末装置の機種情報を取得し、取得した情報に基づいて、前記表示画面の画面サイズを特定し、特定された画面サイズに対応したサイズの撮像ガイド枠を前記表示画面に表示する撮像ガイド枠表示制御部
を有する請求項1記載の撮像制御装置。
Information representing the screen size of the display screen or model information of a terminal device provided with the display screen is acquired, and the screen size of the display screen is specified based on the acquired information, and a size corresponding to the specified screen size The imaging control apparatus according to claim 1, further comprising: an imaging guide frame display control unit configured to display an imaging guide frame of the present invention on the display screen.
端末装置における撮像制御方法であって、
画像拡大部が、帳票を撮像するカメラから得られる画像の中心部を含む領域を拡大して表示画面に表示させ、
画像取得部が、前記拡大して表示された画像であって前記帳票の文字認識対象の領域が前記表示画面に収まる状態の画像を撮像画像として取得する
撮像制御方法。
An imaging control method in a terminal device
The image enlargement unit enlarges an area including the central part of the image obtained from the camera that captures the form, and displays the enlarged area on the display screen,
The image acquisition control method acquires the image of the state which is an image displayed by the said expansion, and the area | region of character recognition object of the said form fits in the said display screen as a captured image.
JP2017253136A 2017-12-28 2017-12-28 Imaging control device and imaging control method Pending JP2019120983A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017253136A JP2019120983A (en) 2017-12-28 2017-12-28 Imaging control device and imaging control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017253136A JP2019120983A (en) 2017-12-28 2017-12-28 Imaging control device and imaging control method

Publications (1)

Publication Number Publication Date
JP2019120983A true JP2019120983A (en) 2019-07-22

Family

ID=67306326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017253136A Pending JP2019120983A (en) 2017-12-28 2017-12-28 Imaging control device and imaging control method

Country Status (1)

Country Link
JP (1) JP2019120983A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023286366A1 (en) * 2021-07-13 2023-01-19 ソニーグループ株式会社 Information processing device, information processing method, and recording medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07234919A (en) * 1994-02-24 1995-09-05 Sony Corp Magnified reading equipment
JP2007156712A (en) * 2005-12-02 2007-06-21 Canon Inc Information processor and control method therefor, program
JP2016076093A (en) * 2014-10-07 2016-05-12 富士通株式会社 Character recognition support device, character recognition support program, and character recognition support method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07234919A (en) * 1994-02-24 1995-09-05 Sony Corp Magnified reading equipment
JP2007156712A (en) * 2005-12-02 2007-06-21 Canon Inc Information processor and control method therefor, program
JP2016076093A (en) * 2014-10-07 2016-05-12 富士通株式会社 Character recognition support device, character recognition support program, and character recognition support method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023286366A1 (en) * 2021-07-13 2023-01-19 ソニーグループ株式会社 Information processing device, information processing method, and recording medium

Similar Documents

Publication Publication Date Title
JP4875117B2 (en) Image processing device
CN104754216B (en) A kind of photographic method and device
US9491352B2 (en) Imaging device, signal processing method, and signal processing program
JP5467992B2 (en) Imaging device
KR101906748B1 (en) Iris image acquisition method and apparatus, and iris recognition device
WO2017124899A1 (en) Information processing method, apparatus and electronic device
JP5604285B2 (en) Imaging device
JP2018121233A (en) Portable information processing device having camera function for performing guide display for photographing character-recognizable image, display control method thereof, and program
JP2020505705A (en) Method and device for learning feature image and user authentication method
JP6283329B2 (en) Augmented Reality Object Recognition Device
JP6683833B2 (en) Biometric authentication device and biometric authentication program
JP2019120983A (en) Imaging control device and imaging control method
JP6614186B2 (en) Book document processing apparatus, book document processing method, and program
JP7076216B2 (en) Imaging control device, imaging control method, and program
JP2012205089A (en) Information processing device, information processing method, and information processing program
JP2009205203A (en) Iris authentication device
CN111767845B (en) Certificate identification method and device
JP2009111827A (en) Photographing apparatus and image file providing system
JP2020091748A (en) Terminal device, program, and image management method
JP2019120984A (en) Business form data management apparatus, business form data management method
WO2024143176A1 (en) Biological information acquisition assistance device and biological information acquisition assistance method
JP6875061B2 (en) A recording medium for recording an image judgment system, an image judgment method, an image judgment program, and an image judgment program.
JP2016206465A (en) Photography amusement device
JP2016032556A (en) Photographing device, skin diagnosis method, program, and skin diagnosis system
JP6235417B2 (en) Imaging system, imaging apparatus, information processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220412