JP7659155B2 - Image Analysis System - Google Patents

Image Analysis System Download PDF

Info

Publication number
JP7659155B2
JP7659155B2 JP2020130845A JP2020130845A JP7659155B2 JP 7659155 B2 JP7659155 B2 JP 7659155B2 JP 2020130845 A JP2020130845 A JP 2020130845A JP 2020130845 A JP2020130845 A JP 2020130845A JP 7659155 B2 JP7659155 B2 JP 7659155B2
Authority
JP
Japan
Prior art keywords
frame
image
frames
image analysis
tables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020130845A
Other languages
Japanese (ja)
Other versions
JP2022027060A (en
Inventor
雄基 田澤
渉太 古川
隼也 中井川
靖恵 満倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Investors
Original Assignee
Life Investors
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Investors filed Critical Life Investors
Priority to JP2020130845A priority Critical patent/JP7659155B2/en
Publication of JP2022027060A publication Critical patent/JP2022027060A/en
Application granted granted Critical
Publication of JP7659155B2 publication Critical patent/JP7659155B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

特許法第30条第2項適用 令和1年10月14日 IECON 2019 - 45th Annual Conference of the IEEE Industrial Electronics Societyにて発表Article 30, Paragraph 2 of the Patent Act applies October 14, 2020 Presented at IECON 2019 - 45th Annual Conference of the IEEE Industrial Electronics Society

本発明は、画像解析システムに関する。 The present invention relates to an image analysis system .

従来、文字や表が記載された紙媒体等を対象として、文字認識等の画像解析を行う技術が存在する。
このような画像解析に関する技術の一例が、特許文献1に開示されている。特許文献1に開示に技術では、読み取り対象となる原稿のフォーマット(すなわち、体裁)に対応して、何れの位置に何れの情報が記載されているのかを予め設定しておく。そして、この設定に基づくことにより、画像における、フォーマットに適合した位置から文字列を検出する等の画像解析を行うことができる。
2. Description of the Related Art Conventionally, there are techniques for performing image analysis such as character recognition on paper media on which characters and tables are written.
An example of such a technique for image analysis is disclosed in Patent Literature 1. In the technique disclosed in Patent Literature 1, what information is written at what position is set in advance according to the format (i.e., appearance) of the document to be read. Then, based on this setting, image analysis such as detecting character strings from a position in the image that matches the format can be performed.

特開2019-57311号公報JP 2019-57311 A

しかしながら、読み取り対象となる原稿のフォーマットは、必ずしも同一ではなく、原稿毎に様々なフォーマットが混在している場合がある。この場合、特許文献1に開示の技術のように、予めフォーマットを設定したり、読み取りの都度フォーマットを修正したりすることは現実的には困難である。 However, the format of the document to be read is not necessarily the same, and various formats may be mixed for each document. In such cases, it is practically difficult to set the format in advance or modify the format each time it is read, as in the technology disclosed in Patent Document 1.

また、特許文献1等に開示の一般的な技術では、複合機等の原稿台やADF(Auto Document Feeder)といった機構に原稿を載置し、スキャナと原稿が所定の距離を保った適切な状態で読み取られて、画像が生成されることを想定してる。しかしながら、必ずしも適切な状態で読み取られて、画像が生成されるわけではない。例えば、ユーザが携帯型のカメラで原稿を撮影して画像を生成する場合、撮影時に原稿が湾曲していたり、撮影時のカメラと原稿位置関係が適切でなかったりして、画像において歪み等が発生する場合もあり得る。
このように、様々なフォーマットが混在する場合や、画像に歪み等が発生する場合であっても、精度高く画像解析を行うことが望まれる。
In addition, in the general technology disclosed in Patent Document 1 and the like, it is assumed that an original is placed on a mechanism such as a document tray of a multifunction printer or an ADF (Auto Document Feeder), and the original is read in an appropriate state with a predetermined distance between the scanner and the original, and an image is generated. However, the original is not necessarily read in an appropriate state and an image is generated. For example, when a user takes a picture of an original with a portable camera and generates an image, the original may be curved when photographed, or the positional relationship between the camera and the original when photographed may not be appropriate, resulting in distortion or the like in the image.
Thus, even when various formats are mixed or when distortion or the like occurs in the image, it is desirable to perform image analysis with high accuracy.

本発明は、このような状況に鑑みてなされたものである。そして、本発明の課題は、より精度高く画像解析を行うことである。 The present invention has been made in light of these circumstances. The objective of the present invention is to perform image analysis with greater accuracy.

上記課題を解決するため、本発明の一実施形態に係る画像解析システムは、
表を被写体として含む画像から、前記表に対応する領域を検出する表検出手段と、
前記表に対応する領域から前記表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれに前記画像における位置情報を付与する枠検出手段と、
前記複数の枠それぞれについての文字認識結果と、前記複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得する情報取得手段と、
を備えることを特徴とする。
In order to solve the above problem, an image analysis system according to an embodiment of the present invention comprises:
a table detection means for detecting an area corresponding to a table from an image including a table as a subject;
a frame detection means for detecting a plurality of frames constituting the table from an area corresponding to the table and for assigning position information in the image to each of the detected frames;
an information acquisition means for acquiring acquisition target information based on a character recognition result for each of the plurality of frames and position information assigned to each of the plurality of frames;
The present invention is characterized by comprising:

本発明によれば、より精度高く画像解析を行うことが可能となる。 The present invention makes it possible to perform image analysis with greater accuracy.

本発明の一実施形態に係る画像解析システムの全体構成の一例を示すブロック図である。1 is a block diagram showing an example of the overall configuration of an image analysis system according to an embodiment of the present invention. 本発明の一実施形態に係る端末の構成の一例を示すブロック図である。FIG. 2 is a block diagram showing an example of a configuration of a terminal according to an embodiment of the present invention. 本発明の一実施形態に係る画像解析装置の構成の一例を示すブロック図である。1 is a block diagram showing an example of a configuration of an image analysis device according to an embodiment of the present invention. 撮影処理の流れを説明するフローチャートである。11 is a flowchart illustrating a flow of a photographing process. 画像解析処理の流れを説明するフローチャートである。11 is a flowchart illustrating a flow of an image analysis process. 第1の方向の枠線と第2の方向の枠線を分離して検出することを示す模式図である。11 is a schematic diagram showing how a frame line in a first direction and a frame line in a second direction are separately detected; FIG. 対象画像に含まれる表構造と、取得対象情報の取得方法について示す模式図である。1A and 1B are schematic diagrams showing a table structure included in a target image and a method for acquiring acquisition target information. 文字検出処理の流れを説明するフローチャートである。11 is a flowchart illustrating the flow of a character detection process. 二値化した画像から、枠外領域の削除を行い、その後に射影変換を行うことを示す模式図である。11 is a schematic diagram showing the process of removing an outer frame area from a binarized image and then performing projective transformation. FIG.

以下、添付の図面を参照して本発明の実施形態の一例について説明する。 An example of an embodiment of the present invention will now be described with reference to the accompanying drawings.

[システム構成]
図1は、本実施形態に係る画像解析システムSの全体構成を示すブロック図である。図1に示すように、画像解析システムSは、端末1と、画像解析装置2とを含む。また、図1には、本実施形態において画像解析処理を行う対象とする原稿3も図示する。ここで、原稿3は、何らかの表を含む原稿であるとする。
[System configuration]
Fig. 1 is a block diagram showing the overall configuration of an image analysis system S according to this embodiment. As shown in Fig. 1, the image analysis system S includes a terminal 1 and an image analysis device 2. Fig. 1 also shows a document 3 that is a target for image analysis processing in this embodiment. Here, it is assumed that the document 3 is a document that includes some kind of table.

これら、端末1と、画像解析装置2とは、直接又は図示を省略したネットワークを介して、相互に通信可能に接続される。この場合、ネットワークは、例えば、インターネットや、LAN(Local Area Network)や、携帯電話網といったネットワーク、あるいはこれらを組み合わせたネットワークにより実現される。また、この通信は、任意の通信方式に準拠して行われてよく、その通信方式は特に限定されない。また、通信の接続形式は、有線接続であっても、無線接続であってもよい。 The terminal 1 and the image analysis device 2 are connected to each other so that they can communicate with each other directly or via a network (not shown). In this case, the network is realized by, for example, the Internet, a LAN (Local Area Network), a mobile phone network, or a combination of these. Furthermore, this communication may be performed in accordance with any communication method, and the communication method is not particularly limited. Furthermore, the communication connection format may be a wired connection or a wireless connection.

端末1は、撮影機能を備えた端末である。端末1は、例えば、スマートフォンやタブレット型の端末、あるいはデジタルカメラ等により実現される。端末1は、撮影処理を行う。ここで、撮影処理とは、原稿3を撮影することにより、原稿3が被写体として含まれる画像(以下、「対象画像」と称する。)を生成する一連の処理である。撮影処理において、端末1は、ユーザの操作に基づいて撮影を行うことにより、原稿3が被写体として含まれる対象画像を生成する。そして、端末1は、生成した対象画像を、画像解析装置2に対して送信する。 The terminal 1 is a terminal equipped with a photographing function. The terminal 1 is realized, for example, by a smartphone, a tablet-type terminal, or a digital camera. The terminal 1 performs a photographing process. Here, the photographing process is a series of processes for photographing the original 3 to generate an image including the original 3 as a subject (hereinafter referred to as a "target image"). In the photographing process, the terminal 1 performs photographing based on the user's operation to generate a target image including the original 3 as a subject. Then, the terminal 1 transmits the generated target image to the image analysis device 2.

画像解析装置2は、画像解析処理を行う装置である。画像解析装置2は、例えば、パーソナルコンピュータやサーバ装置等により実現される。画像解析装置2は、端末1から送信された対象画像を、受信することにより取得する。そして、画像解析装置2は、この対象画像に対して、画像解析処理を行う。ここで、画像解析処理とは、対象画像に記載されている文字を検出する文字認識等の画像解析を行う一連の処理である。 The image analysis device 2 is a device that performs image analysis processing. The image analysis device 2 is realized, for example, by a personal computer or a server device. The image analysis device 2 acquires the target image by receiving it sent from the terminal 1. The image analysis device 2 then performs image analysis processing on this target image. Here, the image analysis processing is a series of processes that perform image analysis such as character recognition to detect characters written in the target image.

この画像解析処理において、画像解析装置2は、表(例えば、テーブル)を被写体として含む画像から、表に対応する領域を検出する。また、画像解析装置2は、表に対応する領域から表を構成する複数の枠(例えば、セル)を検出すると共に、該検出した複数の枠それぞれに画像における位置情報を付与する。さらに、画像解析装置2は、複数の枠それぞれについての文字認識結果と、複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報(例えば、健康診断表における検査項目と検査値の組)を取得する。 In this image analysis process, the image analysis device 2 detects an area corresponding to a table (e.g., a table) from an image that contains the table as a subject. The image analysis device 2 also detects multiple frames (e.g., cells) that make up the table from the area corresponding to the table, and assigns positional information in the image to each of the detected multiple frames. Furthermore, the image analysis device 2 acquires the target information (e.g., pairs of test items and test values in a health check sheet) based on the character recognition results for each of the multiple frames and the positional information assigned to each of the multiple frames.

このように、端末1及び画像解析装置2を含む画像解析システムSは、表と枠をそれぞれ段階的に検出した上で、位置情報を利用して、所望の取得対象情報を取得する。したがって、表と枠を検出せず、位置情報を用いずに、単純に画像解析処理を行うような画像解析方法に比べて、より精度高く画像解析を行うことが可能となる。そのため、例えば、様々なフォーマットが混在しており、表や枠の配置等が原稿によってそれぞれ異なるような場合や、画像に歪み等が発生しており通常であれば画像解析を行うことが困難な場合であったとしても、適切に画像解析を行うことができる。 In this way, the image analysis system S including the terminal 1 and the image analysis device 2 detects tables and frames in stages, and then uses the position information to obtain the desired target information. Therefore, it is possible to perform image analysis with higher accuracy than image analysis methods that simply perform image analysis processing without detecting tables and frames or using position information. Therefore, even if, for example, various formats are mixed and the arrangement of tables and frames varies depending on the manuscript, or there is distortion in the image that would normally make image analysis difficult, it is possible to perform appropriate image analysis.

次に、このような画像解析処理を実現するための、画像解析システムSに含まれる各装置について、より詳細に説明をする。 Next, we will provide a more detailed explanation of each device included in the image analysis system S to realize this type of image analysis processing.

以下では、説明のための一例として、原稿3が画像解析システムSを利用するユーザについての「健康診断表」である場合を想定する。その理由について説明する。
まず前提として、健康診断は、病気の早期発見及び早期治療のために非常に有益である。また、定期的に健康診断を受診することにより、ユーザは、自身の健康状態の変化等を把握することができる。
In the following, as an example for the purpose of explanation, it is assumed that the document 3 is a "health checkup chart" for a user who uses the image analysis system S. The reason for this will be explained.
First, health checkups are extremely beneficial for early detection and treatment of illness. By undergoing regular health checkups, users can grasp changes in their own health conditions.

しかしながら、健康診断表は、それを作成する事業者や検査実施機関によってフォーマット(すなわち、体裁)が異なる。例えば、表や枠の配置等が健康診断表によってそれぞれ異なる。また、検査項目の記載位置と、これに対応する検査値の記載位置や、基準値や前回検査値の記載位置が健康診断表によってそれぞれ異なる。したがって、一般的な技術では、健康診断表の画像解析を行うことは困難である。
また、健康診断表は、各検査実施機関の間で電子データの共有もされていない。また、受診者であるユーザは、各検査実施機関から、紙媒体に印刷された健康診断表を受け取るのみであり、そもそも電子データを受け取っていない。このような状況であることから、ユーザは、自身の健康状態の変化等を把握することが困難である。また、各検査実施機関や病院等においても、ユーザの健康状態の変化等を把握することが困難である。
However, the format (i.e., appearance) of health checkup charts varies depending on the business entity that creates them or the institution that performs the examination. For example, the layout of tables and frames varies from one health checkup chart to another. In addition, the positions of test items and corresponding test values, as well as the positions of reference values and previous test values, vary from one health checkup chart to another. Therefore, it is difficult to perform image analysis of health checkup charts using general technology.
In addition, the medical examination chart is not shared as electronic data between each testing institution. Moreover, the user who is the patient only receives the medical examination chart printed on paper from each testing institution, and does not receive the electronic data in the first place. In this situation, it is difficult for the user to grasp the changes in his/her own health condition. Moreover, it is difficult for each testing institution, hospital, etc. to grasp the changes in the user's health condition.

そこで、本実施形態では、このような健康診断表を被写体として撮影した対象画像に対して、上述した画像解析処理を行う。これにより、本実施形態では、健康診断表から、より精度高く画像解析を行うことができる。また、これにより、ユーザは、自身の保有する健康診断表を、端末1で撮影する等の簡便な操作で、電子データ化することができる。さらに、このような電子データを利用することにより、例えば、ユーザが、自身の時系列に沿った健康状態の変化等を把握することを容易とすることができる。加えて、このような電子データを、各検査実施機関や病院等で活用することもできる。
このように、健康診断表は、本実施形態における画像解析処理の対象として好適である。そのため、以下では原稿3が健康診断表である場合を想定して説明する。
Therefore, in this embodiment, the above-mentioned image analysis process is performed on a target image captured with such a medical checkup chart as a subject. As a result, in this embodiment, image analysis can be performed more accurately from the medical checkup chart. This also allows a user to convert their own medical checkup chart into electronic data by a simple operation such as taking a picture of the chart with the terminal 1. Furthermore, by using such electronic data, for example, it becomes easier for a user to understand changes in their own health condition over time. In addition, such electronic data can be used by each testing institution, hospital, etc.
In this way, a medical examination chart is a suitable target for the image analysis process in this embodiment, and therefore, the following description will be given assuming that the document 3 is a medical examination chart.

ただし、これは説明のための一例に過ぎず、本実施形態の用途を限定するものではない。すなわち、本実施形態は、対象画像の被写体となる原稿3が健康診断表である場合以外にも、原稿3に何らかの表が含まれるような、様々な場合に適用することが可能である。 However, this is merely an example for the purpose of explanation and does not limit the use of this embodiment. In other words, this embodiment can be applied to various cases where the document 3 that is the subject of the target image is not only a medical examination chart, but also includes some kind of table.

[端末の構成]
端末1の構成について、図2を参照して説明をする。図2は、端末1の構成の一例を示すブロック図である。端末1は、上述したように、例えば、スマートフォンやタブレット型の端末、あるいはデジタルカメラ等により実現される。
[Device configuration]
The configuration of the terminal 1 will be described with reference to Fig. 2. Fig. 2 is a block diagram showing an example of the configuration of the terminal 1. As described above, the terminal 1 is realized by, for example, a smartphone or tablet terminal, or a digital camera.

図2に示すように、端末1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、通信部14と、ドライブ15と、記憶部16と、入力部17と、出力部18と、撮像部19と、を備えている。これら各部は、信号線により接続されており、相互に信号を送受する。 As shown in FIG. 2, the terminal 1 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a communication unit 14, a drive 15, a storage unit 16, an input unit 17, an output unit 18, and an imaging unit 19. These units are connected by signal lines and send and receive signals between each other.

CPU11は、ROM12に記録されているプログラム、又は、記憶部16からRAM13にロードされたプログラムに従って各種の処理(例えば、原稿3を被写体として撮影することにより対象画像を取得する処理)を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
The CPU 11 executes various processes (for example, a process of acquiring a target image by photographing a document 3 as a subject) according to a program recorded in the ROM 12 or a program loaded from the storage unit 16 to the RAM 13.
The RAM 13 also stores data and the like necessary for the CPU 11 to execute various processes.

通信部14は、CPU11が、他の装置(例えば、画像解析装置2)との間で通信を行うための通信制御を行う。 The communication unit 14 controls communication so that the CPU 11 can communicate with other devices (e.g., the image analysis device 2).

ドライブ15には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア(図示を省略する。)が適宜装着される。ドライブ15よってリムーバブルメディアから読み出されたプログラムは、必要に応じて記憶部16にインストールされる。また、ドライブ15よってリムーバブルメディアから読み出された各種データは、必要に応じてCPU11での演算処理に利用される。 Removable media (not shown) such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory is appropriately attached to the drive 15. Programs read from the removable media by the drive 15 are installed in the storage unit 16 as required. In addition, various data read from the removable media by the drive 15 is used for calculation processing by the CPU 11 as required.

記憶部16は、HDD(hard disk drive)やSSD(Solid State Drive)等の記憶装置で構成され、各種データを記憶する。
入力部17は、各種ボタン及びタッチパネル、又はマウス及びキーボード等の外部入力装置で構成され、ユーザの指示操作に応じて各種情報を入力する。
出力部18は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
The storage unit 16 is configured with a storage device such as a hard disk drive (HDD) or a solid state drive (SSD), and stores various types of data.
The input unit 17 is composed of various buttons and a touch panel, or an external input device such as a mouse and a keyboard, and inputs various information in response to user instructions.
The output unit 18 is composed of a display, a speaker, etc., and outputs images and sounds.

撮像部19は、レンズ及び撮像素子等によって構成され、被写体(例えば、原稿3)を撮影する。この撮影により、撮像部19は、画像(例えば、対象画像)を生成する。 The imaging unit 19 is composed of a lens, an imaging element, etc., and captures an image of a subject (e.g., a document 3). Through this capture, the imaging unit 19 generates an image (e.g., a target image).

端末1では、これら各部が協働することにより、本実施形態における各種の処理が実行される。この本実施形態における各種の処理が実行される場合、図3に示すように、CPU11において、撮影制御部111と、端末側通知部112と、が機能する。
また、記憶部16の一領域には、画像記憶部161と、解析結果記憶部162と、が設定される。
以下で特に言及しない場合も含め、これら機能ブロック間では、処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。
In the terminal 1, these units cooperate with each other to execute various processes in this embodiment. When the various processes in this embodiment are executed, an imaging control unit 111 and a terminal side notifying unit 112 function in the CPU 11, as shown in FIG.
In addition, an image storage section 161 and an analysis result storage section 162 are set in one area of the storage section 16 .
Including cases not specifically mentioned below, data required to realize processing is transmitted and received between these functional blocks at appropriate times as appropriate.

撮影制御部111は、端末1における撮影を制御する。そのために、撮影制御部111は、ユーザが原稿3を被写体とした撮影を行うためのユーザインタフェースや、撮像部19が取得するライブビュー画像等を、出力部18に含まれるディスプレイに表示する。また、撮影制御部111は、ユーザからの撮影指示操作に基づいて、撮像部19を制御することにより画像を生成して取得する。この取得される画像としては、上述したように、原稿3(ここでは、健康診断表)が被写体として含まれる対象画像を想定する。 The shooting control unit 111 controls shooting in the terminal 1. To this end, the shooting control unit 111 displays a user interface for the user to shoot with the document 3 as the subject, a live view image acquired by the imaging unit 19, and the like, on a display included in the output unit 18. Furthermore, the shooting control unit 111 generates and acquires an image by controlling the imaging unit 19 based on a shooting instruction operation from the user. As described above, the image to be acquired is assumed to be a target image that includes the document 3 (here, a medical examination chart) as the subject.

撮影制御部111は、この取得した対象画像を、画像記憶部161に記憶させる。すなわち、画像記憶部161は、対象画像を記憶する記憶部として機能する。
また、撮影制御部111は、この取得した対象画像を、画像解析装置2に対して送信する。
The imaging control unit 111 stores the acquired target image in the image storage unit 161. That is, the image storage unit 161 functions as a storage unit that stores the target image.
In addition, the imaging control unit 111 transmits the acquired target image to the image analysis device 2 .

端末側通知部112は、画像解析装置2から送信された、対象画像に対する画像解析処理における、画像解析結果を受信することにより取得する。また、端末側通知部112は、この取得した画像解析結果を、解析結果記憶部162に記憶させる。すなわち、解析結果記憶部162は、画像解析結果を記憶する記憶部として機能する。 The terminal-side notification unit 112 acquires the image analysis results by receiving the image analysis results in the image analysis process for the target image transmitted from the image analysis device 2. The terminal-side notification unit 112 also stores the acquired image analysis results in the analysis result storage unit 162. In other words, the analysis result storage unit 162 functions as a storage unit that stores the image analysis results.

また、端末側通知部112は、この取得した画像解析結果を、ユーザに対して通知する。ユーザは、この通知された画像解析結果を参照することにより、画像解析結果の内容(例えば、自身の健康診断表における検査値)を把握することができる。このユーザに対する通知は、例えば、出力部18に含まれるディスプレイへの表示や、図示を省略したプリンタからの紙媒体への印刷等により実現することができる。 The terminal-side notification unit 112 also notifies the user of the acquired image analysis results. The user can refer to the notified image analysis results to understand the contents of the image analysis results (e.g., the test values in the user's health checkup chart). This notification to the user can be realized, for example, by displaying the results on a display included in the output unit 18, or by printing the results on paper using a printer (not shown).

なお、画像解析結果として、具体的にどのような内容が通知されるかについては、図5のフローチャートを参照した動作の説明と共に後述する。 The specific content that is notified as a result of image analysis will be described later together with an explanation of the operation with reference to the flowchart in Figure 5.

[画像解析装置の構成]
次に、画像解析装置2の構成について、図3を参照して説明をする。図3は、画像解析装置2の構成の一例を示すブロック図である。画像解析装置2は、上述したように、例えば、パーソナルコンピュータやサーバ装置等により実現される。
[Configuration of image analysis device]
Next, the configuration of the image analyzing device 2 will be described with reference to Fig. 3. Fig. 3 is a block diagram showing an example of the configuration of the image analyzing device 2. As described above, the image analyzing device 2 is realized by, for example, a personal computer or a server device.

図3に示すように、画像解析装置2は、CPU21と、ROM22と、RAM23と、通信部24と、ドライブ25と、記憶部26と、入力部27と、出力部28と、を備えている。これら各部は、信号線により接続されており、相互に信号を送受する。なお、これら各部のハードウェアとしての機能は、図2を参照して上述した端末1が備える同名の各部と同様である。そのため、ハードウェアとしての機能については、重複する再度の説明を省略する。 As shown in FIG. 3, the image analysis device 2 includes a CPU 21, a ROM 22, a RAM 23, a communication unit 24, a drive 25, a memory unit 26, an input unit 27, and an output unit 28. These units are connected by signal lines and send and receive signals between each other. The hardware functions of these units are the same as the units of the same name that are included in the terminal 1 described above with reference to FIG. 2. Therefore, redundant explanations of the hardware functions will be omitted.

画像解析装置2では、これら各部が協働することにより、本実施形態における各種の処理が実行される。この本実施形態における各種の処理が実行される場合、図3に示すように、CPU21において、画像取得部211と、表検出部212と、枠検出部213と、文字認識部214と、情報取得部215と、装置側通知部216と、が機能する。
また、記憶部26の一領域には、画像記憶部261と、解析結果記憶部263と、が設定される。
以下で特に言及しない場合も含め、これら機能ブロック間では、処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。
In the image analysis device 2, these units work together to execute various processes in this embodiment. When the various processes in this embodiment are executed, an image acquisition unit 211, a table detection unit 212, a frame detection unit 213, a character recognition unit 214, an information acquisition unit 215, and a device-side notification unit 216 function in the CPU 21, as shown in FIG.
In addition, an image storage section 261 and an analysis result storage section 263 are set in one area of the storage section 26 .
Including cases not specifically mentioned below, data required to realize processing is transmitted and received between these functional blocks at appropriate times as appropriate.

画像取得部211は、端末1が備える撮影制御部111から送信された、対象画像を、受信することにより取得する。また、画像取得部211は、この取得した対象画像を、画像記憶部261に記憶させる。すなわち、画像記憶部261は、対象画像を記憶する記憶部として機能する。 The image acquisition unit 211 acquires the target image by receiving it, the target image being transmitted from the image capture control unit 111 included in the terminal 1. The image acquisition unit 211 also stores the acquired target image in the image storage unit 261. In other words, the image storage unit 261 functions as a storage unit that stores the target image.

なお、端末1が備える撮影制御部111が、対象画像を、ドライブ15を介してリムーバブルメディアに記憶するようにしてもよい。そして、画像取得部211が、この対象画像が記憶されたリムーバブルメディアを、ドライブ25を介して読み取ることにより、対象画像を取得するようにしてもよい。 The shooting control unit 111 of the terminal 1 may store the target image in removable media via the drive 15. The image acquisition unit 211 may then acquire the target image by reading the removable media on which the target image is stored via the drive 25.

表検出部212は、画像記憶部261に記憶されている対象画像から、対象画像中に含まれる複数(単数の場合もある)の表それぞれに対応する領域(以下、「表領域」と称する。)を検出する。例えば、枠検出部213は、対象画像において被写体となっている健康診断表を構成する複数の表それぞれに対応する表領域を検出する。 The table detection unit 212 detects areas (hereinafter referred to as "table areas") corresponding to each of the multiple tables (or tables in some cases, there may be only one) contained in the target image stored in the image storage unit 261. For example, the frame detection unit 213 detects table areas corresponding to each of the multiple tables constituting the medical examination chart that is the subject of the target image.

枠検出部213は、表検出部212が検出した表領域それぞれから、表を構成する複数の枠を検出する。例えば、枠検出部213は、対象画像において被写体となっている健康診断表を構成する複数の枠を検出する。この場合、例えば、枠検出部213は、表領域それぞれから、表を構成する複数の枠の枠線である第1の方向の枠線と第2の方向の枠線を分離して検出すると共に、該検出した第1の方向の枠線及び第2の方向の枠線の交点に基づいて複数の枠を検出する。このように、枠検出部213は、第1の方向の枠線と第2の方向の枠線を分離して検出することによって、これらを分離することなく検出を行う場合よりも、枠線及び枠を正確に検出することができる。 The frame detection unit 213 detects multiple frames constituting a table from each table region detected by the table detection unit 212. For example, the frame detection unit 213 detects multiple frames constituting a medical examination table that is the subject of the target image. In this case, for example, the frame detection unit 213 detects the frame lines of the first direction and the frame lines of the second direction, which are the frame lines of the multiple frames constituting the table, from each table region, and detects multiple frames based on the intersections of the detected frame lines of the first direction and the frame lines of the second direction. In this way, by detecting the frame lines of the first direction and the frame lines of the second direction separately, the frame detection unit 213 can detect the frame lines and frames more accurately than when detecting without separating them.

また、枠検出部213は、これら検出した複数の枠それぞれを分割して切り出すと共に、この切り出された複数の枠それぞれに対象画像における位置情報を付与する。例えば、枠検出部213は、検出された表領域それぞれに割り当てた表の識別情報(例えば、表に割り当てた識別子)と、枠の識別情報(例えば、枠に割り当てた識別子)の組み合わせを位置情報とし、この位置情報を複数の枠それぞれに対して付与する。あるいは、例えば、枠検出部213は、対象画像で用いられている画像座標系での座標値(例えば、枠の中心等に対応する各座標軸での値)を位置情報とし、この位置情報を複数の枠それぞれに対して付与する。
これにより、枠検出部213は、対象画像内に含まれる複数の枠それぞれを単位とした画像であって、それぞれに位置情報が付与された画像(以下、「枠画像」と称する。)を生成する。枠画像は、例えば、健康診断表であれば特定の文字列(例えば、検査項目、検査値、基準値、前回検査値、患者の名前等の属性情報等)が記載されている1つの単位であり、位置情報を有する構造化データとして取り扱うことができる。
Furthermore, the frame detection unit 213 divides and cuts out each of the detected frames, and assigns position information in the target image to each of the cut-out frames. For example, the frame detection unit 213 sets a combination of table identification information (e.g., an identifier assigned to the table) assigned to each detected table region and frame identification information (e.g., an identifier assigned to the frame) as position information, and assigns this position information to each of the frames. Alternatively, for example, the frame detection unit 213 sets coordinate values in the image coordinate system used in the target image (e.g., values on each coordinate axis corresponding to the center of the frame, etc.) as position information, and assigns this position information to each of the frames.
As a result, the frame detection unit 213 generates an image (hereinafter referred to as a "frame image") in which each of a plurality of frames included in the target image is treated as a unit and in which position information is assigned to each of the frames. For example, in the case of a medical examination chart, a frame image is a unit in which a specific character string (e.g., test item, test value, reference value, previous test value, attribute information such as the patient's name, etc.) is recorded, and can be treated as structured data having position information.

文字認識部214は、枠検出部213が生成した複数の枠画像それぞれを単位として、文字認識処理を行う。この文字認識処理は、例えば、既存の光学文字認識(OCR:Optical character recognition)技術を用いて実現することができる。このように、文字認識部214は、枠検出部213が生成した枠画像に基づいて、特定の文字列が含まれる枠を単位として画像解析処理を行うことができるので、画像全体を対象として画像解析処理を行う場合に比べて、より精度高く文字認識を行うことができる。
なお、文字認識部214は、既存の光学文字認識技術を用いるのみならず、例えば、予め対象画像に含まれ得る文字列(ここでは、健康診断表で用いられる単語等の文字列)を用いて機械学習を行うようにしてもよい。そして、この機械学習により生成された学習モデルを用いて文字認識処理を行うようにしてもよい。
The character recognition unit 214 performs character recognition processing on each of the multiple box images generated by the box detection unit 213. This character recognition processing can be realized, for example, by using existing optical character recognition (OCR) technology. In this way, the character recognition unit 214 can perform image analysis processing on each box containing a specific character string based on the box images generated by the box detection unit 213, and can perform character recognition with higher accuracy than when image analysis processing is performed on the entire image.
The character recognition unit 214 may not only use existing optical character recognition technology, but may also perform machine learning using character strings that may be included in the target image in advance (here, character strings such as words used in a medical examination chart).Then, the character recognition process may be performed using a learning model generated by this machine learning.

情報取得部215は、文字認識部214による複数の枠画像それぞれについての文字認識結果と、この複数の枠画像それぞれに付与された位置情報とに基づいて、取得対象情報を取得する。ここで、取得対象情報とは、ユーザが取得することを所望する情報であり、例えば、健康診断表における「検査項目」と「検査値」との組である。 The information acquisition unit 215 acquires acquisition target information based on the character recognition results for each of the multiple frame images by the character recognition unit 214 and the position information assigned to each of the multiple frame images. Here, the acquisition target information is information that the user wishes to acquire, such as a set of "test item" and "test value" in a medical examination chart.

この情報取得部215による取得対象情報の取得のために、本実施形態では取得対象情報の一部である第1の情報についての辞書データを用意しておく。例えば、この第1の情報が「検索項目」である場合、検査項目名として用いられることが想定される単語(例えば、身長、体重、血圧等)のテキストについて辞書データを用意しておく。ここで、健康診断における検査項目名には表記の揺らぎがあり、意味上は同一の検査項目を指しているが、健康診断表のフォーマットにより検査項目名が異なっている場合がある。例えば、高比重リポタンパク(HDL:High Density Lipoprotein cholesterol)という同一の検査項目であっても、健康診断表における検査項目名は、「HDLコレステロール」であったり、「HDL-C」であったり、「HDL」であったりする。そこで、辞書データには、これらの表記の揺らぎを考慮し、同じ検査項目についても、複数の検査項目名のテキストを対応付けておくようにする。 In order for the information acquisition unit 215 to acquire the target information, in this embodiment, dictionary data is prepared for the first information, which is a part of the target information. For example, when the first information is a "search item," dictionary data is prepared for the text of words (e.g., height, weight, blood pressure, etc.) that are expected to be used as test item names. Here, there are variations in the notation of test item names in health checkups, and although they refer to the same test item in meaning, the test item name may differ depending on the format of the health checkup chart. For example, even if the same test item is high density lipoprotein (HDL: High Density Lipoprotein cholesterol), the test item name in the health checkup chart may be "HDL cholesterol," "HDL-C," or "HDL." Therefore, in the dictionary data, these variations in notation are taken into consideration, and text of multiple test item names is associated with the same test item.

このような辞書データは、例えば、画像解析システムSの管理者により予め作成され、辞書データ記憶部262に記憶されている。すなわち、辞書データ記憶部262は、辞書データを記憶する記憶部として機能する。 Such dictionary data is, for example, created in advance by an administrator of the image analysis system S and stored in the dictionary data storage unit 262. In other words, the dictionary data storage unit 262 functions as a storage unit that stores dictionary data.

そして、情報取得部215は、文字認識部214による複数の枠画像それぞれについての文字認識結果(すなわち、枠画像それぞれに含まれる文字列のテキスト)と、辞書データ記憶部262に記憶されている辞書データに含まれる検査項目名として用いられる単語のテキストそれぞれとの類似度をスコア化する。また、情報取得部215は、そのスコア化の結果、或る検査項目名について、最も類似度が高い文字列が含まれている枠画像を、その或る検査項目(すなわち、第1の情報)が記載された枠画像であるとしてマーキングする。例えば、或る枠画像に「HDL-C」という文字列が含まれていた場合、その或る枠画像を検査項目「高比重リポタンパク」が記載された枠画像であるとしてマーキングする。 The information acquisition unit 215 then scores the similarity between the character recognition results for each of the multiple frame images by the character recognition unit 214 (i.e., the text of the character strings included in each frame image) and each of the texts of words used as test item names included in the dictionary data stored in the dictionary data storage unit 262. Furthermore, the information acquisition unit 215 marks the frame image that contains the character string with the highest similarity for a certain test item name as a frame image in which the certain test item (i.e., the first information) is described. For example, if a certain frame image contains the character string "HDL-C", the certain frame image is marked as a frame image in which the test item "high density lipoprotein" is described.

次に、情報取得部215は、このマーキングした枠画像(すなわち、第1の情報の取得元となった枠画像)に付与されている位置情報に基づいて、取得対象情報の一部である第2の情報を取得する。例えば、この第2の情報が或る検査項目についての「検索値」である場合を想定する。この場合、情報取得部215は、このある検査項目に対応してマーキングした枠画像の位置情報を取得する。また、情報取得部215は、この位置情報から任意の所定方向(例えば、右方向)に存在する各枠画像に対して、検査値が含まれているか走査的に検索する。 Next, the information acquisition unit 215 acquires second information, which is part of the information to be acquired, based on the position information assigned to this marked frame image (i.e., the frame image from which the first information was acquired). For example, assume that this second information is a "search value" for a certain test item. In this case, the information acquisition unit 215 acquires position information of the frame image marked in correspondence with this certain test item. Furthermore, the information acquisition unit 215 scans through each frame image existing in any predetermined direction (e.g., to the right) from this position information to search whether the test value is included.

ここで、各検査項目についての検査値の現実的な上限値や下限値は医学的見地から予測可能である。そこで、例えば、辞書データにおいて各検査項について、現実的な上限値や下限値を対応付けておく。そして、情報取得部215は、或る検査項目について走査的な検索を行っている過程において、この或る検査項目に対応付けられている上限値以下であり、且つ、下限値以上の値が含まれる枠画像が検出された場合には、その枠画像がこの或る検査項目についての検査値が記載された枠画像であると特定する。そして、この検査値を第2情報として取得する。これにより、健康診断表のような、第1の情報が記載されている枠と、第2の情報が記載されている枠の相対的な位置関係がフォーマットによって異なるような表であっても、走査的な検索を行うことから、精度高く画像解析を行うことが可能となる。また、現実的な上限値や下限値に基づいて第2の情報を取得することから、誤った第2の情報を取得してしまうようなことを防止でき、この観点からも精度高く画像解析を行うことが可能となる。 Here, the realistic upper and lower limits of the test value for each test item can be predicted from a medical perspective. Therefore, for example, a realistic upper limit and lower limit are associated with each test item in the dictionary data. Then, in the process of performing a scanning search for a certain test item, when a frame image containing a value that is equal to or lower than the upper limit value associated with the certain test item and equal to or higher than the lower limit value is detected, the information acquisition unit 215 identifies the frame image as a frame image in which the test value for the certain test item is written. Then, this test value is acquired as the second information. As a result, even in a table such as a health checkup chart in which the relative positional relationship between the frame in which the first information is written and the frame in which the second information is written differs depending on the format, a scanning search is performed, making it possible to perform image analysis with high accuracy. In addition, since the second information is acquired based on the realistic upper and lower limits, it is possible to prevent the acquisition of erroneous second information, and from this perspective, it is also possible to perform image analysis with high accuracy.

このようにして、情報取得部215は、取得対象情報である、第1の情報(例えば、或る検査項目)と、これに対応する第2の情報(この或る検査項目の検査値)の組を取得することができる。なお、このようなマーキングと、マーキングした枠画像の位置情報に基づいた走査的な検索は、1つの第1の情報(例えば、或る検査項目)についてマーキングをする都度行ってもよい。あるいは、第1の情報が複数ある場合には、全ての第1の情報についてマーキングを行ってから、走査的な検索を行うようにしてもよい。 In this way, the information acquisition unit 215 can acquire a set of first information (e.g., a certain test item) and corresponding second information (test value of this certain test item), which are the information to be acquired. Note that such marking and the scanning search based on the position information of the marked frame image may be performed each time a piece of first information (e.g., a certain test item) is marked. Alternatively, when there are multiple pieces of first information, all of the first information may be marked and then the scanning search may be performed.

情報取得部215は、このようにして取得した取得対象情報(例えば、検査項目に対応する検査項目名と、その検査値の組)を画像解析結果として、解析結果記憶部263に記憶させる。すなわち、解析結果記憶部263は、画像解析結果を記憶する記憶部として機能する。また、情報取得部215は、端末1においてもユーザに対する画像解析結果の通知を実現できるように、この画像解析結果を、端末1に対して送信する。 The information acquisition unit 215 stores the target information thus acquired (for example, a pair of the test item name corresponding to the test item and its test value) in the analysis result storage unit 263 as the image analysis result. That is, the analysis result storage unit 263 functions as a storage unit that stores the image analysis result. The information acquisition unit 215 also transmits the image analysis result to the terminal 1 so that the user can be notified of the image analysis result on the terminal 1 as well.

装置側通知部216は、情報取得部215が解析結果記憶部263に記憶させた画像解析結果を、ユーザに対して通知する。ユーザは、この通知された画像解析結果を参照することにより、画像解析結果の内容を把握することができる。このユーザに対する通知は、端末1の端末側通知部112と同様にして行われる。例えば、出力部28に含まれるディスプレイへの表示や、図示を省略したプリンタからの紙媒体への印刷等により実現することができる。 The device-side notification unit 216 notifies the user of the image analysis results stored in the analysis result storage unit 263 by the information acquisition unit 215. The user can understand the contents of the image analysis results by referring to the notified image analysis results. This notification to the user is performed in the same manner as the terminal-side notification unit 112 of the terminal 1. For example, this can be realized by displaying on a display included in the output unit 28, or printing on paper media from a printer (not shown).

なお、画像解析結果として、具体的にどのような内容が通知されるかについては、図5のフローチャートを参照した動作の説明と共に後述する。 The specific content that is notified as a result of image analysis will be described later together with an explanation of the operation with reference to the flowchart in Figure 5.

以上、画像解析システムSに含まれる各装置の構成について詳細に説明した。次に、これら画像解析システムSに含まれる各装置により行われる各処理の処理内容について、より詳細に説明をする。 Above, we have explained in detail the configuration of each device included in the image analysis system S. Next, we will explain in more detail the processing content of each process performed by each device included in the image analysis system S.

[画像解析処理]
図4は、端末1により行われる撮影処理の流れを説明するフローチャートである。撮影処理は、ユーザからの、端末1への電源投入等に伴い実行される。
[Image analysis processing]
4 is a flowchart for explaining the flow of the photographing process performed by the terminal 1. The photographing process is executed when the user turns on the power to the terminal 1, for example.

ステップS11において、撮影制御部111は、端末1における撮影の制御を開始する。例えば、撮影制御部111は、ユーザが原稿3を被写体とした撮影を行うためのユーザインタフェースや、撮像部19が取得するライブビュー画像等を、出力部18に含まれるディスプレイに表示する。 In step S11, the image capture control unit 111 starts controlling image capture in the terminal 1. For example, the image capture control unit 111 displays a user interface that allows the user to capture an image of the document 3 as a subject, a live view image acquired by the imaging unit 19, and the like, on a display included in the output unit 18.

ステップS12において、撮影制御部111は、ユーザからの撮影指示操作を受け付けたか否かを判定する。撮影指示操作を受け付けた場合は、ステップS11においてYesと判定され、処理はステップS12に進む。一方で、撮影指示操作を受け付けていない場合は、ステップS11においてNoと判定され、処理はステップS12の判定を繰り返す。 In step S12, the shooting control unit 111 determines whether or not a shooting instruction operation has been received from the user. If a shooting instruction operation has been received, the result of step S11 is determined as Yes, and the process proceeds to step S12. On the other hand, if a shooting instruction operation has not been received, the result of step S11 is determined as No, and the process repeats the determination of step S12.

ステップS13において、撮影制御部111は、撮像部19を制御することにより対象画像を生成して取得する。 In step S13, the shooting control unit 111 controls the imaging unit 19 to generate and acquire a target image.

ステップS14において、撮影制御部111は、ステップS13において取得した対象画像を、画像解析装置2に対して送信する。これにより本処理は終了する。
以上説明した撮影処理により、画像解析装置2は、対象画像を取得することができる。
In step S14, the imaging control unit 111 transmits the target image acquired in step S13 to the image analysis device 2. This ends the present process.
By the photographing process described above, the image analyzing device 2 can obtain a target image.

[画像解析処理]
図5は、画像解析装置2により行われる画像解析処理の流れを説明するフローチャートである。画像解析処理は、端末1から対象画像が送信されたことや、ユーザからの、画像解析画像解析装置2への画像解析処理開始の指示操作を受け付けたことに伴い実行される。
[Image analysis processing]
5 is a flowchart illustrating the flow of image analysis processing performed by the image analysis device 2. The image analysis processing is executed when a target image is transmitted from the terminal 1 or when an instruction operation to start the image analysis processing is received from the user to the image analysis device 2.

ステップS21において、画像取得部211は、対象画像を取得する。 In step S21, the image acquisition unit 211 acquires the target image.

ステップS22において、表検出部212は、ステップS21にて取得された対象画像中に含まれる複数(単数の場合もある)の表それぞれに対応する表領域を検出する。
具体的に、表検出部212は、まず前処理を行う。例えば、表検出部212は、対象画像をグレースケールに変換すると共に、そのサイズを1280×960に調整(すなわち、リサイズ)する。次に、表検出部212は、対象画像中の背景領域と枠線及び文字領域を分離し、0又は1で表現するための、二値化を行う。例えば、表検出部212は、retinexフィルタリングを用いて二値化を行う。二値化では、例えば、画像における、白が0で表現され、黒が1で表現される。また、表検出部212は、文字領域を削除するためのフィルタリングを行う。前提として、表の枠線は対象画像中の広範囲に広がっており、枠線内には文字が含まれる。そのため、画素は疎連結していると考えられる。このことから枠線におけるx方向及びy方向の分散はどちらも大きいと考えられる。
In step S22, the table detection unit 212 detects table regions corresponding to each of a plurality of tables (there may be only one table) included in the target image acquired in step S21.
Specifically, the table detection unit 212 first performs preprocessing. For example, the table detection unit 212 converts the target image to grayscale and adjusts (i.e., resizes) the size to 1280×960. Next, the table detection unit 212 separates the background region from the frame and character region in the target image and performs binarization to express them as 0 or 1. For example, the table detection unit 212 performs binarization using retinex filtering. In binarization, for example, white in the image is expressed as 0 and black is expressed as 1. In addition, the table detection unit 212 performs filtering to remove the character region. As a premise, the frame of the table spreads over a wide area in the target image, and characters are included within the frame. Therefore, it is considered that the pixels are sparsely connected. For this reason, it is considered that the variance in both the x direction and the y direction of the frame is large.

続いて、ノイズによって表の枠線が分断されてしまった線分は、x方向又はy方向のどちらかに極端に長く、もう一方向に極端に短いと考えられる。このことから線分における分散は、x方向及びy方向の一方で大きく、他方では小さいと考えられる。この性質に基づいて、例えば、表検出部212は、画像のx方向とy方向の共分散行列の固有値を用いた閾値処理によって線分及び枠線を特定し、これら線分及び枠線の何れにもあてはまらなかった領域については文字領域とみなして除去をする。また、表検出部212は、線分及び枠線の中心1画素分のみが残るように細くする細線化を行う。 Next, the line segments where the borders of a table have been split by noise are considered to be extremely long in either the x or y direction, and extremely short in the other direction. For this reason, the variance of the line segments is considered to be large in one of the x and y directions, and small in the other. Based on this property, for example, the table detection unit 212 identifies the line segments and borders by threshold processing using the eigenvalues of the covariance matrices in the x and y directions of the image, and any areas that do not fit into either of these line segments or borders are deemed to be character areas and removed. The table detection unit 212 also performs thinning to thin the line segments and borders so that only one pixel at the center remains.

そして、表検出部212は、対象画像から、画像中に含まれる複数(単数の場合もある)の表それぞれに対応する表領域を検出する。例えば、表検出部212は、対象画像中に複数の表が存在する場合、1つの画像中に表が1つしか存在しないように画像の分割を行う。そのために、表検出部212は、シームカービングで用いられるx方向及びy方向の累積エネルギーマップを作成する。また、表検出部212は、エネルギーマップにおいて、隣接画素とのエネルギー差が閾値以上となる画素からなる谷部においてバックトラッキングを行う。そして、このバックトラッキングでたどった画素を表や文書領域の境目として各表領域を検出し、各表領域それぞれを1つの表領域に対応する画像として分割する。 Then, the table detection unit 212 detects table regions corresponding to each of the multiple (or single) tables contained in the target image. For example, when multiple tables exist in the target image, the table detection unit 212 divides the image so that only one table exists in one image. For this purpose, the table detection unit 212 creates cumulative energy maps in the x and y directions used in seam carving. In addition, the table detection unit 212 performs backtracking in valleys in the energy map consisting of pixels whose energy difference with adjacent pixels is equal to or greater than a threshold value. Then, the table detection unit 212 detects each table region by using the pixels traced by this backtracking as the boundaries of table or document regions, and divides each table region into an image corresponding to one table region.

ステップS23において、枠検出部213は、ステップS22にて検出された表領域それぞれから、表を構成する複数の枠を検出する。
具体的に、枠検出部213は、まず枠線分離を行う。この場合に、上述したように、枠検出部213は、表を構成する複数の枠の枠線である第1の方向の枠線と第2の方向の枠線を分離して検出する。この点について、図6を参照して説明する。図6は、第1の方向の枠線と第2の方向の枠線を分離して検出することを示す模式図である。図6(a)に、画像内における分離前の枠線を示す。このように表を構成する複数の枠の枠線は、第1の方向(ここでは、縦方向)と、第2の方向(ここでは、横方向)の枠線を含む。枠検出部213は、これらの枠線を、図6(b-1)に示すように第1の方向(ここでは、縦方向)と、図6(b-2)に示すように第2の方向(ここでは、横方向)の枠線とに分離して検出する。
In step S23, frame detection unit 213 detects a plurality of frames constituting a table from each of the table regions detected in step S22.
Specifically, the frame detection unit 213 first performs frame line separation. In this case, as described above, the frame detection unit 213 detects the frame lines of the first direction and the frame lines of the second direction, which are the frame lines of the multiple frames constituting the table, separately. This point will be described with reference to FIG. 6. FIG. 6 is a schematic diagram showing the frame lines of the first direction and the frame lines of the second direction being detected separately. FIG. 6(a) shows the frame lines before separation in the image. In this way, the frame lines of the multiple frames constituting the table include frame lines of the first direction (here, the vertical direction) and the second direction (here, the horizontal direction). The frame detection unit 213 detects these frame lines by separating them into the frame lines of the first direction (here, the vertical direction) as shown in FIG. 6(b-1) and the frame lines of the second direction (here, the horizontal direction) as shown in FIG. 6(b-2).

その方法であるが、前提としてステップS22にて行った細線化により、枠線の幅が1に調整されている。そのため、画像に対して第1の方向(ここでは、縦方向)に幅が1の画素を削除することにより、第2の方向(ここでは、横方向)の枠線が削除される。これにより、図6(b-1)に示すように第1の方向(ここでは、縦方向)の枠線のみの画像が得られる。同様にして、第2の方向(ここでは、横方向)に幅が1の画素を削除することにより第1の方向(ここでは、縦方向)の枠線が削除される。これにより、図6(b-2)に示すように第2の方向(ここでは、横方向)の枠線のみの画像が得られる。これにより、第1の方向(ここでは、縦方向)と、第2の方向(ここでは、横方向)の枠線を分離することができ、正確に枠線を検出することができる。 The method assumes that the width of the border is adjusted to 1 by the thinning performed in step S22. Therefore, by deleting pixels with a width of 1 in the first direction (here, the vertical direction) of the image, the border in the second direction (here, the horizontal direction) is deleted. This results in an image with only the border in the first direction (here, the vertical direction) as shown in FIG. 6(b-1). Similarly, by deleting pixels with a width of 1 in the second direction (here, the horizontal direction), the border in the first direction (here, the vertical direction) is deleted. This results in an image with only the border in the second direction (here, the horizontal direction) as shown in FIG. 6(b-2). This makes it possible to separate the borders in the first direction (here, the vertical direction) and the second direction (here, the horizontal direction), and to accurately detect the borders.

仮にこのような分離を行わない場合について説明する。前提として、健康診断表等の紙媒体を撮影した場合、紙のめくれ等により縦横両方向の枠線のそれぞれに歪みが発生する。このため、仮に分離を行わない場合、枠線の検出精度が低下してしまう。これに対して、本実施形態では、枠線を縦方向と横方向に分離してから検出を行うことにより、複数の方向の枠線を分離する。そして、分離した複数の方向の枠線それぞれを、線の曲率に制限を設けた曲線として検出を行う、これにより、複数の方向の枠線を検出することを単純化し、縦横両方向の枠線の歪みそれぞれに対応して、正確に枠線を検出することができる。 We will now explain the case where such separation is not performed. As a premise, when photographing a paper medium such as a medical examination chart, distortion occurs in both the vertical and horizontal frame lines due to curling of the paper, etc. For this reason, if separation is not performed, the accuracy of frame line detection will decrease. In contrast, in this embodiment, the frame lines are separated in multiple directions by separating them into the vertical and horizontal directions and then detecting them. Then, each of the separated frame lines in multiple directions is detected as a curve with a limit on the curvature of the line. This simplifies the detection of frame lines in multiple directions and allows frame lines to be accurately detected in response to each distortion of the frame lines in both the vertical and horizontal directions.

次に、枠検出部213は、枠線検出を行う。上述したように複数の方向の枠線の分離を行ったため、分離後の画像は、それぞれ、第1の方向(ここでは、縦方向)の枠線、あるいは、第2の方向(ここでは、横方向)のみを含んでいる。そのため、これらの画像に対して8近傍の連結関係を見ることで得られた画素の集合は、それぞれ縦方向あるいは横方向の枠線となる。本実施形態では、この画素の集合に対して最小二乗法を用いることにより曲線近似を行う。 Next, the frame detection unit 213 performs frame line detection. As described above, because the frame lines in multiple directions have been separated, the separated images each contain only frame lines in the first direction (here, the vertical direction) or only frame lines in the second direction (here, the horizontal direction). Therefore, the set of pixels obtained by looking at the connectivity of the eight neighbors for these images becomes the vertical or horizontal frame lines, respectively. In this embodiment, curve approximation is performed on this set of pixels by using the least squares method.

具体的には、分離後の画像に対し、8近傍の接続関係を見ることで、画素の集合を検出する。これにより得られた画素の集合は表の枠線の他に、フィルタリングの際に枠線と隣接していたために削除が行われなかった文字も含まれる。そのため、フィルタリングの際に用いた画素集合の画素数と共分散行列の固有値を用いた閾値処理により、文字の削除を行う。
また、曲線近似は画素数の多い画素集合から行い、多項式を利用して次数を1から4まで徐々に上げていき、次式(1)に示す閾値判定を行い、閾値以下となった場合のみ近似曲線を作成する。
Specifically, pixel groups are detected by looking at the connection relationships of the eight neighbors of the separated image. The pixel groups obtained in this way include not only the table frame, but also characters that were not deleted during filtering because they were adjacent to the frame. Therefore, characters are deleted by threshold processing using the number of pixels in the pixel group used during filtering and the eigenvalues of the covariance matrix.
In addition, curve approximation is performed starting from a pixel set with a large number of pixels, and the degree is gradually increased from 1 to 4 using a polynomial. A threshold judgment is performed as shown in the following equation (1), and an approximation curve is created only if the value is below the threshold.

Figure 0007659155000001
ただし、式(1)において、x及びyは座標である。
Figure 0007659155000001
In formula (1), x and y are coordinates.

ここで、閾値(例えば、式(1)において上記した1.1)は適宜設定することができる。そして、近似曲線が作成された場合、分離された枠線の合成を行う。枠線の合成には作成した近似曲線の周囲3画素に対して画素集合の探索を行い。画素集合が発見された場合、その画素集合と曲線近似に利用した画素集合の両方を用いて再度、最小二乗法による曲線近似を行う反復的な手法を用いる。 Here, the threshold value (for example, 1.1 as described above in equation (1)) can be set appropriately. Then, when the approximation curve is created, the separated frame lines are synthesized. To synthesize the frame lines, a pixel set is searched for within three pixels surrounding the created approximation curve. If a pixel set is found, an iterative method is used to perform curve approximation again using the least squares method, using both that pixel set and the pixel set used for the curve approximation.

全ての画素集合に対して曲線の近似が終了次第、枠検出部213は、交差線の削除を行う。表の枠線は平行線で構成され、縦線同士及び横線同士が交わることはない。そのため、縦横で分離した枠線画像内で線が交わっている場合、表の枠外の線が混入している可能性が高いと想定される。本実施形態では、縦及び横の枠線が交差している場合、交差している線のうち近似に使用した画素集合の画素数が少ないものを削除することにより枠外線の削除を行う。 As soon as the curve approximation is completed for all pixel sets, the frame detection unit 213 deletes the intersecting lines. The frame lines of a table are composed of parallel lines, and vertical lines and horizontal lines do not intersect with each other. Therefore, if lines intersect within a frame line image separated vertically and horizontally, it is assumed that there is a high possibility that a line outside the frame of the table has been mixed in. In this embodiment, if vertical and horizontal frame lines intersect, the outer frame lines are deleted by deleting the intersecting lines that have the fewest number of pixels from the pixel sets used for the approximation.

そして、枠検出部213は、枠検出を行う。枠検出では線による枠構造の検出を行う。上述の枠線検出が終了すると、縦方向及び横方向の近似曲線の群が生成される。本ステップにおける枠検出では、最初に縦方向と横方向の近似曲線同士の交点の位置を特定する。これにより得られた交点の座標は、枠の角の候補位置となり、縦方向の枠線1つに対し横方向の枠線数分の交点が得られると共に、横方向の枠線1つに対し縦方向の枠線数分の交点を得られる。 Then, the frame detection unit 213 performs frame detection. In frame detection, a frame structure is detected using lines. When the above-mentioned frame line detection is completed, a group of vertical and horizontal approximation curves is generated. In frame detection in this step, first, the position of the intersection of the vertical and horizontal approximation curves is identified. The coordinates of the intersection obtained in this way become candidate positions for the corners of the frame, and one vertical frame line can obtain intersections for the number of horizontal frame lines, and one horizontal frame line can obtain intersections for the number of vertical frame lines.

その後、縦又は横の1つの枠線を選択し、その近似曲線上に存在する隣接した交点のペアを1つ選択する。そして、枠線画像においてその交点間を探索し、一定数の画素が存在する場合に枠線と判定する、この処理をすべての近似曲線上の隣接した交点のペアに適用することで、画像中の枠線を検出することができる。その後、検出した枠線で囲まれた領域を枠とみなして検出する。 After that, one vertical or horizontal frame line is selected, and one pair of adjacent intersection points on the approximation curve is selected. The intersection points are then searched for in the frame line image, and if a certain number of pixels are present, it is determined to be a frame line. By applying this process to adjacent pairs of intersection points on all approximation curves, frame lines in the image can be detected. The area enclosed by the detected frame line is then detected as a frame.

また、枠検出部213は、これら検出した複数の枠それぞれを分割して切り出す。上述したように、枠検出部213は、枠を囲む枠線に基づいて、枠を検出している、そこで、枠を囲む枠線に含まれる座標中でx及びy座標それぞれにおいて、一番外側の座標を探索し、この探索により取得した座標を用いて複数の枠それぞれを分割して切り出す。さらに、枠検出部213は、この切り出された複数の枠それぞれに対象画像における位置情報を付与する。例えば、枠検出部213は、検出された表領域それぞれに割り当てた表の識別情報(例えば、表に割り当てた識別子)と、枠の識別情報(例えば、枠に割り当てた識別子)の組み合わせを位置情報とし、この位置情報を複数の枠それぞれに対して付与する。あるいは、例えば、枠検出部213は、対象画像で用いられている画像座標系での座標値(例えば、枠の中心等に対応する各座標軸での値)を位置情報とし、この位置情報を複数の枠それぞれに対して付与する。これにより、枠検出部213は、対象画像内に含まれる複数の枠それぞれを単位とした画像であって、それぞれに位置情報が付与された枠画像を生成する。 The frame detection unit 213 also divides and cuts out each of the detected multiple frames. As described above, the frame detection unit 213 detects the frame based on the frame line surrounding the frame. Therefore, the frame detection unit 213 searches for the outermost coordinates in each of the x and y coordinates included in the frame line surrounding the frame, and divides and cuts out each of the multiple frames using the coordinates obtained by this search. Furthermore, the frame detection unit 213 assigns position information in the target image to each of the cut-out multiple frames. For example, the frame detection unit 213 sets the combination of table identification information (e.g., an identifier assigned to the table) assigned to each detected table area and frame identification information (e.g., an identifier assigned to the frame) as position information, and assigns this position information to each of the multiple frames. Alternatively, for example, the frame detection unit 213 sets the coordinate values in the image coordinate system used in the target image (e.g., values on each coordinate axis corresponding to the center of the frame, etc.) as position information, and assigns this position information to each of the multiple frames. As a result, the frame detection unit 213 generates a frame image that is an image made up of each of the multiple frames contained in the target image, each of which is assigned position information.

図5に戻り、ステップS24において、文字認識部214は、ステップS23にて生成された複数の枠画像それぞれに対して、枠画像を単位とした文字認識処理を行う。 Returning to FIG. 5, in step S24, the character recognition unit 214 performs character recognition processing on each of the multiple frame images generated in step S23, with the frame image serving as a unit.

ステップS25において、情報取得部215は、ステップS24にて文字認識された複数の枠画像それぞれについての文字認識結果と、この複数の枠画像それぞれに付与された位置情報とに基づいて、取得対象情報を取得する。この点について、図7を参照して説明する。図7は、対象画像に含まれる表構造と、情報取得部215による取得対象情報の取得方法について示す模式図である。 In step S25, the information acquisition unit 215 acquires target information based on the character recognition results for each of the multiple frame images that were character recognized in step S24 and the position information assigned to each of the multiple frame images. This will be described with reference to FIG. 7. FIG. 7 is a schematic diagram showing a table structure included in the target image and a method for the information acquisition unit 215 to acquire target information.

図7(a)に、対象画像に含まれる表構造を示す。図7(a)において、対象画像5は、表51と、複数の枠52(図中では、図示の都合上1つの枠のみに対して符号を付す)を含む。なお、図中では説明を簡略化するために、表51を1つのみ示しているが、対象画像5には、複数の表51が含まれていてよい。このような対象画像5に対して上述した画像解析処理を行うことにより、表検出部212により表51に対応する表領域が検出される。また、枠検出部213により、表51に含まれる複数の枠52それぞれについて枠画像が生成される。 Figure 7(a) shows the table structure included in the target image. In Figure 7(a), the target image 5 includes a table 51 and multiple frames 52 (for convenience of illustration, only one frame is marked in the figure). Note that, for simplicity of explanation, only one table 51 is shown in the figure, but the target image 5 may include multiple tables 51. By performing the above-mentioned image analysis process on such a target image 5, the table detection unit 212 detects a table area corresponding to the table 51. In addition, the frame detection unit 213 generates a frame image for each of the multiple frames 52 included in the table 51.

図7(b)に、情報取得部215による取得対象情報の取得方法について示す。上述したように、情報取得部215は、文字認識部214による複数の枠画像それぞれについての文字認識結果(すなわち、枠画像それぞれに含まれる文字列のテキスト)と、辞書データ記憶部262に記憶されている辞書データに含まれる検査項目名として用いられる単語のテキストそれぞれとの類似度をスコア化する。また、情報取得部215は、そのスコア化の結果、或る検査項目名について、最も類似度が高い文字列が含まれている枠画像を、その検査項目名が記載された枠画像であるとしてマーキングする。例えば、今回枠52aがマーキングされたとする。すると、情報取得部215は、このある検査項目に対応してマーキングした枠画像52aの位置情報を取得する。また、情報取得部215は、図中にて矢印で示すように、この枠画像52aの位置情報から任意の所定方向(例えば、右方向)に存在する各枠画像に対して、検査値が含まれているか走査的に検索する。 7B shows a method of acquiring information to be acquired by the information acquisition unit 215. As described above, the information acquisition unit 215 scores the similarity between the character recognition result for each of the multiple box images by the character recognition unit 214 (i.e., the text of the character string included in each box image) and each text of the words used as the names of the test items included in the dictionary data stored in the dictionary data storage unit 262. In addition, the information acquisition unit 215 marks the box image that contains the character string with the highest similarity for a certain test item name as a box image containing the test item name as a result of the scoring, as a box image containing the test item name. For example, assume that the box 52a is marked this time. Then, the information acquisition unit 215 acquires the position information of the box image 52a marked in correspondence with this certain test item. In addition, the information acquisition unit 215 scans and searches for the test value for each box image that exists in any predetermined direction (for example, the right direction) from the position information of the box image 52a, as shown by the arrow in the figure.

このようにして、情報取得部215は、取得対象情報である、第1の情報(例えば、或る検査項目)と、これに対応する第2の情報(この或る検査項目の検査値)の組を取得することができる。このようにして取得した取得対象情報(例えば、検査項目に対応する検査項目名と、その検査値の組)を画像解析結果とする。 In this way, the information acquisition unit 215 can acquire a set of first information (e.g., a certain test item) and corresponding second information (test value of this certain test item), which are the acquisition target information. The acquisition target information acquired in this way (e.g., a set of the test item name corresponding to the test item and its test value) is regarded as the image analysis result.

ステップS26において、端末側通知部112又は装置側通知部216は、ステップS25における画像解析結果を、ユーザに対して通知する。ユーザは、この通知された画像解析結果を参照することにより、画像解析結果の内容を把握することができる。なお、通知は、端末側通知部112又は装置側通知部216の何れかのみで行われてもよいし、双方で行われてもよい。これにより、本処理は終了する。 In step S26, the terminal-side notification unit 112 or the device-side notification unit 216 notifies the user of the image analysis result in step S25. The user can understand the contents of the image analysis result by referring to the notified image analysis result. Note that the notification may be performed by only either the terminal-side notification unit 112 or the device-side notification unit 216, or by both. This ends the process.

ここで、ステップS26における通知は、画像解析結果を単に表示等することにより、通知するのみであってもよいが、これに限らない。例えば、1人のユーザに対応する複数の健康診断表(例えば、1年毎に健康診断が実施される場合の、各年の健康診断表のそれぞれ)に対して画像解析処理を行った場合に、画像解析結果に基づいて、所定の検査項目に対応する検査値の時系列に沿った変化を検出し、該検出した変化を通知するようにしてもよい。 Here, the notification in step S26 may be, but is not limited to, simply displaying the image analysis results. For example, when image analysis processing is performed on multiple health checkup charts corresponding to one user (e.g., each of the health checkup charts for each year in the case where a health checkup is performed once a year), changes in the test values corresponding to a specified test item along a time series may be detected based on the image analysis results, and the detected changes may be notified.

この場合、例えば、各健康診断表に記載の実施日を文字認識により検出したり、ユーザの操作等に基づいたりして、各健康診断が行われた順番を特定する。そして、各健康診断表から文字認識した健康診断の結果(例えば、検査値)を、この健康診断が行われた順番と対応して通知する。例えば、同じ検査項目の検査値を、健康診断が行われた順番と対応付けて、表の形式で表示等することにより、通知をする。あるいは、例えば、横軸を時間(例えば、健康診断を実施した日付)、縦軸を同じ検査項目の検査値としたグラフの形式等で表示等することにより、通知をする。 In this case, for example, the order in which each health check was performed is identified by detecting the implementation date written on each health check sheet using character recognition or based on user operation, etc. Then, the results of the health check (e.g., test values) obtained by character recognition from each health check sheet are notified in correspondence with the order in which the health check was performed. For example, notification is made by displaying test values for the same test item in table format in correspondence with the order in which the health check was performed. Alternatively, notification is made by displaying in graph format, for example, with time (e.g., the date the health check was performed) on the horizontal axis and test values for the same test item on the vertical axis.

この場合、さらに、例えば、検査値の適正範囲を示す閾値(例えば、上限値や下限値)を設定しておき、検査値がこの適性範囲外となった場合に(例えば、上限値以上であったり、下限値以下であったりした場合)、その検査値の色等を異ならせて表示等したり警告文と共に表示等したりして、通知するようにしてもよい。他にも、例えば、前回の健康診断からの検査値の変化量に対する閾値を設定しておき、検査値の変化量が閾値を超えた場合に(例えば、検査値が大きく変化した場合に)、その検査値の色等を異ならせて表示等したり警告文と共に表示等したりして、通知するようにしてもよい。これによりユーザは、同じ検査項目の検査値の時系列に沿った変化を把握できるのみでなく、その検査値が適正範囲外である、あるいは大きく変化している、等の変化を把握することができる。
従って、ユーザは、より適切に健康診断の結果を把握することが可能となる。
In this case, further, for example, a threshold value (e.g., an upper limit value or a lower limit value) indicating the appropriate range of the test value may be set, and if the test value falls outside this appropriate range (e.g., if it is equal to or greater than the upper limit value or equal to or less than the lower limit value), the test value may be displayed in a different color or together with a warning message to notify the user. In addition, for example, a threshold value for the amount of change in the test value from the previous health check may be set, and if the amount of change in the test value exceeds the threshold (e.g., if the test value has changed significantly), the test value may be displayed in a different color or together with a warning message to notify the user. This allows the user to not only grasp the changes in the test values of the same test item over time, but also to grasp changes such as the test value being outside the appropriate range or having changed significantly.
Therefore, the user can more appropriately understand the results of the health check.

以上説明した、撮影処理、及び画像解析処理によれば、表と枠をそれぞれ段階的に検出した上で、位置情報を利用して、所望の取得対象情報を取得する。したがって、表と枠を検出せず、位置情報を用いずに、単純に画像解析処理を行うような画像解析方法に比べて、より精度高く画像解析を行うことが可能となる。そのため、例えば、様々なフォーマットが混在しており、表や枠の配置等が原稿によってそれぞれ異なるような場合や、画像に歪み等が発生しており通常であれば画像解析を行うことが困難な場合であったとしても、適切に画像解析を行うことができる。 According to the photographing process and image analysis process described above, the tables and frames are detected in stages, and then the desired target information is obtained using the position information. This makes it possible to perform image analysis with higher accuracy than image analysis methods that simply perform image analysis without detecting tables and frames or using position information. As a result, even in cases where, for example, various formats are mixed and the arrangement of tables and frames differs depending on the document, or where distortion has occurred in the image that would normally make image analysis difficult, it is possible to perform appropriate image analysis.

[変形例]
以上、本発明の実施形態について説明したが、この実施形態は例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明は、本発明の要旨を逸脱しない範囲で、その他の様々な実施形態を取ることが可能である共に、省略及び置換等種々の変形を行うことができる。この場合に、これら実施形態及びその変形は、本明細書等に記載された発明の範囲及び要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
一例として、以上説明した本発明の実施形態を、以下のようにして変形してもよい。
[Modification]
Although the embodiment of the present invention has been described above, this embodiment is merely an example and does not limit the technical scope of the present invention. The present invention can take various other embodiments and can be modified in various ways, such as omissions and substitutions, without departing from the gist of the present invention. In this case, these embodiments and their modifications are included in the scope and gist of the invention described in this specification, etc., and are included in the scope of the invention described in the claims and their equivalents.
As an example, the embodiment of the present invention described above may be modified as follows.

上述した実施形態では、画像解析システムSを、端末1と画像解析装置2の組み合わせのような、クライアント-サーバ型のシステムとして実現していた。これに限らず、上述の実施形態に示した例とは異なる構成により、画像解析システムSを構成するようにしてもよい。 In the above-described embodiment, the image analysis system S is realized as a client-server type system, such as a combination of a terminal 1 and an image analysis device 2. However, the image analysis system S may be configured in a different way from the example shown in the above-described embodiment.

例えば、画像解析装置2を1つのコンピュータで実現するのではなく、複数のコンピュータで実現するようにしてもよい。この場合、例えば、画像解析装置2の機能ブロックの一部(例えば、文字認識部214や、情報取得部215を或るコンピュータで実現し、他の機能ブロックを他のコンピュータで実現するようにしてもよい。また、例えば、画像解析装置2の機能ブロックの一部又は全部を複数のコンピュータ(例えば、クラウドシステム)により分散処理することにより実現するようにしてもよい。 For example, image analysis device 2 may be realized by multiple computers rather than one computer. In this case, for example, some of the functional blocks of image analysis device 2 (e.g., character recognition unit 214 and information acquisition unit 215) may be realized by one computer, and other functional blocks may be realized by another computer. Also, for example, some or all of the functional blocks of image analysis device 2 may be realized by distributed processing by multiple computers (e.g., a cloud system).

また他にも、例えば、画像解析装置2に撮像部を設けることによって、端末1と画像解析装置2の機能を1つのコンピュータで実現してもよい。この場合、このコンピュータから通信機能を省略してスタンドアローンの装置としてもよい。 In addition, for example, the functions of the terminal 1 and the image analysis device 2 may be realized by a single computer by providing an imaging unit in the image analysis device 2. In this case, the communication function may be omitted from this computer to make it a stand-alone device.

さらに他にも、端末1を利用するのは、健康診断を受けたユーザ自身であってもよいが、健康診断を受けたユーザを雇用している事業者等の他の主体であってもよい。 Furthermore, the person using terminal 1 may be the user who has undergone the health check, or another entity such as a business that employs the user who has undergone the health check.

さらに他にも、例えば、ステップS24における文字認識処理の精度をより高めるため、ステップS23において生成された複数の枠画像それぞれに対して、文字検出処理を行うようにしてもよい。この処理は、例えば、複数の枠画像を生成した枠検出部213により、枠画像の生成に続いて行われる。この場合、枠検出部213は、自身が検出した複数の枠画像を単位として、該領域毎に対象画像から文字を検出する。これにより、枠検出部213は、自身による正確な枠の検出結果に基づいて、所定の領域(例えば、文字が記載されている枠内)から、ひとかたまりの文字列(例えば、1つの単語)を正確に検出できる。 Furthermore, for example, in order to further improve the accuracy of the character recognition process in step S24, character detection processing may be performed on each of the multiple frame images generated in step S23. This processing is performed, for example, by the frame detection unit 213 that generated the multiple frame images following the generation of the frame images. In this case, the frame detection unit 213 detects characters from the target image for each region of the multiple frame images that it has detected. This allows the frame detection unit 213 to accurately detect a string of characters (for example, one word) from a specified region (for example, within a frame containing characters) based on its own accurate frame detection results.

図8は、文字検出処理の流れを説明するフローチャートである。
ステップS31において、枠検出部213は、自身が生成した複数の枠画像から、今回処理対象とする枠画像を取得する。
FIG. 8 is a flowchart illustrating the flow of the character detection process.
In step S31, the frame detection unit 213 acquires a frame image to be processed this time from the multiple frame images it has generated.

ステップS32において、枠検出部213は、二値化を行う。本変形例では、後述のステップS35において投影法を用いて文字の検出を行う。投影法を用いる場合、文字領域における黒の画素をカウントして文字領域と背景領域を分離するため、2値化を行う必要がある。二値化は、任意の手法で行うことができるが、例えば、大津の2値化を用いる。大津の2値化は判別分析法とも呼ばれ、画像に対し輝度値のヒストグラムを作成し、そのヒストグラムを二分した際にクラス間分散が最大となる閾値を使用して2値化を行うものである。健康診断表は様々な色が使われているものが多いが、枠内に注目してみると文字と背景の2値画像であるため大津の2値化を用いることにより、最適な閾値を自動的に算出し、文字を抽出することが可能となる。 In step S32, the frame detection unit 213 performs binarization. In this modified example, characters are detected using a projection method in step S35 described later. When using a projection method, binarization is necessary to count black pixels in the character region and separate the character region from the background region. Any method can be used for binarization, but for example, Otsu's binarization is used. Otsu's binarization is also called discriminant analysis, and creates a histogram of brightness values for an image, and performs binarization using a threshold value that maximizes the inter-class variance when the histogram is divided into two. Many medical checkup charts use a variety of colors, but if you look inside the frame, you will see a binary image of the characters and background, so by using Otsu's binarization, it is possible to automatically calculate the optimal threshold value and extract the characters.

ステップS33において、枠検出部213は、枠外領域の削除を行う。この点について、図9を参照して説明する。図9は、二値化した画像から、枠外領域の削除を行い、その後に射影変換を行うことを示す模式図である。ステップS32では、枠画像は枠を検出するのに使用した4つの枠線の座標から一番外側のものを用いて切り出した。そのため、枠線に傾きや歪みが存在する場合、図9(a)に二値化した画像として示すように、枠外の文字及び枠線が含まれて検出される。これらの文字や枠線は後の文字検出の際に障害となる。そこで、枠検出の際に使用した枠線外の画素を削除することにより、図9(b)に示すように、これらを削除することができる。 In step S33, the frame detection unit 213 deletes the outside-frame area. This will be described with reference to FIG. 9. FIG. 9 is a schematic diagram showing the deletion of the outside-frame area from a binarized image and then the projection transformation. In step S32, the frame image is cut out using the outermost of the four frame line coordinates used to detect the frame. Therefore, if the frame line is tilted or distorted, characters and frame lines outside the frame are detected as shown in the binarized image in FIG. 9(a). These characters and frame lines will be an obstacle to subsequent character detection. Therefore, by deleting the pixels outside the frame lines used in frame detection, they can be deleted as shown in FIG. 9(b).

ステップS34において、枠検出部213は、射影変換を行う。カメラ撮影によって取得した対象画像の画像には、紙の湾曲やカメラと撮影対象の位置関係に基づいた歪みが生じる。この歪みに対応するために、射影変換を用いる。射影変換の変換式は次式(2)で表され、Hが正則の時実行できる。 In step S34, the frame detection unit 213 performs a projective transformation. The image of the target captured by the camera is distorted due to the curvature of the paper and the positional relationship between the camera and the target. In order to deal with this distortion, a projective transformation is used. The transformation formula for the projective transformation is expressed by the following formula (2), and can be executed when H is regular.

Figure 0007659155000002
ただし、式(2)において、x’及びy’は変換後の座標であり、x及びyは変換前の座標であり、H11~H33は変換係数である。また、式(2)において、fはスケールを表す定数であり、x/f及びy/fが0になるように調整される。
Figure 0007659155000002
In formula (2), x' and y' are coordinates after conversion, x and y are coordinates before conversion, and H 11 to H 33 are conversion coefficients. Also, in formula (2), f 0 is a constant representing a scale, and is adjusted so that x/f 0 and y/f 0 become 0.

この射影変換の変換行列は8つの変換係数を含んでおり、1つの変換前及び変換後の座標から2つの方程式が得られることから、4つの変換前後の座標のペアを用意することで変換係数を求めることができる。本変形例では、この4つの座標に枠線の交点を用いる。変換後の座標は枠の左上の座標を固定し、左上と右上、及び、左下と右下の交点間x軸方向の距離を算出し、距離の長いものを変換後の横方向の枠の長さとする。同様に、左上と左下、及び、右上と右下の交点間のy軸方向の距離を算出し、距離の長いものを変換後の縦方向の枠の長さとして変換後の枠が長方形となるように座標を定義する。変換前の座標には交点の座標をそのまま使用し、これら4つの座標を用いて変換係数を定め、図9(c)に示すように射影変換を行う。 The transformation matrix of this projective transformation contains eight transformation coefficients, and two equations can be obtained from one set of coordinates before and after transformation, so the transformation coefficients can be found by preparing four pairs of coordinates before and after transformation. In this modified example, the intersections of the frame lines are used for these four coordinates. For the transformed coordinates, the coordinates of the top left of the frame are fixed, and the distances in the x-axis direction between the intersections of the top left and top right, and the intersections of the bottom left and bottom right are calculated, and the longest distance is set as the horizontal frame length after transformation. Similarly, the distances in the y-axis direction between the intersections of the top left and bottom left, and the intersections of the top right and bottom right are calculated, and the longest distance is set as the vertical frame length after transformation, so that the transformed frame is defined as a rectangle. The coordinates of the intersections are used as they are for the coordinates before transformation, and transformation coefficients are determined using these four coordinates, and projective transformation is performed as shown in Figure 9 (c).

ステップS35において、枠検出部213は、文字検出を行う。文字検出には、投影法を用いる。投影法では画像のy及びxそれぞれの方向に対して、各座標で二値化後に黒に対応する画素の画素数をカウントし、画素数が0でない範囲を行及び文字として検出する。しかし、この手法では“リ”や“ル”等のカタカナの構成要素や、“検”や“接”やといった漢字の偏(へん)と旁(つくり)が左右に分離して検出されるといった問題が生じる。そこで、本変形例では、分離して検出したのちに文字の合成を行う。 In step S35, the frame detection unit 213 performs character detection. A projection method is used for character detection. In the projection method, the number of pixels that correspond to black after binarization at each coordinate in the y and x directions of the image is counted, and ranges where the number of pixels is not 0 are detected as lines and characters. However, this method has problems such as the components of katakana characters such as "リ" and "ル" and the radicals and components of kanji characters such as "研" and "痛" being detected separately to the left and right. Therefore, in this modified example, the characters are synthesized after being detected separately.

この場合、まず投影法で検出した文字に対し、次式(3)で表すように、それぞれの文字の横方向の長さを縦方向の長さで除算し、検出したそれぞれの文字に対して縦横比を算出する。 In this case, first, for the characters detected using the projection method, the horizontal length of each character is divided by the vertical length of each character to calculate the aspect ratio for each detected character, as shown in the following formula (3).

Figure 0007659155000003
ただし、式(3)において、rは各文字の縦横比であり、wは各文字の幅であり、hは行の高さである。
Figure 0007659155000003
In equation (3), r i is the aspect ratio of each character, w i is the width of each character, and h is the line height.

この縦横比rは全角文字の場合は相対的に大きくなり、半角文字の場合は相対的に小さくなる。画像解析処理の対象としている健康診断表には検査項目等の文字領域と検査結果の数値領域が存在し、数値領域は半角文字で記載されている。そのため、枠内に存在する文字が半角文字のみの場合、文字の合成は必要ないと考えられる。そこで、この縦横比rを用いて表の文字領域と数値領域の判別を行う。そのために、判別用の閾値を設定し、閾値を以上のものが存在した場合、文字領域とみなして、その文字領域の枠内文字を文字の合成を行う候補とする。 This aspect ratio ri is relatively large for full-width characters and relatively small for half-width characters. The medical examination sheet that is the subject of image analysis processing has character areas such as test items and numerical areas of test results, and the numerical areas are written in half-width characters. Therefore, if the characters present within the frame are only half-width characters, it is considered that character synthesis is not necessary. Therefore, this aspect ratio ri is used to distinguish between the character area and the numerical area of the table. For this purpose, a threshold value is set for discrimination, and if there is anything that is equal to or exceeds the threshold, it is regarded as a character area, and the characters within the frame of that character area are candidates for character synthesis.

これらの文字の合成を行う候補に対して、実際に文字の合成を行うか否かは、以下の次式(4)で表す条件を満たす隣接した文字を対象として検討する。 Whether or not to actually combine these characters is determined by considering adjacent characters that satisfy the condition expressed by the following formula (4).

Figure 0007659155000004
ただし、式(4)において、xi+1,1及びxi,2は文字の横方向の始点及び終点であり、sは検出文字間の距離である。
Figure 0007659155000004
In equation (4), x i+1,1 and x i,2 are the horizontal start and end points of a character, and s i is the distance between detected characters.

そして、この距離が小さい順に文字の合成を行うか否かを検討し、仮に文字合成後したとした場合の縦横比を上記の式(3)を用いて算出する。そして、算出した縦横比が閾値以上のものに対しては、文字領域において分離して検出された単一文字であるとして実際に合成を行う。しかしながら、算出した縦横比が閾値未満のものに対しては、文字領域において分離することなく検出された単一文字であるとして実際には合成は行わない。これにより、例えば、半角等で記載されている数値を誤って合成するようなことなく、一方で、漢字の偏(へん)と旁(つくり)が分離して検出されたような場合に、これらを単一文字として合成することができる。これにより本処理は終了する。そして、文字認識部214は、本処理により正確に検出された、ひとかたまりの文字列(例えば、1つの単語)を対象として、ステップS24における文字認識処理を精度高く行うことができる。 Then, it is considered whether to combine characters in ascending order of distance, and the aspect ratio of the characters after the character combination is calculated using the above formula (3). Then, for characters whose calculated aspect ratio is equal to or greater than the threshold, they are actually combined as a single character detected separately in the character region. However, for characters whose calculated aspect ratio is less than the threshold, they are actually not combined as a single character detected without separation in the character region. This prevents, for example, erroneous combination of numbers written in half-width characters, and on the other hand, when the radical and the part of a kanji character are detected separately, they can be combined as a single character. This ends the process. The character recognition unit 214 can then perform the character recognition process in step S24 with high accuracy on a group of characters (for example, one word) accurately detected by this process.

[構成例]
以上のように、本実施形態に係る画像解析システムSは、表検出部212と、枠検出部213と、情報取得部215と、を備える。
表検出部212は、表を被写体として含む画像から、表に対応する領域を検出する。
枠検出部213は、表に対応する領域から表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれに画像における位置情報を付与する。
情報取得部215は、複数の枠それぞれについての文字認識結果と、複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得する。
[Configuration example]
As described above, the image analysis system S according to this embodiment includes the table detection unit 212 , the frame detection unit 213 , and the information acquisition unit 215 .
The table detection unit 212 detects an area corresponding to a table from an image that includes a table as a subject.
The frame detection unit 213 detects a plurality of frames constituting a table from an area corresponding to the table, and assigns position information in the image to each of the detected frames.
The information acquisition unit 215 acquires the acquisition target information based on the character recognition results for each of the multiple boxes and the position information assigned to each of the multiple boxes.

このように、画像解析システムSは、表と枠をそれぞれ段階的に検出した上で、位置情報を利用して、所望の取得対象情報を取得する。したがって、表と枠を検出せず、位置情報を用いずに、単純に画像解析処理を行うような画像解析方法に比べて、より精度高く画像解析を行うことが可能となる。そのため、例えば、様々なフォーマットが混在しており、表や枠の配置等が原稿によってそれぞれ異なるような場合や、画像に歪み等が発生しており通常であれば画像解析を行うことが困難な場合であったとしても、適切に画像解析を行うことができる。 In this way, the image analysis system S detects tables and frames in stages, and then uses the position information to obtain the desired target information. This makes it possible to perform image analysis with greater accuracy than image analysis methods that simply perform image analysis processing without detecting tables and frames or using position information. As a result, even in cases where, for example, various formats are mixed and the arrangement of tables and frames differs from manuscript to manuscript, or where distortions have occurred in the image that would normally make image analysis difficult, appropriate image analysis can be performed.

情報取得部215は、取得対象情報の一部である第1の情報についての辞書データと、複数の枠それぞれの文字認識結果とに基づいて、第1の情報を取得する。
情報取得部215は、第1の情報の取得元となった枠に対応する位置情報に基づいて、取得対象情報の一部である第2の情報を取得する。
これにより、取得対象情報に対応した辞書データを用いて、より精度高く画像解析を行うことができる。
The information acquisition unit 215 acquires the first information, which is a part of the acquisition target information, based on dictionary data for the first information and the character recognition results for each of the multiple boxes.
The information acquisition unit 215 acquires second information, which is a part of the acquisition target information, based on position information corresponding to the frame from which the first information was acquired.
This allows image analysis to be performed with higher accuracy by using dictionary data corresponding to the target information to be obtained.

情報取得部215は、第1の情報の取得元となった枠に対応する位置情報を基準とすると共に、他の枠の位置情報に基づいて前記基準から所定方向に他の枠を走査的に検索することにより、第2の情報を取得する。
これにより、例えば、縦方向又は横方向に関連する情報が配置されている表において、より精度高く画像解析を行うことができる。
The information acquisition unit 215 acquires the second information by using the position information corresponding to the frame from which the first information was acquired as a reference, and by scanningly searching for other frames in a specified direction from the reference based on the position information of the other frames.
This allows for more accurate image analysis to be performed, for example, in a table in which related information is arranged vertically or horizontally.

枠検出部213は、表に対応する領域から複数の枠の枠線である第1の方向の枠線と第2の方向の枠線を分離して検出すると共に、該検出した第1の方向の枠線及び第2の方向の枠線の交点に基づいて複数の枠を検出する。
このように、第1の方向の枠線と第2の方向の枠線を分離して検出することによって、これらを分離することなく検出を行う場合よりも、枠線及び枠を正確に検出することができる。
The frame detection unit 213 detects the frame lines of multiple frames, that is, the frame lines in a first direction and the frame lines in a second direction, separately from the area corresponding to the table, and detects multiple frames based on the intersections of the detected frame lines in the first direction and the frame lines in the second direction.
In this way, by detecting the frame line in the first direction and the frame line in the second direction separately, the frame line and the frame can be detected more accurately than if they were detected without being separated.

枠検出部213は、検出した複数の枠それぞれを切り出し、
文字認識結果は、切り出された複数の枠それぞれを単位とした画像解析処理により生成される。
これにより、文字列が含まれる枠を単位として画像解析処理を行うことができるので、より精度高く文字認識を行うことができる。
The frame detection unit 213 cuts out each of the detected frames,
The character recognition results are generated by performing image analysis processing on each of the extracted frames.
This allows image analysis processing to be performed for each box containing a character string, thereby enabling character recognition with higher accuracy.

画像は、健康診断結果が記載された異なる体裁の複数の表の内の、何れかの表を撮影することにより生成された画像であり、
取得対象情報は、少なくとも健康診断結果を含む。
これにより、様々なフォーマットで記載される健康診断結果を、精度高く取得することができる。
The image is an image generated by photographing any one of a plurality of tables having different formats on which the medical examination results are recorded,
The information to be acquired includes at least the medical examination results.
This makes it possible to obtain medical examination results recorded in various formats with high accuracy.

[ハードウェアやソフトウェアによる機能の実現]
上述した実施形態による一連の処理を実行させる機能は、ハードウェアにより実現することもできるし、ソフトウェアにより実現することもできるし、これらの組み合わせにより実現することもできる。換言すると、上述した一連の処理を実行する機能が、画像解析システムSの何れかにおいて実現されていれば足り、この機能をどのような態様で実現するのかについては、特に限定されない。
[Realization of functions through hardware and software]
The function of executing the series of processes according to the above-mentioned embodiment can be realized by hardware, software, or a combination of these. In other words, it is sufficient that the function of executing the series of processes described above is realized in any one of the image analysis systems S, and there is no particular limitation on how this function is realized.

例えば、上述した一連の処理を実行する機能を、演算処理を実行するプロセッサによって実現する場合、この演算処理を実行するプロセッサは、シングルプロセッサ、マルチプロセッサ及びマルチコアプロセッサ等の各種処理装置単体によって構成されるものの他、これら各種処理装置と、ASIC(Application Specific Integrated Circuit)又はFPGA(Field-Programmable Gate Array)等の処理回路とが組み合わせられたものを含む。 For example, when the function of executing the above-mentioned series of processes is realized by a processor that executes arithmetic processing, the processor that executes this arithmetic processing includes not only those that are composed of various processing devices alone, such as single processors, multiprocessors, and multicore processors, but also those that combine these various processing devices with processing circuits such as ASICs (Application Specific Integrated Circuits) or FPGAs (Field-Programmable Gate Arrays).

また、例えば、上述した一連の処理を実行する機能を、ソフトウェアにより実現する場合、そのソフトウェアを構成するプログラムは、ネットワーク又は記録媒体を介してコンピュータにインストールされる。この場合、コンピュータは、専用のハードウェアが組み込まれているコンピュータであってもよいし、プログラムをインストールすることで所定の機能を実行することが可能な汎用のコンピュータ(例えば、汎用のパーソナルコンピュータ等の電子機器一般)であってもよい。また、プログラムを記述するステップは、その順序に沿って時系列的に行われる処理のみを含んでいてもよいが、並列的あるいは個別に実行される処理を含んでいてもよい。また、プログラムを記述するステップは、本発明の要旨を逸脱しない範囲内において、任意の順番に実行されてよい。 For example, when the function of executing the above-mentioned series of processes is realized by software, the program constituting the software is installed on a computer via a network or a recording medium. In this case, the computer may be a computer with dedicated hardware built in, or a general-purpose computer (e.g., a general-purpose electronic device such as a general-purpose personal computer) that can execute a specified function by installing a program. The steps of writing the program may include only processes that are performed chronologically according to the order, but may also include processes that are executed in parallel or individually. The steps of writing the program may be executed in any order within the scope of the gist of the present invention.

このようなプログラムを記録した記録媒体は、コンピュータ本体とは別に配布されることによりユーザに提供されてもよく、コンピュータ本体に予め組み込まれた状態でユーザに提供されてもよい。この場合、コンピュータ本体とは別に配布される記憶媒体は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、あるいはBlu-ray(登録商標) Disc(ブルーレイディスク)等により構成される。光磁気ディスクは、例えば、MD(Mini Disc)等により構成される。これら記憶媒体は、例えば、図2のドライブ15及び図3のドライブ25に装着されて、コンピュータ本体に組み込まれる。また、コンピュータ本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図2のROM12及び図3のROM22、並びに、図2の記憶部16及び図3の記憶部26に含まれるHDDやSSD等により構成される。 A recording medium on which such a program is recorded may be provided to a user by being distributed separately from the computer main body, or may be provided to a user in a state in which it is already installed in the computer main body. In this case, the storage medium distributed separately from the computer main body may be, for example, a magnetic disk (including a floppy disk), an optical disk, or a magneto-optical disk. The optical disk may be, for example, a CD-ROM (Compact Disc-Read Only Memory), a DVD (Digital Versatile Disc), or a Blu-ray (registered trademark) Disc. The magneto-optical disk may be, for example, an MD (Mini Disc). These storage media are, for example, loaded into drive 15 in FIG. 2 and drive 25 in FIG. 3 and installed in the computer main body. Furthermore, the recording medium provided to the user in a state where it is pre-installed in the computer main body is composed of, for example, ROM 12 in FIG. 2 and ROM 22 in FIG. 3 in which the program is recorded, and an HDD or SSD included in storage unit 16 in FIG. 2 and storage unit 26 in FIG. 3, etc.

1 端末、2 画像解析装置、3 原稿(健康診断表)、11,21 CPU、12,22 ROM、13,23 RAM、14,24 通信部、15,25 ドライブ、16,26 記憶部、17,27 入力部、18,28 出力部、111 撮影制御部、112 端末側通知部、161、261 画像記憶部、162、263 解析結果記憶部、211 画像取得部、212 表検出部、213 枠検出部、214 文字認識部、215 情報取得部、216 装置側通知部、262 辞書データ記憶部、S 画像解析システム 1 Terminal, 2 Image analysis device, 3 Document (health checkup chart), 11, 21 CPU, 12, 22 ROM, 13, 23 RAM, 14, 24 Communication unit, 15, 25 Drive, 16, 26 Storage unit, 17, 27 Input unit, 18, 28 Output unit, 111 Shooting control unit, 112 Terminal side notification unit, 161, 261 Image storage unit, 162, 263 Analysis result storage unit, 211 Image acquisition unit, 212 Table detection unit, 213 Frame detection unit, 214 Character recognition unit, 215 Information acquisition unit, 216 Device side notification unit, 262 Dictionary data storage unit, S Image analysis system

Claims (5)

複数の表を被写体として含む一つの対象画像から、前記複数の表それぞれに対応する複数の表領域を検出する表検出手段と、
前記複数の表領域それぞれについて前記表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれについて前記対象画像における位置情報を付与する枠検出手段と、
前記複数の枠それぞれについての文字認識結果と、前記複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得することで、前記複数の表それぞれについての取得対象情報を取得する情報取得手段と、
を備え、
前記表検出手段が複数の表領域を検出する前記対象画像は、被写体である前記複数の表について歪みが生じている画像であり、
前記枠検出手段は、枠線の交点を検出し、該交点の座標を用いて枠ごとに射影変換を行うことにより、前記歪みを修正する、
ことを特徴とする画像解析システム。
a table detection means for detecting a plurality of table regions corresponding to a plurality of tables from a single target image including the plurality of tables as subjects;
a frame detection means for detecting a plurality of frames constituting the table for each of the plurality of table regions and assigning position information in the target image to each of the detected plurality of frames;
an information acquisition means for acquiring acquisition target information for each of the plurality of tables based on a character recognition result for each of the plurality of frames and position information assigned to each of the plurality of frames;
Equipped with
the target image in which the table detection means detects a plurality of table regions is an image in which distortion occurs with respect to the plurality of tables that are objects;
the frame detection means detects intersections of frame lines, and performs projective transformation for each frame using coordinates of the intersections, thereby correcting the distortion.
1. An image analysis system comprising:
複数の表を被写体として含む一つの対象画像から、前記複数の表それぞれに対応する複数の表領域を検出する表検出手段と、
前記複数の表領域それぞれについて前記表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれについて前記対象画像における位置情報を付与する枠検出手段と、
前記複数の枠それぞれについての文字認識結果と、前記複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得することで、前記複数の表それぞれについての取得対象情報を取得する情報取得手段と、
を備え、
前記対象画像には、枠内に半角数字のみが含まれる枠と、枠内に全角文字が含まれる枠とが存在し、
前記枠検出手段は、前記対象画像に含まれる枠から文字を検出し、一つの文字の幅を該一つの文字の高さで除算した値である縦横比の値が、閾値以上の文字が含まれる枠を前記全角文字が含まれる枠とみなして、該枠内の文字を文字の合成を行う処理の候補とする、
ことを特徴とする画像解析システム。
a table detection means for detecting a plurality of table regions corresponding to a plurality of tables from a single target image including the plurality of tables as subjects;
a frame detection means for detecting a plurality of frames constituting the table for each of the plurality of table regions and assigning position information in the target image to each of the detected plurality of frames;
an information acquisition means for acquiring acquisition target information for each of the plurality of tables based on a character recognition result for each of the plurality of frames and position information assigned to each of the plurality of frames;
Equipped with
The target image includes a frame containing only half-width numbers and a frame containing full-width characters,
the frame detection means detects characters from frames included in the target image, and regards a frame containing a character whose aspect ratio, which is a value obtained by dividing the width of one character by the height of the one character, is equal to or greater than a threshold value as a frame containing a full-width character, and sets the character within the frame as a candidate for processing to perform character synthesis.
1. An image analysis system comprising:
複数の表を被写体として含む一つの対象画像から、前記複数の表それぞれに対応する複数の表領域を検出する表検出手段と、
前記複数の表領域それぞれについて前記表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれについて前記対象画像における位置情報を付与する枠検出手段と、
前記複数の枠それぞれについての文字認識結果と、前記複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得することで、前記複数の表それぞれについての取得対象情報を取得する情報取得手段と、
を備え、
前記枠検出手段は、
前記表領域から第1の方向の幅が所定値未満の画素を削除した画像を生成して、前記第1の方向の枠線を検出し、
前記表領域から前記第1の方向と交差する第2の方向の幅が所定値未満の画素を削除した画像を生成して前記第の方向の枠線を検出し、
前記検出した第1の方向の枠線及び前記第2の方向の枠線の交点に基づいて前記複数の枠を検出する、
ことを特徴とする画像解析システム。
a table detection means for detecting a plurality of table regions corresponding to a plurality of tables from a single target image including the plurality of tables as subjects;
a frame detection means for detecting a plurality of frames constituting the table for each of the plurality of table regions and assigning position information in the target image to each of the detected plurality of frames;
an information acquisition means for acquiring acquisition target information for each of the plurality of tables based on a character recognition result for each of the plurality of frames and position information assigned to each of the plurality of frames;
Equipped with
The frame detection means
generating an image by deleting pixels having a width in a first direction less than a predetermined value from the table region, and detecting a frame line in the first direction ;
generating an image by deleting pixels having a width less than a predetermined value in a second direction intersecting with the first direction from the table region , and detecting a frame line in the second direction;
detecting the plurality of frames based on intersections of the detected frame lines in the first direction and the detected frame lines in the second direction;
1. An image analysis system comprising:
前記表検出手段は、一つの画像に一つの表が含まれるように前記対象画像を分割し、
前記枠検出手段は、一つの画像に一つの枠が含まれるように前記表検出手段が分割した対象画像をさらに分割し、
前記情報取得手段は、前記枠検出手段がさらに分割した枠単位の対象画像それぞれについて、前記取得対象情報を取得する、
ことを特徴とする請求項1乃至3の何れか1項に記載の画像解析システム。
the table detection means divides the target image so that one image contains one table;
the frame detection means further divides the target image divided by the table detection means so that one frame is included in one image;
the information acquisition means acquires the acquisition target information for each of the target images in units of frames further divided by the frame detection means.
4. The image analysis system according to claim 1 , wherein the image analysis system further comprises: a first section for detecting a first image ;
前記対象画像は、健康診断結果が記載された異なる体裁の複数の表を撮影することにより生成された前記複数の表について歪みが生じている画像であり、
前記取得対象情報は、少なくとも健康診断結果を含む、
ことを特徴とする請求項1乃至の何れか1項に記載の画像解析システム。
the target image is an image in which distortion occurs in a plurality of tables having different formats on which medical examination results are recorded, the plurality of tables being generated by photographing the plurality of tables;
The information to be acquired includes at least a medical examination result.
5. The image analysis system according to claim 1 , wherein the image analysis system comprises: a first section;
JP2020130845A 2020-07-31 2020-07-31 Image Analysis System Active JP7659155B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020130845A JP7659155B2 (en) 2020-07-31 2020-07-31 Image Analysis System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020130845A JP7659155B2 (en) 2020-07-31 2020-07-31 Image Analysis System

Publications (2)

Publication Number Publication Date
JP2022027060A JP2022027060A (en) 2022-02-10
JP7659155B2 true JP7659155B2 (en) 2025-04-09

Family

ID=80264448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020130845A Active JP7659155B2 (en) 2020-07-31 2020-07-31 Image Analysis System

Country Status (1)

Country Link
JP (1) JP7659155B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029983A (en) 1998-07-10 2000-01-28 Oki Electric Ind Co Ltd Document reader device
JP2002185763A (en) 2000-12-11 2002-06-28 Minolta Co Ltd Digital copying machine
JP2007213255A (en) 2006-02-08 2007-08-23 Fujitsu Ltd Table recognition apparatus and computer program
JP2016206823A (en) 2015-04-20 2016-12-08 アドバンスト・アプリケーション株式会社 Document data extraction system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329187A (en) * 1995-06-06 1996-12-13 Oki Electric Ind Co Ltd Document reader
JPH09288714A (en) * 1996-04-19 1997-11-04 Hitachi Ltd Table recognition method and device
JPH10134120A (en) * 1996-10-28 1998-05-22 Oki Electric Ind Co Ltd Method and device for table processing
JPH11282957A (en) * 1998-03-26 1999-10-15 Oki Electric Ind Co Ltd Method for deciding recognition object area

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029983A (en) 1998-07-10 2000-01-28 Oki Electric Ind Co Ltd Document reader device
JP2002185763A (en) 2000-12-11 2002-06-28 Minolta Co Ltd Digital copying machine
JP2007213255A (en) 2006-02-08 2007-08-23 Fujitsu Ltd Table recognition apparatus and computer program
JP2016206823A (en) 2015-04-20 2016-12-08 アドバンスト・アプリケーション株式会社 Document data extraction system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田中宏 外3名,交点追跡と全体最適化に基づく罫線抽出誤りに頑強な表項目セル抽出,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2011年07月01日,第J94-D巻 第7号,pp.1113~1124
石谷康人,モデルマッチングによる表形式文書の理解,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1994年09月22日,第94巻 第242号,pp.57~64

Also Published As

Publication number Publication date
JP2022027060A (en) 2022-02-10

Similar Documents

Publication Publication Date Title
CN101615251B (en) Method and apparatus for recognizing character in character recognizing apparatus
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
JP2018128996A (en) Information processing apparatus, control method, and program
CN114821620B (en) Text content extraction and recognition method based on vertical merging of line text boxes
CN112560849A (en) Neural network algorithm-based grammar segmentation method and system
JP2020046819A (en) Information processing apparatus and program
CN111612045B (en) Universal method for acquiring target detection data set
JP4232679B2 (en) Image forming apparatus and program
CN109508712A (en) A kind of Chinese written language recognition methods based on image
CN108875570B (en) Information processing apparatus, storage medium, and information processing method
US20060285748A1 (en) Document processing device
JP2013093777A (en) Document file output device, document file output method and computer program
KR102328034B1 (en) Database building device that can build a knowledge database from a table-inserted image and operating method thereof
CN115063818B (en) Method and system for judging office document font types
CN108062548B (en) Braille square self-adaptive positioning method and system
JP7659155B2 (en) Image Analysis System
CN107958261B (en) Braille point detection method and system
KR102300475B1 (en) Electronic device that can convert a table-inserted image into an electronic document and operating method thereof
JP4474231B2 (en) Document link information acquisition system
JP3898645B2 (en) Form format editing device and form format editing program
JP7570843B2 (en) IMAGE PROCESSING APPARATUS, IMAGE FORMING SYSTEM, IMAGE PROCESSING METHOD, AND PROGRAM
CN114882209B (en) Text processing method, device and system
JP7516170B2 (en) Image processing device, image processing method, and program
JP5298830B2 (en) Image processing program, image processing apparatus, and image processing system
JP2008054147A (en) Image processor and image processing program

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220914

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20220914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220915

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20221027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230718

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240520

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250310

R150 Certificate of patent or registration of utility model

Ref document number: 7659155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150