JP2023043910A - Character string extraction device, character string extraction method and character string extraction program - Google Patents
Character string extraction device, character string extraction method and character string extraction program Download PDFInfo
- Publication number
- JP2023043910A JP2023043910A JP2021151644A JP2021151644A JP2023043910A JP 2023043910 A JP2023043910 A JP 2023043910A JP 2021151644 A JP2021151644 A JP 2021151644A JP 2021151644 A JP2021151644 A JP 2021151644A JP 2023043910 A JP2023043910 A JP 2023043910A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- area
- region
- likeness
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 71
- 238000009795 derivation Methods 0.000 claims abstract description 24
- 239000000284 extract Substances 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 238000010586 diagram Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 14
- 230000010365 information processing Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
Description
本発明の実施形態は、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムに関する。 TECHNICAL FIELD Embodiments of the present invention relate to a character string extraction device, a character string extraction method, and a character string extraction program.
記録媒体に記入された文字を認識する技術が知られている。例えば、文字を記入された記録媒体の画像に含まれる文字列を行ごとに抽出し、抽出した行ごとに文字認識する技術が開示されている。例えば、学習モデルに画像を入力することで、画像に含まれる文字列の行領域を所定の縮小率縮小した領域を文字列の中心領域として導出する。そして、導出した中心領域を所定比率で拡大した領域を、1行分の文字列の行画像領域として抽出する技術が開示されている(例えば、非特許文献1参照)。 Techniques for recognizing characters written on a recording medium are known. For example, a technology is disclosed in which a character string included in an image of a recording medium in which characters are written is extracted for each line, and character recognition is performed for each extracted line. For example, by inputting an image into the learning model, an area obtained by reducing the line area of the character string included in the image by a predetermined reduction ratio is derived as the central area of the character string. A technique for extracting a region obtained by enlarging the derived center region by a predetermined ratio as a line image region of a character string for one line is disclosed (see, for example, Non-Patent Document 1).
しかしながら従来技術では、複数の文字列の行が接近または重複して記入されている場合、複数の文字列の行を同一の行の行画像領域として誤特定する場合があった。すなわち、従来技術では、画像から行ごとの文字列の行画像領域を高精度に抽出することは困難であった。 However, in the prior art, when a plurality of lines of character strings are written close to each other or overlapped, there are cases where the lines of a plurality of character strings are erroneously identified as the line image area of the same line. That is, in the conventional technology, it is difficult to extract the line image area of the character string for each line from the image with high accuracy.
本発明は、上記に鑑みてなされたものであって、行ごとの文字列の行画像領域を高精度に抽出することができる、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムを提供することを目的とする。 The present invention has been made in view of the above, and provides a character string extraction device, a character string extraction method, and a character string extraction program capable of extracting a line image region of a character string for each line with high accuracy. intended to provide
実施形態の文字列抽出装置は、導出部と、抽出部と、を備える。導出部は、ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出する。抽出部は、前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出する。 A character string extraction device according to an embodiment includes a derivation unit and an extraction unit. The deriving unit uses a neural network to determine, for each pixel area of an image of a recording medium in which characters are written, the likeness of a character string central area within a character string area, the boundary between the character string area and the character string central area. Region-likeness and background-likeness are derived. The extraction unit extracts a line image area of the character string for each line included in the image based on the likeness of the character string center area, the likeness of the boundary area, and the likeness of the background area.
以下に添付図面を参照して、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムを詳細に説明する。 A character string extraction device, a character string extraction method, and a character string extraction program will be described in detail below with reference to the accompanying drawings.
図1は、本実施形態の文字列抽出装置10の構成の一例を示すブロック図である。
FIG. 1 is a block diagram showing an example of the configuration of a character
文字列抽出装置10は、文字を記入された記録媒体の画像から行画像領域を抽出する情報処理装置である。行画像領域の詳細は後述する。
The character
文字列抽出装置10は、記憶部12と、通信部14と、UI(ユーザ・インタフェース)部16と、制御部20と、を備える。記憶部12、通信部14、UI部16、および制御部20は、バス18などを介して通信可能に接続されている。
The character
記憶部12は、各種のデータを記憶する。記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部12は、文字列抽出装置10の外部に設けられた記憶装置であってもよい。
The storage unit 12 stores various data. The storage unit 12 is, for example, a RAM (Random Access Memory), a semiconductor memory device such as a flash memory, a hard disk, an optical disk, or the like. Note that the storage unit 12 may be a storage device provided outside the character
通信部14は、ネットワーク等を介して外部の情報処理装置と通信する通信インターフェースである。 The communication unit 14 is a communication interface that communicates with an external information processing device via a network or the like.
UI部16は、ユーザによる操作入力を受付ける受付機能、および、各種の情報を表示する表示機能を有する。受付機能は、例えば、マウスなどのポインティングデバイスやキーボードなどによって実現される。表示機能は、例えば、ディスプレイによって実現される。なお、UI部16は、受付機能と表示機能を一体的に構成したタッチパネルであってよい。 The UI unit 16 has a reception function for receiving operation input by the user and a display function for displaying various information. The reception function is implemented by, for example, a pointing device such as a mouse, a keyboard, or the like. A display function is realized by, for example, a display. Note that the UI unit 16 may be a touch panel that integrates a reception function and a display function.
制御部20は、文字列抽出装置10において各種の情報処理を実行する。
The
制御部20は、導出部22と、抽出部24と、文字列認識部26と、を備える。
The
導出部22、抽出部24、および文字列認識部26は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のICなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
The derivation unit 22, the
なお、文字列抽出装置10の制御部20は、少なくとも導出部22および抽出部24を備えた構成であればよく、文字列認識部26を備えない構成であってもよい。例えば、文字列認識部26は、文字列抽出装置10に通信可能に接続された外部の情報処理装置に搭載されていてもよい。
Note that the
図2は、導出部22および抽出部24による処理の流れの一例を示す模式図である。
FIG. 2 is a schematic diagram showing an example of the flow of processing by the derivation unit 22 and the
導出部22は、画像50の画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。
The deriving unit 22 derives a character string central region likelihood 62 , a boundary region likelihood 64 , and a background region likelihood 66 for each pixel region of the
画像50は、文字を記入された記録媒体の画像である。図2には、画像50の一例として画像50Aを示す。
画像50Aには、手書きなどにより記録媒体に記入された文字列52が含まれる。文字列52は、書字方向に沿って記入された1または複数の文字の群である。図2には、「1234」の文字からなる文字列52Aと、「567」の文字からなる文字列52Bと、を一例として示す。文字列52Aおよび文字列52Bは、文字列52の一例である。
The
画素領域とは、1画素または連続(隣接)する複数の画素からなる領域である。 A pixel region is a region composed of one pixel or a plurality of continuous (adjacent) pixels.
文字列中心領域らしさ62とは、文字列中心領域80である度合いを意味する。文字列中心領域らしさ62は、例えば、文字列中心領域らしさ62を表すスコア61などによって表される。境界領域らしさ64とは、境界領域82である度合いを意味する。境界領域らしさ64は、例えば、境界領域らしさ64を表すスコア61などによって表される。背景領域らしさ66とは、背景領域84である度合いを意味する。背景領域らしさ66は、例えば、背景領域らしさ66を表すスコア61などによって表される。
The character string central area likeness 62 means the degree of character string
図3は、文字列中心領域80、境界領域82、および背景領域84の一例の説明図である。図3には、図2に示す画像50Aに含まれる1行分の文字列52(例えば、文字列52A)を含む領域を拡大した画像50の模式図を示す。
FIG. 3 is an explanatory diagram of an example of the character
文字列領域86は、画像50に含まれる1行分の文字列52の領域である。文字列中心領域80は、文字列領域86内の領域である。文字列領域86内の領域である、とは、文字列領域86内の領域であって、文字列領域86以下のサイズの領域であることを示す。
A
例えば、文字列中心領域80は、文字列領域86内の所定位置に向かって該文字列領域86を第2画素数縮小した領域である。文字列領域86内の所定位置は、文字列領域86の位置であればよく、文字列領域86の中心および中心以外の何れであってもよい。
For example, the character
第2画素数は、1以上の画素数であればよく、予め定めればよい。また、第2画素数は、ユーザによるUI部16の操作指示などに応じて変更可能としてもよい。 The second number of pixels may be one or more pixels, and may be determined in advance. Also, the second number of pixels may be changeable according to an operation instruction of the UI unit 16 by the user.
なお、第2画素数は、文字列領域86を第2画素数縮小した領域である文字列中心領域80が該第2画素数分の縮小によって消滅しない画素数に設定される。例えば、文字列領域86の第2画素数分の縮小によって得られる文字列中心領域80の最短辺の幅Yが、該文字列中心領域80が消滅しない画素数以上の幅となるように、第2画素数を定めればよい。文字列中心領域80が消滅しない画素数の最低値は、例えば、1画素である。
The second number of pixels is set to the number of pixels that does not eliminate the character string
境界領域82は、画像50における、文字列領域86と文字列中心領域80との間の領域である。言い換えると、境界領域82は、文字列領域86と文字列中心領域80との間の全領域である。すなわち、境界領域82は、ある文字列52の文字列領域86の文字列中心領域80と、他の文字列52の文字列領域86の文字列中心領域80または背景領域84と、の境界を表す領域である。背景領域84は、画像50における、文字列中心領域80、境界領域82、および文字列領域86以外の領域である。
なお、境界領域82は、文字列領域86と文字列中心領域80との間の領域を含む領域であればよく、文字列領域86の外側に向かって所定画素数はみ出した領域を含んでいてもよい。この場合、背景領域84を、画像50の全画像領域から全ての文字列領域86を例えば2画素数分拡大した領域を除いた領域とすればよい。そして、境界領域82は、文字列中心領域80と背景領域84以外の領域とすればよい。
Note that the
図2に戻り説明を続ける。 Returning to FIG. 2, the description is continued.
導出部22は、画像50の画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。導出部22は、NNW23を用いて、画像50から文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66の各々を表すスコア61を導出する。導出部22の詳細は後述する。
The deriving unit 22 derives a character string central region likelihood 62 , a boundary region likelihood 64 , and a background region likelihood 66 for each pixel region of the
抽出部24は、画素領域ごとに導出された文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66に基づいて、画像50に含まれる行画像領域60を抽出する。
The
行画像領域60とは、画像50に含まれる1行分の文字列52の領域である。
A
抽出部24は、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を用いて、画素領域ごとに文字列中心領域らしさ62の尤度を算出する。詳細には、抽出部24は、画素領域ごとに導出された文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66の各々を表すスコア61を、これらのスコア61の合計値が“1”となるように正規化することで、各々の尤度を算出する。
The extracting
そして、抽出部24は、画像50における、文字列中心領域らしさ62の尤度が閾値以上の領域を、文字列中心領域80として特定する。
Then, the
図2には、文字列中心領域らしさ62の尤度が閾値以上の領域を領域63Aとし、境界領域らしさ64の尤度が閾値以上の領域を領域65Aとし、背景領域らしさ66の尤度が閾値以上の領域を領域67Aとして示す。画像50Aを用いた場合、抽出部24は、文字列中心領域らしさ62の尤度が閾値以上の領域として、領域63A1および領域63A2を特定することとなる。領域63A1および領域63A2は、文字列中心領域らしさ62の尤度が閾値以上の領域63Aの一例である。
In FIG. 2, an area where the likelihood of the likelihood of the character string center area 62 is equal to or greater than the threshold is defined as an
抽出部24は、画像50における、文字列中心領域らしさ62の尤度が閾値以上の領域63Aを、文字列中心領域80として特定する。図2に示す例の場合、抽出部24は、文字列中心領域らしさ62の尤度が閾値以上の領域63A1を、文字列中心領域80Aとして特定する。また、抽出部24は、文字列中心領域らしさ62の尤度が閾値以上の領域63A2を、文字列中心領域80Bとして特定する。文字列中心領域80Aおよび文字列中心領域80Bは、文字列中心領域80の一例である。文字列中心領域80Aは、文字列52Aに対応する文字列領域86Aの文字列中心領域80である。文字列中心領域80Bは、文字列52Bに対応する文字列領域86Bの文字列中心領域80である。
The
抽出部24は、特定した文字列中心領域80、または、特定した文字列中心領域80を第1画素数拡大した領域を、行画像領域60として抽出する。このため、図2に示す例の場合、例えば、抽出部24は、文字列52Aに対応する文字列領域86Aの文字列中心領域80A、または文字列中心領域80Aを第1画素数拡大した領域を、行画像領域60Aとして抽出する。また、抽出部24は、文字列52Bに対応する文字列領域86Bの文字列中心領域80B、または文字列中心領域80Bを第1画素数拡大した領域を、行画像領域60Bとして抽出する。行画像領域60Aおよび行画像領域60Bは、行画像領域60の一例である。
The
第1画素数は、1以上の画素数を表す値であればよい。第1画素数は、文字列中心領域80を第1画素数拡大した領域が該文字列中心領域80を含む文字列領域86の外枠を超えない画素数にあらかじめ調整される。なお、第1画素数は、ユーザによるUI部16の操作指示などに応じて、これらの条件を満たす範囲内で変更可能としてもよい。
The first number of pixels may be a value representing the number of pixels of 1 or more. The first number of pixels is adjusted in advance to the number of pixels that does not exceed the outer frame of the
図4Aおよび図4Bは、行画像領域60の一例の模式図である。
4A and 4B are schematic diagrams of an example of
図4Aに示すように、例えば、抽出部24は、文字列中心領域80を第1画素数拡大することで、文字列中心領域80を文字列領域86の外枠と一致する範囲にまで拡大した領域を、行画像領域60として抽出する。
As shown in FIG. 4A , for example, the
また、図4Bに示すように、抽出部24は、文字列中心領域80を第1画素数拡大することで、文字列中心領域80を文字列領域86の範囲内で第1画素数拡大した領域を、行画像領域60として抽出してもよい。
Further, as shown in FIG. 4B , the
また、抽出部24は、文字列中心領域80を行画像領域60として抽出してもよい。
Also, the extracting
図2に戻り説明を続ける。導出部22について詳細に説明する。 Returning to FIG. 2, the description is continued. The derivation unit 22 will be described in detail.
導出部22は、NNW(ニューラルネットワーク)23を備える。導出部22は、NNW23を用いて、画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。 The derivation unit 22 includes an NNW (neural network) 23 . The deriving unit 22 uses the NNW 23 to derive a character string center area likelihood 62, a boundary area likelihood 64, and a background area likelihood 66 for each pixel area.
NNW23は、画像50を入力とし、画像50の画素領域ごとの、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を出力とする学習モデルである。NNW23は、例えば、CNN(Convolutional Neural Network)、GCN(Graph Convolutional Network)、またはRNN(Recurrent Neural Network)などのニューラルネットワークで構成される深層学習モデル(DNN)である。
The NNW 23 is a learning model that receives the
導出部22は、複数の学習データ70を用いて予めNNW23を学習する。学習データ70は、画像50とスコア61との対である。スコア61は、画素領域ごとの、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66の各々を表すスコアである。学習データ70に含まれるスコア61は、対応する画像50の正解データに相当する。学習データ70に含まれる画像50の少なくとも一部には、斜めに記入された文字列52を含む画像50、複数行の文字列52が接近または重複して記入されている画像50などを用いればよい。
The derivation unit 22 learns the NNW 23 in advance using a plurality of learning
導出部22は、抽出部24において特定される互いに異なる行の文字列52の文字列中心領域80が非連結となる、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出するように、NNW23を学習することが好ましい。
The deriving unit 22 derives a character string central area likeness 62, a boundary area likeness 64, and a background area likeness 66 in which the character string
図5A~図5Dは、NNW23の学習の一例の説明図である。 5A to 5D are explanatory diagrams of an example of learning of the NNW 23. FIG.
例えば、複数の文字列領域86の一部が重なった状態で記録媒体に記入されている場合がある。具体的には、図5Aに示すように、画像50Aに含まれる文字列領域86Aと文字列領域86Bとが重なる場合を想定する。文字列領域86Aおよび文字列領域86Bは、文字列領域86の一例である。文字列領域86Aは、文字列52Aに対応する文字列領域86である。文字列領域86Bは、文字列52Bに対応する文字列領域86である。
For example, there are cases where a plurality of
この場合、導出部22は、抽出部24において特定される互いに異なる行の文字列52の文字列中心領域80が非連結となる、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出するように、NNW23を学習することが好ましい。
In this case, the deriving unit 22 extracts the character string central region-likenesses 62, the boundary region-likenesses 64, and the background region-likenesses in which the character string
すなわち、NNW23は、互いに異なる行の文字列52の文字列中心領域80が非連結となる、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出するように、予め学習されてなる。
That is, the NNW 23 is trained in advance so as to derive a character string center region likelihood 62, a boundary region likelihood 64, and a background region likelihood 66, in which the character
具体的には、図5B~図5Dに示すように、NNW23は、抽出部24で特定される文字列中心領域80Aと文字列中心領域80Bとが非連結となるようなスコア61を算出するように、予め学習されてなることが好ましい。
Specifically, as shown in FIGS. 5B and 5D, the NNW 23 calculates a score 61 such that the character string
このような学習がなされることで、導出部22がNNW23に画像50Aを入力すると、抽出部24で非連結の文字列中心領域80Aおよび文字列中心領域80Bを特定するような、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66のスコア61が出力される。
Through such learning, when the derivation unit 22 inputs the
なお、NNW23は、互いに異なる行の文字列52に対応する文字列中心領域80が非連結となるようなスコア61を出力すればよい。このため、文字列中心領域80Aの境界領域82A、および文字列中心領域80Bの境界領域82Bの形状は、例えば、以下の何れかの形状などであってよい。
The NNW 23 may output the score 61 such that the character
すなわち、図5B~図5Dに示すように、境界領域82Aおよび境界領域82Bの形状は、文字列領域86Aと文字列領域86Bとが非重複な領域については、各々の文字列領域86の輪郭に沿った形状である。また、境界領域82Aおよび境界領域82Bの形状は、文字列領域86Aと文字列領域86Bとが重複する領域については、該重複する領域を通る1または複数の直線から成る領域であればよい(図5B、図5C参照)。また、境界領域82Aおよび境界領域82Bの形状は、文字列領域86Aと文字列領域86Bとが重複する領域については、何れか一方の文字列領域86の輪郭に沿った形状であってもよい(図5D参照)。
That is, as shown in FIGS. 5B and 5D, the shapes of the
図2に戻り説明を続ける。 Returning to FIG. 2, the description is continued.
NNW23は、境界領域らしさ64の損失の重み係数が、文字列中心領域らしさ62および背景領域らしさ66の損失の重み係数より大きい損失関数を最小化するように、予め学習されてなることが好ましい。 The NNW 23 is preferably trained in advance so as to minimize a loss function in which the loss weighting factor of the boundary area likeness 64 is greater than the loss weighting factor of the character string central area likeness 62 and the background area likeness 66 .
図6は、損失関数を最小化させる学習の一例の説明図である。 FIG. 6 is an explanatory diagram of an example of learning for minimizing a loss function.
例えば、画像50Aに含まれる文字列52Aと文字列52Bとの一部に重複する重複領域Dがある場合を想定する。この場合、この重複領域Dを境界領域82として特定することが困難となる場合がある。
For example, it is assumed that there is an overlapping area D in which the
そこで、NNW23は、境界領域らしさ64の損失の重み係数が、文字列中心領域らしさ62および背景領域らしさ66の損失の重み係数より大きい損失関数を最小化するように、予め学習されてなることが好ましい。詳細には、NNW23は、下記式(1)によって表される損失関数を最小化するように学習されてなることが好ましい。 Therefore, the NNW 23 is preliminarily learned so as to minimize a loss function in which the loss weighting factor of the boundary area likeness 64 is larger than the loss weighting factor of the character string central area likeness 62 and the background area likeness 66. preferable. Specifically, the NNW 23 is preferably trained to minimize the loss function represented by Equation (1) below.
L=wfLf+wbLb+weLe ・・・式(1) L=w f L f + w b L b + w e L e Expression (1)
式(1)中、Lは損失関数を表す。Lfは文字列中心領域らしさ62の損失を表す。wfは、文字列中心領域らしさ62の損失に対する重み係数を表す。Lbは背景領域らしさ66の損失を表す。wbは、背景領域らしさ66の損失に対する重み係数を表す。Leは境界領域らしさ64の損失を表す。weは、境界領域らしさ64の損失に対する重み係数を表す。 In Equation (1), L represents a loss function. L f represents the loss of string central region likelihood 62 . w f represents a weighting factor for the loss of text central region likeness 62 . L b represents the loss of background area likeness 66 . wb represents a weighting factor for the loss of background area likeness 66; L e represents the loss of border-likeness 64 . w e represents a weighting factor for the loss of border-likeness 64 .
式(1)中、境界領域らしさ64の損失に対する重み係数weは、文字列中心領域らしさ62の損失に対する重み係数wf、および、背景領域らしさ66の損失に対する重み係数wbより大きい値であればよい。 In equation (1), the weighting factor w e for the loss of the border area likeness 64 is greater than the weighting factor w f for the loss of the character string central area likeness 62 and the weighting factor w b for the loss of the background area likeness 66 . I wish I had.
境界領域らしさ64の損失に対する重み係数weを、文字列中心領域らしさ62の損失に対する重み係数wf、および、背景領域らしさ66の損失に対する重み係数wbより大きい値とした損失関数Lを最小化するようにNNW23を学習する。この学習により、導出部22は、より高精度な境界領域らしさ64を導出することが可能となる。すなわち、導出部22は、抽出部24でより高精度な行画像領域60を抽出可能な、境界領域らしさ64を導出することができる。
The weighting factor w e for the loss of the border area likeness 64 is larger than the weighting factor w f for the loss of the character string central area likeness 62 and the weighting factor w b for the loss of the background area likeness 66 , and the loss function L is minimized. NNW 23 is trained to This learning enables the derivation unit 22 to derive the boundary area likelihood 64 with higher accuracy. In other words, the derivation unit 22 can derive the border area likelihood 64 that enables the
なお、導出部22は、画像50の画素領域ごとに、1または複数種類の文字列中心領域らしさ62、1または複数種類の境界領域らしさ64、および1または複数種類の背景領域らしさ66を導出してもよい。
Note that the derivation unit 22 derives one or more types of character string center region likenesses 62, one or more types of boundary region likenesses 64, and one or more types of background region likenesses 66 for each pixel region of the
文字列中心領域らしさ62の種類は、文字列中心領域80を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、文字列中心領域らしさ62の種類は、含まれる文字列52の属性、含まれる文字列52の書字方向、含まれる文字列52によって表される文の種類、含まれる文字列52によって表される文字形状、などである。
The type of character string central region likelihood 62 represents the label of each group obtained by classifying the character string
文字列52の属性は、例えば、英語、漢字、カタカナ、数字、などである。文字列52の書字方向は、例えば、縦書き、横書き、などである。文字列52によって表される文の種類は、例えば、住所、電話番号、郵便番号、氏名などである。文の種類は、フィールドタイプと称される場合がある。文字形状は、例えば、手書き、活字、などである。
The attributes of the
境界領域らしさ64の種類は、境界領域82を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、境界領域らしさ64の種類は、他の文字列中心領域80の境界領域82と非重複の領域と、他の文字列中心領域80の境界領域82と重複する領域と、に分類される。
The type of boundary area-likeness 64 represents the label of each group in which the
図7は、境界領域82の一例の模式図である。例えば、境界領域らしさ64の種類は、他の文字列中心領域80に非重複の境界領域82Aの境界領域らしさ64と、他の文字列中心領域80に重複する境界領域82Bの境界領域らしさ64と、に分類される。
FIG. 7 is a schematic diagram of an example of the
背景領域らしさ66の種類は、背景領域84を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、背景領域らしさ66の種類は、表を表す表領域、図を表す図領域、表および図以外のその他の領域、などである。
The type of background area-likeness 66 represents the label of each group in which the
導出部22が、画像50の画素領域ごとに、より複数の種類の、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。この導出処理により、抽出部24では、より高精度に文字列中心領域80を特定することができる。このため、抽出部24は、より高精度に行画像領域60を抽出することができる。
The derivation unit 22 derives a plurality of types of character string central area likenesses 62 , border area likenesses 64 , and background area likenesses 66 for each pixel area of the
図1に戻り説明を続ける。 Returning to FIG. 1, the description continues.
文字列認識部26は、抽出部24で抽出された行画像領域60ごとに、行画像領域60に含まれる文字を認識し、文字認識結果を出力する。文字列認識部26による文字認識には、公知の方法を用いればよい。
The character
次に、本実施形態の文字列抽出装置10で実行する情報処理の流れの一例を説明する。
Next, an example of the flow of information processing executed by the character
図8は、文字列抽出装置10で実行される情報処理の流れの一例を示すフローチャートである。なお、図8には、文字列抽出装置10が文字列認識部26を備える構成である場合の情報処理の流れの一例を示す。
FIG. 8 is a flowchart showing an example of the flow of information processing executed by the character
導出部22は、画像50から、画素領域ごとに文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66の各々を表すスコア61を導出する(ステップS100)。 The deriving unit 22 derives a score 61 representing each of the character string central region likelihood 62, boundary region likelihood 64, and background region likelihood 66 for each pixel region from the image 50 (step S100).
抽出部24は、ステップS100で導出されたスコア61に基づいて、画像50に含まれる行画像領域60を抽出する(ステップS102)。
The
文字列認識部26は、ステップS102で抽出された行画像領域60の文字認識結果を出力する(ステップS104)。
The character
そして、本ルーチンを終了する。 Then, the routine ends.
以上説明したように、本実施形態の文字列抽出装置10は、導出部22と、抽出部24と、を備える。導出部22は、NNW23を用いて、文字を記入された記録媒体の画像50から、画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。抽出部24は、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66に基づいて、画像50に含まれる行ごとの文字列52の行画像領域60を抽出する。
As described above, the character
ここで、従来技術では、複数の文字列52の行が接近または重複して記入されている場合、複数の文字列52の行を同一の行の行画像領域として誤特定する場合があった。
Here, in the prior art, when lines of a plurality of
図9Aは、従来の行画像領域の特定の一例の説明図である。例えば、非特許文献1に開示されている方法では、複数の文字列52の行が接近または重複して記入されている場合、重複または接近する領域Qを背景として分類することが困難である。このため、従来技術では、図9Aに示すように、異なる行の文字列52である文字列52Aと文字列52Bとを、同一の行の行画像領域600として誤特定する場合があった。すなわち、従来技術では、画像50から行ごとの文字列52の行画像領域60を高精度に抽出することは困難であった。
FIG. 9A is an explanatory diagram of an example of conventional line image area identification. For example, in the method disclosed in
一方、本実施形態の文字列抽出装置10では、抽出部24が、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66に基づいて、画像50に含まれる行ごとの文字列52の行画像領域60を抽出する。すなわち、本実施形態の文字列抽出装置10では、文字列中心領域らしさ62および背景領域らしさ66のみではなく、境界領域らしさ64を更に用いて、行画像領域60を抽出する。
On the other hand, in the character
このため、図9Bに示すように、本実施形態の文字列抽出装置10では、異なる行の文字列52である文字列52Aと文字列52Bとを、別の行の行画像領域60Aおよび行画像領域60Bの各々として抽出することができる。
For this reason, as shown in FIG. 9B, in the character
すなわち、本実施形態の文字列抽出装置10では、文字列中心領域らしさ62および背景領域らしさ66に加えて、境界領域らしさ64を更に用いることで、画素領域ごとに算出される文字列中心領域80の尤度を高精度に算出することができる。そして、本実施形態の文字列抽出装置10は、算出した尤度に基づいて特定した文字列中心領域80を用いることで、高精度に行画像領域60を抽出することができる。
That is, in the character
従って、本実施形態の文字列抽出装置10は、行ごとの文字列52の行画像領域60を高精度に抽出することができる。
Therefore, the character
また、本実施形態の文字列抽出装置10では、文字列中心領域80は、文字列領域86内の所定位置に向かって文字列領域86を第2画素数縮小した領域である。
Further, in the character
図10Aは、文字列領域86を所定の縮小比率で縮小した場合の説明図である。図10Aに示すように、文字列領域86を所定の縮小比率で縮小した領域を文字列中心領域80とした場合、文字列中心領域80の一部が消失する場合がある。
FIG. 10A is an explanatory diagram when the
図10Bは、文字列領域86を第2画素数縮小した場合の説明図である。図10Bに示すように、文字列領域86を第2画素数縮小した領域を文字列中心領域80とすると、文字列中心領域80の一部が消失することを抑制することができる。
FIG. 10B is an explanatory diagram when the
このため、本実施形態の文字列抽出装置10は、上記効果に加えて、文字列領域86が複雑な形状である場合であっても、高精度に行画像領域60を抽出することができる。
Therefore, in addition to the effects described above, the character
また、本実施形態の文字列抽出装置10では、高精度に抽出された行画像領域60の文字認識が行われることで、上記効果に加えて、画像50に含まれる文字を高精度に認識することができる。
Further, in the character
次に、本実施形態の文字列抽出装置10のハードウェア構成を説明する。
Next, the hardware configuration of the character
図11は、本実施形態の文字列抽出装置10の一例のハードウェア構成図である。
FIG. 11 is a hardware configuration diagram of an example of the character
本実施形態の文字列抽出装置10は、CPU91などの制御装置と、ROM(Read Only Memory)92やRAM(Random Access Memory)93などの記憶装置と、ネットワークに接続して通信を行う通信I/F94と、各部を接続するバス95と、を備える。
The character
本実施形態の文字列抽出装置10で実行されるプログラムは、ROM92等に予め組み込まれて提供される。
A program executed by the character
本実施形態の文字列抽出装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
The program to be executed by the character
さらに、本実施形態の文字列抽出装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の文字列抽出装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
Furthermore, the program executed by the character
本実施形態の文字列抽出装置10で実行されるプログラムは、コンピュータを、本実施形態の文字列抽出装置10の各部として機能させうる。このコンピュータは、CPU91がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
A program executed by the character
上記には、本発明の実施形態を説明したが、本実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。本実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although embodiments of the present invention have been described above, the embodiments are presented as examples and are not intended to limit the scope of the invention. The novel embodiments described above can be embodied in various other forms, and various omissions, replacements, and modifications can be made without departing from the scope of the invention. This embodiment and its modifications are included in the scope and gist of the invention, and are included in the scope of the invention described in the claims and equivalents thereof.
10 文字列抽出装置
22 導出部
23 NNW
24 抽出部
10 character string extraction device 22 derivation unit 23 NNW
24 Extractor
実施形態の文字列抽出装置は、導出部と、抽出部と、を備える。導出部は、ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出する。抽出部は、前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出する。前記境界領域らしさは、境界領域である度合いを示し、前記境界領域は、前記文字列領域と前記文字列中心領域との間の全領域である。 A character string extraction device according to an embodiment includes a derivation unit and an extraction unit. The deriving unit uses a neural network to determine, for each pixel area of an image of a recording medium in which characters are written, the likeness of a character string central area within a character string area, the boundary between the character string area and the character string central area. Region-likeness and background-likeness are derived. The extraction unit extracts a line image area of the character string for each line included in the image based on the likeness of the character string center area, the likeness of the boundary area, and the likeness of the background area. The boundary area-likeness indicates the degree of being a boundary area, and the boundary area is the entire area between the character string area and the character string center area.
Claims (8)
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出する抽出部と、
を備える文字列抽出装置。 Using a neural network, for each pixel area of an image of a recording medium in which characters are written, the likeness of a character string central area within a character string area, the likeness of a boundary area between the character string area and the character string central area, and , a derivation unit for deriving the likeness of the background region;
an extraction unit that extracts a line image area of a character string for each line included in the image based on the likeness of the central area of the character string, the likeness of the boundary area, and the likeness of the background area;
A string extractor with
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさを用いて画素領域ごとに算出した前記文字列中心領域の尤度に基づいて、前記画像に含まれる前記文字列中心領域を特定し、
前記文字列中心領域または前記文字列中心領域を第1画素数拡大した領域を、前記行画像領域として抽出する、
請求項1に記載の文字列抽出装置。 The extractor is
Identifying the character string central region included in the image based on the likelihood of the character string central region calculated for each pixel region using the character string central region likelihood, the boundary region likelihood, and the background region likelihood death,
extracting the character string center region or a region obtained by enlarging the character string center region by a first number of pixels as the line image region;
The character string extraction device according to claim 1.
前記文字列領域を該文字列領域内の所定位置に向かって第2画素数縮小した領域である、
請求項1または請求項2に記載の文字列抽出装置。 The character string central region is
An area obtained by reducing the character string area by a second number of pixels toward a predetermined position within the character string area,
3. The character string extraction device according to claim 1 or 2.
互いに異なる行の文字列の前記文字列中心領域が非連結となる、前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさを導出するように、予め学習されてなる、
請求項1~請求項3の何れか1項に記載の文字列抽出装置。 The neural network is
It is learned in advance so as to derive the character string central region-likeness, the boundary region-likeness, and the background region-likeness in which the character string central regions of character strings on different lines are not connected,
The character string extraction device according to any one of claims 1 to 3.
前記境界領域らしさの損失の重み係数が、前記文字列中心領域らしさ、および、前記背景領域らしさの損失の重み係数より大きい損失関数を最小化するようにあらかじめ学習されてなる、
請求項1~請求項4の何れか1項に記載の文字列抽出装置。 The neural network is
pre-learned so as to minimize a loss function in which the weighting factor of the loss of the likeness of the boundary area is greater than the weighting factor of the loss of the likeness of the character string central area and the likeness of the background area;
The character string extraction device according to any one of claims 1 to 4.
前記画像の画素領域ごとに、
1または複数種類の前記文字列中心領域らしさ、1または複数種類の前記境界領域らしさ、および、1または複数種類の前記背景領域らしさ、を導出する、
請求項1~請求項5の何れか1項に記載の文字列抽出装置。 The derivation unit is
For each pixel region of the image,
Deriving one or more types of the character string central region-likeness, one or more types of the boundary region-likeness, and one or more types of the background region-likeness;
The character string extraction device according to any one of claims 1 to 5.
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出するステップと、
を含む文字列抽出方法。 Using a neural network, for each pixel area of an image of a recording medium in which characters are written, the likeness of a character string central area within a character string area, the likeness of a boundary area between the character string area and the character string central area, and , background region-likeness, and
extracting a line image region of a character string for each line included in the image based on the likeness of the character string center region, the likeness of the border region, and the likeness of the background region;
String extraction method containing .
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出するステップと、
をコンピュータに実行させるための文字列抽出プログラム。 Using a neural network, for each pixel area of an image of a recording medium in which characters are written, the likeness of a character string central area within a character string area, the likeness of a boundary area between the character string area and the character string central area, and , background region-likeness, and
extracting a line image region of a character string for each line included in the image based on the likeness of the character string center region, the likeness of the border region, and the likeness of the background region;
A string extraction program for executing on a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021151644A JP7043670B1 (en) | 2021-09-17 | 2021-09-17 | String extractor, string extractor, and string extractor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021151644A JP7043670B1 (en) | 2021-09-17 | 2021-09-17 | String extractor, string extractor, and string extractor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7043670B1 JP7043670B1 (en) | 2022-03-29 |
JP2023043910A true JP2023043910A (en) | 2023-03-30 |
Family
ID=81215101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021151644A Active JP7043670B1 (en) | 2021-09-17 | 2021-09-17 | String extractor, string extractor, and string extractor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7043670B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102023131034A1 (en) | 2023-03-20 | 2024-09-26 | Mitsubishi Electric Corporation | Semiconductor device and method for manufacturing the semiconductor device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023156815A (en) * | 2022-04-13 | 2023-10-25 | パナソニックIpマネジメント株式会社 | Character recognition device, character recognition method, and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06111070A (en) * | 1992-09-30 | 1994-04-22 | Toshiba Corp | Character recognizing device |
JP6111070B2 (en) | 2010-10-15 | 2017-04-05 | 三井金属鉱業株式会社 | Carbon monoxide production method and production apparatus |
JP6818539B2 (en) * | 2016-05-19 | 2021-01-20 | 日本放送協会 | Image processing equipment and image processing program |
JP7373367B2 (en) * | 2019-11-20 | 2023-11-02 | 日本放送協会 | Character region detection model learning device and its program, and character region detection device and its program |
-
2021
- 2021-09-17 JP JP2021151644A patent/JP7043670B1/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102023131034A1 (en) | 2023-03-20 | 2024-09-26 | Mitsubishi Electric Corporation | Semiconductor device and method for manufacturing the semiconductor device |
Also Published As
Publication number | Publication date |
---|---|
JP7043670B1 (en) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mahdavi et al. | ICDAR 2019 CROHME+ TFD: Competition on recognition of handwritten mathematical expressions and typeset formula detection | |
US8731300B2 (en) | Handwritten word spotter system using synthesized typed queries | |
Sabbour et al. | A segmentation-free approach to Arabic and Urdu OCR | |
Weinman et al. | Toward integrated scene text reading | |
Mathew et al. | Benchmarking scene text recognition in Devanagari, Telugu and Malayalam | |
RU2757713C1 (en) | Handwriting recognition using neural networks | |
JPH08305803A (en) | Operating method of learning machine of character template set | |
JP2005228328A (en) | Apparatus and method for searching for digital ink query | |
JP2023043910A (en) | Character string extraction device, character string extraction method and character string extraction program | |
JP2017511917A (en) | Method and apparatus for recognizing musical symbols | |
CN115039144B (en) | Method and computing device for processing math and text in handwriting | |
Alghamdi et al. | Printed Arabic script recognition: A survey | |
Rajnoha et al. | Offline handwritten text recognition using support vector machines | |
JP2008225695A (en) | Character recognition error correction device and program | |
US11756321B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
Ul-Hasan | Generic text recognition using long short-term memory networks | |
JP6735775B2 (en) | System and method for superimposed handwriting input recognition technology | |
Feild | Improving text recognition in images of natural scenes | |
Khosrobeigi et al. | A rule-based post-processing approach to improve Persian OCR performance | |
Chang et al. | An image-based automatic Arabic translation system | |
JP7322468B2 (en) | Information processing device, information processing method and program | |
JP7285018B2 (en) | Program, erroneous character detection device, and erroneous character detection method | |
Radzid et al. | Framework of page segmentation for mushaf Al-Quran based on multiphase level segmentation | |
AbdelRaouf | Offline printed Arabic character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210922 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7043670 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |