JP2021057710A5

JP2021057710A5 -

Info

Publication number: JP2021057710A5
Application number: JP2019177784A
Authority: JP
Filing date: 2019-09-27
Publication date: 2022-09-28
Anticipated expiration: 2039-09-27

Description

図４は、本実施例に係る学習の仕組みについて説明するための説明図である。図４には、入力層、３つの中間層及び出力層からなる一例としてのニューラルネットワークモデルが示されている。入力層は、２つの読取画像４１１、４２１に基づく２つのデータセット４１２、４２２のデータ要素に対応する複数のノードからなる。中間層の各々もまた複数のノードを有し、各ノードには重み及びバイアスといったモデルパラメータが割り当てられる。モデルパラメータは、層間で値を伝搬するための演算に使用され、例えば２番目の中間層のノードｂ１の値は次式のように算出され得る：
ｂ１＝α×ａ１＋β×ａ２＋γ×ａ３＋...
ここで、α、β及びγが重みを表し、バイアスは式中で省略されている。なお、上の式は線形結合を表しているが、実際には非線形的な演算が行われ得る。一時的に各ノードに割り当てられたモデルパラメータに従って、１セットの入力データから出力層を構成するノードの値が算出され得る。図４の例では、出力層は、「頁欠損なし」の推定確率Ｙ１及び「頁欠損あり」の推定確率Ｙ２をそれぞれ表す２つのノードからなる。推定確率Ｙ１、Ｙ２は、０から１の範囲の値をとる。学習処理では、頁欠損の有無が既知である多数の読取画像４１１、４２１のペアが用意され、ペアごとに順次出力層の推定確率が算出される。頁欠損の有無は、教師データにより示され、頁欠損ありのペアについてはＹ１＝０．０、Ｙ２＝１．０、頁欠損なしのペアについてはＹ１＝１．０、Ｙ２＝０．０である。１つのペアについて推定確率が算出されると、正解値に対するその推定確率の損失Ｌが最小化されるように、モデルパラメータが調整される。損失Ｌは、例えば次のような損失関数に従って算出され得る：
Ｌ＝１－Ｙ１（頁欠損なしの入力データの場合）
Ｌ＝１－Ｙ２（頁欠損ありの入力データの場合）
学習部３０３は、多数の読取画像ペアの各々についてこのような推定確率の算出及びモデルパラメータの調整を学習が充分に収束したと判定されるまで（又は反復回数が上限値に達するまで）繰り返す。そして、学習部３０３は、学習処理が終了すると、学習済みモデル、即ち、モデルパラメータのセットをモデル記憶部３０４に記憶させる。

図６は、頁欠損があると判定された場合に画面上に表示され得るＧＵＩ（Graphical User Interface）の一例を示す説明図である。図６に示したＧＵＩ６００は、頁欠損が発生したことを通知するメッセージと共に、欠損したと判定された頁の直前の読取画像のプレビュー６０１及び直後の読取画像のプレビュー６０２を含む。さらに、ＧＵＩ６００は、読取り中止ボタン６１１及び続行ボタン６１２を含む。ユーザは、プレビュー６０１及び６０２を見て、実際に頁欠損が発生していると判断される場合、読取り中止ボタン６１１を選択（例えば、タップ）して、画像読取装置１０に後続頁の読取りの中止を指示することができる。また、ユーザは、プレビュー６０１及び６０２を見て、頁欠損の検出は誤りであると判断される場合、続行ボタン６１２を選択して、画像読取装置１０に後続頁の読取りの続行を指示することができる。このように、頁欠損検出時にプレビューの表示と共に後続頁の読取りを続行するか否かをユーザへ問合せることにより、本来は中止すべきではなかった読取りが判定の不正確さに起因して中止してしまうといったユーザの不都合を回避することができる。

学習処理では、画像内の連続番号要素の最小値及び最大値が既知である多数の読取画像が用意され、読取画像ごとに順次出力層の出力値が算出される。本実施例における損失Ｌは、次式のように、出力層の出力値Ｘが教師データにより示される対応する期待値に一致したか否かを示すブール値Ｂ（Ｘ）の加重平均に基づいて算出され得る。なお、出力値Ｘが期待値に一致する場合にはＢ（Ｘ）＝１、一致しない場合にはＢ（Ｘ）＝０である：
Ｌ＝１－（ｋ₁×Ｂ（Ｐ_min）＋ｋ₂×Ｂ（Ｐ_max）＋ｋ₃×Ｂ（Ｃ_min）
＋ｋ₄×Ｂ（Ｃ_max）＋ｋ₅×Ｂ（Ｆ_min）＋ｋ₆×Ｂ（Ｆ_max）
＋ｋ₇×Ｂ（Ｔ_min）＋ｋ₈×Ｂ（Ｔ_max）＋ｋ₉×Ｂ（Ｅ_min）＋ｋ₁₀×Ｂ（Ｅ_max））
ここで、ｋ₁、ｋ₂、...、ｋ₁₀は、加重平均のための重み係数であり、ｋ₁＋ｋ₂＋...＋ｋ₁₀＝１を満たす。一例として、頁番号の値の検出精度を優先的に高める場合には、ｋ₁＝ｋ₂＝０．２、ｋ₃＝ｋ₄＝...＝ｋ₁₀＝０．０７５のように重み係数が不均一に設定されてよい。