JP2021057710A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2021057710A5 JP2021057710A5 JP2019177784A JP2019177784A JP2021057710A5 JP 2021057710 A5 JP2021057710 A5 JP 2021057710A5 JP 2019177784 A JP2019177784 A JP 2019177784A JP 2019177784 A JP2019177784 A JP 2019177784A JP 2021057710 A5 JP2021057710 A5 JP 2021057710A5
- Authority
- JP
- Japan
- Prior art keywords
- missing
- page
- calculated
- reading
- pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Description
図4は、本実施例に係る学習の仕組みについて説明するための説明図である。図4には、入力層、3つの中間層及び出力層からなる一例としてのニューラルネットワークモデルが示されている。入力層は、2つの読取画像411、421に基づく2つのデータセット412、422のデータ要素に対応する複数のノードからなる。中間層の各々もまた複数のノードを有し、各ノードには重み及びバイアスといったモデルパラメータが割り当てられる。モデルパラメータは、層間で値を伝搬するための演算に使用され、例えば2番目の中間層のノードb1の値は次式のように算出され得る:
b1=α×a1+β×a2+γ×a3+...
ここで、α、β及びγが重みを表し、バイアスは式中で省略されている。なお、上の式は線形結合を表しているが、実際には非線形的な演算が行われ得る。一時的に各ノードに割り当てられたモデルパラメータに従って、1セットの入力データから出力層を構成するノードの値が算出され得る。図4の例では、出力層は、「頁欠損なし」の推定確率Y1及び「頁欠損あり」の推定確率Y2をそれぞれ表す2つのノードからなる。推定確率Y1、Y2は、0から1の範囲の値をとる。学習処理では、頁欠損の有無が既知である多数の読取画像411、421のペアが用意され、ペアごとに順次出力層の推定確率が算出される。頁欠損の有無は、教師データにより示され、頁欠損ありのペアについてはY1=0.0、Y2=1.0、頁欠損なしのペアについてはY1=1.0、Y2=0.0である。1つのペアについて推定確率が算出されると、正解値に対するその推定確率の損失Lが最小化されるように、モデルパラメータが調整される。損失Lは、例えば次のような損失関数に従って算出され得る:
L=1-Y1 (頁欠損なしの入力データの場合)
L=1-Y2 (頁欠損ありの入力データの場合)
学習部303は、多数の読取画像ペアの各々についてこのような推定確率の算出及びモデルパラメータの調整を学習が充分に収束したと判定されるまで(又は反復回数が上限値に達するまで)繰り返す。そして、学習部303は、学習処理が終了すると、学習済みモデル、即ち、モデルパラメータのセットをモデル記憶部304に記憶させる。
b1=α×a1+β×a2+γ×a3+...
ここで、α、β及びγが重みを表し、バイアスは式中で省略されている。なお、上の式は線形結合を表しているが、実際には非線形的な演算が行われ得る。一時的に各ノードに割り当てられたモデルパラメータに従って、1セットの入力データから出力層を構成するノードの値が算出され得る。図4の例では、出力層は、「頁欠損なし」の推定確率Y1及び「頁欠損あり」の推定確率Y2をそれぞれ表す2つのノードからなる。推定確率Y1、Y2は、0から1の範囲の値をとる。学習処理では、頁欠損の有無が既知である多数の読取画像411、421のペアが用意され、ペアごとに順次出力層の推定確率が算出される。頁欠損の有無は、教師データにより示され、頁欠損ありのペアについてはY1=0.0、Y2=1.0、頁欠損なしのペアについてはY1=1.0、Y2=0.0である。1つのペアについて推定確率が算出されると、正解値に対するその推定確率の損失Lが最小化されるように、モデルパラメータが調整される。損失Lは、例えば次のような損失関数に従って算出され得る:
L=1-Y1 (頁欠損なしの入力データの場合)
L=1-Y2 (頁欠損ありの入力データの場合)
学習部303は、多数の読取画像ペアの各々についてこのような推定確率の算出及びモデルパラメータの調整を学習が充分に収束したと判定されるまで(又は反復回数が上限値に達するまで)繰り返す。そして、学習部303は、学習処理が終了すると、学習済みモデル、即ち、モデルパラメータのセットをモデル記憶部304に記憶させる。
図6は、頁欠損があると判定された場合に画面上に表示され得るGUI(Graphical User Interface)の一例を示す説明図である。図6に示したGUI600は、頁欠損が発生したことを通知するメッセージと共に、欠損したと判定された頁の直前の読取画像のプレビュー601及び直後の読取画像のプレビュー602を含む。さらに、GUI600は、読取り中止ボタン611及び続行ボタン612を含む。ユーザは、プレビュー601及び602を見て、実際に頁欠損が発生していると判断される場合、読取り中止ボタン611を選択(例えば、タップ)して、画像読取装置10に後続頁の読取りの中止を指示することができる。また、ユーザは、プレビュー601及び602を見て、頁欠損の検出は誤りであると判断される場合、続行ボタン612を選択して、画像読取装置10に後続頁の読取りの続行を指示することができる。このように、頁欠損検出時にプレビューの表示と共に後続頁の読取りを続行するか否かをユーザへ問合せることにより、本来は中止すべきではなかった読取りが判定の不正確さに起因して中止してしまうといったユーザの不都合を回避することができる。
学習処理では、画像内の連続番号要素の最小値及び最大値が既知である多数の読取画像が用意され、読取画像ごとに順次出力層の出力値が算出される。本実施例における損失Lは、次式のように、出力層の出力値Xが教師データにより示される対応する期待値に一致したか否かを示すブール値B(X)の加重平均に基づいて算出され得る。なお、出力値Xが期待値に一致する場合にはB(X)=1、一致しない場合にはB(X)=0である:
L=1-(k1×B(Pmin)+k2×B(Pmax)+k3×B(Cmin)
+k4×B(Cmax)+k5×B(Fmin)+k6×B(Fmax)
+k7×B(Tmin)+k8×B(Tmax)+k9×B(Emin)+k10×B(Emax))
ここで、k1、k2、...、k10は、加重平均のための重み係数であり、k1+k2+...+k10=1を満たす。一例として、頁番号の値の検出精度を優先的に高める場合には、k1=k2=0.2、k3=k4=...=k10=0.075のように重み係数が不均一に設定されてよい。
L=1-(k1×B(Pmin)+k2×B(Pmax)+k3×B(Cmin)
+k4×B(Cmax)+k5×B(Fmin)+k6×B(Fmax)
+k7×B(Tmin)+k8×B(Tmax)+k9×B(Emin)+k10×B(Emax))
ここで、k1、k2、...、k10は、加重平均のための重み係数であり、k1+k2+...+k10=1を満たす。一例として、頁番号の値の検出精度を優先的に高める場合には、k1=k2=0.2、k3=k4=...=k10=0.075のように重み係数が不均一に設定されてよい。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019177784A JP7402647B2 (ja) | 2019-09-27 | 2019-09-27 | 画像読取装置、判定方法及びプログラム |
US17/028,215 US11206333B2 (en) | 2019-09-27 | 2020-09-22 | Image reading and learning apparatus, method, and program product for determining a missing page using a learned model and deriving the learned model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019177784A JP7402647B2 (ja) | 2019-09-27 | 2019-09-27 | 画像読取装置、判定方法及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021057710A JP2021057710A (ja) | 2021-04-08 |
JP2021057710A5 true JP2021057710A5 (ja) | 2022-09-28 |
JP7402647B2 JP7402647B2 (ja) | 2023-12-21 |
Family
ID=75162589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019177784A Active JP7402647B2 (ja) | 2019-09-27 | 2019-09-27 | 画像読取装置、判定方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11206333B2 (ja) |
JP (1) | JP7402647B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7338432B2 (ja) * | 2019-11-27 | 2023-09-05 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03274196A (ja) * | 1990-03-23 | 1991-12-05 | Ricoh Co Ltd | ページめくり装置 |
US7797622B2 (en) | 2006-11-15 | 2010-09-14 | Xerox Corporation | Versatile page number detector |
US20080193051A1 (en) * | 2007-02-12 | 2008-08-14 | Kabushiki Kaisha Toshiba | Image forming processing apparatus and method of processing image for the same |
JP2008278307A (ja) | 2007-05-01 | 2008-11-13 | Canon Inc | 画像読取システム及び原稿読取システムの制御方法 |
JP4482590B2 (ja) * | 2008-03-21 | 2010-06-16 | シャープ株式会社 | 画像読取装置、画像読取方法、画像形成装置およびプログラム |
JP2016178451A (ja) | 2015-03-19 | 2016-10-06 | シャープ株式会社 | 画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体 |
JP6561947B2 (ja) | 2016-09-02 | 2019-08-21 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
-
2019
- 2019-09-27 JP JP2019177784A patent/JP7402647B2/ja active Active
-
2020
- 2020-09-22 US US17/028,215 patent/US11206333B2/en active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908803B (zh) | 问答交互的响应方法及装置、存储介质、终端 | |
CN109299142B (zh) | 一种基于进化算法的卷积神经网络结构搜索方法及系统 | |
US9619749B2 (en) | Neural network and method of neural network training | |
WO2020224297A1 (zh) | 计算机执行的集成模型的确定方法及装置 | |
CN109214973A (zh) | 针对隐写分析神经网络的对抗安全载体生成方法 | |
US10726206B2 (en) | Visual reference resolution using attention memory for visual dialog | |
JP6931624B2 (ja) | 学習支援装置および学習支援方法 | |
CN114511472B (zh) | 一种视觉定位方法、装置、设备及介质 | |
JPH05502531A (ja) | 神経ネットワーク | |
WO2017143773A1 (zh) | 一种众包学习方法及装置 | |
JP2021057710A5 (ja) | ||
KR20230142804A (ko) | 시험 문제 생성 방법, 장치 및 시스템, 컴퓨터 저장 매체 및 프로그램 제품 | |
WO2019232959A1 (zh) | 基于人工智能的作曲方法、系统、计算机设备和存储介质 | |
EP3848903A1 (en) | Conversion of a multi plane image to a layered mesh | |
CN110263181A (zh) | 知识结构的挖掘方法及学习路径的规划方法 | |
CN112733552B (zh) | 机器翻译模型构建方法、装置以及设备 | |
JPH03288285A (ja) | データ処理装置の学習方法 | |
JP6921526B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN107544248A (zh) | 一种移动机器人中的任务优化方法及设备 | |
WO2020183979A1 (ja) | 学習装置、学習方法及び非一時的なコンピュータ可読媒体 | |
JP7418106B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP6461238B2 (ja) | バーチャルリアリティデバイスに応用する操作方法と装置およびバーチャルリアリティデバイス | |
JP6512082B2 (ja) | 講義確認システム | |
CN113742604B (zh) | 一种谣言检测方法、装置、电子设备和存储介质 | |
WO2023188160A1 (ja) | 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体 |