JP2020149409A - 情報処理装置、機械学習装置および情報処理方法 - Google Patents

情報処理装置、機械学習装置および情報処理方法 Download PDF

Info

Publication number
JP2020149409A
JP2020149409A JP2019046842A JP2019046842A JP2020149409A JP 2020149409 A JP2020149409 A JP 2020149409A JP 2019046842 A JP2019046842 A JP 2019046842A JP 2019046842 A JP2019046842 A JP 2019046842A JP 2020149409 A JP2020149409 A JP 2020149409A
Authority
JP
Japan
Prior art keywords
data
file name
read data
character string
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019046842A
Other languages
English (en)
Other versions
JP6935809B2 (ja
Inventor
健太郎 金田
Kentaro Kaneda
健太郎 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2019046842A priority Critical patent/JP6935809B2/ja
Priority to CN202010169601.0A priority patent/CN111695568B/zh
Priority to US16/818,066 priority patent/US11335107B2/en
Publication of JP2020149409A publication Critical patent/JP2020149409A/ja
Application granted granted Critical
Publication of JP6935809B2 publication Critical patent/JP6935809B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】広範囲の原稿をファイル名の生成対象とする。【解決手段】スキャナーで読み取られた原稿の読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つと、前記読取データのファイル名とを対応付けた教師データを用いて機械学習した学習済モデルを記憶する記憶部と、前記読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つと、前記学習済モデルとを用いて、前記読取データのファイル名を生成する制御部と、を備える情報処理装置を構成する。【選択図】図1

Description

本発明は、情報処理装置、機械学習装置および情報処理方法に関する。
従来、ファイル名を自動的に生成する技術が知られている。例えば、特許文献1においては、フォーム毎に予め指定されている認識箇所のイメージデータを読み込んで文字認識処理を行い、認識された文字列に基づいてファイル名を生成することが記載されている。
特開2008−71050号公報
従来の技術においては、定型的なフォームの指定された場所の文字によってファイル名が決められてしまう。従って、非定型的なフォームの読取データに対してファイル名を生成することができない。
本発明は、広範囲の原稿をファイル名の生成対象とすることを目的とする。
上記目的を達成するための情報処理装置は、スキャナーで読み取られた原稿の読取データに含まれている画像、文字列、読取データのレイアウト、のうちの少なくとも1つと、読取データのファイル名とを対応付けた教師データを用いて機械学習した学習済モデルを記憶する記憶部と、読取データに含まれている画像、文字列、読取データのレイアウト、のうちの少なくとも1つと、学習済モデルとを用いて、読取データのファイル名を生成する制御部と、を備える。この構成によれば、広範囲の原稿をファイル名の生成対象とすることができる。
また、制御部が生成したファイル名が変更された場合、読取データに含まれている画像、文字列、読取データのレイアウト、のうちの少なくとも1つと、変更後のファイル名とを対応づけた教師データを用いて学習済モデルを再学習させる学習部、をさらに備える構成であっても良い。この構成によれば、変更されたファイル名の傾向に応じてファイル名を出力することが可能になる。
さらに、学習部は、変更後のファイル名の学習結果に対する影響を、変更前のファイル名よりも大きくして再学習させる構成であっても良い。この構成によれば、利用者による変更の傾向を早期に学習することが可能になる。
さらに、学習部は、変更された文字列の学習結果に対する影響を、変更前の文字列よりも大きくして再学習させる構成であっても良い。この構成によれば、利用者が文字列を変更した場合に、変更後の文字列の傾向を早期に学習することが可能になる。
さらに、ファイル名は、読取データに含まれる日付情報を有する構成であってもよい。この構成によれば、読取データに基づいて、日付情報を有するファイル名を生成することが可能になる。
さらに、学習済モデルは、ファイル名に日付情報が含まれるか否かを出力する構成であっても良い。この構成によれば、ファイル名に日付情報を含むか否かを学習し、学習結果に基づいてファイル名を生成することが可能になる。
さらに、教師データが示すファイル名は、利用者によって入力された文字列と、読取データに対するOCR処理によって読み取られた文字列との少なくとも一方を含む構成であっても良い。この構成によれば、利用者によるファイル名の作成傾向と、読取データに含まれる文字列に関連したファイル名の傾向と、の少なくとも一方を学習することができる。
さらに、画像は、原稿の発行元を示す画像を含み、制御部は、発行元を示す画像を基に原稿の発行元を特定し、発行元の名称を含むファイル名を生成する構成であっても良い。この構成によれば、会社のロゴマークなどの画像に応じたファイル名を生成することが可能になる。
さらに、スキャナーで読み取られた原稿の読取データに含まれている画像、文字列、読取データのレイアウト、のうちの少なくとも1つと、読取データのファイルに関する情報とを対応付けた教師データを取得する教師データ取得部と、読取データに含まれている画像、文字列、読取データのレイアウト、のうちの少なくとも1つを入力し、読取データのファイルに関する情報を出力する学習済モデルを、教師データに基づいて機械学習する学習部と、を備える機械学習装置が構成されても良い。この構成によれば、読取データに応じたファイル名の作成傾向を学習し、出力する学習済モデルを作成することができる。
情報処理装置および機械学習装置のブロック図。 機械学習処理のフローチャート。 機械学習を行うモデルを示す図。 ファイル名の特定を示す図。 ファイル名生成処理のフローチャート。 原稿の例を示す図。 機械学習を行うモデルを示す図。
ここでは、下記の順序に従って本発明の実施の形態について説明する。
(1)情報処理装置および機械学習装置の構成:
(2)機械学習処理:
(3)ファイル名生成処理:
(4)他の実施形態:
(1)情報処理装置および機械学習装置の構成:
図1は、本発明の実施形態にかかる情報処理装置1を示すブロック図である。本実施形態にかかる情報処理装置1は、スキャナー2に接続されたコンピューターである。なお、本実施形態における情報処理装置1は、機械学習装置としても機能する。情報処理装置1は、プロセッサー10と、HDD(ハードディスクドライブ)等の記憶部20と、機器インターフェース30と、ディスプレイインターフェース40とを備えている。
機器インターフェース30は、既定の通信プロトコル(例えばUSB(Universal Serial Bus)規格)に従って通信を行う機器を接続可能なインターフェースである。本実施形態において、機器インターフェース30には、スキャナー2、マウス3a、キーボード3bが接続されている。スキャナー2は、原稿に光を照射する光源と、原稿からの光を受光して読み取りデータとするカラーイメージセンサーと、各種の可動部を移動させるための機械部品等を備えている。
本実施形態において、スキャナー2は、任意の原稿を読み取って、原稿の内容を示す読取データを出力することができる。なお、読取データのファイル形式は任意である。情報処理装置1は、機器インターフェース30を介してスキャナー2が出力する読取データを取得し、記憶部20に読取データ20aとして保存する。スキャナー2における原稿の読取方式は、種々の態様であって良く、フラットベッドであっても良いしADFによる搬送原稿を読み取る方式であっても良く、双方が可能であっても良い。
マウス3aは、利用者に把持されて移動される操作部とボタンとを備えており、操作部の移動量を示す情報とボタンに対する操作結果を示す情報とを出力する。情報処理装置1は、機器インターフェース30を介してマウス3aが出力する情報を取得し、当該情報に基づいて利用者の操作を受け付けることができる。キーボード3bは、複数のキーを備えており、キーに対する操作を示す情報を出力する。情報処理装置1は、機器インターフェース30を介してキーボード3bが出力する情報を取得し、当該情報に基づいて利用者の操作を受け付けることができる。
ディスプレイインターフェース40は、ディスプレイ4が接続されるインターフェースである。情報処理装置1は、ディスプレイインターフェース40を介してディスプレイ4に制御信号を出力し、ディスプレイ4に各種の画像を表示させることが可能である。
プロセッサー10は、CPU,RAM等を備え、記憶部20に記録された種々のプログラムを実行することができる。情報処理装置1は、機械学習装置としても機能するため、機械学習が行われる場合に利用されるプロセッサー(例えば、GPUや機械学習のために設計された専用プロセッサー等)を備えていても良い。
本実施形態においてプロセッサー10は、学習済モデルを生成する機械学習プログラムと、学習済モデルに基づいてファイル名を生成する情報処理プログラムとを実行可能である。これらのプログラムの一方または双方が実行されると、プロセッサー10は、教師データ取得部10a,学習部10b,制御部10cとして機能する。
プロセッサー10は、教師データ取得部10a,学習部10bの機能により教師データ20cに基づいて機械学習を行うことで、学習済モデル20bを生成することができる。また、プロセッサー10は、制御部10cの機能により、学習済モデル20bに基づいて読取データのファイル名を生成することができる。
(2)機械学習処理:
次に、プロセッサー10が実行する機械学習処理を説明する。図2は機械学習処理を示すフローチャートである。機械学習処理は、読取データのファイル名を生成する前に予め少なくとも1回実行される。なお、機械学習処理が1回実行されていたとしても、教師データ20cが増加したら、再学習が行われる。再学習の開始タイミングは種々のタイイングであって良く、一定期間毎であっても良いし、任意の期間毎であっても良いし、利用者が指示したタイミングであっても良い。
機械学習処理が開始されると、プロセッサー10は、学習部10bの機能により、訓練モデルを取得する(ステップS100)。ここで、モデルとは、推定対象のデータと推定結果のデータとの対応関係を導出する式を示す情報であり、ここでは読取データをファイル名に対応づけるモデルを例にして説明する。
入力データを出力データに変換する限りにおいて、モデルは種々の定義が可能である。本実施形態においては、CNN(Convolutional neural network)が利用される。図3は本実施形態において利用されるモデルを含み得るニューラルネットワークの構造を模式的に示した図である。同図3においては、CNNによるデータフォーマットの変化を直方体の変化で示しており、ニューラルネットワークのノードを白丸で示している。
本実施形態のモデルは、スキャナー2で読み取られた読取データをCNNの入力層Li1への入力データとし、層Ln1から読取データに関する中間出力データを出力する。CNNに入力する読取データは縦Hピクセル、横Wピクセルであり、各ピクセルについてR:赤、G:緑、B:青の3チャンネルの階調値が規定されている。従って、図3において入力層Li1の画像は縦H,横W,奥行き3の直方体で模式的に示されている。図3においては、画像が入力層に入力された後、CNNを経て、すなわち、所定の大きさおよび数のフィルターによる畳み込み演算、活性化関数による演算およびプーリング層の演算を経てH11×W11×D11個の出力値に変換される例を示している。図3においては、この後、複数の層(図示省略)を経てHm1×Wm1×Dm1個の出力値に変換される例を示している。CNNによってHm1×Wm1×Dm1個の出力値が得られた後、全結合によって層Ln1に読取データに関する中間出力データを示す出力値が得られる。
さらに、層Ln1のノードはニューラルネットワークを経て出力層Loに接続され、出力層Loにおいてファイル名を示す情報が出力される。むろん、層Ln1から出力層Loまでの間には、複数の層が設けられていても良い。出力層Loにおける出力はファイル名を示していれば良く、種々の形式を採用可能である。図3に示す例においては、ファイル名の位置毎の単語を示すn個(nは2以上の整数)のノード(図3に示す#1〜#n)と、日付情報を示すノード(図3に示すyyyy,mm,dd)とが存在する。
具体的には、日付情報を示すノードには、4桁の西暦(yyyy)、2桁の月(mm)、2桁の日(dd)が対応づけられており、読取データに日付情報が含まれる場合、その数値の形状等に基づいて日付情報が出力されるように構成されている。位置毎の単語を示すノードは、各位置に配置されるべき単語のコードを出力するように構成されている。図4は、位置毎の単語が特定されることでファイル名が特定される様子を示す図である。本実施形態において、ノード#1は左端の単語を示し、ノード#2は左端の右隣の単語を示し、以後、ノードの番号が1個増加するたびに単語の位置が1個ずつ移動する。そして、ノード#nは右端の単語を示している。ここでは、左から右に向けて文字が並べられる国が想定されているため、ノード#nの位置の単語は、拡張子の直前の単語である。
本実施形態においては、拡張子より前の(左側の)単語列が、学習済モデル20bによって生成されるファイル名であり、図4に例示されたファイル名は「店舗Aレシート20190301」である。当該ファイル名は「店舗A」、「レシート」、「20190301」という3個の単語で構成されている。なお、文字列の単語への分解は、形態素解析などの公知の種々の手法を採用可能である。
本実施形態において、位置毎の単語を示すノードからは、空白であることを示す値、単語のコード、日付情報であることを示す値のいずれかが出力される。例えば、図4に示すようにファイル名を構成する単語が3個である場合、ノード#n−2,ノード#n−1,ノード#nに有意な値であるコードの値が出力され、他のノードにおいては単語が存在しないことを示す値である0000が出力される。なお、任意の位置の単語が日付情報である場合、ノードの出力はFFFFである。すなわち、ノードの出力がFFFFである場合、そのノードが示す位置に日付情報が含まれるファイル名が生成される。以上の構成により、本実施形態においては、読取データに基づいて日付情報が含まれるファイル名を生成することが可能になる。
本実施形態において、単語のコードは予め作成され、記憶部20に記録された単語データ20fに基づいて特定される。図4においては、「名前B」という単語にコード0001が対応づけられ、「店舗A」という単語にコード0050が対応づけられ、「レシート」という単語にコード0115が対応づけられ、「契約書」という単語にコード0120が対応づけられている例を示している。この例であれば、ファイル名の最も左側の単語「店舗A」を示すコード0050がノード#n−2の出力となり、次の単語「レシート」を示すコード0115がノード#n−1の出力となる。また、最も右側に位置する日付情報を示すコードFFFFがノード#nの出力となる。
なお、単語データ20fは、種々の手法で作成されて良く、少なくとも、教師データ20cにおいて読取データに対応づけられたファイル名を構成する単語には、コードが付与されて単語データ20fに含められる。むろん、単語データ20fに含まれる単語は、教師データ20cにおいて読取データに対応づけられたファイル名を構成する単語よりも多数であって良く、例えば、各種のコーパスやインターネットでアクセス可能なウェブサイトから収集された単語等が単語データ20fを構成し得る。また、単語に対応づけられるコードは、種々の手法で表現されて良く、例えば、word2vec等の技術が利用されて作成されて良い。この場合、後述する損失関数によって計算される誤差は、ベクトル表現された単語間の誤差であってもよい。いずれにしても、単語データ20fにおいては、コードまたはコードに対応づけられた値(ベクトル)の誤差が小さいほど意味が近い単語やファイル名を構成する可能性が高い単語になるように定義されていることが好ましい。
本実施形態におけるモデルは、出力層Loにおいて、ファイル名の位置毎の単語を示すn個のノードと、日付情報を示すノードとを有している。以上の構成によれば、ファイル名の位置毎の単語を示すn個のノードの出力値(または出力値に最も近い値)に基づいて、単語データ20fもしくは日付情報から各位置の単語が決められることにより、ファイル名を生成することができる。
むろん、図3に示すモデルの一部を既知の関数で表現し、残りを未知の関数として表現し、未知の関数を学習対象としても良い。モデルがどのような態様であったとしても、読取データを入力すると最終的にファイル名が出力されるモデルが構築されていれば、読取データからファイル名を推定するためのモデルを学習することができる。
図2に示すフローチャートにおけるステップS100では、訓練モデルを取得する。ここで、訓練とは、学習対象であることを示す。すなわち、訓練モデルにおいては、読取データからファイル名を出力するが、読取データとファイル名との対応関係は初期において正確ではない。すなわち、訓練モデルにおいては、ノードが構成する層の数やノードの数は決められるが、入出力の関係を規定するパラメーター(上述の重みやバイアス等)は最適化されていない。これらのパラメーターは、機械学習の過程で最適化される(すなわち、訓練される)。
訓練モデルは、予め決定されていても良いし、利用者がマウス3aやキーボード3bを操作して入力することによって取得されても良い。いずれにしても、プロセッサー10は、図3に示す例において読取データからファイル名を出力するCNNやニューラルネットワークのパラメーターを訓練モデルとして取得する。当該訓練モデルは記憶部20に訓練モデル20eとして記録される。むろん、再学習が行われる場合、訓練モデルは既存のモデルであって良い。
次に、プロセッサー10は、学習部10bの機能により、教師データを取得する(ステップS105)。本実施形態において、教師データ20cは、スキャンした原稿の読取データと、当該読取データが保存された際に付与されたファイル名とを対応づけたデータである。本実施形態においては、原稿がスキャンされ、利用者によって入力された文字列によって読取データにファイル名が付与されると、当該ファイル名に読取データが対応づけられて保存される。また、当該読取データとファイル名との対応関係を規定する教師データ20cが記憶部20に追加される。プロセッサー10は、ステップS105において、最新の教師データ20cを取得する。
次に、プロセッサー10は、学習部10bの機能により、テストデータを取得する(ステップS110)。テストデータは学習結果が汎化しているか否か確認するためのデータであり、学習には利用されない。テストデータは、教師データ20cと別個に用意されても良いが、本実施形態においてはステップS105で取得された教師データ20cの一部をテストデータとして確保する。
次に、プロセッサー10は、学習部10bの機能により、初期値を決定する(ステップS115)。すなわち、プロセッサー10は、ステップS100で取得した訓練モデルのうち、可変のパラメーターに対して初期値を与える。初期値は、種々の手法で決定されて良い。例えば、ランダム値や0等を初期値とすることができ、重みとバイアスとで異なる思想で初期値が決定されても良い。むろん、学習の過程でパラメーターが最適化されるように初期値が調整されても良い。また、再学習が行われる場合、初期値は既存の学習済モデル20bの値であって良い。
次に、プロセッサー10は、学習部10bの機能により、学習を行う(ステップS120)。すなわち、プロセッサー10は、ステップS100で取得した訓練モデルにステップS105で取得した教師データ20cを入力し、ファイル名を示す出力を計算する。また、出力されたファイル名と教師データ20cが示すファイル名との誤差を示す損失関数によって誤差を特定する。そして、プロセッサー10は、損失関数のパラメーターによる微分に基づいてパラメーターを更新する処理を既定回数繰り返す。むろん、損失関数は、種々の関数を採用可能であり、例えば、交差エントロピー誤差などを採用可能である。
損失関数を算出する処理は、教師データ20cが示す読取データの全てまたは一部について実施され、その平均や総和によって1回の学習における損失関数が表現される。損失関数が得られたら、プロセッサー10は、既定の最適化アルゴリズム、例えば、確率的勾配降下法等によってパラメーターを更新する。
以上のようにして、既定回数のパラメーターの更新が行われると、プロセッサー10は、訓練モデルの汎化が完了したか否かを判定する(ステップS125)。すなわち、プロセッサー10は、ステップS110で取得したテストデータ20dを訓練モデルに入力してファイル名を示す出力を取得する。そして、プロセッサー10は、出力されたファイル名と、テストデータに対応づけられたファイル名とが一致している数を取得し、テストデータ20dが示すサンプル数で除することで推定精度を取得する。本実施形態において、プロセッサー10は、推定精度が閾値以上である場合に汎化が完了したと判定する。
なお、汎化性能の評価に加え、ハイパーパラメーターの妥当性の検証が行われてもよい。すなわち、重みとバイアス以外の可変量であるハイパーパラメーター、例えば、ノードの数等がチューニングされる構成において、プロセッサー10は、検証データに基づいてハイパーパラメーターの妥当性を検証しても良い。検証データは、ステップS110と同様に、予め用意されても良いし、教師データ20cの一部から抽出されても良い。むろん、検証データも訓練には使用されない。
ステップS125において、訓練モデルの汎化が完了したと判定されない場合、プロセッサー10は、ステップS120を繰り返す。すなわち、さらに重みおよびバイアスを更新する。一方、ステップS125において、訓練モデルの汎化が完了したと判定された場合、プロセッサー10は、学習済モデルを記録する(ステップS130)。すなわち、プロセッサー10は、訓練モデルを学習済モデル20bとして記憶部20に記録する。
以上の構成によれば、任意の読取データを学習済モデル20bに入力してファイル名生成することが可能になる。従って、定型的なフォームの指定された場所の文字に基づいてファイル名を生成するなどのファイル名生成ルールを、人為的に決めなくてもよく、任意の種類の原稿の画像に基づいて、教師データ20cが示すファイル名の傾向に適合したファイル名を出力することが可能になる。従って、広範囲の原稿をファイル名の生成対象とすることができる。さらに、利用者が好むファイル名を生成するような教師データ20cを予め用意することにより、利用者の好みに適合したファイル名の生成を行うことが可能になる。
(3)ファイル名生成処理:
次に、プロセッサー10が実行するファイル名生成処理を説明する。図5は、ファイル名生成処理を示すフローチャートである。学習済モデル20bが生成された後であれば実行可能である。従って、スキャナー2でスキャンが行われるたびに実行されてもよいし、利用者の指示によって実行されてもよく、種々のタイミングで実行されてよい。
ファイル名生成処理が開始されると、プロセッサー10は、制御部10cの機能により、原稿を読み取る(ステップS200)。すなわち、プロセッサー10は、機器インターフェース30を介してスキャナー2に対して制御信号を出力し、利用者がスキャナー2にセットした原稿をスキャンさせる。この結果、スキャナー2は読み取り結果として得られた読取データを出力し、プロセッサー10は、機器インターフェース30を介して当該読取データを取得する。
図6は、原稿の例を示す図である。図6に示す原稿Dはレシートである。この例においては、原稿Dの上部右側に日付情報Idが示され、上部中央に店舗Aを示すロゴIlが示されている。さらに、ロゴIlの下方には「ご購入ありがとうございました」というメッセージImが日付情報より大きい文字で示されている。さらに、メッセージImの下方には、購入した商品a,商品bのそれぞれについての単価Ipが示され、単価Ipの下方に小計Istが示されている。さらに、小計Istの下方には税Itが示され、税Itの下方には金額の合計Igtが示されている。さらに、最下部の左側には店舗Aの住所Iaが示され、最下部の右側には店舗Aの電話番号Inが示されている。むろん、原稿はレシートに限定されず、他の書類、例えば、契約書等であっても良い。
ステップS200において、原稿の読み取りが行われると、プロセッサー10は、図6のような内容の原稿を示す画像データとしての読取データを取得する。次に、プロセッサー10は、制御部10cの機能により、読取データを学習済モデルに入力する(ステップS205)。すなわち、プロセッサー10は、学習済モデル20bに入力可能なフォーマットになるように、読取データに対して前処理(例えば、拡大処理や縮小処理、規格化等)を実行する。
さらに、プロセッサー10は、記憶部20から学習済モデル20bを取得し、前処理された読取データを学習済モデル20bに対する入力データとし、学習済モデル20bによる出力結果を取得する。この結果、ノード#1〜#nの各ノードについての出力値と、日付情報を示す各ノードについての出力値とが得られる。そこで、プロセッサー10は、ノード#1〜#nの出力値に基づいて、各ノードが示す各位置の単語を特定する。
すなわち、プロセッサー10は、ノード#1〜#nに出力値が0000であるノードが存在する場合、そのノードが示す位置に単語は存在しないと判定する。さらに、プロセッサー10は、ノード#1〜#nに出力値がFFFFであるノードが存在する場合、そのノードが示す位置に日付情報を挿入する。日付情報は、日付情報を示す各ノードについての出力値である。さらに、ノード#1〜#nに0000およびFFFFではない出力値が得られたノードが存在する場合、プロセッサー10は、単語データ20fを参照し、出力値が示す単語を特定し、各ノードが示す位置に挿入する。
例えば、図6に示す原稿Dの読取データに対して、過去に利用者が「店舗Aレシート20190301」というファイル名を付与していた場合、学習済モデル20bは、原稿Dの特徴とファイル名の特徴とを対応づける学習結果を再現するモデルである。例えば、原稿Dの右上に日付情報Idが存在する場合にはファイル名の最後に日付情報が付与され、ロゴIlが上部中央に存在する場合にはファイル名の最初に「店舗A」が付与され、中央において上から下に単価Ip、小計Ist、税It、合計Igtが並ぶ場合に、ファイル名における店舗と日付情報との間に「レシート」が付与されるといった傾向が学習済モデル20bによって学習されている。
このため、ステップS200において図6に示す原稿Dが読み取られたのであれば、学習済モデル20bの出力としてノード#1〜#n−3までの出力値が0000,ノード#n−2の出力値が0050,ノードn−1の出力値が0115,ノード#nの出力値がFFFFとなる可能性が高い。また、学習済モデル20bの出力として、日付情報を示す各ノードについての出力値が20190301となる可能性が高い。この場合、プロセッサー10は、コードが0050である単語「店舗A」に続けてコードが0115である単語「レシート」を配置し、さらに、続けて日付情報「20190301」を配置した文字列をファイル名として生成する。
生成されると、プロセッサー10は、ファイル名を表示する(ステップS210)。すなわち、プロセッサー10は、ディスプレイ4を制御してファイル名をディスプレイ4に表示させる。ファイル名の表示は、種々の態様で行われて良く、例えば、プロセッサー10が、ディスプレイ4上に保存場所の候補と共にファイル名の候補を表示する構成等を採用可能である。
次に、プロセッサー10は、制御部10cの機能により、ファイルに対する指示を受け付ける(ステップS215)。すなわち、プロセッサー10は、ディスプレイ4を制御し、ファイルに対する指示、すなわち、保存指示やファイル名の変更指示等を受け付けるためのユーザーインターフェースを表示させる。利用者は当該ユーザーインターフェースを視認しながらマウス3a,キーボード3b等の入力部を操作して、ファイルの保存指示やファイル名の変更指示を行うことが可能である。
次に、プロセッサー10は、制御部10cの機能により、ファイルの保存指示が行われたか否かを判定し(ステップS220)、当該ステップS220においてファイルの保存指示が行われたと判定されるまでステップS215以降の処理を繰り返す。一方、ステップS220においてファイルの保存指示が行われたと判定された場合、プロセッサー10は、制御部10cの機能により、ファイル名が変更されたか否か判定する(ステップS225)。すなわち、ステップS215における処理において、ファイル名が変更された後に保存指示が行われた場合、プロセッサー10は、ステップS225においてファイル名が変更されたと判定する。
ステップS225において、ファイル名が変更されたと判定されない場合、すなわち、学習済モデル20bによって生成されたファイル名のままで読取データの保存指示が行われた場合、プロセッサー10は、当該ファイル名の読取データを記憶部20に保存する(ステップS230:図1に示す読取データ20a)。次に、プロセッサー10は、制御部10cの機能により、読取データとファイル名とを対応づけて教師データ20cに追加する(ステップS235)。すなわち、本実施形態においては、読取データにファイル名が付与されて保存されると、両者を対応づけるデータが教師データ20cに追加される。
一方、ステップS225において、ファイル名が変更されたと判定された場合、プロセッサー10は、制御部10cの機能により、変更されたファイル名で読取データを記憶部20に保存する(ステップS240:図1に示す読取データ20a)。次に、プロセッサー10は、制御部10cの機能により、読取データと変更されたファイル名とを対応づけて水増しして教師データ20cに追加する(ステップS245)。すなわち、本実施形態においては、変更されたファイル名が読取データに付与されて保存されると、両者を対応づけるデータがコピーされて2サンプル以上に増量され、増量後の各データが教師データ20cに追加される。
以上のステップS235またはS245で教師データ20cに追加が行われると、追加は再学習の際に反映される。すなわち、プロセッサー10は、種々のタイミングで学習済モデル20bを再学習することができる。再学習は、ステップS235で追加されたデータおよびステップS245で追加されたデータを含む教師データ20cを用いて実行される。従って、本実施形態によれば、制御部が生成したファイル名が変更された場合、読取データに含まれている画像と、変更後のファイル名とを対応づけた教師データを用いて学習済モデル20bを再学習させることになる。
なお、利用者がステップS215においてファイル名を変更した場合、利用者は学習済モデル20bによって生成されたファイル名と異なるファイル名を選択し、確定させたことになる。この場合、利用者は、後に同種の原稿に同種の傾向でファイル名を付与する可能性があり、かつ、当該傾向のファイル名は学習済モデル20bによって生成されない可能性が高い。そこで、このような傾向を早期に再学習できるようにするため、プロセッサー10は、ステップS245においてデータを教師データ20cに追加する際に水増しを行う。
水増しは、変更後のファイル名が学習結果に与える影響を、変更前のファイル名よりも大きくする処理であれば良い。本実施形態においてプロセッサー10は、変更後のファイル名と読取データとを対応づけるデータを2個以上生成して教師データ20cに追加する。この結果、ステップS235で追加された教師データ20cよりも、再学習の際に学習結果に与える影響が大きくなる。むろん、水増しの量は種々の手法で特定されて良く、例えば、教師データ20cのサンプル数が多くなるほど水増しの量が多くなる構成等が採用されてよい。以上の構成により、再学習が行われると、利用者によって変更されたファイル名または当該ファイル名と同じ傾向のファイル名は、変更されることなく確定されたファイル名よりも学習に与える影響が大きくなり、変更後のファイル名の傾向が早期に学習される。
なお、ステップ245においては、読取データと変更されたファイル名とを対応づけて水増しするが、本実施形態において学習済モデル20bは、単語単位でファイル名を定義する。従って、教師データ20cにおけるファイル名も単語単位で定義される。このため、ファイル名の変更が一部の単語に対して実施された場合、変更された単語(文字列)の学習結果に対する影響が、変更前の文字列よりも大きくなるように再学習される。
例えば、「店舗Aレシート20190301」というファイル名が「レシート店舗A20190301」と変更された場合、元のファイル名と変更後のファイル名とは最初の2個の単語が異なるが、最後の日付情報は変化していない。従って、変更後のファイル名と読取データとを対応づけたデータが生成され、水増しされると、最初の2個の単語を元のファイル名と異なる単語として出力する学習が促進されるが、最後の日付情報は維持する学習が促進される。
この結果、変更された単語(文字列)の学習結果に対する影響が変更前の文字列よりも大きくなるように再学習され、変更されていない単語は元の学習結果を維持するように再学習される。従って、変更された単語(文字列)を反映したファイル名の生成を実行できるように再学習を行うことが可能である。
(4)他の実施形態:
以上の実施形態は本発明を実施するための一例であり、他にも種々の実施形態を採用可能である。例えば、本発明の一実施形態にかかる機械学習装置、情報処理装置は、読み取り以外の目的にも使用される電子機器、例えば複合機等に適用されていても良い。さらに、以上の実施形態のように読取データに基づいて、ファイル名を生成する手法は、プログラムの発明、方法の発明としても実現可能である。
さらに、情報処理装置を構成する装置の数は任意の数であって良い。例えば、情報処理装置1とスキャナー2とが一体化された装置によって実現されても良いし、他の各種デバイス、例えば、ディスプレイ4が一体化されていても良い。また、情報処理装置1とディスプレイ4とが一体化されたタブレット端末によってスキャナー2が制御されてもよい。
さらに、情報処理装置1の機能が複数の装置によって実現される構成が採用されてもよい。例えば、サーバーとクライアントとが接続可能に構成され、サーバーとクライアントの一方で機械学習処理が実行され、他方でファイル名生成処理が実行されるように構成されていても良い。機械学習処理と、ファイル名生成処理とが離れた位置に存在する装置で実行される場合、学習済モデルは各装置で共有されても良いし、一方の装置に存在しても良い。
学習済モデルが機械学習処理を行う装置に存在し、ファイル名生成処理を行う装置に存在しない場合、ファイル名生成処理を行う装置は機械学習処理を行う装置にファイル名の問合せを行う構成となる。むろん、機械学習装置が複数の装置に分散して存在する構成や、情報処理装置が複数の装置に分散して存在する構成等であっても良い。さらに、上述の実施形態は一例であり、一部の構成が省略されたり、他の構成が追加されたりする実施形態が採用され得る。さらに、学習済モデルは、特定のスキャナー2の利用者用に生成されても良いし、複数のスキャナー2を利用する複数の利用者から収集された読取データおよびファイル名に基づいて複数の利用者が利用するモデルとして生成されても良い。
記憶部は、スキャナーで読み取られた原稿の読取データに含まれている画像、文字列、読取データのレイアウト、のうちの少なくとも1つと、読取データのファイル名とを対応付けた教師データを用いて機械学習した学習済モデルを記憶することができればよい。すなわち、記憶部は、読取データが示す原稿の特徴を入力し、ファイル名を出力する学習済モデルを記憶していれば良い。
原稿は、スキャナーで読み取られる対象であれば良く、形状、大きさ、原稿に記された内容は限定されない。従って、原稿は、上述の実施形態のようなレシートに限定されない。例えば、契約書や各種のビジネス文書や私用文書を示す原稿であっても良いし、住所録などの各種のデータベースの内容を示す原稿であっても良いし、写真等の画像を示す原稿であっても良く、スキャン可能なあらゆる原稿が読み取り対象となり得る。
読取データは、原稿を読み取った結果を示すデータであれば良く、読取データは原稿の画像を示しているが、当該画像と、当該読取データから抽出された情報との、いずれもが教師データとなり得る。すなわち、読取データが示す画像から各種の情報が抽出されて、教師データとなっても良い。例えば、読取データに基づいてOCR(文字認識処理:Optical Character Recognition)が実行されて文字列が抽出されても良いし、読取データに対する画像処理等に基づいて原稿に含まれる文字列や画像が特定され、その大きさおよび位置等を示すレイアウトが抽出されても良い。
教師データは、読取データとそのファイル名とを対応づけたデータであれば良く、ファイル名は読取データがファイルとして保存された場合に実際に対応づけられたファイル名であることが好ましい。
学習済モデルは、教師データが示す読取データとファイル名との関係を再現するようにして、任意の読取データに対応するファイル名を出力するモデルであれば良い。従って、読取データに基づいてファイル名を出力可能であれば、モデルの構造は任意である。すなわち、このような入出力関係を再現するようなモデルを学習することができれば、機械学習の態様やモデルの態様は任意である。
例えば、ニューラルネットワークによる機械学習が行われる場合、モデルを構成する層の数やノードの数、活性化関数の種類、損失関数の種類、勾配降下法の種類、勾配降下法の最適化アルゴリズムの種類、ミニバッチ学習の有無やバッチの数、学習率、初期値、過学習抑制手法の種類や有無、畳み込み層の有無、畳み込み演算におけるフィルターのサイズ、フィルターの種類、パディングやストライドの種類、プーリング層の種類や有無、全結合層の有無、再帰的な構造の有無など、種々の要素を適宜選択して機械学習が行われればよい。むろん、他の機械学習、例えば、サポートベクターマシンやクラスタリング、強化学習等によって学習が行われてもよい。
さらに、モデルの構造(例えば、層の数や層毎のノードの数等)が自動的に最適化される機械学習が行われてもよい。さらに、学習は複数段階に分割されて実行されてもよい。例えば、読取データから画像の内容(ロゴマークの種類等)を出力する機械学習と、画像の内容からファイル名を出力する機械学習とを実行する構成が採用されてもよい。さらに、サーバーにおいて機械学習が行われる構成において、複数のクライアントから教師データが収集され、この教師データに基づいて機械学習が行われる構成であっても良い。
制御部は、読取データに含まれている画像、文字列、読取データのレイアウト、のうちの少なくとも1つと、学習済モデルとを用いて、読取データのファイル名を生成することができればよい。すなわち、制御部は、学習済モデルに基づいて、読取データに対応するファイル名を出力することができればよい。むろん、制御部は、生成したファイル名を読取データに対応づけて記憶部に記憶させても良いし、利用者によるファイル名の変更操作を受け付け、変更されたファイル名を読取データに対応づけて記憶部に記憶させても良い。
学習部による再学習は、ファイル名が変更された場合に限定されず、新たなファイル名の生成が行われた場合に、新たなファイル名と読取データとを対応づけた教師データを元の教師データに追加して実施されてもよい。また、制御部が生成したファイル名が変更された場合に実行される再学習は、種々の態様で行われてよい。例えば、上述の実施形態においては、変更後のファイル名と読取データとを対応づけた教師データを水増しすることによって、変更後のファイル名の学習結果に対する影響を、変更前のファイル名よりも大きくしているが、このような構成に限定されない。例えば、変更前のファイル名と読取データとを対応づけた教師データを削除しても良い。
ファイル名が、読取データに含まれる日付情報を有する構成において、ファイル名を出力するための態様としても、種々の態様を採用可能である。例えば、年、月、日のそれぞれが予め単語データ20fに登録され、これらの存在を示すコードを出力するノードを有するモデルによって機械学習を行い、年、月、日のそれぞれを含み得るファイル名が生成されても良い。
教師データが示すファイル名は、読取データに対するOCR処理によって読み取られた文字列によって生成されたファイル名であっても良い。すなわち、原稿に含まれる文字列によってファイル名が構成されても良い。むろん、利用者によって入力された文字列と、OCR処理によって読み取られた文字列との双方がファイル名に含まれていても良い。
制御部は、発行元を示す画像を基に原稿の発行元を特定し、発行元の名称を含むファイル名を生成する構成であっても良い。むろん、原稿の発行元の特定と、発行元の名称を含むファイル名の生成は、別個の学習済モデルで実行されてもよいし、単一の学習済モデルで実行されてもよく、種々の態様を採用可能である。前者であれば、画像から画像が示す発行元を特定するための学習済モデルのライブラリを流用することが可能である。発行元を示す画像は、ロゴマーク以外にも種々の画像が想定可能である。例えば、会社名等の発行元の名称を示す画像や、発行元に特有のアイコン、色の組み合わせ、図形等が発行元を示す画像になり得る。
なお、上述の図3に示すCNNは、発行元を示す画像を基に原稿の発行元を特定し、発行元の名称を含むファイル名を生成する構成であると考えることもできる。例えば、読取データが図6に示す原稿DのようにロゴIlを含む場合、当該ロゴIlはレシートの発行元の会社を示している。図3に示すCNNでは、当該ロゴIlを含めた状態でファイル名を生成することができる。そして、ファイル名にロゴIlによって示された発行元の会社の名称やその店舗の名称が含まれていれば、CNNによって、原稿の発行元が特定され、発行元の名称を含むファイル名が生成される構成であると言える。
画像、文字列、レイアウトは、少なくとも1つが教師データになれば良いが、むろん、これらの2以上が教師データになっても良いし、他の情報、例えば、画像内の色や手書き文字の有無、その内容等が教師データになっても良く、種々の態様を想定可能である。画像に加えて文字列やレイアウトが考慮される場合、図1に示す構成において教師データ20c、学習済モデル20bが変化し得る。
図7は、画像、文字列、レイアウトに基づいてファイル名を生成するモデルを示す図である。同図に示すモデルにおいて、ファイル名の出力態様は図3に示すモデルと同様であるが、むろん、この出力態様に限定されない。図7に示すモデルにおいて、読取データを画像として捉えた場合の入力態様は図3と同様である(入力を画像データと表記)。この例において文字列はOCR処理によって得られ、OCRデータと表記されている。また、この例においてレイアウトは画像処理によって得られ、レイアウトデータと表記されている。
OCRデータは、読取データに含まれる文字列を示していれば良く、例えば、文字の並び順に文字のコードを示すデータ等によって構成可能であり、この場合において、入力層Li2の各ノードに文字のコードを入力する構成や、単語や形態素のコードを入力する構成等を採用可能である。OCRデータを入力にすれば、例えば、図6に示す原稿Dのように、日付情報Id、単価Ip、小計Ist、税Itなどが順番に表記されているなどのような文字列の特徴をファイル名に関連づけることができる。OCRデータが入力層Li2に入力されると、ニューラルネットワークを経て層Ln2において中間出力データが出力される。図7に示す例において層Ln2のノードは出力層Loに接続されているが、むろん、任意の数の層を経て出力層Loに至っても良い。
レイアウトデータは、読取データに含まれる文字列や画像等のレイアウトを示していれば良く、例えば、原稿の領域毎に、存在するオブジェクトの種類(文字、写真、図形等)と位置、大きさを示す情報を、入力層Li3の各ノードに入力する構成等を採用可能である。レイアウトデータを入力にすれば、例えば、図6に示す原稿Dのように、日付情報Idが上部右側に配置され、ロゴIlが上部中央に配置され、その下にメッセージImが日付情報Idより小さい文字列で配置されるなどのようなレイアウトの特徴をファイル名に関連づけることができる。
レイアウトデータが入力層Li3に入力されると、ニューラルネットワークを経て層Ln3において中間出力データが出力される。図7に示す例において層Ln3のノードは出力層Loに接続されているが、むろん、任意の数の層を経て出力層Loに至っても良い。また、モデルは、OCRデータ、レイアウトデータのいずれか一方が入力されるモデルであっても良いし、読取データに関する他の情報が入力されても良い。
いずれにしても、このようなモデルに基づいてプロセッサー10が機械学習を行えば、読取データに含まれる画像、文字列、レイアウトに基づいてファイル名を出力する学習済モデル20bを学習することができる。学習済モデル20bが得られたら、プロセッサー10は、読取データに基づいてOCRデータおよびレイアウトデータを生成し、画像データとしての読取データとOCRデータとレイアウトデータを学習済モデル20bに入力する。この結果、読取データのファイル名を生成することができる。
さらに本発明は、コンピューターが実行するプログラムや、方法としても適用可能である。また、以上のようなプログラム、方法は、単独の装置として実現される場合もあれば、複数の装置が備える部品を利用して実現される場合もあり、各種の態様を含むものである。また、一部がソフトウェアであり一部がハードウェアであったりするなど、適宜、変更可能である。さらに、プログラムの記録媒体としても発明は成立する。むろん、そのプログラムの記録媒体は、磁気記録媒体であってもよいし半導体メモリ等であってもよいし、今後開発されるいかなる記録媒体においても全く同様に考えることができる。
1…情報処理装置、2…スキャナー、3a…マウス、3b…キーボード、4…ディスプレイ、10…プロセッサー、10a…教師データ取得部、10b…学習部、10c…制御部、20…記憶部、20a…読取データ、20b…学習済モデル、20c…教師データ、20d…テストデータ、20e…訓練モデル、20f…単語データ、30…機器インターフェース、40…ディスプレイインターフェース

Claims (10)

  1. スキャナーで読み取られた原稿の読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つと、前記読取データのファイル名とを対応付けた教師データを用いて機械学習した学習済モデルを記憶する記憶部と、
    前記読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つと、前記学習済モデルとを用いて、前記読取データのファイル名を生成する制御部と、
    を備える情報処理装置。
  2. 前記制御部が生成した前記ファイル名が変更された場合、
    前記読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つと、変更後の前記ファイル名とを対応づけた前記教師データを用いて前記学習済モデルを再学習させる学習部、をさらに備える、
    請求項1に記載の情報処理装置。
  3. 前記学習部は、
    変更後の前記ファイル名の学習結果に対する影響を、変更前の前記ファイル名よりも大きくして再学習させる、
    請求項2に記載の情報処理装置。
  4. 前記学習部は、
    変更された文字列の学習結果に対する影響を、変更前の文字列よりも大きくして再学習させる、
    請求項3に記載の情報処理装置。
  5. 前記ファイル名は、
    前記読取データに含まれる日付情報を有する、
    請求項1〜請求項4のいずれかに記載の情報処理装置。
  6. 前記学習済モデルは、
    前記ファイル名に前記日付情報が含まれるか否かを出力する、
    請求項5に記載の情報処理装置。
  7. 前記教師データが示す前記ファイル名は、
    利用者によって入力された文字列と、前記読取データに対するOCR処理によって読み取られた文字列との少なくとも一方を含む、
    請求項1〜請求項6のいずれかに記載の情報処理装置。
  8. 前記画像は、前記原稿の発行元を示す画像を含み、
    前記制御部は、前記発行元を示す画像を基に前記原稿の前記発行元を特定し、前記発行元の名称を含む前記ファイル名を生成する、
    請求項1〜請求項7のいずれかに記載の情報処理装置。
  9. スキャナーで読み取られた原稿の読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つと、前記読取データのファイルに関する情報とを対応付けた教師データを取得する教師データ取得部と、
    前記読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つを入力し、前記読取データのファイルに関する情報を出力する学習済モデルを、前記教師データに基づいて機械学習する学習部と、
    を備える機械学習装置。
  10. スキャナーで読み取られた原稿の読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つと、前記読取データのファイルに関する情報とを対応付けた教師データを用いて機械学習した学習済モデルを用いて、前記読取データに含まれている画像、文字列、前記読取データのレイアウト、のうちの少なくとも1つに基づいて、前記読取データのファイルに関する情報を生成する、
    情報処理方法。
JP2019046842A 2019-03-14 2019-03-14 情報処理装置、およびプログラム Active JP6935809B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019046842A JP6935809B2 (ja) 2019-03-14 2019-03-14 情報処理装置、およびプログラム
CN202010169601.0A CN111695568B (zh) 2019-03-14 2020-03-12 信息处理装置、机器学习装置以及信息处理方法
US16/818,066 US11335107B2 (en) 2019-03-14 2020-03-13 Generating file name using machine-learned model that relearns

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019046842A JP6935809B2 (ja) 2019-03-14 2019-03-14 情報処理装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020149409A true JP2020149409A (ja) 2020-09-17
JP6935809B2 JP6935809B2 (ja) 2021-09-15

Family

ID=72423803

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019046842A Active JP6935809B2 (ja) 2019-03-14 2019-03-14 情報処理装置、およびプログラム

Country Status (3)

Country Link
US (1) US11335107B2 (ja)
JP (1) JP6935809B2 (ja)
CN (1) CN111695568B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6881991B2 (ja) * 2017-01-30 2021-06-02 キヤノン株式会社 画像処理装置、及びその制御方法とプログラム
JP7036082B2 (ja) * 2019-04-04 2022-03-15 セイコーエプソン株式会社 画像処理装置、機械学習装置、画像処理方法
JP7391672B2 (ja) * 2020-01-21 2023-12-05 キヤノン株式会社 文書を電子化するための画像処理システム、その制御方法及びプログラム
JP2022137634A (ja) * 2021-03-09 2022-09-22 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム
US20230062307A1 (en) * 2021-08-17 2023-03-02 Sap Se Smart document management

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205325A (ja) * 2008-02-27 2009-09-10 Seiko Epson Corp ファイル生成装置、ファイル生成方法およびファイル生成プログラム
JP2016143354A (ja) * 2015-02-04 2016-08-08 エヌ・ティ・ティ・コムウェア株式会社 学習装置、学習方法、およびプログラム
JP2017033175A (ja) * 2015-07-30 2017-02-09 株式会社リコー 画像処理装置、画像処理方法及びプログラム
JP2017146745A (ja) * 2016-02-16 2017-08-24 キヤノン株式会社 情報処理装置、制御方法、情報処理システム、およびプログラム
JP2018124656A (ja) * 2017-01-30 2018-08-09 キヤノン株式会社 画像処理装置とその制御方法、及びプログラム
JP2019004372A (ja) * 2017-06-16 2019-01-10 富士ゼロックス株式会社 情報処理装置及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071050A (ja) 2006-09-13 2008-03-27 Sharp Corp 情報処理端末装置、情報処理装置、ファイル管理サーバ、情報処理システム、ファイル名自動生成方法、プログラムおよび記録媒体
JP2008250651A (ja) * 2007-03-30 2008-10-16 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、およびプログラム
JP4359721B2 (ja) * 2007-04-06 2009-11-04 シャープ株式会社 画像処理システム、画像処理方法、及びプログラム
JP6629678B2 (ja) * 2016-06-16 2020-01-15 株式会社日立製作所 機械学習装置
US10140553B1 (en) * 2018-03-08 2018-11-27 Capital One Services, Llc Machine learning artificial intelligence system for identifying vehicles
CN109063105A (zh) * 2018-07-27 2018-12-21 北京字节跳动网络技术有限公司 文件存储方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205325A (ja) * 2008-02-27 2009-09-10 Seiko Epson Corp ファイル生成装置、ファイル生成方法およびファイル生成プログラム
JP2016143354A (ja) * 2015-02-04 2016-08-08 エヌ・ティ・ティ・コムウェア株式会社 学習装置、学習方法、およびプログラム
JP2017033175A (ja) * 2015-07-30 2017-02-09 株式会社リコー 画像処理装置、画像処理方法及びプログラム
JP2017146745A (ja) * 2016-02-16 2017-08-24 キヤノン株式会社 情報処理装置、制御方法、情報処理システム、およびプログラム
JP2018124656A (ja) * 2017-01-30 2018-08-09 キヤノン株式会社 画像処理装置とその制御方法、及びプログラム
JP2019004372A (ja) * 2017-06-16 2019-01-10 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
CN111695568A (zh) 2020-09-22
JP6935809B2 (ja) 2021-09-15
US20200293810A1 (en) 2020-09-17
CN111695568B (zh) 2023-08-18
US11335107B2 (en) 2022-05-17

Similar Documents

Publication Publication Date Title
JP6935809B2 (ja) 情報処理装置、およびプログラム
CN108377308B (zh) 图像处理装置及其控制方法和存储介质
JP2007164648A (ja) 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
CN110489574B (zh) 一种多媒体信息推荐方法、装置和相关设备
US20140250188A1 (en) Digital image communication
CN113767420A (zh) 学习方法及装置、程序、学习完毕模型以及文本生成装置
CN111310037A (zh) 家居素材的推荐方法、装置及电子设备
JP2022125220A (ja) 画像処理装置、画像処理方法、プログラム
US11644961B1 (en) Utilizing a transformer-based generative language model to generate digital design document variations
US20110261995A1 (en) Automated template layout system
US10915790B2 (en) Machine learning apparatus, imaging time estimation apparatus, machine learning program, and generation method of photographic data
JP7095389B2 (ja) 画像処理装置、画像処理プログラムおよび写真データの生産方法
JP2017033355A (ja) 情報処理装置及びプログラム
JP7398944B2 (ja) 電子アルバム生成装置、電子アルバム生成方法及びプログラム
JP2001195579A (ja) 画像評価装置
JP2004120127A (ja) 画像レイアウト装置及び画像レイアウトプログラム、並びに画像レイアウト方法
TW202226111A (zh) 學習裝置、程式產品及學習方法
US11283945B2 (en) Image processing apparatus, image processing method, program, and recording medium
KR102646600B1 (ko) 이미지 편집 자동화 시스템
KR102569165B1 (ko) 사용자 트렌드에 기초한 사진 인화 서비스 제공 방법 및 장치
JP7470279B2 (ja) 情報処理装置、画像出力プログラム、及び画像出力方法
JP4351620B2 (ja) 画像検索システム
JP2000011197A (ja) 書類作成方法、書類作成装置、及び媒体
KR20240111058A (ko) 이미지 생성을 위한 프롬프트 생성 장치 및 방법
CN116958991A (zh) 图像识别方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200609

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20200811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210727

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210809

R150 Certificate of patent or registration of utility model

Ref document number: 6935809

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150