JP7400397B2

JP7400397B2 - 情報処理装置

Info

Publication number: JP7400397B2
Application number: JP2019213575A
Authority: JP
Inventors: クリスチャン・ゲルボリンゴ
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-12-19
Anticipated expiration: 2039-11-26
Also published as: US20210158070A1; JP2021087072A; US11587303B2

Description

本発明は、情報処理装置に関し、特に、画像ファイルのファイル名を生成するための技術に関する。

画像ファイルの内容に応じたファイル名を生成するための技術が知られている。例えば、特許文献１には、ＯＣＲ(Optical Character Recognition)機能によって原稿画像から生成されたテキストデータから出現頻度の高い文字列を抽出し、抽出された文字列を画像ファイルのファイル名として生成する技術が開示されている。

特許文献２には、ＯＣＲ機能によって原稿画像から生成されたテキストデータが示す文字列から、例えばフォントサイズ又は色彩等の予め定められた条件を満たす文字列を識別し、識別された文字列を画像ファイルのファイル名として生成する技術が開示されている。

特開２００６－２１１２６１号公報特開２０１１－１５５５４８号公報

特許文献１及び特許文献２に開示されている一般的な技術では、原稿画像に文字列が含まれない場合には、ファイル名を生成することができない。また、原稿画像に文字列が含まれる場合であっても、当該文字列の中に、出現頻度の高い文字列又は予め定められた条件を満たす文字列が存在しない場合には、ファイル名を生成することができない。

本発明は、上記の事情に鑑みなされたものであり、画像ファイルが示す画像に文字列が含まれない場合、及び、画像ファイルが示す画像に含まれる文字列の中に予め定められた条件を満たす文字列が存在しない場合であっても、ユーザーが、画像ファイルが示す画像の内容に応じたファイル名を取得できるようにすることを目的とする。

本発明の一局面に係る情報処理装置は、入力された画像の特徴に応じた名称を出力するための学習が予め行なわれた第１学習モデルと、入力された文字列に応じた名称を出力するための学習が予め行なわれた第２学習モデルと、を予め記憶する記憶部と、画像ファイルが入力される画像入力部と、画像入力部を介して入力された画像ファイルが示す画像に応じた主題を取得し、取得された主題を含むファイル名を、画像ファイルのファイル名として生成する制御部と、を備え、制御部は、画像ファイルが示す画像が、予め定められた特徴を含む画像部分を含み、かつ、文字部分を含まない場合に、第１学習モデルを用いて、画像部分の特徴に応じた名称を主題として取得し、画像ファイルが示す画像が、文字部分を含み、かつ、画像部分を含まない場合に、第２学習モデルを用いて、文字部分に含まれる文字列に応じた名称を主題として取得する。

本発明によれば、ユーザーは、画像ファイルが示す画像に文字部分が含まれない場合であっても、画像部分に応じたファイル名を取得できる。ユーザーはまた、画像ファイルが示す画像の文字部分に予め定められた条件を満たす文字列が存在しない場合であっても、文字部分に応じたファイル名を取得できる。

本発明の一実施形態に係る画像形成装置の構造を示す正面断面図である。画像形成装置の内部構成を示すブロック図である。ファイル名生成処理を示すフローチャートである。ファイル名生成処理を示すフローチャートである。設定画面の一例を示す図である。原稿画像の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。原稿画像の他の一例を示す図である。

以下、本発明の一実施形態に係る情報処理装置としての画像形成装置について図面を参照して説明する。図１は、本発明の一実施形態に係る画像形成装置の構造を示す正面断面図である。図１を参照して、画像形成装置１は、コピー機能、送信機能、プリンター機能、及びファクシミリ機能等の複数の機能を備えている複合機である。画像形成装置１はまた、画像ファイルを保存するためのファイル保存機能を備えている。

図２は、画像形成装置の内部構成を示すブロック図である。図２を参照して、画像形成装置１の筐体には、画像形成装置１の様々な機能を実現するための複数の機器が収容されている。例えば、筐体には、画像読取部１１、画像形成部１２、定着部１３、及び給紙部１４等が収容されている。

画像形成装置１は、制御ユニット１００を含む。制御ユニット１００は、プロセッサー、ＲＡＭ(Random Access Memory）、及びＲＯＭ（Read Only Memory）等を含む。プロセッサーは、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、又はＡＳＩＣ（Application specific Integrated Circuit）等である。

制御ユニット１００は、ＲＯＭ又はＨＤＤ（Hard Disk Drive）１７に記憶されている制御プログラムが上記プロセッサーによって実行されることにより、制御部１０として機能する。なお、制御部１０は、上記制御プログラムに基づく動作によらず、ロジック回路により構成されていてもよい。

制御部１０は、画像形成装置１の全体制御を司る。より詳細には、制御部１０は、画像形成装置１の各部の動作、及び、ネットワークを介して接続されているＰＣ(Personal Computer)２３等との通信を制御する。制御部１０はまた、後述する生成プログラムにしたがって動作することによって、画像ファイルが示す画像に応じた主題を取得し、取得された主題を含むファイル名を生成するためのファイル名生成処理を実行する。

制御ユニット１００は、画像読取部１１、画像形成部１２、定着部１３、給紙部１４、表示部１５、操作部１６、ＨＤＤ１７、搬送機構１８、画像処理部１９、画像メモリー２０、ファクシミリ通信部２１、及び通信部２２等と電気的に接続されている。

画像読取部１１は、原稿台に載置されている原稿を搬送する原稿搬送部６と、原稿搬送部６によって搬送されてくる原稿又はプラテンガラス７に載置されている原稿を光学的に読み取るスキャナーと、を含むＡＤＦ（Auto Document Feeder）である。画像読取部１１は、光照射部により原稿を照射し、その反射光をＣＣＤ（Charge-Coupled Device）センサーで受光することによって、原稿を読取って画像データを生成する。画像読取部１１及び制御部１０は、特許請求の範囲における画像入力部の一例である。

画像形成部１２は、感光体ドラム、帯電装置、露光装置、現像装置、及び転写装置を含む。画像形成部１２は、画像読取部１１によって生成された画像データ等に基づいて、給紙部１４から搬送されてくる記録紙Ｐに、トナー像によって構成されている画像を形成する。

定着部１３は、画像形成部１２によってトナー像が形成された記録紙Ｐを加熱及び加圧することによってトナー像を記録紙Ｐに定着させる。定着部１３によってトナー像が定着された記録紙Ｐは、排出トレイ８に排出される。

給紙部１４は、手差しトレイと、複数の給紙カセットとを備えている。給紙部１４は、給紙カセットに収容されている記録紙Ｐ、又は手差しトレイに載置されている記録紙を一枚ずつ引出して、画像形成部１２に向けて給紙する。

表示部１５は、液晶ディスプレイ又は有機ＥＬ（Organic Light-Emitting Diode）ディスプレイ等によって構成されている表示装置である。表示部１５は、制御部１０の制御にしたがって、画像形成装置１によって実行可能な各機能についての各種の画面を表示する。

操作部１６は、各処理の実行開始を指示するためのスタートキー１６Ａ等の複数のハードキーを含む。操作部１６はまた、表示部１５に重ねて配置されているタッチパネル１６Ｂを含む。ユーザーは、操作部１６を介して、画像形成装置１によって実行可能な各機能についての指示等の各種の情報を入力する。

ＨＤＤ１７は、画像読取部１１及び制御部１０によって生成された画像ファイル等の各種データを記憶するための大容量の記憶装置である。ＨＤＤ１７は、画像形成装置１の一般的な動作を実現するための各種制御プログラムを記憶している。ＨＤＤ１７は、各種制御プログラムの１つとして、本発明の一実施形態に係るファイル名生成処理を実行するための生成プログラムを記憶している。

ＨＤＤ１７は、各種制御プログラムの１つとして、一般的なＯＣＲ処理を実行するためのＯＣＲプログラムを記憶している。制御部１０は、ＯＣＲプログラムにしたがって動作することによって、画像ファイルが示す画像に含まれる文字部分に基づいてテキストデータを生成する。

ＨＤＤ１７は、入力された画像の特徴に応じた複数階層の分類名を出力するための学習が予め行なわれた機械学習モデル（以下、「第１学習モデル」と記す。）を記憶している。ここで、画像の特徴とは、ＣＮＮ(Convolutional Neural Network)を用いた一般的な画像認識処理によって認識可能な特徴であり、例えば、コーナー、輪郭、又は色彩等である。

第１学習モデルとしては、特に限定されないが、例えば、大量の画像ファイルが複数階層の分類名にしたがって分類されているImageNetデータセット等の機械学習済みの大規模な画像データベースを用いて、入力された画像の特徴に応じた分類名を出力可能に学習されているモデルを使用できる。本実施形態では、複数階層の分類名は、小分類を示す第１階層の分類名と、大分類を示す第２階層の分類名とを含むものとする。

ＨＤＤ１７は、入力された文字列群に応じた複数階層の分類名を出力するための学習が予め行なわれた機械学習モデル（以下、「第２学習モデル」と記す。）を記憶している。第２学習モデルとしては、特に限定されないが、例えば、文意を判断するための単語群等の文字列群と、当該文字列群に付されている複数階層の分類名との組をニューラルネットワーク等によって学習させることによって生成されたモデルを使用できる。

搬送機構１８は、搬送ローラー対１８Ａ及び排出ローラー対１８Ｂ等から構成されている。搬送機構１８は、排出先として設定されている排出トレイ８に向けて、記録紙Ｐを搬送路Ｔに沿って搬送する。

画像処理部１９は、画像読取部１１によって生成された画像データに対して、必要に応じて画像処理を実行する。画像メモリー２０は、画像読取部１１によって生成された出力対象の画像データを一時的に記憶する領域を含む。ファクシミリ通信部２１は、公衆回線への接続を行ない、公衆回線を介して画像データの送受信を行なう。

通信部２２は、ＬＡＮ(Local Area Network)ボード等の通信モジュールを含む。画像形成装置１は、通信部２２を介して、ネットワークを介して接続されているＰＣ２３等とデータ通信を行なう。

画像形成装置１の各部には電源が接続されており、この電源から電力が供給されることによって、画像形成装置１の各部が動作する。

［動作］
図３Ａ及び図３Ｂは、ファイル名生成処理を示すフローチャートである。以下、図３Ａ及び図３Ｂ等を参照して、本実施形態に係る画像形成装置１の動作について説明する。なお、以下の説明において、画像形成装置１は、電源が投入されている状態であるものとする。

以下、画像ファイルが示す画像（以下、「原稿画像」と記す。）は、予め定められた特徴を含む画像部分、及び、文字列を含む文字部分のうちの少なくともいずれかを含んでいるものとする。予め定められた特徴とは、上記した一般的な画像認識処理によって認識可能な特徴を示す。

ユーザーは、画像読取部１１のプラテンガラス７に原稿を載置し、操作部１６を介して、ファイル保存機能についての設定を行なうための設定画面を表示させるための表示指示を入力したものとする。制御部１０は、操作部１６を介して上記した表示指示を受付けると、表示部１５に、設定画面を表示させる。

図４は、設定画面の一例を示す図である。図４を参照して、制御部１０は、設定画面４０に、保存対象の画像ファイルの形式を表示するための領域４１と、保存対象の画像ファイルの画質レベルを表示するための領域４２と、を表示させている。この場合、操作部１６を介したユーザーの入力によって、画像ファイルの形式として「ＪＰＥＧ(Joint photographic Experts Group)」形式が選択され、画質レベルとして、圧縮率が最も高いレベル、すなわち最も画質の低いレベル（以下、「第１低画質レベル」と記す。）が選択されているものとする。

したがって、制御部１０は、ＪＰＥＧ形式を示す「ＪＰＥＧ」という文字列を領域４１に表示させるとともに、第１低画質レベルを示す「１低画質（高圧縮）」という文字列を領域４２に表示させている。制御部１０はまた、設定画面４０に、画像ファイルのＰＤＦ／Ａ形式への変換設定を有効にするためのラジオボタン４３と、画像ファイルのＰＤＦ／Ａ形式への変換設定を無効にするためのラジオボタン４４と、を表示させている。この場合、画像ファイルの形式としてＪＰＥＧ形式が選択されているので、制御部１０は、ラジオボタン４４にチェックを表示させている。

制御部１０はさらに、設定画面４０に、ファイル名生成機能の設定を有効にするためのラジオボタン４５と、ファイル名生成機能の設定を無効にするためのラジオボタン４６と、を表示させている。この場合、ユーザーは、ラジオボタン４５をタッチしたものとする。制御部１０は、タッチパネル１６Ｂを介してラジオボタン４５に対するタッチ操作を検知して、ラジオボタン４５にチェックを表示させている。

ラジオボタン４５のタッチ後、ユーザーは、設定内容を確定するためにソフトキー４７をタッチしたものとする。制御部１０は、タッチパネル１６Ｂを介してソフトキー４７に対するタッチ操作を検知すると、ファイル保存機能についての設定を、設定画面４０に反映されている設定内容に設定する。この場合、制御部１０は、ファイル名生成機能を有効に設定する。

ソフトキー４７のタッチ後、ユーザーは、操作部１６を介して、画像ファイルの保存処理を実行するための実行指示を入力して、スタートキー１６Ａを押下したものとする。スタートキー１６Ａの押下を検知すると、制御部１０は、画像読取部１１に対し、プラテンガラス７に載置されている原稿を読み取らせて画像データを生成させる。制御部１０は、生成された画像データから、設定されているファイル形式の画像ファイルを生成する。この場合、制御部１０は、ＪＰＥＧ形式の画像ファイルを生成する。

図３Ａを参照して、画像読取部１１及び制御部１０によって画像ファイルが生成されることによって画像ファイルが画像形成装置１に入力されると、制御部１０は、ファイル名生成処理の実行を開始する。ファイル名生成処理において、制御部１０はまず、ファイル名生成機能が有効に設定されているか否かを判定する（ステップＳ１０）。この場合、制御部１０は、ファイル名生成機能が有効に設定されていると判定し（ステップＳ１０にてＹＥＳ）、原稿画像に対してＯＣＲ処理を実行する（ステップＳ１１）。

ステップＳ１１の処理後、制御部１０は、ＯＣＲ処理の結果に基づいて、原稿画像が、ＯＣＲ処理によってテキストデータが生成されている部分、すなわち、文字部分を含むか否かを判定する（ステップＳ１２）。

（１）原稿画像が画像部分を含み、かつ文字部分を含まない場合
（１－１）原稿画像が画像部分を１つのみ含む場合
図５は、原稿画像の一例を示す図である。図５を参照して、原稿画像５０は、海で泳いでいる人間の写真に対応している画像部分５１のみを含み、文字部分を含まない。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像５０からテキストデータを生成できないので、原稿画像が文字部分を含まないと判定し（ステップＳ１２にてＮＯ）、一般的な濃淡エッジ検出技術を用いて原稿画像の全領域からエッジを検出し、検出されたエッジによって囲まれている領域を画像部分として抽出するための処理（以下、「画像部分抽出処理」と記す。）を実行する（ステップＳ１３）。この場合、制御部１０は、画像部分抽出処理によって、原稿画像５０の全領域から、エッジ５１Ａによって囲まれている画像を画像部分５１として抽出する。

ステップＳ１３の処理後、制御部１０は、第１学習モデルを用いて、抽出された画像部分の特徴に応じた複数階層の分類名を、画像部分ごとに取得する（ステップＳ１４）。具体的には、ステップＳ１４において、制御部１０は、抽出された画像部分のうちのいずれか１つを第１学習モデルに入力する。制御部１０は、入力に応じて第１学習モデルから出力されてくる複数階層の分類名を取得する。制御部１０は、抽出された全ての画像部分に対して上記した処理を行なう。

この場合、制御部１０は、画像部分５１を第１学習モデルに入力し、入力に応じて第１学習モデルから出力されてくる、「Swimming」という第１階層の分類名と、「Sea」という第２階層の分類名とを取得する。ステップＳ１４の処理後、制御部１０は、画像部分抽出処理の抽出結果に基づいて、原稿画像が複数の画像部分を含むか否かを判定する（ステップＳ１５）。

この場合、制御部１０は、画像部分抽出処理によって画像部分５１のみを原稿画像５０から抽出しているので、原稿画像が複数の画像部分を含まないと判定し（ステップＳ１５にてＮＯ）、取得された複数階層の分類名のうちから、最下層の分類名を、ファイル名の主題として取得する（ステップＳ１６）。この場合、制御部１０は、「Swimming」という第１階層の分類名を、主題として取得する。

ステップＳ１６の処理後、制御部１０は、取得された主題に、例えばスタートキー１６Ａが押下されたときの日付を示している文字列と、ファイル形式を示している拡張子とを付して、ファイル名を生成する（ステップＳ１７）。この場合、制御部１０は、「Swimming」という主題に、２０１９年７月２９日であることを示す「07292019」という文字列と、ＪＰＥＧ形式であることを示す「jpg」という拡張子とが付されている「Swimming_07292019.jpg」というファイル名を生成する。

（１－２）原稿画像が複数の画像部分を含む場合
（１－２－１）分類名が複数の画像部分に共通している場合
図６は、原稿画像の他の一例を示す図である。図６を参照して、原稿画像６０は、港の写真に対応している画像部分６１と、海辺の写真に対応している画像部分６２と、を含み、文字部分を含まない。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像６０からテキストデータを生成できないので、原稿画像が文字部分を含まないと判定し（ステップＳ１２にてＮＯ）、上記したステップＳ１３の処理を実行して、原稿画像６０の全領域から、エッジ６１Ａによって囲まれている画像を画像部分６１として抽出するとともに、エッジ６２Ａによって囲まれている画像を画像部分６２として抽出する。

ステップＳ１３の処理後、制御部１０は、上記したステップＳ１４の処理を実行して、まず、画像部分６１を第１学習モデルに入力し、入力に応じて第１学習モデルから出力されてくる、「Harbor」という第１階層の分類名と、「Sea」という第２階層の分類名とを取得する。制御部１０は次いで、画像部分６２を第１学習モデルに入力し、入力に応じて第１学習モデルから出力されてくる、「Seashore」という第１階層の分類名と、「Sea」という第２階層の分類名とを取得する。

ステップＳ１４の処理後、制御部１０は、上記したステップＳ１５の処理を実行する。この場合、制御部１０は、画像部分抽出処理によって、画像部分６１及び画像部分６２を原稿画像６０から抽出しているので、原稿画像が複数の画像部分を含むと判定し（ステップＳ１５にてＹＥＳ）、画像部分ごとに取得された複数階層の分類名を画像部分同士で比較して、複数の画像部分に共通している分類名が存在しているか否かを判定する（ステップＳ１８）。

この場合、「Sea」という分類名が画像部分６１及び画像部分６２に共通しているので、制御部１０は、共通している分類名が存在していると判定し（ステップＳ１８にてＹＥＳ）、共通している分類名を、ファイル名の主題として取得する（ステップＳ１９）。ステップＳ１９の処理後、制御部１０は、上記したステップＳ１７の処理を実行して、取得された主題に、「07292019」という文字列と、「jpg」という拡張子とが付されている「Sea_07292019.jpg」というファイル名を生成する。

（１－２－２）分類名が複数の画像部分に共通していない場合
図７は、原稿画像の他の一例を示す図である。図７を参照して、原稿画像７０は、山の写真に対応している画像部分７１と、海辺の写真に対応している画像部分７２と、を含み、文字部分を含まない。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像７０からテキストデータを生成できないので、原稿画像が文字部分を含まないと判定し（ステップＳ１２にてＮＯ）、上記したステップＳ１３の処理を実行して、原稿画像７０の全領域から、エッジ７１Ａによって囲まれている画像を画像部分７１として抽出するとともに、エッジ７２Ａによって囲まれている画像を画像部分７２として抽出する。

ステップＳ１３の処理後、制御部１０は、上記したステップＳ１４の処理を実行して、まず、画像部分７１を第１学習モデルに入力し、入力に応じて第１学習モデルから出力されてくる、「Volcano」という第１階層の分類名と、「Mountain」という第２階層の分類名とを取得する。制御部１０は次いで、画像部分７２を第１学習モデルに入力し、入力に応じて第１学習モデルから出力されてくる、「Seashore」という第１階層の分類名と、「Sea」という第２階層の分類名とを取得する。

ステップＳ１４の処理後、制御部１０は、上記したステップＳ１５の処理を実行する。この場合、制御部１０は、画像部分抽出処理によって、画像部分７１及び画像部分７２を原稿画像７０から抽出しているので、原稿画像が複数の画像部分を含むと判定し（ステップＳ１５にてＹＥＳ）、上記したステップＳ１８の処理を実行する。

この場合、画像部分ごとに取得された分類名のいずれも画像部分７１及び画像部分７２に共通していないので、制御部１０は、共通している分類名が存在していないと判定し（ステップＳ１８にてＮＯ）、共通していない最上層の分類名の全てを含む文字列を生成して、ファイル名の主題として取得する（ステップＳ２０）。この場合、制御部１０は、「Mountain」という分類名と、「Sea」という分類名とを含む「Mountain_Sea」という文字列を生成して、ファイル名の主題として取得する。

ステップＳ２０の処理後、制御部１０は、上記したステップＳ１７の処理を実行して、取得された主題に、「07292019」という文字列と、「jpg」という拡張子とが付されている「Mountain_Sea_07292019.jpg」というファイル名を生成する。

（２）原稿画像が文字部分を含み、かつ画像部分を含まない場合
（２－１）原稿画像が文字部分を１つのみ含む場合
図８は、原稿画像の他の一例を示す図である。図８を参照して、原稿画像８０は、水泳についての説明を示している文字列８１Ａを含む文字部分８１のみを含み、画像部分を含まない。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像８０から文字列８１Ａを示しているテキストデータを生成するので、原稿画像が文字部分を含むと判定し（ステップＳ１２にてＹＥＳ）、図３Ｂに示すように、原稿画像における文字部分を除く領域に対して画像部分抽出処理を実行する（ステップＳ２１）。この場合、制御部１０は、原稿画像８０における文字部分８１を除く領域８２に対して画像部分抽出処理を実行する。

ステップＳ２１の処理後、制御部１０は、画像部分抽出処理の抽出結果に基づいて、原稿画像が画像部分を含むか否かを判定する（ステップＳ２２）。この場合、制御部１０は、画像部分抽出処理によって、領域８２から画像部分を抽出できないので、原稿画像が画像部分を含まないと判定し（ステップＳ２２にてＮＯ）、第２学習モデルを用いて、文字部分に含まれる文字列に応じた複数階層の分類名を文字部分ごとに取得する（ステップＳ２３）。

具体的には、ステップＳ２３において、制御部１０は、原稿画像に含まれる文字部分のうちのいずれか１つから生成されたテキストデータから、ＮＬＰ(Natural Language Processing)技術を用いた、例えば、固有表現抽出処理等の情報抽出処理によって複数の単語を抽出し、抽出された複数の単語を文字列群として第２学習モデルに入力する。制御部１０は、入力に応じて第２学習モデルから出力されてくる複数階層の分類名を取得する。制御部１０は、原稿画像に含まれる全ての文字部分に対して上記した処理を行なう。

この場合、制御部１０は、文字列８１Ａを示しているテキストデータから、「pools」、「Olympic」、「butterfly」、「backstroke」、「breaststroke」、「freestyle」、及び「individual medley」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Swimming」という第１階層の分類名と、「Sports」という第２階層の分類名と、を取得する。

ステップＳ２３の処理後、制御部１０は、原稿画像が複数の文字部分を含むか否かを判定する（ステップＳ２４）。具体的には、制御部１０は、ステップＳ２４において、原稿画像における文字部分の位置を示す座標情報を文字部分ごとに取得し、取得された座標情報に基づいて、互いに予め定められた距離以上離れている文字部分が存在しているか否かを判定する。

制御部１０は、互いに予め定められた距離以上離れている文字部分が存在している場合に、原稿画像が複数の文字部分を含むと判定し、それ以外の場合には、原稿画像が複数の文字部分を含まないと判定する。予め定められた距離としては、特に限定されないが、ここでは、２行分の行間に対応する長さを用いるものとする。

この場合、制御部１０は、文字部分８１のみからテキストデータを生成しているため、互いに予め定められた距離以上離れている文字部分は存在していない。したがって、制御部１０は、原稿画像が複数の文字部分を含まないと判定し（ステップＳ２４にてＮＯ）、上記したステップＳ１６の処理を実行して、「Swimming」という第１階層の分類名を、主題として取得する。

ステップＳ１６の処理後、制御部１０は、上記したステップＳ１７の処理を実行して、取得された主題に、「07292019」という文字列と、「jpg」という拡張子とが付されている「Swimming_07292019.jpg」というファイル名を生成する。

（２－２）原稿画像が複数の文字部分を含む場合
（２－２－１）分類名が複数の文字部分に共通している場合
図９は、原稿画像の他の一例を示す図である。図９を参照して、原稿画像９０は、海の大きさについての説明を示している文字列９１Ａを含む文字部分９１と、海の役割についての説明を示している文字列９２Ａを含む文字部分９２と、を含み、画像部分を含まない。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像９０から、文字列９１Ａを示しているテキストデータと、文字列９２Ａを示しているテキストデータとを生成するので、原稿画像が文字部分を含むと判定し（ステップＳ１２にてＹＥＳ）、上記したステップＳ２１の処理を実行する。制御部１０は、ステップＳ２１において、原稿画像９０における文字部分９１及び文字部分９２を除く領域９３に対して画像部分抽出処理を実行する。

この場合、制御部１０は、画像部分抽出処理によって、領域９３から画像部分を抽出できないので、原稿画像が画像部分を含まないと判定し（ステップＳ２２にてＮＯ）、上記したステップＳ２３の処理を実行する。制御部１０は、ステップＳ２３において、まず、文字列９１Ａを示しているテキストデータから、「sea」、「world ocean」、「ocean」、「square」、及び「volume」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Size」という第１階層の分類名と、「Sea」という第２階層の分類名と、を取得する。

制御部１０は次いで、文字列９２Ａを示しているテキストデータから、「roles」、「sea」、「oceanography」、及び「Pacific ocean」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Role」という第１階層の分類名と、「Sea」という第２階層の分類名と、を取得する。

ステップＳ２３の処理後、制御部１０は、上記したステップＳ２４の処理を実行する。この場合、文字部分９１と文字部分９２とは、３行分の行間に対応する長さだけ離れているものとする。したがって、原稿画像９０には、互いに予め定められた距離以上離れている文字部分９１，９２が存在している。この場合、制御部１０は、原稿画像が複数の文字部分を含むと判定し（ステップＳ２４にてＹＥＳ）、文字部分ごとに取得された複数階層の分類名を文字部分同士で比較して、複数の文字部分に共通している分類名が存在しているか否かを判定する（ステップＳ２５）。

この場合、「Sea」という分類名が文字部分９１及び文字部分９２に共通しているので、制御部１０は、共通している分類名が存在していると判定し（ステップＳ２５にてＹＥＳ）、上記したステップＳ１９の処理を実行して、共通している「Sea」という分類名を、主題として取得する。

ステップＳ１９の処理後、制御部１０は、上記したステップＳ１７の処理を実行して、取得された主題に、「07292019」という文字列と、「jpg」という拡張子とが付されている「Sea_07292019.jpg」というファイル名を生成する。

（２－２－２）分類名が複数の文字部分に共通していない場合
図１０は、原稿画像の他の一例を示す図である。図１０を参照して、原稿画像１０１は、海の大きさについての説明を示している文字列１０２Ａを含む文字部分１０２と、富士山についての説明を示している文字列１０３Ａを含む文字部分１０３と、を含み、画像部分を含まない。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像１０１から、文字列１０２Ａを示しているテキストデータと、文字列１０３Ａを示しているテキストデータとを生成するので、原稿画像が文字部分を含むと判定し（ステップＳ１２にてＹＥＳ）、上記したステップＳ２１の処理を実行する。

制御部１０は、ステップＳ２１において、原稿画像１０１における文字部分１０２及び文字部分１０３を除く領域１０４に対して画像部分抽出処理を実行する。この場合、制御部１０は、画像部分抽出処理によって、領域１０４から画像部分を抽出できないので、原稿画像が画像部分を含まないと判定し（ステップＳ２２にてＮＯ）、上記したステップＳ２３の処理を実行する。

制御部１０は、ステップＳ２３において、まず、文字列１０２Ａを示しているテキストデータから、「sea」、「world ocean」、「ocean」、「square」、及び「volume」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Size」という第１階層の分類名と、「Sea」という第２階層の分類名と、を取得する。

制御部１０は次いで、文字列１０３Ａを示しているテキストデータから、「Mt. Fuji」、「mountain」、「及び「volcano」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Volcano」という第１階層の分類名と、「Mountain」という第２階層の分類名とを取得する。

ステップＳ２３の処理後、制御部１０は、上記したステップＳ２４の処理を実行する。この場合、文字部分１０２と文字部分１０３とは、５行分の行間に対応する長さだけ離れているものとする。したがって、原稿画像１０１には、互いに予め定められた距離以上離れている文字部分１０２，１０３が存在している。この場合、制御部１０は、原稿画像が複数の文字部分を含むと判定し（ステップＳ２４にてＹＥＳ）、上記したステップＳ２５の処理を実行する。

この場合、文字部分ごとに取得された分類名のいずれも文字部分１０２及び文字部分１０３に共通していないので、制御部１０は、共通している分類名が存在していないと判定し（ステップＳ２５にてＮＯ）、上記したステップＳ２０の処理を実行する。この場合、制御部１０は、「Sea」という分類名と、「Mountain」という分類名とを含む「Sea_Mountain」という文字列を生成して、主題として取得する。

ステップＳ２０の処理後、制御部１０は、上記したステップＳ１７の処理を実行して、取得された主題に、「07292019」という文字列と、「jpg」という拡張子とが付されている「Sea_Mountain_07292019.jpg」というファイル名を生成する。

（３）原稿画像が文字部分と画像部分とを含む場合
（３－１）文字部分のサイズが画像部分のサイズよりも大きい場合
（３－１－１）原稿画像が文字部分と画像部分とを１つずつ含む場合
図１１は、原稿画像の他の一例を示す図である。図１１を参照して、原稿画像１１０は、海の大きさについての説明を示している文字列１１１Ａを含む文字部分１１１と、海辺の写真に対応している画像部分１１２と、を含む。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像１１０から文字列１１１Ａを示しているテキストデータを生成するので、原稿画像が文字部分を含むと判定し（ステップＳ１２にてＹＥＳ）、上記したステップＳ２１の処理を実行する。制御部１０は、ステップＳ２１において、原稿画像１１０における文字部分１１１を除く領域１１３に対して画像部分抽出処理を実行する。

この場合、制御部１０は、画像部分抽出処理によって、領域１１３から、エッジ１１２Ａによって囲まれている画像を画像部分１１２として抽出するので、原稿画像が画像部分を含むと判定し（ステップＳ２２にてＹＥＳ）、文字部分のサイズが画像部分のサイズよりも大きいか否かを判定する（ステップＳ２６）。

具体的には、ステップＳ２６において、制御部１０はまず、全ての文字部分の面積の合計（以下「第１面積」と記す。）と、全ての画像部分の面積の合計（以下「第２面積」と記す。）と、第１面積と第２面積との合計（以下「第３面積」と記す。）と、を算出する。制御部１０は次いで、第１面積の第３面積に対する割合（以下、「第１割合」と記す。）と、第２面積の第３面積に対する割合（以下、「第２割合」と記す。）と、を百分率により算出する。

制御部１０は、第１割合が第２割合よりも大きく、かつ、第１割合と第２割合との差を示す値が予め定められた値を超えている場合に、文字部分のサイズが画像部分のサイズよりも大きいと判定し、それ以外の場合には、文字部分のサイズが画像部分のサイズよりも大きくないと判定する。上記した予め定められた値としては、特に限定されないが、ここでは、「１０％」という値を用いるものとする。

この場合、制御部１０は、文字部分１１１の面積を第１面積として算出し、画像部分１１２の面積を第２面積として算出する。ここで、制御部１０は、第１割合として「７０％」という値を算出し、第２割合として「３０％」という値を算出しているものとする。このとき、第１割合の値は第２割合の値よりも大きく、かつ、第１割合と第２割合との差を示す値は「４０％」である。

したがって、制御部１０は、文字部分のサイズが画像部分のサイズよりも大きいと判定し（ステップＳ２６にてＹＥＳ）、上記したステップＳ２３の処理を実行して、文字列１１１Ａを示しているテキストデータから、「sea」、「world ocean」、「ocean」、「square」、及び「volume」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Size」という第１階層の分類名と、「Sea」という第２階層の分類名と、を取得する。

ステップＳ２３の処理後、制御部１０は、上記したステップＳ２４の処理を実行する。この場合、制御部１０は、文字部分１１１のみからテキストデータを生成しているため、互いに予め定められた距離以上離れている文字部分は存在していない。したがって、制御部１０は、原稿画像が複数の文字部分を含まないと判定し（ステップＳ２４にてＮＯ）、上記したステップＳ１６の処理を実行して、「Size」という第１階層の分類名を、ファイル名の主題として取得する。

ステップＳ１６の処理後、制御部１０は、上記したステップＳ１７の処理を実行して、取得された主題に、「07292019」という文字列と、「jpg」という拡張子とが付されている「Size_07292019.jpg」というファイル名を生成する。

（３－１－２）原稿画像が複数の文字部分と複数の画像部分とを含む場合
図１２は、原稿画像の他の一例を示す図である。図１２を参照して、原稿画像１２０は、富士山についての説明を示している文字列１２１Ａを含む文字部分１２１と、海の大きさについての説明を示している文字列１２２Ａを含む文字部分１２２と、を含む。原稿画像１２０はまた、山の写真に対応している画像部分１２３と、海辺の写真に対応している画像部分１２４と、を含む。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像１２０から、文字列１２１Ａを示しているテキストデータと、文字列１２２Ａを示しているテキストデータとを生成するので、原稿画像が文字部分を含むと判定し（ステップＳ１２にてＹＥＳ）、上記したステップＳ２１の処理を実行する。制御部１０は、ステップＳ２１において、原稿画像１１０における文字部分１２１及び文字部分１２２を除く領域１２５に対して画像部分抽出処理を実行する。

この場合、制御部１０は、画像部分抽出処理によって、領域１２５から、エッジ１２３Ａによって囲まれている画像を画像部分１２３として抽出するとともに、エッジ１２４Ａによって囲まれている画像を画像部分１２４として抽出するので、原稿画像が画像部分を含むと判定し（ステップＳ２２にてＹＥＳ）、上記したステップＳ２６の処理を実行する。

この場合、制御部１０は、ステップＳ２６において、文字部分１２１の面積と文字部分１２２の面積との合計を第１面積として算出し、画像部分１２３の面積と画像部分１２４の面積との合計を第２面積として算出する。ここで、制御部１０は、第１割合として「８０％」という値を算出し、第２割合として「２０％」という値を算出しているものとする。このとき、第１割合の値は第２割合の値よりも大きく、かつ、第１割合と第２割合との差を示す値は「６０％」である。

したがって、制御部１０は、文字部分のサイズが画像部分のサイズよりも大きいと判定し（ステップＳ２６にてＹＥＳ）、上記したステップＳ２３の処理を実行して、まず、文字列１２１Ａを示しているテキストデータから、「Mt. Fuji」、「mountain」、及び「volcano」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Volcano」という第１階層の分類名と、「Mountain」という第２階層の分類名とを取得する。

制御部１０は次いで、文字列１２２Ａを示しているテキストデータから、「sea」、「world ocean」、「ocean」、「square」、及び「volume」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Size」という第１階層の分類名と、「Sea」という第２階層の分類名と、を取得する。

ステップＳ２３の処理後、制御部１０は、上記したステップＳ２４の処理を実行する。この場合、文字部分１２１と文字部分１２２とは、３行分の行間に対応する長さだけ離れているものとする。したがって、原稿画像１２０には、互いに予め定められた距離以上離れている文字部分１２１，１２２が存在している。この場合、制御部１０は、原稿画像が複数の文字部分を含むと判定し（ステップＳ２４にてＹＥＳ）、上記したステップＳ２５の処理を実行する。

この場合、文字部分ごとに取得された分類名のいずれも文字部分１２１及び文字部分１２２に共通していないので、制御部１０は、共通している分類名が存在していないと判定し（ステップＳ２５にてＮＯ）、上記したステップＳ２０の処理を実行する。この場合、制御部１０は、「Mountain」という分類名と、「Sea」という分類名とを含む「Mountain_Sea」という文字列を、ファイル名の主題として取得する。

（３－２）画像部分のサイズが文字部分のサイズよりも大きい場合
（３－２－１）原稿画像が文字部分と画像部分とを１つずつ含む場合
図１３は、原稿画像の他の一例を示す図である。原稿画像１３０は、海の大きさについての説明を示す文字列１３１Ａを含む文字部分１３１と、海辺の写真に対応している画像部分１３２と、を含む。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像１３０から文字列１３１Ａを示しているテキストデータを生成するので、原稿画像が文字部分を含むと判定し（ステップＳ１２にてＹＥＳ）、上記したステップＳ２１の処理を実行する。制御部１０は、ステップＳ２１において、原稿画像１３０における文字部分１３１を除く領域１３３に対して画像部分抽出処理を実行する。

この場合、制御部１０は、画像部分抽出処理によって、領域１３３から、エッジ１３２Ａによって囲まれている画像を画像部分１３２として抽出するので、原稿画像が画像部分を含むと判定し（ステップＳ２２にてＹＥＳ）、上記したステップＳ２６の処理を実行する。

この場合、制御部１０は、ステップＳ２６において、文字部分１３１の面積を第１面積として算出し、画像部分１３２の面積を第２面積として算出する。ここで、制御部１０は、第１割合として「３０％」という値を算出し、第２割合として「７０％」という値を算出しているものとする。このとき、第２割合の値は第１割合の値よりも大きく、かつ、第１割合と第２割合との差を示す値は「４０％」である。

したがって、制御部１０は、文字部分のサイズが画像部分のサイズよりも大きくないと判定し（ステップＳ２６にてＮＯ）、画像部分のサイズが文字部分のサイズよりも大きいか否かを判定する（ステップＳ２７）。具体的には、制御部１０は、ステップＳ２７において、第２割合が第１割合よりも大きく、かつ、第１割合と第２割合との差を示す値が予め定められた値を超えている場合に、画像部分のサイズが文字部分のサイズよりも大きいと判定し、それ以外の場合には、画像部分のサイズが文字部分のサイズよりも大きくないと判定する。

この場合、制御部１０は、画像部分のサイズが文字部分のサイズよりも大きいと判定し（ステップＳ２７にてＹＥＳ）、上記したステップＳ１４の処理を実行して、画像部分１３２を第１学習モデルに入力し、入力に応じて第１学習モデルから出力されてくる、「Seashore」という第１階層の分類名と、「Sea」という第２階層の分類名とを取得する。

ステップＳ１４の処理後、制御部１０は、上記したステップＳ１５の処理を実行する。この場合、制御部１０は、画像部分抽出処理によって、画像部分１３２のみを原稿画像１３０から抽出しているので、原稿画像が複数の画像部分を含まないと判定し（ステップＳ１５にてＮＯ）、上記したステップＳ１６の処理を実行して、「Seashore」という第１階層の分類名を、ファイル名の主題として取得する。

ステップＳ１６の処理後、制御部１０は、上記したステップＳ１７の処理を実行して、取得された主題に、「07292019」という文字列と、「jpg」という拡張子とが付されている「Seashore_07292019.jpg」というファイル名を生成する。

（３－２－２）原稿画像が複数の文字部分と複数の画像部分とを含む場合
図１４は、原稿画像の他の一例を示す図である。図１４を参照して、原稿画像１４０は、富士山についての説明を示している文字列１４１Ａを含む文字部分１４１と、海の大きさについての説明を示している文字列１４２Ａを含む文字部分１４２と、を含む。原稿画像１４０はまた、山の写真に対応している画像部分１４３と、海辺の写真に対応している画像部分１４４とを含む。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像１４０から、文字列１４１Ａを示しているテキストデータと、文字列１４２Ａを示しているテキストデータとを生成するので、原稿画像が文字部分を含むと判定し（ステップＳ１２にてＹＥＳ）、上記したステップＳ２１の処理を実行する。

制御部１０は、ステップＳ２１において、原稿画像１４０における文字部分１４１及び文字部分１４２を除く領域１４５に対して画像部分抽出処理を実行する。この場合、制御部１０は、画像部分抽出処理によって、領域１４５からエッジ１４３Ａによって囲まれている画像を画像部分１４３として抽出するとともに、エッジ１４４Ａによって囲まれている画像を画像部分１４４として抽出するので、原稿画像が画像部分を含むと判定し（ステップＳ２２にてＹＥＳ）、上記したステップＳ２６の処理を実行する。

この場合、制御部１０は、ステップＳ２６において、文字部分１４１の面積と文字部分１４２の面積との合計を第１面積として算出し、画像部分１４３の面積と画像部分１４４の面積との合計を第２面積として算出する。ここで、制御部１０は、第１割合として「４０％」という値を算出し、第２割合として「６０％」という値を算出しているものとする。このとき、第２割合の値は第１割合の値よりも大きく、かつ、第１割合と第２割合との差を示す値は「２０％」である。

したがって、制御部１０は、文字部分のサイズが画像部分のサイズよりも大きくないと判定するとともに（ステップＳ２６にてＮＯ）、画像部分のサイズが文字部分のサイズよりも大きいと判定し（ステップＳ２７にてＹＥＳ）、上記したステップＳ１４の処理を実行して、まず、画像部分１４３を第１学習モデルに入力し、入力に応じて第１学習モデルから出力されてくる、「Volcano」という第１階層の分類名と、「Mountain」という第２階層の分類名とを取得する。

制御部１０は次いで、画像部分１４４を第１学習モデルに入力し、入力に応じて第１学習モデルから出力されてくる、「Seashore」という第１階層の分類名と、「Sea」という第２階層の分類名とを取得する。ステップＳ１４の処理後、制御部１０は、上記したステップＳ１５の処理を実行する。この場合、制御部１０は、画像部分抽出処理によって、画像部分１４３及び画像部分１４４を原稿画像１４０から抽出しているので、原稿画像が複数の画像部分を含むと判定し（ステップＳ１５にてＹＥＳ）、上記したステップＳ１８の処理を実行する。

この場合、画像部分ごとに取得された分類名のいずれも画像部分１４３及び画像部分１４４に共通していないので、制御部１０は、共通している分類名が存在していないと判定し（ステップＳ１８にてＮＯ）、上記したステップＳ２０の処理を実行して、「Mountain」という分類名と、「Sea」という分類名とを含む「Mountain_Sea」という文字列を、ファイル名の主題として取得する。

（３－３）文字部分のサイズと画像部分のサイズとが同程度の場合
図１５は、原稿画像の他の一例を示す図である。図１５を参照して、原稿画像１５０は、海の大きさについての説明を示している文字列１５１Ａを含む文字部分１５１と、海辺の写真に対応している画像部分１５２と、を含む。

この場合、制御部１０は、ＯＣＲ処理によって、原稿画像１５０から文字列１５１Ａを示しているテキストデータを生成するので、原稿画像が文字部分を含むと判定し（ステップＳ１２にてＹＥＳ）、上記したステップＳ２１の処理を実行する。

制御部１０は、ステップＳ２１において、原稿画像１５０における文字部分１５１を除く領域１５３に対して画像部分抽出処理を実行する。この場合、制御部１０は、画像部分抽出処理によって、領域１５３から、エッジ１５２Ａによって囲まれている画像を画像部分１５２として抽出するので、原稿画像が画像部分を含むと判定し（ステップＳ２２にてＹＥＳ）、上記したステップＳ２６の処理を実行する。

この場合、制御部１０は、ステップＳ２６において、文字部分１５１の面積を第１面積として算出し、画像部分１５２の面積を第２面積として算出する。ここで、制御部１０は、第１割合として「４８％」という値を算出し、第２割合として「５２％」という値を算出しているものとする。このとき、第２割合の値は第１割合の値よりも大きく、かつ、第１割合と第２割合との差を示す値は「４％」である。

したがって、制御部１０は、文字部分のサイズが画像部分のサイズよりも大きくないと判定するとともに（ステップＳ２６にてＮＯ）、画像部分のサイズが文字部分のサイズよりも大きくないと判定し（ステップＳ２７にてＮＯ）、上記したステップＳ２３の処理を実行して、文字列１５１Ａを示しているテキストデータから、「sea」、「world ocean」、「ocean」、「70%」、及び「surface」という複数の単語を抽出して文字列群として第２学習モデルに入力し、入力に応じて第２学習モデルから出力されてくる、「Size」という第１階層の分類名と、「Sea」という第２階層の分類名と、を取得する。

ステップＳ２３の処理後、制御部１０は、上記したステップＳ２４の処理を実行する。この場合、制御部１０は、文字部分１５１のみからテキストデータを生成しているため、互いに予め定められた距離以上離れている文字部分は存在していない。したがって、制御部１０は、原稿画像が複数の文字部分を含まないと判定し（ステップＳ２４にてＮＯ）、上記したステップＳ１６の処理を実行して、「Size」という第１階層の分類名を、主題として取得する。

ステップＳ１７の処理後、制御部１０は、ファイル名生成処理を終了する。制御部１０は、ファイル名生成処理によって生成されているファイル名を入力されている画像ファイルに付して、当該画像ファイルをＨＤＤ１７に記憶させる。

なお、第１割合の値が第２割合の値よりも大きく、かつ、第１割合と第２割合との差を示す値が予め定められた値以下である場合においても、制御部１０は、図１５を用いて示した上記の例と同様の処理を実行する。

また、ファイル名生成機能が無効に設定されている場合は、制御部１０は、ファイル名生成機能が有効に設定されていないと判定し（ステップＳ１０にてＮＯ）、ファイル名生成処理を終了する。この場合、制御部１０は、ユーザーによって操作部１６を介して入力されるファイル名を受付け、受付けられたファイル名を画像ファイルに付して、当該画像ファイルをＨＤＤ１７に記憶させる。

上記実施形態によれば、制御部１０は、原稿画像５０が、画像部分５１を含み、かつ文字部分を含まない場合に、第１学習モデルを用いて、画像部分５１の特徴に応じた分類名を主題として取得する。制御部１０は、原稿画像８０が、文字部分８１を含み、かつ、画像部分を含まない場合に、第２学習モデルを用いて、文字部分８１に含まれる文字列８１Ａに応じた分類名を主題として取得する。制御部１０は、取得された主題を含むファイル名を、画像ファイルのファイル名として生成する。

これによって、ユーザーは、原稿画像に文字部分が含まれていない場合であっても、画像部分に応じたファイル名を取得できる。ユーザーはまた、原稿画像の文字部分に、例えばフォントサイズ又は色彩等の予め定められた条件を満たす文字列が存在していない場合であっても、当該文字部分に応じたファイル名を取得できる。

また上記実施形態によれば、制御部１０は、原稿画像１１０が文字部分１１１と画像部分１１２とを含む場合であって、文字部分１１１のサイズが画像部分１１２のサイズよりも大きく、かつ、文字部分１１１のサイズと画像部分１１２のサイズとの差を示す値が予め定められた値を超えている場合には、第２学習モデルを用いて、文字部分１１１に含まれる文字列１１１Ａに応じた分類名を主題として取得する。

制御部１０はまた、原稿画像１３０が文字部分１３１と画像部分１３２とを含む場合であって、画像部分１３２のサイズが文字部分１３１のサイズよりも大きく、かつ、画像部分１３２のサイズと文字部分１３１のサイズとの差を示す値が予め定められた値を超えている場合には、第１学習モデルを用いて、画像部分１３２の特徴に応じた分類名を主題として取得する。

これによって、ユーザーは、原稿画像の多くを占めている部分に応じたファイル名を取得できる。したがって、ユーザーは、ファイル名を確認することによって、原稿画像の内容をより一層適切に把握できる。

また上記実施形態によれば、制御部１０は、原稿画像６０が複数の画像部分６１，６２を含む場合であって、取得された分類名が複数の画像部分６１，６２に共通している場合には、共通している分類名を主題として取得する。

制御部１０はまた、原稿画像７０が複数の画像部分７１，７２を含む場合であって、取得された分類名が複数の画像部分７１，７２に共通していない場合には、共通していない最上層の分類名を全て含む文字列を主題として取得する。

これによって、ユーザーは、原稿画像に含まれる複数の画像部分に応じたファイル名を取得できる。したがって、ユーザーは、ファイル名を確認することによって、原稿画像の内容をより一層適切に把握できる。

また上記実施形態によれば、制御部１０は、原稿画像９０が複数の文字部分９１，９２を含む場合であって、取得された分類名が複数の文字部分９１，９２に共通している場合には、共通している分類名を主題として取得する。制御部１０はまた、原稿画像１０１が複数の文字部分１０２，１０３を含む場合であって、取得された分類名が複数の文字部分１０２，１０３に共通していない場合には、共通していない最上層の分類名を全て含む文字列を、主題として取得する。

これによって、ユーザーは、原稿画像に含まれる複数の文字部分に応じたファイル名を取得できる。したがって、ユーザーは、ファイル名を確認することによって、原稿画像の内容をより一層適切に把握できる。

（第１の変形例）
上記実施形態では、制御部１０は、ＯＣＲ処理の結果に基づいて原稿画像が文字部分を含むか否かを判定し、画像部分抽出処理の結果に基づいて原稿画像が画像部分を含むか否かを判定したが、本発明はそのような実施形態に限定されない。第１の変形例では、制御部１０は、ＨＤＤ１７に予め記憶されているテンプレート画像を用いたテンプレートマッチングを行なうことにより、上記２つの判定を行なう。

この場合、制御部１０は、第２学習モデルを用いた分類名の取得を行なう直前（すなわち、ステップＳ２３の処理の直前）にステップＳ１１のＯＣＲ処理を実行し、第１学習モデルを用いた分類名の取得を行なう直前（すなわち、ステップＳ１４の処理の直前）に、ステップＳ１３又はステップＳ２１の画像部分抽出処理を実行する。

第１の変形例によれば、文字部分１５１のサイズと画像部分１５２のサイズとの差を示す値が予め定められた値以下である場合に、制御部１０が、第２学習モデルを用いた分類名の取得を優先することで、負荷の大きい画像部分抽出処理を実行することなくファイル名の生成を行なうことができるので、制御部１０にかかる負荷を減らすことができる。

（その他の変形例）
上記実施形態では、制御部１０は、分類名を主題として取得したが、本発明はそのような実施形態に限定されない。制御部１０は、主題として、画像部分の内容又は文字部分の内容を適切に示す、例えば題名等の名称を取得してもよい。

また上記実施形態では、制御部１０は、複数階層の分類名として、第１階層の分類名と第２階層の分類名と取得したが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、小分類を示す第１階層の分類名と、中分類を示す第２階層の分類名と、大分類を示す第３階層の分類名を取得してもよい。

また上記実施形態では、画像読取部１１及び制御部１０が画像入力部として機能したが、本発明はそのような実施形態に限定されない。例えば、通信部２２が画像入力部として機能してもよい。この場合、ネットワークを介して接続されているＰＣ２３等から送信されてくる画像ファイルが、通信部２２を介して、画像形成装置１に入力される。

また上記実施形態では、制御部１０は、日付を示している文字列と拡張子とを主題に付してファイル名を生成したが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、ファイル名の生成順を示す通し番号を示す文字列と拡張子とを主題に付してファイル名を生成してもよいし、日付及び時間を示している文字列と拡張子とを主題に付してファイル名を生成してもよい。

また上記実施形態では、制御部１０は、ステップＳ１６において、最下層の分類名をファイル名の主題として取得したが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、最上層の分類名を取得してもよい。

また上記実施形態では、制御部１０は、ステップＳ２０において、共通していない最上層の分類名の全てを含む文字列を生成したが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、共通していない最下層の分類名の全てを含む文字列を生成してもよい。

また上記実施形態では、制御部１０は、文字部分１５１のサイズと画像部分１５２のサイズとの差を示す値が予め定められた値以下である場合には、第２学習モデルを用いた分類名の取得を行なったが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、上記の場合に、第１学習モデルを用いた分類名の取得を行なってもよい。

また上記実施形態によれば、制御部１０は、原稿画像が複数の画像部分を含む場合に（ステップＳ１５にてＹＥＳ）、ステップＳ１８の処理、及び、ステップＳ１９又はステップＳ２０の処理を実行したが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、原稿画像が複数の画像部分を含む場合に（ステップＳ１５にてＹＥＳ）、サイズの最も大きい画像部分に応じた最下層又は最上層の分類名を主題として取得してもよい。

また上記実施形態によれば、制御部１０は、原稿画像が複数の文字部分を含む場合に（ステップＳ２４にてＹＥＳ）、ステップＳ２５の処理、及び、ステップＳ１９又はステップＳ２０の処理を実行したが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、原稿画像が複数の文字部分を含む場合に（ステップＳ１５にてＹＥＳ）、サイズの最も大きい文字部分に応じた最下層又は最上層の分類名を主題として取得してもよい。

また上記実施形態では、制御部１０は、ステップＳ２６において、全ての文字部分の面積の合計を第１面積として算出し、全ての画像部分の面積の合計を第２面積として算出したが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、最もサイズの大きい文字部分の面積を第１面積として算出し、最もサイズの大きい画像部分の面積を第２面積として算出してもよい。

また上記実施形態では、ステップＳ１７の処理後、制御部１０は、生成されたファイル名が付されている画像ファイルをＨＤＤ１７に記憶させたが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、操作部１６を介して、画像ファイルの送信処理を実行するための実行指示を受付けている場合には、生成されたファイル名が付されている画像ファイルを、操作部１６を介して指定されている送信先に送信してもよい。

また上記実施形態では、ＨＤＤ１７は、第２学習モデルとして、入力された文字列に応じた複数階層の分類名を出力するように予め学習されているモデルを記憶していたが、本発明はそのような実施形態に限定されない。例えば、ＨＤＤ１７は、第２学習モデルとして、ＬＤＡ(Latent Dirichlet Allocation)、すなわち潜在的ディリクレ配分法を用いたトピックモデルを記憶していてもよい。この場合、制御部１０は、上記トピックモデルを用いて、文字部分に含まれる文字列に応じたメイントピックを主題として取得する。

第２学習モデルとして上記したトピックモデルが用いられる場合、ＨＤＤ１７はさらに、例えば、領収書、名刺、及びリスト等の原稿画像に含まれる、トピックを含まない文字列に応じた主題を出力するためのテンプレートを、当該主題に対応付けて記憶していることが好ましい。ＨＤＤ１７は、例えば、「領収書」という主題に対応付けて「金額」、「内訳」、及び「消費税」等の文字列群をテンプレートとして記憶している。

この場合、制御部１０は、上記したトピックモデルを用いて主題を取得できない場合には、原稿画像に含まれる文字列とテンプレートとを照合し、当該文字列にテンプレートが含まれる場合には、テンプレートに対応付けられている主題を出力する。

また上記実施形態では、画像部分は写真に対応している画像であったが、本発明はそのような実施形態に限定されない。画像部分としては、文字列を含んでおらず、かつ、画像認識処理によって認識可能な特徴を含む画像であれば特に限定されず、例えば、イラストに対応している画像であってもよい。

また上記実施形態では、制御部１０は、ステップＳ１２、ステップＳ２２、ステップＳ２６、又はステップＳ２７の処理の結果に応じて、第１学習モデルを用いた分類名の取得又は第２学習モデルを用いた分類名の取得を選択的に実行したが、本発明はそのような実施形態に限定されない。例えば、制御部１０は、操作部１６を介して入力される、いずれかの取得方法を示すユーザーの指示に従って、第１学習モデルを用いた分類名の取得又は第２学習モデルを用いた分類名の取得を実行してもよい。

なお、本発明は上記実施形態の構成に限られず種々の変形が可能である。例えば、上記実施形態では、情報処理装置としてカラー複合機を用いているが、これは一例に過ぎず、モノクロ複合機、コピー機、又はファクシミリ装置等の他の画像形成装置が用いられてもよいし、ＰＣが用いられてもよい。

また、図１乃至図１５を用いて示した上記実施形態の構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。

１画像形成装置
１０制御部
１１画像読取部
１７ＨＤＤ
２２通信部

Claims

入力された画像の特徴に応じた名称を出力するための学習が予め行なわれた第１学習モデルと、入力された文字列に応じた名称を出力するための学習が予め行なわれた第２学習モデルと、を予め記憶する記憶部と、
画像ファイルが入力される画像入力部と、
前記画像入力部を介して入力された前記画像ファイルが示す画像に応じた主題を取得し、取得された前記主題を含むファイル名を、前記画像ファイルのファイル名として生成する制御部と、を備え、
前記制御部は、前記画像ファイルが示す画像が、予め定められた特徴を含む画像部分を含み、かつ、文字部分を含まない場合に、前記第１学習モデルを用いて、前記画像部分の前記特徴に応じた名称を主題として取得し、
前記画像ファイルが示す画像が、前記文字部分を含み、かつ、前記画像部分を含まない場合に、前記第２学習モデルを用いて、前記文字部分に含まれる文字列に応じた名称を前記主題として取得し、
更に、前記制御部は、
前記画像ファイルが示す画像が前記文字部分と前記画像部分とを含む場合であって、前記文字部分のサイズが前記画像部分のサイズよりも大きく、かつ、前記文字部分のサイズと前記画像部分のサイズとの差を示す値が予め定められた値を超えている場合には、前記第２学習モデルを用いて、前記文字部分に含まれる前記文字列に応じた名称を前記主題として取得し、
前記画像ファイルが示す画像が前記文字部分と前記画像部分とを含む場合であって、前記画像部分のサイズが前記文字部分のサイズよりも大きく、かつ、前記画像部分のサイズと前記文字部分のサイズとの差を示す値が予め定められた値を超えている場合には、前記第１学習モデルを用いて、前記画像部分の前記特徴に応じた名称を前記主題として取得する、情報処理装置。
入力された画像の特徴に応じた名称を出力するための学習が予め行なわれた第１学習モデルと、入力された文字列に応じた名称を出力するための学習が予め行なわれた第２学習モデルと、を予め記憶する記憶部と、
画像ファイルが入力される画像入力部と、
前記画像入力部を介して入力された前記画像ファイルが示す画像に応じた主題を取得し、取得された前記主題を含むファイル名を、前記画像ファイルのファイル名として生成する制御部と、を備え、
前記制御部は、前記画像ファイルが示す画像が、予め定められた特徴を含む画像部分を含み、かつ、文字部分を含まない場合に、前記第１学習モデルを用いて、前記画像部分の前記特徴に応じた名称を主題として取得し、
前記画像ファイルが示す画像が、前記文字部分を含み、かつ、前記画像部分を含まない場合に、前記第２学習モデルを用いて、前記文字部分に含まれる文字列に応じた名称を前記主題として取得し、
更に、前記制御部は、前記画像ファイルが示す画像が前記文字部分と前記画像部分とを含む場合であって、前記文字部分のサイズと前記画像部分のサイズとの差を示す値が予め定められた値以下である場合には、前記第２学習モデルを用いて、前記文字部分に含まれる前記文字列に応じた名称を前記主題として取得する、情報処理装置。
入力された画像の特徴に応じた名称を出力するための学習が予め行なわれた第１学習モデルと、入力された文字列に応じた名称を出力するための学習が予め行なわれた第２学習モデルと、を予め記憶する記憶部と、
画像ファイルが入力される画像入力部と、
前記画像入力部を介して入力された前記画像ファイルが示す画像に応じた主題を取得し、取得された前記主題を含むファイル名を、前記画像ファイルのファイル名として生成する制御部と、を備え、
前記制御部は、前記画像ファイルが示す画像が、予め定められた特徴を含む画像部分を含み、かつ、文字部分を含まない場合に、前記第１学習モデルを用いて、前記画像部分の前記特徴に応じた名称を主題として取得し、
更に、前記制御部は、
前記画像ファイルが示す画像が複数の画像部分を含む場合であって、取得された前記名称が前記複数の画像部分に共通している場合には、共通している前記名称を前記主題として取得し、
前記画像ファイルが示す画像が複数の画像部分を含む場合であって、取得された前記名称が前記複数の画像部分に共通していない場合には、共通していない前記名称を全て含む文字列を、前記主題として取得する、記載の情報処理装置。
入力された画像の特徴に応じた名称を出力するための学習が予め行なわれた第１学習モデルと、入力された文字列に応じた名称を出力するための学習が予め行なわれた第２学習モデルと、を予め記憶する記憶部と、
画像ファイルが入力される画像入力部と、
前記画像入力部を介して入力された前記画像ファイルが示す画像に応じた主題を取得し、取得された前記主題を含むファイル名を、前記画像ファイルのファイル名として生成する制御部と、を備え、
前記制御部は、前記画像ファイルが示す画像が、予め定められた特徴を含む画像部分を含み、かつ、文字部分を含まない場合に、前記第１学習モデルを用いて、前記画像部分の前記特徴に応じた名称を主題として取得し、
更に、前記制御部は、
前記画像ファイルが示す画像が複数の文字部分を含む場合であって、取得された前記名称が前記複数の文字部分に共通している場合には、共通している前記名称を前記主題として取得し、
前記画像ファイルが示す画像が複数の文字部分を含む場合であって、取得された前記名称が前記複数の文字部分に共通していない場合には、共通していない前記名称を全て含む文字列を、前記主題として取得する、情報処理装置。