JP2018142182A - 情報処理装置、画像形成装置、及び情報処理方法 - Google Patents

情報処理装置、画像形成装置、及び情報処理方法 Download PDF

Info

Publication number
JP2018142182A
JP2018142182A JP2017036104A JP2017036104A JP2018142182A JP 2018142182 A JP2018142182 A JP 2018142182A JP 2017036104 A JP2017036104 A JP 2017036104A JP 2017036104 A JP2017036104 A JP 2017036104A JP 2018142182 A JP2018142182 A JP 2018142182A
Authority
JP
Japan
Prior art keywords
character
unit
data
document
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017036104A
Other languages
English (en)
Inventor
洋 吉本
Hiroshi Yoshimoto
洋 吉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2017036104A priority Critical patent/JP2018142182A/ja
Publication of JP2018142182A publication Critical patent/JP2018142182A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】文書データを分割単位で自動的に分割する情報処理装置を提供する。【解決手段】原稿読取部12は、複数のページを含む原稿の画像データ300を読み取る。画像処理部11は、画像データ300を文書データ200に変換し、文書データ200内の画像データ300を光学文字認識して文字データ310を作成して付加する。文字変更検出部100は、複数のページのデータを含む文書データ200について、文字検索設定210に設定されたページ上の位置(領域)において、ページ間での特定文字の変更を検出する。分割部110は、画像データ300がページ単位で区切られる文書データ200においては、特定文字の変更が検出されたページの箇所で文書データ200を分割する。【選択図】図2

Description

本発明は、情報処理装置、画像形成装置、及び情報処理方法に係り、特に文書データを扱う情報処理装置、画像形成装置、及び情報処理方法に関する。
従来から、文書や画像を印刷可能な複合機(Multifunctional Peripheral, MFP)等の画像形成装置が存在する。
ここで、特許文献1を参照すると、画像読み取り装置で読み取られた画像データ、および、ホストから送信されたPDLデータをレンダリングした画像データに対し、関連するメタデータを付与して格納する画像処理装置において、PDLデータをレンダリングした後の画像データに対して、画像データ中のオブジェクト毎にそれを含むように領域分割を行う分割手段と、分割手段により分割された領域の中から文字オブジェクトを判別する判別手段と、判別手段により判別された文字オブジェクトに対して文字認識処理を施して文字コード情報を抽出する文字認識手段と、文字認識手段により抽出された文字コード情報を含むメタデータを前記画像データ付与するメタデータ付与手段とを備える画像処理装置が記載されている。
特開2010−20468号公報
しかしながら、特許文献1の技術は、PDLデータを矩形ブロックに分割するものであった。このため、複数のページのデータを含む文書データを章単位等で自動的に分割するような用途に用いることはできなかった。
本発明は、このような状況に鑑みてなされたものであって、上述の問題点を解消する画像形成装置を提供することを課題とする。
本発明の情報処理装置は、複数のページのデータを含む文書データの前記ページ上の指定された位置において、前記ページ間での特定文字の変更を検出する文字変更検出部と、前記ページ単位で区切られる前記文書データにおいては、前記文字変更検出部で前記特定文字の変更が検出された前記ページの箇所で前記文書データを分割する分割部とを備えることを特徴とする。
本発明の情報処理装置は、前記分割部は、複数の前記ページが集約されて区切られる集約ページを含む前記文書データにおいては、同一の前記集約ページ内で前記特定文字の変更が検出された場合には、前記文書データの分割をしないことを特徴とする。
本発明の情報処理装置は、画像データである前記ページのデータを光学文字認識して文字データを作成する光学文字認識部を更に備え、前記文字変更検出部は、前記光学文字認識部により光学文字認識された文字データにより前記特定文字の変更を検出し、前記分割部は、前記文字変更検出部が前記ページ間での前記特定文字の変更を検出した後で、前の前記特定文字を検出した場合には、前記特定文字の変更を検出した箇所での前記文書データの分割をしないことを特徴とする。
本発明の画像形成装置は、複数のページを含む原稿を画像データとして読み取る原稿読取部と、前記画像データを文書データに変換する文書データ変換部と、前記文書データ変換部により変換された文書データ内の前記画像データである前記ページのデータを光学文字認識して文字データを作成する光学文字認識部と、前記光学文字認識部により光学文字認識された文字データにより、前記ページ上の指定された位置において、前記ページ間での特定文字の変更を検出する文字変更検出部と、前記ページ単位で区切られる前記文書データにおいては、前記文字変更検出部で前記特定文字の変更が検出された前記ページの箇所で前記文書データを分割する分割部とを備えることを特徴とする。
本発明の情報処理方法は、情報処理装置により実行される情報処理方法であって、前記情報処理装置は、複数のページのデータを含む文書データの前記ページ上の指定された位置において、前記ページ間での特定文字の変更を検出し、前記ページ単位で区切られる前記文書データにおいては、前記特定文字の変更が検出された前記ページの箇所で前記文書データを分割することを特徴とする。
本発明によれば、ページ間での特定文字の変更を検出し、検出されたページの箇所で文書データを分割することで、章単位等で自動的に文書データを分割可能な情報処理装置を提供することができる。
本発明の実施の形態に係る画像形成装置のシステム構成図である。 図1に示す画像形成装置の機能構成を示すブロック図である。 本発明の実施の形態に係る文書分割処理のフローチャートである。 図3に示す文書分割処理(独立ページ)の概念図である。 図3に示す文書分割処理(集約ページ)の概念図である。
<実施の形態>
〔画像形成装置1の全体のシステム構成〕
まず、図1を参照して、画像形成装置1の全体のシステム構成について説明する。
画像形成装置1は、画像処理部11、原稿読取部12、原稿給送部13、給紙部14、ネットワーク送受信部15、操作パネル部16、画像形成部17(画像形成手段)、FAX送受信部18、及び記憶部19等を含む。各部は、制御部10に接続され、制御部10によって動作制御される。
制御部10は、GPP(General Purpose Processor)、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)等を含む情報処理部である。
制御部10は、記憶部19のROMやHDDに記憶されている制御プログラムを読み出して、この制御プログラムをRAMに展開させて実行することで、後述する機能ブロックの各手段として動作させられる。また、制御部10は、図示しない外部の端末や操作パネル部16から入力された所定の指示情報に応じて、装置全体の制御を行う。
画像処理部11は、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Processor、特定用途向けプロセッサー)等を含む情報処理部である。画像処理部11は、画像データ300に対して特定の画像処理を行う。画像処理部11は、例えば、拡大縮小、濃度調整、階調調整、画像改善等の各種画像処理を行う。
また、画像処理部11は、原稿読取部12で読み取られた画像データ300(図2)を、文書データ200に変換して記憶部19に格納し、光学文字認識(Optical Character Recognition、以下、「OCR」という。)することも可能である。これらの機能については、機能ブロックの説明時に詳細を説明する。
原稿読取部12は、複数のページを含む原稿を読み取り(スキャン)、画像データ300を出力する手段である。また、原稿読取部12は、画像形成装置1の本体部の上部に配設される。
原稿読取部12は、スキャナーと、プラテンガラスと、原稿読取スリットとを備えている。原稿読取部12は、プラテンガラスに載置された原稿を読み取る場合には、スキャナーをプラテンガラスに対向する位置に移動させ、プラテンガラスに載置された原稿を走査しながら読み取って画像データ300を取得し、取得した画像データ300を記憶部19に格納する。この画像データ300の格納についても、機能ブロックの説明時に詳細説明する。また、原稿読取部12は、例えば、継続して複数の原稿を読み取り、画像データ群として記憶部19に格納することも可能である。
また、原稿読取部12は、原稿給送部13から給送された原稿を読み取る場合には、スキャナーを、原稿読取スリットと対向する位置に移動させる。そして、原稿読取部12は、原稿読取スリットを介し、原稿給送部13による原稿の搬送動作と同期して原稿を読み取って、画像データ300を取得する。この際、原稿読取部12は、設定により、原稿の表面、又は片面と裏面とについて、それぞれ画像データ300として取得することが可能である。原稿読取部12は、この際、複数の原稿の画像データ300を画像データ群としてまとめて、記憶部19に格納することが可能である。
なお、原稿読取部12は、見開きやn in 1等の複数のページが集約された画像についても読み取り可能である。
原稿給送部13は、原稿読取部12で読み取られる原稿を搬送する手段である。原稿給送部13は、原稿読取部12の上部に配設されている。
原稿給送部13は、原稿載置部と、原稿搬送機構とを備えている。原稿給送部13は、原稿載置部に載置された原稿を、原稿搬送機構によって1枚ずつ順に繰り出して、原稿読取部12に給送する。また、原稿給送部13は、原稿を裏返して給送する機構を備えていてもよい。
給紙部14は、記録紙を1枚ずつ画像形成部17に向けて繰り出す手段である。給紙部14は、本体部に備えられている。
ネットワーク送受信部15は、LAN、無線LAN、WAN、携帯電話網等の外部ネットワークに接続するためのLANボードや無線送受信機等を含むネットワーク接続手段である。
ネットワーク送受信部15は、データ通信用の回線ではデータを送受信し、音声電話回線では音声信号を送受信する。
操作パネル部16は、ユーザーの指示を取得し、画像形成装置1の状態等を表示する手段である。
操作パネル部16の構成については、後述する。
画像形成部17は、ユーザーの出力指示により、記憶部19に記憶され、原稿読取部12で読み取られ、又は外部の端末から取得されたデータから記録紙への画像形成を行わせる手段である。
画像形成部17は、感光体ドラム、露光部、現像部、転写部、及び定着部等を備えている。画像形成部17は、帯電、露光、現像、転写、定着からなる画像形成プロセスを実行することで記録紙にトナー像を記録する。
FAX送受信部18は、ファクシミリの送受信を行う手段である。FAX送受信部18は、音声回線により、他のFAX装置(図示せず)からファクシミリ受信して、記憶部19に画像データ300(図2)として格納する。この画像データ300も、画像処理部11で文書データ200に変換したり、画像形成部17で画像形成させたりすることが可能である。
また、FAX送受信部18は、原稿読取部12で読み取られた原稿の画像データ300、又は、外部の端末から送信されたネットワークFAXの文書データ200が変換された画像データ300等を、他のFAX装置へ音声回線でファクシミリ送信することが可能である。なお、この際の画像データ300も、画像データ群として、画像処理部11で文書データ200に変換することが可能である。
記憶部19は、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリーやHDD(Hard Disk Drive)等の一時的でない記録媒体を用いた記憶手段である。
記憶部19のROMやHDDには画像形成装置1の動作制御を行うための制御プログラムが記憶されている。これに加えて、記憶部19は、ユーザーのアカウント設定も記憶している。また、記憶部19には、ユーザー毎の保存フォルダー(文書ボックス)の領域が含まれていてもよい。
また、操作パネル部16は、入力部20と、表示部21とを備えている。
入力部20は、ユーザーによる各種指示を取得するためのタッチパネルやスイッチ(ボタン)等である。また、入力部20は、タッチパネルがマルチタッチ対応の場合には、複数の位置を検出可能であってもよい。
また、入力部20のボタンは、例えば、スタートキー、テンキー、複写やスキャナー等の動作モードの切り換え、選択された文書の印刷、送信、受信等に係る指示を取得するために用いられる。
表示部21は、LCD(Liquid Crystal Display)、OEL(Organic Electro-Luminescence)ディスプレイ、FED(Field Emission Display)、蛍光表示管等の平面ディスプレイパネル、プロジェクター、ステータス表示用LED等である。
表示部21は、GUI(Graphical User Interface)に関連する各種操作画面を表示する。また、表示部21は、例えば、記憶部19に格納された文書データ200(図2)を表示して、ユーザーに閲覧させたりする「プレビュー」(preview)表示を行うことが可能である。
また、操作パネル部16は、フラッシュメモリーカードや光学記録媒体やHDD等の外部記録媒体を接続する接続部を備えていてもよい。
なお、画像形成装置1において、制御部10及び画像処理部11は、GPU内蔵CPU等やチップ・オン・モジュールパッケージのように、一体的に形成されていてもよい。
また、制御部10及び画像処理部11は、RAMやROMやフラッシュメモリー等を内蔵していてもよい。
〔画像形成装置1の機能構成〕
ここで、図2により、画像形成装置1の機能構成の詳細について説明する。
まず、本実施形態において、原稿読取部12は、読み取られた原稿の表又は裏の一面を、一つのビットマップの画像データ300として、通し番号等を付加して、順次、記憶部19に格納する。この場合、読み込まれた原稿は、原稿に対応付けられたビットマップの画像データ300群となる。つまり、原稿読取部12は、原稿の片面若しくは両面の画像データ300を取得してもよい。
また、本実施形態において、画像処理部11は、文書データ変換部として機能する。画像処理部11は、例えば、複数ページのビットマップの画像データ300群を、画像データ300毎に区切り、文書データ200にまとめるように変換することが可能である。
また、画像処理部11は、文書データ200に含まれる画像データ300のOCRを行う光学文字認識部として機能する。画像処理部11は、変換された文書データ200内に含まれる各画像データ300をOCRして文字データ310を作成する。この際に、画像処理部11は、画像データ300をページ単位でOCRして、文書データ200に文字データ310として付加することが可能である。この際、画像データ300が一つのページに対応する、すなわち、ページ単位で区切られる画像データ300を含む(以下、「独立ページ」と称する。)文書データ200であれば、そのまま画像データ300のページPに文字データ310を対応付けて付加する。
また、画像処理部11は、文書データ200に、ページが集約された状態で区切られる集約ページが含まれる文書データ200場合には、集約ページ内の各ページPの単位で文字データ310を付加することが可能である。
また、本実施形態において、制御部10は、文字変更検出部100及び分割部110を備えている。
記憶部19は、文書データ200、文字検索設定210、及び分割データ220を記憶する。
文字変更検出部100は、複数のページのデータを含む文書データ200のページ上で指定された位置において、ページ間での特定文字の変更を検出する。この際、文字変更検出部100は、文字検索設定210を参照して、これに含まれる特定文字及び位置により、文書データ200の文字データ310を検索してもよい。
また、文字変更検出部100は、文書データ200の画像データ300を操作パネル部16の表示部21に表示し、GUIにて入力部20から、ユーザーに文字検索設定210の特定文字及び位置を設定させてもよい。
分割部110は、独立ページの文書データ200においては、文字変更検出部100で特定文字の変更が検出されたページの箇所で文書データ200を分割し、分割データ220を作成する。
また、分割部110は、集約ページを含む文書データ200においては、同一の集約ページ内で特定文字の変更が検出された場合には、文書データ200の分割をしなくてもよい。
また、分割部は、文字変更検出部100がページ間での特定文字の変更を検出した後で、前と同じ特定文字を再度検出した場合には、この特定文字の変更を検出した箇所での文書データ200の分割をしなくてもよい。
文書データ200は、PDF(Portable Document Format)やPS(Post Script)等の各種文書用のフォーマットのファイルである。本実施形態において、文書データ200は、原稿読取部12により読み取られた原稿の画像データ300と、画像処理部11によりOCRされた文字データ310とをページ毎に含んでいる。また、文書データ200は、独立ページであるか、集約ページであるかの設定を含んでいてもよい。
なお、図2は、原稿読取部12により読み取られた原稿の画像データ300群が、文書データ200として既にまとめられている状態を示している。
文字検索設定210は、文字変更検出部100により文書の章や作品や種類やトピック等の文章のまとまり(以下、単に、「分割単位」という。)を検索するための各種設定を含んでいる。具体的には、本実施形態においては、分割単位を検索するための一つ又は複数の文字等である特定文字、及び画像データ300上の座標や出力される際の座標等により指定される領域(位置)を含んでいる。このうち、特定文字は、「章」「Chapter」等の特定文字を含む一文字又は文字列、ワイルドカード、正規表現等を含む。なお、特定文字として、索引記号、側面の形状や色の変化やマーク等を含んでいてもよい。
分割データ220は、文書データ200が分割された分割部110により分割されたデータである。分割データ220自体も、文書データ200と同様に、文書用のフォーマットのファイルであってもよい。また、分割データ220は、例えば、特定文字を含む通し番号が元の文書データ200のファイル名に付加されている、「ユーザーA用文書_第1章.pdf」のような形式のファイルであってもよい。
ここで、画像形成装置1の制御部10は、記憶部19に記憶された制御プログラムを実行することで、文字変更検出部100及び分割部110として機能させられる。
また、上述の画像形成装置1の各部は、本発明の画像形成方法を実行するハードウェア資源となる。
なお、画像処理部11、原稿読取部12、文字変更検出部100、及び分割部110は、一部又は全てをICやプログラマブルロジック等により回路的に構成してもよい。
〔画像形成装置1による文書分割処理〕
次に、図3〜図5を参照して、本発明の実施の形態に係る画像形成装置1による文書分割処理の説明を行う。
本実施形態の文書分割処理では、文書データ200を作成して、OCRを行い、文字データ310を作成して付加する。また、複数のページのデータを含む文書データ200のページ上の指定された位置において、ページ間での特定文字の変更を検出する。この上で、独立ページの文書データ200においては、特定文字の変更が検出されたページの箇所で文書データ200を分割する。しかしながら、集約ページを含む文書データ200においては、同一の集約ページ内で特定文字の変更が検出された場合には、区切りがよくないと考えられるため、文書データ200の分割をしないようにする。また、ページ間での特定文字の変更を検出した後で、前の特定文字を検出した場合には、特定文字の変更を検出した箇所での文書データ200の分割をしないようにする。
本実施形態の文書分割処理は、原稿読取部12、画像処理部11、及び制御部10が、各部と協働し、ハードウェア資源を用いて実行する。このうち、制御部10については、記憶部19に記憶されたプログラムを実行する。
以下で、図3のフローチャートを参照して、文書分割処理の詳細をステップ毎に説明する。
(ステップS100)
まず、原稿読取部12等が、原稿読取処理を行う。
原稿読取部12は、操作パネル部16の入力部20からのユーザーの指示により、複数のページを含む原稿を読み取って、複数の画像データ300を、画像データ群として記憶部19に格納する。また、原稿読取部12は、この際、ユーザーの指示により、読み取る原稿が独立ページ又は集約ページであるか、片面か両面か等の設定についても画像データ300とともに格納する。
なお、FAX送受信部は、複数のページを含むファクシミリを受信した場合に、同様に、この複数の画像データ300の受信画像を画像データ群として記憶部19に格納してもよい。
(ステップS101)
次に、画像処理部11が、文書データ変換部として、文書データ変換処理を行う。
画像処理部11は、記憶部19に格納された画像データ群である複数の画像データ300をまとめて、文書データ200に変換する。この時点では、文書データ200の画像データ300に文字データ310は付加されていなくてもよい。
(ステップS102)
次に、画像処理部11が、光学文字認識部として、OCR処理を行う。
画像処理部11は、文書データ200に含まれる画像データ300にOCR処理をして、文字データ310を付加する。この際、本実施形態の例では、画像処理部11は、独立ページの文書データ200であれば、各ページの画像データ300を一つのページとして文字データ310を付加する。また、画像処理部11は、集約ページの文書データ200であれば、集約ページ内の各ページ単位で区別して文字データ310を付加する。
なお、制御部10又は画像処理部11が、操作パネル部16に接続された外部記録媒体や外部の端末等から文書データ200を直接取得して、記憶部19に格納してもよい。この直接取得された文書データ200は、画像データ300が含まれていない文字データ310を主に含むファイル等であってもよい。逆に、画像処理部11は、この直接取得された文書データ200に含まれる画像データ300にOCR処理をして、文字データ310を付加してもよい。
(ステップS103)
次に、文字変更検出部100が、文書データ200を特定文字列で分割するか否かを判断する。文字変更検出部100は、操作パネル部16の入力部20等からユーザーが文書データ200の分割を指示した場合に、Yesと判断する。文字変更検出部100は、それ以外の場合には、Noと判断する。
Yesの場合、文字変更検出部100は、処理をステップS104に進める。
Noの場合、文字変更検出部100は、本実施形態の文書分割処理を終了する。
(ステップS104)
特定文字列での分割を行う場合、文字変更検出部100が、特定文字位置設定処理を行う。
文字変更検出部100は、操作パネル部16の表示部21に文書データ200を表示させ、GUIにてユーザーに特定文字と位置とを指定させることで、文字検索設定210を設定する。この際、文字変更検出部100は、独立ページと集約ページとで異なる設定をさせてもよい。
たとえば、図4に、独立ページの文書データ200aの例を示す。この例によれば、文字変更検出部100は、各章のタイトル等のページ用に、特定文字の「*章」と、この特定文字を探索する領域である位置Aとを、文字検索設定210に設定する。なお、特定文字の「*」は、変化を検出する任意の文字を示すワイルドカード等又は正規表現の一例である。
また、図5の文書データ200bは、見開き原稿を集約した集約ページの文書データ200bの例を示す。この例によれば、文字変更検出部100は、各ページの見開きの左側に位置A1の領域を設定し、右側に位置A2の領域を設定している。また、文字変更検出部100は、特定文字としては、図4と同様の「*章」を設定している例を示している。
なお、文字変更検出部100は、n in 1等の更に多くのページを集約した文書データ200の場合、多数の位置を集約ページ内の座標を用いて設定することが可能である。
(ステップS105)
ここで、文字変更検出部100が、文字変更検出処理を行う。
文字変更検出部100は、文字検索設定210の位置において、文書データ200のページ間での特定文字の変更を検出する。
図4の例では、文字変更検出部100は、ページP1とページP3と間で、位置Aの領域に「1章」「2章」の特定文字の変更を検出する。
また、図5(a)の例では、文字変更検出部100は、同一の集約ページ内のページP3とページP4とにおいて、「1章」「2章」の特定文字の変更を検出する。さらに、図5(b)の例では、文字変更検出部100は、ページP4から続く「2章」の特定文字の変更が、異なる集約ページであるページP8の「3章」で起こったことを検出する。
(ステップS106)
次に、文字変更検出部100が、文字変更を検出したか否かを判断する。文字変更検出部100は、ページ間での特定文字の変更を検出した場合に、Yesと判断する。文字変更検出部100は、それ以外の場合には、Noと判断する。
Yesの場合、文字変更検出部100は、処理をステップS107に進める。
Noの場合、文字変更検出部100は、処理をステップS112に進める。
(ステップS107)
文字変更を検出した場合、文字変更検出部100が、前の文字に戻ったか否かを判断する。文字変更検出部100は、変更を検出した特定文字が、例えば、一つ前に検出した、変更される前の特定文字と同じであった場合には、OCRの文字の誤認識の可能性が高いため、Yesと判断する。文字変更検出部100は、それ以外の場合、すなわち、前の特定文字とは異なっており、前の文字に戻っていない場合には、Noと判断する。
Yesの場合、文字変更検出部100は、処理をステップS108に進める。
Noの場合、文字変更検出部100は、処理をステップS109に進める。
(ステップS108)
前の文字に戻った場合、分割部110が、分割キャンセル処理を行う。
分割部110は、前の特定文字の変更の際に分割された分割データ220を削除する等して、文書データ200の分割を前の状態に戻す。これにより、分割部110は、文字変更検出部100がページ間での特定文字の変更を検出した後で、更に、前の特定文字を検出した場合には、これらの箇所での文書データ200の分割をしないことが可能となる。
その後、文字変更検出部100は、処理をステップS112に進める。
(ステップS109)
前の文字に戻っていない場合、文字変更検出部100が、集約ページが設定されているか否かを判断する。文字変更検出部100は、文書データ200が集約ページを含んでいる場合に、Yesと判断する。文字変更検出部100は、それ以外の場合には、Noと判断する。
Yesの場合、文字変更検出部100は、処理をステップS110に進める。
Noの場合、文字変更検出部100は、処理をステップS111に進める。
(ステップS110)
集約ページの場合、文字変更検出部100が、同一集約ページ内か否かを判断する。文字変更検出部100は、同一の集約ページ内の位置間で特定文字の変更が検出された場合に、Yesと判断する。文字変更検出部100は、それ以外の場合には、Noと判断する。
Yesの場合、文字変更検出部100は、処理をステップS112に進める。
Noの場合、文字変更検出部100は、処理をステップS111に進める。
(ステップS111)
ここで、分割部110が、分割実行処理を行う。
分割部110は、実際の文書データ200の分割を行う。分割部110は、文字変更検出部100で特定文字の変更が検出されたページの箇所で文書データ200を分割する。これにより、例えば、分割部110は、前の特定文字の変更が検出されたページの次のページから、最初のページ又は特定文字の変更が検出されたページの前ページの箇所までの文書データ200を含む分割データ220と、その後のページの文書データ200を含む分割データ220とを作成する。なお、最初に特定文字の変更が検出された場合には、分割部110は、最初のページから当該箇所で分割した分割データ220を作成する。
その後、分割部110は、処理をステップS113に進める。
(ステップS112)
ここで、分割部110が、スキップ処理を行う。
分割部110は、分割を行わず、文字変更検出部100に次のページの検索を行わせるスキップを指示する。
具体的には、上述の各条件で示したように、分割部110は、文字変更検出部100が特定文字の変更が検索されなかったページでは分割を行わない。
また、分割部110は、同一の集約ページ内で特定文字の変更が検出された場合には、文書データ200の分割をしない。
また、分割部110は、前の特定文字を検出した場合には、この箇所での文書データ200の分割をしない。
(ステップS113)
ここで、文字変更検出部100が、全てのページを検索したか否かを判断する。文字変更検出部100は、文書データ200の全てのページの特定文字の変更を検索した場合に、Yesと判断する。文字変更検出部100は、それ以外の場合には、Noと判断する。
Yesの場合、文字変更検出部100は、本実施形態の文書分割処理を終了する。
Noの場合、文字変更検出部100は、処理をステップS105に戻して、特定文字の検索を続ける。
以上により、本発明の実施の形態に係る文書分割処理を終了する。
以上のように構成することで、以下のような効果を得ることができる。
従来の画像形成装置等の情報処理装置における文書の電子化においては、文書を任意のページで分割する際に、手動で分割する位置を「セパレーター」として指定する等して分割する必要があり、手間がかかっていた。また、特許文献1に記載の技術では、文書データ200の自動的なページ単位の分割には対応できなかった。
これに対して、本発明の実施の形態に係る画像形成装置1は、複数のページのデータを含む文書データ200のページ上の指定された位置において、ページ間での特定文字の変更を検出する文字変更検出部100と、ページ単位で区切られる文書データ200においては、文字変更検出部100で特定文字の変更が検出されたページの箇所で文書データ200を分割する分割部110とを備える情報処理装置であることを特徴とする。
このように構成することで、電子化された文書データ200を自動的に、適切な分割単位で分割することができ、ユーザーの手間を省くことが可能となる。
また、本発明の実施の形態に係る画像形成装置1は、分割部110は、複数のページが集約されて区切られる集約ページを含む文書データ200においては、同一の集約ページ内で特定文字の変更が検出された場合には、文書データ200の分割をしないことを特徴とする。
このように構成することで、集約ページ内のページ区切りが適切でない箇所で分割することがなくなり、ユーザーの手間を減らすことが可能となる。
また、本発明の実施の形態に係る画像形成装置1は、画像データ300であるページのデータを光学文字認識して文字データ310を作成する光学文字認識部を更に備え、文字変更検出部100は、光学文字認識部により光学文字認識された文字データ310により特定文字の変更を検出し、分割部110は、文字変更検出部100がページ間での特定文字の変更を検出した後で、前の特定文字を検出した場合には、特定文字の変更を検出した箇所での文書データ200の分割をしないことを特徴とする。
このように構成することで、OCRされた文書データ200が誤認識で分割されてしまう可能性を減少させることができ、ユーザーの手間を減らすことが可能となる。
〔他の実施の形態〕
なお、上述の本発明の実施の形態においては、同一の集約ページ内で特定文字の変更が検出された場合には、文書データ200の分割をしない例について記載した。しかしながら、単に分割しないのではなく、当該集約ページを二重化して分割するような構成も可能である。すなわち、分割部110は、分割箇所の前後で同じ集約ページを備えるような二つの分割データ220を作成してもよい。また、分割部110は、集約ページを単純に二重化するのではなく、当該ページ間で画像データ300や文字データ310自体を分割した二つの分割データ220を作成してもよい。この場合でも、集約ページを同じ大きさにして含まれないページを白紙等に設定してもよい。
また、画像処理部11は、例えば、全ての集約ページを独立ページに変換して文書データ200化するような設定も可能である。たとえば、画像処理部11は、「A3」の大きさの集約ページを半分で分けて「A4」ページ2枚するような独立ページの文書データ200に変換してもよい。この場合、この文書データ200は、独立ページの文書データ200と同様に分割することが可能である。
このように構成することで、文書データ200の設定等に対応して、適切に文書データ200を分割することが可能となる。
また、典型的な画像形成装置の複写ジョブにおいては、「インターシート」、「チャプター」という機能を備えるものがあった。このうち、「インターシート」は、出力された記録紙の特定の位置に白紙を挿入する機能である。また、「チャプター」は、両面印刷時に、章の始まりが裏面にならないように印刷する機能である。従来、これらは、ユーザーからのページ指定が必要で、手間がかかっていた。
これに対して、上述の本発明の実施の形態においては、文書データ200の作成の際に分割を行う例について示したものの、通常の複写(コピー)等にも上述と同様の処理を行うことが可能である。つまり、例えば、特定文字の変更が検出されたページの箇所で文書データ200を分割する代わりに白紙等を挿入したり、図示しないソーターで分別したり、印刷の向きを裏面にならないように変更したりすることが可能である。
このように構成することで、ユーザーによる指定なしに、自動的に分割単位で分割した複写等を実行したりすることができる。
また、上述の実施の形態においては、特定文字や位置をユーザーにより指定するように記載したものの、情報処理装置に自動的に設定させることも可能である。
たとえば、本発明の他の実施形態として、文書データ200の分割単位を探索する探索部を備える情報処理装置が存在してもよい。この探索部は、例えば、ページの端部において、ページ間で同様の特定文字列がないか、又は、「章の表紙」のように相同性が高いページがあり更に特定文字列が含まれていないか等を、画像や文字のマッチング等により探索する。
このように構成することで、特定文字や位置をユーザーが設定しなくても自動的に分割することが可能となり、更にユーザーの手間を減少させることができる。
なお、本発明の実施に係る情報処理装置として、画像形成装置1を用いる例について記載したものの、これに限らない。本発明は、画像形成装置以外の情報処理装置にも適用できる。たとえば、ネットワークスキャナー、スキャナーをUSB等で別途接続したサーバー等を用いる構成であってもよい。
また、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
1 画像形成装置
10 制御部
11 画像処理部
12 原稿読取部
13 原稿給送部
14 給紙部
15 ネットワーク送受信部
16 操作パネル部
17 画像形成部
18 FAX送受信部
19 記憶部
20 入力部
21 表示部
100 文字変更検出部
110 分割部
200、200a、200b 文書データ
210 文字検索設定
220 分割データ
300 画像データ
310 文字データ

Claims (5)

  1. 複数のページのデータを含む文書データの前記ページ上の指定された位置において、前記ページ間での特定文字の変更を検出する文字変更検出部と、
    前記ページ単位で区切られる前記文書データにおいては、前記文字変更検出部で前記特定文字の変更が検出された前記ページの箇所で前記文書データを分割する分割部とを備える
    ことを特徴とする情報処理装置。
  2. 前記分割部は、
    複数の前記ページが集約されて区切られる集約ページを含む前記文書データにおいては、同一の前記集約ページ内で前記特定文字の変更が検出された場合には、前記文書データの分割をしない
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 画像データである前記ページのデータを光学文字認識して文字データを作成する光学文字認識部を更に備え、
    前記文字変更検出部は、前記光学文字認識部により光学文字認識された文字データにより前記特定文字の変更を検出し、
    前記分割部は、前記文字変更検出部が前記ページ間での前記特定文字の変更を検出した後で、前の前記特定文字を検出した場合には、前記特定文字の変更を検出した箇所での前記文書データの分割をしない
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 複数のページを含む原稿を画像データとして読み取る原稿読取部と、
    前記画像データを文書データに変換する文書データ変換部と、
    前記文書データ変換部により変換された文書データ内の前記画像データである前記ページのデータを光学文字認識して文字データを作成する光学文字認識部と、
    前記光学文字認識部により光学文字認識された文字データにより、前記ページ上の指定された位置において、前記ページ間での特定文字の変更を検出する文字変更検出部と、
    前記ページ単位で区切られる前記文書データにおいては、前記文字変更検出部で前記特定文字の変更が検出された前記ページの箇所で前記文書データを分割する分割部とを備える
    ことを特徴とする画像形成装置。
  5. 情報処理装置により実行される情報処理方法であって、前記情報処理装置は、
    複数のページのデータを含む文書データの前記ページ上の指定された位置において、前記ページ間での特定文字の変更を検出し、
    前記ページ単位で区切られる前記文書データにおいては、前記特定文字の変更が検出された前記ページの箇所で前記文書データを分割する
    ことを特徴とする情報処理方法。
JP2017036104A 2017-02-28 2017-02-28 情報処理装置、画像形成装置、及び情報処理方法 Pending JP2018142182A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017036104A JP2018142182A (ja) 2017-02-28 2017-02-28 情報処理装置、画像形成装置、及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017036104A JP2018142182A (ja) 2017-02-28 2017-02-28 情報処理装置、画像形成装置、及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2018142182A true JP2018142182A (ja) 2018-09-13

Family

ID=63528099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017036104A Pending JP2018142182A (ja) 2017-02-28 2017-02-28 情報処理装置、画像形成装置、及び情報処理方法

Country Status (1)

Country Link
JP (1) JP2018142182A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016149600A (ja) * 2015-02-10 2016-08-18 シャープ株式会社 画像形成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016149600A (ja) * 2015-02-10 2016-08-18 シャープ株式会社 画像形成装置

Similar Documents

Publication Publication Date Title
US10795546B2 (en) Method for displaying user interface in accordance with device connection
JP5797679B2 (ja) 画像形成装置及び画像形成方法
US20200174637A1 (en) Device, method, and storage medium
JP2006321190A (ja) 画像形成装置及びその言語設定方法
US10656890B2 (en) Image forming apparatus, storage medium, and control method
US10887484B2 (en) Image forming apparatus, and method for controlling display screens thereof
US11297199B2 (en) Image processing apparatus that generates cover page from source image
JP2016063400A (ja) 画像処理装置および画像処理方法
US10764448B1 (en) Information processing apparatus and image forming apparatus performing file conversion of handwriting comment and comment extraction method
JP2015050523A (ja) 画像形成装置及び画像形成方法
JP6092074B2 (ja) 情報処理装置、画像形成システム、及び情報処理方法
JP5339200B2 (ja) 画像形成装置及び制御プログラム並びに制御方法
US11475213B2 (en) Information processing apparatus and image forming apparatus that add modification history to modified source image, according to modification made
JP2018142182A (ja) 情報処理装置、画像形成装置、及び情報処理方法
US20200242433A1 (en) Image forming apparatus that acquires fixed data and plurality of pieces of variable data according to user's instruction, and executes variable printing
JP2010263464A (ja) 画像形成装置
JP6135360B2 (ja) 情報機器およびコンピュータープログラム
JP2015122650A (ja) 画像形成装置、画像形成装置の制御方法、およびプログラム。
JP2002232617A (ja) 文書入出力装置およびファイリングシステム
JP5963643B2 (ja) 画像形成装置及び画像形成方法
US11785152B2 (en) Image forming apparatus in which a desired function can be selectively executed, method of controlling the same, and storage medium
CN111083303B (zh) 图像形成装置、图像处理方法以及图像处理程序记录介质
JP7404836B2 (ja) 情報処理装置及び画像形成装置
US20230048246A1 (en) Electronic apparatus that causes display device to display information corresponding to keyword and interrogative in inputted character string, and image forming apparatus
JP2007159008A (ja) 画像形成装置、画像出力条件設定方法、画像出力条件設定プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190912

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200218