JP2020053891A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2020053891A JP2020053891A JP2018182651A JP2018182651A JP2020053891A JP 2020053891 A JP2020053891 A JP 2020053891A JP 2018182651 A JP2018182651 A JP 2018182651A JP 2018182651 A JP2018182651 A JP 2018182651A JP 2020053891 A JP2020053891 A JP 2020053891A
- Authority
- JP
- Japan
- Prior art keywords
- content
- area
- image
- information processing
- paper image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing device, an information processing method, and a program.
文書管理を行う場合に、文書の秘匿すべき部分をマスキング等によって視認不可能にした上で文書を管理することが一般的に行われている。例えば特許文献1では、文書をスキャンした画像にマスキングを行った上で保存する文書管理システムであって、文書内の領域毎に公開レベルを設定し、公開レベルに応じて異なる領域をマスキングした複数の画像を生成する文書管理システムが開示されている。
When performing document management, it is common practice to manage a document after making a portion of the document to be concealed invisible by masking or the like. For example,
しかしながら、特許文献1に係る発明は、文書内の予め定められた領域をマスクするものである。従って、文書内に手書きで文字等が記入されている場合に、文字等が記入された位置によっては、手書きの文字等までマスクされる虞がある。
However, the invention according to
一つの側面では、文書管理を適切に行うことができる情報処理装置等を提供することを目的とする。 An object of one aspect is to provide an information processing apparatus or the like that can appropriately perform document management.
一つの側面では、情報処理装置は、予め印刷されたコンテンツと手書きで記入された手書きオブジェクトとを有する記入用紙をスキャンした用紙画像を取得する取得部と、前記用紙画像から、前記コンテンツを特定するコンテンツ特定部と、前記用紙画像から、前記手書きオブジェクトを抽出する抽出部と、前記コンテンツを含む周辺領域であるコンテンツ領域から前記手書きオブジェクトを除いたマスキング領域を特定し、前記マスキング領域を視認できないように画像処理した前記用紙画像を生成する生成部とを備えることを特徴とする。 In one aspect, an information processing apparatus specifies an acquisition unit that acquires a paper image obtained by scanning an entry sheet having pre-printed content and a handwritten object entered by hand, and the content from the paper image. A content specifying unit, an extracting unit that extracts the handwritten object from the paper image, and a masking area that excludes the handwritten object from a content area that is a peripheral area including the content so that the masking area cannot be visually recognized. And a generation unit that generates the paper image subjected to image processing.
一つの側面では、文書管理を適切に行うことができる。 In one aspect, document management can be performed appropriately.
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、文書管理システムの構成例を示す模式図である。本実施の形態では、管理対象とする文書の一例として、学校のテストで回答者(生徒)が設問に対する回答を手書きで記入するテスト用紙(記入用紙)を想定し、テスト用紙をスキャンした用紙画像にマスキングを行った上で保存する文書管理システムについて説明する。文書管理システムは、情報処理装置1、サーバ2、スキャナ3を含む。情報処理装置1及びサーバ2は、インターネット等のネットワークNを介して通信接続されている。
Hereinafter, the present invention will be described in detail with reference to the drawings showing the embodiments.
(Embodiment 1)
FIG. 1 is a schematic diagram illustrating a configuration example of a document management system. In the present embodiment, as an example of a document to be managed, a test sheet (entry sheet) in which a respondent (student) manually writes an answer to a question in a school test is assumed, and a sheet image obtained by scanning the test sheet is assumed. A document management system that performs masking and then saves the document will be described. The document management system includes an
情報処理装置1は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばパーソナルコンピュータ、複合機、多機能端末等である。本実施の形態では情報処理装置1がパーソナルコンピュータであるものとし、以下の説明では簡潔のためにPC1と読み替える。本実施の形態に係るPC1は学校の教員が操作する端末装置であり、紙媒体を光学的に読み取るスキャナ3に接続されている。PC1は、スキャナ3がスキャンしたテスト用紙の画像をサーバ2にアップロードし、保存させる。この場合にPC1は、テスト用紙に予め印刷されている文章、絵、写真等のコンテンツであって、著作物に該当する可能性があるコンテンツが印刷されたコンテンツ領域に対しマスキングを行い、マスクされた画像をアップロードする。
The
サーバ2は所謂クラウドサーバであり、PC1からアップロードされたテスト用紙の画像をデータベースに格納して保存する。本実施の形態と無関係であるため詳細な説明は省略するが、サーバ2はテスト用紙に記入された回答の採点、集計、分析を行って分析結果を生徒及び教員に通知し、個々の生徒に適した教材の提供を行う。
The
なお、画像の保存場所はクラウド上のサーバ2に限定されず、例えばPC1がローカルで保存しておいてもよい。
The storage location of the image is not limited to the
また、以下の説明ではローカル端末であるPC1がマスク処理を行うものとして説明するが、画像のアップロード先であるサーバ2がマスク処理を行ってもよい。
In the following description, it is assumed that the
上記のようにテスト用紙をスキャンして画像を保存する際に、テスト用紙に著作物が含まれる場合、スキャンした画像をそのまま保存すると著作物の不正な複製に該当する虞がある。このような事態を回避するため、著作物に該当する可能性がある部分をマスクすることが考えられる。 When the test paper is scanned and the image is stored as described above, if the test paper contains a copyrighted work, if the scanned image is stored as it is, it may correspond to an illegal copy of the copyrighted work. In order to avoid such a situation, it is conceivable to mask a portion that may be a copyrighted work.
一方で、例えば回答者が問題文と重ねて回答を記入した場合など、回答が記入された位置によってはマスクすることで回答が判別できなくなる虞がある(図4、図5等参照)。そこで本実施の形態では、PC1は、手書きの回答(オブジェクト)が記入された領域を画像から特定し、特定した領域をマスキングの対象から除外することで、回答が判別できなくなる事態を防止する。 On the other hand, for example, when a respondent fills in an answer with a question sentence over, there is a possibility that the answer cannot be determined by masking depending on the position where the answer is written (see FIGS. 4 and 5). Therefore, in the present embodiment, the PC 1 identifies a region in which a handwritten answer (object) is written from an image, and excludes the identified region from a target of masking, thereby preventing a situation in which the answer cannot be determined.
図2は、PC1の構成例を示すブロック図である。PC1は、制御部11、主記憶部12、通信部13、表示部14、入力部15、補助記憶部16を備える。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)等の演算処理装置を有し、補助記憶部16に記憶されたプログラムPを読み出して実行することにより、PC1に係る種々の情報処理、制御処理等を行う。主記憶部12は、RAM等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は通信モジュールであり、外部と情報の送受信を行う。表示部14は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の表示装置であり、制御部11から与えられた画像を表示する。入力部15はキーボード、マウス等の操作インターフェイスであり、操作内容を制御部11に入力する。補助記憶部16はハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。
FIG. 2 is a block diagram illustrating a configuration example of the
The
図3は、コンテンツ領域の特定処理に関する説明図である。図3では、テスト用紙をスキャンした画像からコンテンツが印刷された領域を特定する様子を概念的に図示している。以下では本実施の形態の概要について説明する。 FIG. 3 is an explanatory diagram relating to the process of specifying the content area. FIG. 3 conceptually illustrates how a region where the content is printed is specified from an image obtained by scanning a test sheet. Hereinafter, an outline of the present embodiment will be described.
PC1はスキャナ3から、回答者が手書きの回答(手書きオブジェクト)を記入するテスト用紙(回答用紙)であって、著作物に該当する可能性があるコンテンツが印刷されたテスト用紙をスキャンした用紙画像を取得する。テスト用紙は、設問に対する回答を記入する記入用紙であって、例えば図3に示すように、設問文、設問内容、回答欄等が文字、記号等によって印刷されている。なお、テスト用紙の印刷内容(コンテンツ)は文字、記号のほかに、例えば図形、写真、絵などを含んでもよく、その内容は特に限定されない。
The PC 1 is a paper image obtained by scanning a test sheet (answer sheet) on which a respondent writes a handwritten answer (handwritten object) from the
回答者はテスト用紙に、文字等によって手書きで回答を記入する。なお、記入する内容は文字のほかにストローク、記号、図形等であってもよく、手書きで記入された何らかのオブジェクトであればよい。 The respondent writes the answer by hand on a test sheet using characters or the like. The contents to be entered may be strokes, symbols, figures, and the like in addition to the characters, and may be any object that is entered by hand.
PC1は用紙画像から、設問文、設問内容、回答欄等に相当する箇所、すなわちコンテンツを特定し、コンテンツを含む周辺領域であるコンテンツ領域を特定する。図3では、ハッチングを付した部分がコンテンツ領域に該当する。例えばPC1は、回答が未記入であるテスト用紙の用紙画像からコンテンツ領域を特定する。PC1は、著作物に該当する可能性があるコンテンツ領域を特定し、当該領域にマスキングを行う。
The
コンテンツ領域を特定する手法は、種々の手法が考えられる。図3では例示として、3つの手法について概念的に図示している。 Various methods are conceivable for specifying the content area. FIG. 3 conceptually illustrates three methods as examples.
第1の手法として、PC1は、用紙画像に対する文字認識を行ってテスト用紙に印刷されているテキストを抽出し、抽出したテキストをコンテンツとして特定して、当該テキストを囲む領域をコンテンツ領域として特定する。図3右上に、文字認識を行ってコンテンツ領域を特定する様子を図示している。PC1は、用紙画像に対して文字認識を行い、テスト用紙に印刷されている個々のテキストを抽出する。PC1は、各テキストをコンテンツとして特定し、各テキストが被覆されるように、ハッチングで示す矩形領域をコンテンツ領域に設定(特定)する。
As a first method, the
第2の手法として、PC1は、用紙画像内の画素値の分布(画素密度)に応じてコンテンツ領域を特定する。図3右側中央に、画素値の分布に基づきコンテンツ領域を特定する様子を図示している。PC1は、用紙画像内の各画素の画素値を参照し、画素値の分布状況を判別して、テスト用紙に印刷されている文字、記号、ストローク等のように、テスト用紙の背景と異なる部分を特定する。例えばPC1は、用紙画像内のある画素に着目する場合、当該画素及びその周辺の画素(例えば3×3ピクセル)における、背景色とのRGB値の差分が閾値以上の画素の数をカウントする。PC1は、カウントした画素が所定数(例えば3ピクセル)以上ある場合、当該画素を含む部分をコンテンツとして特定する。
As a second method, the
PC1は、特定した部分を被覆するようにコンテンツ領域を設定(特定)する。これにより、文字認識では特定することが困難な記号、ストロークなどもマスキングを施すことができる。
The
なお、PC1が参照する画素値はRGB値のような色に関する値であってもよく、輝度のような明るさに関する値であってもよい。 Note that the pixel value referred to by the PC1 may be a value related to color such as an RGB value or a value related to brightness such as luminance.
第3の手法として、PC1は、ディープラーニング等の機械学習により予め構築されている識別器(学習済みモデル)を用いて、用紙画像からコンテンツを特定する。図3下側に、識別器に用紙画像を入力してコンテンツ領域の識別結果を出力として得る様子を図示している。例えばPC1は、CNN(Convolution Neural Network;畳み込みニューラルネットワーク)等に係る識別器であって、コンテンツ領域の正解値(正解の座標範囲)がラベル付けされた用紙画像の教師データを元に、コンテンツの特徴を学習済みの識別器を用いる。なお、機械学習の手法はCNNに限定されず、他のニューラルネットワーク、SVM(Support Vector Machine)、ベイジアンネットワーク、決定木等であってもよい。PC1は、用紙画像を識別器に入力して画像特徴量を抽出し、コンテンツを識別した識別結果を出力値として取得する。PC1は、識別器から出力された識別結果に従ってコンテンツ領域を設定(特定)する。
As a third method, the
PC1は、上記で例示した手法のいずれかを用いてコンテンツ領域を特定する。あるいはPC1は、複数の手法を組み合わせてコンテンツ領域を特定するようにしてもよい。
The
図4は、手書き記入領域の特定処理に関する説明図である。図4では、回答が記入済みのテスト用紙の用紙画像から、手書きで記入された回答(オブジェクト)を抽出し、抽出した回答を囲む手書き記入領域を特定する様子を概念的に図示している。 FIG. 4 is an explanatory diagram relating to a process for specifying a handwritten entry area. FIG. 4 conceptually illustrates a state in which an answer (object) written by hand is extracted from a sheet image of a test sheet on which an answer has been written, and a handwritten writing area surrounding the extracted answer is specified.
図4上段に示す画像例では、回答者が記入した回答が、本来回答を記入すべき範囲からはみ出して記入されており、一部が問題文(コンテンツ)と重なっている。既に述べたように、このような状態でコンテンツ領域にそのままマスキングを施した場合、回答の一部も視認不可能となる。そこでPC1は、手書きで記入されている回答を用紙画像から抽出し、抽出した回答を囲むように、マスク対象から除外する手書き記入領域を特定する。
In the example of the image shown in the upper part of FIG. 4, the answer entered by the respondent is out of the range where the answer should be originally entered, and is partially overlapped with the question sentence (content). As described above, if the content area is masked as it is in such a state, a part of the answer becomes invisible. Therefore, the
例えばPC1は、回答が記入済みの用紙画像と、回答が未記入の用紙画像とを比較し、両者の差分を抽出することで手書きの回答を抽出する。例えばPC1は、回答が記入済みである用紙画像内の画素値を、回答が未記入である用紙画像内の画素値であって、記入済みの用紙画像の画素と同一画素の画素値と比較する。PC1は、各画素について画素値の比較を行い、両者の差分を抽出していく。
For example, the
図4中段に、抽出した回答を示す画像例を図示する。図4に示すように、PC1は、手書きで記入された回答に相当するオブジェクトを抽出する。PC1は、当該オブジェクトを囲むように、例えば矩形枠の領域を手書き記入領域として設定(特定)する。
The middle part of FIG. 4 illustrates an image example showing the extracted answer. As shown in FIG. 4, the
図5は、マスク処理に関する説明図である。図5では、回答が記入されたテスト用紙の用紙画像に対し、マスキングを行う様子を図示している。 FIG. 5 is an explanatory diagram relating to the mask processing. FIG. 5 illustrates a state in which masking is performed on the sheet image of the test sheet in which the answer has been entered.
PC1は、回答が記入済みの用紙画像に対して、上記で特定したコンテンツ領域から、手書き記入領域を除外した領域を視認できないように加工する画像処理、つまりマスク処理を行う。図5右側に、当該処理を概念的に図示している。図5右側では、黒塗りの矩形枠がマスキング対象であるコンテンツ領域を、白抜きの矩形枠が手書き記入領域をそれぞれ表す。PC1は、図5右の上段に示すコンテンツ領域と、図5右の中段に示す手書き記入領域とを比較し、図5右の下段に示す、コンテンツ領域から手書き記入領域を除外した領域を特定する。これにより、図5右の下段で点線矩形枠により示すように、コンテンツ領域と手書き記入領域との重複部分、すなわち問題文と回答とが重なった部分がマスキングの対象から除外される。
The
図5左側に示すように、PC1は、上記で特定した領域を視認不可能にするマスキングを行い、保存用のマスク画像を生成する。PC1は、生成したマスク画像をサーバ2に送信し、データベース上に記憶させる。
As shown on the left side of FIG. 5, the
図6は、PC1が実行する処理手順の一例を示すフローチャートである。図6に基づき、PC1が実行する処理内容について説明する。
PC1の制御部11は、スキャナ3から、予め印刷されたコンテンツと、手書きで記入されたオブジェクト(回答)とを有するテスト用紙をスキャンした用紙画像を取得する(ステップS11)。コンテンツは、著作物に該当する可能性がある文章、絵、写真等であるが、その具体的な内容は特に限定されない。
FIG. 6 is a flowchart illustrating an example of a processing procedure executed by the
The
制御部11は、用紙画像からコンテンツを特定する(ステップS12)。具体的には、制御部11は、回答が未記入の用紙画像からコンテンツを特定する。例えば制御部11は、用紙画像に対する文字認識によりテスト用紙に印刷されているテキストを抽出し、抽出したテキストをコンテンツとして特定してもよい。また、例えば制御部11は、用紙画像内の画素値の分布(画素密度)に応じてコンテンツを特定してもよい。また、例えば制御部11は、オブジェクトが未記入の用紙画像をコンテンツの教師データとして学習済みの識別器を用いて、コンテンツを特定するようにしてもよい。
The
制御部11は用紙画像から、テスト用紙に手書きで記入されたオブジェクト(回答)を抽出する(ステップS13)。具体的には、制御部11は、回答が記入済みであるテスト用紙の用紙画像と、回答が未記入であるテスト用紙の用紙画像とを比較し、手書きで記入された文字等を抽出する。制御部11は、抽出したオブジェクトを囲むように、手書き記入領域を特定する(ステップS14)。
The
制御部11は用紙画像に対し、ステップS12で特定したコンテンツを含む周辺領域であるコンテンツ領域から、ステップS14で特定した手書き記入領域を除外したマスキング領域を特定し、特定したマスキング領域を視認できないように画像処理したマスク画像を生成する(ステップS15)。制御部11は、生成したマスク画像をサーバ2に送信し(ステップS16)、一連の処理を終了する。
The
なお、上記ではマスキングを施す記入用紙の一例としてテスト用紙を挙げたが、例えば所定の質問(設問)に対して回答を記入するアンケート用紙などであってもよい。 In the above description, a test sheet has been described as an example of an entry sheet to be masked. However, a questionnaire sheet for answering a predetermined question (question) may be used.
また、上記ではマスキングを行うことでコンテンツ領域を視認不可能にするようにしたが、本実施の形態はこれに限定されるものではなく、例えば用紙画像からコンテンツ領域を切り取る(除去する)ようにしてもよい。この場合でも、コンテンツ(著作物)に該当する部分を適切に処理することができ、上記と同様の効果を奏する。このように、PC1はコンテンツ領域を視認不可能とした用紙画像を生成することができればよく、画像の加工方法はマスキングに限定されない。
Further, in the above, the content area is made invisible by performing masking. However, the present embodiment is not limited to this. For example, the content area may be cut out (removed) from the paper image. You may. Even in this case, the portion corresponding to the content (work) can be appropriately processed, and the same effect as above can be obtained. As described above, the
また、上記では回答が未記入の用紙画像からコンテンツを特定したが、本実施の形態はこれに限定されるものではなく、回答が記入済みの用紙画像からコンテンツを特定してもよい。例えばPC1は、多数の回答者それぞれの用紙画像から、各画像において共通して出現する文字、記号、図形等を抽出することにより、テスト用紙に印刷されたコンテンツを特定するようにしてもよい。また、例えばPC1は、著作物に該当するコンテンツとして予め定められた画像データを格納したデータベースを参照して、用紙画像からコンテンツを特定するようにしてもよい。このように、PC1はテスト用紙をスキャンした用紙画像からコンテンツを特定可能であればよく、回答の記入の有無は特に限定されない。
Further, in the above description, the content is specified from the sheet image in which the answer is not entered. However, the present embodiment is not limited to this, and the content may be identified from the sheet image in which the answer is entered. For example, the
また、上記では未記入の用紙画像と記入済みの用紙画像との差分を取ることで手書きの回答(オブジェクト)を抽出したが、本実施の形態はこれに限定されるものではない。例えばPC1は、人間の手書き文字の特徴を学習済みの学習済みモデル(識別器)を用いて、用紙画像に含まれる文字の手書きらしさを評価し、手書き文字(オブジェクト)を抽出するようにしてもよい。このように、PC1は用紙画像から手書きで記入されたオブジェクトを抽出可能であればよく、その手法は未記入の用紙画像と記入済みの用紙画像との比較に限定されない。
In the above description, a handwritten answer (object) is extracted by taking a difference between an unfilled paper image and a filled paper image. However, the present embodiment is not limited to this. For example, the
以上より、本実施の形態1によれば、手書きで記入される文字等のオブジェクトが被覆されないようマスキングを行い、文書管理を適切に行うことができる。 As described above, according to the first embodiment, masking can be performed so that objects such as characters written by handwriting are not covered, and document management can be appropriately performed.
また、本実施の形態1によれば、記入済みの用紙画像と未記入の用紙画像とを比較することで、手書き記入領域を適切に特定することができる。 Further, according to the first embodiment, a handwritten entry area can be appropriately specified by comparing a filled-in sheet image with an unfilled sheet image.
また、本実施の形態1によれば、用紙画像に対する文字認識によりコンテンツ領域を適切に特定することができる。 Further, according to the first embodiment, the content area can be appropriately specified by character recognition of the paper image.
また、本実施の形態1によれば、用紙画像内の画素値の分布(画素密度)を判別することで、コンテンツ領域を適切に特定することができる。 Further, according to the first embodiment, the content area can be appropriately specified by determining the distribution (pixel density) of the pixel values in the paper image.
また、本実施の形態1によれば、用紙画像内のコンテンツの特徴を学習済みの識別器を用いることで、コンテンツ領域をより精度良く特定することができる。 Also, according to the first embodiment, the content area can be specified with higher accuracy by using the classifier that has learned the characteristics of the content in the paper image.
(実施の形態2)
本実施の形態では、テスト用紙から認識されるテキスト内容に応じて、マスクすべきコンテンツ領域を特定する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図7は、実施の形態2に係るコンテンツ領域の特定処理に関する説明図である。図7に基づき、本実施の形態の概要について説明する。
(Embodiment 2)
In the present embodiment, an embodiment will be described in which a content area to be masked is specified according to the text content recognized from a test sheet. Note that the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
FIG. 7 is an explanatory diagram relating to a process of specifying a content area according to the second embodiment. An outline of the present embodiment will be described with reference to FIG.
図7上側には、用紙画像(テスト用紙)の一例を示す。本実施の形態でPC1は、用紙画像に対する文字認識を行ってテスト用紙に印刷されているテキストを抽出し、抽出したテキストの内容に応じて、マスクすべきコンテンツ領域を決定する。
The upper part of FIG. 7 shows an example of a sheet image (test sheet). In the present embodiment, the
例えばPC1は、テスト用紙のテキストから設問文を特定し、マスク対象とするコンテンツ領域から、設問文が印刷されている領域を除外する。設問文は回答者に回答を指示する文章であり、設問文自体に著作物が含まれる可能性が低い。そこでPC1は、設問文をマスク対象から除外することで、不要な箇所までマスクされる事態を防止する。
For example, the
具体的には、PC1は、テスト用紙のテキストから設問を表す特定のキーワードを認識し、当該キーワードに続く文章を設問文と特定する。当該キーワードは、例えば設問番号を表す文字列であり、図7では「第4問」及び「問1」が設問番号に該当する。例えばPC1は、設問番号を表す文字列のテンプレート(ルール)を格納したテーブルを参照して、テスト用紙のテキストから設問番号を表すキーワードを特定する。PC1は、特定したキーワード(設問番号)と、当該キーワードに続く文章を設問文として特定する。PC1は、設問文がマスクされないように、設問文が印刷されている領域をコンテンツ領域から除外する。
Specifically, the
なお、上記ではルールベースで設問文を特定したが、PC1は意味解析等の手法を用い、テスト用紙のテキストから直接的に設問文を特定(認識)してもよい。例えばPC1は、テスト用紙のテキストに対する構文解析を行い、命令文、依頼文など、設問文に用いられる所定表現の構文を特定する。例えば図7のテスト用紙では、PC1は、「問いに答えよ」、「正しいものを〜選べ」といった命令文を特定する。PC1は、特定した命令文を含む一連の文章を設問文として特定し、コンテンツ領域から除外する。
In the above description, the question sentence is specified based on the rule base. However, the
上述の如く、PC1は文字認識によって抽出したテキストから設問文を特定し、設問文が印刷された領域をコンテンツ領域から除外する。これにより、著作物に該当する可能性が低い部分をマスク対象から除外し、著作物に該当する可能性が高い部分にのみマスキングを行う。
As described above, the
上記ではマスク対象から除外する領域を特定することで、著作物に該当する可能性が高い領域を間接的に特定する手法を取った。一方で、PC1は、テスト用紙のテキストの内容に応じて、著作物に該当する可能性が高いコンテンツの領域を直接的に特定するようにしてもよい。
In the above, a technique is employed in which an area that is likely to be a copyrighted work is indirectly identified by identifying an area to be excluded from the masking target. On the other hand, the
例えばPC1は、コンテンツ(著作物)が印刷されている位置を表す所定表現の文章をテキスト中から特定し、当該文章の内容に応じて、マスクすべきコンテンツ領域を特定する。当該文章は、コンテンツの記載箇所を示唆する文章であり、例えば読解問題であるか否かなど、設問形式を判定可能な文章である。図7の例を用いて説明すると、例えばPC1は、「第4問」から続く設問文の冒頭に出現する文章「次の文章A・Bを読み」を判別(特定)し、当該文章から、読解問題である旨を判定する。この場合、PC1は当該文章の次の段落文をコンテンツとして特定し、当該段落文を被覆するようにコンテンツ領域を設定(特定)する。このように、PC1は用紙画像から抽出したテキストの内容に応じて、コンテンツが記載されている位置を特定する。例えばPC1は、コンテンツの位置を示唆する表現の文章をテーブル化して保持しておき、テーブルを参照しながら該当文章の有無を判別して、コンテンツ領域を特定するようにすればよい。
For example, the
また、例えばPC1は、用紙画像から抽出したテキストから、コンテンツ(著作物)に該当する文章のキーワードを特定することで、コンテンツ領域を直接的に特定してもよい。例えばPC1は、著作物に該当する文章のキーワードをデータベース化して予め保持しておき、当該キーワードを含む文章をテキスト中から検索(特定)して、当該キーワードを含む文章のみをコンテンツとして特定する。
Further, for example, the
上記のように、PC1は文字認識によって抽出したテキストから、マスクすべき領域とマスクすべきでない領域とを識別し、マスクすべきコンテンツ領域を特定する。図7下側に、特定したコンテンツ領域をハッチングにより示す。PC1は、実施の形態1と同様にコンテンツ領域へのマスク処理を行い、マスク画像を生成する。以上より、著作物を含む可能性が高い部分のみマスキングが施され、不要な箇所へのマスキングが防止される。
As described above, the
図8は、実施の形態2に係るPC1が実行する処理手順の一例を示すフローチャートである。
テスト用紙をスキャンした用紙画像を取得した後(ステップS11)、PC1の制御部11は以下の処理を実行する。制御部11は用紙画像に対する文字認識を行い、テスト用紙に印刷されているテキストを抽出する(ステップS201)。制御部11は、抽出したテキストに応じてコンテンツを特定する(ステップS202)。例えば制御部11は、ステップS201で抽出したテキストから設問を表す特定のキーワードを特定し、当該キーワードを含む文章を設問文として特定して、コンテンツから除外する。また、例えば制御部11は、ステップS201で抽出したテキストに対する意味解析を行い、命令文、依頼文といった構文を特定し、当該構文を含む文章を設問文と特定して、コンテンツから除外する。また、例えば制御部11は、ステップS201で抽出したテキストから、コンテンツが印刷されている位置を表す所定表現の文章を特定し、当該文章の内容に応じて、マスク対象であるコンテンツを特定する。また、例えば制御部11は、ステップS201で抽出したテキストから、コンテンツに該当する文章のキーワードを特定し、当該キーワードを含む文章をコンテンツとして特定する。制御部11は、処理をステップS13に移行する。
FIG. 8 is a flowchart illustrating an example of a processing procedure executed by the
After acquiring the paper image obtained by scanning the test paper (step S11), the
以上より、本実施の形態2によれば、テスト用紙に印刷されているテキストから設問文を特定し、コンテンツ領域から除外することで、コンテンツを含む可能性が低い部分をマスク対象から除外することができる。 As described above, according to the second embodiment, the question sentence is specified from the text printed on the test sheet and is excluded from the content area, so that the portion having a low possibility of including the content is excluded from the masking target. Can be.
また、本実施の形態2によれば、テスト用紙に印刷されているテキストからコンテンツ領域を推定(特定)することで、コンテンツを含む可能性が高い部分のみにマスキングを施すことができる。 Further, according to the second embodiment, by estimating (identifying) the content area from the text printed on the test paper, it is possible to perform masking only on a portion having a high possibility of including the content.
(実施の形態3)
図9は、上述した形態のPC1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、PC1は以下のように動作する。
取得部91は、予め印刷されたコンテンツと手書きで記入された手書きオブジェクトとを有する記入用紙をスキャンした用紙画像を取得する。コンテンツ特定部92は、前記用紙画像から、前記コンテンツを特定する。抽出部93は、前記用紙画像から、前記手書きオブジェクトを抽出する。生成部94は、前記コンテンツを含む周辺領域であるコンテンツ領域から前記手書きオブジェクトを除いたマスキング領域を特定し、前記マスキング領域を視認できないように画像処理した前記用紙画像を生成する。
(Embodiment 3)
FIG. 9 is a functional block diagram showing the operation of the
The
本実施の形態3は以上の如きであり、その他は実施の形態1及び2と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。 The third embodiment is as described above, and the other portions are the same as those in the first and second embodiments. Corresponding portions are denoted by the same reference numerals, and detailed description thereof will be omitted.
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time is an example in all respects and should be considered as not being restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
1 PC(情報処理装置)
11 制御部
12 主記憶部
13 通信部
14 表示部
15 入力部
16 補助記憶部
P プログラム
2 サーバ
3 スキャナ
1 PC (information processing device)
Claims (11)
前記用紙画像から、前記コンテンツを特定するコンテンツ特定部と、
前記用紙画像から、前記手書きオブジェクトを抽出する抽出部と、
前記コンテンツを含む周辺領域であるコンテンツ領域から前記手書きオブジェクトを除いたマスキング領域を特定し、前記マスキング領域を視認できないように画像処理した前記用紙画像を生成する生成部と
を備えることを特徴とする情報処理装置。 An acquisition unit configured to acquire a paper image obtained by scanning an entry sheet having pre-printed content and a handwritten object filled in by hand,
A content identification unit that identifies the content from the paper image;
An extracting unit that extracts the handwritten object from the paper image;
A generation unit configured to specify a masking area excluding the handwritten object from a content area that is a peripheral area including the content, and generate the paper image that has been subjected to image processing so that the masking area cannot be visually recognized. Information processing device.
前記生成部は前記コンテンツ領域から前記手書き記入領域を除いたマスキング領域を特定する
ことを特徴とする請求項1に記載の情報処理装置。 An entry specifying unit that identifies a handwritten entry area surrounding the extracted handwritten object,
The information processing apparatus according to claim 1, wherein the generation unit specifies a masking area obtained by removing the handwritten entry area from the content area.
ことを特徴とする請求項1又は2に記載の情報処理装置。 The said extraction part extracts the said handwritten object based on the said paper image in which the said handwritten object was filled in, and the said paper image in which the said handwritten object was not filled in. The Claims 1 or 2 characterized by the above-mentioned. Information processing device.
ことを特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the content specifying unit specifies the content in accordance with a text extracted by character recognition on the paper image.
前記抽出したテキストから、特定のキーワードを特定し、
前記キーワードを含む文章を前記コンテンツから除外する
ことを特徴とする請求項4に記載の情報処理装置。 The content specifying unit includes:
A specific keyword is specified from the extracted text,
The information processing device according to claim 4, wherein a sentence including the keyword is excluded from the content.
前記抽出したテキストから、特定のキーワードを特定し、
前記キーワードを含む文章のみを前記コンテンツとする
ことを特徴とする請求項4に記載の情報処理装置。 The content specifying unit includes:
A specific keyword is specified from the extracted text,
The information processing apparatus according to claim 4, wherein only the text including the keyword is used as the content.
ことを特徴とする請求項4〜6のいずれか1項に記載の情報処理装置。 The information processing device according to any one of claims 4 to 6, wherein the content specifying unit specifies a position where the content is printed according to the content of the extracted text.
ことを特徴とする請求項1〜7のいずれか1項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 7, wherein the content specifying unit specifies the content from a pixel density in the paper image or predetermined image data.
ことを特徴とする請求項1〜8のいずれか1項に記載の情報処理装置。 The content specifying unit specifies the content from the paper image acquired by the acquisition unit using a plurality of paper images on which the handwritten object is not entered as learning data of the content using a learned classifier. The information processing apparatus according to claim 1, wherein the information processing apparatus includes:
前記用紙画像から、前記コンテンツを特定し、
前記用紙画像から、前記手書きオブジェクトを抽出し、
前記コンテンツを含む周辺領域であるコンテンツ領域から前記手書きオブジェクトを除いたマスキング領域を特定し、前記マスキング領域を視認できないように画像処理した前記用紙画像を生成する
処理をコンピュータに実行させることを特徴とする情報処理方法。 Obtain a paper image by scanning an entry paper having pre-printed content and a handwritten object filled in by hand,
From the paper image, identify the content,
Extracting the handwritten object from the paper image,
Specifying a masking area excluding the handwritten object from a content area that is a peripheral area including the content, and generating a paper image that has been subjected to image processing so that the masking area cannot be visually recognized. Information processing method.
前記用紙画像から、前記コンテンツを特定し、
前記用紙画像から、前記手書きオブジェクトを抽出し、
前記コンテンツを含む周辺領域であるコンテンツ領域から前記手書きオブジェクトを除いたマスキング領域を特定し、前記マスキング領域を視認できないように画像処理した前記用紙画像を生成する
処理をコンピュータに実行させることを特徴とするプログラム。 Obtain a paper image by scanning an entry paper having pre-printed content and a handwritten object filled in by hand,
From the paper image, identify the content,
Extracting the handwritten object from the paper image,
Specifying a masking area excluding the handwritten object from a content area that is a peripheral area including the content, and generating a paper image that has been subjected to image processing so that the masking area cannot be visually recognized. Program to do.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018182651A JP7107138B2 (en) | 2018-09-27 | 2018-09-27 | Information processing device, information processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018182651A JP7107138B2 (en) | 2018-09-27 | 2018-09-27 | Information processing device, information processing method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020053891A true JP2020053891A (en) | 2020-04-02 |
JP7107138B2 JP7107138B2 (en) | 2022-07-27 |
Family
ID=69994132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018182651A Active JP7107138B2 (en) | 2018-09-27 | 2018-09-27 | Information processing device, information processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7107138B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639630A (en) * | 2020-06-23 | 2020-09-08 | 北京字节跳动网络技术有限公司 | Operation correcting method and device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07114618A (en) * | 1990-12-13 | 1995-05-02 | Xerox Corp | Segmentation method of handwritten and machine-printed text |
JP2002352191A (en) * | 2001-02-09 | 2002-12-06 | Matsushita Electric Ind Co Ltd | Printing control interface system and method having handwriting discrimination capability |
JP2008219800A (en) * | 2007-03-07 | 2008-09-18 | Osaka Prefecture Univ | Writing extraction method, writing extracting device, and writing extracting program |
-
2018
- 2018-09-27 JP JP2018182651A patent/JP7107138B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07114618A (en) * | 1990-12-13 | 1995-05-02 | Xerox Corp | Segmentation method of handwritten and machine-printed text |
JP2002352191A (en) * | 2001-02-09 | 2002-12-06 | Matsushita Electric Ind Co Ltd | Printing control interface system and method having handwriting discrimination capability |
JP2008219800A (en) * | 2007-03-07 | 2008-09-18 | Osaka Prefecture Univ | Writing extraction method, writing extracting device, and writing extracting program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639630A (en) * | 2020-06-23 | 2020-09-08 | 北京字节跳动网络技术有限公司 | Operation correcting method and device |
Also Published As
Publication number | Publication date |
---|---|
JP7107138B2 (en) | 2022-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710590B (en) | Error problem book generation method and device | |
US8824785B2 (en) | Segregation of handwritten information from typographic information on a document | |
CN107657255B (en) | Network marking method and device, readable storage medium and electronic equipment | |
US11574489B2 (en) | Image processing system, image processing method, and storage medium | |
US9824604B2 (en) | Creating assessment model for educational assessment system | |
US20120189999A1 (en) | System and method for using optical character recognition to evaluate student worksheets | |
US20150187219A1 (en) | Systems and methods for computer-assisted grading of printed tests | |
JP2007041177A (en) | Device, method, program for processing educational material, and recording medium | |
JP5661663B2 (en) | Information extraction device | |
Baker et al. | Tactile graphics with a voice | |
WO2022161293A1 (en) | Image processing method and apparatus, and electronic device and storage medium | |
US20220141349A1 (en) | Image processing device and image forming apparatus capable of detecting and correcting mis-converted character in text extracted from document image | |
US20190146646A1 (en) | Information processing system, information processing apparatus, and non-transitory computer readable medium | |
KR20130021684A (en) | System for managing answer paper and method thereof | |
US10255494B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP2007005950A (en) | Image processing apparatus and network system | |
JP7107138B2 (en) | Information processing device, information processing method and program | |
US9098777B2 (en) | Method and system for evaluating handwritten documents | |
CN111881900A (en) | Corpus generation, translation model training and translation method, apparatus, device and medium | |
US10560606B2 (en) | Image processing device, image processing method, and non-transitory computer readable medium | |
Babadi et al. | Novel grid-based optical braille conversion: from scanning to wording | |
US11170211B2 (en) | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium | |
JP7365835B2 (en) | Structure recognition system, structure recognition device, structure recognition method, and program | |
Rowtula et al. | Scaling handwritten student assessments with a document image workflow system | |
Sable et al. | Doc-handler: Document scanner, manipulator, and translator based on image and natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210727 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220627 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7107138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |