以下、図面を参照して本発明の実施形態について詳細に説明する。
<処理対象文書の例>
図1〜図3は、本発明に係る追記情報処理装置を備えてなる情報処理システムにおいて処理対象とする文書の一例を示す図である。何れも、文書原本8Aを(A)に、追記済文書8Bを(B)に示す。また、データベースへの登録情報の一例を(C)に示す。
先ず図1に示す第1例の文書は、特許文献1,2に記載の仕組みと同様に、自動帳票処理に供される定型伝票(いわゆる帳票)であって、図1(A)はその文書原本8Aを示し、図1(B)は、追記情報が記入された状態(追記済文書8B)を模式的に示している。
帳票70は、自動帳票処理時の処理対象データを記入する勘定科目や摘要欄や金額欄などの記入欄74と、帳票70を識別特定するための情報を記入する識別情報欄75と承認欄76とを有している。
たとえば、伝票処理現場では、図1(A)に示した文書原本8Aの一例である帳票70を処理対象として、勘定科目や摘要欄や金額欄などの記入欄74に、所要の処理データ77を追記していく。この際には、通常、帳票70で使用されている文字画像色と、処理データ77の記入に使用するペン色とは、異なるものが使用される。
なお、処理データ77を対象とした自動帳票処理を実行するための帳票70(原本画像)のデータベースへの登録に当たっては、通常であれば、処理データ77についてのデータ処理時に必要となる記入欄74の位置情報や項目などを示す記入順序対応付け情報37を登録しておく。なお、帳票70における文字部分(たとえば勘定科目、摘要、金額などの項目部分)をテキスト情報として参照され得るように、帳票70そのものの情報は、テキストデータもしくはテキストデータ相応の文書ファイルデータで保存しておくことが好ましい。
たとえば、図1(C)に示すように、記入順序対応付け情報37の一例である帳票欄位置領域情報を、帳票70上に存在する勘定科目や摘要や金額などの項目と、各項目を記入する記入欄74として扱われる領域の所定点(たとえば左上頂点)のxy座標、並びに、その外接矩形の幅(W)および高さ(h)とからなる情報で、これらを互いに関連付けるテーブル形式で、所定の格納領域に保持蓄積しておく。
なお、本実施形態では、記入欄74の位置情報をデータベースに登録しておくことを必須としない。一方、記入済帳票71を処理対象とする場合に、記入欄74における記載位置に対応して個別のデータ処理(特殊処理)を必要とする場合には、記入欄74の順序情報(番号)に対応付けて、第2の属性情報として個別の特殊処理内容をデータベースに登録しておくことができる。
記入済帳票71に対応する元の帳票70が文書管理サーバに登録されていないときには、無記入の帳票70を文書入力装置で読み取り、記入欄74の位置や項目などを特定することにより対処する。
また、図2に示す第2例の文書は、教育現場で紙媒体として使用される教育用教材80であって、典型例として、問題文82およびその解答欄84(本例では括弧で示された部分)を有したものであり、図2(A)はその文書原本8Aを示し、図2(B)は、追記情報記入済の状態(追記済文書8B)を模式的に示している。
このような教育用教材80は、具体的には教育機関で用いられるペーパーテストや練習問題シートなどが該当する。なお、教育用教材80は、少なくとも解答欄84を有していればよく、たとえば採点官が読み上げた問題について解答欄84に解答を記入する場合などがあり、問題文82については必ずしも記載されていなくともよい。
また、図2(A)に示すように、教育用教材80は、問題文82および第1種の付加情報の一例である解答が記入される解答欄84の他に、配点欄83(問題別の項目点欄83aや部分点欄や合計点欄でなる集計欄83b)と、第1種の付加情報の一例である教育用教材80を識別特定するための情報を記入する識別情報欄85と、第1種の付加情報の一例である解答者情報であって解答欄84への解答記入者に関する情報を記入する解答者情報欄86とを有している。解答欄84、識別情報欄85、解答者情報欄86は、何れも第1種の付加情報を記入する記入欄の一例である。
識別情報欄85には、たとえば教育用教材80の科目、タイトル、あるいは適用学年などが予め記載されるものとする。ただし、これらの記載に加えて、またはこれらの記載とは別に、教育用教材80を識別するためのコード情報が埋め込まれていてもよい。
コード情報の埋込みは、公知技術を利用して実現すればよいが、その一つの具体例として、たとえば「iTone(登録商標)」と呼ばれるもののように、階調表現としての万線スクリーンまたはドットスクリーンを構成する画素の形態(位置、形状など)を変化させることで、ハーフトーン画像の中にデジタル情報を埋め込むようにする、といった技術を用いることが考えられる。一方、解答者情報欄86には、解答記入者の学級86a、出席番号86b、あるいは氏名86cなどが記入され得るようになっている。
配点欄83(特に項目点欄83a)には、各解答欄84についての配点情報が記入される。配点情報とは、教育用教材80における各解答欄84について、各位置の解答欄84への配点が何点であるかを特定するための情報である。なお、配点は、解答欄84ごとに異なっていてもよいし、あるいは一律であってもよい。
このような教育用教材80は、対応する原本(教材原本)の電子データに基づき印刷装置で印刷出力することで得ることができる。教材原本の電子データは、たとえばパーソナルコンピュータなどの電子計算装置を利用してワープロソフトなどのアプリケーションソフトウェアを用いて生成することができ、予め所定のデータベースなどに保存される。
なお、教材原本の電子データは、その教育用教材80における解答欄84や識別情報欄85などのレイアウトを特定し得るものであり、かつ、所定のデータベースにて保持蓄積可能なものであれば、そのデータ形式を問わない。たとえば、文書作成ソフトウェアで作成したアプリケーション文書データに限らず、画像データであってもよい。
教育現場では、図2(A)に示した文書原本8Aの一例である教育用教材80が生徒や受験者などに配布され、先ず、生徒などによって解答者情報欄86への氏名や解答欄84への解答などの第1種の付加情報が所定欄に記入された後に回収される。この後さらに、図2(B)に示す追記済文書8Bの一例である付加情報記入済教材81のように、教師などの採点官によって各解答欄84に記入された解答に対する採点記号(正誤判定図形)87や採点記号87と関連するその他の図形や文章で示されたコメント88などの第2種の付加情報が記入される。なお、追記情報処理装置10で自動採点処理を行なうので、この時点では、採点官による配点欄83Cへの記入はない。
この際には、通常、生徒などによる第1種の付加情報の記入に使用されるペン色と、採点官などによる第2種の付加情報の記入に使用されるペン色とは、異なるものが使用されるし、教育用教材80として予め記入されている色とも異なるものが使用される。
また、採点記号87としては、たとえば、正解を示す「○」やその他の図形(たとえば楕円図形)、不正解を示す「×」やその他の図形(たとえば「レ点」などのチェックマーク)、あるいは一部正解を示す「△」やその他の図形がある。
コメント88は、採点記号87を元にした第1のデータ処理には直接的な関係を有しない情報であるが、第1のデータ処理の結果をサポート(補強)するあるいは全く関係のない第2のデータ処理に利用されるものである。
教材自動採点システムでは、この追記済文書8Bの一例である付加情報記入済教材81を対象として所定のデータ処理を行なうことになる。この際、第2種の付加情報(本例では採点記号87とコメント88)の別に、それぞれに応じた個別のデータ処理を行なうようにする。この例では、第1のデータ処理として採点記号87を元にした自動採点処理を行なう。この自動採点処理結果として、たとえば、配点欄83Cへ記入する得点情報が取得されることになる。また、コメント88の追記内容を元にした自動採点処理結果とは別の第2のデータ処理を行なう。
自動採点処理とは別の第2のデータ処理としては、たとえば、コメント88の追記内容を所定の条件に基づいて分類する処理や、分類したコメント(全ての追記内容には限らず一部の追記内容でもよい)を対応する解答欄84についての採点処理結果と関連付けて生徒指導用データベースに登録・蓄積しておく処理などを行なう。
こうすることで、自動採点処理とは別の第2のデータ処理の利用形態としては、生徒指導用データベースから情報を取り出して、後の生徒指導に利用することができるようになる。たとえば、全ての採点結果と対応するコメントを表示するようにすれば、優秀、優、並、劣、などの評価の細分類と合わせて採点結果を確認することができる。また、結果が不正解のコメントのみを表示するようにすれば、問題の読み間違えが多い、解答の書き間違えが多い、あるいは計算ミスが多いなどの生徒の能力分析に利用することもできる。あるいは、コメント88で示されている注意文やミス修正に基づき生徒指導に利用することも考えられる。
なお、採点記号87やコメント88を対象としたデータ処理を実行するための教育用教材80(原本画像)のデータベースへの登録に当たっては、通常であれば、採点記号87についてのデータ処理時に必要となる解答欄84の位置情報や問題番号や配点情報などを示す記入順序対応付け情報37と、コメント88についてのデータ処理時に必要となる分類基準情報とを登録しておく。なお、教育用教材80における文字部分(たとえば問題番号を含む問題文や配点)をテキスト情報として参照され得るように、教育用教材80そのものの情報は、テキストデータもしくはテキストデータ相応の文書ファイルデータで保存しておくことが好ましい。
たとえば、図2(C)に示すように、記入順序対応付け情報37の一例である解答欄位置領域情報を、教育用教材80上に存在する問題の番号(第1の属性情報の一例)と、その問題の解答に対する配点(第2の属性情報の一例)と、その問題の解答を記入する解答欄84として扱われる領域の所定点(たとえば左上頂点)のxy座標、並びに、その外接矩形の幅(W)および高さ(h)とからなる情報で、これらを互いに関連付けるテーブル形式で、所定の格納領域に保持蓄積しておく。
なお、本実施形態では、解答欄84の位置情報をデータベースに登録しておくことを必須としない。一方、付加情報記入済教材81を処理対象とする場合に特有の情報として、各解答欄84における記載位置に対応した配点付けと言った特殊な処理を必要とするので、解答欄84の順序情報(番号)つまり問題番号に対応付けて、第2の属性情報として配点付けの内容をデータベースに登録しておく。
付加情報記入済教材81に対応する元の教育用教材80が文書管理サーバに登録されていないときには、無記入の教育用教材80を文書入力装置で読み取り、問題文の位置や解答欄84の位置や配点などを特定することにより対処する。
また、図3に示す第3例の文書は、ビジネスマンなどが使用するビジネス文書であって、典型例として、スケジュール管理用の手帳90を示している。一般的な手帳90では、日付(年月日)欄92と、各日付における予定97を記入する予定欄94を有しており、図3(A)はその文書原本8Aを示し、図3(B)は、追記情報記入済の状態(追記済文書8B)を模式的に示している。なお、図3(A)では、予定97を記入するための予定欄94が日付単位で区分けされた例で示しているが、さらに、各日付内の時間(時刻)単位で区分けしたものもある。予定欄94は第1種の付加情報を記入する記入欄の一例であり、この予定欄94には、たとえば、該当日時に実行すべき予定97が記入され得るようになっている。
このような手帳90は、市場で購入することができるし、あるいは対応する原本(手帳原本)の電子データに基づき印刷装置で印刷出力することで得ることもできる。手帳原本の電子データは、たとえばパーソナルコンピュータなどの電子計算装置を利用してワープロソフトなどのアプリケーションソフトウェアを用いて生成することができ、予め所定のデータベースなどに保存される。
なお、手帳原本の電子データは、その手帳90における日付欄92や予定欄94などのレイアウトを特定し得るものであり、かつ、所定のデータベースにて保持蓄積可能なものであれば、そのデータ形式を問わない。たとえば、文書作成ソフトウェアで作成したアプリケーション文書データに限らず、画像データであってもよい。
ビジネス現場では、図3(A)に示した文書原本8Aの一例である手帳90を身近におき、先ず、所有者によって予定欄94への予定97(第1種の付加情報)が該当日時の予定欄94に記入される。このとき、さらに、図3(B)に示す追記済文書8Bの一例である付加情報記入済手帳91のように、所有者自らによって各予定欄94に記入された予定97に対する分類記号99(たとえば社用と私用の区別をするもの)や予定97と関連するその他の図形や文章で示されたコメント98などの第2種の付加情報が記入される。
この際には、通常、手帳90で使用されている文字色と、予定97やコメント98の記入に使用するペン色とは、異なるものが使用される。
分類記号99としては、たとえば、私用(Private use )を示す「P」やその他の文字・図形(たとえば◇マークなど)がある。私用にのみ分類記号99を付すことで、社用(Business use)については、特に分類記号99を付さなくてもよい。
また、コメント98は、予定97を元にした第1のデータ処理には直接的な関係を有しない情報であるが、第1のデータ処理の結果をサポート(補強)するあるいは全く関係のない第2のデータ処理に利用されるものである。
分類記号99を含むコメント98は、一般的なビジネス文書における追記内容(付加情報記入済手帳91の例では予定97に相当)に対しての校正記号としての意味を持ち、このコメント98を利用することで、予定97を所定の条件に基づいて編集することができるようになる。
たとえば、個人情報管理システムでは、この追記済文書8Bの一例である付加情報記入済手帳91を対象として所定のデータ処理を行なうことになる。この際、第2種の付加情報(本例ではコメント98に基づく予定97の種類)の別に、それぞれに応じた個別のデータ処理を行なうようにする。この例では、第1のデータ処理とし予定97の内容を元にした自動スケジュール管理処理(予定97の電子データ化)を行ない、またコメント98の追記内容を元にした自動スケジュール管理処理そのものとは別の第2のデータ処理を行なう。
自動スケジュール管理処理そのものとは別の第2のデータ処理としては、たとえば、コメント98(分類記号99を含む)の追記内容に従って、第1のデータ処理としての自動スケジュール管理処理結果を社用と私用とに分類する処理や、分類した予定97(全ての追記内容には限らず一部の追記内容でもよい)を対応する日付と関連付けてデータベースに個別に登録・蓄積しておく処理などを行なう。
こうすることで、社用スケジュールと私用スケジュールをと切り分けてデータベース上で管理することができるようになる。それぞれのデータベースの公開と非公開とを個別に設定することができるようになるので使い勝手がよくなる。
特開平5−216932号公報に記載の仕組みでは、予定欄94に記入された内容の全てについて単一の処理がなされ、この例では、仕事の予定もプライベートの予定も、全て区別無く1つのデータベースとして登録されることになる。このため、たとえば、仕事のスケジュールを公開・共有しようとしたときには、公開したくないプライベートの予定までもが公開されてしまう不都合が生じるのと大きく異なる。
なお、予定97やコメント98を対象としたデータ処理を実行するための手帳90(原本画像)のデータベースへの登録に当たっては、通常であれば、予定97やコメント98についてのデータ処理時に必要となる予定欄94の位置情報などを示す記入順序対応付け情報37と、コメント98についてのデータ処理時に必要となる分類基準情報とを登録しておく。なお、手帳90における文字部分(たとえば日付)をテキスト情報として参照され得るように、手帳90そのものの情報は、テキストデータもしくはテキストデータ相応の文書ファイルデータで保存しておくことが好ましい。
たとえば、図3(C)に示すように、記入順序対応付け情報37の一例である予定欄位置領域情報を、手帳90上に存在する日付(年月日)と、各日付内の時間(時刻)と、予定97を記入する予定欄94として扱われる領域の所定点(たとえば左上頂点)のxy座標、並びに、その外接矩形の幅(W)および高さ(h)とからなる情報で、これらを互いに関連付けるテーブル形式で、所定の格納領域に保持蓄積しておく。
ただし、本実施形態では、予定欄94の位置情報をデータベースに登録しておくことを必須としない。一方、付加情報記入済手帳91を処理対象とする場合に、予定欄94における記載位置に対応して個別のデータ処理(特殊処理)を必要とする場合には、予定欄94の順序情報(本例では日付)に対応付けて、第2の属性情報として個別の特殊処理内容をデータベースに登録しておくことができる。
付加情報記入済手帳91に対応する元の手帳90が文書管理サーバに登録されていないときには、無記入の手帳90を文書入力装置で読み取り、日付欄92や予定欄94の位置を特定することにより対処する。
なお、追記情報について自動データ処理を実行する際に、追記情報を複数種類のものに分類し、それぞれの分類ごとに個別のデータ処理を実行しようとする場合には、各追記情報を他方のものと分離して認識・特定することが必要となる。両者の分離認識が適正になされないと、それぞれのデータ処理を適正に実行することができなくなる。
たとえば、図2に示した付加情報記入済教材81の場合には、採点記号87に基づく自動採点処理と、コメント88に基づく生徒指導用データベースの構築処理があり、このような個別処理を実現するには、採点記号87とコメント88とを区別して認識処理などを行なってから最終的なデータ処理を行なう必要がある。
一方、答案の採点においては、採点記号87以外のコメント88を、採点記号87と同じペンで記載することがあり、たとえば差分抽出部132での抽出結果に対する色成分認識処理を通じて、ペン色と対応する所定色成分についてのものを抽出するだけでは、両者を適切に分離した認識と記載内容の特定ができない。採点記号87とコメント88とを適切に分離できず、自動採点処理に悪影響を及ぼす。また、追記情報としては、自動採点処理用の採点記号87の他に、生徒指導などにも利用し得るコメント88が存在するにも関わらず、付加情報記入済教材81を生徒に返却した後には、生徒がその記載内容を確認する以外には活用できない事態となる。
また、図3に示した付加情報記入済手帳91の場合には、予定97に基づく自動スケジュール管理処理(予定97の電子データ化)と、コメント98(分類記号99を含む)に基づく社用スケジュールと私用スケジュールの個別データベース構築処理があり、このような個別処理を実現するには、予定欄94に記入された予定97とコメント98とを区別して抽出し、認識処理などを行なってから最終的なデータ処理を行なう必要がある。
一方、記入されたスケジュールの電子データ化とデータベースへの登録においては、予定97以外のコメント98を予定97と同じペンで記載することがあるし、また、各予定97を記入する時点が異なることも起こり得る、つまり、予定97の記入に使用されるペン色は様々であり、かつ予定97とコメント98とを切り分けて別のペン色が使用されるとは限らない。この場合、たとえば差分抽出部132での抽出結果に対する色成分認識処理を通じて、ペン色と対応する所定色成分についてのものを抽出するだけでは、両者を適切に分離した抽出ができない。
このような事態を避けるには、たとえば、追記済文書8B中に存在する複数の付加情報を、記載位置、画像特徴量、あるいは認識処理時の信頼度などの付加情報が持つ様々な特徴に基づいて、複数の種類に分類(分離)するようにするのがよい。この際、付加情報が持つ単一の特徴に基づくだけでなく複数の特徴を参照することで、より正確な分離認識を行なうようにするのがよい。なお、これらについては詳細な説明を割愛する。
<<文書原本情報と追記情報の対応付け処理>>
図4〜図8は、文書原本8Aの情報と追記情報とを対応付ける処理を説明する図である。ここで、図4および図5は、比較対象としての従来の文書原本情報登録処理を説明する図である。
文書に追記された付加情報について自動データ処理を効率的に実行するには、各追記情報がどのようなデータ処理に供されるものであるかを特定することが重要であり、このためには、従来は、文書原本だけでなく、記入欄の位置情報をデータベースに登録している。また、場合によって、位置情報だけでなく、どのような目的で追記されたものであるかを特定することも必要となり、この場合には、記入欄に対応するその他の属性情報などの自動処理用情報をデータベースに登録しておく。
そして、追記情報に基づく自動データ処理時には、文書上の各記入欄の位置情報を取得し、この位置情報と追記情報とを対応付けてデータ処理を実行することになる。
<従来方法>
たとえば、図4は、富士通(株)による帳票管理用のOCRソフト「DynaEye V4.0」における例を示す(たとえばユーザーズガイドのp8,p57 など参照)。図4に示すように、従来の文書原本作成登録処理においては、先ず文書原本8Aを作成し、この文書原本8Aにおけるデータ処理対象の追記情報を記入するための記入欄の位置の情報や記入項目などの属性情報を設定し、これらの情報を文書原本8Aの電子データ(文書ファイルや画像データなどの原本画像)と対応付けて帳票情報データベースに登録する。
たとえば、付加情報記入済教材81をデータ処理対象とする教材自動採点システムにおいては、出題者(教師など)はワードプロセッサなどを利用して文書原本8Aとして問題用紙を作成する。
このとき、各問題文には問題番号を割り付け、その問題文に対する解答の記入欄(解答欄84)や解答に対する配点を割り付ける問題別の項目点欄83aや部分点欄や合計点欄でなる集計欄83bなどの配点欄83を設定する。
自動採点処理時には、各採点記号87が何れの解答欄84に対するものであるかを特定し、またその採点記号87に応じて配点を加算処理することで得点を集計するので、これらの対応付けのために、各解答欄84の領域情報(教育用教材80A上の位置情報)と問題番号との対応をとってデータベースに登録しておくことが必要になる。
また、複数種類の文書原本8Aに対応するには、各文書原本8Aに対して識別情報を付与しておくことが必要になる。たとえば、教材自動採点システムにおいては、付加情報記入済教材81(答案)の通し番号(答案特定コード)を識別情報として設定する。その他の一般的な帳票であれば帳票特定コードを設定する。
そして、追記情報処理装置における自動採点処理や自動帳票処理などの自動データ処理時には、文書原本8Aに対して所定の付加情報が追記された追記済文書8Bの電子データを取得し、その追記済文書8Bに対応する文書原本8Aを特定し追記済文書8Bとの差分を取って追記情報を抽出する。そして、この抽出した追記情報がどのような記入欄に追記されていたのかを特定しつつ、各追記情報に基づいて所要のデータ処理を実行する。
たとえば、自動採点処理であれば、付加情報記入済教材81をスキャナで読み取り、その付加情報記入済教材81に埋め込まれている答案特定コードを抽出することで対応する教育用教材80を特定する。あるいは、識別情報欄85に記入されている情報を文字認識などして対応する教育用教材80を特定する。
同様に、自動伝票処理であれば、記入済帳票71をスキャナで読み取り、その記入済帳票71に埋め込まれている帳票特定コードを抽出することで対応する帳票70を特定する。あるいは、識別情報欄75に記入されている情報を文字認識などして対応する帳票70を特定(帳票認識という)する。
ここで、文書原本8Aと自動処理用情報をデータベースに登録しておくには、前述のように記入欄の位置情報やその他の様々な情報を設定して登録する必要があり、その作業を操作者が逐一実行するのは大変な労力を要する。
たとえば、教育用教材80に関する自動処理用情報を登録する際には、数ある答案の1つ1つについて、図5に示すように、教育用教材80の各問題について、問題番号と、配点と、その問題に対する解答欄84の領域、たとえば解答欄84として扱われるxy座標上の範囲、たとえば左上頂点(xltα,yltα)と右下頂点(xrbα,yrbα)(αは問題番号を通し番号に変換した問題番号)の座標を、1つ1つ入力しなければならない。この入力結果を受けて、図2(C)に示したような形態で、解答欄84の位置情報を含んで、記入順序対応付け情報37がデータベースに登録される。
また、各解答欄84に対応する問題文や配点などの属性情報の内、問題文に関しては自動採点処理時には直接には必要ないが、配点に関しては必要になるので、自動採点処理に必要となる第2の属性情報として、配点の情報についても登録しておくことが望まれる。
ワードプロセッサなどの電子的な文書作成手段を用いた場合には、ソフト(アプリケーションプログラム)によっては座標位置や配点を自動取得できる可能性があるので、これらの入力を手作業で行なうことを多少割愛できる可能性があるが、白紙用紙上にペンで記入して作ったいわゆる手作りの問題用紙の場合、全ての情報を手入力しなければならない。もちろん、座標位置や配点を自動取得できないソフトであれば、ワードプロセッサなどで作成した場合でも各種の情報を手入力することが必要になる。
このように、従来の仕組みでは、自動データ処理を効率的に実行するためには、事前に文書原本8Aについて各記入欄の位置情報や対応する属性情報の内データ処理に必要となるものについて登録することが必要となり、その登録作業の負担が大きく、登録作業を効率的に実行することが困難である。
本実施形態では、この点を解消するべく、追記済文書8Bにおける追記情報を除いた部分、つまり追記済文書8Bに対応する文書原本8A上の文字や画像と追記情報の各記入位置の相対関係に基づいて、処理対象の追記情報が何れの文字や画像に対応するものであるのかを自動的に判定することで、位置情報の登録作業を不要とすることや追記情報の記入位置のズレに対処する仕組みを採ることにした。
この際、注目する追記情報近傍に存在する文字部分についての文字認識結果を利用して、注目する追記情報とこの注目する付加情報に関連する問題や配点などの属性情報とを対応付ける仕組みを採ることにした。
さらに一例としては、文書原本8Aに記載の文字について処理対象の文書画像を文字認識により特定し、さらに文字認識した文中の文字が持つ順番情報を参照し、注目する追記情報の順番付けを、特定した順番情報と対応させながらデータ処理を行なう仕組みを採ることにした。
以下、これらの点について詳細に説明する。
<本実施形態の方法;第1例>
図6は、文書原本8A上の文字や画像と追記情報の各記入位置の関係に基づいて、処理対象の追記情報が何れの文字や画像に対応するものであるのかを自動的に判定する仕組み、つまりデータ処理対象追記情報とデータ処理用の属性情報とを対応付ける仕組みの第1例を説明する図である。
なお、実際のデータ処理時には、追記情報が何れの記入位置に対応するものであるかを特定するだけでは不十分な場合もある。本実施形態では、この点も考慮して、追記情報の処理順序や処理内容に関しても適切に対処できるようにする。
たとえば、手帳90において、ある記入欄(予定欄94)に記入されたもの(予定97やコメント98)が何れの日付欄92に対応するものであるかを特定しないと、スケジューリングのデータベースを構築することができない。また教育用教材80の場合には、ある記入欄(解答欄84)に記入されたもの(採点記号87やコメント88)が何れの解答欄84つまり問題文に対応するものであるかを特定しないと、配点付けや集計を適切に実行することができない。一方、帳票70の場合には、勘定科目、摘要、および金額の対応さえ取れいればよいので、その限りにおいて、追記情報の処理順序や処理内容に特段の配慮を講じなくてもよい。
本実施形態の対応付け手法は、自動データ処理に供される注目のデータ処理対象追記情報と、その近傍の文字情報との相対的な位置関係に基づいて、データ処理対象追記情報と属性情報との対応を取る点に特徴を有する。また、特にこの第1例の対応付け手法は、文書原本8A中の文字情報と追記情報との位置関係並びに追記情報に対応する属性情報の文字情報が持つ順番情報とに基づいて、自動データ処理に供される追記情報に順番情報を対応付ける点に特徴を有する。
たとえば、追記済文書8Bとして付加情報記入済教材81を処理対象とする場合の事例を図6に示している。図2にて示したように、付加情報記入済教材81(元の教育用教材80)には、第1の属性情報の一例である問題文が記載され、それに対応して解答欄84が設けられ、またその問題文や解答欄84には第2の属性情報の一例である所定の配点が設定される。また、各問題文には、問題の順番(問題番号)を示す「1」,「2」,…や「問1」,「問2」…など第1および第2の属性情報についての順序情報が付与されることが多い。
そして、自動採点処理時には、図2(C)に示したように、順序情報を頼りにして各採点記号87と第2の属性情報である配点(つまり第1の属性情報である問題)とを対応付けながら、各問題に対する配点と採点記号87が示す正誤に基づいて採点集計を実行することになる。
そこで、この第1例の対応付け手法は、追記済文書8B(付加情報記入済教材81)を文字認識することで問題および問題番号を取得し、また、採点記号87やコメント88が何れの問題に対応するのかを、各問題文や解答欄84と採点記号87やコメント88との相対的な位置関係に基づいて特定する。
たとえば、生徒による解答記入と採点官による採点記号87、コメント88の記入が終わった付加情報記入済教材81を文書入力装置で読み取り、読み取った画像情報について文字認識し、さらに文書原本8A(教育用教材80)の情報と突き合わせることで、問題番号を特定する。また、必要に応じて(具体的には配点情報がデータベースに登録されていないとき)、付加情報記入済教材81上に記載の配点についても文字認識により特定する。
この際、自動データ処理(本例では自動採点処理)との関係で本当に必要な文字情報は、採点記号87やコメント88と対応する問題や配点であるので、付加情報記入済教材81中の全ての文字情報について文字認識する必要はなく、採点記号87やコメント88に近傍の文字列から、注目する採点記号87やコメント88に対応する問題番号や配点を特定する。
具体的には、先ず、スキャナなどの文書入力装置により追記済文書8Bの一例である付加情報記入済教材81を読み取って得た読取画像を追記情報処理装置に入力する(S10)。追記情報処理装置では、先ず、付加情報記入済教材81の読取画像を対応する元の文書原本8の一例である教育用教材80と比較して差分情報9を抽出し、さらに、採点記号87やコメント88の記入時に使用された特定の色に注目した分離を行なうことで、採点記号87やコメント88などのデータ処理対象追記情報9aのみからなる差分情報を抽出する(S12)。
そして、抽出した各データ処理対象追記情報9aについて、所定サイズの解析対象領域ATを設定し(S14)、この解析対象領域ATごとに文字認識する(S16,S18)。つまり、データ処理対象追記情報9aを中心とする文字ブロックごとに、文字認識処理を実行する。
この際には、先ず、文書入力装置から入力された読取画像(取得画像)について、所定サイズの解析対象領域ATで所定の領域取得方向決定方法に従ってデータ処理対象追記情報9aを探索していく(S14)。解析対象領域ATのサイズ決定手法や領域取得方向決定方法については後述する。
そして、該当した任意のデータ処理対象追記情報9aに注目し、たとえば採点記号87である「○」や「×」の追記図形などの注目したデータ処理対象追記情報9aの周囲に解析対象領域ATを設定し、この解析対象領域ATの画像を取得する(S16)。そして、一般的な文字認識処理手法を適用して、この解析対象領域AT中に存在する文字を行や列ごとに切り出して文字認識する(S18)。このとき、解析対象領域を取得後、実際に画像を取り出すのは、位置合わせをした後の白紙答案原本からでもよい。そのほうが、追記図形が文字認識の邪魔にならなくてよい。
一例として、図では、ステップS12にて抽出されたデータ処理対象追記情報9aのみからなる差分情報9において、ある追記図形Z1に注目した場合に、文字認識処理(S18)にて、右側に示す例では誤認識がない場合を、左側は「3」の部分に誤認識がある場合を示している。
このように、付加情報記入済教材81について文字認識処理をしただけでは、その認識性能によっては、誤認識の発生が起こり得る。たとえば、問題文の本文中に誤認識があっても自動採点処理結果には影響がないが、記入欄(本例では解答欄84)の順番と関わる順序情報(問1や問aなど英数字によるものが典型例)に関しては配点付けなどのデータ処理時に参照される属性情報と関係を持つため、ステップS16の左側に示すように、番号に関する部分に誤認識があると、データ処理(本例では自動採点処理)を適切に実行できなくなる。
そこで、この第1例では、先ず、文書原本8A(教育用教材80)における文字部分をテキスト情報として参照され得るように、文書原本8A(教育用教材80)そのものの情報を、テキストデータもしくはテキストデータ相応の文書ファイルデータで保存しておくようにする。つまり、データ処理内容と関わりを持つ問題や配点などの属性情報が記載されている文書原本8Aについて、属性情報をテキストデータもしくは相応のデータ形式でデータベースに登録しておく。
そして、追記済文書8B中の注目するデータ処理対象追記情報9aの近傍に存在する文字列を文字認識して得られる認識文字列と、データベースに登録されている元の文書原本8A(教育用教材80)のテキスト情報とを比較して、誤認識部分がデータ処理結果に悪影響を及ぼさないように対処する。具体的には、認識文字列を検索キーとして、処理対象の付加情報記入済教材81に対応する教育用教材80のテキスト情報を検索することで、注目するデータ処理対象追記情報9aに対応する属性情報(各切出部分の元のテキスト情報)を特定する(S20)。
この際には、各切出部分の全認識結果との完全一致の検索ではなく、大部分が一致している箇所を検索すると言った曖昧検索を実行する。こうすることで、認識結果に多少の誤認識があっても、その認識結果部分の元のテキスト情報を特定することで、文字認識結果に対して自動修正ができる(S22)。このとき、検索結果として複数箇所見つかる可能性があるが、この際は、解析対象領域ATを広げて、再度、文字認識処理や検索処理をやり直すことで対処する(詳細は後述する)。
各切出部分の元のテキスト情報を特定できたら、テキスト情報に含まれる記入欄(本例では解答欄84)の順番と関わる順序情報(問1や問aなど英数字によるものが典型例)を、注目した追記図形Z1に対応付ける(S24)。つまり、検索された原本文字の周囲にある問題番号などと追記図形Z1とを対応付ける。こうすることで、各データ処理対象追記情報9aについての順序対応付け情報が生成される。
この際、追記図形Z1に設定した解析対象領域ATによっては、解析対象領域AT内に複数の順序情報が検索されることも起こり得る。この場合、注目している追記図形Z1に対して、何れの順序情報を対応付けるかに関しては、全体のレイアウトを考慮するのがよい。
たとえば、追記済文書8B(文書原本8A)や対応する文書原本8A(教育用教材80)中に存在する文字、特に記入欄と関わりを持つ属性情報部分の文字のレイアウトを考慮して設定していく。具体的には、属性情報部分の文字が縦書きであるのか横書きであるのかを判断基準にすることが考えられる。
すなわち、記入欄(解答欄84)に対応する問題文やアンケート文や日付などの属性情報中に設けられる、記入欄(解答欄84)の順番と関わる順序情報は、その属性情報の先頭部分に配置されるのが一般的である。また、記入欄(解答欄84)に対応する問題文やアンケート文などの属性情報は、縦書きの場合は記入欄の右側に配置されるのが一般的であるし、横書きの場合は記入欄の上側に配置されるのが一般的である。
よって、追記図形Z1は記入欄と対応して記入されるものであるから、縦書きの場合は、記入欄の右・上側に存在する順序情報を使用し、横書きの場合は、記入欄の左・上側に存在する順序情報を使用するようにすればよい。
図示した例では、注目している追記図形Z1について、「1.AAA」と「2.BBB」が検索されているが、「1.AAA」と「2.BBB」とは横書きであるため、左・上側の領域を優先し、注目している追記図形Z1には「1」を順序情報として対応付ける。
追記済文書8Bに追記されたデータ処理対象追記情報9aについて所望のデータ処理を実行する際には、注目するデータ処理対象追記情報9aの順番付けを、前述のようにして特定した属性情報(問題)の順番付けと対応させながらデータ処理を行なう。
なお、追記済文書8Bとして付加情報記入済教材81を処理対象とする場合には、採点記号87に関しては、第1の属性情報としての問題の順番付けの他に、第2の属性情報としての配点をも参照する必要がある。
この場合、注目するデータ処理対象追記情報9a(採点記号87)についてのデータ処理(自動採点処理)時には、予め属性情報(問題)に含まれる順序情報と対応付けて第2の属性情報としての配点情報を文書原本情報データベースDB2に登録してあるので、注目するデータ処理対象追記情報9aについて、特定した属性情報(問題)に含まれる順序情報を検索キーとして文書原本情報データベースDB2から検索することで、注目するデータ処理対象追記情報9aに対応する配点情報を特定し、この特定した配点情報と対応するように、つまりこの配点情報を使って採点集計を行なう。
一方、追記済文書8Bとして記入済帳票71を処理対象とする場合には、第1の属性情報としての勘定科目、摘要、あるいは金額の各項目に対応して、データ処理対象追記情報9aとしての勘定科目、摘要、および金額の各項目に対応する各追記データでなる追記データ群が順次記入されるので、勘定科目、摘要、金額の各項目と記入された各項目の追記データとの相対的な位置関係、並びに、複数の追記データ群の記載順序の対応、換言すれば、複数の追記データ群の勘定科目、摘要、金額の各項目についての順番付けを特定できれば十分である。
すなわち、記入済帳票71中の注目する追記データの近傍に存在する勘定科目、摘要、金額の各項目部分の文字列を文字認識し、この文字認識により得られる認識文字列に基づいて、注目する各追記データに対応する属性情報として、勘定科目、摘要、金額の各項目を特定し、注目する追記データ群の各項目の追記データについて、特定した勘定科目、摘要、金額の各項目と対応する自動伝票処理を、複数の追記データ群の記載順序に従って行なえばよい。
もちろん、記入済帳票71を処理対象とする場合に、記入欄74における記載位置に対応して個別のデータ処理(特殊処理)を必要とする場合には、記入欄74の順序情報(番号)に対応付けて、第2の属性情報として個別の特殊処理内容をデータベースに登録しておき、注目する番号部分に記入された勘定科目、摘要、金額の各追記データについて、特定した記入欄74の順序情報を検索キーとしてデータベースから検索することで、注目する番号部分に記入された勘定科目、摘要、金額の各追記データに対応する特殊処理の内容を特定し、特定した処理内容に従って自動伝票処理を行なうようにすることもできる。
たとえば、単に各項目に対して記入された追記データを表形式で整理するだけでなく、特定の番号欄に記入されたものについては、記入されたデータについて所定の演算式に従った演算を行なうなど、特殊な処理を実行することができる。
また、追記済文書8Bとして付加情報記入済手帳91を処理対象とする場合には、第1の属性情報としての日付欄92の記載(日付)に対応して、データ処理対象追記情報9aとしての予定が対応する予定欄94に記入されるので、記入された予定に関する自動スケジューリング処理としては、第1の属性情報としての日付と記入された予定との相対的な位置関係、並びに、複数の予定の記載順序の対応、換言すれば、複数の予定の日付についての順番付けを特定できれば十分である。
すなわち、付加情報記入済手帳91中のある予定欄94に記入された注目する予定の近傍に存在する日付欄92の日付の文字列を文字認識し、この文字認識により得られる認識文字列に基づいて、注目する各予定に対応する属性情報としての日付を特定し、注目する予定について、特定した日付と対応させてスケジューリング処理を行なえばよい。
もちろん、付加情報記入済手帳91を処理対象とする場合に、日付欄92(つまり予定欄94)における記載位置に対応して個別のデータ処理(特殊処理)を必要とする場合には、日付欄92の順序情報(ここでは日付を使うことができる)に対応付けて、第2の属性情報として個別の特殊処理内容をデータベースに登録しておき、注目する日付欄92に対応する予定欄94に記入された予定について、特定した日付欄92の日付を検索キーとしてデータベースから検索することで、注目する予定欄94に記入された予定に対応する特殊処理の内容を特定し、特定した処理内容に従って自動スケジューリング処理を行なうようにすることもできる。
たとえば、単に各日付に対して記入された予定を表形式で整理するだけでなく、特定の日付の場合には、記入された予定を強調文字にするなどの文字装飾を付けるなど、特殊な処理を実行することができる。
このように、第1例の対応付け手法によれば、文書原本8A(教育用教材80)内に存在する文字をテキスト情報でデータベースに登録しておくことにより、予め各記入欄の位置情報をデータベースに登録しておかなくても、記入欄(解答欄84など)に対応して記入される採点記号87やコメント88などのデータ処理対象追記情報9aと、各記入欄に対応する問題などの属性情報との対応付けを、文字認識と検索によって実現することができる。
文字認識と検索によって、自動データ処理に供されるデータ処理対象追記情報9aと属性情報との対応を簡易に取ることができる。一般的な文字認識処理を使って、原本情報を作成することができるので、汎用性が高く、実現も容易である。
たとえば、教育機関で用いられる教育用教材80について、たとえばその教育用教材80上に複数の問題およびその解答の記入欄(解答欄84)が配されており、それぞれに対する配点が異なる場合であっても、採点記号87の記入内容についての自動採点集計やコメント88の記入内容についての自動分類処理を不都合なく実行することができる。しかも、そのために情報入力の手間や過大な処理負荷などを要してしまうこともなく、その採点処理や分類処理の省力化を実現することができる。したがって、教育機関で用いるのに当り、非常に利便性の高いものとなり、信頼性の高いデータ処理を円滑に行なえるようになる。
また、記入欄(記入欄74、解答欄84、予定欄94)そのものの位置情報を特定する必要はないので、記入欄のデータベースへの位置情報登録や、追記済文書8B上における記入欄の位置を自動算出するなどの煩雑な処理を割愛できる利点がある。
加えて、採点記号87やコメント88などのデータ処理対象追記情報9aに対応する属性情報を特定できればよいので、データ処理対象追記情報9aの記入位置を特定する必要もなく、データ処理対象追記情報9aそのものの記入位置の自由度が高まる利点もある。
また、自動データ処理に供される注目のデータ処理対象追記情報9a(追記図形Z1)と、その近傍の文字情報との相対的な位置関係に基づいて、データ処理対象追記情報9aと属性情報との対応を取るようにしているので、データ処理対象追記情報9aや属性情報の絶対的な位置を明確に特定することは不要であり、正確なレイアウト認識ができなくても、何ら不都合なく、適切なデータ処理を実現できる利点もある。
<変形例>
なお、上記の説明では、ステップS18での文字認識結果を、データベースに登録されている文書原本8A(教育用教材80)のテキスト情報から検索することで、文字認識結果を修正するようにしていたが(S20,S22)、このような検索・修正処理を実行することは必須ではない。文字認識性能に起因する誤認識が起きなければ問題ないからである。
たとえば、記入欄(本例では解答欄84)の順番と関わる順序情報は、一般的には、問1や問aなどのように英数字や、「ア」,「イ」などのような仮名文字のように、比較的単純な文字によって記入されることが多く、また、これらの順序情報を含む属性情報は、手書きではなく予め文書原本8A中にワープロなどによって電子的に記入されるのが一般的であるので、文字認識性能が比較的低い場合でも、順序情報について誤認識を起す度合いが少ないと考えてよいからである。
すなわち、原理的には、予め各記入欄の位置情報をデータベースに登録しておかなくても、文字認識処理(S18)と順番情報の対応付け処理(S24)とで、記入欄(解答欄84)に対応して記入される採点記号87やコメント88などのデータ処理対象追記情報9aと、各記入欄に対応する問題や問題番号や配点などの属性情報との対応付けを実現することができる。文字認識と検索によって、自動データ処理に供されるデータ処理対象追記情報9aと属性情報との対応を簡易に取ることができる。検索処理(S20)および修正処理(S22)を必要としない分、単純な順番付け処理となる。
<領域サイズ決定手法>
図7は、解析対象領域ATの領域サイズを決定する第1の手法を説明する図である。また図8は、解析対象領域ATの領域サイズを決定する第2の手法を説明する図である。
先ず、第1の解析対象領域ATの決定手法としては、文書原本8A(たとえば答案原本などの教育用教材80)の種類ごとに、最小サイズ(最低サイズ)を求めておく方法が考えられる。この最小サイズは、たとえば、以下のようにして取得するのがよい。すなわち、原本画像のレイアウト解析結果から、空白領域を求め、その縦横サイズから最小サイズを決定する方法を採るのがよい。具体的には、各空白領域の中心から縦横に領域を広げ、全てが文字に接触するサイズを最小サイズとする。
たとえば、図7に示すように、白紙答案などの教育用教材80を始めとする文書原本8Aをデータベースから読み出して(S30)、この文書原本8Aについて文字認識処理を実行するものとして文字認識枠を設定する(S32)。この際、文書原本8Aそのものの情報を、テキストデータもしくはテキストデータ相応の文書ファイルデータで保存しておく場合でも、画像として取扱い、文字認識枠を設定する。
なお、文字認識枠の設定手法に関しては、一般的な文字認識処理において、文字認識枠を設定する手法を適宜採用することができる。通常は、文書原本8A中には様々な文章が記載されているので、多数の文字ブロック部分が存在し、それぞれの文字ブロック部分に文字認識枠が設定されることになる。
次に、各文字認識枠を反転することで、各文字認識枠の間に形成される空白領域を取得する(S34)。通常は、この空白領域も多数取得されることになる。
さらに、それぞれの空白領域を適当な間隔で膨張していき、その都度、その膨張空白領域内にて文字認識処理を実行して、文字が得られたら、膨張処理を終了する(S36)。そして、得られた各膨張空白領域のうち、最大の膨張空白領域を解析対象領域ATの最小サイズとする(S38)。
このような第1の解析対象領域ATの決定手法を採用すると、解析対象領域ATを設定した段階で領域内に文字が含まれることが保証されるため、領域内に認識すべき文字が無いために領域サイズを広げると入った再試行を追記図形ごとに繰り返す必要がなく、効率化が図れるという効果を享受できる。
あるいは、第2の解析対象領域ATの決定手法としては、図6におけるステップS18での文字認識処理中の文字認識結果から解析対象領域ATを動的に決定する方法が考えられる。この際には、領域中に探すものが、特定のキーワードか(第1例)、それとも文字なら何でもよいのか(第2例)、によって2つの手法を採り得る。
たとえば、本実施形態の方法(第1例)で採用し得る「動的に決定する方法」として、図8(A)に示すような第1例の手法を採ることが考えられる。すなわち、先ず、追記済文書8B(付加情報記入済教材81)中の注目する追記図形を囲む初期領域を設定する(S42)。つまり、追記図形の周囲に初期領域を設定する。そして、文字認識処理を実行して、この初期領域中に、記入欄(本例では解答欄84)の順番と関わる順序情報を示すキーワード(たとえば図では「2」)が無ければ、この初期領域を適当な間隔で膨張していき(S44)、その都度、その膨張領域内にて文字認識処理を実行して、キーワードが得られたら膨張処理を終了する(S48)。すなわち、キーワード見つかるまで膨張処理を行なう手法を採ることが考えられる。
また、後述する本実施形態の方法(第2例)で採用し得る「動的に決定する方法」として、図8(B)に示すような第2例の手法を採ることが考えられる。すなわち、追記済文書8B(付加情報記入済教材81)中の注目する追記図形を囲む初期領域を設定し(S42)、文字認識処理を実行して、この初期領域中に、文字が無ければ、あるいは文字数が少なければ、この初期領域を適当な間隔で膨張していき(S46)、その都度、その膨張領域内にて文字認識処理を実行して、文字が得られたら、あるいは認識できた文字数が所定数に達したら膨張処理を終了する(S49)。
何れの動的に決定すな手法も、追記図形ごとに最小限の解析対象領域ATを設定するため、認識する文字が最小限に抑えられ、認識処理が高速になる。また、抽出される文字が最小限なので、対応付け候補が複数見つかる確率も抑えられ、結果的に候補選択処理の頻度が減り高速化が図れる。原本上の文字密度が高い場合に有利な手法である。
<領域取得方向決定方法>
図9は、領域取得方向を決定する手法を説明する図である。処理対象の追記済文書8Bについて解析対象領域ATを設定していく際には、追記済文書8B(文書原本8A)のレイアウトを考慮して設定していく。具体的には、縦書きであるのか横書きであるのかを判断基準にすることが考えられる。
すなわち、追記済文書8Bが、縦書きの場合は採点記号87やコメント88などのデータ処理対象追記情報9aの右・上側から領域取得を開始し(図9(A)を参照)、横書きの場合はデータ処理対象追記情報9aの左・上側から領域取得を開始する(図9(B)を参照)。
たとえば、実施形態の方法(第1例)の場合に、動的に領域を膨張させる場合を考える。「問1」などのキーワードは通常問題文の文頭に書かれるため、追記図形から見て縦書きの場合・横書きの場合の位置関係が決まってくる。すると、元々、可能性が高い方向に膨張すれば、速く「問1」などを発見でき、高速化が図れると考えられる。
<複数検索候補の対処手法>
図10は、図6に示した文字認識結果の検索処理(S20)において、複数の候補が見つかったときの対処方法を説明する図である。先にも述べたが、検索結果として複数の候補が見つかったときには、解析対象領域ATを広げて、再度、文字認識処理や検索処理をやり直すことで対処する。
具体的には、追記済文書8B(付加情報記入済教材81)を読み取って得た読取画像を追記情報処理装置に入力する(S60)。追記情報処理装置では、注目するデータ処理対象追記情報9aについて、所定サイズの解析対象領域ATの画像を取得し(S62_1)、この解析対象領域ATの画像について文字認識する(S64_1)。
次に、文字認識した結果を、追記済文書8Bに対応する元の文書原本8Aから検索する(S66_1)。このとき、複数の該当文字が検索されたときには、検索文字数が増えるように解析対象領域ATを所定ピッチで膨張させて、その膨張させた後の画像を取得し(S62_2)、この膨張させた後の解析対象領域ATの画像について文字認識する(S64_2)。そして、文字認識した結果を、再度、追記済文書8Bに対応する元の文書原本8Aから検索する(S66_2)。
こすることで、最初の検索時には複数の検索候補が見つかった場合でも、検索文字数を増やすことで、該当する検索候補の数を低減させることができる。2回目の処理でも、なおも、複数の該当文字が検索されるときには、前述の処理(S62_2〜S66_2)をさらに繰り返す。その結果として、最終的には、複数の記入欄についてそれぞれ異なる属性情報(教育用教材80の場合には問題文)が記入されていれば、該当する検索候補の数を1つにすることができる。
<本実施形態の方法;第2例>
図11は、文書原本8A上の文字や画像と追記情報の各記入位置の関係に基づいて、処理対象の追記情報が何れの文字や画像に対応するものであるのかを自動的に判定する仕組み、つまりデータ処理対象追記情報とデータ処理用の属性情報とを対応付ける仕組みの第2例を説明する図である。
この第2例の対応付け手法は、文書原本8A中の文字情報と追記情報との位置関係に基づいて自動データ処理に供される追記情報に順番情報を対応付ける点では、第1例の対応付け手法と共通するが、順番情報を対応付ける際に、追記情報に対応する属性情報の文字情報が持つ順番情報を参照するのではなく、文書原本全体のレイアウト解析結果を参照する点に特徴を有する。
具体的には、レイアウト解析と文字認識によって文書原本8A上の文字を順番付けしておくことで、追記情報に対応する属性情報の文字情報が持つ順番情報を明確に特定することを不要にするとともに、対応付け精度を向上させるのである。
処理手順としては、先ず、追記情報処理装置においては、白紙答案原本などの教育用教材80を始めとする文書原本8Aをデータベースから取得し、もしくは、用紙などに印刷された文書原本8Aの画像を文書入力装置で読み取ることで取得する(S70)。そして、文書原本8Aについて文字認識を行なう。この後、文字部分(文字認識結果を含む)について順番付けを行なって(「文書原本の文字認識結果」中に示している点線矢印を参照)(S72)、その順番付け情報を文字部分(文字認識結果を含む)と対応付けてデータベースに登録しておく(S73)。
ここで、「順番付け」とは、文書原本8A上の各記入欄に対応する問題文やアンケート文や日付などの属性情報中に存在する記入欄(本例では解答欄84)の順番と関わる順序情報の順に、文字認識結果を順序付けることを意味する。この際、文字認識処理時に最初になされるレイアウト認識による順番付け結果を利用するとよい。つまり、予め、文書原本8A上の文字をレイアウト認識に従って順番付けておくのである。
また、追記済文書8Bをスキャナなどの文書入力装置により読み取って得た読取画像を追記情報処理装置に入力する(S74)。追記情報処理装置では、先ず、追記済文書8Bに対応する元の文書原本8と比較して差分情報9を抽出し、さらに、採点記号87やコメント88などのデータ処理対象追記情報9aの記入時に使用された特定の色に注目した分離を行なうことで、データ処理対象追記情報9aのみからなる差分情報を抽出する(S76)。
そして、抽出した各データ処理対象追記情報9aについて、形状認識するとともに、データ処理対象追記情報9aの外接矩形領域AT2 を得、追記済文書8Bからデータ処理対象追記情報9aの外接矩形領域AT2 の周囲の画像を取得し(S78)、その周囲の画像中の文字を切り出して文字認識する(S79)。
つまり、注目するデータ処理対象追記情報9aに対して外接矩形領域AT2 を設定し、その設定した外接矩形領域AT2 外の画像について文字認識する。採点答案画像から追記図形の周囲の画像を取得して、画像中の文字を切り出し、文字認識するのである。
なお、外接矩形領域AT2を取得後、実際に画像を取得するのは、位置合わせをした後の白紙答案原本からでもよい。その方が、追記図形が文字認識の邪魔にならなくてよい。
外接矩形領域AT2 をデータ処理対象追記情報9aに設定する手法(追記情報の位置決定手法)に関しては後述する。
このステップS74〜S79までの処理は、解析対象領域ATの設定手法と外接矩形領域AT2 の設定手法に若干の違いがあるものの、第1例の対応付け手法について図6で示したステップS10〜S18の処理と似通っている。
また、文書原本8Aにおける文字部分をテキスト情報として参照され得るように、文書原本8Aそのものの情報を、テキストデータもしくはテキストデータ相応の文書ファイルデータで保存しておくようにする。そして、注目するデータ処理対象追記情報9aに設定した外接矩形領域AT2 内での文字認識処理により得た文字認識結果の文字列を、文書原本8Aのテキスト情報から、より具体的には、文書原本8Aの文字認識結果(順番付けされてデータベースに登録されているもの)から検索する(S80)。
この際には、各切出部分の全認識結果との完全一致の検索ではなく、大部分が一致している箇所を検索すると言った曖昧検索を実行してもよい。認識結果に多少の誤認識があっても、その認識結果部分の元のテキスト情報を特定することができる。
そして、検索された文字が、データベースに登録されている順番付け情報の何れの順になるのかを特定し、その特定した順番に対応するように、処理対象のデータ処理対象追記情報9aに順番付けすることで、各データ処理対象追記情報9aについての順序対応付け情報を生成する(S84)。
そして、その順序対応付け情報に基づく順番付け通りに、文書原本8Aについての文書原本情報データベースDB2の属性情報(問題や配点)とデータ処理対象追記情報9aの認識結果とを対応付けて登録する(S86)。たとえば、教育用教材80についての記入順序対応付け情報37の問題番号や配点と、採点記号87の認識結果(「○」や「×」)やコメント88とを、順番付け通りに対応付けて登録する。
このように、第2例の対応付け手法によれば、予め各記入欄と関わりを持つ属性情報について順番付けを行なって、その順番付け情報をデータベースに登録しておくようにしたので、予め各記入欄の位置情報をデータベースに登録しておかなくても、記入欄(解答欄84)に対応して記入される採点記号87やコメント88などのデータ処理対象追記情報9aと、各記入欄に対応する問題などの属性情報との対応付けを、文字認識と検索によって実現することができる。文字認識と検索によって、自動データ処理に供されるデータ処理対象追記情報9aと属性情報との対応を簡易に取ることができる。
また、記入欄(解答欄84)そのものの位置情報を特定する必要はないので、記入欄のデータベースへの位置情報登録や、追記済文書8B上における記入欄の位置を自動算出するなどの煩雑な処理を割愛できる利点がある。
加えて、採点記号87やコメント88などのデータ処理対象追記情報9aに対応する属性情報を特定できればよく、データ処理対象追記情報9aそのものの記入位置の自由度が高まる利点もある。
また、順番付け情報を利用しているので、データ処理対象追記情報9aや属性情報の絶対的な位置を明確に特定することが不要である、つまり正確なレイアウト認識ができなくてもよく、さらに、第1例の対応付け手法とは異なり、より単純な順番付け法でありながら、対応付け精度を高くすることができ、何ら不都合なく、適切なデータ処理を実現できる利点もある。
たとえば、実施形態(第1例)では、段組されている原本で、追記位置が「段の右端」のように偏っていると、追記図形と「問1」などのキーワードまでの距離が遠くなり、却って段を超えた正しくないキーワードのほうが位置的に近い場合が出てくる。すると、領域の膨張をした場合に正しくないキーワードを先に発見し、結果正しくない順序づけが行われる恐れがある。これに対して、実施形態(第2例)はキーワードを用いないために、これを回避できる利点がある。
<追記情報の位置決定手法>
図12は、第2例の対応付け手法において適用する、データ処理対象追記情報9aの位置決定手法を説明する図である。なお、ここでの位置決定手法によって、最終的に、データ処理対象追記情報と属性情報との対応が取られる。
外接矩形領域AT2 をデータ処理対象追記情報9aに設定する際には、データ処理対象追記情報9aと属性情報の位置関係を利用する第1の手法が考えられる。具体的には、図10(A)に示すように、採点記号87などのデータ処理対象追記情報9aの中心から、最も近い位置にある文字ブロックを基準とする。
すなわち、追記済文書8Bをスキャナなどの文書入力装置により読み取って得た読取画像を追記情報処理装置に入力する(S90)。追記情報処理装置では、データ処理対象追記情報9aのみからなる差分情報について、データ処理対象追記情報9aの中心から、より近い位置にある文字ブロックを含むように外接矩形領域AT2 を設定することで、データ処理対象追記情報9aの周囲の画像を取得し(S91)、外接矩形領域AT2 ごとに、画像中の文字を切り出して文字認識する(S92)。
ここで、設定した外接矩形領域AT2 内の文字認識結果として、複数箇所に文字ブロックが認識されたときには、さらに、認識された文字について、データ処理対象追記情報9aの中心からの距離を計算する(S93)。そして、最もデータ処理対象追記情報9aに近い文字ブロックを、つまり求められた各文字ブロックの距離の内、最短距離のものを、検索対象の基準文字列に設定する(S94)。
このような、第1の手法を採れば、単純に領域に入っただけでなく、追記情報との距離によって基準文字を決定するため、精度が高まる効果が得られる。
また、外接矩形領域AT2 をデータ処理対象追記情報9aに設定する際には、検索結果の位置を使う第2の手法が考えられる。具体的には、図10(B)に示すように、設定した外接矩形領域AT2 内の文字認識結果として、複数箇所に文字ブロックが認識されたときには、さらに、各文字ブロックについて、文字認識した結果を文書原本8Aのテキスト情報から検索する(S96)。
そして、検索された各文字列が、データベースに登録されている順番付け情報の何れの順になるのかを特定し、その特定した順番上で、順番がより早いものを、検索対象の基準文字列に設定する(S97)。つまり、検索結果の順番が前の文字ブロックを、基準文字列に設定する。
このような、第2の手法を採れば、文書原本中からの検索(S80)の結果を利用することができるので、第1の手法に比べ、高速に処理できる効果が得られる。
<システム構成>
図13は、本発明に係る追記情報処理装置を備えてなる情報処理システムの一実施形態の構成例を示す図である。なお、この情報処理システムは、答案用紙などの教育用教材80を処理対象とする教材自動採点システムへの適用例で示す。
図示のように、教材自動採点システム1は、システムの中心をなす追記情報処理装置10と、追記情報処理装置10に処理対象文書である付加情報記入済教材81を電子化して入力する文書入力装置20と、処理対象文書である付加情報記入済教材81に対応するテンプレート6や教育用教材80(詳しくはその原本画像)の電子データを記憶する文書管理サーバ30と、情報処理(本例では自動採点処理など)の結果を保存しておく処理結果保存サーバ40とが、有線や無線を利用してネットワーク接続されて構成されている。
文書入力装置20は、教育用教材80における解答欄84への解答記入、解答者情報欄86への氏名などの記入および解答欄84に記入された解答に対する採点官による採点記号87(具体的には、たとえば「○」や「×」の図形)の記入がされた付加情報記入済教材81に対して、公知の光学的画像読取技術を用いた画像読取りを行ない、その付加情報記入済教材81から画像データを得るものである。
文書入力装置20は、処理対象文書である付加情報記入済教材81を電子データにする機能を備えたものであればよく、たとえば、画像読取装置としての機能を有した複写機、複合機、またはスキャナ装置を利用して実現することが考えられる。その場合に、自動原稿搬送装置(Automatic Document Feeder ;ADF)が付設されていると、複数の教育用教材に対する画像読取りを連続的に行なうことができ便利である。
なお、教育用教材80を利用した試験などは、紙媒体を用いることに限定されない。たとえばタブレット型のPCを利用して試験を行ない採点するケースでは、最初から付加情報記入済教材81を電子データの形式で入手することができ、この場合には、システム構成上、文書入力装置20が不要となる。
文書管理サーバ30は、付加情報記入済教材81に対応する教育用教材80の原本画像と、この原本画像を特定するための、たとえば、科目、タイトル、適用学年などの識別情報や識別コードとを対応付けて、ハードディスク装置や光ディスク装置などの所定の記憶媒体に文書原本情報データベースDB2として登録している。
また、文書管理サーバ30は、付加情報記入済教材81に対応する元の教育用教材80(原本画像)を保存するとともに、採点記号87やコメント88についてのデータ処理時に必要となる問題番号や配点情報などを示す記入順序対応付け情報37を、図2(C)に示したように、テーブル形式で、所定の格納領域に文書原本情報データベースDB2として保持蓄積している。先にも述べたが、解答欄の位置情報に関しては登録が不要である。
処理結果保存サーバ40としては、追記情報処理装置10とネットワーク接続され、付加情報記入済教材81についての自動採点集計結果を管理することができるものであればよく、たとえば、処理結果データベース装置や処理結果ファイルサーバ装置などが該当する。
教材自動採点システム1の中心部をなす追記情報処理装置10は、文書入力装置20から入力された付加情報記入済教材81の画像データに基づき所定の信号処理を行なう読取画像処理部110と、読取画像処理部110による処理に基づいて文書入力装置20から入力された読取画像の元となった文書原本8Aを識別特定する文書原本特定部120とを備えている。教材自動採点システム1においては、文書原本特定部120は、文書原本8Aの一例である教育用教材80を特定する教材特定部122として機能する。
また、追記情報処理装置10は、読取画像処理部110による処理が施された画像データから追記情報(アノテーション)を抽出する追記情報抽出部130と、追記情報抽出部130により抽出されたデータ処理対象の追記情報に基づき記載内容や記入位置を認識し特定するデータ処理対象追記情報特定処理部150と、データ処理対象追記情報特定処理部150により特定された追記情報の記載内容に基づいてデータ処理を行なうデータ処理部170とを備えている。
読取画像処理部110は、文書入力装置20から入力された画像データについて、レイアウト解析、文字図形分離、文字認識、コード情報認識、図形処理、色成分認識などの公知の画像処理技術(それぞれの詳細説明は割愛する)を利用して解析処理を行なう画像データ解析部112と、文書入力装置20から入力された画像データの傾きや主走査方向または副走査方向の拡縮率などの画像歪みを補正する歪み補正部114とを有している。なお、歪み補正部114は、文書入力装置20から入力された画像データと、比較対象となる文書管理サーバ30内の対応する原本画像とを比較照合し、その画像歪み(傾き、拡縮など)を補正してもよい。
教材特定部122は、たとえば、画像データ解析部112によるデータ解析結果に基づいて、識別情報欄85に記入されている科目、タイトル、あるいは適用学年などの識別情報を解析する識別情報解析部123と、同じく識別情報欄85に埋め込まれている教育用教材80を特定するコード情報を解析するコード情報解析部124とを有している。
教材特定部122は、画像データ解析部112での解析結果に基づいて特定した、たとえば科目、タイトル、適用学年などの識別情報や識別コードと、文書管理サーバ30に保持蓄積されている教育用教材80の原本画像の情報(たとえば科目、タイトル、適用学年などの識別情報や識別コード)とを照らし合わせ、該当する原本画像が文書管理サーバ30に保持蓄積されていなければ、文書入力装置20で得られた画像データとの比較対象となる電子データを特定できないと判定して、識別特定エラー信号を出力するようになっている。
なお、教材特定部122は、文書入力装置20から入力された画像データ(付加情報記入済教材81に相当)と対応する元の教育用教材80を識別特定できればよく、識別情報解析部123とコード情報解析部124とは、付加情報記入済教材81の識別情報欄85に記載もしくは埋め込まれている識別情報の形式に対応する適正な方を備えていればよく、必ずしも、両者を備えている必要はない。
追記情報抽出部130は、歪み補正部114にて画像歪みが補正された画像データと、教材特定部122により特定された、文書入力装置20から入力された画像データ(付加情報記入済教材81に相当)に対応する原本画像(教育用教材80に相当)とを公知の画像処理技術を利用して比較しそれぞれの間の差分を抽出する差分抽出部132を有する。
また、追記情報抽出部130は、差分抽出部132による抽出結果に基づき文書入力装置20で読取り対象となった付加情報記入済教材81における解答者情報(第1種の付加情報の一例)を抽出する解答者抽出部134と、同じく差分抽出部132による抽出結果に基づき文書入力装置20で読取り対象となった付加情報記入済教材81における採点記号87やコメント88などのデータ処理に供される第2種の付加情報を抽出するデータ処理用追記情報抽出処理部140とを有する。
解答者抽出部134は、差分抽出部132による抽出結果に基づき、解答者情報欄86の学級88aや出席番号88bや氏名88cの欄に記入された解答記入者の手書きによる番号や文字の画像をそのまま文字情報として切り出す手書き情報切出部136と、差分抽出部132による抽出結果に基づき(好ましくは、手書き情報切出部136により切り出された手書き情報について)、解答者情報欄86の手書きによる記入情報を、追記情報処理装置10上で加工編集が可能な文字データに変換する文字認識処理(OCR;Optical Character Reader)部138とを有する。
なお、解答者抽出部134は、文書入力装置20で読取り対象となった付加情報記入済教材81における解答者情報欄86に記入された解答者情報を抽出できればよく、手書き情報切出部136と文字認識処理部138の何れか一方を備えていればよい。また、文字認識処理部138を設けない場合や文字認識処理部138で文字認識できなかったコメント88の部分に関しては、抽出された解答者情報をそのまま画像として取り扱うことにする。
データ処理用追記情報抽出処理部140は、注目する追記色の情報を参照して、差分抽出部132による抽出結果に基づき、追記情報抽出部130により抽出された追記情報の内、文書入力装置20で読取り対象となった追記済文書8B(本例では付加情報記入済教材81)におけるデータ処理対象追記情報9a(本例では採点記号87やコメント88)を抽出するデータ処理対象追記情報抽出部142と、データ処理対象追記情報抽出部142で抽出されたデータ処理対象の追記情報をデータ処理に耐え得るように整形する追記情報整形部146とを有する。本実施形態においては、データ処理対象追記情報抽出部142は、採点記号87を抽出する採点記号抽出部およびコメント88を抽出するコメント抽出部の機能を備える。
なお、データ処理対象追記情報抽出部142は、データ処理対象追記情報9aを抽出できればよく、色を指標に追記情報をさらに分類するとよい。たとえば差分抽出部132での抽出結果に対する色成分認識処理を通じて、採点官が採点記号87やコメント88の記入に使用したペン色と対応する所定色成分についてのものを抽出することで行なえばよい。たとえば、付加情報記入済教材81における採点記号87やコメント88の記入は、一般に赤色ペン(赤の筆記具)で行なわれることが多く、この場合には、赤色成分に注目した抽出を行なえばよい。
ただし、赤色ペンとはいってもピンク系からオレンジ系というように似通った色気のものがあるし、必ずしも採点記号87やコメント88の記入に赤色ペンを使用するとは限らないし、採点記号87とコメント88とを別のペン色で記入することもあるので、採点記号87やコメント88の記入に使用するペン色の情報を採点記号抽出部やコメント抽出部として機能するデータ処理対象追記情報抽出部142に設定可能に構成しておくことで、抽出性能を向上させるようにするとよい。
このため、実際に使用した追記色を特定し、その特定した追記色の情報を参照して、追記色に注目した抽出を行なう。実際に使用されたペン色が特定されていれば、データ処理対象追記情報抽出部142は、抽出許容範囲を狭くすることができる。これにより、採点記号87やコメント88をその他の追記情報と高精度に区別して抽出することができる。
追記情報整形部146としては、データ処理対象追記情報抽出部142で抽出されたデータ処理対象の追記情報について、線分同士を接続してその抽出線分間の途切れを解消するように補正処理を行なう抽出線分途切れ補正部148を有する構成とするのがよい。
一般に、追記済文書8B上での図形記入や「2重線」や「波線」や「花丸」や「矢印」などの図形記入やコメント文などは、記入済のものに対して重ねて行なわれることもある。たとえば、付加情報記入済教材81の場合には、各問題文82や各解答欄84を特定する枠や各解答欄84への解答記入内容などに重ねて「○」や「×」などの採点記号87が記入され、あるいは図形や文字でコメント88の追記が行なわれることもある。そのため、データ処理対象追記情報抽出部142による所定色成分の抽出結果は、その重なり部分が除かれる結果、図形や文字に途切れ部分が生じたものとなる虞れがある。
このことから、抽出線分途切れ補正部148は、「○」や「×」や「線」やその他の印(マーク)などの図形や文字であるはずの抽出結果に対して、細線化処理、端点抽出処理、端点間接続処理(いわゆる連結処理)、あるいは線図形の直線近似などを適宜実行する。なお、このときに行なう細線化処理、端点抽出処理、あるいは端点間接続処理や線図形の直線近似などは、公知技術を利用して行なえばよいため、ここではその詳細な説明を割愛する(たとえば、「画像の処理と認識」,安居院猛著,昭晃堂発行などを参照)。
データ処理対象追記情報特定処理部150は、差分抽出部132による差分抽出結果に基づいて、具体的には、抽出線分途切れ補正部148で補正されたデータ処理対象追記情報9aに基づいて、追記済文書8Bにおける第1のデータ処理用の追記情報の記入内容を第2のデータ処理用の追記情報と分離して認識する第1データ処理用追記情報認識部154と第2のデータ処理用の追記情報の記入内容を第1のデータ処理用の追記情報と分離して認識する第2データ処理用追記情報認識部164とを有している。
データ処理対象追記情報特定処理部150としては、第1データ処理用追記情報認識部154は、付加情報記入済教材81における採点記号87の記入内容をコメント88と分離して認識し、また、第2データ処理用追記情報認識部164は、付加情報記入済教材81におけるコメント88の記入内容を採点記号87と分離して認識する。
各データ処理用追記情報認識部154,164は、抽出線分途切れ補正部148で補正されたデータ処理対象追記情報9aの記入内容に対して形状認識処理を行なうことでデータ処理対象追記情報9aの記入内容を認識する図形形状認識部156,166と、抽出線分途切れ補正部148で補正されたデータ処理対象追記情報9aの記入内容に対して文字認識処理を行なうことでデータ処理対象追記情報9aの記入内容を認識するする文字認識部157,167と、図形形状認識部156,166や文字認識処理部157,167により認識された各データ処理対象追記情報9aの記入内容の、文書原本8A(追記済文書8B)上における記入順序を、解答欄84の順序、つまりこの解答欄84に対応する問題や配点などの属性情報の順序に適合するように対応付ける記入順序対応付処理部159,169とを有している。図形形状認識部156,166および文字認識処理部157,167により、採点記号87とコメント88とを分離して認識する分離認識処理部155が構成される。
記入順序対応付処理部159,169を設けない構成であれば、各データ処理用追記情報認識部154,164は、図形形状認識部156,166や文字認識処理部157,167の後段に、図形形状認識部156,166や文字認識処理部157,167により認識された各データ処理用追記情報の記入内容の、文書原本8A(追記済文書8B)上における記入位置を認識する記入位置認識部を備えた構成とするが、本実施形態の構成では、この記入位置認識部を記入順序対応付処理部159,169に置き換えている点に特徴を有する。
記入順序対応付処理部159,169は、前述の第1例もしくは第2例の対応付け手法を適用して(特にステップS20〜S24,S80〜S84の処理)、自動データ処理に供される注目のデータ処理対象追記情報9a(本例では採点記号87やコメント88)と、その近傍の文字情報との相対的な位置関係に基づいて、データ処理対象追記情報9aと属性情報との順番付けの対応を取る点に特徴を有する。
記入位置認識部を使用する場合には、付加情報記入済教材81上の採点記号87やコメント88の記入内容の記入位置を座標解析によって認識する必要があるが、記入順序対応付処理部159,169に置き換えることで、そのような座標解析を行なう必要性を無くすことができる。
すなわち、記入順序対応付処理部159,169は、採点記号87やコメント88の記入位置の認識処理に当たって、その記入位置そのものを厳密に特定するのではなく、付加情報記入済教材81上に複数の採点記号87やコメント88が記入されていることが一般的であるから、その複数の採点記号87やコメント88のそれぞれについて、記入順序を問題(問題文)や配点などの属性情報の処理順序に適合するように対応付けるのである。
自動採点処理やコメント分類処理時には、採点記号87やコメント88の付加情報記入済教材81上における絶対的な記入位置を特定しなくても、採点記号87やコメント88が、何れの問題や配点付けに関わるものであるかを特定できれば、データ処理結果には、何ら不都合が生じないのである。
なお、各コメント88は、ある位置の解答欄84への採点記号87と対応して、その近傍に記入されることが多いので、記入順序対応付処理部159による採点記号87についての順序対応付けと協働して処理を行なうのがよい。こうすることで、双方の問題や配点との対応付け、結果としては、採点記号87とコメント88との関連付けが容易になる。
文字認識処理部157,167を設けない場合や文字認識処理部157,167で文字認識できなかったデータ処理対象追記情報9aの部分に関しては、抽出されたデータ処理対象追記情報9aをそのまま画像として取り扱うことにする。
なお、図示のように、図形形状認識部156,166、文字認識処理部157,167、並びに記入順序対応付処理部159,169とは、それぞれ1つの機能部が双方の機能を実現する構成としてもよいし、それぞれを個別の機能部として独立に設けてもよい。
たとえば、付加情報記入済教材81を処理対象とする構成においては、第1データ処理用追記情報認識部154は、採点記号87を第1のデータ処理用の追記情報とするものであり採点記号認識部として機能する。この場合、採点記号87についての図形形状認識部156は、採点記号87の記入内容が「正解(○)」または「不正解(×)」または「一部正解(△)」であるかなどを図形の側面から認識することができればよく、たとえば「○」,「×」,「△」の図形形状とのパターンマッチングによって形状認識を行なえばよい。あるいは、認識対象図形の特徴量を算出し、その特徴量から形状を認識してもよい。特徴量としては、たとえば、穴の個数や外接矩形に占める対象図形の面積率などを使用することができる。
また、採点記号87について文字認識処理部157は、採点記号87の記入内容が「正解(○)」または「不正解(×)」または「一部正解(△)」であるかなどを文字の側面から認識することができればよい。なお、採点記号87は図形のみであるとする場合には、文字認識処理部157を割愛することもできる。
なお、図形形状認識部156は、採点記号87に関する形状認識の際には、「○」や「×」などの採点記号87を示す図形を構成する連続画素群を1つに纏めて取り扱うために、その連続画素群に対して識別子を付与すべく、一般的な画像処理技術であるラベリング処理を行なう。このことから、記入順序対応付処理部159による位置認識の際にも、そのラベリング処理の結果を利用して、「○」や「×」などの採点記号87を示す図形を構成する連続画素群を1つの纏まりとして取り扱う。
一方、第2データ処理用追記情報認識部164は、コメント88を第2のデータ処理用の追記情報とするコメント認識部として機能する。この場合、コメント88についての図形形状認識部166は、コメント88の追記内容を図形の側面から認識することができればよく、たとえば「1重線」や「2重線」や「(1重または2重の)波線」などの線を示す図形形状とのパターンマッチングによって線に関する形状認識を行なえばよい。あるいは、認識対象図形の特徴量を算出し、その特徴量から線の形状を認識してもよい。特徴量としては、たとえば、線数や外接矩形に対する画素密度などを使用することができる。
また、コメント88について文字認識処理部167は、付加情報記入済教材81におけるコメント88の記入内容を文字の側面から認識することができればよい。
なお、図形形状認識部166は、コメント88に関する形状認識の際には、「2重線」や「花丸」などのコメント88を示す図形を構成する連続画素群を1つに纏めて取り扱うために、その連続画素群に対して識別子を付与すべく、一般的な画像処理技術であるラベリング処理を行なう。このことから、記入順序対応付処理部169による位置認識の際にも、そのラベリング処理の結果を利用して、「2重線」や「花丸」などのコメント88を示す図形を構成する連続画素群を1つの纏まりとして取り扱う。
データ処理部170は、文書入力装置20から入力された追記済文書8Bの画像データについて、その追記済文書8Bに記入された第1のデータ処理対象追記情報9aに関する第1のデータ処理を実行する第1データ処理部170_1と、第2のデータ処理対象追記情報9aに関する第2のデータ処理を実行する第2データ処理部170_2を有する。
各データ処理部170_1,170_2は、文書原本情報データベースDB2として機能する文書管理サーバ30にアクセスして記入順序対応付け情報37を取得し、記入順序対応付け情報37の問題や配点の順序情報と、記入順序対応付処理部159,169にて特定された順序対応付け情報とを突き合わせながら、採点記号87やコメント88についてのデータ処理(自動採点処理や自動コメント分類処理)を実行する。
なお、各データ処理部170_1,170_2は、追記済文書8Bとしての付加情報記入済教材81に追記されたデータ処理対象追記情報9a(採点記号87やコメント88)について所望のデータ処理を実行する際には、注目するデータ処理対象追記情報9aの順番付けを、記入順序対応付処理部159,169が特定した属性情報(問題)の順番付けと対応させながらデータ処理を行なう。
第1データ処理部170_1は、追記済文書8Bの一例である付加情報記入済教材81の画像データについて、その付加情報記入済教材81に記入された採点記号87を元に採点集計を行なう採点集計部172と、採点集計部172による採点集計の結果を、解答者抽出部134が抽出した解答者情報と関連付けて出力する集計結果出力部174とを備えている。採点集計結果と解答者情報とが関連付けられた状態の処理結果を特に採点認識結果と称する。
採点集計部172は、図形形状認識部156による採点記号87の追記内容の図形の側面からの認識結果や文字認識処理部157による採点記号87の追記内容の文字情報の側面からの認識結果と、記入順序対応付処理部159による採点記号87の記入順序の対応付け結果(順序対応付け情報)と、文書入力装置20が保持蓄積している付加情報記入済教材81に対応する教育用教材80の電子データ(原本画像)に含まれる教育用教材80(付加情報記入済教材81)の各解答欄84に対応する問題(属性情報の一例)で規定されている配点情報とに基づいて、文書入力装置20が読み取った付加情報記入済教材81について、付加情報記入済教材81に記入された採点記号87に関する採点処理および集計処理(纏めて採点集計という)を行なう。
ここで、採点記号87の記入は、一般に教育用教材80上の複数の解答欄84のそれぞれに対応して行なわれ、かつ教師などの採点官によって手書きでされるため、各解答欄84に対する記入位置が必ずしも一義的に定まっている訳ではない。その一方で、採点記号87の採点集計に当たっては、各解答欄84と採点記号87の記入位置との対応、換言すれば各解答欄84に対応する問題との位置関係を明確にする必要がある。
採点記号87に関する採点集計は、各解答欄84や問題に対応する採点記号87の記入結果を明確にした上で、採点記号87の内容(正解か不正解か一部正解かなど)を対応付けるからである。加えて、教育用教材80では、さらに、各問題に対して個別の配点付けが設定されるのが一般的であるので、配点付けを考慮した採点も必要となるので、各解答欄84(つまり問題)についての配点に基づいて行なわれるからである。
このことから、採点集計部172は、以下に述べるような手順で、採点記号87の採点集計を行なう。すなわち、採点集計部172は、「○」や「×」などの採点記号87について記入順序対応付処理部159によって特定された各データ処理対象追記情報9a(ここでは採点記号87)についての順序対応付け情報と、文書原本情報データベースDB2に登録されている教育用教材80についての記入順序対応付け情報37から特定される問題順序とを突き合わせて、各採点記号87に対応する問題番号や配点を対応付けていく。
そして、順番の対応付けを行なった後は、採点記号87が「○」であれば、これに対応する問題についての配点情報から特定される配点を加算し、また採点記号87が「×」であれば、これに対応する問題についての配点加算を行なわず、このような採点集計を付加情報記入済教材81上の全ての問題(つまり解答欄84)について行なう。つまり、注目する採点記号87の順番付けを、記入順序対応付処理部159が特定した対応する問題番号や配点の順番付けと対応させながら自動採点処理を行なうのである。
記入位置認識部ではなく、記入順序対応付処理部159,169を備える構成としたことで、採点記号87やコメント88の追記対象とされた各解答欄84の位置を明確に特定しなくても、採点記号87(ひいてはコメント88も)と対応する問題や配点との対応付けを簡易かつ確実に実現することができる。
集計結果出力部174は、採点集計部172により集計された採点集計結果と解答者抽出部134が抽出した解答者情報と関連付けて、処理結果保存サーバ40(処理結果データベース装置や処理結果ファイルサーバ装置など)に登録する。あるいは、採点結果の点数を付加情報記入済教材81の集計欄83bに記入し用紙上に返却答案81bとして出力して生徒などに返却できるようにする。
また、第2データ処理部170_2は、追記済文書8Bの一例である付加情報記入済教材81の画像データについて、その付加情報記入済教材81に記入されたコメント88を元に分類処理を行なうコメント分類処理部176と、コメント分類処理部176による分類結果を集計結果出力部174が出力した採点認識結果や各解答に関連付けて出力するコメント処理結果出力部178とを備えている。
コメント分類処理部176は、図形形状認識部166によるコメント88の追記内容の図形の側面からの認識結果や文字認識処理部167によるコメント88の追記内容の文字情報の側面からの認識結果と、記入順序対応付処理部169によるコメント88の記入順序の対応付け結果(順序対応付け情報)と、コメント88の追記内容と対応するように予め規定されている分類情報とに基づいて、文書入力装置20が読み取った付加情報記入済教材81について、その付加情報記入済教材81に記入されたコメント88の分類処理を行なう。
コメント処理結果出力部178は、コメント分類処理部176による分類結果を各解答欄や集計結果出力部174が出力した採点認識結果と関連付けて、処理結果保存サーバ40(処理結果データベース装置や処理結果ファイルサーバ装置など)に登録する。
なお、採点集計部172での採点集計処理やコメント分類処理部176での分類処理に当たっては、完全なる自動処理にしてもよいが、ユーザ端末171のCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)などで構成された表示部に処理過程や処理結果を表示して、適宜、操作者が処理過程や処理結果をキーボードやマウスなどの指示入力部を介して訂正できるようにしてもよい。
<全体の処理手順>
図14〜図16は、情報処理システムの一実施形態である教材自動採点システム1における教材処理方法の処理動作の手順を説明する図である。ここで、図14は、その全体概要をシステム構成図と対応付けて示している。また、図15は、自動データ処理に供される注目のデータ処理対象追記情報(採点記号87やコメント88)と、その近傍の文字情報との相対的な位置関係に基づいてデータ処理対象追記情報と属性情報(問題や配点)との対応を取ってデータ処理を実行する点に着目したフローチャートである。また、図16は、教材自動採点システムにおける全体の教材処理手順を示すフローチャートである。
先ず、文書原本8Aとしての教育用教材80について、その教育用教材80における文字部分(たとえば問題番号を含む問題文や配点)をテキスト情報として参照され得るように、教育用教材80そのものの情報については、テキストデータもしくはテキストデータ相応の文書ファイルデータで保存しておく(S104)。ワープロなどの電子的な文書作成ツールで教育用教材80を作成していれば、概ね、作成された文書ファイルをそのまま保存すればよい。
一方、教育用教材80が画像ベースで取得されるものである場合、たとえば手書きで作成されたものである場合は、教育用教材80を読み取って文字抽出を行ない、文字認識処理を行なってから(S102)、テキストデータもしくはテキストデータ相応の文書ファイルデータで保存しておく(S104)。
また、前述の第2例の対応付け手法を適用する場合には、文字(文字認識結果を含む)について順番付けを行なって、その順番付け情報を文字部分(文字認識結果を含む)と対応付けてデータベースに登録しておく。
この後、試験を実施する際には、文書原本情報データベースDB2から教育用教材80を読み出して印刷し、あるいは手書きで作成した教育用教材80を複写し、生徒や受験者に配布する。そして、試験終了後に、採点官は採点記号87やコメント88を生徒の解答に対して追記する(S108)。
追記情報処理装置10(特に教材自動採点システム1においては教材処理装置に該当する)を利用する場合には、先ず、生徒などによって解答者情報欄86への氏名などの記入および解答欄84への解答記入、つまり生徒による第1種の付加情報の記入がされ、さらに教師などによって各解答欄84に記入された解答に対する「○」や「×」などの採点記号87やコメント88などの第2種の付加情報の記入がされた付加情報記入済教材81について、文書入力装置20は、その付加情報記入済教材81を読み取り、その付加情報記入済教材81を表わす画像データを追記情報処理装置10に入力する(S110)。文書入力装置20は、この文書入力装置20による画像読取りによって得られた画像データについて、一旦ワークエリアとして用いられるメモリなどに保持しておく。
なお、このとき、文書入力装置20にてADF装置を用いれば、たとえば同一学級のような1つのグループに纏めて処理すべき複数の付加情報記入済教材81について、一括して読み取り(一括スキャン)、各付加情報記入済教材81に対応する画像データを連続的に追記情報処理装置10に入力することができる。
追記情報処理装置10は、文書入力装置20から取り込んだ各付加情報記入済教材81の画像データに対して、順次、次のような付加情報抽出・分離処理、付加情報特定処理、および自動採点処理並びに自動コメント処理といった付加情報終末処理を実行する。
たとえば、データ処理部170における自動採点処理並びに自動コメント処理に先立って、ある1つの付加情報記入済教材81から得られた画像データについて、読取画像処理部110の画像データ解析部112は解析処理を行ない(S122)、教材特定部122は、その解析処理の結果に基づいて付加情報記入済教材81に対応する元の教育用教材80の識別特定を行なう(S124)。
この識別特定(S124)は、たとえば「理科」「5年」「1.天気と気温の変化」といった識別情報解析部123によるタイトル解析または識別情報欄85に埋め込まれたコード情報についてのコード情報解析部124によるコード解析を通じて行なえばよい。この識別特定を経ることで、教材特定部122では、文書入力装置20により得られた付加情報記入済教材81の画像データとの比較対象となる教育用教材80の電子データ(原本画像)を特定することができる。
なお、この識別特定は、文書入力装置20が画像読取りを行なった複数の付加情報記入済教材81のそれぞれについて順次行なうことも考えられるが、一般に1つのグループに纏めて処理される付加情報記入済教材81は全て同一のものであるため、その纏めて処理される中で最初に処理される付加情報記入済教材81についてのみ行なえばよい。
教材特定部122により各付加情報記入済教材81に対応する教育用教材80の特定が完了すると、文書管理サーバ30は、その特定結果に従いつつ、保持蓄積している中から該当する教育用教材80の原本画像(電子データ)を取り出して、これを差分抽出部132へ受け渡す(S126)。
また、歪み補正部114は、ある1つの付加情報記入済教材81から得られた画像データの歪みを補正する(S128)。この画像歪み補正は、文書入力装置20での画像読取りの際に生じ得る画像歪みを補正するために行なうものであり、その後に差分抽出部132にて行なう原本画像との比較や差分抽出などの精度向上を図るためのものである。
差分抽出部132は、文書管理サーバ30から受け渡された原本画像(教育用教材80)と、文書入力装置20から入力され、歪み補正部114により画像歪みが補正された後の画像データ(付加情報記入済教材81)とを、それぞれ比較して、その差分を抽出する(S130)。差分抽出部132は、抽出した差分情報9を解答者抽出部134やデータ処理用追記情報抽出処理部140に渡す。
差分抽出部132による差分抽出によって、たとえば図14中の中央部分に示すように、解答者情報欄86および各解答欄84への解答者による第1種の付加情報の記入内容、並びに各解答欄84に対する採点記号87やコメント88などの採点官による第2種の付加情報の記入内容のみで表わされる差分情報9が抽出されることになる。
解答者抽出部134は、差分情報9に対する文字認識処理部138による文字認識処理などを通じて、文書入力装置20で読取り対象となった付加情報記入済教材81における解答者情報を抽出する(S132)。これにより、ある1つの付加情報記入済教材81に解答を記入した解答記入者の学級、出席番号、氏名などを特定できる。
また、データ処理用追記情報抽出処理部140において、先ず追記部材特定部141は、データ処理の対象となる追記情報の記入に使用されたペン色である追記色を特定し(S141)、データ処理対象追記情報抽出部142は、追記部材特定部141にて特定された追記色に基づき、差分抽出部132による差分抽出結果から、さらにデータ処理対象追記情報9aを抽出する(S142)。
本例の場合、各解答欄84への採点記号87やコメント88の追記内容を抽出するために、その差分情報9からさらに所定色成分についてのもの、具体的にはたとえば赤色成分のものを抽出する。所定色成分の抽出は、たとえば差分抽出結果が画素データからなる場合であれば、その画素データを構成する色成分データに着目することで行なうことができる。
抽出線分途切れ補正部148は、データ処理対象追記情報抽出部142による抽出結果に対して、細線化処理、端点抽出処理、端点間接続処理、あるいは線図形の直線近似などの追記情報整形処理を適宜実行する(S146)。抽出線分途切れ補正部148は、途切れ補正処理済の採点記号87の抽出結果を採点記号認識部として機能する第1データ処理用追記情報認識部154に渡し、また途切れ補正処理済のコメント88の抽出結果をコメント認識部として機能する第2データ処理用追記情報認識部164に渡す。
データ処理対象追記情報特定処理部150は、先ず、分離認識処理部155を構成する図形形状認識部156,166および文字認識処理部157,167が協働して、採点記号87とコメント88とを分離し(S162)、この後、分離した採点記号87とコメント88の別に記入内容の特定処理や記入順序の問題や配点との対応付け処理を実行する。
図形形状認識部156や文字認識処理部157は、コメント88と分離した採点記号87について(S162−採点記号)、採点記号87の記入内容に対する形状認識あるいは文字認識により、その採点記号87の記入内容が「正解」であるかあるいは「不正解」であるかなど、採点記号87で示された採点官の採点結果を特定する(S164)。
また、記入順序対応付処理部159は、注目する採点記号87について、その近傍の文字を抽出して(切り出して)文字認識を行ない(S165)、文字認識結果を文書原本情報データベースDB2に登録されている原本情報のテキストから検索して、それぞれの採点記号87の記入内容について、対応する問題や配点と適合させるための順序対応付け情報を生成する(S166)。つまり、各採点記号87について、対応する問題や配点の順番付けと適合するように、順番を対応付ける。
このようにして、記入順序対応付処理部159が採点記号87の順序対応付け情報を特定した後は、採点集計部172は、図形形状認識部156や文字認識処理部157による採点記号87の記入内容の認識結果と、記入順序対応付処理部159による採点記号87の記入順序の対応付け結果と、文書管理サーバ30が保持蓄積している付加情報記入済教材81に対応する原本画像(教育用教材80)に含まれる教育用教材80の各解答欄84についての配点情報とに基づいて、採点および集計を行なう(S168)。
集計結果出力部174は、その採点・集計の結果を処理結果保存サーバ40に保存する(S169)。あるいは採点結果の点数が付加情報記入済教材81の集計欄83bに記入されて返却答案81bとして生徒などに返却される。
各付加情報記入済教材81についての採点結果(問題別採点結果)のファイル形式としては、たとえば、図14に示すように、付加情報記入済教材81上に存在する問題の番号と、その問題の解答に対する正誤判定と、その正誤判定に基づく得点とからなる情報で、これらを互いに関連付けるテーブル形式である。また、集計結果のファイル形式としては、たとえば、図14に示すように、出席番号および解答者情報と、得点情報(集計欄83bに記入される項目点や合計点)とからなる情報で、これらを互いに関連付けるテーブル形式である。
各付加情報記入済教材81上に記入される正誤判定の採点集計の結果が問題別採点結果としてファイル出力されるし、また、問題別の採点集計の結果がファイル出力されるので、処理結果保存サーバ40では、付加情報記入済教材81についての採点集計結果を、たとえば一覧形式で、管理または利用することが可能となる。
図形形状認識部166や文字認識処理部167は、採点記号87と分離したコメント88について(S162−コメント)、コメント88の記入内容に対する形状認識あるいは文字認識により、採点官により追記されたコメント88の記入内容を特定する(S170)。
続いて、記入順序対応付処理部169は、注目するコメント88の記入内容について、その近傍の文字を抽出して(切り出して)文字認識を行ない(S171)、文字認識結果を文書原本情報データベースDB2に登録されている原本情報のテキストから検索して、対応する問題や配点と適合させるための順序対応付け情報を生成する(S172)。つまり、各コメント88について、対応する問題や配点の順番付けと適合するように、順番を対応付ける。
このようにして、記入順序対応付処理部169がコメント88の順序対応付け情報を特定した後は、コメント分類処理部176は、図形形状認識部166や文字認識処理部167によるコメント88の記入内容の認識結果と、記入順序対応付処理部169によるコメント88の記入順序の対応付け結果と、文書管理サーバ30が保持蓄積している分類基準情報39とに基づいて、コメント88を分類する(S174)。
コメント処理結果出力部178は、コメント分類処理部176で分類された各コメント88を、位置が近い採点記号87の採点結果と関連付けて処理結果保存サーバ40に保存する(S179)。各コメント88についての分類結果のファイル形式としては、たとえば、図14に示すように、各コメントと近傍の採点記号87とからなる情報で、これらを互いに関連付けるテーブル形式である。なお、実際にテーブル形式で保存することに限らず、各コメント88と、このコメント88と対応する採点集計結果の両者を関連付ける関連付け情報とを対応付けて保存してもよい。
各付加情報記入済教材81上に記入される採点記号87の採点集計結果とコメント88とが対応するようにデータ保存されるので、処理結果保存サーバ40では、付加情報記入済教材81についての採点集計結果とコメント88とを、たとえば一覧形式で、管理または利用することが可能となるし、生徒の能力分析や生徒指導にコメント88を利用できるようになる。
このように、情報処理システムの一実施形態として示した教材自動採点システム1では、採点記号87やコメント88の記入がされた付加情報記入済教材81から読み取った画像データと、その付加情報記入済教材81についての元の教育用教材80、すなわち解答欄84への解答記入などの生徒などによる第1種の付加情報および解答に対する採点官による採点記号87やコメント88などの第2種の付加情報の記入がされていないものについてのデータとを比較し、互いの差分から採点記号87やコメント88の記入内容を分離してその記入内容を特定し、その採点記号87についての採点集計とコメント88についての分類処理を実行するようになっている。
したがって、採点記号87に関するデータ処理については、差分抽出部132で抽出される差分結果から、コメント88の記入内容を排除して採点記号87のみを分離してその記入内容を特定するようにしているので、同じペンで両者が追記されていても、自動採点に悪影響を及ぼすことがない。
また、採点結果の自動集計を実行できるので、結果として付加情報記入済教材81についての採点処理が省力化される。付加情報記入済教材81を紙媒体で入手するケースでは、付加情報記入済教材81を文書入力装置20で読み取った画像データを基にすればよく、たとえば、複写機、複合機、またはスキャナ装置などによって実現されるスキャン機能と、パーソナルコンピュータ(PC)などのコンピュータ機器が有する情報記憶処理機能、画像処理機能および演算処理機能とがあれば、システム構成を簡単に実現することができ、専用の機器を必要とすることもない。
さらには、付加情報記入済教材81の画像データを、文書管理サーバ30が保持する電子データと比較するため、その文書管理サーバ30に各種の教育用教材80についての電子データを保持蓄積しておけば、対応可能な付加情報記入済教材81についての汎用性を十分に確保し得る。さらには、文書管理サーバ30に予め電子データを保持蓄積しておくことで、文書管理サーバ30から取り込んだ画像データとの比較を行なう場合において、比較対象となる電子データの入力などを行なう手間を省くことができ、結果として迅速な採点処理を実現することができる。
また、コメント88に関するデータ処理については、差分抽出部132で抽出される差分結果から、採点記号87の記入内容を排除してコメント88のみを分離してその記入内容を特定するようにしているので、同じペンで両者が追記されていても、コメント88に関する分類処理に悪影響を及ぼすことがない。また、各採点記号87と対応付けて処理結果保存サーバ40に各コメント88を保存するようにしたので、コメント88を生徒などが確認する用途以外に、採点官自らが、能力分析や生徒指導に活用できるようになる。
また、データ処理対象の採点記号87やコメント88に対応する問題や配点との対応付けを、それらと解答欄84の位置関係を特定するための煩雑な座標解析を行なうことなく、各採点記号87やコメント88の近傍の文字情報との相対的な位置関係に基づいて対応を取るようにしているので、煩雑な解答欄位置の登録を省くことができるし、順序の対応付けさえ取れればよいので、正確なレイアウト認識ができなくても不都合は生じない。これにより、先生の自作答案などを自動採点する際にも、容易に自動採点ができるようになる。
<追記情報処理装置;計算機構成>
図17は、追記情報処理装置10の他の構成例を示すブロック図である。ここでは、パーソナルコンピュータなどの電子計算機を利用して、追記情報処理をソフトウェアで実行するマイクロプロセッサなどから構築される、より現実的なハードウェア構成を示している。
すなわち、本実施形態において、追記情報に関するデータ処理を実行する仕組みは、ハードウェア処理回路により構成することに限らず、その機能を実現するプログラムコードに基づき電子計算機(コンピュータ)を用いてソフトウェア的に実現することも可能である。
よって、本発明に係る仕組みを、電子計算機(コンピュータ)を用いてソフトウェアで実現するために好適なプログラムあるいはこのプログラムを格納したコンピュータ読取可能な記憶媒体を発明として抽出することもできる。ソフトウェアにより実行させる仕組みとすることで、ハードウェアの変更を伴うことなく、処理手順などを容易に変更できる利点を享受できるようになる。
電子計算機に、追記情報に関するデータ処理機能をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ(組込マイコンなど)、あるいは、CPU(Central Processing Unit )、論理回路、記憶装置などの機能を1つのチップ上に搭載して所望のシステムを実現するSOC(System On a Chip:システムオンチップ)、または、各種のプログラムをインストールすることで各種の機能を実行することが可能な汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
記録媒体は、コンピュータのハードウェア資源に備えられている読取装置に対して、プログラムの記述内容に応じて、磁気、光、電気などのエネルギの状態変化を引き起こして、それに対応する信号の形式で、読取装置にプログラムの記述内容を伝達できるものである。
たとえば、コンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フレキシブルディスクFDを含む)、光ディスク(CD−ROM(Compact Disc-Read Only Memory )、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc )を含む)、または半導体メモリなどよりなるパッケージメディア(可搬型の記憶媒体)により構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記録されているROMやハードディスクなどで構成されてもよい。
また、ソフトウェアを構成するプログラムは、記録媒体を用いずに、記録媒体を介して提供されることに限らず、有線あるいは無線などの通信網を介して提供されてもよい。
たとえば、追記情報に関するデータ処理機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、ハードウェア処理回路にて構成する場合と同様の効果は達成される。この場合、記憶媒体から読み出されたプログラムコード自体が追記情報に関するデータ処理機能を実現する。
また、コンピュータが読み出したプログラムコードを実行することで、追記情報に関するデータ処理機能が実現されるだけでなく、プログラムコードの指示に基づき、コンピュータ上で稼働しているOS(Operating Systems ;基本ソフト)などが実際の処理の一部または全部を行ない、その処理により追記情報に関するデータ処理機能が実現される場合であってもよい。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって追記情報に関するデータ処理機能が実現される場合であってもよい。
なお、追記情報に関するデータ処理機能を実現するプログラムコードを記述したファイルとしてプログラムが提供されるが、この場合、一括のプログラムファイルとして提供されることに限らず、コンピュータで構成されるシステムのハードウェア構成に応じて、個別のプログラムモジュールとして提供されてもよい。
たとえば、コンピュータシステム900は、コントローラ部901と、ハードディスク装置、フレキシブルディスク(FD)ドライブ、あるいはCD−ROM(Compact Disk ROM)ドライブ、半導体メモリコントローラなどの、所定の記憶媒体からデータを読み出したり記録したりするための記録・読取制御部902とを有する。
コントローラ部901は、CPU(Central Processing Unit )912、読出専用の記憶部であるROM(Read Only Memory)913、随時書込みおよび読出しが可能であるとともに揮発性の記憶部の一例であるRAM(Random Access Memory)915、および不揮発性の記憶部の一例であるRAM(NVRAMと記述する)916を有している。
なお、上記において“揮発性の記憶部”とは、装置の電源がオフされた場合には、記憶内容を消滅してしまう形態の記憶部を意味する。一方、“不揮発性の記憶部”とは、装置のメイン電源がオフされた場合でも、記憶内容を保持し続ける形態の記憶部を意味する。記憶内容を保持し続けることができるものであればよく、半導体製のメモリ素子自体が不揮発性を有するものに限らず、バックアップ電源を備えることで、揮発性のメモリ素子を“不揮発性”を呈するように構成するものであってもよい。
また、半導体製のメモリ素子により構成することに限らず、磁気ディスクや光ディスクなどの媒体を利用して構成してもよい。たとえば、ハードディスク装置を不揮発性の記憶部として利用できる。また、CD−ROMなどの記録媒体から情報を読み出す構成を採ることでも不揮発性の記憶部として利用できる。
また、コンピュータシステム900は、ユーザインタフェースをなす機能部としての指示入力部903と、操作時のガイダンス画面や処理結果などの所定の情報をユーザに提示する表示出力部904と、各機能部との間のインタフェース機能をなすインタフェース部(IF部)909とを有する。
なお、データ処理結果を印刷出力してユーザに提示する構成とするべく、処理結果を所定の出力媒体(たとえば印刷用紙)に出力する画像形成部906を設けることもできる。
指示入力部903としては、たとえば、ユーザインタフェース部985の操作キー部985bを利用することができる。あるいは、キーボードやマウスなどを利用することもできる。
表示出力部904は、表示制御部919と表示装置とを備える。表示装置としては、たとえば、ユーザインタフェース部985の操作パネル部985aを利用することができる。あるいは、CRT(Cathode Ray Tube;陰極線管)やLCD(Liquid Crystal Display;液晶)などでなるその他のディスプレイ部を利用することもできる。
たとえば、表示制御部942が、操作パネル部985aやディスプレイ部上に、ガイダンス情報や文書入力装置20が取り込んだ全体画像などを表示させる。また、各種の情報をユーザに通知する際の表示デバイスとしても利用される。なお、表示面上にタッチパネルを有するディスプレイ部とすることで、指先やペンなどで所定の情報を入力する指示入力部903を構成することもできる。
インタフェース部909としては、処理データ(画像データを含む)や制御データの転送経路であるシステムバス991の他、たとえば、画像形成部906や他のプリンタとのインタフェース機能をなすプリンタIF部996、およびネットワークとの間の通信データの受け渡しを仲介する通信IF部999を有している。
このような構成において、CPU912は、システムバス991を介してシステム全体の制御を行なう。ROM913は、CPU912の制御プログラムなどを格納する。RAM915は、SRAM(Static Random Access Memory )などで構成され、プログラム制御変数や各種処理のためのデータなどを格納する。また、RAM915は、所定のアプリケーションプログラムに従って演算して得たデータや外部から取得したデータなどを一時的に格納する領域を含んでいる。
たとえば、追記情報に関するデータ処理機能をコンピュータに実行させるプログラムは、CD−ROMなどの記録媒体を通じて配布される。あるいは、このプログラムは、CD−ROMではなくFDに格納されてもよい。また、MOドライブを設け、MOに前記プログラムを格納してもよく、またフラッシュメモリなどの不揮発性の半導体メモリカードなど、その他の記録媒体にプログラムを格納してもよい。さらに、他のサーバなどからインターネットなどのネットワークを経由してプログラムをダウンロードして取得したり、あるいは更新したりしてもよい。
なおプログラムを提供するための記録媒体としては、FDやCD−ROMなどの他にも、DVDなどの光学記録媒体、MDなどの磁気記録媒体、PDなどの光磁気記録媒体、テープ媒体、磁気記録媒体、ICカードやミニチュアカードなどの半導体メモリを用いることができる。記録媒体の一例としてのFDやCD−ROMなどには、追記情報に関するデータ処理機能を実現する際の、一部または全ての機能を格納することができる。
また、ハードディスク装置は、制御プログラムによる各種処理のためのデータを格納したり、自装置で取得したデータや外部から取得したデータなどを大量に一時的に格納したりする領域を含んでいる。
このような構成により、操作キー部985bを介した操作者による指令にて、前述の追記情報処理方法を実行するプログラムが記憶されているCD−ROMなどの読取可能な記録媒体からRAM915に追記情報処理プログラムがインストールされ、また操作キー部985bを介した操作者による指令や自動処理にて追記情報処理プログラムが起動される。たとえば、教材自動採点システム1を実現する場合であれば、教材処理プログラムでは、所定色成分、具体的にはたとえば赤色成分の差分抽出結果を、採点記号87やコメント88の記入内容として認識し、かつ両者を分離するようにする処理ステップなどが記述されたプログラムが起動される。
CPU912は、この追記情報処理プログラムに従って前述の追記情報処理方法に伴う計算処理を施し、処理結果をRAM915やハードディスクなどの記憶装置に格納し、必要により操作パネル部985a、あるいはCRTやLCDなどの表示装置に出力する。追記情報処理方法を実行するプログラムが記録した記録媒体を用いることにより、既存のシステムを変えることなく、追記情報処理システムを汎用的に構築することができる。
なお、このようなコンピュータを用いた構成に限らず、図13を用いて示した各機能部の処理をなす専用のハードウェアの組合せにより、追記情報に関するデータ処理機能を行なう追記情報処理装置10を構成することもできる。
また、たとえば、追記情報に関するデータ処理機能のための各機能部分の全ての処理をソフトウェアで行なうのではなく、これら機能部分の一部を専用のハードウェアにて行なう処理回路908を設けてもよい。ソフトウェアで行なう仕組みは、並列処理や連続処理に柔軟に対処し得るものの、その処理が複雑になるに連れ、処理時間が長くなるため、処理速度の低下が問題となる。
これに対して、ハードウェア処理回路で行なうことで、高速化を図ったアクセラレータシステムを構築することができるようになる。アクセラレータシステムは、処理が複雑であっても、処理速度の低下を防ぐことができ、高いスループットを得ることができる。
たとえば、追記情報に関するデータ処理機能を実現する場合であれば、処理回路908としては、図13に示した読取画像処理部110に相当する読取画像処理部908a、文書原本特定部120に相当する文書原本特定部908b、追記情報抽出部130に相当する追記情報抽出部908c、データ処理対象追記情報特定処理部150に相当するデータ処理対象追記情報特定処理部908d、あるいはデータ処理部170に相当するデータ処理部908eなどをハードウェアで構成するとよい。
1…教材自動採点システム、8A…文書原本、8B…追記済文書、9…差分情報、10…追記情報処理装置、20…文書入力装置、30…文書管理サーバ、40…処理結果保存サーバ、50…文書原本作成装置、70…帳票、71…記入済帳票、80…教育用教材、81…付加情報記入済教材、87…採点記号、88…コメント、90…手帳、91…付加情報記入済手帳、97…予定、98…コメント、99…分類記号、110…読取画像処理部、112…画像データ解析部、114…歪み補正部、120…文書原本特定部、122…教材特定部、123…識別情報解析部、124…コード情報解析部、130…追記情報抽出部、132…差分抽出部、134…解答者抽出部、136…手書き情報切出部、138…文字認識処理部、140…データ処理用追記情報抽出処理部、150…データ処理対象追記情報特定処理部、154…第1データ処理用追記情報認識部、155…分離認識処理部、156…図形形状認識部、157…文字認識処理部、159…記入順序対応付処理部、164…第2データ処理用追記情報認識部、166…図形形状認識部、167…文字認識処理部、169…記入順序対応付処理部、170…データ処理部、170_1…第1データ処理部、170_2…第2データ処理部、171…ユーザ端末、172…採点集計部、174…集計結果出力部、176…コメント分類処理部、178…コメント処理結果出力部