JP2018063600A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2018063600A
JP2018063600A JP2016202008A JP2016202008A JP2018063600A JP 2018063600 A JP2018063600 A JP 2018063600A JP 2016202008 A JP2016202008 A JP 2016202008A JP 2016202008 A JP2016202008 A JP 2016202008A JP 2018063600 A JP2018063600 A JP 2018063600A
Authority
JP
Japan
Prior art keywords
character string
image
character
string image
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016202008A
Other languages
English (en)
Inventor
聡一郎 小野
Soichiro Ono
聡一郎 小野
思萌 馮
Simeng Feng
思萌 馮
彰夫 古畑
Akio Furuhata
彰夫 古畑
博之 水谷
Hiroyuki Mizutani
博之 水谷
由明 黒沢
Yoshiaki Kurosawa
由明 黒沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2016202008A priority Critical patent/JP2018063600A/ja
Publication of JP2018063600A publication Critical patent/JP2018063600A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】設問に対する回答の確認作業の効率化を実現できる情報処理装置、情報処理方法およびプログラムを提供する。【解決手段】実施形態の情報処理装置は、分類部と、特徴抽出部と、並び順決定部と、出力部と、を備える。分類部は、同じ設問に対する個別の回答を示す文字列画像の集合を、前記文字列画像に対する文字認識の結果と前記設問の属性に応じた規則とに基づいて、1以上のカテゴリに分類する。特徴抽出部は、前記設問の属性に応じた前記文字列画像の特徴を抽出する。並び順決定部は、抽出した前記特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定する。出力制御部は、前記文字列画像の集合を、カテゴリごとに、前記並び順に従って出力するように制御する。【選択図】図4

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
記述式試験の答案の採点やアンケート結果の集計といった手書き文字を扱う煩雑な作業を、文字認識技術を利用して効率化する試みがある。例えば、記述式試験の設問に対する回答を文字認識の結果に基づいて分類すれば、回答が正しいか否かの判断が容易になる。しかし、文字認識の結果には誤りが含まれる場合があり、また、文字認識の結果が同じであっても設問のタイプ(属性)によっては回答を区別すべき場合があることなどを考慮すると、実際の採点・集計作業においては、文字認識の結果に基づいて分類された回答を作業者が確認しながら採点や集計を行うことが求められる。そして、上述のような文字認識の結果に基づいた分類だけでは、こうした確認作業を効率化する観点からは十分でなく、改善が求められる。
特開2012−181653号公報
本発明が解決しようとする課題は、設問に対する回答の確認作業の効率化を実現できる情報処理装置、情報処理方法およびプログラムを提供することである。
実施形態の情報処理装置は、分類部と、特徴抽出部と、並び順決定部と、出力部と、を備える。分類部は、同じ設問に対する個別の回答を示す文字列画像の集合を、前記文字列画像に対する文字認識の結果と前記設問の属性に応じた規則とに基づいて、1以上のカテゴリに分類する。特徴抽出部は、前記設問の属性に応じた前記文字列画像の特徴を抽出する。並び順決定部は、抽出した前記特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定する。出力制御部は、前記文字列画像の集合を、カテゴリごとに、前記並び順に従って出力するように制御する。
図1は、実施形態の概要を説明する模式図である。 図2は、一覧画像の一例を示す図である。 図3は、答案採点支援システムの概略構成を示すブロック図である。 図4は、第1実施形態の情報処理装置の機能的な構成例を示すブロック図である。 図5は、文字列画像管理テーブルのデータ構造の一例を示す図である。 図6は、第1実施形態の情報処理装置による処理手順の一例を説明するフローチャートである。 図7は、文字列画像の一例を示す図である。 図8は、文字認識の結果から構築される木構造を説明する図である。 図9は、文字列画像の一例を示す図である。 図10は、文字列画像の一例を示す図である。 図11は、キーワード同義語リストの一例を示す図である。 図12は、第2実施形態の情報処理装置の機能的な構成例を示すブロック図である。 図13は、文字列画像に対する加工の一例を説明する図である。 図14は、文字列画像に対する加工の一例を説明する図である。 図15は、文字列画像に対する加工の一例を説明する図である。 図16は、実施形態の情報処理装置のハードウェア構成の一例を示すブロック図である。
以下、実施形態の情報処理装置、情報処理方法およびプログラムを、図面を参照しながら説明する。
[実施形態の概要]
以下で示す実施形態は、例えば記述式試験の答案やアンケート結果などといった設問に対する回答、特に、手書き文字で記入された回答の確認作業の効率化を実現するためのものである。手書き文字は、用紙に記入されたものに限らず、例えばタッチスクリーンに電子ペンなどを用いて記入された電子的な手書き文字も含む。
図1は、実施形態の概要を説明する模式図である。図1に示すように、本実施形態では、まず、文字認識技術を利用して、同じ設問に対する個別の回答を示す文字列画像の集合Xを1以上のカテゴリに分類する。例えば、文字列画像の集合Xに含まれる各文字列画像に対する文字認識の結果と、各文字列画像に共通の設問の属性に応じた分類規則とに基づいて、文字列画像の集合Xを1以上のカテゴリに分類する。文字列画像は、例えば、答案用紙やアンケート用紙の回答記入欄に記入された手書き文字を光学的に読み取ることで得られる。電子的な手書き文字の場合は、その手書き文字の筆跡データ(ストローク)を文字列画像とみなす。なお、本実施形態では、複数の文字を含む文字列として記入された回答だけでなく、単一の文字のみからなる回答を示す画像も文字列画像と呼ぶ。
設問の属性とは、その設問がどのような回答を求めているかといった設問のタイプを示す。例えば、化学式や数式の記述を回答として求めるタイプ、漢字の記述を回答として求めるタイプ、文章の記述を回答として求めるタイプなどが、設問の属性の一例として挙げられる。分類規則は、文字認識の結果を用いて文字列画像の集合Xをどのように1以上のカテゴリに分類するかの規則を表す。
本実施形態では、次に、設問の属性に応じた文字列画像の特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定する。設問の属性に応じた文字列画像の特徴としては、例えば、設問の属性が化学式や数式の記述を回答として求めるものであれば、添え字と推定される文字の大きさや位置などが挙げられる。また、設問の属性が数式の記述を回答として求めるものであれば、数式における演算子と認識された文字の形状などが挙げられる。また、設問の属性が漢字の記述を回答として求めるものであれば、漢字の止め、はね、はらい、はみ出しなどの検査結果などが挙げられる。また、設問の属性が文章の記述を回答として求めるものであれば、文章に含まれるキーワードの表現(キーワードの同義語として登録された単語のうち、いずれの単語を用いているか)などが挙げられる。
本実施形態では、以上のように、設問の属性に応じた文字列画像の特徴に基づいてカテゴリごとに並び順を決定した文字列画像の集合Xを、カテゴリごとに、決定した並び順に従って出力するように制御する。例えば、同じカテゴリに属する複数の文字列画像を、決定した並び順に従って配置した一覧画像を表示装置に表示させる。また、このような一覧画像を印刷装置に印刷出力させるようにしてもよい。本実施形態により表示あるいは印刷出力される一覧画像の一例を図2に示す。この図2の例は、水の化学式の記述を求める設問に対する回答を示す文字列画像の集合Xにおいて、文字認識結果が「H2O」であるカテゴリに含まれる複数の文字列画像が、下付き文字と推定された「2」の上端位置に応じた並び順に従って配置された一覧画像の一部を抜き出したものを示している。この図2の例では、予め用意した添え字の基準位置を示すライン(図中の一点鎖線で示すライン)が、一覧画像に含まれるそれぞれの文字列画像に重畳されている。なお、図2の例において、文字列画像の並び順は、「2」の大きさや下端位置などに応じた並び順でもよい。記述式試験の答案やアンケート結果などの採点・集計作業を行う作業者は、このように表示または印刷出力された一覧画像を参照することで、設問に対する回答の確認作業を効率よく行うことができる。
なお、本実施形態では、文字列画像の集合Xの出力形態として上述のような一覧画像の表示あるいは印刷出力を想定するが、文字列画像の集合Xは、カテゴリごとに、決定した並び順に従って出力されればよく、上述の例に限らない。例えば、一定時間ごと、あるいはキーボードの所定のキーを押すなどの明示的な操作に応じて、文字列画像を順次表示装置に表示させるように制御してもよい。以下では、記述式試験の答案の採点を支援する答案採点支援システムに本実施形態を適用した例を挙げて、実施形態の情報処理装置、情報処理方法およびプログラムの具体例を詳しく説明する。
[第1実施形態]
図3は、答案採点支援システムの概略構成を示すブロック図である。答案採点システムは、図3に示すように、本実施形態の情報処理装置10に対して、スキャナ装置20と、表示装置30と、印刷装置40とが接続された構成である。スキャナ装置20は、設問に対する回答が手書き文字で回答記入欄に記入された答案用紙を光学的に読み取って、読み取り画像を情報処理装置10に入力する。表示装置30は、情報処理装置10による出力制御に従って上述の一覧画像を表示する。印刷装置40は、情報処理装置10による出力制御に従って上述の一覧画像を印刷出力する。なお、表示装置30と印刷装置40は、少なくとも一方が情報処理装置10に接続されていればよい。
図4は、第1実施形態の情報処理装置10の機能的な構成例を示すブロック図である。本実施形態の情報処理装置10は、図4に示すように、入力受付部11と、画像切り出し部12と、文字認識部13と、分類部14と、特徴抽出部15と、並び順決定部16と、記憶制御部17と、出力制御部18と、記憶部50とを備える。
記憶部50は、答案用紙レイアウト情報51と、設問属性・特徴対応情報52と、設問属性・分類規則対応情報53と、文字列画像管理テーブル54とを記憶している。また記憶部50には、文字列画像を格納する文字列画像データベース55が構築される。
答案用紙レイアウト情報51は、本実施形態で扱う答案用紙のレイアウトに関する情報である。答案用紙レイアウト情報51は、少なくとも、答案用紙における各回答記入欄の位置情報(例えば回答記入欄の四隅の座標)と、その回答記入欄に対応する設問の属性情報(以下、「設問属性」という)とを含む。設問属性は、例えば、設問が化学式の記述を回答として求めることを示す「化学式」、数式の記述を回答として求めることを示す「数式」、漢字の記述を回答として求めることを示す「漢字」、文章の記述を回答として求めることを示す「文章」などである。答案用紙レイアウト情報51は、本実施形態で扱う答案用紙の各々について事前に作成され、情報処理装置10に登録されているものとする。
設問属性・特徴対応情報52は、設問属性と、抽出すべき文字列画像の特徴との対応関係を示す情報である。例えば、設問属性が「化学式」や「数式」であれば、抽出すべき文字列画像の特徴は、添え字と推定される文字の大きさや位置などであることが、この設問属性・特徴対応情報52によって示される。また、設問属性が「数式」であれば、抽出すべき文字列画像の特徴は、数式における演算子と認識された文字の形状などであることが、この設問属性・特徴対応情報52によって示される。また、設問属性が「漢字」であれば、抽出すべき文字列画像の特徴は、漢字の止め、はね、はらい、はみ出しなどの検査結果などであることが、この設問属性・特徴対応情報52によって示される。また、設問属性が「文章」であれば、抽出すべき文字列画像の特徴は、文章に含まれるキーワードの表現などであることが、この設問属性・特徴対応情報52によって示される。これらの設問属性に応じて抽出すべき文字列画像の特徴は、例えば、文字列画像に対する幾何学的な計測、もしくは、文字認識の結果に対して意図理解などの知識処理を行うことにより抽出することができる。このような設問属性・特徴対応情報52は、事前に作成されて情報処理装置10に登録されているものとする。
設問属性・分類規則対応情報53は、設問属性と、文字列画像の集合Xを1以上のカテゴリに分類する際の分類規則との対応関係を示す情報である。例えば、設問属性が「化学式」であれば、分類規則は、文字認識の結果が同じ文字列画像同士、つまり、個別文字の認識結果としてスコアが最も高い第1候補の文字が共通し、かつ、文字の並びが共通する文字列画像同士を1つのカテゴリに分類するといった規則であることが、この設問属性・分類規則対応情報53によって示される。また、設問属性が「数式」であれば、分類規則は、文字認識の結果が同じ文字列画像同士に加えて、これら文字列画像とは文字の並びが異なるが意味的には等価の文字列画像も1つのカテゴリに分類するといった規則であることが、この設問属性・分類規則対応情報53によって示される。また、設問属性が「漢字」であれば、分類規則は、文字認識の結果が同じ文字列画像同士を1つのカテゴリに分類するといった規則であることが、この設問属性・分類規則対応情報53によって示される。また、設問属性が「文章」であれば、所定のキーワード(同義語も含む)が出現する文字列画像と出現しない文字列画像とを異なるカテゴリに分類するといった規則であることが、この設問属性・分類規則対応情報53によって示される。このような設問属性・分類規則対応情報53は、事前に作成されて情報処理装置10に登録されているものとする。
文字列画像管理テーブル54は、文字列画像データベース55に格納された文字列画像を管理するためのテーブルである。文字列画像管理テーブル54のデータ構造の一例を図5に示す。この図5に例示する文字列画像管理テーブル54は、「画像ID」カラムと、「答案ID」カラムと、「回答欄ID」カラムと、「設問属性」カラムと、「格納先アドレス」カラムと、「文字認識結果」カラムと、「カテゴリ番号」カラムと、「特徴」カラムと、「並び順」カラムとを有する。
「画像ID」カラムには、文字列画像データベース55に格納された文字列画像の各々に対して一意に割り当てられた識別情報である画像IDが格納される。「答案ID」カラムには、当該文字列画像に対応する回答が記入された答案用紙に対して一意に割り当てられた識別情報である答案IDが格納される。「回答欄ID」カラムには、当該文字列画像に対応する回答が記入された回答記入欄に対して一意に割り当てられた識別情報である回答欄IDが格納される。これら画像ID、答案ID、および回答欄IDにより、文字列画像データベース55に格納された文字列画像の各々が、どの答案用紙のどの回答記入欄に記入された回答を示すものであるかが分かる。
「設問属性」カラムには、文字列画像に対応する設問属性が格納される。文字列画像に対応する設問属性は、上述の答案用紙レイアウト情報51を参照して取得することができる。「格納先アドレス」カラムには、文字列画像データベース55における文字列画像の格納場所を示すアドレス情報が格納される。
「文字認識結果」カラムには、後述の文字認識部13による文字列画像に対する文字認識の結果が格納される。文字認識の結果には、文字列画像を構成する各文字について、少なくとも第1候補となる文字の文字コードおよびスコアと、その文字の位置情報(上端位置、下端位置、左端位置、および右端位置の座標)とが含まれる。なお、文字認識の結果に、第2候補以降の下位の候補の情報も含まれていてもよい。この場合、文字認識の結果は、例えばラティス形式の情報であってもよい。
「カテゴリ番号」カラムには、後述の分類部14により分類された文字列画像の分類先となるカテゴリの番号が格納される。「特徴」カラムには、後述の特徴抽出部15により抽出された文字列画像の特徴を示す情報が格納される。「並び順」カラムには、後述の並び順決定部16により決定されたカテゴリ内における文字列画像の並び順を示す情報が格納される。
上述の答案用紙レイアウト情報51、設問属性・特徴対応情報52、設問属性・分類規則対応情報53の参照や、文字列画像管理テーブル54の参照および各カラムへの情報の格納、文字列画像データベース55への文字列画像の格納および読み出しは、記憶制御部17を介して実施される。すなわち、記憶制御部17は、画像切り出し部12、文字認識部13、分類部14、特徴抽出部15、並び順決定部16、および出力制御部18からの依頼に応じて、記憶部50から必要な情報を読み出したり、記憶部50に情報を格納したりする。
入力受付部11は、スキャナ装置20から入力される読み取り画像、つまり回答が記入された答案用紙を光学的に読み取ることで得られる読み取り画像を取得して、この読み取り画像を画像切り出し部12に渡す。
画像切り出し部12は、記憶制御部17を介して答案用紙レイアウト情報51を参照することで、読み取り画像における回答記入欄の位置を特定して文字列画像の切り出しを行うとともに、切り出した文字列画像に対応する設問属性を取得する。画像切り出し部12により読み取り画像から切り出された文字列画像は、記憶制御部17を介して文字列画像データベース55に格納される。また、文字列画像の切り出しおよび格納に伴い、その文字列画像に対応する画像ID、答案ID、回答欄ID、設問属性、および格納先アドレスが、それぞれ文字列画像管理テーブル54の対応するカラムに格納される。
文字認識部13は、文字列画像データベース55に格納された各文字列画像に対して文字認識を行う。文字認識部13による文字列画像に対する文字認識の結果は、記憶制御部17を介して、文字列画像管理テーブル54の「文字認識結果」カラムに格納される。
分類部14は、同じ設問に対する個別の回答を示す文字列画像の集合Xを、それぞれの文字列画像に対する文字認識の結果と、設問属性に応じた分類規則とに基づいて、1以上のカテゴリに分類する。具体的には、分類部14は、記憶制御部17を介して文字列画像管理テーブル54を参照し、回答欄IDが共通する文字列画像それぞれの文字認識結果と、これら文字列画像に共通の設問属性とを取得する。また、分類部14は、記憶制御部17を介して設問属性・分類規則対応情報53を参照することで、文字列画像管理テーブル54から取得した設問属性に対応する分類規則を特定する。そして、分類部14は、文字列画像管理テーブル54から取得した文字認識の結果と、設問属性・分類規則対応情報53を参照して特定した分類規則とに基づいて、回答欄IDが共通する文字列画像の集合Xを1以上のカテゴリに分類する。分類部14による分類結果(各文字列画像の分類先となるカテゴリの番号)は、記憶制御部17を介して、文字列画像管理テーブル54の「カテゴリ番号」カラムに格納される。
特徴抽出部15は、分類部14により1以上のカテゴリに分類された集合Xに含まれる各文字列画像それぞれの設問属性に応じた特徴を抽出する。具体的には、特徴抽出部15は、記憶制御部17を介して文字列画像管理テーブル54を参照し、集合Xに含まれる各文字列画像に共通の設問属性を取得する。また、特徴抽出部15は、記憶制御部17を介して設問属性・特徴対応情報52を参照することで、文字列画像管理テーブル54から取得した設問属性に対応して抽出すべき各文字列画像の特徴を特定する。そして、特徴抽出部15は、集合Xに含まれる各文字列画像それぞれについて、設問属性・特徴対応情報52を参照して特定した特徴を抽出する。例えば、設問属性・特徴対応情報52を参照して特定した特徴が、文字の大きさや位置、形状などに関するものであれば、特徴抽出部15は、例えば各文字列画像に対して幾何学的な計測を行って得られた結果を、文字列画像の特徴として抽出する。また、設問属性・特徴対応情報52を参照して特定した特徴が、キーワードの表現などといった文字認識の結果に依存するものであれば、特徴抽出部15は、文字認識部13による文字認識の結果に対して意図理解などの知識処理を行って得られた結果を、文字列画像の特徴として抽出する。特徴抽出部15によって抽出された各文字列画像の特徴は、記憶制御部17を介して、文字列画像管理テーブル54の「特徴」カラムに格納される。
並び順決定部16は、特徴抽出部15により抽出された特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定する。具体的には、並び順決定部16は、記憶制御部17を介して文字列画像管理テーブル54を参照し、カテゴリの番号が共通する文字列画像それぞれの特徴を取得する。そして、並び順決定部16は、文字列画像管理テーブル54から取得した各文字列画像の特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定する。例えば、文字列画像の特徴が1次元の連続値で表される場合、その特徴の値に応じた昇順または降順で、各文字列画像の並び順を決定することができる。また、文字列画像の特徴が複数次元の連続値で表される場合、各次元の値を用いた所定の算術演算によって得られた値に応じた昇順または降順で、各文字列画像の並び順を決定することができる。また、文字列画像の特徴が離散値で表される場合、例えば、文字列画像の特徴に基づいてカテゴリ内でクラスタリングを行い、同じクラスタにクラスタリングされた文字列画像同士が隣り合うように、各文字列画像の並び順を決定することができる。この場合、同じクラスタ内の文字列画像の並び順は、例えば、画像IDをもとに決定してもよいし、ランダムに決定してもよい。また、例えば筆跡が近い順など、他の指標に基づいてクラスタ内の文字列画像の並び順を決定してもよい。
出力制御部18は、同じ設問に対する個別の回答を示す文字列画像の集合Xを、分類部14により分類されたカテゴリごとに、並び順決定部16により決定された並び順に従って出力するように制御する。例えば、出力制御部18は、同じカテゴリに属する複数の文字列画像を、並び順決定部16により決定された並び順に従って配置した図2のような一覧画像を生成し、この一覧画像を表示装置30に表示させたり、印刷装置40に印刷出力させたりする。また、出力制御部18は、例えば、一定時間ごと、あるいは明示的な操作に応じて、同じカテゴリに属する複数の文字列画像を、並び順決定部16により決定された並び順に従って順次表示装置30に表示させるようにしてもよい。
なお、以上説明した情報処理装置10の機能的な構成例は一例であり、これに限らない。例えば、答案用紙の読み取り画像から文字列画像を切り出す処理を情報処理装置10の外部で行い、情報処理装置10の入力受付部11が、答案用紙の読み取り画像ではなく文字列画像の入力を受け付ける構成としてもよい。この構成の場合、図4に示した画像切り出し部12は不要となる。
また、文字列画像の切り出しだけでなく、文字列画像に対する文字認識の処理も情報処理装置10の外部で行い、情報処理装置10の入力受付部11が、文字列画像および文字認識の結果の入力を受け付ける構成としてもよい。この構成の場合、図4に示した画像切り出し部12および文字認識部13は不要となる。
次に、以上のように構成される第1実施形態の情報処理装置10の動作の概要を、図6を参照して説明する。図6は、第1実施形態の情報処理装置10による処理手順の一例を説明するフローチャートであり、文字列画像が文字列画像データベース55に格納済みの状態で開始され、個々の設問ごとに繰り返される一連の処理の流れを示している。
図6のフローチャートで示す処理が開始されると、まず、文字認識部13が、同じ設問に対する個別の回答を示す文字列画像の集合Xを処理対象として取得する(ステップS101)。そして、文字認識部13は、ステップS101で取得した文字列画像の集合Xの中から文字列画像を1つ取り出す(ステップS102)。
次に、文字認識部13は、ステップS102で取り出した文字列画像に対して文字認識を行う(ステップS103)。その後、文字認識部13は、ステップS101で取得した文字列画像の集合Xに含まれる全ての文字列画像に対して文字認識を行ったか否かを判定し(ステップS104)、文字認識を行っていない文字列画像があれば(ステップS104:No)、ステップS102に戻って以降の処理を繰り返す。なお、ここでは処理対象となる文字列画像の集合Xを取得して順次文字認識を行う例を説明するが、文字列画像に対する文字認識は、文字列画像の集合Xを取得する前に(例えば、答案用紙の読み取り画像から文字列画像を切り出して文字列画像データベース55に格納するときなどに)、予め行っておくようにしてもよい。
一方、文字列画像の集合Xに含まれる全ての文字列画像に対して文字認識が行われた場合は(ステップS104:Yes)、次に、分類部14が、ステップS104で各文字列画像に対して行われた文字認識の結果と、各文字列画像に共通の設問属性に応じた分類規則とに基づいて、ステップS101で取得した文字列画像の集合Xを1以上のカテゴリに分類する(ステップS105)。
次に、特徴抽出部15が、ステップS105での分類先となるカテゴリの1つを選択し(ステップS106)、ステップS106で選択したカテゴリに分類された文字列画像を1つ取り出す(ステップS107)。そして、特徴抽出部15は、ステップS107で取り出した文字列画像に対し、設問属性に応じた特徴を抽出する処理を行う(ステップS108)。その後、文字認識部13は、ステップS106で選択したカテゴリに分類された全ての文字列画像に対して特徴を抽出する処理を行ったか否かを判定し(ステップS109)、特徴抽出を行っていない文字列画像があれば(ステップS109:No)、ステップS107に戻って以降の処理を繰り返す。
一方、ステップS106で選択したカテゴリに分類された全ての文字列画像に対して特徴を抽出する処理が行われた場合は(ステップS109:Yes)、次に、並び順決定部16が、ステップS106で選択したカテゴリに分類された各文字列画像の並び順を、ステップS108で抽出された特徴に基づいて決定する(ステップS110)。その後、並び順決定部16は、全てのカテゴリに対して文字列画像の並び順を決定する処理を行ったか否かを判定し(ステップS111)、文字列画像の並び順を決定していないカテゴリがあれば(ステップS111:No)、ステップS106に戻って以降の処理を繰り返す。
一方、全てのカテゴリに対して文字列画像の並び順を決定する処理が行われた場合は(ステップS111:Yes)、次に、出力制御部18が、ステップS101で取得した文字列画像の集合Xを、カテゴリごとに、ステップS110で決定された並び順に従って出力するように制御し(ステップS112)、図6のフローチャートで示す一連の処理が終了する。
以上説明したように、本実施形態の情報処理装置10は、同じ設問に対する個別の回答を示す文字列画像の集合Xを、各文字列画像に対する文字認識の結果と設問属性に応じた分類規則とに基づいて1以上のカテゴリに分類するとともに、設問属性に応じた文字列画像の特徴を抽出する。そして、抽出した文字列画像の特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定し、文字列画像の集合Xを、カテゴリごとに、決定した並び順に従って出力するように制御する。したがって、本実施形態の情報処理装置10によれば、記述式試験の設問に対する回答の確認作業の効率化を実現することができる。すなわち、本実施形態によれば、文字認識の結果に基づくカテゴリごとに文字列画像が出力されるため、文字認識の誤りを発見し易くなるとともに、同じカテゴリに属する文字列画像が、設問属性に応じた特徴に基づいて決定された並び順に従って出力されるため、設問属性に応じた着目すべき差異の一覧性が向上し、回答の確認作業を効率よく行うことができる。
以下、いくつかの設問属性を例示しながら、本実施形態により実施される文字列画像の集合Xの分類および各文字列画像に対する特徴抽出の処理の具体例について、さらに詳しく説明する。
<第1実施例>
本実施例は、設問属性が「化学式」の場合の例である。設問属性が「化学式」の場合、文字列画像の集合Xを1以上のカテゴリに分類する際の分類規則としては、例えば、文字認識の結果が同じ文字列画像同士を1つのカテゴリに分類するといった規則が適用される。ここで文字認識の結果が同じとは、個別文字の認識結果としてスコアが最も高い第1候補の文字が共通し、かつ、文字の並びが共通することを意味し、個別文字の大きさや位置は問わないものとする。また、設問属性が「化学式」の場合、抽出すべき文字列画像の特徴としては、添え字と推定される文字の大きさと位置との少なくとも一方、具体的には、例えば添え字と推定される文字の上端位置と下端位置との組み合わせなどが適用される。
図7は、水の化学式の記述を求める設問に対する回答を示す文字列画像の一例を示す図である。この図7に示す文字列画像の特徴を抽出する場合、まず、文字列画像全体の上端位置Hと、文字列画像全体の下端位置Lとを求め、これらの間の距離を行幅とする。また、文字列画像を構成する個々の文字の上端位置tと下端位置bとの間の距離を、その文字の大きさとする。そして、文字列画像を構成する文字のうち、行幅に対する文字の大きさの割合が基準値以下のものを添え字と推定し、この添え字と推定された文字の上端位置tと下端位置bとの組み合わせを、当該文字列画像の特徴として抽出する。
図7に示す例では、「H2O」の文字列画像を構成する個々の文字のうち、「2」の文字が添え字と推定され、この「2」の文字の上端位置tと下端位置bとの組み合わせが、図7に例示する文字列画像の特徴として抽出される。そして、このように抽出された特徴に基づいて、文字認識の結果が「H2O」の文字列画像の並び順が決定される。例えば、「2」の文字の上端位置tまたは下端位置b、あるいはそれらの重み付き和や二乗和などにより得られた値でカテゴリ内の文字列画像を昇順または降順にソートすることにより、同じカテゴリに属する複数の文字列画像の並び順が決定される。
化学式の記述を求める設問の回答では、正しい文字が正しい並びで記述されているかに加えて、添え字が正しく記述されているか否かが採点を行う上で重要な基準となり得る。したがって、設問属性が「化学式」の場合の回答を示す文字列画像を添え字の大きさや位置に応じた順番で並べることにより、設問属性に応じた着目すべき差異の一覧性が向上し、回答の確認作業を効率よく行うことができる。また、上述した一覧画像を表示または印刷出力する際に、例えば図2に例示したように、予め用意した添え字の基準位置を示すラインなどを一覧画像に重畳してもよい。これにより、回答の確認作業をさらに効率よく行うことができる。
なお、添え字と推定された文字の大きさや位置といった特徴は、設問属性が「化学式」の文字列画像に限らず、設問属性が「数式」の文字列画像の並び順を決定するための特徴としても有効に利用できる。また、添え字に限らず、文字の大きさや位置といった特徴は、例えば国語や外国語の文字書き取り問題のように試験教科特有の記法に含まれる文字や記号類が正しく記述できているかを採点の基準とする場合において、文字列画像の並び順を決定するための特徴として有効に利用できる。
<第2実施例>
本実施例は、設問属性が「数式」の場合の例である。設問属性が「数式」の場合、文字列画像の集合Xを1以上のカテゴリに分類する際の分類規則としては、例えば、文字認識の結果が同じ文字列画像同士に加えて、これら文字列画像とは文字の並びが異なるが意味的には等価の文字列画像も1つのカテゴリに分類するといった規則が適用される。意味的に等価か否かは、例えば、文字列画像に対する文字認識の結果から構築される木構造に基づいて判断することができるようになる。
図8は、文字認識の結果から構築される木構造を説明する図であり、(a)は文字認識の結果が「a/b=c」の場合の木構造、(b)は文字認識の結果が「c=a/b」の場合の木構造、(c)は文字認識の結果が「b/a=c」の場合の木構造をそれぞれ示している。文字列画像に対する文字認識の結果から木構造を構築する場合、まず、文字認識の結果の中から演算子を全て抽出し、抽出された各演算子について、演算子前後の項が交換可能であるか否か判定して分類する。なお、演算子以外が連続した部分それぞれを項とする。次に、演算子と項の情報を元に、木構造を構築する。このとき、演算子である木構造の接点に対し、前後の順番が交換可能であるか否かの情報を付与する。図8の例では、まず「/」と「=」を抽出する。「/」は前後の項の交換が不可能、「=」は前後の項の交換が可能であるのでこれらを付加する。次に、演算子を親、演算子前後の項を演算子の持つ子とするような木構造を構築する。
本実施例では、以上のように文字認識の結果から構築された木構造に基づいて意味的に等価と判断される文字列画像同士を同じカテゴリに分類する。図8の例では、(a)の木構造が構築された文字列画像と、(b)の木構造が構築された文字列画像とが同じカテゴリに分類され、(c)の木構造が構築された文字列画像は別のカテゴリに分類される。
また、設問属性が「数式」の場合、抽出すべき文字列画像の特徴としては、数式における演算子と認識された文字の形状などが適用される。図9は、演算子「/」を含む数式を記述した回答を示す文字列画像の一例を示す図である。この図9に示す文字列画像の特徴を抽出する場合、まず、演算子と認識された2文字目の「/」について、上端位置tと下端位置bとの差分を求めるとともに、左端位置lと右端位置rとの差分を求める。そして、これらの差分の割合から求まる演算子「/」の傾きが、図9に示す文字列画像の特徴として抽出される。そして、このように抽出された特徴に基づいて、文字認識の結果が「a/b=c」の文字列画像、および、これと意味的に等価な、文字認識の結果が「c=a/b」の文字列画像の並び順が決定される。例えば、「/」の傾きの値でカテゴリ内の文字列画像を昇順または降順にソートすることにより、同じカテゴリに属する複数の文字列画像の並び順が決定される。
数式の記述を求める設問の回答では、演算子が正しく記述されているか否かが採点を行う上で重要な基準となり得る。例えば、文字認識の結果が「/」であっても「−」とも受け取れるような回答は減点の対象となることが考えられる。したがって、設問属性が「数式」の場合の回答を示す文字列画像を演算子の形状に応じた順番で並べることにより、設問属性に応じた着目すべき差異の一覧性が向上し、回答の確認作業を効率よく行うことができるようになる。
なお、添え字を含む数式が記述される回答に対しては、演算子の形状に加えて、第1実施例で説明した添え字の大きさや位置を文字列画像の特徴として抽出し、演算子の形状に基く文字列画像の並び順と、添え字の大きさや位置に基く文字列画像の並び準とを、所定の操作などに応じて切り換えられるように構成してもよい。
<第3実施例>
本実施例は、設問属性が「漢字」の場合の例である。設問属性が「漢字」の場合、文字列画像の集合Xを1以上のカテゴリに分類する際の分類規則としては、例えば、文字認識の結果が同じ文字列画像同士を1つのカテゴリに分類するといった規則が適用される。また、設問属性が「漢字」の場合、抽出すべき文字列画像の特徴としては、漢字の止め、はね、はらい、はみ出しなどの検査結果などが適用される。
図10は、「触」という漢字の記述を求める設問に対する回答を示す文字列画像の一例を示す図である。この図10に示す文字列画像の特徴を抽出する場合、事前に定義された特徴点の位置(図中の○の位置)において輪郭追跡を行い、止め、はね、はらいが正しく行われているか、はみ出しがないか、などを検査する。そして、各特徴点に対して検査の結果がOK(1)かNG(0)かを割り振り、検査結果ベクトルを構築してこれを当該文字列画像の特徴として抽出する。
本実施例では、このように抽出された特徴に基づいて、文字認識の結果が「触」の文字列画像のカテゴリ内でクラスタリングを行い、同じクラスタにクラスタリングされた文字列画像同士が隣り合うように、各文字列画像の並び順を決定する。同じクラスタ内の文字列画像の並び順は、例えば、画像IDをもとに決定してもよいし、ランダムに決定してもよい。また、例えば筆跡が近い順など、他の指標に基づいてクラスタ内の文字列画像の並び順を決定してもよい。
漢字の記述を求める設問の回答では、漢字の大まかな字形だけでなく、止め、はね、はらいが正しく行われているか、はみ出しがないかなどの局所的な記述の正確性が採点を行う上で重要な基準となり得る。したがって、設問属性が「漢字」の場合の回答を示す文字列画像を上述の検査結果ベクトルに基づいてクラスタリングし、同じクラスタにクラスタリングされた文字列画像同士が隣り合うように各文字列画像を並べることにより、設問属性に応じた着目すべき差異の一覧性が向上し、回答の確認作業を効率よく行うことができるようになる。
<第4実施例>
本実施例は、設問属性が「文章」の場合の例である。設問属性が「文章」の場合、文字列画像の集合Xを1以上のカテゴリに分類する際の分類規則としては、例えば、所定のキーワード(同義語も含む)が出現する文字列画像と出現しない文字列画像とを異なるカテゴリに分類するといった規則が適用される。キーワードの出現有無は、文字列画像に対する文字認識の結果を、設問に応じて事前に準備されたキーワード同義語リストと照合することによって判断できる。
図11は、例えば「温室効果について説明せよ」といった設問に対して事前に準備されたキーワード同義語リストの一例を示す図である。このキーワード同義語リストは、キーワードとして「二酸化炭素」、「CO」、および「炭酸ガス」の3つの同義語が登録された例を示している。温室効果を説明する文章は、例えば、その原因となる「二酸化炭素」という単語が出現しているか否かにより分類できるが、「二酸化炭素」の同義語である「CO」や「炭酸ガス」という単語が出現する文章も、同じカテゴリに分類すべきである。そこで、このような設問に対する回答を示す文字列画像の集合Xを分類する場合は、図11のようなキーワード同義語リストを参照し、文字認識の結果に「二酸化炭素」、「CO」、「炭酸ガス」のいずれかが出現する文字列画像を同じカテゴリに分類し、いずれも出現しない文字列画像を別のカテゴリに分類する。なお、複数のキーワードを扱う場合は、それぞれのキーワードの出現有無の組み合わせごとに、異なるカテゴリに分類すればよい。
また、設問属性が「文章」の場合、抽出すべき文字列画像の特徴としては、文章に含まれるキーワードの表現(キーワード同義語リストに登録された単語のうち、いずれの単語を用いているか)などが適用される。例えば図11に示すキーワード同義語リストに登録された単語が出現する文字列画像のカテゴリでは、「二酸化炭素」が出現する文字列画像か、「CO」が出現する文字列画像か、あるいは「炭酸ガス」が出現する文字列画像かを、それぞれの文字列画像の特徴として抽出する。そして、「二酸化炭素」が出現する文字列画像と、「CO」が出現する文字列画像と、「炭酸ガス」が出現する文字列画像とをそれぞれ別々のクラスタにクラスタリングし、同じクラスタにクラスタリングされた文字列画像同士が隣り合うように、各文字列画像の並び順を決定する。同じクラスタ内の文字列画像の並び順は、上述の第3実施例と同様に決定すればよい。
文章の記述を求める設問の回答では、キーワードを正しく記述しているか否かが採点の基準となるが、同じ事象を示すが表記が異なる上述のような同義語のキーワードが存在する場合、これらのいずれかが出現する文字列画像がばらばらに配置されていると、キーワードの記述部分を見落としてしまう場合がある。これに対し、同義語のキーワードを含む回答を示す文字列画像をそのキーワードの表現に基づいてクラスタリングし、同じクラスタにクラスタリングされた文字列画像同士が隣り合うように各文字列画像を並べることにより、キーワードの記述部分の見落としなどを有効に抑制することができ、回答の確認作業を効率よく行うことができるようになる。
なお、以上の各実施例では、文字列画像の集合Xに含まれる全ての文字列画像について、特徴の抽出やカテゴリ内での並び順の決定を行うことを想定したが、設問に対する回答が不正解の文字列画像は、採点を行う上で上述した詳細な判断が不要な場合が多い。そこで、文字列画像に対する上述の特徴抽出やカテゴリ内での並び順の決定は、設問に対する回答が正解となるカテゴリのみを対象として行う構成としてもよい。
[第2実施形態]
次に、第2実施形態について説明する。本実施形態は、集合Xに含まれる一部の文字列画像を加工した上で出力するように構成したものである。なお、本実施形態における基本的な構成および動作は上述の第1実施形態と同様であるため、以下では第1実施形態と同様の構成要素に対しては同一の符号を付して重複した説明を省略し、本実施形態に特徴的な部分についてのみ説明する。
図12は、第2実施形態の情報処理装置10’の機能的な構成例を示すブロック図である。本実施形態の情報処理装置10’は、図12に示すように、図4に示した第1実施形態の情報処理装置10の構成に対して、画像加工部19が追加された構成である。
画像加工部19は、例えば、同じカテゴリに属する複数の文字列画像のうち、基準となる文字列画像と意味的に等価であるが文字の並びが異なる他の文字列画像を、基準となる文字列画像と文字の並びが同じになるように加工する。例えば設問属性が「数式」の場合、上述のように、文字の並びが異なる文字列画像同士であっても意味的に等価であれば同じカテゴリに分類される。このとき、画像加工部19は、例えば当該カテゴリに最初に分類された文字列画像を基準となる文字列画像とし、その後、同じカテゴリに分類される文字列画像の文字の並びが基準となる文字列画像と異なっていれば、その文字列画像の文字の並びが基準となる文字列画像と同じになるように加工する。
図13は、この場合の文字列画像に対する加工の一例を示す図である。基準となる文字列画像の文字の並びが「c=a/b」である場合、画像加工部19は、文字の並びが「a/b=c」の文字列画像に対し、演算子「=」の前後の項を入れ替えて、文字の並びが基準となる文字列画像と同じく「c=a/b」となるように加工する。
また、画像加工部19は、例えば、同じカテゴリに属する複数の文字列画像のうち、基準となる文字列画像と大きさが異なる他の文字列画像を、基準となる文字列画像と同等の大きさとなるように加工してもよい。図14は、この場合の文字列画像に対する加工の一例を示す図であり、基準となる文字列画像に対して大きさが小さい文字列画像を、基準となる文字列画像と同等の大きさとなるように加工した例を示している。なお、基準となる文字列画像としては、上述の例と同様に、当該カテゴリに最初に分類された文字列画像を選択してもよいし、当該カテゴリに分類された文字列画像の中で平均的な大きさの文字列画像を選択してもよい。
また、画像加工部19は、同じカテゴリに属する複数の文字列画像のうち、基準となる文字列画像と文字間の間隔が異なる他の文字列画像を、基準となる文字列画像と文字間の間隔が同等となるように加工してもよい。図15は、この場合の文字列画像に対する加工の一例を示す図であり、基準となる文字列画像に対して文字間の間隔が狭い文字列画像を、基準となる文字列画像と文字間隔となるように加工した例を示している。なお、基準となる文字列画像としては、上述の例と同様に、当該カテゴリに最初に分類された文字列画像を選択してもよいし、当該カテゴリに分類された文字列画像の中で平均的な文字間隔の文字列画像を選択してもよい。
本実施形態の情報処理装置10’では、集合Xに含まれる一部の文字列画像に対して画像加工部19による加工が行われた場合、出力制御部18は、加工した文字列画像を含む文字列画像の集合Xを、分類部14により分類されたカテゴリごとに、並び順決定部16により決定された並び順に従って出力するように制御する。これにより、上述の第1実施形態よりも文字列画像同士の比較がしやすくなり、回答の確認作業をさらに効率よく行うことが可能となる。
[補足説明]
以上説明した情報処理装置10(10’)の機能は、例えば、一般的なコンピュータのハードウェアとソフトウェア(プログラム)との協働により実現することができる。この場合の情報処理装置10(10’)のハードウェア構成の一例を図16に示す。
実施形態の情報処理装置10(10’)は、例えば図16に示すように、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読み出し専用メモリであるROM(Read Only Memory)102、各種データを書き換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するための媒体駆動装置105、ユーザがCPU101に命令や情報などを入力するためのキーボードやマウスなどの入力装置106、および、スキャナ装置20、表示装置30、印刷装置40などの外部機器を接続するための機器I/F107などを備え、これら各部間で送受信されるデータをバスコントローラ108が調停して動作する。
このような情報処理装置10(10’)では、ユーザが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、データを読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)などが知られている。これらのOS上で動作するプログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
情報処理装置10(10’)は、上記アプリケーションプログラムとして、図4や図12に示した記憶部50を除く機能的な構成要素をそれぞれプロセスとして生成するためのプログラムをHDD104に記憶している。情報処理装置10(10’)のHDD104にインストールされるアプリケーションプログラムは、一般的には、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリなどの各種方式のメディアなどの記憶媒体110に記録されて提供される。また、このプログラムは、例えばネットワークを利用した通信により外部から取り込まれ、HDD104にインストールされてもよい。図4や図12に示した記憶部50は、例えばHDD104を用いて実現される。
以上のようなハードウェア構成を採用する場合、CPU101がOS上で動作する上記プログラムに従って各種の演算処理を実行することにより、例えばRAM103上に図4や図12に示した機能的な構成要素が生成され、コンピュータを情報処理装置10(10’)として機能させることができる。なお、図4や図12に示した機能的な構成要素の一部あるいは全部を、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field-programmable Gate Array)などの専用のハードウェアを用いて実現することもできる。
なお、上述の実施形態では、情報処理装置10(10’)が単体の装置として構成されていることを想定するが、情報処理装置10(10’)は単体の装置として構成されている必要はなく、物理的に分離されてネットワークを介して接続された複数の装置により構成されていてもよい。また、情報処理装置10(10’)は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
10 情報処理装置
13 文字認識部
14 分類部
15 特徴抽出部
16 並び順決定部
18 出力制御部
19 画像加工部
30 表示装置
40 印刷装置

Claims (15)

  1. 同じ設問に対する個別の回答を示す文字列画像の集合を、前記文字列画像に対する文字認識の結果と前記設問の属性に応じた規則とに基づいて、1以上のカテゴリに分類する分類部と、
    前記設問の属性に応じた前記文字列画像の特徴を抽出する特徴抽出部と、
    抽出した前記特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定する並び順決定部と、
    前記文字列画像の集合を、カテゴリごとに、前記並び順に従って出力するように制御する出力制御部と、
    を備える情報処理装置。
  2. 前記特徴抽出部は、前記設問の属性が化学式または数式の記述を回答として求めるものである場合、前記文字列画像に含まれる、添え字と推定される文字の大きさと位置との少なくとも一方を前記特徴として抽出する、
    請求項1に記載の情報処理装置。
  3. 前記特徴抽出部は、前記設問の属性が数式の記述を回答として求めるものである場合、前記文字列画像に含まれる、数式における演算子と認識された文字の形状を前記特徴として抽出する、
    請求項1に記載の情報処理装置。
  4. 前記特徴抽出部は、前記設問の属性が漢字の記述を回答として求めるものである場合、前記文字列画像に含まれる漢字の止め、はね、はらい、はみ出しの少なくとも1つの検査結果を前記特徴として抽出する、
    請求項1に記載の情報処理装置。
  5. 前記特徴抽出部は、前記設問の属性が文章の記述を回答として求めるものである場合、文章に含まれるキーワードの表現を前記特徴として抽出する、
    請求項1に記載の情報処理装置。
  6. 一部の前記文字列画像を加工する画像加工部をさらに備え、
    前記出力制御部は、加工した前記文字列画像を含む前記文字列画像の集合を、カテゴリごとに、前記並び順に従って出力するように制御する、
    請求項1乃至5のいずれか一項に記載の情報処理装置。
  7. 前記画像加工部は、同じカテゴリに属する複数の文字列画像のうち、基準となる文字列画像と意味的に等価であるが文字の並びが異なる他の文字列画像を、基準となる文字列画像と文字の並びが同じになるように加工する、
    請求項6に記載の情報処理装置。
  8. 前記画像加工部は、同じカテゴリに属する複数の文字列画像のうち、基準となる文字列画像と大きさが異なる他の文字列画像を、基準となる文字列画像と同等の大きさとなるように加工する、
    請求項6に記載の情報処理装置。
  9. 前記画像加工部は、同じカテゴリに属する複数の文字列画像のうち、基準となる文字列画像と文字間の間隔が異なる他の文字列画像を、基準となる文字列画像と文字間の間隔が同等となるように加工する、
    請求項6に記載の情報処理装置。
  10. 前記出力制御部は、同じカテゴリに属する複数の文字列画像を前記並び順に従って配置した一覧画像を表示装置に表示させる、
    請求項1乃至9のいずれか一項に記載の情報処理装置。
  11. 前記出力制御部は、同じカテゴリに属する複数の文字列画像を前記並び順に従って配置した一覧画像を印刷装置に印刷出力させる、
    請求項1乃至9のいずれか一項に記載の情報処理装置。
  12. 前記出力制御部は、同じカテゴリに属する複数の文字列画像を前記並び順に従って順次表示装置に表示させる、
    請求項1乃至9のいずれか一項に記載の情報処理装置。
  13. 前記文字列画像に対する文字認識を行う文字認識部をさらに備える、
    請求項1乃至12のいずれか一項に記載の情報処理装置。
  14. 同じ設問に対する個別の回答を示す文字列画像の集合を、前記文字列画像に対する文字認識の結果と前記設問の属性に応じた規則とに基づいて、1以上のカテゴリに分類するステップと、
    前記設問の属性に応じた前記文字列画像の特徴を抽出するステップと、
    抽出した前記特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定するステップと、
    前記文字列画像の集合を、カテゴリごとに、前記並び順に従って出力するように制御するステップと、
    を含む情報処理方法。
  15. コンピュータに、
    同じ設問に対する個別の回答を示す文字列画像の集合を、前記文字列画像に対する文字認識の結果と前記設問の属性に応じた規則とに基づいて、1以上のカテゴリに分類する機能と、
    前記設問の属性に応じた前記文字列画像の特徴を抽出する機能と、
    抽出した前記特徴に基づいて、同じカテゴリに属する複数の文字列画像の並び順を決定する機能と、
    前記文字列画像の集合を、カテゴリごとに、前記並び順に従って出力するように制御する機能と、
    を実現させるためのプログラム。
JP2016202008A 2016-10-13 2016-10-13 情報処理装置、情報処理方法およびプログラム Pending JP2018063600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016202008A JP2018063600A (ja) 2016-10-13 2016-10-13 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016202008A JP2018063600A (ja) 2016-10-13 2016-10-13 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2018063600A true JP2018063600A (ja) 2018-04-19

Family

ID=61967905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016202008A Pending JP2018063600A (ja) 2016-10-13 2016-10-13 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2018063600A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019225229A1 (ja) * 2018-05-25 2019-11-28 日本電気株式会社 採点装置、採点方法、記録媒体
WO2020166539A1 (ja) * 2019-02-15 2020-08-20 日本電気株式会社 採点支援装置、採点支援システム、採点支援方法およびプログラム記録媒体
JP2020166770A (ja) * 2019-03-29 2020-10-08 日本電気株式会社 文字認識装置、文字認識方法およびプログラム
KR20210107266A (ko) * 2020-02-24 2021-09-01 주식회사 한글과컴퓨터 전자 문서에서 수식 연산자에 대한 간편한 첨자 입력을 지원하는 전자 단말 장치 및 그 동작 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019225229A1 (ja) * 2018-05-25 2019-11-28 日本電気株式会社 採点装置、採点方法、記録媒体
JPWO2019225229A1 (ja) * 2018-05-25 2021-05-20 日本電気株式会社 採点装置、採点方法、記録媒体
US20210287563A1 (en) * 2018-05-25 2021-09-16 Nec Corporation Scoring device, scoring method, and recording medium
JP7099521B2 (ja) 2018-05-25 2022-07-12 日本電気株式会社 採点装置、採点方法、記録媒体
WO2020166539A1 (ja) * 2019-02-15 2020-08-20 日本電気株式会社 採点支援装置、採点支援システム、採点支援方法およびプログラム記録媒体
JP6766987B1 (ja) * 2019-02-15 2020-10-14 日本電気株式会社 採点支援装置、採点支援システム、採点支援方法および採点支援プログラム
JP2020166770A (ja) * 2019-03-29 2020-10-08 日本電気株式会社 文字認識装置、文字認識方法およびプログラム
KR20210107266A (ko) * 2020-02-24 2021-09-01 주식회사 한글과컴퓨터 전자 문서에서 수식 연산자에 대한 간편한 첨자 입력을 지원하는 전자 단말 장치 및 그 동작 방법
KR102300486B1 (ko) 2020-02-24 2021-09-09 주식회사 한글과컴퓨터 전자 문서에서 수식 연산자에 대한 간편한 첨자 입력을 지원하는 전자 단말 장치 및 그 동작 방법

Similar Documents

Publication Publication Date Title
US20170300565A1 (en) System and method for entity extraction from semi-structured text documents
EP3640847A1 (en) Systems and methods for identifying form fields
US20180225276A1 (en) Document segmentation, interpretation, and re-organization
US9342592B2 (en) Method for systematic mass normalization of titles
US20150235160A1 (en) Generating gold questions for crowdsourcing
CN101326518B (zh) 用于墨水笔记的手写体识别的方法和装置
US8768241B2 (en) System and method for representing digital assessments
JP2018063600A (ja) 情報処理装置、情報処理方法およびプログラム
CN103703461A (zh) 检测搜索查询的源语言
US20230045330A1 (en) Multi-term query subsumption for document classification
JP5682448B2 (ja) 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
Shahbazi et al. Representation bias in data: a survey on identification and resolution techniques
US9558400B2 (en) Search by stroke
WO2023038722A1 (en) Entry detection and recognition for custom forms
Long An agent-based approach to table recognition and interpretation
JP6432266B2 (ja) グループ化方法、グループ化装置、およびグループ化プログラム
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP2020115175A (ja) 情報処理装置、情報処理方法及びプログラム
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
US11593417B2 (en) Assigning documents to entities of a database
JP2023003887A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
US20210406472A1 (en) Named-entity classification apparatus and named-entity classification method
JP2006031129A (ja) 文書処理手法及び文書処理装置
JP7338203B2 (ja) 文字認識装置及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20170904

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170905