JP2008152357A - テキスト認識システム、テキスト認識方法、テキスト認識プログラム - Google Patents

テキスト認識システム、テキスト認識方法、テキスト認識プログラム Download PDF

Info

Publication number
JP2008152357A
JP2008152357A JP2006337231A JP2006337231A JP2008152357A JP 2008152357 A JP2008152357 A JP 2008152357A JP 2006337231 A JP2006337231 A JP 2006337231A JP 2006337231 A JP2006337231 A JP 2006337231A JP 2008152357 A JP2008152357 A JP 2008152357A
Authority
JP
Japan
Prior art keywords
text
candidate
text data
input
data string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006337231A
Other languages
English (en)
Inventor
Kiyoshi Yamazaki
澄 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006337231A priority Critical patent/JP2008152357A/ja
Publication of JP2008152357A publication Critical patent/JP2008152357A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Time Recorders, Dirve Recorders, Access Control (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】手書き入力情報の認識を効率化する。
【解決手段】利用者の手書き情報の電子データを外部装置から取得してメモリに格納する電子データ取得部51と、前記メモリから前記電子データを読み出してテキストデータ列に変換しメモリに格納するテキスト変換部54と、前記手書き情報の入力候補である候補テキストデータ列を記憶するテキスト記憶部20と、前記テキストデータ列と候補テキストデータ列との照合処理を実行して手書き情報に該当する入力候補を特定し手書き情報を入力候補ごとに振り分けたリスト情報を生成する振分処理部71とからテキスト認識システム100を構成する。
【選択図】図1

Description

本発明は、1つ又は複数の入力候補のうち、どの入力候補について手書き入力がなされたかを認識するテキスト認識システム、テキスト認識方法、テキスト認識プログラムに関する。
従来、選挙における投票制度としては、投票者が投票所で手渡された規定の投票用紙に候補者名あるいは政党名を自書して投票箱に投函する自書式投票制が主に採用されている。従来の自書式投票制においては、手作業で開票作業を行なうため、時間と人手とを大量に要していた。
特許文献1には、従来の自書式投票の使いやすさを生かした電子投票を実現するシステムとして、手書き情報を電子的手段で取得し、文字情報に変換し、文字情報と候補者名を照合し、一致した候補者名をバーコード化し、手書きイメージ、文字情報、バーコードを印字して投票結果とし、このバーコードを機械的に読み取ることで開票処理を実施する電子投票システムが開示されている。
特開2006−235974号公報
従来の電子投票システムにおいては、手書き候補者名をコード化して格納することにより開票作業を高速化しているが、手書き情報と候補者名とが一致しない場合は疑問票としてカウントし、集計には加えていない。そのため、誤記が多い場合や、文字変換機能の精度が低く疑問票が大量に発生する場合には、投票自体が成立しなくなる可能性があった。
また、従来の電子投票システムでは疑問票の低減のために候補者名データにカナ表記や通称等の別名を持たせるという手段を取ってはいるが、別名のバリエーションが十分でなかったり、手書き文字が崩し字である等の場合に対応できないという問題があり、疑問票を十分なレベルまで低減できない可能性があった。
本発明の目的は、上記課題を解決し、手書き入力情報の認識を効率化するテキスト認識システム、テキスト認識方法、テキスト認識プログラムを提供することにある。
上記課題を解決するためのテキスト認識システムは、演算装置、メモリ、インターフェイスを備えて、利用者の手書き情報の電子データを、外部装置から取得してメモリに格納する電子データ取得部と、前記メモリから前記電子データを読み出してテキストデータ列に変換し、このテキストデータ列をメモリに格納するテキスト変換部と、前記手書き情報の入力候補である1つ又は複数のテキストデータ列を、候補テキストデータ列として記憶するテキスト記憶部と、前記メモリから前記テキストデータ列を読み出して、このテキストデータ列と前記テキスト記憶部に記憶された候補テキストデータ列との照合処理を実行して、前記手書き情報に該当する入力候補を特定し、前記手書き情報を入力候補ごとに振り分けたリスト情報を生成する振分処理部と、を有する。
また、前記テキスト認識システムは、前記照合処理におけるテキストデータ列と候補テキストデータ列との一致度が部分一致であった場合、該当手書き情報の電子データをメモリより読み出して、イメージデータとして担当者確認用の表示装置に出力する確認画像表示部と、前記テキストデータ列と候補テキストデータ列との一致度が部分一致とされた手書き情報について、担当者による正確な入力候補の指定を入力インターフェイスを介して受け付ける認識結果入力部と、を有するとしてもよい。
また、前記テキスト認識システムにおいて、前記振分処理部は、前記テキスト変換部において変換されたテキストデータ列を、前記候補テキストデータ列との一致度合いに応じてグループ分けし、前記確認画像表示部は、前記グループごとに前記手書き情報のイメージデータを表示させることとしてもよい。
また、前記テキスト認識システムは、前記テキストデータ列と候補テキストデータ列との一致度が完全一致であって、正確に認識されていると判断された前記手書き入力情報の入力件数を前記入力候補ごとに集計する集計部を有することとしてもよい。
また、前記テキスト認識システムにおいて、前記確認画像表示部は、前記テキストデータ列と候補テキストデータ列との間における不一致文字と、前記テキスト変換部における前記電子データからテキストデータ列への変換が出来ない不可能文字との両方、又は何れか一方を前記表示装置において強調表示させることとしてもよい。
また、前記テキスト認識システムは、前記入力候補の異表記を記憶する異表記記憶部を有し、前記確認画像表示部は、前記入力候補の異表記を、手書き情報のイメージデータとともに前記担当者確認用の表示装置に出力することとしてもよい。
また、前記テキスト認識システムにおいて、前記外部装置は、ペン先の軌跡を電子データに変換するデジタルペンであることとしてもよい。
また、本発明のテキスト認識方法は、1つ又は複数の入力候補のうち、どの入力候補について手書き入力されたかを認識するコンピュータが、利用者の手書き情報の電子データを、外部装置から取得してメモリに格納する処理と、前記メモリから前記電子データを読み出してテキストデータ列に変換し、このテキストデータ列をメモリに格納する処理と、前記手書き情報の入力候補である1つ又は複数のテキストデータ列を、候補テキストデータ列として記憶する処理と、前記メモリから前記テキストデータ列を読み出して、このテキストデータ列と前記テキスト記憶部に記憶された候補テキストデータ列との照合処理を実行して、前記手書き情報に該当する入力候補を特定し、前記手書き情報を入力候補ごとに振り分けたリスト情報を生成する処理と、を実行する。
また、本発明のテキスト認識プログラムは、1つ又は複数の入力候補のうち、どの入力候補について手書き入力されたかを認識するコンピュータに、利用者の手書き情報の電子データを、外部装置から取得してメモリに格納するステップと、前記メモリから前記電子データを読み出してテキストデータ列に変換し、このテキストデータ列をメモリに格納するステップと、前記手書き情報の入力候補である1つ又は複数のテキストデータ列を、候補テキストデータ列として記憶するステップと、前記メモリから前記テキストデータ列を読み出して、このテキストデータ列と前記テキスト記憶部に記憶された候補テキストデータ列との照合処理を実行して、前記手書き情報に該当する入力候補を特定し、前記手書き情報を入力候補ごとに振り分けたリスト情報を生成するステップと、を実行させるプログラムである。
本発明によれば、手書き入力情報の認識を効率化することができる。
<<全体構成>>
以下、本実施形態のテキスト認識システムについて、これを適用した電子投開票システム1に沿って説明する。つまり、本発明のテキスト認識システムを選挙制度における投開票作業に適用した状況を想定する。図1は、電子投開票システム1の全体構成図である。電子投開票システム1は、投票所に設けられた投票システム2と開票所に設けられた開票システム3とをネットワークで接続した構成をしており、投票システム2に投票された投票内容は、開票システム3に集められる。本実施形態におけるテキスト認識システムは、こうした投票システム2と開票システム3に、必要な機能部を分散配置した構成となっている。従って、投票システム2と開票システム3とのそれぞれ一部でもって本発明のテキスト認識システムを構成するとも言える。勿論、投開票システム1においても、本発明のテキスト認識システムの機能のみを抽出し、単独の装置つまりテキスト認識装置として配置する例も想定できる。
なお、電子投開票システム1を構成する投票システム2および開票システム3が備える各コンピュータ(例:文字認識サーバ5、ファイル作成サーバ6、開票サーバ7など)は、本発明のテキスト認識方法を実行する機能を実現すべく書き換え可能メモリなどのプログラムデータベースに格納されたプログラム(テキスト認識システムが備えるべき各機能部をそれぞれ実現するプログラム)をメモリに読み出し、演算装置たるCPUにより実行するものである。また、コンピュータ装置が一般に備えている各種キーボードやボタン類といった入力インターフェイスや、ディスプレイなどの出力インターフェイス、ならびにデジタルペン4やユーザ等が使用する端末との間のデータ授受を担う通信装置などを有している。こうしたコンピュータ装置が所定の機能をプログラムでもって実現する際の構成とその動作については、従来通りの技術であるから説明を省略する。
<投票システム>
図2は、投票システム2の構成を示すブロック図である。投票システム2は、投票者の手書き情報を電子データに変換するデジタルペン4と、デジタルペン4で記入された手書き情報をテキストデータに変換する文字認識サーバ5、手書き情報とテキストデータを所定のファイル形式に変換するファイル作成サーバ6とを備える。
==デジタルペン4==
投票所では、投票者に、デジタルペン4と投票用紙44とを配布する(図3)。配布された投票用紙44には、ドットパターンが印刷されている。ドットパターンは、ペン先の位置を示し、ドットパターンの集合は、ペン先の軌跡を示す。本実施の形態では、この情報、ペン先の軌跡(ストローク)を示す情報を筆記ストローク情報と呼ぶ。デジタルペン4のドットパターン読取部41は、読み取った筆記ストローク情報をメモリ42に格納する。通信部43は、メモリ42に格納した筆記ストローク情報を文字認識サーバ5に送信する。このように、筆記ストローク情報を一旦メモリ42に格納することで、停電等の一時的なシステム停止の際にも投票を継続することが可能である。さらにシステムが復旧しない場合にも、紙の投票用紙44に記入した情報が紙として残るため、開票を紙集計に切り替えることが容易である。
==文字認識サーバ5==
文字認識サーバ5は、図2に示すように、デジタルペン4から筆記ストローク情報を取得する筆記ストローク情報取得部51(本発明の電子データ取得部に該当)、投票用紙44の種類を判別する投票用紙判別部52、筆記ストローク情報をイメージデータに変換する筆記ストローク変換部53、イメージデータをテキストデータに変換するイメージデータ変換部54(前記筆記ストローク変換部53と共に本発明のテキスト変換部に該当)、ファイル作成サーバ6とのデータの送受信を行なうファイルサーバ連携部55、画像変換テーブル56、文字変換テーブル57を備える。
投票用紙判別部52は、投票用紙44に印刷されたドットパターンから選挙区分を判別する。例えば、国会議員の選挙では、小選挙区と比例代表との2種類の選挙区分がある。投票者は、ユニークなドットパターンが印刷された2種類の投票用紙を受け取る。投票用紙判別部52は、ドットパターンの配置により、選挙区分を判別することができる。
筆記ストローク変換部53は、画像変換テーブル56を利用して、ドットパターンを位置情報に変換して筆記ストローク情報をイメージデータに変換する。画像変換テーブル56は、ドットパターンと位置情報との対応関係を格納している。
イメージデータ変換部54は、文字変換テーブル57を利用して、イメージデータをOCR(Optical Character Recognition)機能等によりテキストデータに変換する。文字変換テーブル57は、イメージデータと文字パターンとの対応関係を格納している。
ファイルサーバ連携部55は、筆記ストローク変換部53が生成したイメージデータ、イメージデータ変換部54が生成したテキストデータ、イメージデータ変換部54が判別不能なテキスト、投票用紙判別部52が判別した選挙区分をファイル作成サーバ6に送信する。
==ファイル作成サーバ6==
ファイル作成サーバ6は、図2に示すように、投票ファイル作成部61、投票所コードテーブル62、選挙区分テーブル63、投票ファイルテーブル64、通信部65を備える。
投票所コードテーブル62は投票所を示す投票所コードを記憶しており、選挙区分テーブル63は選挙区分コードを記憶している。
ファイル作成サーバ6は、投票者の手書き情報に基づくイメージデータとテキストデータを所定のファイル形式に変換し、イメージファイルとテキストファイルを合成し、投票ファイルとしてファイル名を付ける。投票ファイル名は、小選挙区の場合は「Aファイル」、比例代表区の場合は「Bファイル」といった選挙区分コードと、選挙区分ごとの通番を用いて「選挙区分コード+投票所コード+通番」のようにする。
図4は、投票ファイルにおける投票データの構成例を示す。図4の投票ファイルは、CSV(Comma Separated Value)形式等のテキストファイルとPDF(Portable Document Format)形式等の画像データに「選挙区分を示すA又はB+投票所コードN+通番XXXX」という名前を付して合成している。
そして、ファイル作成サーバ6は、前記作成した投票ファイルを投票ファイルテーブル64に格納する。投票ファイルテーブル64に格納される個々のデータが1件毎の投票ファイルとなる。また、前記通信部65は、投票ファイルテーブル64に格納される投票ファイルを開票システム3に送信する。
<開票システム3>
図5は、開票システム3の構成を示すブロック図である。開票システム3は、候補者への投票の振分・集計を行う開票サーバ7と、開票担当者が疑問票の内容確認を行なう担当者端末8とを備える。また、前記開票サーバ7は、振分処理部71、確認画像表示部72、集計部73、認識結果入力部74、各種データを格納するデータ格納部75を備える。
データ格納部75には、投票ファイルデータベース10、マスタデータベース20、開票結果データベース30が格納されている。投票ファイルデータベース10は、投票システム2から受信した投票ファイルを格納する投票テーブル11、投票ファイルを、テキストデータ(手書き情報が起源)と入力候補たる候補者名(又は政党名)との一致度合いに応じてグループ分けする照合結果テーブル12から構成される。
マスタデータベース20は、アンマッチグループに関する情報を格納するアンマッチグループテーブル21、候補者に関する情報を格納する候補者テーブル22、政党に関する情報を格納する政党テーブル23、投票所に関する情報を格納する投票所テーブル24から構成される。
開票結果データベース30は、集計結果を格納する開票結果テーブル31、アンマッチグループに属する全ての投票ファイルの候補者が認識されたか否かを記憶するアンマッチグループ確認結果テーブル32、集計状態テーブル33から構成される。
振分処理部71は、投票テーブル11から投票ファイルを読み出し、そのファイルが含む投票ファイル名の情報から選挙区分を判断し、選挙区分が小選挙区の場合、候補者テーブル22から候補者名を読み出す。一方、選挙区分が比例代表の場合、振分処理部71は、政党テーブル23から政党名を読み出す。そして、振分処理部71は、投票ファイルのテキストデータと前記マスタデータベース20から読み出した入力候補たる候補者名(又は政党名)との照合処理を行う。このとき、マスタデータベース20から読み出した候補者名(又は政党名)の何れかと投票ファイルの含むテキストデータとが完全一致したならば、完全一致した候補者名(又は政党名)に対応する候補者コード(又は政党コード)を照合結果テーブル12に登録して、アンマッチフラグ(つまり候補者名との不一致のフラグ)を「0」に設定する。
また振分処理部71は、マスタデータベース20から読み出した候補者名(又は政党名)の何れかと投票ファイルの含むテキストデータとが部分一致となれば、部分一致した候補者名(又は政党名)に対応する候補者コード(又は政党コード)、一致文字数に対応するアンマッチグループコードを照合結果テーブル12に登録して、アンマッチフラグを「0」以外に設定する。
また振分処理部71は、マスタデータベース20から読み出した全ての候補者名(又は政党名)と前記テキストデータとが1文字も一致しなければ、候補者テーブル22(又は政党テーブル23)から異体字であるひらがな表記や別名を読み出し(つまり本発明の異表記記憶部を候補者テーブル22が備えている)、前記テキストデータと照合する。そして、読み出した異体字や別名の何れかとテキストデータが完全一致の場合には、完全一致した候補者名(又は政党名)に対応する候補者コード(又は政党コード)を照合結果テーブル12に登録して、アンマッチフラグを「0」に設定する。
また振分処理部71は、読み出した異体字や別名の何れかとテキストデータが部分一致の場合には、部分一致した候補者名(又は政党名)に対応する候補者コード(又は政党コード)、一致文字数に対応するアンマッチグループコードを照合結果テーブル12に登録して、アンマッチフラグを「0」以外に設定する。
前記集計部73は、照合結果テーブル12を読み込み、アンマッチフラグが「0」(すなわち、投票ファイルのテキストデータに応じ、候補者が特定出来ている)、かつ、未集計の投票者ファイルを候補者(又は、政党)ごとに分けて集計する。また、アンマッチフラグが「0」以外の場合、確認画像表示部72が、担当者の目視による入力内容の確認を受け付けるべく、担当者端末8に確認用の情報を出力する。
確認画像表示部72は、担当者端末8からアンマッチグループの指定を受け付ける。確認画像表示部72は、担当者端末8から指定されたアンマッチグループの投票ファイル名を照合結果テーブル12から読み出し、指定されたアンマッチグループに属する投票ファイルのイメージデータを投票テーブル11から読み出す。確認画像表示部72は、不一致文字が強調されるようにイメージデータを編集し、異体字や別名との照合をした場合には、異体字や別名をイメージデータと共に担当者端末8に送信する。一方、認識結果入力部74は、担当者の目視による確認結果(つまり、投票ファイルにおけるテキストデータについて、投票者が指示した候補者を特定する情報)を担当者端末8から取得し、該当投票ファイルに関するアンマッチフラグを「0」に設定する。
==データ構造==
次いで、データ格納部75に格納された各テーブルについて説明する。
投票ファイルデータベース10は、投票テーブル11と照合結果テーブル12とから構成される。投票テーブル11は、ファイル作成サーバ6から取得した投票ファイルを格納するテーブルである。図6(a)に示す投票テーブル11は、投票が行なわれた投票所を示す投票所コード、選挙区分等を示す投票ファイル名、手書き情報を文字変換したテキストデータ、手書き情報を画像変換したイメージデータから構成される。照合結果テーブル12は、投票ファイルを一致文字数ごとに振り分けた結果を格納するテーブルである。図6(b)に示す照合結果テーブル12は、投票所コード、投票ファイル名、照合した候補者(又は政党)の候補者コード(又は政党コード)、一致したか否かを示すアンマッチフラグ、振分処理が終了したことを示す振分済フラグから構成される。
マスタデータベース20は、アンマッチグループテーブル21と、候補者テーブル22と、政党テーブル23と、投票所テーブル24とから構成される。アンマッチグループテーブル21は、投票ファイルを一致度合いに応じてグループ分けしたアンマッチグループに関する情報を格納するテーブルである。図7(a)に示すアンマッチグループテーブル21は、アンマッチグループコード、アンマッチグループ名、そして、一致度合いに関する定義を示す定義情報から構成される。候補者テーブル22は、候補者に関する情報を格納するテーブルである。図7(b)に示す候補者テーブル22は、候補者コード、候補者名(漢字)、候補者名(ひらがな)、候補者の政党コードから構成される。政党テーブル23は、政党に関する情報を格納するテーブルである。図7(c)に示す政党テーブル23は、政党コード、政党名(漢字)、政党名(ひらがな)から構成される。投票所テーブル24は、投票所に関する情報を格納するテーブルである。図7(d)に示す投票所テーブル24は、投票所コード、投票所名、投票所住所から構成される。
開票結果データベース30は、開票結果テーブル31と、アンマッチグループ確認結果テーブル32と、集計状態テーブル33とから構成される。開票結果テーブル31は、得票数を格納するテーブルである。開票結果テーブル31は、図8(a)に示すように、候補者コード(政党コードも含む)と得票数とから構成される。アンマッチグループ確認結果テーブル32は、図8(b)に示すように、アンマッチグループコードとアンマッチグループに含まれる投票ファイルの候補者が決定したか否かを示す確認済フラグとから構成される。集計状態テーブル33は、集計処理における投票ファイルの状態を管理するためのテーブルである。集計状態テーブル33は、図8(c)に示すように、投票ファイルの投票所コード、投票ファイル名、投票ファイルが担当者端末8に表示中か否かを示す参照フラグ、投票ファイルが集計されたか否かを示す集計済フラグか構成される。
<<電子投開票システム1の処理>>
次に、電子投開票システム1の処理について説明する。電子投開票システム1の処理は大きく、(1)手書き文字の電子化処理、(2)候補者の振り分け処理、(3)集計処理の3つに分けられる。
==投票システム2の処理==
まず、図9のフローチャートを用いて、(1)手書き文字の電子化処理について説明する。
投票所では、名簿により投票者を確認すると、ドットパターンが印刷された投票用紙44と、ドットパターンを読み取る機能を備えたデジタルペン4とを配布する。投票者は、デジタルペン4を使い、候補者名や政党名を投票用紙44に記入することで投票を行なう。デジタルペン4のドットパターン読取部41は、投票用紙44に印刷されたドットパターンを読み取る(ステップA1)。投票用紙44に使用されるデジタルペーパは、例えば、小選挙区用、比例代表用等の用途別にドットパターンを予め設定している。
デジタルペン4は、読み取ったドットパターンをメモリ42に格納し(ステップA2)、通信部43は、メモリ42に格納された筆記ストローク情報を文字認識サーバ5に送信する(ステップA3)。文字認識サーバ5の筆記ストローク情報取得部51がこれを受信する。
文字認識サーバ5の筆記ストローク変換部53は、前記筆記ストローク情報をイメージデータに変換し(ステップA4)、イメージデータ変換部54は、イメージデータをテキストデータに変換し(ステップA5)、ファイルサーバ連携部55は、前記作成したイメージデータ、前記テキストデータ、変換できず判別不能となったテキスト、選挙区分をファイル作成サーバ6に送信する(ステップA6)。
ファイル作成サーバ6の投票ファイル作成部61は、イメージデータ、テキストデータを所定のファイル形式に変換し、このファイルに「選挙区分+投票所コード+通番」のような名称をつけた投票ファイルを作成する(ステップA7)。ファイル作成サーバ6の通信部65は、作成した投票ファイルを開票システム3に送信する(ステップA8)。開票システム3では受信した投票ファイルを投票テーブル11に格納しておく。
==開票システム3の処理==
<全体処理>
図10は、開票システム3の動作を説明する模式図である。開票システム3は、(2)候補者の振り分け処理と、(3)集計処理とを実行する。
開票システム3の開票サーバ7における候補者の振り分け処理では、前記振分処理部71が、投票テーブル11に格納された投票ファイルを1件ずつ読み出し、投票ファイルのテキストデータとマスタデータベース20に格納された候補者名(又は政党名)との照合処理を行う。このとき、テキストデータが候補者名(又は政党名)と完全一致した場合、候補者(又は政党)が決定したものとして、該当投票ファイルに関してアンマッチフラグ「0」を照合結果テーブル12に格納する。一方、テキストデータと候補者名(又は政党名)とが部分一致した場合、一致度合いを、該当投票ファイルに関して照合結果テーブル12に格納する。
また、開票サーバ7の集計部73が実行する集計処理では、前記照合結果テーブル12において、既に候補者(又は政党)が決定している投票ファイルを候補者(又は政党)ごとに集計して開票結果テーブル31に格納する。開票結果テーブル31に格納されたデータは、図示しない開票速報システムに送信され、ニュース等の開票速報に利用する。
一方、アンマッチフラグが「0」以外、すなわち、候補者(又は政党)が決定していない投票ファイルが照合結果テーブル12に存在する場合は、前記開票サーバ7の確認画像表示部72が、投票者の手書き文字のイメージデータを担当者端末8に送信する。また、前記認識結果入力部74が、前記担当者が担当者端末8にて目視により認識した投票者(又は政党)の情報を得て照合結果テーブル12に格納し、アンマッチフラグを「0」に設定する。前記集計処理では、ここで新たにアンマッチフラグが「0」となった候補者(又は政党)を集計する。全ての投票ファイルの集計が完了すれば開票終了となる。
<振分処理>
図11は、(2)候補者の振り分け処理詳細を説明するフローチャートである。このフローチャートでは、選挙区分が小選挙区の例を説明する。なお、比例代表の場合、候補者が政党に変わる点を除けば小選挙区の場合と手順は同じである。
開票サーバ7は、投票テーブル11に格納された投票ファイルを1件ずつ読み出す(ステップB1)。振分処理部71は、照合結果ファイルの振分済みフラグを読み出す(ステップB2)。振分済みフラグが振分済みであれば(ステップB3;YES)、ステップB12の処理を行なう。一方、振分済みでなければ(ステップB3;NO)、比較済候補者数(N)を"0"、最小アンマッチ文字数(UM)を初期値"20"に設定する(ステップB4)。
次いで、振分処理部71は、候補者テーブル22から候補者名(漢字)を読み出す。このとき、候補者テーブル22から読み出した候補者の数を全候補者数(M)に設定する(ステップB5)。振分処理部71は、投票ファイルに含まれるテキストデータと前記読み出した候補者名(漢字)とを照合し、不一致文字数をカウントする(ステップB6)。不一致文字数が最小アンマッチ文字数(UM)より小さい場合(ステップB7;YES)、不一致文字数を最小アンマッチ文字数(UM)に設定する(ステップB8)。一方、不一致文字数が最小アンマッチ文字数(UM)より大きい場合(ステップB7;NO)、比較済候補者数(N)に1を加える(ステップB9)。
次いで、振分処理部71は、比較済候補者数(N)と全候補者数(M)とを比較する(ステップB10)。比較済候補者数(N)が全候補者数(M)よりも少ない場合(ステップB10;NO)、ステップB5の処理へ戻り、他の候補者名との照合を繰り返す。一方、全候補者数(M)と比較済候補者数(N)が等しければ(ステップB10;YES)、テキストデータと一致(完全一致又は部分一致)する候補者を選択し、部分一致の場合には一致度合いに応じてアンマッチグループごと分けて照合結果テーブル12に登録する(ステップB11)。この処理を候補者選択処理と呼ぶ。候補者選択処理については、図12で後述する。
候補者選択処理が終了すると、振分処理部71は、全ての投票ファイルに振分処理を施したか否かを判定し、全ての投票ファイルに振分処理を施した場合(ステップB12;YES)、振分処理を終了する。一方、未だ振り分けていない投票ファイルが存在する場合(ステップB12;NO)、ステップB1に戻り、未だ振り分けていない投票ファイルの振分処理を行なう。
図12は、ステップB11の候補者選択処理の詳細を示す。振分処理部71は、全候補者名との照合が完了した後の最小アンマッチ文字数(UM)が「0」の場合(ステップC1;YES)、候補者名(漢字)とテキストデータが完全一致したものとして、アンマッチフラグを「0」、候補者コードを「完全一致した候補者名(漢字)に対応する候補者コード」とし(ステップC2)、照合結果テーブル12に登録する(ステップC13)。
一方、最小アンマッチ文字数(UM)が「0」であるかを判定し、最小アンマッチ文字数(UM)が「0」以外であれば(ステップC1;NO)、投票ファイルのテキストデータの文字数と最小アンマッチ文字数(UM)とを比較する(ステップC3)。テキストデータの文字数とアンマッチ文字数とが等しくない場合(ステップC3;NO)、テキストデータが部分一致したものとして、照合結果テーブル12のアンマッチフラグを「最小アンマッチ文字数UM」、候補者コードを「部分一致した候補者名(漢字)に対応する候補者コード」、振分済みフラグを「振分済み」とし(ステップC4)、照合結果テーブル12に登録する(ステップC13)。
一方、テキストデータの文字数と最小アンマッチ文字数(UM)とが等しい、すなわち、全てアンマッチであった場合(ステップC3;YES)、候補者テーブル22から候補者名(ひらがな)を読出し、候補者名(ひらがな)とテキストデータとを照合し、不一致文字数をカウントする(ステップC5)。
不一致文字数が最小アンマッチ文字数より小さい場合(ステップC6;YES)、不一致文字数を最小アンマッチ文字数(UM)に設定し(ステップC7)。次のステップC8に移る。一方、不一致文字数が最小アンマッチ文字数(UM)以上の場合(ステップC6;NO)、そのまま次のステップC8に移る。
次いで、振分処理部71は、候補者名(ひらがな)と比較した結果の最小アンマッチ文字数(UM)が「0」であるか判定し(ステップC8)、最小アンマッチ文字数(UM)が「0」の場合(ステップC8;YES)、候補者名(ひらがな)と完全一致したものとして、照合結果テーブル12のアンマッチフラグに「0」、候補者コードに「完全一致した候補者名(ひらがな)に対応する候補者コード」、振分済みフラグに「振分済み」とし(ステップC9)、照合結果テーブル12に登録する(ステップC13)。
一方、ステップC6において、最小アンマッチ文字数(UM)が「0」以外の場合(ステップC8;NO)、テキストデータの文字数と最小アンマッチ文字数(UM)とを比較する(ステップC10)。テキストデータの文字数と最小アンマッチ文字数(UM)とが等しくない場合(ステップC10;NO)、テキストデータが候補者名(ひらがな)に部分一致したものとして、照合結果テーブル12のアンマッチフラグに「最小アンマッチ文字数UM」、候補者コードに「部分一致した候補者名(ひらがな)に対応する候補者コード」、振分済みフラグに「振分済み」とし(ステップC11)、照合結果テーブル12に登録する(ステップC13)。
一方、テキストデータの文字数と最小アンマッチ文字数(UM)とが等しい場合(ステップC10;YES)、照合結果テーブル12のアンマッチフラグに「解読不可能(NULL)」、候補者コードに「不明(NULL)」、振分済みフラグに「振分済み」とし(ステップC12)、照合結果テーブル12に登録する(ステップC13)。
<集計処理>
図13は、(3)集計処理を説明するフローチャートである。集計処理は、候補者振り分け処理で得られた照合結果テーブル12を読出し、アンマッチフラグが「0」(候補者が決定している)かつ未集計のデータを候補者ごとに集計し、集計状態テーブル33の集計済みフラグを「集計済み」に設定する(ステップD1)。集計部73は、開票結果テーブル31にステップD1の集計結果を登録する(ステップD2)。アンマッチフラグが「0」以外の場合、確認画像表示部72は、担当者端末8にアンマッチグループ選択画面を送信する。担当者は、担当者端末8を操作して、アンマッチグループを選択する(ステップD3)。確認画像表示部72は、担当者端末8に手書き情報表示画面を送信する。担当者端末8は、手書き情報表示画面を表示し(ステップD4)、担当者は、目視により手書き文字から候補者を選択する。
なお、手書き情報表示画面に表示中のデータは集計状態テーブル33の該当レコードに参照フラグをたてることとする。他の担当者は、参照フラグのたったデータにアクセスできない。これは、手書き情報の認識は複数の担当者で行なうことが想定されるので、同一データへの排他制御を行なうためである。
担当者端末8は、選択された候補者コードを開票サーバ7に送信する(ステップD5)。認識結果入力部74は、担当者端末8から受信した候補者コードを照会結果テーブルに登録して、アンマッチフラグを「0」に設定する(ステップD6)。次いで、確認画像表示部72は、ステップD3で選択されたアンマッチグループに未だ決定していない投票ファイルが存在する場合(ステップD7;NO)、ステップD4に戻り、未だ決定していない投票ファイルの手書き情報を担当者端末8に表示させる。一方、ステップD3で選択されたアンマッチグループの投票ファイルの候補者を全て決定すると(ステップD7;YES)、アンマッチグループ確認結果テーブル32の確認済みフラグを「確認済み」に設定する。
次いで、確認画像表示部72は、全てのアンマッチグループを処理したか否かを判定し、未だ処理していないアンマッチグループが存在する場合(ステップD8;NO)、ステップD4に戻り、未だ処理していないアンマッチグループに属する投票ファイルの手書き情報を担当者端末8に表示させる。一方、全てのアンマッチグループを処理した場合(ステップD8;YES)、照合結果テーブル12においてアンマッチフラグが「0」かつ未集計のデータを投票者ごとに集計し、候補者ごとの得票数を開票結果テーブル31に登録する(ステップD9)。
図14(a)はグループ選択画面の一例である。図14(a)のグループ選択画面80では、アンマッチグループ名81と、各アンマッチグループが既に確認されたことを示す済マーク82が表示されている。各アンマッチグループ名81の左側には、担当者による候補者の認識を指定するチェックボックス83が設けられている。アンマッチグループを選択した状態で、「確認」ボタン84を選択すると、担当者端末8に手書き情報が表示される。また、グループ表示画面の上部には「集計開始」ボタン85と「終了」ボタン86とが設けられている。「集計開始」ボタン85を選択すると、確認済みアンマッチグループの集計を開始する。
図14(b)は手書き情報表示画面の一例である。図14(b)の手書き情報表示画面90では、投票ファイルのファイル名91と、投票ファイルに含まれる手書き情報のイメージデータ92が表示されている。また、候補者名を選択するリストボックス93、「確定」ボタン94、投票ファイルの一覧を表示する「一覧へ戻る」ボタン95、「次の候補者を表示」ボタン96が設けられている。担当者は、リストボックス93に候補者名を選択して「確定」ボタン94を選択する。ここで、担当者が「次の候補者を表示」ボタン96を選択すると、次の候補者が表示される。また、「一覧へ戻る」ボタン95を選択すると、図14(c)に示すようなファイル一覧画面100が表示される。ファイル一覧画面100には、アンマッチグループに含まれる投票ファイル名101と既に確認されたことを示す済マーク102が表示されている。
以上説明したように本実施形態におけるテキスト認識システムによれば、手書き入力情報の認識を効率化可能である。
電子投開票システムの全体構成図である。 投票システムの構成を示すブロック図である。 投票所における投票作業の流れを示す説明図である。 投票ファイルの構成を示す模式図である。 開票システムの構成を示すブロック図である。 投票データベースに含まれるテーブルの構成例である。 マスタデータベースに含まれるテーブルの構成例である。 開票結果データベースに含まれるテーブルの構成例である。 手書き文字の電子化処理を説明するフローチャートである。 開票システムの動作を説明する模式図である。 候補者振り分け処理を説明するフローチャートである。 候補者選択処理の詳細を説明するフローチャートである。 集計処理を説明するフローチャートである。 担当者端末に表示される画面例である。
符号の説明
1 投開票システム
2 投票システム
3 開票システム
4 デジタルペン
5 文字認識サーバ
6 ファイル作成サーバ
7 開票サーバ
8 担当者端末
11 投票テーブル
12 照合結果テーブル
20 マスタデータベース(テキスト記憶部)
22 候補者テーブル
23 政党テーブル
31 開票結果テーブル
41 ドットパターン読取部
44 投票用紙
51 筆記ストローク情報取得部(電子データ取得部)
52 投票用紙判別部
53 筆記ストローク変換部
54 イメージデータ変換部(テキスト変換部)
61 投票ファイル作成部
71 振分処理部
72 確認画像表示部
73 集計部
74 認識結果入力部
75 データ格納部

Claims (9)

  1. 演算装置、メモリ、インターフェイスを備えて、
    利用者の手書き情報の電子データを、外部装置から取得してメモリに格納する電子データ取得部と、
    前記メモリから前記電子データを読み出してテキストデータ列に変換し、このテキストデータ列をメモリに格納するテキスト変換部と、
    前記手書き情報の入力候補である1つ又は複数のテキストデータ列を、候補テキストデータ列として記憶するテキスト記憶部と、
    前記メモリから前記テキストデータ列を読み出して、このテキストデータ列と前記テキスト記憶部に記憶された候補テキストデータ列との照合処理を実行して、前記手書き情報に該当する入力候補を特定し、前記手書き情報を入力候補ごとに振り分けたリスト情報を生成する振分処理部と、
    を有することを特徴とするテキスト認識システム。
  2. 前記照合処理におけるテキストデータ列と候補テキストデータ列との一致度が部分一致であった場合、該当手書き情報の電子データをメモリより読み出して、イメージデータとして担当者確認用の表示装置に出力する確認画像表示部と、
    前記テキストデータ列と候補テキストデータ列との一致度が部分一致とされた手書き情報について、担当者による正確な入力候補の指定を入力インターフェイスを介して受け付ける認識結果入力部と、
    を有することを特徴とする請求項1に記載のテキスト認識システム。
  3. 前記振分処理部は、前記テキスト変換部において変換されたテキストデータ列を、前記候補テキストデータ列との一致度合いに応じてグループ分けし、
    前記確認画像表示部は、前記グループごとに前記手書き情報のイメージデータを表示させることを特徴とする請求項2に記載のテキスト認識システム。
  4. 前記テキストデータ列と候補テキストデータ列との一致度が完全一致であって、正確に認識されていると判断された前記手書き入力情報の入力件数を前記入力候補ごとに集計する集計部を有することを特徴とする請求項1〜3のいずれかに記載のテキスト認識システム。
  5. 前記確認画像表示部は、前記テキストデータ列と候補テキストデータ列との間における不一致文字と、前記テキスト変換部における前記電子データからテキストデータ列への変換が出来ない不可能文字との両方、又は何れか一方を前記表示装置において強調表示することを特徴とする請求項2に記載のテキスト認識システム。
  6. 前記入力候補の異表記を記憶する異表記記憶部を有し、
    前記確認画像表示部は、前記入力候補の異表記を、手書き情報のイメージデータとともに前記担当者確認用の表示装置に出力することを特徴とする請求項2に記載のテキスト認識システム。
  7. 前記外部装置は、ペン先の軌跡を電子データに変換するデジタルペンであることを特徴とする請求項1に記載のテキスト認識システム。
  8. 1つ又は複数の入力候補のうち、どの入力候補について手書き入力されたかを認識するコンピュータが、
    利用者の手書き情報の電子データを、外部装置から取得してメモリに格納する処理と、
    前記メモリから前記電子データを読み出してテキストデータ列に変換し、このテキストデータ列をメモリに格納する処理と、
    前記手書き情報の入力候補である1つ又は複数のテキストデータ列を、候補テキストデータ列として記憶する処理と、
    前記メモリから前記テキストデータ列を読み出して、このテキストデータ列と前記テキスト記憶部に記憶された候補テキストデータ列との照合処理を実行して、前記手書き情報に該当する入力候補を特定し、前記手書き情報を入力候補ごとに振り分けたリスト情報を生成する処理と、
    を実行することを特徴とするテキスト認識方法。
  9. 1つ又は複数の入力候補のうち、どの入力候補について手書き入力されたかを認識するコンピュータに、
    利用者の手書き情報の電子データを、外部装置から取得してメモリに格納するステップと、
    前記メモリから前記電子データを読み出してテキストデータ列に変換し、このテキストデータ列をメモリに格納するステップと、
    前記手書き情報の入力候補である1つ又は複数のテキストデータ列を、候補テキストデータ列として記憶するステップと、
    前記メモリから前記テキストデータ列を読み出して、このテキストデータ列と前記テキスト記憶部に記憶された候補テキストデータ列との照合処理を実行して、前記手書き情報に該当する入力候補を特定し、前記手書き情報を入力候補ごとに振り分けたリスト情報を生成するステップと、
    を実行させるテキスト認識プログラム。
JP2006337231A 2006-12-14 2006-12-14 テキスト認識システム、テキスト認識方法、テキスト認識プログラム Pending JP2008152357A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006337231A JP2008152357A (ja) 2006-12-14 2006-12-14 テキスト認識システム、テキスト認識方法、テキスト認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006337231A JP2008152357A (ja) 2006-12-14 2006-12-14 テキスト認識システム、テキスト認識方法、テキスト認識プログラム

Publications (1)

Publication Number Publication Date
JP2008152357A true JP2008152357A (ja) 2008-07-03

Family

ID=39654498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006337231A Pending JP2008152357A (ja) 2006-12-14 2006-12-14 テキスト認識システム、テキスト認識方法、テキスト認識プログラム

Country Status (1)

Country Link
JP (1) JP2008152357A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225002A (ja) * 2009-03-25 2010-10-07 Fuji Xerox Co Ltd 情報照合支援システム及びプログラム
JP2011154443A (ja) * 2010-01-26 2011-08-11 Hitachi Ltd 情報処理システム及びプログラム
CN112243512A (zh) * 2019-05-17 2021-01-19 株式会社日立系统 文字一致性确认系统、文字一致性确认装置、文字一致性确认方法及文字一致性确认程序

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225002A (ja) * 2009-03-25 2010-10-07 Fuji Xerox Co Ltd 情報照合支援システム及びプログラム
JP2011154443A (ja) * 2010-01-26 2011-08-11 Hitachi Ltd 情報処理システム及びプログラム
CN112243512A (zh) * 2019-05-17 2021-01-19 株式会社日立系统 文字一致性确认系统、文字一致性确认装置、文字一致性确认方法及文字一致性确认程序

Similar Documents

Publication Publication Date Title
CN109753964B (zh) 计算机以及文件识别方法
WO2019194028A1 (ja) 画像処理装置、画像処理方法、およびプログラムを記憶する記憶媒体
CN110276236B (zh) 计算机及模板管理方法
US9483220B2 (en) Image processing system, management system, image processing apparatus and method of proofreading document
US8523052B2 (en) Visualizing and auditing elections and election results
JP2008152357A (ja) テキスト認識システム、テキスト認識方法、テキスト認識プログラム
JP6842397B2 (ja) 業務支援システムおよび業務支援方法
US20030042731A1 (en) Voter individually specified and validation number sticker secured ballot and making process
JP6217407B2 (ja) 情報処理システム、情報処理装置及びプログラム
CN201111096Y (zh) 指纹识别选举装置
JP2007272563A (ja) 出席情報管理システム、出席情報管理方法、および出席情報管理プログラム
JP2020107330A (ja) 帳票登録装置及び帳票登録用プログラム
JP2023110102A (ja) 文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラム
JP4356908B2 (ja) 財務諸表自動入力装置
JP5185063B2 (ja) デジタルペンのフォーム管理システム
JP2020009323A (ja) 配達顧客管理システム
JP2013105344A (ja) 帳票処理システム及び帳票処理方法
CN114093080A (zh) 选举投票系统及投票方法
Ou et al. AI Prescription Recognition System
JP2022153722A (ja) データ集計装置およびデータ集計プログラム
JPH0635938A (ja) 選挙端末装置
JP2005242430A (ja) 書類処理システム、書類処理方法及びそのプログラム
CN113051228A (zh) 一种基于知识产权运营的专利评估系统
CN114266531A (zh) 基于数据安全和元素颗粒组合的审查案件的方法
CN113361244A (zh) 风控分析报告生成方法、装置、电子设备及存储介质