JP7285018B2 - プログラム、誤り文字検出装置及び誤り文字検出方法 - Google Patents
プログラム、誤り文字検出装置及び誤り文字検出方法 Download PDFInfo
- Publication number
- JP7285018B2 JP7285018B2 JP2021148618A JP2021148618A JP7285018B2 JP 7285018 B2 JP7285018 B2 JP 7285018B2 JP 2021148618 A JP2021148618 A JP 2021148618A JP 2021148618 A JP2021148618 A JP 2021148618A JP 7285018 B2 JP7285018 B2 JP 7285018B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- series
- character string
- erroneous
- string pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 44
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 42
- 238000000034 method Methods 0.000 description 37
- 230000003111 delayed effect Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 5
- 238000012952 Resampling Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Description
結果と分割の結果とに基づいて誤り文字を文字列パターンにおいて識別可能に表示することで、手書き入力した文字の誤りをユーザが認識し易くすることができる。
本実施形態の誤り文字検出装置(誤り文字検出方法)では、ユーザがタブレット等で筆記した、或いは、紙等に筆記してカメラ等で読み取った文字列パターン(文字、単語、語句、文など)から文字列を認識し、その正誤を判定し、1つ以上の誤り文字を検出した場合に、その誤り文字を文字列パターンにおいて識別できるように表示する。例えば、誤り文字に対応する手書き文字に下線や矢印を付して表示する(文字表示と呼ぶ)ようにしてもよいし、誤り文字に対応する筆画を他の筆画とは異なる色(強調色)で表示する(筆画表示と呼ぶ)ようにしてもよい。
図3に本実施形態の誤り文字検出装置の機能ブロック図の一例を示す。なお本実施形態の誤り文字検出装置は図1の構成要素(各部)の一部を省略した構成としてもよい。
より実現できる(オンライン方式の場合)。入力部160は、筆記媒体が筆記面に触れてから離れるまでの筆記媒体の位置を表す座標データを一定時間間隔で検出し、検出された座標データ列(座標点系列、電子インク)をストローク(筆画)のデータとして処理部100に出力する。なお、ストロークの終点から次のストロークの始点までのベクトルをオフストローク(運筆)と呼び、ストロークとオフストロークの連続する系列をストローク列と呼ぶ。なお、オフライン方式では、入力部160は、紙等に筆記された文字列を、カメラやスキャナー等で白黒画像或いは濃淡画像として読み取る。
えば、当該文字に下線を付す、当該文字の筆画を強調色で表示する)、検出された誤り文字が脱字である場合に、文字列パターンにおける脱字の箇所を識別可能に表示する(例えば、当該箇所に矢印を付す)。また、表示制御部116は、検出された誤り文字が誤字である場合に、文字列パターンにおける誤字に対応する文字の近傍に正解文字を表示し、検出された誤り文字が脱字である場合に、文字列パターンにおける脱字の箇所の近傍に正解文字を表示する。
3-1.オンライン方式
次に、図4のフローチャートを用いて、オンライン方式での処理の流れについて説明する。まず、処理部100は、入力部160で入力された文字列パターン(電子インク)を取得する(ステップS10)。図5は、電子インクの一例を画像として示した図である。電子インクは、時系列の筆画列であり、各筆画は時系列の筆点座標列で表現される。図5の各点は筆点を示し、筆記媒体が筆記面に接触している間は、それらを直線で連結して示している。
ど)、すなわち、F0=0のときは、この連続点からの特徴を除く。
文字「o」が衍字であり、7番目の文字と8番目の文字の間に脱字(正解文字「t」)があり、8番目の文字「s」が誤字(正解文字「i」)である、という誤り文字の検出結果を示している。
の横棒の筆画の後の運筆)でブロックに区切っている。図10の(c)に、ブロックへの分割を示す。図中の矩形は、それぞれ1つのブロックを示している。図10の(d)に、空白抜きトップ候補log確率系列を示す。図中の黒塗り点の位置で、トップ候補の文字が変わることを示している。ここでは、1つ目のブロック内の「a」のピークと「f」のピークの間(図中の実線)に他の文字が1つあるため、「a」のX軸への射影と「f」のX軸への射影が挟む区間の中央に区切り線(図中の1点鎖線)を入れている。また、3つ目のブロック内の「e」のピークと「r」のピークの間(図中の実線)には他の文字がないため、「e」のピークと「r」のピーク間の中央に区切り線を入れている。図10の(e)に、文字分割の結果を示す。1番目のブロックと2番目のブロックがそれぞれ区切り線で2つの文字に分割されている。図中の矩形は、それぞれ1つの文字の筆画(1つの文字パターン)に対応している。
で表示し当該筆画の下側に下線を付している。また、図14の上から3番目の例では、入力された文字列パターンから認識した文字列「grocerry」において6番目の文字が衍字であることが検出されたため、当該文字列パターンの分割の結果を用いて、6番目の文字「r」に対応する筆画を特定し、当該筆画を強調色で表示し当該筆画の下側に下線を付している。また、図14の上から4番目の例では、入力された文字列パターンから認識した文字列「belerve」において4番目の文字が誤字(正解文字「i」)であり5番目の文字が誤字(正解文字「e」)であることが検出されたため、当該文字列パターンの分割の結果を用いて、4番目の文字「e」に対応する筆画を特定し、当該筆画を強調色で表示し当該筆画の下側に下線を付すとともに、当該筆画の下側に正解文字「i」を強調色で表示し、5番目の文字「r」に対応する筆画を特定し、当該筆画を強調色で表示し当該筆画の下側に下線を付すとともに、当該筆画の下側に正解文字「e」を強調色で表示している。
次に、図15のフローチャートを用いて、オフライン方式での処理の流れについて説明する。なお、図4のフローチャート(オンライン方式)と同様の処理については適宜説明を省略する。まず、処理部100は、入力部160で入力された文字列パターン(紙等に筆記された文字列をカメラ等で読み取った画像情報)を取得する(ステップS30)。
い。確信度は、文字認識における認識スコア(確からしさ)、確率、疑似確率などから求めることができる。例えば、誤った文字の候補が第一位で、その認識スコアが閾値T1以上である場合には強調色を濃い赤色とし、認識スコアが閾値T1未満で閾値T2(T2<T1)以上である場合には強調色を中ぐらいの濃さの赤色とし、認識スコアが閾値T2未満である場合には強調色を薄い赤色とする。或いは、誤った文字の候補であるが、その認識スコアと正解文字の認識スコアの差が閾値D1以上である場合には強調色を濃い赤色とし、認識スコアの差が閾値D1未満で閾値D2(D2<D1)以上である場合には強調色を中ぐらいの濃さの赤色とし、認識スコアの差が閾値D2未満である場合には強調色を薄い赤色とするようにしてもよい。図19に、誤り訂正の表示における確信度による強調色の色調整の一例を示す。図19の上側の例では、誤り文字である候補「i」の確信度(Confident)が高いため、正解文字「a」を濃い赤色で表示し、下側の例では、誤り文字である候補「e」の確信度(Confident)が低いため、正解文字「c」を薄い赤色で表示している。
Claims (7)
- 手書き入力された文字列パターンから文字列を認識する認識部と、
認識された文字列における誤り文字を検出する誤り検出部と、
前記文字列パターンを文字毎に分割する分割部と、
前記誤り検出部による誤り文字の検出結果と前記分割部による分割の結果とに基づいて、検出された誤り文字の前記文字列パターンにおける位置を特定し、検出された誤り文字を前記文字列パターンにおいて識別可能に表示する表示制御部と、
前記文字列パターンから特徴を抽出する特徴抽出部としてコンピュータを機能させ、
前記認識部は、
抽出された時系列又は空間系列の特徴系列から候補文字クラスとその確率を求め、時系列又は空間系列の候補文字クラスとその確率から認識結果の文字列を決定し、
前記分割部は、
時系列又は空間系列の候補文字クラスとその確率に基づいて、候補文字クラス第一位の確率の系列を求め、当該系列におけるピークの位置に基づいて、前記文字列パターンを分割することを特徴とするプログラム。 - 請求項1において、
前記表示制御部は、
検出された誤り文字が誤字又は衍字である場合に、前記文字列パターンにおける誤字又は衍字に対応する文字を識別可能に表示することを特徴とするプログラム。 - 請求項1又は2において、
前記表示制御部は、
検出された誤り文字が脱字である場合に、前記文字列パターンにおける脱字の箇所を識別可能に表示することを特徴とするプログラム。 - 請求項1乃至3のいずれか1項において、
前記表示制御部は、
検出された誤り文字が誤字である場合に、前記文字列パターンにおける誤字に対応する
文字の近傍に正解文字を表示することを特徴とするプログラム。 - 請求項1乃至4のいずれか1項において、
前記表示制御部は、
検出された誤り文字が脱字である場合に、前記文字列パターンにおける脱字の箇所の近傍に正解文字を表示することを特徴とするプログラム。 - 手書き入力された文字列パターンから文字列を認識する認識部と、
認識された文字列における誤り文字を検出する誤り検出部と、
前記文字列パターンを文字毎に分割する分割部と、
前記誤り検出部による誤り文字の検出結果と前記分割部による分割の結果とに基づいて、検出された誤り文字の前記文字列パターンにおける位置を特定し、検出された誤り文字を前記文字列パターンにおいて識別可能に表示する表示制御部と、
前記文字列パターンから特徴を抽出する特徴抽出部とを含み、
前記認識部は、
抽出された時系列又は空間系列の特徴系列から候補文字クラスとその確率を求め、時系列又は空間系列の候補文字クラスとその確率から認識結果の文字列を決定し、
前記分割部は、
時系列又は空間系列の候補文字クラスとその確率に基づいて、候補文字クラス第一位の確率の系列を求め、当該系列におけるピークの位置に基づいて、前記文字列パターンを分割することを特徴とする誤り文字検出装置。 - 手書き入力された文字列パターンから文字列を認識する認識ステップと、
認識された文字列における誤り文字を検出する誤り検出ステップと、
前記文字列パターンを文字毎に分割する分割ステップと、
前記誤り検出ステップでの誤り文字の検出結果と前記分割ステップでの分割の結果とに基づいて、検出された誤り文字の前記文字列パターンにおける位置を特定し、検出された誤り文字を前記文字列パターンにおいて識別可能に表示する表示制御ステップと、
前記文字列パターンから特徴を抽出する特徴抽出ステップとを含み、
前記認識ステップでは、
抽出された時系列又は空間系列の特徴系列から候補文字クラスとその確率を求め、時系列又は空間系列の候補文字クラスとその確率から認識結果の文字列を決定し、
前記分割ステップでは、
時系列又は空間系列の候補文字クラスとその確率に基づいて、候補文字クラス第一位の確率の系列を求め、当該系列におけるピークの位置に基づいて、前記文字列パターンを分割することを特徴とする誤り文字検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021148618A JP7285018B2 (ja) | 2021-09-13 | 2021-09-13 | プログラム、誤り文字検出装置及び誤り文字検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021148618A JP7285018B2 (ja) | 2021-09-13 | 2021-09-13 | プログラム、誤り文字検出装置及び誤り文字検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023041318A JP2023041318A (ja) | 2023-03-24 |
JP7285018B2 true JP7285018B2 (ja) | 2023-06-01 |
Family
ID=85641321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021148618A Active JP7285018B2 (ja) | 2021-09-13 | 2021-09-13 | プログラム、誤り文字検出装置及び誤り文字検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7285018B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009163009A (ja) | 2008-01-07 | 2009-07-23 | Fujitsu Ltd | 学習支援システム、プログラムおよび学習支援方法 |
JP2009276709A (ja) | 2008-05-19 | 2009-11-26 | Fujitsu Ltd | 学習支援システム、プログラムおよび学習支援方法 |
US20140245137A1 (en) | 2013-02-22 | 2014-08-28 | Samsung Electronics Co., Ltd. | Method and apparatus for making contents through writing input on touch screen |
CN104063176A (zh) | 2014-06-25 | 2014-09-24 | 哈尔滨工业大学深圳研究生院 | 手写序列可编辑的连续手写输入方法与系统 |
-
2021
- 2021-09-13 JP JP2021148618A patent/JP7285018B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009163009A (ja) | 2008-01-07 | 2009-07-23 | Fujitsu Ltd | 学習支援システム、プログラムおよび学習支援方法 |
JP2009276709A (ja) | 2008-05-19 | 2009-11-26 | Fujitsu Ltd | 学習支援システム、プログラムおよび学習支援方法 |
US20140245137A1 (en) | 2013-02-22 | 2014-08-28 | Samsung Electronics Co., Ltd. | Method and apparatus for making contents through writing input on touch screen |
CN104063176A (zh) | 2014-06-25 | 2014-09-24 | 哈尔滨工业大学深圳研究生院 | 手写序列可编辑的连续手写输入方法与系统 |
Non-Patent Citations (2)
Title |
---|
Victor Carbune et al.,Fast multi-language LSTM-based online handwriting recognition,International Journal on Document Analysis and Recognition (IJDAR),Vol.23, No.2,2020年02月08日,p.89-102 |
高橋 諒ほか,Bidirectional LSTMを用いた誤字脱字検出システム,2019年度人工知能学会全国大会論文集,2019年,第33回,3C4-J-9-03 |
Also Published As
Publication number | Publication date |
---|---|
JP2023041318A (ja) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10664695B2 (en) | System and method for managing digital ink typesetting | |
Sabbour et al. | A segmentation-free approach to Arabic and Urdu OCR | |
CN106663189B (zh) | 用于叠加的笔迹的识别技术的系统和方法 | |
CN109919147A (zh) | 服装吊牌图像中文本识别的方法 | |
US8615131B2 (en) | Online Arabic handwriting recognition | |
EP1564675B1 (en) | Apparatus and method for searching for digital ink query | |
KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
US20100246964A1 (en) | Recognizing handwritten words | |
KR20180077152A (ko) | 핸드라이팅 입력을 가이드하는 시스템 및 방법 | |
US20060206307A1 (en) | Language processing device, language processing method and language processing program | |
Alghamdi et al. | Printed Arabic script recognition: A survey | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
JP2023043910A (ja) | 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム | |
Al Sayed et al. | Survey on handwritten recognition | |
US20120281919A1 (en) | Method and system for text segmentation | |
JP7285018B2 (ja) | プログラム、誤り文字検出装置及び誤り文字検出方法 | |
US20240231582A9 (en) | Modifying digital content including typed and handwritten text | |
JP2018518755A (ja) | 重畳手書き入力認識技術のためのシステム及び方法 | |
JP4087191B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
KR20060046392A (ko) | 아시아 언어들을 위한 수기 입력 | |
JP7095450B2 (ja) | 情報処理装置、文字認識方法、および文字認識プログラム | |
JP2984170B2 (ja) | オンライン手書き文字認識装置 | |
Henke | Building and improving an OCR classifier for Republican Chinese newspaper text | |
JP3128357B2 (ja) | 文字認識処理装置 | |
US20240078377A1 (en) | Completing typeset characters using handwritten strokes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230502 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230515 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7285018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |