JP6131765B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP6131765B2 JP6131765B2 JP2013163050A JP2013163050A JP6131765B2 JP 6131765 B2 JP6131765 B2 JP 6131765B2 JP 2013163050 A JP2013163050 A JP 2013163050A JP 2013163050 A JP2013163050 A JP 2013163050A JP 6131765 B2 JP6131765 B2 JP 6131765B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- correction
- character string
- instruction
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/96—Management of image or video recognition tasks
Description
請求項1の発明は、複数の修正命令を格納する格納手段と、前記格納手段に格納された修正命令を解釈する解釈手段と、前記解釈手段によって解釈された修正命令に従って、認識文字列を修正する修正手段を具備し、前記解釈手段は、前記修正命令の種類を判別し、該修正命令の種類に応じて、該修正命令の対象となる1つ以上の文字によって構成される第1の文字列と該第1の文字列の一部又は全部の変換後の第2の文字列を抽出し、前記修正手段は、前記第1の文字列が前記認識文字列内に存在する場合に、該認識文字列内の該第1の文字列の一部又は全部を前記第2の文字列に変換し、前記修正命令として、認識結果としての文字候補の追加命令を含み、前記修正命令が文字候補の追加命令である場合は、前記第1の文字列として対象文字と該対象文字の前後の文字を含む文字列を抽出し、前記第2の文字列として該対象文字の認識候補として付加する文字を抽出することを特徴とする情報処理装置である。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
文書画像中の文字部分を特定し、それを認識して文字コードに変換する文字認識技術が知られている。
現状の文字認識技術では、予め文字として切出された状態の単体文字(以降の説明では単文字と表記)や活字原稿などでは比較的高い文字認識精度で文字を認識できる。
しかし、複雑なレイアウトで表現された原稿や手書き文書などでは、単文字切出しのミスや手書き文字品質のばらつき(文字サイズや文字ピッチのばらつき)などの原因により文字認識精度が大きく低下し、誤認識される文字が増加する傾向がある。
そこで、文字認識技術における誤認識文字の検出及び修正を行う技術が必要になる。
修正命令格納モジュール130は、修正命令解釈モジュール140と接続されている。修正命令格納モジュール130は、複数の修正命令を格納している。具体的には、修正命令格納モジュール130は、文字列に対する複数の修正方法を格納している。修正方法として、例えば、文字の統合命令、文字の分離命令、文字の置換命令、文字候補の追加命令のうち、いずれか1つ又はこれらの組み合わせがある。ここで修正命令は文字列の修正方法を表した修正コマンドとその修正コマンドに必要な修正パラメータで構成されている。さらに同じ修正命令には付随する修正パラメータが異なるものが複数ある構成となる。また修正コマンドの修正パラメータは、複数の文字コードで構成された文字コードパターン、又は予め定められた文字コードの範囲を規定する文字コード群などがある。なお修正コマンドとその修正パラメータに関しては後述する。
具体的には、修正命令解釈モジュール140では、修正命令格納モジュール130に格納されている複数種の修正命令の中から、どの修正命令を適用するか判断し、修正コマンドと必要な修正パラメータ(前述の第1の文字列、第2の文字列)を取得する。ここでの判断としては、予め定められた順番で修正命令を適用すること、修正命令間の組み合わせが不適当であるか否かを判断する等がある。
修正命令が文字の統合命令である場合は、第1の文字列として複数文字の列を抽出し、第2の文字列として1つの文字を抽出する。図13(a)の例に示すように、文字1310、文字1312と連続している文字列を文字1314に統合する。なお、2文字以上を対象とする場合、この命令を複数回適用すればよい。
修正命令が文字の分離命令である場合は、第1の文字列として1つの文字を抽出し、第2の文字列として複数文字の列を抽出する。図13(b)の例に示すように、文字1320の1文字を文字1322、文字1324の2文字に分離する。なお、3文字以上に分離する場合は、この命令を複数回適用すればよい。
修正命令が文字の置換命令である場合は、第1の文字列として対象文字とその対象文字の前後の文字を含む文字列を抽出し、第2の文字列として置換文字とその前後の文字列を抽出する。なお、第2の文字列内の前後の文字列は、第1の文字列内の前後の文字列と同じである。図13(c)の例に示すように、文字1330、文字1332、文字1334(対象としている文字1332と前後の文字である文字1330、文字1334)を、文字1330、文字1336、文字1334(対象としている文字1332を文字1336)に置換する。
修正命令が文字候補の追加命令である場合は、第1の文字列として対象文字と該対象文字の前後の文字を含む文字列を抽出し、第2の文字列としてその対象文字の認識候補として付加する文字を抽出する。図13(d)の例に示すように、文字1340、文字1342、文字1344(対象としている文字1342と前後の文字である文字1340、文字1344)の場合に、対象である文字1342の認識候補として、文字1346を追加する。文字候補を追加するのは、文字認識モジュール110が行う文字認識処理は、認識文字列115として、各文字画像に対する認識候補として予め定められた数の認識候補(例えば1文字だけ)を出力する場合に、誤認識となりやすい文字に対して候補文字を追加するものである。例えば、修正認識文字列155を最終的な修正結果とするものではなく、修正認識文字列155をさらに言語処理(例えば、形態素解析等の言語辞書とのマッチング処理)による修正を施す場合のために、文字認識の結果である文字候補を追加するようにしてもよい。
なお、修正命令解釈モジュール140による解釈処理の対象としては、文字の統合命令、文字の分離命令、文字の置換命令、文字候補の追加命令のうち、いずれか1つ又はこれらの組み合わせ(例えば、文字の統合命令と文字の分離命令の組み合わせ、文字の置換命令と文字候補の追加命令の組み合わせ等)がある。
そして、合致するときは、対応する統合命令、分離命令のいずれかを削除するようにしてもよい。又は、1つの認識文字列115に対して、統合命令による修正を行わせた修正認識文字列155と、分離命令による修正を行わせた修正認識文字列155を生成するようにしてもよい。その結果、修正結果として、2つの文字列(統合命令を行った文字列と分離命令を行った文字列)を出力することとなる。もちろんのことながら、対応する統合命令、分離命令が複数組ある場合は、修正命令、分離命令の組み合わせの数の修正命令列を生成する。その結果、その組み合わせの数の修正認識文字列155を出力することになる。
つまり、修正命令実行モジュール150は、取得された修正コマンドとその修正パラメータに基づいて、認識文字列115内に該当する修正が必要な文字列が存在するか判定し、存在する場合は修正コマンドとその修正パラメータに従って修正する。
ステップS204では、修正命令解釈モジュール140は、ステップS202で選択された修正命令の修正コマンドを解釈する。修正コマンドは先に述べたように文字列の修正方法(前述の文字の統合命令、文字の分離命令、文字の置換命令、文字候補の追加命令)を表したものである。またここで言う解釈とは、修正コマンドが上記のどの修正方法を表すコマンドかを判定することである。また、その修正命令に応じた修正パラメータも抽出する。
ステップS206では、修正命令実行モジュール150は、文字認識モジュール110から入力された認識文字列115から修正文字列候補を選択する。
ステップS210では、修正命令実行モジュール150は、修正文字列候補が、修正命令実行モジュール150が取得した修正パラメータに合致するか否かを判断する。合致する場合は、処理をステップS214に移し、修正命令実行モジュール150は、修正命令解釈モジュール140で解釈された修正コマンドが表す修正方法に従って修正文字列候補を修正する。合致しない場合は、ステップS212に処理を移す。
ステップS212では、修正命令実行モジュール150は、修正命令解釈モジュール140で解釈した修正コマンドの異なる全修正パラメータを取得して修正文字列候補との合致判断を行ったかを判定する。全修正パラメータを取得して合致判断済みであれば処理をステップS216に移す。そうでなければステップS208に処理を戻して、次の修正パラメータに関して、ステップS208及びステップ210の処理を繰り返す。
ステップS218では、修正命令実行モジュール150は、修正命令格納モジュール130に格納されている全ての修正命令の処理が終了したかどうかを判定する。全ての修正命令が終了していれば文字認識モジュール110から入力された認識文字列115に対する修正認識文字列155を出力する。未処理の修正命令がある場合は、ステップS202に処理を移し、次の修正命令に関してステップS202からステップS216までの処理を繰り返す。
図3は修正命令の1つである「統合命令」の具体例であり、図3(A)に示す“CORRECT_MERGE”が修正コマンドを表し、図3(B)に示す文字コード列“0x30a3 0x4e4d 0x4f5c”が修正コマンド“CORRECT_MERGE”に必要な修正パラメータを示す。ここでは、“0x30a3 0x4e4d”が第1の文字列となり、“0x4f5c”が第2の文字列となる。図3に示す「統合命令」は、「文字コード0x30a3(ィ)と、文字コード0x4e4d(乍)が並んでいれば一つの文字コード0x4f5c(作)に統合する」という修正を実行することを表す。なお、すでに述べたように修正コマンド“CORRECT_MERGE”に対する修正パラメータは図3(B)に示す文字コード列のみではなく、例えば図4に示すように、図4(A)の“0x30a3 0x30d2 0x5316”(つまり、「文字コード0x30a3(ィ)と文字コード0x30d2(ヒ)が並んでいれば一つの文字コード0x5316(化)に統合する」)、図4(B)“0x30b7 0x4e3b 0x6ce8”(つまり、「文字コード0x30b7(シ)と文字コード0x4e3b(主)が並んでいれば一つの文字コード0x6ce8(注)に統合する」)など修正命令格納モジュール130には複数格納するように実現されている。
以下で説明する第2の実施の形態は、認識文字列補正モジュール120と修正命令を分離して、認識文字列補正モジュール120自身に変更を加えることなく修正命令の追加/削除が可能な構成である。
図7は、第2の実施の形態の構成例についての概念的なモジュール構成図である。なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する(以下、同様)。修正命令受付モジュール730は、修正命令解釈モジュール140、修正命令データ710と接続されている。
図7の例に示すように、第2の実施の形態における文字認識装置は、第1の実施の形態と同様に文字認識モジュール110と認識文字列補正モジュール120とで構成されるが、第2の実施の形態における認識文字列補正モジュール120は、外部の修正命令データ710から修正命令を入力する修正命令受付モジュール730と、受け付けた修正命令を解釈する修正命令解釈モジュール140と、解釈された修正命令を文字認識モジュール110から入力された認識文字列115に対して実行する修正命令実行モジュール150から構成される。ここで、修正命令解釈モジュール140ならびに修正命令実行モジュール150は本発明の第1の実施の形態で説明したものと同様である。
ステップS802では、修正命令受付モジュール730は、修正命令データ710から修正命令を受け付ける。
ステップS804では、修正命令解釈モジュール140は、受け付けた修正命令を解釈する。つまり、修正命令解釈モジュール140は修正命令データ710内の修正コマンドがどの修正方法を表すコマンドかを判定し、付随する修正パラメータを取得する。
ステップS806では、修正命令実行モジュール150は、文字認識モジュール110から入力された認識文字列115から修正文字列候補を選択する。
ステップS812では、修正命令実行モジュール150は、入力された認識文字列115に関して修正文字列候補全てを処理したかを判定する。未処理の修正文字列候補があれば処理をステップS806に移し、新たな修正文字列候補に対してステップS806からステップS810の処理を繰り返す。全ての修正文字列候補を処理した場合はステップS814に処理を移す。
ステップS814では、修正命令実行モジュール150は、全ての修正命令データ710の処理が終了したかどうかを判定する。全ての修正命令データ710の処理が終了していれば文字認識モジュール110から入力された認識文字列115に対する修正認識文字列155を出力する。未処理の修正命令データ710がある場合は、ステップS802に処理を移し、次の修正命令データ710に関してステップ802からステップS812までの処理を繰り返す。
第2の実施の形態においては、修正命令データ710を認識文字列補正モジュール120の外部に設置し、認識文字列補正モジュール120と修正命令を分離することで、認識文字列補正モジュール120を変更することなく修正命令の追加/削除を可能とする。これにより新規の誤認識修正への対応が容易となる。
図10は、第3の実施の形態の構成例についての概念的なモジュール構成図である。認識文字列補正モジュール120は、修正命令受付モジュール1020、修正命令記憶モジュール1030、修正命令解釈モジュール140、修正命令実行モジュール150を有している。修正命令受付モジュール1020は、修正命令記憶モジュール1030、修正命令リスト1010と接続されている。修正命令記憶モジュール1030は、修正命令解釈モジュール140、修正命令受付モジュール1020と接続されている。
図10に示すように、第3の実施の形態は、第1の実施の形態と同様に文字認識モジュール110と認識文字列補正モジュール120は接続されているが、第3の実施の形態における認識文字列補正モジュール120は、外部ファイルである修正命令リスト1010を受け付ける修正命令受付モジュール1020と、前記修正命令受付モジュール1020で受け付けられた修正命令リスト1010を予め定められたデータ構造に基づいて記憶する修正命令記憶モジュール1030と、受け付けられた修正命令を解釈する修正命令解釈モジュール140と、解釈された修正命令を文字認識モジュール110から入力された認識文字列115に対して実行する修正命令実行モジュール150から構成される。
修正命令記憶モジュール1030は、予め定められたデータ形式に基づいて、修正命令を記憶する。修正命令記憶モジュール1030におけるデータ形式は、例えば単に修正コマンド及び修正パラメータを図9に例示したような単純なリストデータ構造でもよいが、修正命令の数が非常に多い場合には、ハッシュ構造のような検索効率のよいデータ構造を用いるのが好ましい。
ステップS1104では、修正命令解釈モジュール140は、キーにヒットする修正コマンドが存在する場合はステップS1108に処理を移し、キーにヒットする修正コマンドがない場合は、次の認識文字へ対象を移し(ステップS1106)、ステップS1102の処理を繰り返す。
ステップS1110では、修正命令解釈モジュール140は、選択された修正コマンドを解釈する。つまり、修正命令解釈モジュール140は、修正コマンドがどの修正方法を表すコマンドかを判定し、修正命令記憶モジュール1030に記憶されている修正コマンドに紐付けされた修正パラメータを取得する。
ステップS1112では、修正命令実行モジュール150は、文字認識モジュール110から入力された認識文字列115から、ステップS1110で解釈された修正コマンドに必要な修正文字列候補を選択する。
ステップS1118では、修正命令実行モジュール150は、入力された認識文字列115に関して修正文字列候補全てを処理したかを判定する。未処理の修正文字列候補があれば、次の認識文字へ対象を移し(ステップS1106)、処理をステップS1102に移してステップS1102からステップS1116までの処理を繰り返す。全ての修正文字列候補を処理した場合はステップS1120に処理を移す。
ステップS1120では、修正命令実行モジュール150は、認識文字列115に必要な全ての修正命令の処理が終了したかどうかを判定する。全ての修正命令データ処理が終了していれば文字認識モジュール110から入力された認識文字列115に対する修正認識文字列155を出力する。未処理の修正命令がある場合は、再度、認識文字列115の先頭へ対象を移し(ステップS1122)、ステップS1102からステップS1118までの処理を繰り返す。
図12に示す修正命令リスト1010の具体例では、リストの先頭行と最終行に「START」、「END」が記述されている。先頭行の「START」はこれ以降の記述が修正命令リスト本体であることを示し、これ以前の記述は参照しないことを示す。また最終行の「END」はこれ以前の記述が修正命令リスト本体であることを示し、これ以降の記述は参照しないことを示す。例えば「START」以前あるいは「END」以降に本修正命令リストのバージョンや修正命令リスト本体の記述方法などユーザーに有益な情報を記述するようにする。
「START」と「END」に囲まれた部分が修正命令リスト本体であり、各行に「修正コマンド」とそれに必要な「修正パラメータ」が記述されている。例えば、以下のような修正命令がある。(「イ」、「ヒ」の2文字を「化」に統合する)、(「イ」、「壬」の2文字を「任」に統合する)、(「イ」、「左」の2文字を「佐」に統合する)、(「イ」、「右」の2文字を「佑」に統合する)、(「イ」、「乍」の2文字を「作」に統合する)、(「シ」、「主」の2文字を「注」に統合する)、(「シ」、「隼」の2文字を「準」に統合する)、(「シ」、「皮」の2文字を「波」に統合する)、(「シ」、「舌」の2文字を「活」に統合する)、(「シ」、「凡」の2文字を「汎」に統合する)、(「シ」、「太」の2文字を「汰」に統合する)、(「シ」、「及」の2文字を「汲」に統合する)、(「シ」、「屯」の2文字を「沌」に統合する)、(「シ」、「中」の2文字を「沖」に統合する)、(「シ」、「少」の2文字を「沙」に統合する)、(「シ」、「尺」の2文字を「沢」に統合する)、(「シ」、「末」の2文字を「沫」に統合する)、(「ネ」、「ツ」、「ト」の3文字を「ネット」に置換する)等がある。
第3の実施の形態における修正命令受付モジュール1020は、「START」及び「END」に囲まれた各行を読み込み、修正命令記憶モジュール1030に予め定められたデータ構造(例えば、ハッシュ構造)に変換して記憶させる。
第3の実施の形態においては、修正命令リスト1010を認識文字列補正モジュール120の外部に設置し、認識文字列補正モジュール120と修正命令を分離することで、認識文字列補正モジュール120を変更することなく修正命令の追加/削除を可能とする。これにより新規の誤認識修正への対応が容易となる。さらには修正命令の数が増大した場合においても、修正命令記憶モジュール1030に予め定められたデータ構造で修正命令を保持することで誤認識修正の処理時間の増加を抑えることが可能となる。
文字の統合命令、文字の分離命令、文字の置換命令、文字候補の追加命令のうち、予め定められた種類の修正命令を最初に行うようにしてもよい。例えば、文字候補の追加命令を行った後に、他の修正命令を行うようにしてもよい。つまり、文字候補の追加命令を行った場合の文字列(対象の文字を追加された文字に置換した文字列)を、別の認識文字列115として認識文字列補正モジュール120による処理を行うようにしてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…認識文字列補正モジュール
130…修正命令格納モジュール
140…修正命令解釈モジュール
150…修正命令実行モジュール
710…修正命令データ
730…修正命令受付モジュール
1010…修正命令リスト
1020…修正命令受付モジュール
1030…修正命令記憶モジュール
Claims (5)
- 複数の修正命令を格納する格納手段と、
前記格納手段に格納された修正命令を解釈する解釈手段と、
前記解釈手段によって解釈された修正命令に従って、認識文字列を修正する修正手段
を具備し、
前記解釈手段は、前記修正命令の種類を判別し、該修正命令の種類に応じて、該修正命令の対象となる1つ以上の文字によって構成される第1の文字列と該第1の文字列の一部又は全部の変換後の第2の文字列を抽出し、
前記修正手段は、前記第1の文字列が前記認識文字列内に存在する場合に、該認識文字列内の該第1の文字列の一部又は全部を前記第2の文字列に変換し、
前記修正命令として、認識結果としての文字候補の追加命令を含み、
前記修正命令が文字候補の追加命令である場合は、前記第1の文字列として対象文字と該対象文字の前後の文字を含む文字列を抽出し、前記第2の文字列として該対象文字の認識候補として付加する文字を抽出する
ことを特徴とする情報処理装置。 - 前記修正命令として、文字の統合命令、文字の分離命令を含み、
前記解釈手段は、前記修正命令が文字の統合命令である場合は、前記第1の文字列として複数文字の列を抽出し、前記第2の文字列として1つの文字を抽出し、
前記修正命令が文字の分離命令である場合は、前記第1の文字列として1つの文字を抽出し、前記第2の文字列として複数文字の列を抽出する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記修正命令として、文字の置換命令を含み、
前記解釈手段は、前記修正命令が文字の置換命令である場合は、前記第1の文字列として対象文字と該対象文字の前後の文字を含む文字列を抽出し、前記第2の文字列として置換文字と該前後の文字列を抽出する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記解釈手段は、前記修正命令として、前記文字の統合命令と前記文字の分離命令がある場合であって、前記文字の統合命令における第2の文字列と前記文字の分離命令における第1の文字列とが合致するか否かを判断する
ことを特徴とする請求項2又は請求項2に従属する請求項3に記載の情報処理装置。 - コンピュータを、
複数の修正命令を格納する格納手段と、
前記格納手段に格納された修正命令を解釈する解釈手段と、
前記解釈手段によって解釈された修正命令に従って、認識文字列を修正する修正手段
として機能させ、
前記解釈手段は、前記修正命令の種類を判別し、該修正命令の種類に応じて、該修正命令の対象となる1つ以上の文字によって構成される第1の文字列と該第1の文字列の一部又は全部の変換後の第2の文字列を抽出し、
前記修正手段は、前記第1の文字列が前記認識文字列内に存在する場合に、該認識文字列内の該第1の文字列の一部又は全部を前記第2の文字列に変換し、
前記修正命令として、認識結果としての文字候補の追加命令を含み、
前記修正命令が文字候補の追加命令である場合は、前記第1の文字列として対象文字と該対象文字の前後の文字を含む文字列を抽出し、前記第2の文字列として該対象文字の認識候補として付加する文字を抽出する
ことを特徴とする情報処理プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013163050A JP6131765B2 (ja) | 2013-08-06 | 2013-08-06 | 情報処理装置及び情報処理プログラム |
US14/189,263 US20150043832A1 (en) | 2013-08-06 | 2014-02-25 | Information processing apparatus, information processing method, and computer readable medium |
CN201410083844.7A CN104346611A (zh) | 2013-08-06 | 2014-03-07 | 信息处理设备以及信息处理方法 |
KR1020140035063A KR101790544B1 (ko) | 2013-08-06 | 2014-03-26 | 정보 처리 장치, 정보 처리 방법, 및 기억 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013163050A JP6131765B2 (ja) | 2013-08-06 | 2013-08-06 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015032239A JP2015032239A (ja) | 2015-02-16 |
JP6131765B2 true JP6131765B2 (ja) | 2017-05-24 |
Family
ID=52448730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013163050A Expired - Fee Related JP6131765B2 (ja) | 2013-08-06 | 2013-08-06 | 情報処理装置及び情報処理プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150043832A1 (ja) |
JP (1) | JP6131765B2 (ja) |
KR (1) | KR101790544B1 (ja) |
CN (1) | CN104346611A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6551968B2 (ja) * | 2015-03-06 | 2019-07-31 | 国立研究開発法人情報通信研究機構 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
EP3734486A1 (de) * | 2019-05-03 | 2020-11-04 | Comforte AG | Computerimplementiertes verfahren zum ersetzen eines datenstrings |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5020117A (en) * | 1988-01-18 | 1991-05-28 | Kabushiki Kaisha Toshiba | Handwritten character string recognition system |
JPH05346970A (ja) * | 1991-04-04 | 1993-12-27 | Fuji Xerox Co Ltd | 文書認識装置 |
US5377281A (en) * | 1992-03-18 | 1994-12-27 | At&T Corp. | Knowledge-based character recognition |
JPH06290299A (ja) * | 1993-04-06 | 1994-10-18 | Matsushita Electric Ind Co Ltd | 文字入力装置 |
JPH07192096A (ja) * | 1993-12-27 | 1995-07-28 | Sharp Corp | オンライン手書き文字認識装置 |
US6026177A (en) * | 1995-08-29 | 2000-02-15 | The Hong Kong University Of Science & Technology | Method for identifying a sequence of alphanumeric characters |
US6246794B1 (en) * | 1995-12-13 | 2001-06-12 | Hitachi, Ltd. | Method of reading characters and method of reading postal addresses |
JPH09288718A (ja) * | 1996-04-19 | 1997-11-04 | Canon Inc | 文字処理装置及びその方法 |
TW421764B (en) * | 1996-05-21 | 2001-02-11 | Hitachi Ltd | Input character string estimation and identification apparatus |
JP3246432B2 (ja) * | 1998-02-10 | 2002-01-15 | 株式会社日立製作所 | 宛名読取り装置および郵便物等区分機 |
JP3954246B2 (ja) * | 1999-08-11 | 2007-08-08 | 独立行政法人科学技術振興機構 | 文書処理方法、文書処理プログラムを記録した記録媒体及び文書処理装置 |
JP2002236876A (ja) * | 2001-02-09 | 2002-08-23 | Canon Inc | 解析方法及び解析装置 |
JP4245820B2 (ja) * | 2001-03-16 | 2009-04-02 | 株式会社リコー | 文字認識装置、文字認識方法および記録媒体 |
JP4006239B2 (ja) * | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
JP2006031299A (ja) * | 2004-07-15 | 2006-02-02 | Hitachi Ltd | 文字認識方法、文字データの修正履歴処理方法およびシステム |
JP4437469B2 (ja) * | 2005-12-09 | 2010-03-24 | 株式会社トーショー | 処方箋受付装置 |
CN101770569A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 基于ocr的菜名识别方法 |
JP5434586B2 (ja) * | 2009-12-29 | 2014-03-05 | オムロン株式会社 | 単語認識方法および単語認識用のプログラムならびに情報処理装置 |
JP5729260B2 (ja) * | 2011-11-01 | 2015-06-03 | 富士通株式会社 | 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法 |
-
2013
- 2013-08-06 JP JP2013163050A patent/JP6131765B2/ja not_active Expired - Fee Related
-
2014
- 2014-02-25 US US14/189,263 patent/US20150043832A1/en not_active Abandoned
- 2014-03-07 CN CN201410083844.7A patent/CN104346611A/zh active Pending
- 2014-03-26 KR KR1020140035063A patent/KR101790544B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
CN104346611A (zh) | 2015-02-11 |
KR101790544B1 (ko) | 2017-10-26 |
US20150043832A1 (en) | 2015-02-12 |
KR20150017290A (ko) | 2015-02-16 |
JP2015032239A (ja) | 2015-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6119952B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6003705B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5942361B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6131765B2 (ja) | 情報処理装置及び情報処理プログラム | |
CN102467664B (zh) | 辅助光学字符识别的方法和装置 | |
JP6221220B2 (ja) | 画像処理装置及び画像処理プログラム | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
JP4780184B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5440043B2 (ja) | 画像処理装置及び画像処理プログラム | |
US11582435B2 (en) | Image processing apparatus, image processing method and medium | |
US20110033114A1 (en) | Image processing apparatus and computer readable medium | |
JP2011008584A (ja) | 情報処理装置及び情報処理プログラム | |
JP5928714B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
JP5949248B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6260181B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP4793429B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6281309B2 (ja) | 画像処理装置及び画像処理プログラム | |
US20210295032A1 (en) | Information processing device and non-transitory computer readable medium | |
JP6003677B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6528927B2 (ja) | 文書処理装置及びプログラム | |
JP6575158B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2014120059A (ja) | 情報処理装置及び情報処理プログラム | |
JP2005275820A (ja) | 帳票認識装置、方法、プログラムおよび記憶媒体 | |
JP2008108153A (ja) | 情報処理システムおよび情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170321 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6131765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |