JP7139669B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7139669B2
JP7139669B2 JP2018078880A JP2018078880A JP7139669B2 JP 7139669 B2 JP7139669 B2 JP 7139669B2 JP 2018078880 A JP2018078880 A JP 2018078880A JP 2018078880 A JP2018078880 A JP 2018078880A JP 7139669 B2 JP7139669 B2 JP 7139669B2
Authority
JP
Japan
Prior art keywords
character
information
search
character string
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018078880A
Other languages
English (en)
Other versions
JP2019185631A (ja
Inventor
元気 長田
クリシュナン ラガワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018078880A priority Critical patent/JP7139669B2/ja
Priority to CN201910168329.1A priority patent/CN110390243A/zh
Priority to US16/378,578 priority patent/US20190318190A1/en
Publication of JP2019185631A publication Critical patent/JP2019185631A/ja
Application granted granted Critical
Publication of JP7139669B2 publication Critical patent/JP7139669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Description

本発明は、情報処理装置及びプログラムに関する。
近年、文字列の属性に着目して文字列置換テーブルへの設定や追加が適切に行えるようにする情報処理装置が提案されている(例えば、特許文献1参照。)。
特許文献1に記載された情報処理装置は、処方箋の画像イメージを入力する入力手段と、前記画像イメージに文字認識処理を施すことにより前記画像イメージから処方箋データを得るデータ処理部とを備えた処方箋受付装置であって、前記データ処理部が、各種の薬品名を含むデータを保持する薬品マスターと、置換前文字列と置換後文字列とを対応付けて多数のデータを保持する文字列置換テーブルと、前記文字認識処理の後にその処理で得た認識文字列に前記文字列置換テーブルの置換前文字列の何れかが含まれているとき前記認識文字列の該当箇所を前記文字列置換テーブルの置換後文字列のうち該置換前文字列に対応するもので置き換える文字列置換手段と、一対の文字列を受理して前記文字列置換テーブルの置換前文字列と置換後文字列とにデータ保持させる置換文字列設定手段とを具えている。
特開2007-164274号公報
本発明の課題は、検索する文字列の属性に応じて異なる複数の補正に関する情報を予め登録しなくても、認識された文字列を補正することが可能な情報処理装置及びプログラムを提供することにある。
[1]画像情報に含まれる文字を認識して文字情報を出力する文字認識手段と、
前記文字情報に含まれる少なくとも1つ以上の文字を含む文字列の検索を指示する検索指示情報と、識別情報、前記文字認識手段に対する入力の対象となる第1の文字及び前記文字認識手段で前記第1の文字を認識したときに出力される第2の文字を予め関連付けた関連情報とに応じて、前記画像情報から出力した前記文字情報の中から前記文字列を検索する検索手段と、
検索された前記文字列に含まれる前記第2の文字を前記関連情報に基づいて前記第1の文字に補正する補正手段と、を備える情報処理装置。
[2]前記文字列に前記第1の文字が含まれるとき、前記関連情報に基づいて前記第1の文字に対応する前記第2の文字を追加して、前記検索手段が前記文字情報において検索する前記文字列の範囲を拡張する拡張手段をさらに備える、前記[1]に記載の情報処理装置。
[3]記補正手段は、前記関連情報に基づかずに、前記第1の文字の前記文字列における位置と、前記識別情報、当該第1の文字及び追加された前記第2の文字の組み合わせとを関連付けた関連情報に基づいて、検索された前記文字列を補正する、前記[2]に記載の情報処理装置。
[4]前記検索指示情報が予め定められた条件を満たしたときに、前記文字列の範囲を分割する分割手段をさらに備える、前記[1]から[3]のいずれか1つに記載の情報処理装置。
[5]前記分割手段は、前記予め定められた条件として、前記関連情報に同一の前記第2の文字に対応する複数の前記第1の文字が含まれるときに、前記文字列の範囲を分割する、前記[4]に記載の情報処理装置。
[6]前記検索指示情報を構成する文字を1文字ずつ受け付ける受付手段をさらに備える、前記[1]から[5]のいずれか1つに記載の情報処理装置。
[7]コンピュータを、
画像情報に含まれる文字を認識して文字情報を出力する文字認識手段と、
前記文字情報に含まれる少なくとも1つ以上の文字を含む文字列の検索を指示する検索指示情報と、識別情報、前記文字認識手段に対する入力の対象となる第1の文字及び前記文字認識手段で前記第1の文字を認識したときに出力される第2の文字を予め関連付けた関連情報とに応じて、前記画像情報から出力した前記文字情報の中から前記文字列を検索する検索手段と、
検索された前記文字列に含まれる前記第2の文字を前記関連情報に基づいて前記第1の文字に補正する補正手段として機能させるためのプログラム。
請求項1、7に係る発明によれば、検索する文字列の属性に応じて異なる複数の補正に関する情報を予め登録しなくても、認識された文字列を補正することができる。
請求項2に係る発明によれば、検索する文字列の範囲を拡張して検索することができる。
請求項3に係る発明によれば、拡張された範囲で検索された文字列に含まれる文字を拡張前の文字に戻すことができる。
請求項4に係る発明によれば、拡張された範囲に含まれる文字が重複するような場合であっても、拡張された範囲で検索された文字列を一義的に補正することができる。
請求項5に係る発明によれば、拡張された範囲に含まれる文字が重複するような場合であっても、拡張前の文字を特定することができる。
請求項6に係る発明によれば、検索する文字列を1文字ずつ入力することができる。
図1は、本実施の形態に係る情報処理システムの制御系の一例を示すブロック図である。 図2は、誤認識パターンテーブルの一例を示す図である。 図3(a),(b)は、検索文字列入力画面の一例を示す図である。 図4は、図1に示す情報処理装置の動作の一例を示すフローチャートである。
以下、本発明の実施の形態について図面を参照して説明する。なお、各図中、実質的に同一の機能を有する構成については、同一の符号を付してその重複した説明を省略する。
[実施の形態の要約]
本実施の形態に係る情報処理装置は、画像情報に含まれる文字を認識して文字情報を出力する文字認識手段と、画像情報に含まれる少なくとも1つ以上の文字を含む文字列の検索を指示する検索指示情報と、文字認識手段に対する入力の対象となる第1の文字及び文字認識手段で第1の文字を認識したときに出力される第2の文字とを予め関連付けた関連情報とに応じて、画像情報から出力した文字情報の中から文字列を検索する検索手段と、検索された文字列を関連情報に基づいて補正する補正手段とを備える。
「画像情報」は、例えば、文書、写真、図表等に関するデジタルデータが該当する。「文字認識手段」には、例えば、OCR(Optical Character Recognition)処理を行い画像情報から文字や文字列を認識して文字情報を出力する手段が含まれる。「第1の文字」は、文字認識手段に対する入力の対象となる文字が該当する。「第2の文字」は、第1の文字に対する文字認識手段の出力の対象となる文字、すなわち文字認識手段が第1の文字認識したときに出力される文字が該当する。「関連情報」は、第1の文字と第2の文字とを関連付けた情報である。「文字列」は、複数の文字で構成されたもののみならず1文字で構成されるものであってもよい。
[実施の形態]
図1は、本発明の実施の形態に係る情報処理システムの制御系の一例を示すブロック図である。この情報処理システム1は、情報処理装置2と、この情報処理装置2とネットワーク4を介して接続された外部装置3とを備える。情報処理装置2は、例えば、パーソナルコンピュータ、画像形成装置、タブレッド端末、多機能携帯電話機(スマートフォン)等が該当する。
外部装置3には、例えば、パーソナルコンピュータ、サーバ装置等が含まれる。ネットワーク4は、例えば、ローカルエリアネットワーク(LAN)、インターネット、ワイドエリアネットワーク(WAN)等であり、有線でも無線でもよい。
(情報処理装置2の構成)
この情報処理装置2は、各部を制御する制御部20と、各種のデータを記憶する記憶部21と、キーボード、マウス等で実現される操作部22と、液晶ディスプレイ等で実現される表示部23と、ネットワーク4を介して、外部装置3との間で信号を送受信する通信部25とを備える。なお、操作部22と表示部23とを一体化した操作表示部(不図示)を設けてもよい。
制御部20は、CPU(Central Processing Unit)、インターフェース等から構成されている。CPUは、記憶部21に記録されたプログラム210に従って動作することにより、第1の受付手段200、画像処理手段201、第2の受付手段202手段、生成手段203、変換手段204、拡張手段205、分割手段206、検索手段207、補正手段208、表示制御手段209等として機能する。画像処理手段201は、文字認識手段の一例である。生成手段203及び変換手段204は、特定手段の一例である。各手段200~209の詳細については後述する。
記憶部21は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク等から構成され、プログラム210、辞書情報211、誤認識パターンテーブル212、OCR結果情報213、履歴情報214、画面情報215等の各種データを記憶する。辞書情報211は、後述するOCR処理に用いられる文字のパターンを辞書化した情報である。OCR結果情報213は、OCR処理の結果に係る情報である。履歴情報214、画面情報215については、後述する。
(誤認識パターンテーブル212の構成)
図2は、誤認識パターンテーブル212の一例を示す図である。誤認識パターンテーブル212には、「ID」欄と、「変換前文字」欄と、「変換後文字」欄とが設けられている。
「ID」欄には、誤認識のパターン(以下、「誤認識パターン」又は「ルール」ともいう。)を識別する識別情報が記録されている。誤認識パターンとは、以下に示す変換前文字とこれに対応する少なくとも1つ以上の変換後文字との一対の組み合わせ(ペア)をいう。「変換前文字」欄には、画像処理手段201の入力の対象となる1つの文字が記録されている。この欄に記録されている文字は、例えば、当該情報処理装置2の画像処理手段201により過去に異なる文字として認識された文字、又は現在において異なる文字として認識されやすい文字が該当する。変換前文字は、第1の文字の一例である。なお、以下、異なる文字として認識されることを、単に「誤認識」ともいう。
「変換後文字」欄には、当該情報処理装置2の画像処理手段201が「変換前文字」に記録された文字を認識したときに出力される文字が記録されている。この欄に記録されている文字は、例えば、過去に異なる文字として出力された文字、又は現在において異なる文字として出力されやすい文字(以下、「誤認識文字」ともいう。)が記録されている。誤認識文字は、例えば、検索対象文字と類似する形状を有する文字が該当する。誤認識文字が複数ある場合は、羅列してもよく、例えば、「,」等の区切り文字で区切って記録してもよい。誤認識文字は、第2の文字の一例である。なお、本明細書において、テーブルに情報を書き込む場合に「記録」を用い、記憶部21に情報を書き込む場合に「記憶」を用いる。
図2に示すように、一例として、“f”や“+”(プラス記号)は、OCR処理により過去に“t”と誤認識されたことがあるか、又は現在において“t”と誤認識されやすい文字の一例である(「Rule101」、「Rule106」参照)。また、別の一例として、“0”(数字の零)は、OCR処理により過去に“。”(句点)、“o”(アルファベットの小文字のオー)、“O”(アルファベットの大文字のオー)等と誤認識されたことがあるか、又は現在において “。”、“o”、“O”等と誤認識されやすい文字の一例である(「Rule102」参照)。“f”と“t”との組み合わせ(ペア)、“+”と“t”との組み合わせ(ペア)、“0”と“。oO”との組み合わせ(ペア)は、誤認識パターン又はルールの一例である。
誤認識パターンテーブル212は、第1の文字と第2の文字とを関連付けた第1の関連情報の一例である。なお、誤認識パターンテーブル212は、操作者の操作等により外部から入力される情報を適宜追加して更新されるようにしてもよく、Deep Learning等の学習機能を設け、学習機能による学習により得た情報を適宜追加して更新されるようにしてもよい。
(画面情報215)
図3を参照して画面情報215について説明する。図3は、検索文字列入力画面の一例を示す図である。図3(a)に示すように、検索文字列入力画面5Aには、例えば、1つの文字を入力する文字入力欄51、この文字入力欄51に現在何文字目の文字を入力しているかを示す番号情報52、現在までに入力された文字を文字列として示す文字列表示部53、次の文字の入力を行わせる第1の釦54、文字列の入力を終了させる第2の釦55等が含まれる。
なお、別の例として、図3(b)に示すように、複数の文字入力欄51a,51b,51c,52d,‥,51kを含む検索文字列入力画面5Bを用いてもよい。
(各手段について)
次に、制御部20を構成する各手段の詳細について説明する。第1の受付手段200は、外部装置3から送信された画像情報(以下、「画像データ」ともいう。)を受け付ける。画像データは、文書、写真、図表等をデジタルデータとして記憶したものである。具体的には、画像データは、例えば、設計図、配線図、記号、模式図、絵文字、シンボルマーク等の図形情報と、文字や文字列等の文字情報とを含んで構成されたデータ等を含んで構成されている。また、この画像データには、例えば、一度の文字認識処理で全域の文字の認識ができない程度の大きさを有するものが含まれる。
「文字」は、ある言語において何らかの意味や内容を示す、例えば、数字、漢字等の表意文字でもよいし、仮名やアルファベット等の表音文字でもよい。また、「記号」には、装飾記号、製図記号、回路記号、地図記号及び天気記号等も含まれる。なお、例えば、“$”(ドルマーク)、“,”(カンマ)、“-”(ハイフン)等の特定の記号は、図形ではなく文字に含めてもよい。文字に含める特定の記号(以下、「記号文字」ともいう。)は、例えば、キーボードの操作によりテキスト情報として入力することができる記号等が該当する。また、文字は、活字でもよく手書きでもよい。
画像処理手段201は、第1の受付手段200が受け付けた画像データに対して、この画像データに含まれる図形の形状を認識する形状認識処理、及びこの画像データに含まれる文字や文字列を認識する文字認識処理を行う。
文字認識処理には、例えば、画像データから文字のパターンを1文字単位で切り出し、その文字のパターンと記憶部21の辞書情報211に記録されている文字のパターンとをパターンマッチング法等により比較し、類似度の最も高いものを結果として出力するOCR(Optical Character Recognition)処理が含まれる。OCR処理により得られる結果を以下「OCR結果」ともいう。
OCR結果は、例えば、OCR処理により認識した文字や文字列を示す文字情報や、これら文字や文字列の画像上の位置を示す位置情報が含まれる。位置情報には、例えば、画像上の座標値が含まれる。また、画像処理手段201は、出力したOCR結果を、例えば、テキスト形式でOCR結果情報213として記憶部21に記憶する。
第2の受付手段202は、操作部22に対する操作者の操作により入力される少なくとも1つ以上の文字を含む文字列の検索を指示する検索指示情報を受け付ける。検索指示情報は、画像データ上で検索する対象となる文字列を示す情報を含んで構成される。検索指示情報は、例えば、当該文字列を構成する個々の文字を1文字ずつ指定する操作により入力される。この操作は、ユーザインターフェースを介して対話的に行ってもよく(図3(a)参照)、1文字ずつ入力する複数の入力欄を含む画面を介して非対話的に行ってもよい(図3(b)参照)。
生成手段203は、第2の受付手段202が受け付けた検索指示情報に基づいて、予め定められた形式の検索式(以下、「検索クエリ」ともいう。)を生成する。検索クエリは、以下、表1に示す要素を組み合わせて構成される。
Figure 0007139669000001
なお、表1に示したものは、検索クエリの例示であり、これらに限定されるものではない。
一例として、第2の受付手段202が“afx12345”、“fx111”、“11fx11”のように、“fx”を含む文字列を検索する検索指示情報を受け付けたとき、生成手段203は、当該検索指示情報に基づいて、例えば、“[][][f][x]”等の検索クエリを生成する。
また、別の一例として、第2の受付手段202が“fx123”や“tx11”のように、“f”又は“t”で始まるとともに“x”が続く文字列であって、“x”の後に1から3の範囲の数字が2から4文字続く文字列を検索する検索指示情報を受け付けたとき、生成手段203は、当該検索指示情報に基づいて、例えば、“[f,t][x][1-3]{min=2,max=4}”等の検索クエリを生成する。
さらに、別の一例として、第2の受付手段202が“fx-1$x”や“fx-3$x”のように、上述した記号文字を特定の位置に含む文字列を検索する検索指示情報を受け付けたとき、生成手段203は、当該検索指示情報に基づいて、例えば、“[f][x][-][0-3]{min=1,max=1}[$][x]”等の検索クエリを生成する。
なお、記載の都合上、上述の例では、文字列が全て全角の文字で構成される例を挙げて説明したが、半角の文字を含んで構成されるものでもよく、半角の文字のみで構成されるものでもよい。また、文字列は、アルファベットに限らず、平仮名、片仮名、漢字、その他の言語に係る文字を含んで構成されるものでもよい。以下、同様である。
変換手段204は、生成手段203により生成された検索クエリを正規表現に変換する。ここで、正規表現とは、文字列の検索用に規格化された表現の形式をいう。
具体的には、変換手段204は、検索クエリを構成する各要素を対応する正規表現に変換する。より具体的には、変換手段204は、検索クエリの複数候補指定要素から“,”(カンマ)を除去し、複数候補指定要素から“-”(ハイフン)を除去し、繰り返し回数要素から“min=”及び“max=”を除去するとともに、ワイルドカード要素の空欄を“*”マークに置換する。
また、変換手段204は、検索クエリに記号文字が含まれるとき、この記号文字が持つ特別な意味を無効にするために、当該記号文字の前に、例えば、“¥”(円マーク)等を付与する(「エスケープ」ともいう)。検索クエリの要素と正規表現との対応関係の一例を以下の表2にまとめる。
Figure 0007139669000002
なお、表2に示した対応関係は、一例であり、これらに限定されるものではない。
一例として、変換手段204は、“[][][f][x]”なる検索クエリを、“[*][*][f][x]”なる正規表現に変換する。また、別の一例として、変換手段204は、“[f,t][x][1-3]{min=2,max=4}”なる検索クエリを、“[ft][x][1-3]{2,4}”に変換する。さらに、別の一例として、変換手段204は、“[f][x][-][0-3]{min=1,max=1}[$][x]”なる検索クエリを、“[f][x][¥-][0-3]{1,1}[¥$][x]”に変換する。なお、“{1,1}”のように同じ数字が並ぶ場合は、単に“{1}”としてもよい。
拡張手段205は、変換手段204により変換された正規表現に、記憶部21の誤認識パターンテーブル212に記録された誤認識パターンを適用して当該正規表現を拡張する。具体的には、拡張手段205は、検索手段207によりOCR結果情報213上で検索される対象となる文字列の範囲が誤認識パターンテーブル212に記録された変換後文字を含む文字列にまで及ぶように、正規表現を拡張する。
より具体的には、拡張手段205は、変換手段204により変換された正規表現に、誤認識パターンテーブル212に記録された変換前文字が含まれるとき、誤認識パターンテーブル212においてこの変換前文字と関連付けられた変換後文字を追加することにより正規表現を拡張する。また、拡張手段205は、正規表現を拡張するときに適用した誤認識パターンのIDを、この誤認識パターンを適用した文字の文字列における位置と関連付けて記憶部21の履歴情報214に記憶する。文字列における位置とは、当該文字がこの文字列の何番目の文字に当たるか、すなわち当該文字の文字列における位置を示すものをいう。履歴情報214は、第2の関連情報の一例である。
一例として、正規表現“[fg][x][1-3]{2,4}”には、誤認識パターンテーブル212に変換前文字として記録された“f”及び“1”が含まれている。この場合、拡張手段205は、“f”に誤認識パターンテーブル212の「Rule101」を適用して要素“[fg]”を“[ftg]”とし、また、“1”に誤認識パターンテーブル212の「Rule103」を適用して要素“[1-3]”を“[1-3liI]”とする。以上をまとめると、拡張手段205は、変換手段204により変換された正規表現“[fg][x][1-3]{2,4}”を“[ftg][x][1-3liI]{2,4}”に拡張する。
なお、上記のように拡張することにより、OCR結果情報213上で検索する対象のとなる文字列の範囲は以下の表3に示すように拡張される。
Figure 0007139669000003
また、拡張手段205は、正規表現を拡張する際に適用した誤認識パターンについて、例えば、“[Rule101][][Rule103]{}”のような形式で、適用した誤認識パターンを適用した文字の位置と関連付けて記憶部21の履歴情報214に記録する。
分割手段206は、検索クエリが予め定められた条件に該当するとき、1つの検索クエリを分割して複数の検索クエリを生成する。「予め定められた条件」には、例えば、検索クエリに複数候補指定要素又は範囲指定要素が含まれる場合であって、かつ、同一の変換後文字に対応する複数の誤認識パターンが適用され得る場合が該当する。
一例として、例えば“[f,+][x]”のように“[f,+]”等の複数候補指定要素を含んで構成されている検索クエリでは、“f”に対してRule101を適用するとともに、“+”に対してRule102を適用する。この2つの誤認識パターンにおいて、“f”及び“t”は、いずれも同一の変換後文字“t”に関連付けられている。このような場合、分割手段206は、1つの検索クエリである“[f,+][x]”を、第1の検索クエリ“[f][x]”と、第2の検索クエリ“[+][x]”とに予め分割する。
検索手段207は、拡張手段205により拡張された正規表現を記憶部21のOCR結果情報213に記録されているOCR結果に適用して、画像データに含まれる文字情報の中から当該拡張された正規表現に対応する文字列を検索する。
補正手段208は、検索手段207が検索した文字列を補正する。具体的には、補正手段208は、記憶部21に記憶された履歴情報214を参照し、検索手段207により画像データに含まれる文字情報の中から検索した文字列に拡張手段205により拡張された正規表現によって検出された文字が含まれるとき、すなわち、拡張手段205により特定の位置に誤認域文字が追加されていたとき、拡張手段205が各文字に適用した誤認識パターンを逆方向に適用して文字列を補正する。
表示制御手段209は、記憶部21の画面情報215を参照し、操作者に対して検索指示情報を構成する文字列を入力する画面を表示部23に表示するよう制御する。
表示制御手段209は、操作者により第1の釦54に対する操作に基づいて、番号情報52を次の番号に変更するとともに、文字列表示部53に入力された次の文字を追加した検索文字列入力画面5Aを表示部23に表示するよう制御する。なお、表示制御手段209は、文字列を対話的に1文字ずつ入力できるようにするために第2の受付手段202が1つの文字の入力を受け付けるごとに検索文字列入力画面5Aを切り替えて表示するよう制御してもよい。また、表示制御手段209は、図3(b)に示すように、複数の文字入力欄51a,51b,51c,52d,‥51kを含む検索文字列入力画面5Bを表示部23に表示するよう制御してもよい。
また、表示制御手段209は、補正手段208により補正された補正後の文字列を、例えば、マーキング等による強調方法により、表示部23に表示するよう制御する。
(実施の形態の動作)
次に、情報処理装置2の動作の一例について図4を参照して説明する。図4は、情報処理装置2の動作の一例を示すフローチャートである。以下、一例として、画像から文字列“fx20991”を検索する事例を例に挙げて説明する。
第1の受付手段200は、外部装置3から送信された画像データを受け付け(S1)、画像処理手段201に渡す。画像処理手段201は、第1の受付手段200が受け付けた画像データにOCR処理を行い(S2)、当該画像データから文字情報等を含むOCR結果を出力する。また、画像処理手段201は、出力したOCR結果を記憶部21のOCR結果情報213に記録する(S3)。
次に、表示制御手段209は、図3(a)に示す検索文字列入力画面5Aを表示部23に表示するよう制御する(S4)。このとき、表示制御手段209は、Nを1として表示するよう制御する。
次に、操作者が操作部22に対して検索文字列入力画面5Aの文字入力欄51に文字を入力する操作を行うと、第2の受付手段202は、入力された文字の情報を受け付ける(S5)。なお、この入力された文字の情報は、検索指示情報を構成する要素の一つである。
この2つのステップS4及びS5は、操作者により第2の釦55が操作されるまで(S6:No)繰り返して行われる。すなわち、操作者が検索文字列入力画面5Aの第1の釦54に対する操作を行うと、表示制御手段209は、表示部23に、番号情報52の「N」を次の番号である「N+1」に変更するとともに、現在までに入力された文字列を文字列表示部53に追加して表示した検索文字列入力画面5Aを表示するよう制御し、第2の受付手段202は、次に入力された文字の情報を受け付する。
次に、操作者により第2の釦55が操作されると(S6:Yes)、生成手段203は、第2の受付手段202が受け付けた少なくとも1つ以上で構成される文字の情報、すなわち検索指示情報に基づいて、検索クエリを生成する(S7)。一例として、操作者により“f”、“x”、“2”、“0”、“9”、“9”及び“1“が入力されると、生成手段203は、”[f][x][0-9]{min=5,max=5} “なる検索クエリを生成する。
分割手段206は、検索クエリが予め定めされた条件該当する場合(S8:Yes)、検索クエリを分割する(S9)。
変換手段204は、生成手段203が生成した検索クエリを正規表現に変換する(S10)。一例として、変換手段204は、”[f][x][0-9]{min=5,max=5}“なる検索クエリを“[f][x][0-9]{5}”なる正規表現に変換する。
拡張手段205は、記憶部21に記憶された誤認識パターンテーブル212を参照して、変換手段204により変換された正規表現を拡張する(S11)。一例として、拡張手段205は、正規表現の“[f][x][0-9]{5}”を“[ft][x][0-9oOliIsSqg]{5}”に拡張する。
また、拡張手段205は、誤認識パターンを適用した文字の位置と関連付けて記憶部21の履歴情報214に記録する(S12)。一例として、拡張手段205は、履歴情報214に“[Rule101][][Rule102,Rule103,Rule104,Rule105]{}”と記録する。
検索手段207は、拡張手段205により拡張された正規表現をOCR結果に適用して画像データに含まれる文字情報の中から対応する文字列を検索する(S13)。一例として、検索手段207は、拡張された正規表現(“[ft][x][0-9oOliIsSqg]{5}”)を用いて、COR結果情報213上で“tx2。gqi”という文字列を検索する。
補正手段208は、履歴情報214と、誤認識パターンテーブル212とを用いて、検索手段207が検索した文字列を補正する(S14)。一例として、検索手段207が検索した“tx2。gqi”に対し、1文字目の“t”にRule101を逆方向に適用して“t”を“f”とし、3文字目の“。”にRule102を逆方向に適用して“。”を“0”(零)とし、4文字目の“g”にRule103を逆方向に適用して“g”を“9”とし、5文字目の“q”にRule104を逆方向に適用して“q”を“9”とし、6文字目の“i”にRule105を逆方向に適用して“i”を“1”として、“tx2。gqi”を“fx29901”に補正する。
表示制御手段209は、補正された補正後の文字列“fx29901”を、例えば、マーキング等の方法により、表示部23に表示するよう制御する(S15)。
なお、上述の例では、検索クエリ(”[f][x][0-9]{min=5,max=5}“)が分割手段206により分割されない場合を例に挙げて説明したが、分割手段206により検索クエリが分割された場合、ステップS10以降の動作は、分割された各検索クエリに対して実行される。
以上、本発明の実施の形態を説明したが、本発明の実施の形態は上記実施の形態に限定されるものではなく、本発明の要旨を変更しない範囲内で種々の変形、実施が可能である。例えば、第1の受付手段200は、画像データに代えて、予め画像データにOCR処理を行うことにより得られるOCR結果を受け付けてもよい。
また、例えば、画像データは、必ずしも外部装置3から送信されたものに限られず、例えば、情報処理装置2に撮像部(不図示)を設け、この撮像部で撮像したものであってもよい。また、例えば、分割手段206は、検索クエリを分割したが、正規表現を分割してもよい。
制御部20の各手段は、それぞれ一部又は全部を再構成可能回路(FPGA:Field Programmable Gate Array)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)等のハードウエア回路によって構成してもよい。
また、本発明の要旨を変更しない範囲内で、上記実施の形態の構成要素の一部を省くことや変更することが可能である。また、本発明の要旨を変更しない範囲内で、上記実施の形態のフローにおいて、ステップの追加、削除、変更、入替え等が可能である。また、上記実施の形態で用いたプログラムをCD-ROM等のコンピュータ読み取り可能な記録媒体に記録して提供することができ、クラウドサーバ等の外部サーバに格納しておき、ネットワークを介して利用することもできる。
1…情報処理システム、2…情報処理装置、20…制御部、200…第1の受付手段、201…画像処理手段、202…第2の受付手段、203…生成手段、204…変換手段、205…拡張手段、206…分割手段、207…検索手段、208…補正手段、209…表示制御手段、21…記憶部、210…プログラム、211…辞書情報、212…誤認識パターンテーブル、213…OCR結果情報、214…履歴情報、215…画面情報、22…操作部、23…表示部、25…通信部、3…外部装置、4…ネットワーク、5A,5B…検索文字列入力画面、51,51a,51b,51c,52d,52k…文字入力欄、52…番号情報、53…文字列表示部、54…第1の釦、55…第2の釦

Claims (7)

  1. 画像情報に含まれる文字を認識して文字情報を出力する文字認識手段と、
    前記文字情報に含まれる少なくとも1つ以上の文字を含む文字列の検索を指示する検索指示情報と、識別情報、前記文字認識手段に対する入力の対象となる第1の文字及び前記文字認識手段で前記第1の文字を認識したときに出力される第2の文字を予め関連付けた関連情報とに応じて、前記画像情報から出力した前記文字情報の中から前記文字列を検索する検索手段と、
    検索された前記文字列に含まれる前記第2の文字を前記関連情報に基づいて前記第1の文字に補正する補正手段と、
    を備える情報処理装置。
  2. 前記文字列に前記第1の文字が含まれるとき、前記関連情報に基づいて前記第1の文字に対応する前記第2の文字を追加して、前記検索手段が前記文字情報において検索する前記文字列の範囲を拡張する拡張手段をさらに備える、
    請求項1に記載の情報処理装置。
  3. 記補正手段は、前記関連情報に基づかずに、前記第1の文字の前記文字列における位置と、前記識別情報、当該第1の文字及び追加された前記第2の文字の組み合わせとを関連付けた関連情報に基づいて、検索された前記文字列を補正する、
    請求項2に記載の情報処理装置。
  4. 前記検索指示情報が予め定められた条件を満たしたときに、前記文字列の範囲を分割する分割手段をさらに備える、
    請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記分割手段は、前記予め定められた条件として、前記関連情報に同一の前記第2の文字に対応する複数の前記第1の文字が含まれるときに、前記文字列の範囲を分割する、
    請求項4に記載の情報処理装置。
  6. 前記検索指示情報を構成する文字を1文字ずつ受け付ける受付手段をさらに備える、
    請求項1から5のいずれか1項に記載の情報処理装置。
  7. コンピュータを、
    画像情報に含まれる文字を認識して文字情報を出力する文字認識手段と、
    前記文字情報に含まれる少なくとも1つ以上の文字を含む文字列の検索を指示する検索指示情報と、識別情報、前記文字認識手段に対する入力の対象となる第1の文字及び前記文字認識手段で前記第1の文字を認識したときに出力される第2の文字を予め関連付けた関連情報とに応じて、前記画像情報から出力した前記文字情報の中から前記文字列を検索する検索手段と、
    検索された前記文字列に含まれる前記第2の文字を前記関連情報に基づいて前記第1の文字に補正する補正手段として
    機能させるためのプログラム。
JP2018078880A 2018-04-17 2018-04-17 情報処理装置及びプログラム Active JP7139669B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018078880A JP7139669B2 (ja) 2018-04-17 2018-04-17 情報処理装置及びプログラム
CN201910168329.1A CN110390243A (zh) 2018-04-17 2019-03-06 信息处理装置以及存储介质
US16/378,578 US20190318190A1 (en) 2018-04-17 2019-04-09 Information processing apparatus, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018078880A JP7139669B2 (ja) 2018-04-17 2018-04-17 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2019185631A JP2019185631A (ja) 2019-10-24
JP7139669B2 true JP7139669B2 (ja) 2022-09-21

Family

ID=68161677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018078880A Active JP7139669B2 (ja) 2018-04-17 2018-04-17 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US20190318190A1 (ja)
JP (1) JP7139669B2 (ja)
CN (1) CN110390243A (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152774A (ja) * 1993-11-30 1995-06-16 Hitachi Ltd 文書検索方法および装置
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置
JP4750476B2 (ja) * 2005-06-07 2011-08-17 キヤノン株式会社 文書検索装置及び方法と記憶媒体
US8949267B2 (en) * 2010-02-26 2015-02-03 Rakuten, Inc. Information processing device, information processing method, and recording medium that has recorded information processing program

Also Published As

Publication number Publication date
JP2019185631A (ja) 2019-10-24
CN110390243A (zh) 2019-10-29
US20190318190A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
EP0844583B1 (en) Method and apparatus for character recognition
JP5647919B2 (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
US9158833B2 (en) System and method for obtaining document information
Ahmad et al. Kpti: Katib's pashto text imagebase and deep learning benchmark
US9213756B2 (en) System and method of using dynamic variance networks
US11410442B2 (en) Information processing apparatus and non-transitory computer readable medium
JP7139669B2 (ja) 情報処理装置及びプログラム
KR101176963B1 (ko) 간판 영상 문자 인식 및 후처리 시스템
JP2010211470A (ja) 文書データ生成装置と文書データ生成方法
US20210089813A1 (en) Information processing apparatus and non-transitory computer readable medium
KR20130122437A (ko) 영어의 한글 표기 방법 및 시스템
JP2011065597A (ja) データ検索装置、データ検索方法及びプログラム
JP3958722B2 (ja) イメージデータ文書検索システム
JP2020166810A (ja) テキストの適合および修正の方法
JP2745484B2 (ja) 手書文字認識方法および装置
AU2019203772B2 (en) Braille editing method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same
JP3548372B2 (ja) 文字認識装置
JP7247472B2 (ja) 情報処理装置及びプログラム
JP2024003769A (ja) 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム
KR20210047192A (ko) 음소 기반 텍스트 검색 장치 및 방법
JPH11120294A (ja) 文字認識装置および媒体
JP2874815B2 (ja) 日本語文字読取装置
JP2020204886A (ja) 画像処理装置、その制御方法、及びプログラム
JP2005284716A (ja) 文字認識システム、文字認識方法およびそのプログラム
JP2006330780A (ja) 文字認識装置および文字認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220822

R150 Certificate of patent or registration of utility model

Ref document number: 7139669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150