JP2022018202A - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP2022018202A
JP2022018202A JP2020121135A JP2020121135A JP2022018202A JP 2022018202 A JP2022018202 A JP 2022018202A JP 2020121135 A JP2020121135 A JP 2020121135A JP 2020121135 A JP2020121135 A JP 2020121135A JP 2022018202 A JP2022018202 A JP 2022018202A
Authority
JP
Japan
Prior art keywords
word
character
color
information processing
certainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020121135A
Other languages
English (en)
Inventor
宏幸 作山
Hiroyuki Sakuyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2020121135A priority Critical patent/JP2022018202A/ja
Priority to US17/305,407 priority patent/US20220019833A1/en
Publication of JP2022018202A publication Critical patent/JP2022018202A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Character Input (AREA)

Abstract

【課題】 テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムを提供すること。【解決手段】 画像データに含まれる文字を認識する文字認識部310を備える情報処理装置110であって、文字認識部310が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理部330と、単語処理部330による設定に基づいて、画像データに含まれる文字をテキストデータに変換したファイルを出力するテキストファイル出力部340とを含む。【選択図】 図3

Description

本発明は、画像に含まれる文字列のテキストファイルを出力する情報処理装置およびプログラムに関する。
文書が印刷された用紙をスキャンし、OCRなどの文字認識によって当該文書の内容をOffice Open XML Document形式のファイルに変換する処理が知られている。かかる処理によって、紙ベースの文書をテキストデータのファイルに変換できるため、パソコンなどによって文書の再編集を行うことができる。
文字認識によってテキストデータを生成する技術として、例えば特開2015-060470号公報(特許文献1)が挙げられる。特許文献1では、手書き入力された文字に、テキストデータを重畳して表示する技術が開示されている。特許文献1は、入力された文字の色を薄くしたうえで、認識した文字を重畳して表示する構成を示している。
ところで、文字認識によって画像データからテキストファイルを出力すると、画像内の文字が正しく検出されない場合がある。かかる場合において、特許文献1を始めとする従来技術においては、上述したような文字の色を薄くするなどの処理が単語単位ではなく文字単位で行われるため、ユーザたる読み手が誤検出された文字を認識しにくく、テキストを再編集する観点から、利便性が損なわれていた。
本発明は、上記従来技術における課題に鑑みてなされたものであり、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムを提供することを目的とする。
すなわち、本発明によれば、
画像データに含まれる文字を認識する認識手段を備える情報処理装置であって、
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
を含む、情報処理装置が提供される。
本発明によれば、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムが提供できる。
本実施形態におけるシステム全体のハードウェアの概略構成を示す図。 本実施形態の情報処理装置に含まれるハードウェア構成を示す図。 本実施形態の情報処理装置に含まれるソフトウェアブロック図。 本実施形態においてテキストファイルを出力する処理を示すフローチャート。 本実施形態における文字認識を説明する図。 本実施形態における単語確信度を説明する図。 本実施形態の単語処理部が実行する色設定処理を示すフローチャート。 本実施形態の色設定処理がされたテキストデータの例を示す図。 本実施形態の色設定処理がされたテキストデータの例を示す図。
以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜その説明を省略するものとする。
図1は、本実施形態におけるシステム100全体のハードウェアの概略構成を示す図である。図1では、例として、情報処理装置110と、MFP(Multi-Function Peripheral)120とが、インターネットやLANなどのネットワーク130を介して接続された環境を例示している。なお、情報処理装置110やMFP120から、ネットワーク130へ接続する方法は、有線または無線のどちらでもよい。
情報処理装置110は、パソコン端末などの装置である。情報処理装置110は、MFP120への印刷ジョブの送信、MFP120がスキャンした画像の取得、当該画像のテキストファイル化、テキストファイルの表示、編集などの処理を行うことができる。
MFP120は、印刷ジョブに基づくプリント処理や、用紙を読み取ることによるスキャン処理などを行う。なお、他の実施形態では、MFP120が画像を処理し、画像内の文字列をテキストファイルに変換することとしてもよい。
次に、情報処理装置110のハードウェア構成について説明する。図2は、本実施形態の情報処理装置110に含まれるハードウェア構成を示す図である。情報処理装置110は、CPU210と、RAM220と、ROM230と、記憶装置240と、通信I/F250と、ディスプレイ260と、入力装置270とを含んで構成され、各ハードウェアはバスを介して接続されている。
CPU210は、情報処理装置110の動作を制御するプログラムを実行し、所定の処理を行う装置である。RAM220は、CPU210が実行するプログラムの実行空間を提供するための揮発性の記憶装置であり、プログラムやデータの格納用、展開用として使用される。ROM230は、CPU210が実行するプログラムやファームウェアなどを記憶するための不揮発性の記憶装置である。
記憶装置240は、情報処理装置110を機能させるOSや種々のソフトウェア、設定情報、各種データなどを記憶する、読み書き可能な不揮発性の記憶装置である。記憶装置240の一例としては、HDD(Hard Disk Drive)やSSD(Solid State Drive)などが挙げられる。
通信I/F250は、情報処理装置110とネットワーク130とを接続し、ネットワーク130を介して他の装置との通信を可能にする。ネットワーク130を介した通信は、有線通信または無線通信のいずれであってもよく、TCP/IPなどの所定の通信プロトコルを使用し、各種データを送受信できる。
ディスプレイ260は、各種データや情報処理装置110の状態などを、ユーザに対して表示する装置であり、例として、LCD(Liquid Crystal Display)などが挙げられる。入力装置270は、ユーザが情報処理装置110を操作するための装置であり、例として、キーボード、マウスなどが挙げられる。なお、ディスプレイ260と入力装置270は、それぞれ別個の装置であってもよいし、タッチパネルディスプレイのような両方の機能を備えるものであってもよい。
以上、本実施形態の情報処理装置110に含まれるハードウェア構成について説明した。次に、本実施形態における各ハードウェアによって実行される機能手段について、図3を以て説明する。
図3は、本実施形態の情報処理装置110に含まれるソフトウェアブロック図である。本実施形態の情報処理装置110は、文字認識部310、文字列解析部320、単語処理部330、テキストファイル出力部340、辞書データベース記憶部350の各モジュールを含む。
文字認識部310は、画像データに対してOCR(Optical Character Recognition)処理を行い、画像に含まれる文字を認識する手段である。文字認識の対象となる画像データは特に限定されず、例えば、MFP120などがスキャンしたデータ、カメラで撮影したデータ、タッチパネルディスプレイを介して描画されたデータなどが挙げられる。文字認識部310は、文字の位置、大きさ、文字種などといった言語のルール(以下、単に「ルール」として参照する場合がある)に基づいて、文字を認識することができる。また、本実施形態の文字認識部310は、認識した各文字における文字認識の確からしさを示す確信度(以下、「文字確信度」として参照する)を算出できる。
文字列解析部320は、文字認識部310によって認識された複数の文字から構成される文字列を解析する手段である。文字列解析部320は、例えば形態素解析を行うことで、文字列を意味のある単語に区切る(以下、「単語化」として参照する)。また、本実施形態の文字列解析部320は、ルールや組み合わせなどの要素を総合的に判断して、単語を生成することができる。
単語処理部330は、文字列解析部320が生成した単語に対して、テキストデータ化する際の文字色を設定する処理を行う手段である。単語処理部330は、文字列解析部320が生成した単語が、後述する辞書データベース記憶部350に登録されている単語(以下、「登録単語」として参照する)であるか否か、単語を構成する文字の文字確信度などに基づいて、文字色を設定する。
テキストファイル出力部340は、変換元となる画像に含まれる文字をテキストデータに変換して、Office Open XML Document形式のファイルを出力する手段である。テキストファイル出力部340が出力するテキストファイルは、単語処理部330が設定した文字色で以て文字列をテキストデータに変換する。テキストファイル出力部340が出力したテキストファイルは、テキストの再編集の用に供される。
辞書データベース記憶部350は、記憶装置240を制御し、辞書データベースを記憶する手段である。本実施形態における辞書データベースは、生成された単語を置き換えるための登録単語を格納することができる。また、本実施形態では、辞書データベースの容量を節約する観点から、辞書データベースに格納される登録単語は、品詞や文字数などに制限が設けられてもよい。一例として、本実施形態の辞書データベースには、3文字以上5文字以下の名詞が登録される。
なお、本実施形態の辞書データベースは、機械学習の学習効果によって生成されたものでもよい。また、認識された文字列に含まれうるキーワードと変換候補となる登録単語とを機械学習にて分類付けすることで、辞書データベースを使用しなくてもよい。
ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを,事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
なお、上述したソフトウェアブロックは、CPU210が本実施形態のプログラムを実行することで、各ハードウェアを機能させることにより、実現される機能手段に相当する。また、各実施形態に示した機能手段は、全部がソフトウェア的に実現されても良いし、その一部または全部を同等の機能を提供するハードウェアとして実装することもできる。
さらに、上述した各機能手段は、必ずしも全てが図3に示すような構成で含まれていなくてもよい。例えば、他の好ましい実施形態では、各機能手段は、情報処理装置110と、MFP120との協働によって実現されてもよい。
次に、上述した各機能手段が実行する処理について、図4を以て説明する。図4は、本実施形態においてテキストファイルを出力する処理を示すフローチャートである。
本実施形態の情報処理装置110は、ステップS1000からテキストファイルを出力する処理を開始する。ステップS1001では、文字認識部310は、画像に含まれる文字を認識する。また、ステップS1001において文字認識部310は、文字認識を行うとともに、各文字の文字確信度を算出する。ここで、本実施形態における文字認識について図5を以て説明する。図5は、本実施形態における文字認識を説明する図である。
図5(a)は、変換元となる画像の例を示している。以下の説明は、図5(a)に示すように、濃い色の背景に「はがき」という黒色の文字が含まれる画像をテキストファイルに変換する場合を例示する。文字認識部310は、図5(a)の変換元画像が入力されると、図5(b)のように、文字に外接する矩形を抽出する。
文字認識部310は、文字矩形を抽出したあと、図5(c)に示すように、文字画素と背景画素とを分離する。図5(c)の上段は、文字矩形に相当する背景画素が分離された例(但し、原文字画素の色を背景と同じ色に変換している)を示している。また、図5(c)の下段は、文字矩形内の文字画素(「は」、「が」、「き」)が分離された例を示している。
その後、文字認識部310は、図5(c)下段に示す文字画素「はがき」について文字の認識をする。また、文字認識部310は、文字の認識に伴い、各文字の文字確信度を算出する。文字確信度は、正しく文字を認識した確率を示し、0から1の間の値を取るものとする。本実施形態の文字確信度は、例えば、ルールに適合しているか否かなどの情報を証拠として、デンプスター・シェーファーの確率理論などによって算出することができる。図5(d-1)~(d-3)は、文字認識結果および算出された文字確信度の例を示している。
図5(d-1)は、文字画素「はがき」に対して「はがき」という文字が認識された例を示している。また、図5(d-1)は、「は」の文字確信度が0.80、「が」の文字確信度が0.85、「き」の文字確信度が「0.82」と評価された場合の例を示している。図5(d-1)に示す各文字の文字確信度は、文字画素「はがき」に対して「はがき」という文字が認識されていることから、比較的高い値が算出される。
図5(d-2)は、文字画素「はがき」に対して「はがさ」という文字が認識された例を示している。また、図5(d-3)は、「は」の文字確信度が0.80、「が」の文字確信度が0.85、「さ」の文字確信度が「0.60」と評価された場合の例を示している。図5(d-2)に示す例では、文字画素「はがき」に対して「はがさ」という文字が認識されていることから、「は」および「が」の文字確信度は比較的高い値が算出される一方で、「さ」の文字確信度は比較的低い値が算出される。
図5(d-3)は、文字画素「はがき」に対して「ほがさ」という文字が認識された例を示している。また、図5(d-3)は、「ほ」の文字確信度が0.35、「が」の文字確信度が0.85、「さ」の文字確信度が「0.40」と評価された場合の例を示している。図5(d-3)に示す例では、文字画素「はがき」に対して「ほがさ」という文字が認識されていることから、「が」の文字確信度は比較的高い値が算出される一方で、「ほ」および「さ」の文字確信度は比較的低い値が算出される。
なお、上述した一連の文字認識処理における方法は特に限定されず、例えば、像域分離やパターンマッチングなど既知の方法を採用することができる。
説明を図4に戻す。ステップS1001において文字を認識したあと、ステップS1002では、文字列解析部320は、認識された複数の文字から構成される文字列を単語化する。ステップS1002における単語化は、例えば、形態素解析などによって行われ得る。ステップS1002で生成された単語は、一時的に記憶装置240に格納されてもよい。
その後、ステップS1003以降の処理において、単語処理部330は、生成された単語について、テキストデータに変換するための処理を行う。ステップS1003では、単語処理部330は、複数の単語のうち未処理の単語を取得する。続くステップS1004では、取得した単語が検索対象の単語であるか否かによって処理が分岐する。ここで、検索対象の単語であるか否かの判定は、例えば、取得した単語の品詞や文字数などに基づいて行うことができる。このようにして、検索対象であるか否かを判定することで、辞書データベースに登録されていない単語に対しては検索を行わないため、単語の変換処理を効率化できる。取得した単語が検索対象でない場合には(NO)、ステップS1010に進む。ステップS1010についての詳細は後述する。また、取得した単語が検索対象である場合には(YES)、ステップS1005に進む。
ステップS1005では、単語処理部330は検索対象の単語に基づいて辞書データベースを検索し、マッチする登録単語が辞書データベースに格納されているか否かによって処理を分岐する。なお、登録単語とマッチするか否かの判定は、例えば、単語を構成する文字と登録単語の文字とが一致する割合が所定の閾値よりも高いか否かに基づいて行われ得る。以下に説明する実施形態の一例では、閾値を60%とし、文字マッチ率が閾値よりも高い場合には登録単語とマッチすると判定する。
ステップS1005において辞書データベースにマッチする登録単語が格納されている場合には(YES)、ステップS1006に進む。単語処理部330はステップS1006において、辞書データベースに格納されている登録単語のうち、処理対象の単語とのマッチ率が最も高い登録単語を抽出し、処理対象の単語を当該登録単語に置換する。その後、単語処理部330は、ステップS1007において、処理対象となっている単語の確からしさを示す確信度(以下、「単語確信度」として参照する)の値を、当該単語を構成する文字の文字確信度のうち最も高い文字確信度の値のものに設定する。
一方で、ステップS1005において辞書データベースにマッチする登録単語が格納されていない場合には(NO)、ステップS1008に進む。ステップS1008では、単語処理部330は、処理対象の単語の単語確信度の値を、当該単語を構成する文字の文字確信度のうち最も低い文字確信度の値のものに設定する。
ここで、ステップS1007およびS1008における単語確信度の設定について、図6を以て説明する。図6は、本実施形態における単語確信度を説明する図である。図6では、図5(d-1)~(d-3)のように認識された文字について、辞書データベースを検索し、単語確信度を設定する例を図6(a-1)~(a-3)にそれぞれ示している。なお、図6における実施形態の説明では、辞書データベースには登録単語として「はがき」が格納されているものとする。
まず、図6(a-1)について説明する。図5(d-1)のように「はがき」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「はがき」と登録単語「はがき」とは、3文字中3文字が一致していることから、図6(a-1)のように、文字マッチ率が100%であると判定される。したがって、文字マッチ率の閾値である60%を超えていることから、検索対象の文字列「はがき」は、登録単語「はがき」と一致するものとして置換される。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も高い値である文字「が」の0.85が、当該単語の単語確信度として設定される。
次に、図6(a-2)について説明する。図5(d-2)のように「はがさ」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「はがさ」と登録単語「はがき」とは、3文字中2文字が一致していることから、図6(a-2)のように、文字マッチ率が67%であると判定される。したがって、文字マッチ率の閾値である60%を超えていることから、検索対象の文字列「はがさ」は、登録単語「はがき」と一致するものとして置換される。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も高い値である文字「が」の0.85が、当該単語の単語確信度として設定される。
次に、図6(a-3)について説明する。図5(d-3)のように「ほがさ」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「ほがさ」と登録単語「はがき」とは、3文字中1文字が一致していることから、図6(a-3)のように、文字マッチ率が33%であると判定される。したがって、文字マッチ率の閾値である60%以下であることから、検索対象の文字列「はがさ」は、登録単語との置換が行われない。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も低い値である文字「ほ」の0.35が、当該単語の単語確信度として設定される。
なお、検索の結果、文字マッチ率が同じである登録単語が複数抽出された場合には、例えば、文字確信度の和を比較することで、登録単語との置換の正確性を向上できる。
再び説明を図4に戻す。ステップS1007では、単語処理部330は、図6(a-1)、(a-2)のようにして単語確信度を設定する。また、ステップS1008では、単語処理部330は、図6(a-3)のようにして単語確信度を設定する。ステップS1007またはS1008にて単語確信度を設定した後、単語処理部330は、ステップS1009においてテキストデータに変換される単語の色設定処理を行う。ステップS1009では、単語処理部330は、各単語について、単語確信度に応じた文字色を設定する。なお、ステップS1009の色設定処理の詳細は後述する。
ステップS1009の色設定処理の後、または、ステップS1004において取得した単語が検索対象でないと判定した後、単語処理部330は、ステップS1010の処理を行う。ステップS1010では、未処理の単語があるか否かによって処理を分岐する。未処理の単語がある場合には(YES)、ステップS1003の処理に戻り、上述した各処理を未処理の単語がなくなるまで繰り返す。一方で、未処理の単語がない場合には(NO)、ステップS1011に進む。
ステップS1011では、テキストファイル出力部340は、変換元となる画像に含まれる文字を、文字認識部310が認識した文字のテキストデータに変換したテキストファイルを出力する。また、ステップS1011で出力されるテキストファイルの文字色は、ステップS1009において設定された色とすることができる。その後、情報処理装置110は、ステップS1012においてテキストファイルを出力する処理を終了する。
図4において説明した処理によって、情報処理装置110は、単語単位で文字色が設定されたテキストデータに変換することができ、文字認識の誤検出があった場合には、ユーザたる読み手が誤検出を把握しやすくできる。
ここまで、本実施形態の情報処理装置110が実行するテキストファイルを出力する基本的な処理について説明した。以下では、本実施形態のテキストファイルを生成する処理における、色設定処理(ステップS1009)について図7を以て説明する。図7は、本実施形態の単語処理部330が実行する色設定処理を示すフローチャートである。なお、以下の図7の説明に際しては、適宜図8および図9を参照するものとする。図8および図9は、本実施形態の色設定処理がされたテキストデータの例を示す図である。
単語処理部330は、ステップS2000から色設定処理を開始する。なお、本実施形態の単語処理部330は、図4におけるステップS1009を契機にして、ステップS2000の処理を開始する。続くステップS2001では、処理対象の単語の単語確信度が所定の閾値よりも大きいか否かによって処理を分岐する。単語確信度が所定の閾値よりも大きい場合(YES)、処理はステップS2002に進む。一方で単語確信度が所定の閾値以下である場合(NO)、処理はステップS2004に進む。
まず、単語確信度が所定の閾値よりも大きい場合(YES)について説明する。かかる場合、単語処理部330は、ステップS2002において、画像における当該単語の文字画素部分の色を背景色と同じ色に設定する。また、単語処理部330は、ステップS2003において、当該単語のフォント色を、画像データの文字画素と同じ色に設定する。なお、ステップS2002およびS2003の処理は、図7の順序と逆の順序で行われてもよいし、並列して行われてもよい。その後、ステップS2006において単語処理部330は色設定処理を終了する。色設定処理が終了すると、情報処理装置110は、図4のステップS1010の処理に移行する。
ここで、図8を参照しながら色の設定について説明する。なお、図8における引き出し線および引き出し線に付随するRGB値などは、説明のために記載したものであって、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。
図8(a)は、変換元となる画像の例を示しており、ここでは、背景画素の色がR=191、G=191、B=191である背景に、文字画素の色がR=0、G=0、B=0である文字「はがき」が含まれる画像を示している。図8(a)に示す画像に対してテキストファイル出力処理を行い、単語確信度が所定の閾値よりも大きい場合について考える。
かかる場合には、単語処理部330は図7のステップS2002において、文字画素部分の色を背景画素と同じ色に設定する。図8(b)は、文字画素部分の色を背景色と同じ色にした例である。図8(b)に示すように、文字画素部分の色は、背景画素の色と同じR=191、G=191、B=191となっている。なお、図8(b)における文字の輪郭は説明の便宜のために図示したものであり、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。
また、単語処理部330は図7のステップS2003において、単語のフォント色を、変換元の画像の文字画素と同じ色に設定する。したがって、単語「はがき」のフォント色は、図8(a)の文字画素の色と同じR=0、G=0、B=0となる。このようにして設定されたフォント色の単語を、図8(b)のような背景の画像に重畳して出力することで、テキストファイル出力部340は、図8(c)に示すような形態のテキストファイルを出力できる。
なお、単語処理部330は、出力される単語のフォントのサイズを、元のサイズよりも太くする設定を行うこととしてもよい。文字画素の色を変換する処理の際にフォントサイズが小さく認識される場合があることから、上記のように文字を太くすることで、情報処理装置110は、より自然に視認できるテキストファイルを出力することができる。
説明を図7に戻す。図7のステップS2001において単語確信度が所定の閾値以下である場合(NO)、処理はステップS2004に進む。ステップS2004では、単語処理部330は、画像における当該単語の文字画素部分の色を、単語確信度に応じた色に設定する。ここで、単語確信度に応じて設定される文字画素部分の色は、例えば下記式(1-1)~(1-3)のようにして算出することができる。
Figure 2022018202000002
上記の式(1-1)~(1-3)におけるRr,Gr,Brは、設定される文字画素部分の色のRGB値を示している。式中のRb,Gb,Bbは、変換元の画像の背景画素の色のRGB値を示している。式中のCは、単語確信度の値である。式中のxは、色設定処理における確信度の重みを示しており、典型的には1/3~1/2程度の値を取る。
ステップS2004の後、単語処理部330はステップS2005において、単語のフォント色を当該単語の単語確信度に応じた色に設定する。ここで、単語確信度に応じて設定されるフォント色は、例えば下記式(2-1)~(2-3)のようにして算出することができる。
Figure 2022018202000003
上記の式(2-1)~(2-3)におけるRf,Gf,Bfは、設定されるフォント色のRGB値を示している。式中のRc,Gc,Bcは、変換元の画像の文字画素の色のRGB値を示している。式中のCは、単語確信度の値である。式中のxは、色設定処理における確信度の重みを示しており、典型的には1/3~1/2程度の値を取る。
なお、ステップS2004およびS2005の処理は、図7の順序と逆の順序で行われてもよいし、並列して行われてもよい。また、上記の式(1-1)~(1-3)および式(2-1)~(2-3)で示した色の設定は一例であって、特に実施形態を限定するものではない。ステップS2005の後、ステップS2006において単語処理部330は色設定処理を終了する。色設定処理が終了すると、情報処理装置110は、図4のステップS1010の処理に移行する。
ここで、図9を参照しながら色の設定について説明する。なお、図9における引き出し線および引き出し線に付随するRGB値などは、説明のために記載したものであって、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。
図9(a)は、図8(a)と同様に変換元となる画像の例を示しており、ここでは、背景画素の色がR=191、G=191、B=191である背景に、文字画素の色がR=0、G=0、B=0である文字「はがき」が含まれる画像を示している。図9(a)に示す画像に対してテキストファイル出力処理を行い、単語「ほがさ」として文字認識され、当該単語の単語確信度が所定の閾値以下の0.35である場合について考える。
かかる場合には、単語処理部330は図7のステップS2004において、上記の式(1-1)~(1-3)を用いて、文字画素部分の色を単語確信度に応じた色に設定する。説明する実施形態の例において上記の式(1-1)~(1-3)を用いると、文字画素部分の色は、R=243、G=243、B=243と算出される。図9(b)は、文字画素部分の色をR=243、G=243、B=243に設定して変換した例である。
また、単語処理部330は図7のステップS2005において、上記の式(2-1)~(2-3)を用いて、単語のフォント色を、単語確信度に応じた色に設定する。説明する実施形態の例において上記の式(2-1)~(2-3)を用いると、フォント色は、R=206、G=206、B=206と算出される。このようにして単語「ほがさ」のフォント色を設定し、図9(b)のような背景の画像に重畳して出力することで、テキストファイル出力部340は、図9(c)に示すような形態のテキストファイルを出力できる。単語確信度が所定の閾値よりも低い場合に出力されるテキストファイルは、図9(c)に示すように、当該単語が不自然な形態で表示される。したがって、読み手は、誤検出の可能性が高い単語を認識しやすくなる。
図7において説明した処理によって、単語処理部330は単語確信度に応じた色の設定を行うことができ、ユーザたる読み手が誤検出を把握しやすくできる。
以上、説明した本発明の実施形態によれば、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムを提供することができる。
上述した本発明の実施形態の各機能は、C、C++、C#、Java(登録商標)等で記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD-ROM、MO、DVD、フレキシブルディスク、EEPROM(登録商標)、EPROM等の装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュールなどのデバイスを含むものとする。
以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
00…システム、110…情報処理装置、120…MFP、130…ネットワーク、210…CPU、220…RAM、230…ROM、240…記憶装置、250…通信I/F、260…ディスプレイ、270…入力装置、310…文字認識部、320…文字列解析部、330…単語処理部、340…テキストファイル出力部、350…辞書データベース記憶部
特開2015-060470号公報

Claims (8)

  1. 画像データに含まれる文字を認識する認識手段を備える情報処理装置であって、
    前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理手段と、
    前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
    を含む、情報処理装置。
  2. 前記単語処理手段は、文字認識の確信度に応じて前記単語の文字色を設定する、請求項1に記載の情報処理装置。
  3. 前記単語処理手段は、文字認識の確信度に基づいて辞書データベースを参照して、前記文字列を単語化する、請求項1または2に記載の情報処理装置。
  4. 前記出力手段は、
    前記認識手段によって認識された文字を、前記画像データに含まれる文字の画素に重畳したファイルを出力する、
    請求項1~3のいずれか1項に記載の情報処理装置。
  5. 前記出力手段は、前記画像データに含まれる文字の画素の色を文字認識の確信度に応じた色に変換する、
    請求項1~4のいずれか1項に記載の情報処理装置。
  6. 前記単語処理手段は、
    前記単語が辞書データベースに記憶されている単語と一致すると判定した場合に、当該単語を構成する各文字の確信度のうち最も高い値の確信度を当該単語の確信度として、当該単語の文字色または文字の画素の変換色を設定する、
    請求項1~5のいずれか1項に記載の情報処理装置。
  7. 前記単語処理手段は、
    前記単語が辞書データベースに記憶されている単語と一致しないと判定した場合に、当該単語を構成する各文字の確信度のうち最も低い値の確信度を当該単語の確信度として、当該単語の文字色または文字の画素の変換色を設定する、
    請求項1~6のいずれか1項に記載の情報処理装置。
  8. 画像データに含まれる文字を認識する認識手段を備える情報処理装置が実行するプログラムであって、前記情報処理装置を
    前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色または文字の画素の変換色を設定する単語処理手段と、
    前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
    として機能させる、プログラム。


JP2020121135A 2020-07-15 2020-07-15 情報処理装置およびプログラム Pending JP2022018202A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020121135A JP2022018202A (ja) 2020-07-15 2020-07-15 情報処理装置およびプログラム
US17/305,407 US20220019833A1 (en) 2020-07-15 2021-07-07 Information processing apparatus, information processing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020121135A JP2022018202A (ja) 2020-07-15 2020-07-15 情報処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2022018202A true JP2022018202A (ja) 2022-01-27

Family

ID=79292525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020121135A Pending JP2022018202A (ja) 2020-07-15 2020-07-15 情報処理装置およびプログラム

Country Status (2)

Country Link
US (1) US20220019833A1 (ja)
JP (1) JP2022018202A (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798943B2 (en) * 2014-06-09 2017-10-24 I.R.I.S. Optical character recognition method
JP6950320B2 (ja) * 2017-07-18 2021-10-13 京セラドキュメントソリューションズ株式会社 画像処理装置
JP7241506B2 (ja) * 2018-10-30 2023-03-17 ウイングアーク1st株式会社 光学式文字認識結果の修正支援装置および修正支援用プログラム
WO2020194004A1 (en) * 2019-03-28 2020-10-01 The Nielsen Company (Us), Llc Methods and apparatus to detect a text region of interest in a digital image using machine-based analysis
JP2021144307A (ja) * 2020-03-10 2021-09-24 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
US20220019833A1 (en) 2022-01-20

Similar Documents

Publication Publication Date Title
JP5647919B2 (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
CN111985464B (zh) 面向法院判决文书的多尺度学习的文字识别方法及系统
US10867171B1 (en) Systems and methods for machine learning based content extraction from document images
RU2437152C2 (ru) Устройство обработки изображений, способ и компьютерная программа обработки изображений
RU2643465C2 (ru) Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
US20060285748A1 (en) Document processing device
JP2011065646A (ja) 文字列認識装置及び文字列認識方法
JP2010157107A (ja) 業務文書処理装置
CN111401099B (zh) 文本识别方法、装置以及存储介质
JP5249387B2 (ja) 画像処理装置、画像処理方法、及びプログラム
EP2806336A1 (en) Text prediction in a text input associated with an image
JP6937508B2 (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
CN115797706A (zh) 目标检测方法、目标检测模型训练方法及相关装置
CN110991303A (zh) 一种图像中文本定位方法、装置及电子设备
JP2022018202A (ja) 情報処理装置およびプログラム
US20150254884A1 (en) Information processing apparatus and non-transitory computer readable medium
RU2657181C1 (ru) Способ улучшения качества распознавания отдельного кадра
WO2022004097A1 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
US20150169973A1 (en) Incomplete patterns
Rao et al. MTESSERACT: An Application for Form Recognition in Courier Services
RU2703270C1 (ru) Оптическое распознавание символов посредством применения специализированных функций уверенности, реализуемое на базе нейронных сетей
JP2009140478A (ja) 画像処理装置及び画像処理方法
CN111753836A (zh) 文字识别方法、装置、计算机可读介质及电子设备
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP6593559B1 (ja) 画像処理装置、プログラム及びデータ構造

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240509

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20240509