JP2022018202A

JP2022018202A - 情報処理装置およびプログラム

Info

Publication number: JP2022018202A
Application number: JP2020121135A
Authority: JP
Inventors: 宏幸作山; Hiroyuki Sakuyama
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-01-27
Also published as: US20220019833A1

Abstract

【課題】テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムを提供すること。【解決手段】画像データに含まれる文字を認識する文字認識部３１０を備える情報処理装置１１０であって、文字認識部３１０が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理部３３０と、単語処理部３３０による設定に基づいて、画像データに含まれる文字をテキストデータに変換したファイルを出力するテキストファイル出力部３４０とを含む。【選択図】図３

Description

本発明は、画像に含まれる文字列のテキストファイルを出力する情報処理装置およびプログラムに関する。

文書が印刷された用紙をスキャンし、ＯＣＲなどの文字認識によって当該文書の内容をＯｆｆｉｃｅＯｐｅｎＸＭＬＤｏｃｕｍｅｎｔ形式のファイルに変換する処理が知られている。かかる処理によって、紙ベースの文書をテキストデータのファイルに変換できるため、パソコンなどによって文書の再編集を行うことができる。

文字認識によってテキストデータを生成する技術として、例えば特開２０１５－０６０４７０号公報（特許文献１）が挙げられる。特許文献１では、手書き入力された文字に、テキストデータを重畳して表示する技術が開示されている。特許文献１は、入力された文字の色を薄くしたうえで、認識した文字を重畳して表示する構成を示している。

ところで、文字認識によって画像データからテキストファイルを出力すると、画像内の文字が正しく検出されない場合がある。かかる場合において、特許文献１を始めとする従来技術においては、上述したような文字の色を薄くするなどの処理が単語単位ではなく文字単位で行われるため、ユーザたる読み手が誤検出された文字を認識しにくく、テキストを再編集する観点から、利便性が損なわれていた。

本発明は、上記従来技術における課題に鑑みてなされたものであり、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムを提供することを目的とする。

すなわち、本発明によれば、
画像データに含まれる文字を認識する認識手段を備える情報処理装置であって、
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
を含む、情報処理装置が提供される。

本発明によれば、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムが提供できる。

本実施形態におけるシステム全体のハードウェアの概略構成を示す図。本実施形態の情報処理装置に含まれるハードウェア構成を示す図。本実施形態の情報処理装置に含まれるソフトウェアブロック図。本実施形態においてテキストファイルを出力する処理を示すフローチャート。本実施形態における文字認識を説明する図。本実施形態における単語確信度を説明する図。本実施形態の単語処理部が実行する色設定処理を示すフローチャート。本実施形態の色設定処理がされたテキストデータの例を示す図。本実施形態の色設定処理がされたテキストデータの例を示す図。

以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜その説明を省略するものとする。

図１は、本実施形態におけるシステム１００全体のハードウェアの概略構成を示す図である。図１では、例として、情報処理装置１１０と、ＭＦＰ（Multi-Function Peripheral）１２０とが、インターネットやＬＡＮなどのネットワーク１３０を介して接続された環境を例示している。なお、情報処理装置１１０やＭＦＰ１２０から、ネットワーク１３０へ接続する方法は、有線または無線のどちらでもよい。

情報処理装置１１０は、パソコン端末などの装置である。情報処理装置１１０は、ＭＦＰ１２０への印刷ジョブの送信、ＭＦＰ１２０がスキャンした画像の取得、当該画像のテキストファイル化、テキストファイルの表示、編集などの処理を行うことができる。

ＭＦＰ１２０は、印刷ジョブに基づくプリント処理や、用紙を読み取ることによるスキャン処理などを行う。なお、他の実施形態では、ＭＦＰ１２０が画像を処理し、画像内の文字列をテキストファイルに変換することとしてもよい。

次に、情報処理装置１１０のハードウェア構成について説明する。図２は、本実施形態の情報処理装置１１０に含まれるハードウェア構成を示す図である。情報処理装置１１０は、ＣＰＵ２１０と、ＲＡＭ２２０と、ＲＯＭ２３０と、記憶装置２４０と、通信Ｉ／Ｆ２５０と、ディスプレイ２６０と、入力装置２７０とを含んで構成され、各ハードウェアはバスを介して接続されている。

ＣＰＵ２１０は、情報処理装置１１０の動作を制御するプログラムを実行し、所定の処理を行う装置である。ＲＡＭ２２０は、ＣＰＵ２１０が実行するプログラムの実行空間を提供するための揮発性の記憶装置であり、プログラムやデータの格納用、展開用として使用される。ＲＯＭ２３０は、ＣＰＵ２１０が実行するプログラムやファームウェアなどを記憶するための不揮発性の記憶装置である。

記憶装置２４０は、情報処理装置１１０を機能させるＯＳや種々のソフトウェア、設定情報、各種データなどを記憶する、読み書き可能な不揮発性の記憶装置である。記憶装置２４０の一例としては、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などが挙げられる。

通信Ｉ／Ｆ２５０は、情報処理装置１１０とネットワーク１３０とを接続し、ネットワーク１３０を介して他の装置との通信を可能にする。ネットワーク１３０を介した通信は、有線通信または無線通信のいずれであってもよく、ＴＣＰ／ＩＰなどの所定の通信プロトコルを使用し、各種データを送受信できる。

ディスプレイ２６０は、各種データや情報処理装置１１０の状態などを、ユーザに対して表示する装置であり、例として、ＬＣＤ（Liquid Crystal Display）などが挙げられる。入力装置２７０は、ユーザが情報処理装置１１０を操作するための装置であり、例として、キーボード、マウスなどが挙げられる。なお、ディスプレイ２６０と入力装置２７０は、それぞれ別個の装置であってもよいし、タッチパネルディスプレイのような両方の機能を備えるものであってもよい。

以上、本実施形態の情報処理装置１１０に含まれるハードウェア構成について説明した。次に、本実施形態における各ハードウェアによって実行される機能手段について、図３を以て説明する。

図３は、本実施形態の情報処理装置１１０に含まれるソフトウェアブロック図である。本実施形態の情報処理装置１１０は、文字認識部３１０、文字列解析部３２０、単語処理部３３０、テキストファイル出力部３４０、辞書データベース記憶部３５０の各モジュールを含む。

文字認識部３１０は、画像データに対してＯＣＲ（Optical Character Recognition）処理を行い、画像に含まれる文字を認識する手段である。文字認識の対象となる画像データは特に限定されず、例えば、ＭＦＰ１２０などがスキャンしたデータ、カメラで撮影したデータ、タッチパネルディスプレイを介して描画されたデータなどが挙げられる。文字認識部３１０は、文字の位置、大きさ、文字種などといった言語のルール（以下、単に「ルール」として参照する場合がある）に基づいて、文字を認識することができる。また、本実施形態の文字認識部３１０は、認識した各文字における文字認識の確からしさを示す確信度（以下、「文字確信度」として参照する）を算出できる。

文字列解析部３２０は、文字認識部３１０によって認識された複数の文字から構成される文字列を解析する手段である。文字列解析部３２０は、例えば形態素解析を行うことで、文字列を意味のある単語に区切る（以下、「単語化」として参照する）。また、本実施形態の文字列解析部３２０は、ルールや組み合わせなどの要素を総合的に判断して、単語を生成することができる。

単語処理部３３０は、文字列解析部３２０が生成した単語に対して、テキストデータ化する際の文字色を設定する処理を行う手段である。単語処理部３３０は、文字列解析部３２０が生成した単語が、後述する辞書データベース記憶部３５０に登録されている単語（以下、「登録単語」として参照する）であるか否か、単語を構成する文字の文字確信度などに基づいて、文字色を設定する。

テキストファイル出力部３４０は、変換元となる画像に含まれる文字をテキストデータに変換して、ＯｆｆｉｃｅＯｐｅｎＸＭＬＤｏｃｕｍｅｎｔ形式のファイルを出力する手段である。テキストファイル出力部３４０が出力するテキストファイルは、単語処理部３３０が設定した文字色で以て文字列をテキストデータに変換する。テキストファイル出力部３４０が出力したテキストファイルは、テキストの再編集の用に供される。

辞書データベース記憶部３５０は、記憶装置２４０を制御し、辞書データベースを記憶する手段である。本実施形態における辞書データベースは、生成された単語を置き換えるための登録単語を格納することができる。また、本実施形態では、辞書データベースの容量を節約する観点から、辞書データベースに格納される登録単語は、品詞や文字数などに制限が設けられてもよい。一例として、本実施形態の辞書データベースには、３文字以上５文字以下の名詞が登録される。

なお、本実施形態の辞書データベースは、機械学習の学習効果によって生成されたものでもよい。また、認識された文字列に含まれうるキーワードと変換候補となる登録単語とを機械学習にて分類付けすることで、辞書データベースを使用しなくてもよい。

ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを，事前に取り込まれる学習データから自律的に生成し，新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

なお、上述したソフトウェアブロックは、ＣＰＵ２１０が本実施形態のプログラムを実行することで、各ハードウェアを機能させることにより、実現される機能手段に相当する。また、各実施形態に示した機能手段は、全部がソフトウェア的に実現されても良いし、その一部または全部を同等の機能を提供するハードウェアとして実装することもできる。

さらに、上述した各機能手段は、必ずしも全てが図３に示すような構成で含まれていなくてもよい。例えば、他の好ましい実施形態では、各機能手段は、情報処理装置１１０と、ＭＦＰ１２０との協働によって実現されてもよい。

次に、上述した各機能手段が実行する処理について、図４を以て説明する。図４は、本実施形態においてテキストファイルを出力する処理を示すフローチャートである。

本実施形態の情報処理装置１１０は、ステップＳ１０００からテキストファイルを出力する処理を開始する。ステップＳ１００１では、文字認識部３１０は、画像に含まれる文字を認識する。また、ステップＳ１００１において文字認識部３１０は、文字認識を行うとともに、各文字の文字確信度を算出する。ここで、本実施形態における文字認識について図５を以て説明する。図５は、本実施形態における文字認識を説明する図である。

図５（ａ）は、変換元となる画像の例を示している。以下の説明は、図５（ａ）に示すように、濃い色の背景に「はがき」という黒色の文字が含まれる画像をテキストファイルに変換する場合を例示する。文字認識部３１０は、図５（ａ）の変換元画像が入力されると、図５（ｂ）のように、文字に外接する矩形を抽出する。

文字認識部３１０は、文字矩形を抽出したあと、図５（ｃ）に示すように、文字画素と背景画素とを分離する。図５（ｃ）の上段は、文字矩形に相当する背景画素が分離された例（但し、原文字画素の色を背景と同じ色に変換している）を示している。また、図５（ｃ）の下段は、文字矩形内の文字画素（「は」、「が」、「き」）が分離された例を示している。

その後、文字認識部３１０は、図５（ｃ）下段に示す文字画素「はがき」について文字の認識をする。また、文字認識部３１０は、文字の認識に伴い、各文字の文字確信度を算出する。文字確信度は、正しく文字を認識した確率を示し、０から１の間の値を取るものとする。本実施形態の文字確信度は、例えば、ルールに適合しているか否かなどの情報を証拠として、デンプスター・シェーファーの確率理論などによって算出することができる。図５（ｄ－１）～（ｄ－３）は、文字認識結果および算出された文字確信度の例を示している。

図５（ｄ－１）は、文字画素「はがき」に対して「はがき」という文字が認識された例を示している。また、図５（ｄ－１）は、「は」の文字確信度が０．８０、「が」の文字確信度が０．８５、「き」の文字確信度が「０．８２」と評価された場合の例を示している。図５（ｄ－１）に示す各文字の文字確信度は、文字画素「はがき」に対して「はがき」という文字が認識されていることから、比較的高い値が算出される。

図５（ｄ－２）は、文字画素「はがき」に対して「はがさ」という文字が認識された例を示している。また、図５（ｄ－３）は、「は」の文字確信度が０．８０、「が」の文字確信度が０．８５、「さ」の文字確信度が「０．６０」と評価された場合の例を示している。図５（ｄ－２）に示す例では、文字画素「はがき」に対して「はがさ」という文字が認識されていることから、「は」および「が」の文字確信度は比較的高い値が算出される一方で、「さ」の文字確信度は比較的低い値が算出される。

図５（ｄ－３）は、文字画素「はがき」に対して「ほがさ」という文字が認識された例を示している。また、図５（ｄ－３）は、「ほ」の文字確信度が０．３５、「が」の文字確信度が０．８５、「さ」の文字確信度が「０．４０」と評価された場合の例を示している。図５（ｄ－３）に示す例では、文字画素「はがき」に対して「ほがさ」という文字が認識されていることから、「が」の文字確信度は比較的高い値が算出される一方で、「ほ」および「さ」の文字確信度は比較的低い値が算出される。

なお、上述した一連の文字認識処理における方法は特に限定されず、例えば、像域分離やパターンマッチングなど既知の方法を採用することができる。

説明を図４に戻す。ステップＳ１００１において文字を認識したあと、ステップＳ１００２では、文字列解析部３２０は、認識された複数の文字から構成される文字列を単語化する。ステップＳ１００２における単語化は、例えば、形態素解析などによって行われ得る。ステップＳ１００２で生成された単語は、一時的に記憶装置２４０に格納されてもよい。

その後、ステップＳ１００３以降の処理において、単語処理部３３０は、生成された単語について、テキストデータに変換するための処理を行う。ステップＳ１００３では、単語処理部３３０は、複数の単語のうち未処理の単語を取得する。続くステップＳ１００４では、取得した単語が検索対象の単語であるか否かによって処理が分岐する。ここで、検索対象の単語であるか否かの判定は、例えば、取得した単語の品詞や文字数などに基づいて行うことができる。このようにして、検索対象であるか否かを判定することで、辞書データベースに登録されていない単語に対しては検索を行わないため、単語の変換処理を効率化できる。取得した単語が検索対象でない場合には（ＮＯ）、ステップＳ１０１０に進む。ステップＳ１０１０についての詳細は後述する。また、取得した単語が検索対象である場合には（ＹＥＳ）、ステップＳ１００５に進む。

ステップＳ１００５では、単語処理部３３０は検索対象の単語に基づいて辞書データベースを検索し、マッチする登録単語が辞書データベースに格納されているか否かによって処理を分岐する。なお、登録単語とマッチするか否かの判定は、例えば、単語を構成する文字と登録単語の文字とが一致する割合が所定の閾値よりも高いか否かに基づいて行われ得る。以下に説明する実施形態の一例では、閾値を６０％とし、文字マッチ率が閾値よりも高い場合には登録単語とマッチすると判定する。

ステップＳ１００５において辞書データベースにマッチする登録単語が格納されている場合には（ＹＥＳ）、ステップＳ１００６に進む。単語処理部３３０はステップＳ１００６において、辞書データベースに格納されている登録単語のうち、処理対象の単語とのマッチ率が最も高い登録単語を抽出し、処理対象の単語を当該登録単語に置換する。その後、単語処理部３３０は、ステップＳ１００７において、処理対象となっている単語の確からしさを示す確信度（以下、「単語確信度」として参照する）の値を、当該単語を構成する文字の文字確信度のうち最も高い文字確信度の値のものに設定する。

一方で、ステップＳ１００５において辞書データベースにマッチする登録単語が格納されていない場合には（ＮＯ）、ステップＳ１００８に進む。ステップＳ１００８では、単語処理部３３０は、処理対象の単語の単語確信度の値を、当該単語を構成する文字の文字確信度のうち最も低い文字確信度の値のものに設定する。

ここで、ステップＳ１００７およびＳ１００８における単語確信度の設定について、図６を以て説明する。図６は、本実施形態における単語確信度を説明する図である。図６では、図５（ｄ－１）～（ｄ－３）のように認識された文字について、辞書データベースを検索し、単語確信度を設定する例を図６（ａ－１）～（ａ－３）にそれぞれ示している。なお、図６における実施形態の説明では、辞書データベースには登録単語として「はがき」が格納されているものとする。

まず、図６（ａ－１）について説明する。図５（ｄ－１）のように「はがき」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「はがき」と登録単語「はがき」とは、３文字中３文字が一致していることから、図６（ａ－１）のように、文字マッチ率が１００％であると判定される。したがって、文字マッチ率の閾値である６０％を超えていることから、検索対象の文字列「はがき」は、登録単語「はがき」と一致するものとして置換される。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も高い値である文字「が」の０．８５が、当該単語の単語確信度として設定される。

次に、図６（ａ－２）について説明する。図５（ｄ－２）のように「はがさ」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「はがさ」と登録単語「はがき」とは、３文字中２文字が一致していることから、図６（ａ－２）のように、文字マッチ率が６７％であると判定される。したがって、文字マッチ率の閾値である６０％を超えていることから、検索対象の文字列「はがさ」は、登録単語「はがき」と一致するものとして置換される。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も高い値である文字「が」の０．８５が、当該単語の単語確信度として設定される。

次に、図６（ａ－３）について説明する。図５（ｄ－３）のように「ほがさ」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「ほがさ」と登録単語「はがき」とは、３文字中１文字が一致していることから、図６（ａ－３）のように、文字マッチ率が３３％であると判定される。したがって、文字マッチ率の閾値である６０％以下であることから、検索対象の文字列「はがさ」は、登録単語との置換が行われない。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も低い値である文字「ほ」の０．３５が、当該単語の単語確信度として設定される。

なお、検索の結果、文字マッチ率が同じである登録単語が複数抽出された場合には、例えば、文字確信度の和を比較することで、登録単語との置換の正確性を向上できる。

再び説明を図４に戻す。ステップＳ１００７では、単語処理部３３０は、図６（ａ－１）、（ａ－２）のようにして単語確信度を設定する。また、ステップＳ１００８では、単語処理部３３０は、図６（ａ－３）のようにして単語確信度を設定する。ステップＳ１００７またはＳ１００８にて単語確信度を設定した後、単語処理部３３０は、ステップＳ１００９においてテキストデータに変換される単語の色設定処理を行う。ステップＳ１００９では、単語処理部３３０は、各単語について、単語確信度に応じた文字色を設定する。なお、ステップＳ１００９の色設定処理の詳細は後述する。

ステップＳ１００９の色設定処理の後、または、ステップＳ１００４において取得した単語が検索対象でないと判定した後、単語処理部３３０は、ステップＳ１０１０の処理を行う。ステップＳ１０１０では、未処理の単語があるか否かによって処理を分岐する。未処理の単語がある場合には（ＹＥＳ）、ステップＳ１００３の処理に戻り、上述した各処理を未処理の単語がなくなるまで繰り返す。一方で、未処理の単語がない場合には（ＮＯ）、ステップＳ１０１１に進む。

ステップＳ１０１１では、テキストファイル出力部３４０は、変換元となる画像に含まれる文字を、文字認識部３１０が認識した文字のテキストデータに変換したテキストファイルを出力する。また、ステップＳ１０１１で出力されるテキストファイルの文字色は、ステップＳ１００９において設定された色とすることができる。その後、情報処理装置１１０は、ステップＳ１０１２においてテキストファイルを出力する処理を終了する。

図４において説明した処理によって、情報処理装置１１０は、単語単位で文字色が設定されたテキストデータに変換することができ、文字認識の誤検出があった場合には、ユーザたる読み手が誤検出を把握しやすくできる。

ここまで、本実施形態の情報処理装置１１０が実行するテキストファイルを出力する基本的な処理について説明した。以下では、本実施形態のテキストファイルを生成する処理における、色設定処理（ステップＳ１００９）について図７を以て説明する。図７は、本実施形態の単語処理部３３０が実行する色設定処理を示すフローチャートである。なお、以下の図７の説明に際しては、適宜図８および図９を参照するものとする。図８および図９は、本実施形態の色設定処理がされたテキストデータの例を示す図である。

単語処理部３３０は、ステップＳ２０００から色設定処理を開始する。なお、本実施形態の単語処理部３３０は、図４におけるステップＳ１００９を契機にして、ステップＳ２０００の処理を開始する。続くステップＳ２００１では、処理対象の単語の単語確信度が所定の閾値よりも大きいか否かによって処理を分岐する。単語確信度が所定の閾値よりも大きい場合（ＹＥＳ）、処理はステップＳ２００２に進む。一方で単語確信度が所定の閾値以下である場合（ＮＯ）、処理はステップＳ２００４に進む。

まず、単語確信度が所定の閾値よりも大きい場合（ＹＥＳ）について説明する。かかる場合、単語処理部３３０は、ステップＳ２００２において、画像における当該単語の文字画素部分の色を背景色と同じ色に設定する。また、単語処理部３３０は、ステップＳ２００３において、当該単語のフォント色を、画像データの文字画素と同じ色に設定する。なお、ステップＳ２００２およびＳ２００３の処理は、図７の順序と逆の順序で行われてもよいし、並列して行われてもよい。その後、ステップＳ２００６において単語処理部３３０は色設定処理を終了する。色設定処理が終了すると、情報処理装置１１０は、図４のステップＳ１０１０の処理に移行する。

ここで、図８を参照しながら色の設定について説明する。なお、図８における引き出し線および引き出し線に付随するＲＧＢ値などは、説明のために記載したものであって、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。

図８（ａ）は、変換元となる画像の例を示しており、ここでは、背景画素の色がＲ＝１９１、Ｇ＝１９１、Ｂ＝１９１である背景に、文字画素の色がＲ＝０、Ｇ＝０、Ｂ＝０である文字「はがき」が含まれる画像を示している。図８（ａ）に示す画像に対してテキストファイル出力処理を行い、単語確信度が所定の閾値よりも大きい場合について考える。

かかる場合には、単語処理部３３０は図７のステップＳ２００２において、文字画素部分の色を背景画素と同じ色に設定する。図８（ｂ）は、文字画素部分の色を背景色と同じ色にした例である。図８（ｂ）に示すように、文字画素部分の色は、背景画素の色と同じＲ＝１９１、Ｇ＝１９１、Ｂ＝１９１となっている。なお、図８（ｂ）における文字の輪郭は説明の便宜のために図示したものであり、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。

また、単語処理部３３０は図７のステップＳ２００３において、単語のフォント色を、変換元の画像の文字画素と同じ色に設定する。したがって、単語「はがき」のフォント色は、図８（ａ）の文字画素の色と同じＲ＝０、Ｇ＝０、Ｂ＝０となる。このようにして設定されたフォント色の単語を、図８（ｂ）のような背景の画像に重畳して出力することで、テキストファイル出力部３４０は、図８（ｃ）に示すような形態のテキストファイルを出力できる。

なお、単語処理部３３０は、出力される単語のフォントのサイズを、元のサイズよりも太くする設定を行うこととしてもよい。文字画素の色を変換する処理の際にフォントサイズが小さく認識される場合があることから、上記のように文字を太くすることで、情報処理装置１１０は、より自然に視認できるテキストファイルを出力することができる。

説明を図７に戻す。図７のステップＳ２００１において単語確信度が所定の閾値以下である場合（ＮＯ）、処理はステップＳ２００４に進む。ステップＳ２００４では、単語処理部３３０は、画像における当該単語の文字画素部分の色を、単語確信度に応じた色に設定する。ここで、単語確信度に応じて設定される文字画素部分の色は、例えば下記式（１－１）～（１－３）のようにして算出することができる。

上記の式（１－１）～（１－３）におけるＲｒ，Ｇｒ，Ｂｒは、設定される文字画素部分の色のＲＧＢ値を示している。式中のＲｂ，Ｇｂ，Ｂｂは、変換元の画像の背景画素の色のＲＧＢ値を示している。式中のＣは、単語確信度の値である。式中のｘは、色設定処理における確信度の重みを示しており、典型的には１／３～１／２程度の値を取る。

ステップＳ２００４の後、単語処理部３３０はステップＳ２００５において、単語のフォント色を当該単語の単語確信度に応じた色に設定する。ここで、単語確信度に応じて設定されるフォント色は、例えば下記式（２－１）～（２－３）のようにして算出することができる。

上記の式（２－１）～（２－３）におけるＲｆ，Ｇｆ，Ｂｆは、設定されるフォント色のＲＧＢ値を示している。式中のＲｃ，Ｇｃ，Ｂｃは、変換元の画像の文字画素の色のＲＧＢ値を示している。式中のＣは、単語確信度の値である。式中のｘは、色設定処理における確信度の重みを示しており、典型的には１／３～１／２程度の値を取る。

なお、ステップＳ２００４およびＳ２００５の処理は、図７の順序と逆の順序で行われてもよいし、並列して行われてもよい。また、上記の式（１－１）～（１－３）および式（２－１）～（２－３）で示した色の設定は一例であって、特に実施形態を限定するものではない。ステップＳ２００５の後、ステップＳ２００６において単語処理部３３０は色設定処理を終了する。色設定処理が終了すると、情報処理装置１１０は、図４のステップＳ１０１０の処理に移行する。

ここで、図９を参照しながら色の設定について説明する。なお、図９における引き出し線および引き出し線に付随するＲＧＢ値などは、説明のために記載したものであって、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。

図９（ａ）は、図８（ａ）と同様に変換元となる画像の例を示しており、ここでは、背景画素の色がＲ＝１９１、Ｇ＝１９１、Ｂ＝１９１である背景に、文字画素の色がＲ＝０、Ｇ＝０、Ｂ＝０である文字「はがき」が含まれる画像を示している。図９（ａ）に示す画像に対してテキストファイル出力処理を行い、単語「ほがさ」として文字認識され、当該単語の単語確信度が所定の閾値以下の０．３５である場合について考える。

かかる場合には、単語処理部３３０は図７のステップＳ２００４において、上記の式（１－１）～（１－３）を用いて、文字画素部分の色を単語確信度に応じた色に設定する。説明する実施形態の例において上記の式（１－１）～（１－３）を用いると、文字画素部分の色は、Ｒ＝２４３、Ｇ＝２４３、Ｂ＝２４３と算出される。図９（ｂ）は、文字画素部分の色をＲ＝２４３、Ｇ＝２４３、Ｂ＝２４３に設定して変換した例である。

また、単語処理部３３０は図７のステップＳ２００５において、上記の式（２－１）～（２－３）を用いて、単語のフォント色を、単語確信度に応じた色に設定する。説明する実施形態の例において上記の式（２－１）～（２－３）を用いると、フォント色は、Ｒ＝２０６、Ｇ＝２０６、Ｂ＝２０６と算出される。このようにして単語「ほがさ」のフォント色を設定し、図９（ｂ）のような背景の画像に重畳して出力することで、テキストファイル出力部３４０は、図９（ｃ）に示すような形態のテキストファイルを出力できる。単語確信度が所定の閾値よりも低い場合に出力されるテキストファイルは、図９（ｃ）に示すように、当該単語が不自然な形態で表示される。したがって、読み手は、誤検出の可能性が高い単語を認識しやすくなる。

図７において説明した処理によって、単語処理部３３０は単語確信度に応じた色の設定を行うことができ、ユーザたる読み手が誤検出を把握しやすくできる。

以上、説明した本発明の実施形態によれば、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムを提供することができる。

上述した本発明の実施形態の各機能は、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）等で記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、フレキシブルディスク、ＥＥＰＲＯＭ（登録商標）、ＥＰＲＯＭ等の装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。

上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュールなどのデバイスを含むものとする。

以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

００…システム、１１０…情報処理装置、１２０…ＭＦＰ、１３０…ネットワーク、２１０…ＣＰＵ、２２０…ＲＡＭ、２３０…ＲＯＭ、２４０…記憶装置、２５０…通信Ｉ／Ｆ、２６０…ディスプレイ、２７０…入力装置、３１０…文字認識部、３２０…文字列解析部、３３０…単語処理部、３４０…テキストファイル出力部、３５０…辞書データベース記憶部

特開２０１５－０６０４７０号公報

Claims

画像データに含まれる文字を認識する認識手段を備える情報処理装置であって、
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
を含む、情報処理装置。
前記単語処理手段は、文字認識の確信度に応じて前記単語の文字色を設定する、請求項１に記載の情報処理装置。
前記単語処理手段は、文字認識の確信度に基づいて辞書データベースを参照して、前記文字列を単語化する、請求項１または２に記載の情報処理装置。
前記出力手段は、
前記認識手段によって認識された文字を、前記画像データに含まれる文字の画素に重畳したファイルを出力する、
請求項１～３のいずれか１項に記載の情報処理装置。
前記出力手段は、前記画像データに含まれる文字の画素の色を文字認識の確信度に応じた色に変換する、
請求項１～４のいずれか１項に記載の情報処理装置。
前記単語処理手段は、
前記単語が辞書データベースに記憶されている単語と一致すると判定した場合に、当該単語を構成する各文字の確信度のうち最も高い値の確信度を当該単語の確信度として、当該単語の文字色または文字の画素の変換色を設定する、
請求項１～５のいずれか１項に記載の情報処理装置。
前記単語処理手段は、
前記単語が辞書データベースに記憶されている単語と一致しないと判定した場合に、当該単語を構成する各文字の確信度のうち最も低い値の確信度を当該単語の確信度として、当該単語の文字色または文字の画素の変換色を設定する、
請求項１～６のいずれか１項に記載の情報処理装置。
画像データに含まれる文字を認識する認識手段を備える情報処理装置が実行するプログラムであって、前記情報処理装置を
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色または文字の画素の変換色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
として機能させる、プログラム。