JP2014120059A

JP2014120059A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2014120059A
Application number: JP2012276018A
Authority: JP
Inventors: Eiichi Tanaka; 瑛一田中
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2012-12-18
Filing date: 2012-12-18
Publication date: 2014-06-30
Anticipated expiration: 2032-12-18
Also published as: CN103870800A; CN103870800B; US20140169676A1; JP5888222B2

Abstract

【課題】品詞尤度と文字類似度の両方が含まれる特徴量ベクトルを用いて、文字認識結果の各文字の確信度を算出するようにした情報処理装置を提供する。
【解決手段】情報処理装置の形態素解析手段は、文字認識結果に対して形態素解析を行い、特徴量ベクトル作成手段は、前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するＰ種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるＰ＋１個の要素の特徴量ベクトルを作成し、確信度算出手段は、前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する。
【選択図】図１

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、形態素解析を利用して誤読文字の検出、その訂正処理を行う文字認識後処理方式において、文字認識で求めた距離値による誤読検出を予め第１位候補文字全部に対して行っておき、それを形態素解析により見のがされた誤読文字の検出に利用することが開示されている。

特許文献２には、誤読検出率の高い誤読検出を可能として誤読修正作業を簡略化し、所要時間を短縮することを課題とし、文字認識装置の認識結果に未登録語検出を含む誤読修正処理をした後のデータに対し、誤読検出部にて字形類似漢字１文字体言辞書，字形類似文字を含む単語辞書，低頻度カタカナ連接文字列，かっこの字形類似文字データ等を参照して、誤読又は誤読を含む可能性が高いと考えられる部分を高精度に検出できるようにすることが開示されている。

特許文献３には、認識結果文字の確からしさを、高精度に評価することを課題とし、言語処理確信度算出部で、言語処理部からの情報を用いて言語処理確信度テーブルより確信度を検索し、この確信度が高い場合、それを認識結果文字の確信度として出力し、この確信度が低い場合には、各処理確信度計算部で各処理部より提供されたパラメータを用いて各処理毎の確信度を求め、これらと言語処理の確信度を、重み付けを制御して合成統合し、最終的な確信度を決定し、それを認識結果文字の確信度として出力することが開示されている。

非特許文献１には、ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ（ＣＲＦ）に基づく日本語形態素解析が開示されている。
非特許文献２には、誤りを含む文を解析した場合には解析結果のコストが大きくなることを利用して、解析結果の各単語のコストをしきい値と比較することによって誤りを検出するというコスト比較法が開示されている。
非特許文献３には、日本語文書中の表記誤りのうち、かな漢字変換の選択誤りや誤字・脱字・余字の誤りを検出することを目的に、正文を形態素解析して得られた品詞Ｎ−ｇｒａｍ統計情報とヒューリスティックルールを用いて、日本語文書中の表記誤りを検出する方式が開示されている。

特開昭６３−２４３８１号公報特開平０５−８９２８１号公報特開平０９−１３４４１０号公報

Taku Kudo, Kaoru Yamamoto, Yuji Matsumoto, "Applyingconditional random fields to Japanese morphological analysis," In Proc. ofEMNLP, pp2330-237， 2004. 下村秀樹，並木美太郎，中川正樹，高橋延匡，"最小コストパス探索モデルの形態素解析に基づく日本文誤り検出の一方式，"情報処理学会論文誌，Vol33, No 4, Apr, 1992. 石場正大，竹山哲夫，青木恒夫，兵藤安昭，池田尚志，"品詞Ｎ−ｇｒａｍ統計情報を用いた日本語文書における誤り検出法について，"音声言語情報処理，19-15,pp95-100, 12 Dec, 1997

本発明は、品詞尤度と文字類似度の両方が含まれる特徴量ベクトルを用いて、文字認識結果の各文字の確信度を算出するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、文字認識結果に対して形態素解析を行う形態素解析手段と、前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するＰ種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるＰ＋１個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する確信度算出手段を具備することを特徴とする情報処理装置である。

請求項２の発明は、前記品詞尤度について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞の品詞尤度を１として、それ以外の品詞の品詞尤度を０とすることを特徴とする請求項１に記載の情報処理装置である。

請求項３の発明は、前記特徴量ベクトル作成手段は、前記文字類似度を、単文字に対する文字認識結果の文字類似度が高い上位Ｎ個の文字それぞれの文字類似度について、前記形態素解析手段による形態素解析を行う対象である文字認識結果の文字類似度を、該Ｎ個の文字類似度で正規化した値とすることを特徴とする請求項１及び２に記載の情報処理装置である。

請求項４の発明は、前記確信度に対して、予め定められた閾値との比較により、文字認識結果の正誤を判定する判定手段をさらに具備することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置である。

請求項５の発明は、前記確信度を前記文字認識結果に付与する付与手段と、前記付与手段によって確信度が付与された文字認識結果を該確信度の高低に対応して強調表示する表示手段をさらに具備することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置である。

請求項６の発明は、前記判定手段によって誤りと判定された文字を、文字認識結果から削除する削除手段をさらに具備することを特徴とする請求項４に記載の情報処理装置である。

請求項７の発明は、前記判定手段によって誤りと判定された文字を、他の文字で置き換える置換手段をさらに具備することを特徴とする請求項４に記載の情報処理装置である。

請求項８の発明は、検索キーに対して、前記判定手段によって誤りと判定された文字を、ワイルドカードとして検索を行う検索手段をさらに具備することを特徴とする請求項４に記載の情報処理装置である。

請求項９の発明は、コンピュータを、文字認識結果に対して形態素解析を行う形態素解析手段と、前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するＰ種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるＰ＋１個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する確信度算出手段として機能させるための情報処理プログラムである。

請求項１の情報処理装置によれば、品詞尤度と文字類似度の両方が含まれる特徴量ベクトルを用いて、文字認識結果の各文字の確信度を算出することができる。

請求項２の情報処理装置によれば、対象の文字が属する単語の品詞の品詞尤度を１として、それ以外の品詞の品詞尤度を０とした特徴量ベクトルを作成することができる。

請求項３の情報処理装置によれば、正規化した文字類似度を用いた特徴量ベクトルを作成することができる。

請求項４の情報処理装置によれば、確信度を用いて文字認識結果の正誤を判定することができる。

請求項５の情報処理装置によれば、確信度の高低に対応して強調表示することができる。

請求項６の情報処理装置によれば、誤りと判定された文字を、文字認識結果から削除することができる。

請求項７の情報処理装置によれば、誤りと判定された文字を、他の文字で置き換えることができる。

請求項８の情報処理装置によれば、誤りと判定された文字を、ワイルドカードとして検索を行うことができる。

請求項９の情報処理プログラムによれば、品詞尤度と文字類似度の両方が含まれる特徴量ベクトルを用いて、文字認識結果の各文字の確信度を算出することができる。

第１の実施の形態の構成例についての概念的なモジュール構成図である。文字認識結果の正誤・文字類似度・品詞テーブルのデータ構造例を示す説明図である。参照品詞テーブルのデータ構造例を示す説明図である。特徴量ベクトルのデータ構造例を示す説明図である。特徴量ベクトルのデータ構造例を示す説明図である。特徴量ベクトルのデータ構造例を示す説明図である。第１の実施の形態による処理例を示すフローチャートである。第１の実施の形態による処理例を示すフローチャートである。第２の実施の形態の構成例についての概念的なモジュール構成図である。第３の実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

まず、本実施の形態を説明する前に、その前提となる技術について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
この技術は、文字認識結果に対して確信度を算出する、又は正誤判定を行う技術分野に属するものである。特に、文字類似度と品詞を利用する技術に属する。
なお、文字認識とは、画像又はストロークとして入力された文字パタンをテキストコードに変換する処理を指す。
また、確信度とは、文字認識結果であるテキストコードが、真のテキストコードである確からしさを指す。

文字認識処理では誤りが生じるために、人手による確認・修正作業と併用する文字認識システムの運用形態がある。このとき、出力結果に確信度が付与されていることで、確認・修正作業の効率化が期待される。例えば、確信度の高低に応じて、文字の前景・背景を強調表示することで、前記効率化の効果が得られる。また、確信度の低い部分を除去する、又は異なるテキストに置換することで、よりよい文字認識結果が利用者に提供されることが期待される。

文字認識結果の確信度算出や正誤判定には、主に以下の特徴量が利用される。
（１）単文字の特徴量
文字類似度
文字ｎ−ｇｒａｍ
文字分類
文字正解率表
（２）単語の特徴量
単語ｎ−ｇｒａｍ
単語長
未知語
品詞

先行技術の多くは、この「（１）単文字の特徴量」、「（２）単語の特徴量」、又はそれらの組み合わせを利用して、確信度の算出や正誤判定を実現している。以下、それぞれの特徴量について簡単に説明する。
まず、「（１）単文字の特徴量」について、文字類似度とは、認識対象である文字パタンと、文字認識結果のテキストコードの代表文字パタン（例えば、文字認識方法によるが認識辞書内の文字パタン）との類似度、又は単文字識別（認識対象である文字パタンを単文字として行う文字認識）の確信度を指す。また、文字ｎ−ｇｒａｍとは、連続して現れるｎ個のテキストコードの生起確率を指す。また、文字分類とは、例えば｛漢字、ひらがな、カタカナ、アルファベット、数字｝といったテキストコードの大分類を指す。また、文字正解率表とは、対象の文字認識システムが出力する各テキストコードの正解率を予め集計したものである。なお、特定のテキストコードを誤りとするような（すなわち、ブラックリスト）場合も、本特徴量に分類されるものと考える。
また、「（２）単語の特徴量」について、単語ｎ−ｇｒａｍとは、連続して現れるｎ個の単語の生起確率を指す。また、単語長とは、単語の文字数を指す。また、未知語とは、単語辞書に登録がないことを指す。また、品詞とは、名詞や動詞など、形態素解析結果の単語に付与される単語の文法的な機能の分類を指す。ここで、形態素解析とは、テキストコード列を文法に基づいて単語に区切る処理を指す。例えば、非特許文献１のような公知の技術がある。

本実施の形態は、特に、文字類似度と品詞を利用して文字認識結果の確信度を算出する技術に属する。
例えば、特許文献１に記載された手法は、文字類似度と未知語を利用する。具体的には、文字類似度が低い部分、又は、未知語とされた部分を、確信度が低い、とする。
また、非特許文献２に記載された手法は、品詞コストを利用する。具体的には、形態素解析が参照する個々の品詞のコスト（すなわち、文法の不成立の度合い）が高い部分を確信度が低い、とする。
また、非特許文献３に記載された手法は、品詞４−ｇｒａｍを利用する。具体的には、正しい文書データベースから集計された品詞４−ｇｒａｍに基づいて、文字認識結果の品詞の順列を評価し、この値が低い部分を、確信度が低い、とする。さらに、１文字名詞（すなわち、単語長と品詞を利用することに相当する）又は未知語とされた部分を、確信度が低い、とする。
また、特許文献２に記載された手法は、未知語と品詞を利用する。具体的には、未知語であるが固有名詞である確率の高い部分を、確信度が低い、とする。さらに、漢字１文字体言、誤読し難い文字との字形の類似性、１文字カタカナ、連続して出現する句読点、又は、矛盾するかっこ記号などの情報を組み合わせ、正誤判定のための複雑なルールを構築している。
最後に特許文献３に記載された手法は、単語長、品詞、単語｛１，２｝−ｇｒａｍ、さらに、文字類似度を利用する。具体的には、まず単語の特徴量から確信度を算出し、前記確信度が予め定められた閾値以下であった場合、さらに文字類似度を利用して前記の確信度を修正する。

先行技術文献に記載された手法では、文字類似度と品詞を同時に利用しないため、正しい確信度を算出し得ない。以下、このことについて図２を例に説明する。
いま、「入力」（入力欄２１０）のパタンに対する認識結果が、「出力」（出力欄２２０）のように得られているとする。この認識結果の正誤は「正誤」（正誤欄２４０）の通り、「生（出力ＩＤ＝１２）」と「は（出力ＩＤ＝１３）」が誤りであり、他は正解である。確信度が高いほど正解である確率が高いと判断する場合、誤りにおいては最小値を算出し、正解においては最大値を算出することが望ましい。なお、出力ＩＤ（出力ＩＤ欄２３０）とは、認識結果のテキスト列内におけるインデックスである。また、品詞ＩＤ（品詞ＩＤ欄２７０）とは、形態素解析システムに登録されている品詞のインデックスである。
まず、文字類似度（類似度欄２５０）のみから、正しい確信度を算出することは困難である。例えば、図２において、正解である「す（出力ＩＤ＝３）」の文字類似度は１．００であり、誤りである「生（出力ＩＤ＝１２）」の文字類似度は０．１３である。一方で、正解である「努（出力ＩＤ＝１）」の文字類似度は０．３０であり、誤りである「は（出力ＩＤ＝１３）」の文字類似度は０．６０である。このように、入力パタンと文字認識システムの組み合わせによっては、文字類似度と確信度に相関がない。ゆえに、特許文献１のような、文字類似度が低いほど確信度が低いとする手法は、必ずしも正しい確信度を算出しない。

また同様に、品詞（品詞欄２６０）のみから、確信度を算出することも困難である。例えば、口語調の文書においては正しい文法規則が破られ、品詞の順列が不正である場合がある。一方で、文字認識誤りが生じたにも関わらず、文法規則は守られ、品詞の順列が正しい場合がある。ゆえに、非特許文献２、非特許文献３のような、文法規則の破綻に基づく手法は、必ずしも正しい確信度を算出しない。また、特定の品詞が、必ずしも確信度が低いとは限らないため、特許文献２のような、特定の品詞に基づく手法は、必ずしも正しい確信度を算出しない。
また、文字認識システムと形態素解析システムには、個々に固有の傾向があり、さらに、対象とする入力パタン（画像やストローク、文書内容の言語的なパタン）によってその挙動が大きく異なる。ゆえに、精度の高い確信度の算出を実現するためには、個々の組み合わせに最適化された設計が必要である。特許文献２の手法は多数の特徴により複雑なルールを構築しているため、前記最適化には多大な労力を要する。

以上のように、文字類似度のみ、又は品詞のみに基づく方式は、必ずしも正しい確信度を算出しない。そこで、特許文献３の手法では、文字類似度と品詞を利用する。
しかし、まず単語の特徴量のみから確信度を算出するため、この段階において誤って高い確信度を算出する可能性がある。すなわち、特許文献３の手法は、文字類似度と品詞を同時に利用して確信度を算出しないため、必ずしも正しい確信度を算出しない、という問題がある。また、確信度算出のため、品詞、単語長、単語｛１，２｝−ｇｒａｍの各要素の組み合わせを検索キーとして確信度を算出する、言語処理確信度テーブルを予め作成するが、精度のために多数の要素を利用する場合、検索キーの組み合わせが膨大となり、前記テーブルのサイズが膨大なものとなる。

以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図１は、第１の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（もちろんのことながら、すべての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という意味を有する記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。

第１の実施の形態である情報処理装置は、文字認識結果の各文字の確信度を算出するものであって、図１の例に示すように、文字認識モジュール１１０、形態素解析モジュール１２０、参照品詞テーブル記憶モジュール１３０、特徴量ベクトル作成モジュール１４０、確信度算出パラメータ記憶モジュール１５０、確信度算出モジュール１６０を有している。具体的には、文字類似度と品詞を同時に利用して確信度を算出する。ここで「同時に利用」とは、文字類似度と品詞とを同等に扱えるようにすることであり、別個に評価（例えば、２段階で評価）することは含まれない。

文字認識モジュール１１０は、形態素解析モジュール１２０、特徴量ベクトル作成モジュール１４０と接続されている。文字認識モジュール１１０は、入力の文字パタンに対して文字認識を行う。公知の文字認識技術を用いればよい。ただし、各認識文字における文字類似度を算出する。そして、文字認識結果１１５として、テキスト列と各文字の文字類似度を出力する。例えば、文字認識結果１１５のデータ構造として、図２の例に示す文字認識結果の正誤・文字類似度・品詞テーブル２００の出力欄２２０、出力ＩＤ欄２３０、類似度欄２５０によって構成されるテーブルとする。また、ここで行う文字認識は、画像を認識対象とするオフライン文字認識であっても、ストロークを認識対象とするオンライン文字認識であってもよい。

形態素解析モジュール１２０は、文字認識モジュール１１０、特徴量ベクトル作成モジュール１４０と接続されている。形態素解析モジュール１２０は、文字認識モジュール１１０から出力された文字認識結果１１５のテキスト列に対して形態素解析を行う。例えば、形態素解析の結果（単語１２５）として、図２の例に示す文字認識結果の正誤・文字類似度・品詞テーブル２００の出力欄２２０、出力ＩＤ欄２３０、品詞欄２６０、品詞ＩＤ欄２７０によって構成されるテーブルとする。

参照品詞テーブル記憶モジュール１３０は、特徴量ベクトル作成モジュール１４０と接続されている。参照品詞テーブル記憶モジュール１３０は、参照品詞テーブルを記憶している。特徴量ベクトル作成のために参照する品詞のインデックス（すなわち、品詞ＩＤ）と特徴量ベクトルのインデックス（以下、特徴量ＩＤ）の対応表を参照品詞テーブルとする。図３は、参照品詞テーブル３００のデータ構造例を示す説明図である。参照品詞テーブル３００は、対応する特徴量ＩＤ欄３１０、品詞ＩＤ欄３２０を有している。ただし、形態素解析モジュール１２０は、Ｐ_ｍａｘ（≧Ｐ）種類の品詞を出力しうるものとする。また、特徴量ＩＤは１からＰまでのいずれかであるものとする。

特徴量ベクトル作成モジュール１４０は、文字認識モジュール１１０、形態素解析モジュール１２０、参照品詞テーブル記憶モジュール１３０、確信度算出モジュール１６０と接続されている。特徴量ベクトル作成モジュール１４０は、１個の文字類似度と、Ｐ個の品詞尤度から、Ｐ＋１の長さを持つ特徴量ベクトルを作成する。なお、Ｐは、予め定められた整数（形態素解析モジュール１２０が対象とし得る品詞の数）である。つまり、文字認識結果１１５の文字について、形態素解析モジュール１２０による形態素解析結果である対象の文字が属する単語１２５の品詞らしさから作成するＰ種の品詞それぞれの品詞尤度と、文字認識結果１１５の各文字の文字類似度によって構成されるＰ＋１個の要素の特徴量ベクトル１４５を作成する。このとき、参照品詞テーブル記憶モジュール１３０に記憶されている参照品詞テーブル３００を参照する。

以下、参照品詞テーブル３００に基づいて、対象文字の特徴量ベクトルを作成する手順を述べる。まず、特徴量ベクトルのすべての要素を０で初期化する。次に、対象文字が属する単語の品詞の品詞ＩＤをキーに、参照品詞テーブル３００から、特徴量ＩＤを検索する。次に、検索された特徴量ＩＤが指す特徴量ベクトル上の位置に、品詞尤度を記述する。なお、品詞尤度とは非特許文献２で利用するような品詞のコストや確率を指す。そして、Ｐ＋１番目の特徴量に文字類似度を記述する。図２の「は（文字ＩＤ＝６）」について作成した特徴量ベクトルの例を図４に示す。特徴量ベクトル４００は、対応するＩＤ欄４１０、特徴量欄４２０を有している。そして、Ｐ＋１個の要素を有しており、Ｐ個は品詞尤度を記述しており、１個は文字類似度を記述している。
なお、品詞尤度は、図５の例に示すように、量子化してもよい。特徴量ベクトル５００は特徴量ベクトル４００と同等のデータ構造である。これは、形態素解析モジュール１２０による形態素解析結果である対象の文字が属する単語の品詞の品詞尤度を１として、それ以外の品詞の品詞尤度を０とする。具体的には、品詞ＩＤ＝２の品詞尤度（特徴量）を１としており、品詞ＩＤ＝２以外のＰまでの要素（もちろんのことながら、Ｐ＋１個目の要素は含まない）の品詞尤度（特徴量）を０とする。
また、文字特徴量は、図６の例に示すように、複数の品詞尤度が０以上の値を持ってもよい。特徴量ベクトル６００は特徴量ベクトル４００と同等のデータ構造である。対象文字が所属する単語が複数の品詞について品詞尤度を持つ場合、又は、形態素解析モジュール１２０による形態素解析が複数の結果を持ち対象文字が所属する単語が複数ある場合に、特徴量ベクトル６００のような特徴量ベクトルが作成される。
特徴量ベクトル作成モジュール１４０が出力する特徴量ベクトル１４５のデータ構造としては、特徴量ベクトル４００、５００、６００のいずれかである。

なお、文字類似度は、文字認識モジュール１１０によって出力された文字以外の候補文字の文字類似度を利用して正規化された値でもよい。又は、正規化前後の値を両方用いてもよい。例えば、特徴量ベクトル作成モジュール１４０は、文字類似度を、単文字に対する文字認識結果の文字類似度が高い上位Ｎ個の文字それぞれの文字類似度について、形態素解析モジュール１２０による形態素解析を行う対象である文字認識結果の文字類似度を、そのＮ個の文字類似度で正規化した値とするようにしてもよい。具体的には、数式３や数式４のように正規化する。なお、ｃ_ｉは正規化対象の文字類似度であり、ｃ_ｉを含めたＮ個の文字類似度で正規化を行っている。Ｎは、２以上の予め定められた整数である。

なお、特徴量ベクトルには、「（１）単文字の特徴量」、「（２）単語の特徴量」に挙げた他の特徴量を追加してもよい。

確信度算出モジュール１６０は、特徴量ベクトル作成モジュール１４０、確信度算出パラメータ記憶モジュール１５０と接続されている。確信度算出モジュール１６０は、特徴量ベクトル作成モジュール１４０によって作成された特徴量ベクトル１４５から、文字認識結果１１５の各文字の確信度１６５を算出する。例えば、機械学習を用いて確信度１６５を算出する。機械学習によって確信度算出パラメータ記憶モジュール１５０に記憶されている確信度算出パラメータを用いるようにしてもよい。
確信度算出パラメータ記憶モジュール１５０は、確信度算出モジュール１６０と接続されている。確信度算出パラメータ記憶モジュール１５０は、確信度算出モジュール１６０が行う機械学習に用いる確信度算出パラメータを記憶している。
具体的には、確信度算出モジュール１６０は、数式１により確信度を算出する。数式１において、ｘは長さＰ＋１の特徴量ベクトルであり、ｘ_ｐはｐ番目の要素である。また、ｗ^（１）は（Ｐ＋１）×Ｈの行列でありｗ^（１） _ｐｈはｐ行ｈ列の要素を指す。ｗ^（２）は長さＨのベクトルであり、ｗ^（２） _ｈはｈ番目の要素を指す。ｂ^（１）は長さＨのベクトルでありｂ^（１） _ｈはｈ番目の要素を指す。ｂ^（２）は数値である。数式１において、Ｈ，ｗ^（１），ｗ^（２），ｂ^（１），ｂ^（２）は最適化すべき確信度算出パラメータである。また、σはロジスティック関数である。
また、例えば、数式２により確信度を算出するようにしてもよい。Ｖは、代表特徴量ベクトルｘ_ｖ∈Ｖのインデックス集合である。ａは長さ♯｛Ｖ｝のベクトルであり、ａ_ｖはｖ番目の要素を指す。ｔは長さ♯｛Ｖ｝のベクトルであり、ｔ_ｖはｖ番目の要素でありｘ_ｖの正誤を示す。例えば、正解ならばｔ_ｖ＝１、誤りならばｔ_ｖ＝−１とする。Ｋはベクトルどうしの距離を算出する関数である。数式２において、Ｖ，ａは最適化すべき確信度算出パラメータである。

前記のように特徴量ベクトルを作成することで、確信度の算出において、文字類似度と品詞を同時に利用する。また、入力パタン、文字認識モジュール１１０、形態素解析モジュール１２０の傾向を加味した確信度算出パラメータ設計が機械学習的な手法で最適化される。また、特許文献３の手法のように最適化パラメータが膨大になることがない。

図７は、第１の実施の形態（特徴量ベクトル作成モジュール１４０）による処理例を示すフローチャートである。このフローチャートによる処理によって、対象文字に対して、図４の例に示すような特徴量ベクトル４００を作成する。
ベクトルｘは長さＰ＋１（要素の個数）の特徴量ベクトルであり、ｘ_ｐはｐ番目の要素を指す。
ｃは対象文字の文字類似度である。
ｗは、形態素解析結果であり、対象文字が属する単語である。
ＰＯＳ＿ＩＤは、ｗの品詞の品詞ＩＤを返す関数である。
ＦＥＡＴＵＲＥ＿ＩＤは、参照品詞テーブル３００に基づいて、品詞ＩＤに対する特徴量ＩＤを返す関数である。
ｆは、ｗについて、ｗの品詞の品詞尤度を返す関数である。
なお前述の通り、ｆは１を返す関数であってもよい。このとき図５の例に示すような特徴量ベクトル５００が作成される。

ステップＳ７０２では、ｐに１を代入する。
ステップＳ７０４では、ｘ_ｐに０を代入する。
ステップＳ７０６では、ｐ＜Ｐであるか否かを判断し、ｐ＜Ｐである場合はステップＳ７０８へ進み、それ以外の場合はステップＳ７１０へ進む。
ステップＳ７０８では、ｐにｐ＋１を代入する。その後、ステップＳ７０４に戻る。
ステップＳ７１０では、数式５にしたがって、ｘ_{ＦＥＡＴＵＲＥ＿ＩＤ（ＰＯＳ＿ＩＤ（ｗ））}にｆ（ｗ）を代入する。

ステップＳ７１２では、ｘ_Ｐ＋１にｃを代入する。

図８は、第１の実施の形態（特徴量ベクトル作成モジュール１４０）による処理例を示すフローチャートである。これは、複数の品詞尤度が０以上の値を持つ特徴量ベクトルを作成する処理である。このフローチャートによる処理によって、対象文字に対して、図６の例に示すような特徴量ベクトル６００を作成する。
Ｗは対象文字が属する単語の集合であり、＃｛Ｗ｝個の要素を持つ。簡単のため、ひとつの単語が複数の品詞尤度を持つ場合、すべて異なる単語であるものとしている。なお、ｗ_ｍはＷの要素である。

ステップＳ８０２では、ｐに１を代入する。
ステップＳ８０４では、ｘ_ｐに０を代入する。
ステップＳ８０６では、ｐ＜Ｐであるか否かを判断し、ｐ＜Ｐである場合はステップＳ８０８へ進み、それ以外の場合はステップＳ８１０へ進む。
ステップＳ８０８では、ｐにｐ＋１を代入する。その後、ステップＳ８０４に戻る。
ステップＳ８１０では、ｍに１を代入する。
ステップＳ８１２では、数式６にしたがって、ｘ_{ＦＥＡＴＵＲＥ＿ＩＤ（ＰＯＳ＿ＩＤ（ｗｍ））}にｘ_{ＦＥＡＴＵＲＥ＿ＩＤ（ＰＯＳ＿ＩＤ（ｗｍ））}＋ｆ（ｗ_ｍ）を代入する。

ステップＳ８１４では、ｍ≦＃｛Ｗ｝であるか否かを判断し、ｍ≦＃｛Ｗ｝である場合はステップＳ８１６へ進み、それ以外の場合はステップＳ８１８へ進む。
ステップＳ８１６では、ｍにｍ＋１を代入する。その後、ステップＳ８１２に戻る。
ステップＳ８１８では、ｘ_Ｐ＋１にｃを代入する。

図９は、第２の実施の形態の構成例についての概念的なモジュール構成図である。なお、第１の実施の形態と同種の部位には同一符号を付し重複した説明を省略する（以下、同様）。第２の実施の形態は、正誤判別を行うものであり、図９の例に示すように、文字認識モジュール１１０、形態素解析モジュール１２０、参照品詞テーブル記憶モジュール１３０、特徴量ベクトル作成モジュール１４０、確信度算出パラメータ記憶モジュール１５０、確信度算出モジュール１６０、閾値記憶モジュール９７０、閾値処理モジュール９８０を有している。
文字認識モジュール１１０は、形態素解析モジュール１２０、特徴量ベクトル作成モジュール１４０と接続されている。
形態素解析モジュール１２０は、文字認識モジュール１１０、特徴量ベクトル作成モジュール１４０と接続されている。
参照品詞テーブル記憶モジュール１３０は、特徴量ベクトル作成モジュール１４０と接続されている。
特徴量ベクトル作成モジュール１４０は、文字認識モジュール１１０、形態素解析モジュール１２０、参照品詞テーブル記憶モジュール１３０、確信度算出モジュール１６０と接続されている。
確信度算出パラメータ記憶モジュール１５０は、確信度算出モジュール１６０と接続されている。
確信度算出モジュール１６０は、特徴量ベクトル作成モジュール１４０、確信度算出パラメータ記憶モジュール１５０、閾値処理モジュール９８０と接続されている。

閾値記憶モジュール９７０は、閾値処理モジュール９８０と接続されている。閾値記憶モジュール９７０は、閾値処理モジュール９８０によって利用される閾値を記憶している。
閾値処理モジュール９８０は、確信度算出モジュール１６０、閾値記憶モジュール９７０と接続されている。閾値処理モジュール９８０は、確信度１６５に対して、閾値記憶モジュール９７０に記憶されている予め定められた閾値との比較により、文字認識結果の正／誤データ９８５を判定する。このとき、確信度が高いほど、正解であるとして、閾値より大きい（又は以上である）確信度を正解、それ以外を誤りとして出力する。

また、閾値処理モジュール９８０による処理が行われた後は、次の例に示すような処理を行うようにしてもよい。
（Ａ）閾値処理モジュール９８０によって誤りと判定された文字（文字認識結果）を、第２の実施の形態として出力すべき文字認識結果から削除するようにしてもよい。
（Ｂ）閾値処理モジュール９８０によって誤りと判定された文字を、他の文字で置き換えるようにしてもよい。他の文字とは、文字認識した結果が誤りであることを示すような文字であり、例えば、黒い四角等の文字としてもよい。
（Ｃ）文字認識結果１１５を検索対象とする検索モジュールであり、検索キーに対して、閾値処理モジュール９８０によって誤りと判定された文字を、ワイルドカードとして検索を行うようにしてもよい。つまり、誤りと判定された文字を、任意の文字列（０文字以上の連なり）として検索を行うようにするものである。

図１０は、第３の実施の形態の構成例についての概念的なモジュール構成図である。
第３の実施の形態は、確信度に応じて結果の表示を切り替えるものであり、図１０の例に示すように、文字認識モジュール１１０、形態素解析モジュール１２０、参照品詞テーブル記憶モジュール１３０、特徴量ベクトル作成モジュール１４０、確信度算出パラメータ記憶モジュール１５０、確信度算出モジュール１６０、確信度付与モジュール１０７０、表示モジュール１０８０を有している。
文字認識モジュール１１０は、形態素解析モジュール１２０、特徴量ベクトル作成モジュール１４０、確信度付与モジュール１０７０と接続されている。
形態素解析モジュール１２０は、文字認識モジュール１１０、特徴量ベクトル作成モジュール１４０と接続されている。
参照品詞テーブル記憶モジュール１３０は、特徴量ベクトル作成モジュール１４０と接続されている。
特徴量ベクトル作成モジュール１４０は、文字認識モジュール１１０、形態素解析モジュール１２０、参照品詞テーブル記憶モジュール１３０、確信度算出モジュール１６０と接続されている。
確信度算出パラメータ記憶モジュール１５０は、確信度算出モジュール１６０と接続されている。
確信度算出モジュール１６０は、特徴量ベクトル作成モジュール１４０、確信度算出パラメータ記憶モジュール１５０、確信度付与モジュール１０７０と接続されている。

確信度付与モジュール１０７０は、文字認識モジュール１１０、確信度算出モジュール１６０、表示モジュール１０８０と接続されている。確信度付与モジュール１０７０は、確信度１６５を文字認識結果１１５の認識文字のそれぞれに付与する。
表示モジュール１０８０は、確信度付与モジュール１０７０と接続されている。表示モジュール１０８０は、確信度付与モジュール１０７０によって確信度付き文字認識結果１０７５を、液晶ディスプレイ等の表示装置に、その確信度の高低に対応して強調表示する。例えば、本実施の形態における対象文字の確信度をｙとすると、ＲＧＢ表示系において、文字色を（０, ０, ０）、背景色を（２５５，２５５^＊（１−ｇ（ｙ）），２５５^＊（１−ｇ（ｙ）））とすればよい。なお、関数ｇは値域が［０, １］であるとする。

図１１を参照して、本実施の形態の情報処理装置のハードウェア構成例について説明する。図１１に示す構成は、例えばパーソナルコンピュータ（ＰＣ）などによって構成されるものであり、スキャナ等のデータ読み取り部１１１７と、プリンタなどのデータ出力部１１１８を備えたハードウェア構成例を示している。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１０１は、前述の実施の形態において説明した各種のモジュール、すなわち、文字認識モジュール１１０、形態素解析モジュール１２０、特徴量ベクトル作成モジュール１４０、確信度算出モジュール１６０、閾値処理モジュール９８０、確信度付与モジュール１０７０、表示モジュール１０８０等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１０２は、ＣＰＵ１１０１が使用するプログラムや演算パラメータ等を格納する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１０３は、ＣＰＵ１１０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス１１０４により相互に接続されている。

ホストバス１１０４は、ブリッジ１１０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス１１０６に接続されている。

キーボード１１０８、マウス等のポインティングデバイス１１０９は、操作者により操作される入力デバイスである。ディスプレイ１１１０は、液晶表示装置又はＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）などがあり、各種情報をテキストやイメージ情報として表示する。

ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１１１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ１１０１によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、文字認識結果１１５、単語１２５、特徴量ベクトル１４５、確信度１６５、文字認識結果の正誤・文字類似度・品詞テーブル２００、参照品詞テーブル３００、特徴量ベクトル４００、正／誤データ９８５、確信度付き文字認識結果１０７５などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。

ドライブ１１１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体１１１３に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース１１０７、外部バス１１０６、ブリッジ１１０５、及びホストバス１１０４を介して接続されているＲＡＭ１１０３に供給する。リムーバブル記録媒体１１１３も、ハードディスクと同様のデータ記録領域として利用可能である。

接続ポート１１１４は、外部接続機器１１１５を接続するポートであり、ＵＳＢ、ＩＥＥＥ１３９４等の接続部を持つ。接続ポート１１１４は、インタフェース１１０７、及び外部バス１１０６、ブリッジ１１０５、ホストバス１１０４等を介してＣＰＵ１１０１等に接続されている。通信部１１１６は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部１１１７は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部１１１８は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。

なお、図１１に示す情報処理装置のハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図１１に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図１１に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標））、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。

１１０…文字認識モジュール
１２０…形態素解析モジュール
１３０…参照品詞テーブル記憶モジュール
１４０…特徴量ベクトル作成モジュール
１５０…確信度算出パラメータ記憶モジュール
１６０…確信度算出モジュール
９７０…閾値記憶モジュール
９８０…閾値処理モジュール
１０７０…確信度付与モジュール
１０８０…表示モジュール

Claims

文字認識結果に対して形態素解析を行う形態素解析手段と、
前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するＰ種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるＰ＋１個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、
前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する確信度算出手段
を具備することを特徴とする情報処理装置。
前記品詞尤度について、
前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞の品詞尤度を１として、それ以外の品詞の品詞尤度を０とする
ことを特徴とする請求項１に記載の情報処理装置。
前記特徴量ベクトル作成手段は、
前記文字類似度を、単文字に対する文字認識結果の文字類似度が高い上位Ｎ個の文字それぞれの文字類似度について、前記形態素解析手段による形態素解析を行う対象である文字認識結果の文字類似度を、該Ｎ個の文字類似度で正規化した値とする
ことを特徴とする請求項１及び２に記載の情報処理装置。
前記確信度に対して、予め定められた閾値との比較により、文字認識結果の正誤を判定する判定手段
をさらに具備することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記確信度を前記文字認識結果に付与する付与手段と、
前記付与手段によって確信度が付与された文字認識結果を該確信度の高低に対応して強調表示する表示手段
をさらに具備することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
前記判定手段によって誤りと判定された文字を、文字認識結果から削除する削除手段
をさらに具備することを特徴とする請求項４に記載の情報処理装置。
前記判定手段によって誤りと判定された文字を、他の文字で置き換える置換手段
をさらに具備することを特徴とする請求項４に記載の情報処理装置。
検索キーに対して、
前記判定手段によって誤りと判定された文字を、ワイルドカードとして検索を行う検索手段
をさらに具備することを特徴とする請求項４に記載の情報処理装置。
コンピュータを、
文字認識結果に対して形態素解析を行う形態素解析手段と、
前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するＰ種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるＰ＋１個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、
前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する確信度算出手段
として機能させるための情報処理プログラム。