JP2014120059A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2014120059A JP2014120059A JP2012276018A JP2012276018A JP2014120059A JP 2014120059 A JP2014120059 A JP 2014120059A JP 2012276018 A JP2012276018 A JP 2012276018A JP 2012276018 A JP2012276018 A JP 2012276018A JP 2014120059 A JP2014120059 A JP 2014120059A
- Authority
- JP
- Japan
- Prior art keywords
- character
- speech
- recognition result
- character recognition
- certainty factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】情報処理装置の形態素解析手段は、文字認識結果に対して形態素解析を行い、特徴量ベクトル作成手段は、前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するP種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるP+1個の要素の特徴量ベクトルを作成し、確信度算出手段は、前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する。
【選択図】図1
Description
非特許文献2には、誤りを含む文を解析した場合には解析結果のコストが大きくなることを利用して、解析結果の各単語のコストをしきい値と比較することによって誤りを検出するというコスト比較法が開示されている。
非特許文献3には、日本語文書中の表記誤りのうち、かな漢字変換の選択誤りや誤字・脱字・余字の誤りを検出することを目的に、正文を形態素解析して得られた品詞N−gram統計情報とヒューリスティックルールを用いて、日本語文書中の表記誤りを検出する方式が開示されている。
請求項1の発明は、文字認識結果に対して形態素解析を行う形態素解析手段と、前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するP種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるP+1個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する確信度算出手段を具備することを特徴とする情報処理装置である。
この技術は、文字認識結果に対して確信度を算出する、又は正誤判定を行う技術分野に属するものである。特に、文字類似度と品詞を利用する技術に属する。
なお、文字認識とは、画像又はストロークとして入力された文字パタンをテキストコードに変換する処理を指す。
また、確信度とは、文字認識結果であるテキストコードが、真のテキストコードである確からしさを指す。
(1)単文字の特徴量
文字類似度
文字n−gram
文字分類
文字正解率表
(2)単語の特徴量
単語n−gram
単語長
未知語
品詞
まず、「(1)単文字の特徴量」について、文字類似度とは、認識対象である文字パタンと、文字認識結果のテキストコードの代表文字パタン(例えば、文字認識方法によるが認識辞書内の文字パタン)との類似度、又は単文字識別(認識対象である文字パタンを単文字として行う文字認識)の確信度を指す。また、文字n−gramとは、連続して現れるn個のテキストコードの生起確率を指す。また、文字分類とは、例えば{漢字、ひらがな、カタカナ、アルファベット、数字}といったテキストコードの大分類を指す。また、文字正解率表とは、対象の文字認識システムが出力する各テキストコードの正解率を予め集計したものである。なお、特定のテキストコードを誤りとするような(すなわち、ブラックリスト)場合も、本特徴量に分類されるものと考える。
また、「(2)単語の特徴量」について、単語n−gramとは、連続して現れるn個の単語の生起確率を指す。また、単語長とは、単語の文字数を指す。また、未知語とは、単語辞書に登録がないことを指す。また、品詞とは、名詞や動詞など、形態素解析結果の単語に付与される単語の文法的な機能の分類を指す。ここで、形態素解析とは、テキストコード列を文法に基づいて単語に区切る処理を指す。例えば、非特許文献1のような公知の技術がある。
例えば、特許文献1に記載された手法は、文字類似度と未知語を利用する。具体的には、文字類似度が低い部分、又は、未知語とされた部分を、確信度が低い、とする。
また、非特許文献2に記載された手法は、品詞コストを利用する。具体的には、形態素解析が参照する個々の品詞のコスト(すなわち、文法の不成立の度合い)が高い部分を確信度が低い、とする。
また、非特許文献3に記載された手法は、品詞4−gramを利用する。具体的には、正しい文書データベースから集計された品詞4−gramに基づいて、文字認識結果の品詞の順列を評価し、この値が低い部分を、確信度が低い、とする。さらに、1文字名詞(すなわち、単語長と品詞を利用することに相当する)又は未知語とされた部分を、確信度が低い、とする。
また、特許文献2に記載された手法は、未知語と品詞を利用する。具体的には、未知語であるが固有名詞である確率の高い部分を、確信度が低い、とする。さらに、漢字1文字体言、誤読し難い文字との字形の類似性、1文字カタカナ、連続して出現する句読点、又は、矛盾するかっこ記号などの情報を組み合わせ、正誤判定のための複雑なルールを構築している。
最後に特許文献3に記載された手法は、単語長、品詞、単語{1,2}−gram、さらに、文字類似度を利用する。具体的には、まず単語の特徴量から確信度を算出し、前記確信度が予め定められた閾値以下であった場合、さらに文字類似度を利用して前記の確信度を修正する。
いま、「入力」(入力欄210)のパタンに対する認識結果が、「出力」(出力欄220)のように得られているとする。この認識結果の正誤は「正誤」(正誤欄240)の通り、「生(出力ID=12)」と「は(出力ID=13)」が誤りであり、他は正解である。確信度が高いほど正解である確率が高いと判断する場合、誤りにおいては最小値を算出し、正解においては最大値を算出することが望ましい。なお、出力ID(出力ID欄230)とは、認識結果のテキスト列内におけるインデックスである。また、品詞ID(品詞ID欄270)とは、形態素解析システムに登録されている品詞のインデックスである。
まず、文字類似度(類似度欄250)のみから、正しい確信度を算出することは困難である。例えば、図2において、正解である「す(出力ID=3)」の文字類似度は1.00であり、誤りである「生(出力ID=12)」の文字類似度は0.13である。一方で、正解である「努(出力ID=1)」の文字類似度は0.30であり、誤りである「は(出力ID=13)」の文字類似度は0.60である。このように、入力パタンと文字認識システムの組み合わせによっては、文字類似度と確信度に相関がない。ゆえに、特許文献1のような、文字類似度が低いほど確信度が低いとする手法は、必ずしも正しい確信度を算出しない。
また、文字認識システムと形態素解析システムには、個々に固有の傾向があり、さらに、対象とする入力パタン(画像やストローク、文書内容の言語的なパタン)によってその挙動が大きく異なる。ゆえに、精度の高い確信度の算出を実現するためには、個々の組み合わせに最適化された設計が必要である。特許文献2の手法は多数の特徴により複雑なルールを構築しているため、前記最適化には多大な労力を要する。
しかし、まず単語の特徴量のみから確信度を算出するため、この段階において誤って高い確信度を算出する可能性がある。すなわち、特許文献3の手法は、文字類似度と品詞を同時に利用して確信度を算出しないため、必ずしも正しい確信度を算出しない、という問題がある。また、確信度算出のため、品詞、単語長、単語{1,2}−gramの各要素の組み合わせを検索キーとして確信度を算出する、言語処理確信度テーブルを予め作成するが、精度のために多数の要素を利用する場合、検索キーの組み合わせが膨大となり、前記テーブルのサイズが膨大なものとなる。
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
なお、品詞尤度は、図5の例に示すように、量子化してもよい。特徴量ベクトル500は特徴量ベクトル400と同等のデータ構造である。これは、形態素解析モジュール120による形態素解析結果である対象の文字が属する単語の品詞の品詞尤度を1として、それ以外の品詞の品詞尤度を0とする。具体的には、品詞ID=2の品詞尤度(特徴量)を1としており、品詞ID=2以外のPまでの要素(もちろんのことながら、P+1個目の要素は含まない)の品詞尤度(特徴量)を0とする。
また、文字特徴量は、図6の例に示すように、複数の品詞尤度が0以上の値を持ってもよい。特徴量ベクトル600は特徴量ベクトル400と同等のデータ構造である。対象文字が所属する単語が複数の品詞について品詞尤度を持つ場合、又は、形態素解析モジュール120による形態素解析が複数の結果を持ち対象文字が所属する単語が複数ある場合に、特徴量ベクトル600のような特徴量ベクトルが作成される。
特徴量ベクトル作成モジュール140が出力する特徴量ベクトル145のデータ構造としては、特徴量ベクトル400、500、600のいずれかである。
確信度算出パラメータ記憶モジュール150は、確信度算出モジュール160と接続されている。確信度算出パラメータ記憶モジュール150は、確信度算出モジュール160が行う機械学習に用いる確信度算出パラメータを記憶している。
具体的には、確信度算出モジュール160は、数式1により確信度を算出する。数式1において、xは長さP+1の特徴量ベクトルであり、xpはp番目の要素である。また、w(1)は(P+1)×Hの行列でありw(1) phはp行h列の要素を指す。w(2)は長さHのベクトルであり、w(2) hはh番目の要素を指す。b(1)は長さHのベクトルでありb(1) hはh番目の要素を指す。b(2)は数値である。数式1において、H,w(1),w(2),b(1),b(2)は最適化すべき確信度算出パラメータである。また、σはロジスティック関数である。
また、例えば、数式2により確信度を算出するようにしてもよい。Vは、代表特徴量ベクトルxv∈Vのインデックス集合である。aは長さ♯{V}のベクトルであり、avはv番目の要素を指す。tは長さ♯{V}のベクトルであり、tvはv番目の要素でありxvの正誤を示す。例えば、正解ならばtv=1、誤りならばtv=−1とする。Kはベクトルどうしの距離を算出する関数である。数式2において、V,aは最適化すべき確信度算出パラメータである。
ベクトルxは長さP+1(要素の個数)の特徴量ベクトルであり、xpはp番目の要素を指す。
cは対象文字の文字類似度である。
wは、形態素解析結果であり、対象文字が属する単語である。
POS_IDは、wの品詞の品詞IDを返す関数である。
FEATURE_IDは、参照品詞テーブル300に基づいて、品詞IDに対する特徴量IDを返す関数である。
fは、wについて、wの品詞の品詞尤度を返す関数である。
なお前述の通り、fは1を返す関数であってもよい。このとき図5の例に示すような特徴量ベクトル500が作成される。
ステップS704では、xpに0を代入する。
ステップS706では、p<Pであるか否かを判断し、p<Pである場合はステップS708へ進み、それ以外の場合はステップS710へ進む。
ステップS708では、pにp+1を代入する。その後、ステップS704に戻る。
ステップS710では、数式5にしたがって、xFEATURE_ID(POS_ID(w))にf(w)を代入する。
Wは対象文字が属する単語の集合であり、#{W}個の要素を持つ。簡単のため、ひとつの単語が複数の品詞尤度を持つ場合、すべて異なる単語であるものとしている。なお、wmはWの要素である。
ステップS804では、xpに0を代入する。
ステップS806では、p<Pであるか否かを判断し、p<Pである場合はステップS808へ進み、それ以外の場合はステップS810へ進む。
ステップS808では、pにp+1を代入する。その後、ステップS804に戻る。
ステップS810では、mに1を代入する。
ステップS812では、数式6にしたがって、xFEATURE_ID(POS_ID(wm))にxFEATURE_ID(POS_ID(wm))+f(wm)を代入する。
ステップS816では、mにm+1を代入する。その後、ステップS812に戻る。
ステップS818では、xP+1にcを代入する。
文字認識モジュール110は、形態素解析モジュール120、特徴量ベクトル作成モジュール140と接続されている。
形態素解析モジュール120は、文字認識モジュール110、特徴量ベクトル作成モジュール140と接続されている。
参照品詞テーブル記憶モジュール130は、特徴量ベクトル作成モジュール140と接続されている。
特徴量ベクトル作成モジュール140は、文字認識モジュール110、形態素解析モジュール120、参照品詞テーブル記憶モジュール130、確信度算出モジュール160と接続されている。
確信度算出パラメータ記憶モジュール150は、確信度算出モジュール160と接続されている。
確信度算出モジュール160は、特徴量ベクトル作成モジュール140、確信度算出パラメータ記憶モジュール150、閾値処理モジュール980と接続されている。
閾値処理モジュール980は、確信度算出モジュール160、閾値記憶モジュール970と接続されている。閾値処理モジュール980は、確信度165に対して、閾値記憶モジュール970に記憶されている予め定められた閾値との比較により、文字認識結果の正/誤データ985を判定する。このとき、確信度が高いほど、正解であるとして、閾値より大きい(又は以上である)確信度を正解、それ以外を誤りとして出力する。
(A)閾値処理モジュール980によって誤りと判定された文字(文字認識結果)を、第2の実施の形態として出力すべき文字認識結果から削除するようにしてもよい。
(B)閾値処理モジュール980によって誤りと判定された文字を、他の文字で置き換えるようにしてもよい。他の文字とは、文字認識した結果が誤りであることを示すような文字であり、例えば、黒い四角等の文字としてもよい。
(C)文字認識結果115を検索対象とする検索モジュールであり、検索キーに対して、閾値処理モジュール980によって誤りと判定された文字を、ワイルドカードとして検索を行うようにしてもよい。つまり、誤りと判定された文字を、任意の文字列(0文字以上の連なり)として検索を行うようにするものである。
第3の実施の形態は、確信度に応じて結果の表示を切り替えるものであり、図10の例に示すように、文字認識モジュール110、形態素解析モジュール120、参照品詞テーブル記憶モジュール130、特徴量ベクトル作成モジュール140、確信度算出パラメータ記憶モジュール150、確信度算出モジュール160、確信度付与モジュール1070、表示モジュール1080を有している。
文字認識モジュール110は、形態素解析モジュール120、特徴量ベクトル作成モジュール140、確信度付与モジュール1070と接続されている。
形態素解析モジュール120は、文字認識モジュール110、特徴量ベクトル作成モジュール140と接続されている。
参照品詞テーブル記憶モジュール130は、特徴量ベクトル作成モジュール140と接続されている。
特徴量ベクトル作成モジュール140は、文字認識モジュール110、形態素解析モジュール120、参照品詞テーブル記憶モジュール130、確信度算出モジュール160と接続されている。
確信度算出パラメータ記憶モジュール150は、確信度算出モジュール160と接続されている。
確信度算出モジュール160は、特徴量ベクトル作成モジュール140、確信度算出パラメータ記憶モジュール150、確信度付与モジュール1070と接続されている。
表示モジュール1080は、確信度付与モジュール1070と接続されている。表示モジュール1080は、確信度付与モジュール1070によって確信度付き文字認識結果1075を、液晶ディスプレイ等の表示装置に、その確信度の高低に対応して強調表示する。例えば、本実施の形態における対象文字の確信度をyとすると、RGB表示系において、文字色を(0, 0, 0)、背景色を(255,255*(1−g(y)),255*(1−g(y)))とすればよい。なお、関数gは値域が[0, 1]であるとする。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…形態素解析モジュール
130…参照品詞テーブル記憶モジュール
140…特徴量ベクトル作成モジュール
150…確信度算出パラメータ記憶モジュール
160…確信度算出モジュール
970…閾値記憶モジュール
980…閾値処理モジュール
1070…確信度付与モジュール
1080…表示モジュール
Claims (9)
- 文字認識結果に対して形態素解析を行う形態素解析手段と、
前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するP種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるP+1個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、
前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する確信度算出手段
を具備することを特徴とする情報処理装置。 - 前記品詞尤度について、
前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞の品詞尤度を1として、それ以外の品詞の品詞尤度を0とする
ことを特徴とする請求項1に記載の情報処理装置。 - 前記特徴量ベクトル作成手段は、
前記文字類似度を、単文字に対する文字認識結果の文字類似度が高い上位N個の文字それぞれの文字類似度について、前記形態素解析手段による形態素解析を行う対象である文字認識結果の文字類似度を、該N個の文字類似度で正規化した値とする
ことを特徴とする請求項1及び2に記載の情報処理装置。 - 前記確信度に対して、予め定められた閾値との比較により、文字認識結果の正誤を判定する判定手段
をさらに具備することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記確信度を前記文字認識結果に付与する付与手段と、
前記付与手段によって確信度が付与された文字認識結果を該確信度の高低に対応して強調表示する表示手段
をさらに具備することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記判定手段によって誤りと判定された文字を、文字認識結果から削除する削除手段
をさらに具備することを特徴とする請求項4に記載の情報処理装置。 - 前記判定手段によって誤りと判定された文字を、他の文字で置き換える置換手段
をさらに具備することを特徴とする請求項4に記載の情報処理装置。 - 検索キーに対して、
前記判定手段によって誤りと判定された文字を、ワイルドカードとして検索を行う検索手段
をさらに具備することを特徴とする請求項4に記載の情報処理装置。 - コンピュータを、
文字認識結果に対して形態素解析を行う形態素解析手段と、
前記文字認識結果の文字について、前記形態素解析手段による形態素解析結果である対象の文字が属する単語の品詞らしさから作成するP種の品詞それぞれの品詞尤度と、該文字認識結果の各文字の文字類似度によって構成されるP+1個の要素の特徴量ベクトルを作成する特徴量ベクトル作成手段と、
前記特徴量ベクトル作成手段によって作成された特徴量ベクトルから、前記文字認識結果の各文字の確信度を算出する確信度算出手段
として機能させるための情報処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012276018A JP5888222B2 (ja) | 2012-12-18 | 2012-12-18 | 情報処理装置及び情報処理プログラム |
US13/893,698 US20140169676A1 (en) | 2012-12-18 | 2013-05-14 | Information processing apparatus, information processing method, and computer-readable medium |
CN201310287019.4A CN103870800B (zh) | 2012-12-18 | 2013-07-09 | 信息处理设备和信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012276018A JP5888222B2 (ja) | 2012-12-18 | 2012-12-18 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014120059A true JP2014120059A (ja) | 2014-06-30 |
JP5888222B2 JP5888222B2 (ja) | 2016-03-16 |
Family
ID=50909319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012276018A Active JP5888222B2 (ja) | 2012-12-18 | 2012-12-18 | 情報処理装置及び情報処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140169676A1 (ja) |
JP (1) | JP5888222B2 (ja) |
CN (1) | CN103870800B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023031641A (ja) * | 2021-08-25 | 2023-03-09 | ソフトバンク株式会社 | 通信端末、プログラム、及び表示方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002279354A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 文字認識装置、文字認識方法および記録媒体 |
JP2007240589A (ja) * | 2006-03-06 | 2007-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識信頼度推定装置、その方法、およびプログラム |
JP2009245464A (ja) * | 2009-07-30 | 2009-10-22 | Fujitsu Ltd | 単語認識プログラム、単語認識方法、単語認識装置 |
JP2011048499A (ja) * | 2009-08-25 | 2011-03-10 | Fuji Xerox Co Ltd | 認識結果修正装置、画像処理装置、及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03144877A (ja) * | 1989-10-25 | 1991-06-20 | Xerox Corp | 文脈的文字または音素認識方法及びシステム |
JPH0540853A (ja) * | 1991-08-06 | 1993-02-19 | Oki Electric Ind Co Ltd | 文字認識結果の後処理方式 |
JPH0589281A (ja) * | 1991-09-26 | 1993-04-09 | Fuji Facom Corp | 誤読修正・検出方法 |
JP3469375B2 (ja) * | 1995-11-13 | 2003-11-25 | 株式会社リコー | 認識結果の確信度決定方法及び文字認識装置 |
CN1991819A (zh) * | 2005-12-30 | 2007-07-04 | 北京法国电信研发中心有限公司 | 语言形态分析器 |
-
2012
- 2012-12-18 JP JP2012276018A patent/JP5888222B2/ja active Active
-
2013
- 2013-05-14 US US13/893,698 patent/US20140169676A1/en not_active Abandoned
- 2013-07-09 CN CN201310287019.4A patent/CN103870800B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002279354A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 文字認識装置、文字認識方法および記録媒体 |
JP2007240589A (ja) * | 2006-03-06 | 2007-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識信頼度推定装置、その方法、およびプログラム |
JP2009245464A (ja) * | 2009-07-30 | 2009-10-22 | Fujitsu Ltd | 単語認識プログラム、単語認識方法、単語認識装置 |
JP2011048499A (ja) * | 2009-08-25 | 2011-03-10 | Fuji Xerox Co Ltd | 認識結果修正装置、画像処理装置、及びプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023031641A (ja) * | 2021-08-25 | 2023-03-09 | ソフトバンク株式会社 | 通信端末、プログラム、及び表示方法 |
JP7357030B2 (ja) | 2021-08-25 | 2023-10-05 | ソフトバンク株式会社 | 通信端末、プログラム、及び表示方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103870800A (zh) | 2014-06-18 |
CN103870800B (zh) | 2018-12-25 |
US20140169676A1 (en) | 2014-06-19 |
JP5888222B2 (ja) | 2016-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8539349B1 (en) | Methods and systems for splitting a chinese character sequence into word segments | |
US7142716B2 (en) | Apparatus for searching document images using a result of character recognition | |
US10133965B2 (en) | Method for text recognition and computer program product | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
JP6532088B2 (ja) | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 | |
JP6003705B2 (ja) | 情報処理装置及び情報処理プログラム | |
Khirbat | OCR post-processing text correction using simulated annealing (OPTeCA) | |
US11568150B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space | |
US8219905B2 (en) | Automatically detecting keyboard layout in order to improve the quality of spelling suggestions | |
EP2138959A1 (en) | Word recognizing method and word recognizing program | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
US9009026B2 (en) | Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method | |
Mohapatra et al. | Spell checker for OCR | |
US11972208B2 (en) | Information processing device and information processing method | |
JP6007720B2 (ja) | 情報処理装置及び情報処理プログラム | |
Navarro-Cerdan et al. | Batch-adaptive rejection threshold estimation with application to OCR post-processing | |
Angle et al. | Automated error correction and validation for POS tagging of Hindi | |
CN109344254B (zh) | 一种地址信息分类方法及装置 | |
JP2021135584A (ja) | 文字認識システムおよび方法 | |
US20150043832A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
JP6260350B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
WO2022123716A1 (ja) | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
US20230377358A1 (en) | Method and apparatus for dechipering obfuscated text for cyber security |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5888222 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |