JP3415012B2 - 文字認識後処理装置 - Google Patents
文字認識後処理装置Info
- Publication number
- JP3415012B2 JP3415012B2 JP34641497A JP34641497A JP3415012B2 JP 3415012 B2 JP3415012 B2 JP 3415012B2 JP 34641497 A JP34641497 A JP 34641497A JP 34641497 A JP34641497 A JP 34641497A JP 3415012 B2 JP3415012 B2 JP 3415012B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- transition probability
- candidate
- category
- categories
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Description
【0001】
【発明の属する技術分野】本発明は、タブレット等から
入力される手書き文字ストローク、OCR(光学的文字
読取装置)で読み取った文字イメージなどの認識対象に
ついて得られた候補文字列に対して後処理を行う文字認
識後処理装置および方法に関するものである。
入力される手書き文字ストローク、OCR(光学的文字
読取装置)で読み取った文字イメージなどの認識対象に
ついて得られた候補文字列に対して後処理を行う文字認
識後処理装置および方法に関するものである。
【0002】
【従来の技術】従来、OCR等で読み取った文字イメー
ジなどの認識対象について得られた候補文字列に対する
文字認識の後処理としては、形態素解析を用いた方法と
遷移確率行列を用いた方法の2通りの方法がある。
ジなどの認識対象について得られた候補文字列に対する
文字認識の後処理としては、形態素解析を用いた方法と
遷移確率行列を用いた方法の2通りの方法がある。
【0003】形態素解析を用いた後処理については、例
えば特開昭59−78400号公報(「候補列作成方
式」)に開示されている。この公報に開示された後処理
では、文字認識結果候補を展開処理して文字列を作成
し、その文字列に対して言語辞書から最長一致法によっ
て形態素を求め、最も妥当な形態素が得られる文字列を
選び出すことにより各文字を決定している。
えば特開昭59−78400号公報(「候補列作成方
式」)に開示されている。この公報に開示された後処理
では、文字認識結果候補を展開処理して文字列を作成
し、その文字列に対して言語辞書から最長一致法によっ
て形態素を求め、最も妥当な形態素が得られる文字列を
選び出すことにより各文字を決定している。
【0004】一方、確率遷移行列を用いた後処理につい
ては、例えば特開平5−54197号公報(「日本語文
字認識装置」)に開示されている。この公報には、次の
ような後処理が記載されている。
ては、例えば特開平5−54197号公報(「日本語文
字認識装置」)に開示されている。この公報には、次の
ような後処理が記載されている。
【0005】(1)文字間の遷移確率を評価し、各文字
の認識候補の中から最適な組み合わせを選択する。 (2)漢字を1種類(もしくは、文字の属性を反映した
数種類)の代表文字で置換することにより、文字種を減
らし、遷移確率行列を小型化する。 (3)漢字の並びに関しては、言語辞書からの検索処理
により、最適な組み合わせを選択する。また、各漢字を
代表する読みを用いてひらがなに置換し、最適な組み合
わせを選択する。
の認識候補の中から最適な組み合わせを選択する。 (2)漢字を1種類(もしくは、文字の属性を反映した
数種類)の代表文字で置換することにより、文字種を減
らし、遷移確率行列を小型化する。 (3)漢字の並びに関しては、言語辞書からの検索処理
により、最適な組み合わせを選択する。また、各漢字を
代表する読みを用いてひらがなに置換し、最適な組み合
わせを選択する。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来技術においては、次のような問題点がある。
来技術においては、次のような問題点がある。
【0007】まず、形態素解析を用いた後処理について
は、言語辞書に登録されていない場合は正しい形態素を
求めるのが困難であり、かつ文字認識結果候補そのもの
の信頼度が低い場合、それを求めた形態素の信頼度はさ
らに低くなる。このため、実用化に際して正確な文字認
識結果候補を得るためには、大規模な単語辞書が必要に
なるという問題がある。
は、言語辞書に登録されていない場合は正しい形態素を
求めるのが困難であり、かつ文字認識結果候補そのもの
の信頼度が低い場合、それを求めた形態素の信頼度はさ
らに低くなる。このため、実用化に際して正確な文字認
識結果候補を得るためには、大規模な単語辞書が必要に
なるという問題がある。
【0008】一方、遷移確率行列を用いた後処理につい
ては、 (a)日本語は字種が多いため、遷移確率行列が大きく
なり過ぎる。 (b)信頼できる遷移確率を得るための学習用のテキス
トを用意するのが困難になる。 (c)漢字1文字が「ひらがな」に挟まれている場合
に、その漢字に対する認識結果候補群の中から、最適な
候補を選択する方法がない。また、複数の漢字の並びに
ついては言語辞書を使用することになっているが、これ
では形態素解析と同様に、言語辞書に登録されていない
単語は認識できない、などの問題がある。
ては、 (a)日本語は字種が多いため、遷移確率行列が大きく
なり過ぎる。 (b)信頼できる遷移確率を得るための学習用のテキス
トを用意するのが困難になる。 (c)漢字1文字が「ひらがな」に挟まれている場合
に、その漢字に対する認識結果候補群の中から、最適な
候補を選択する方法がない。また、複数の漢字の並びに
ついては言語辞書を使用することになっているが、これ
では形態素解析と同様に、言語辞書に登録されていない
単語は認識できない、などの問題がある。
【0009】本発明の目的は、大規模な単語辞書を必要
とせず、かつ大きな遷移確率行列を持たずに正しい認識
結果を得ることができる文字認識後処理装置および方法
を提供することにある。
とせず、かつ大きな遷移確率行列を持たずに正しい認識
結果を得ることができる文字認識後処理装置および方法
を提供することにある。
【0010】
【課題を解決するための手段】上記目的を解決するため
に、本発明は、文字毎に文字が属する文字カテゴリを記
憶する文字カテゴリ情報記憶手段と、認識した各候補文
字の属する文字カテゴリの集合を前記文字カテゴリ情報
記憶手段に基づき生成する手段と、文字カテゴリ間の遷
移確率を記憶した遷移確率情報記憶手段と、認識した文
字列の各候補文字間の文字カテゴリ毎の遷移確率を前記
遷移確率情報記憶手段から取得し、文字列候補毎に遷移
確率を算出し、遷移確率が最大の文字列候補を最適候補
文字列とする最適パス取得手段とを備えたことを特徴と
する。
に、本発明は、文字毎に文字が属する文字カテゴリを記
憶する文字カテゴリ情報記憶手段と、認識した各候補文
字の属する文字カテゴリの集合を前記文字カテゴリ情報
記憶手段に基づき生成する手段と、文字カテゴリ間の遷
移確率を記憶した遷移確率情報記憶手段と、認識した文
字列の各候補文字間の文字カテゴリ毎の遷移確率を前記
遷移確率情報記憶手段から取得し、文字列候補毎に遷移
確率を算出し、遷移確率が最大の文字列候補を最適候補
文字列とする最適パス取得手段とを備えたことを特徴と
する。
【0011】
【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて具体的に説明する。図1は、本発明の実施の形
態を示す文字認識後処理装置の全体構成図であり、大別
して、手書き文字を入力するタブレット10、外部記憶
装置20、データ処理装置30、認識した文字列等を表
示するディスプレイ装置40から構成される。タブレッ
ト10は、OCR等の読み取り装置に代えて構成するこ
とが可能である。
を用いて具体的に説明する。図1は、本発明の実施の形
態を示す文字認識後処理装置の全体構成図であり、大別
して、手書き文字を入力するタブレット10、外部記憶
装置20、データ処理装置30、認識した文字列等を表
示するディスプレイ装置40から構成される。タブレッ
ト10は、OCR等の読み取り装置に代えて構成するこ
とが可能である。
【0012】外部記憶装置20は、認識した文字の候補
となる文字のパターンを記憶した辞書21、認識した各
文字の文字カテゴリを記憶している文字カテゴリ情報記
憶部22、各文字間の遷移確率を記憶した遷移確率情報
記憶部23から構成されている。
となる文字のパターンを記憶した辞書21、認識した各
文字の文字カテゴリを記憶している文字カテゴリ情報記
憶部22、各文字間の遷移確率を記憶した遷移確率情報
記憶部23から構成されている。
【0013】データ処理装置30は、CPU31および
メモリ32とから構成されている。メモリ32には、辞
書21を用いてタブレット10から入力された認識対象
文字の候補文字を抽出する候補文字集合抽出部33、こ
の候補文字集合抽出部33により抽出された候補文字集
合の列34の中の任意の文字がどういったカテゴリ(日
本語、アルファベット、漢字、かな文字等)に含まれて
いるかという情報を文字カテゴリ情報記憶部22から取
り出し、その文字の文字カテゴリ属性を生成する文字カ
テゴリ属性生成部35、文字カテゴリ属性生成部35に
より生成される文字カテゴリ属性集合の列36に基づ
き、隣接した文字の遷移確率を文字カテゴリ属性と遷移
確率情報記憶部23とから取得する遷移確率取得部3
7、文字カテゴリ属性集合の列から生成し得る文字列候
補の中から、動的計画法を用いて遷移確率を最大にする
ものを取得し、認識結果文字列39として表示装置40
の画面に表示する最適パス取得部38を備えている。
メモリ32とから構成されている。メモリ32には、辞
書21を用いてタブレット10から入力された認識対象
文字の候補文字を抽出する候補文字集合抽出部33、こ
の候補文字集合抽出部33により抽出された候補文字集
合の列34の中の任意の文字がどういったカテゴリ(日
本語、アルファベット、漢字、かな文字等)に含まれて
いるかという情報を文字カテゴリ情報記憶部22から取
り出し、その文字の文字カテゴリ属性を生成する文字カ
テゴリ属性生成部35、文字カテゴリ属性生成部35に
より生成される文字カテゴリ属性集合の列36に基づ
き、隣接した文字の遷移確率を文字カテゴリ属性と遷移
確率情報記憶部23とから取得する遷移確率取得部3
7、文字カテゴリ属性集合の列から生成し得る文字列候
補の中から、動的計画法を用いて遷移確率を最大にする
ものを取得し、認識結果文字列39として表示装置40
の画面に表示する最適パス取得部38を備えている。
【0014】図2は、本発明で用いる文字カテゴリの意
味を表した図であり、本発明で用いる文字カテゴリは、
図2に示すように、階層構造になっている。階層の最上
位は、「日本語」、「アルファベット」、「その他」と
いうカテゴリーに分けられ、その下位階層がさらに幾つ
かの文字カテゴリに分けられている。例えば、「日本
語」の文字カテゴリーは、その下位が「漢字」と「かな
文字」の文字カテゴリーに分けられ、このうち「かな文
字」はさらに「ひらがな」と「かたかな」の文字カテゴ
リーに分けられている。また、「アルファベット」の文
字カテゴリーは、「大文字」と「小文字」の文字カテゴ
リーに分けられ、「その他」は「数字」と演算子」とい
う文字カテゴリーに分けられている。本実施の形態で
は、このような文字カテゴリーの階層構造において下位
階層に進むことを「詳細化」という。
味を表した図であり、本発明で用いる文字カテゴリは、
図2に示すように、階層構造になっている。階層の最上
位は、「日本語」、「アルファベット」、「その他」と
いうカテゴリーに分けられ、その下位階層がさらに幾つ
かの文字カテゴリに分けられている。例えば、「日本
語」の文字カテゴリーは、その下位が「漢字」と「かな
文字」の文字カテゴリーに分けられ、このうち「かな文
字」はさらに「ひらがな」と「かたかな」の文字カテゴ
リーに分けられている。また、「アルファベット」の文
字カテゴリーは、「大文字」と「小文字」の文字カテゴ
リーに分けられ、「その他」は「数字」と演算子」とい
う文字カテゴリーに分けられている。本実施の形態で
は、このような文字カテゴリーの階層構造において下位
階層に進むことを「詳細化」という。
【0015】図3は、文字カテゴリ情報記憶部22に記
憶されている文字カテゴリー情報の例を示す図であり、
文字カテゴリ情報記憶部22には、文字301とそれに
対応する文字カテゴリ302から成る文字カテゴリ情報
300が記憶されている。例えば、図示のように、「第」
という文字はその属性として日本語、漢字、JIS第1水準
漢字、第といった文字カテゴリに含まれているという情
報を持っている。
憶されている文字カテゴリー情報の例を示す図であり、
文字カテゴリ情報記憶部22には、文字301とそれに
対応する文字カテゴリ302から成る文字カテゴリ情報
300が記憶されている。例えば、図示のように、「第」
という文字はその属性として日本語、漢字、JIS第1水準
漢字、第といった文字カテゴリに含まれているという情
報を持っている。
【0016】図4は、遷移確率情報記憶部23に記憶さ
れている遷移確率情報の例を示す図であり、文字遷移4
01と、各文字遷移に対応する確率402から成る遷移
確率情報400が記憶されている。文字遷移401の括
弧「( )」内の数値は図2の文字カテゴリー階層にお
ける詳細化レベルを表わすものである。図4に示す内容
は、例えば、「第(0)→数字(4)」は、詳細化レベ
ル=0の「第」という文字自体のカテゴリーから詳細化
レベル=4の数字カテゴリーの文字に遷移する確率が
「0.4」であることを表わしている。
れている遷移確率情報の例を示す図であり、文字遷移4
01と、各文字遷移に対応する確率402から成る遷移
確率情報400が記憶されている。文字遷移401の括
弧「( )」内の数値は図2の文字カテゴリー階層にお
ける詳細化レベルを表わすものである。図4に示す内容
は、例えば、「第(0)→数字(4)」は、詳細化レベ
ル=0の「第」という文字自体のカテゴリーから詳細化
レベル=4の数字カテゴリーの文字に遷移する確率が
「0.4」であることを表わしている。
【0017】図5は、本発明における文字認識処理の概
略を示したフローチャートである。まず、候補文字集合
抽出部33により、タブレット10より入力された文字
から辞書21を参照し、認識候補文字集合の列34を生
成する(ステップ501)。認識候補文字集合の列34
は、例えば図6に示すように、「第10回横浜マラソ
ン」という入力文字列の各文字に対する認識候補文字列
から構成される。図示の例における「第10回横浜マラ
ソン」という入力文字列に対しては、「第IO回横浜マ
ラソン」、「第10回模浜マうりし」、「第i0回様浜
マラりン」という認識候補文字列が存在することを示し
ている。
略を示したフローチャートである。まず、候補文字集合
抽出部33により、タブレット10より入力された文字
から辞書21を参照し、認識候補文字集合の列34を生
成する(ステップ501)。認識候補文字集合の列34
は、例えば図6に示すように、「第10回横浜マラソ
ン」という入力文字列の各文字に対する認識候補文字列
から構成される。図示の例における「第10回横浜マラ
ソン」という入力文字列に対しては、「第IO回横浜マ
ラソン」、「第10回模浜マうりし」、「第i0回様浜
マラりン」という認識候補文字列が存在することを示し
ている。
【0018】次に、文字カテゴリ属性生成部35によ
り、認識候補文字集合の列34に含まれる全ての文字に
ついて文字カテゴリ属性を取得して、文字カテゴリ属性
の列36を生成する(ステップ502)。文字カテゴリ属
性の列36は、図7に示すように、各認識候補文字36
1とそれに対応する文字カテゴリの列362〜365か
ら構成されている。ここで、図の文字カテゴリの後に付
されている括弧「( )」内の数値は、当該カテゴリの
詳細化レベルを表している。詳細化レベルは、その文字
カテゴリに属している文字コードの数に応じて付され
る。詳細化レベルは、値が小さいほど詳細なカテゴリで
あるということを表している。例えば、「第」という文字
の属する最も詳細なカテゴリは「第」という文字そのも
ので、その詳細化レベルは「0」である。また、最も抽
象的なカテゴリは「日本語」で、その詳細化レベルは「3
0」である。
り、認識候補文字集合の列34に含まれる全ての文字に
ついて文字カテゴリ属性を取得して、文字カテゴリ属性
の列36を生成する(ステップ502)。文字カテゴリ属
性の列36は、図7に示すように、各認識候補文字36
1とそれに対応する文字カテゴリの列362〜365か
ら構成されている。ここで、図の文字カテゴリの後に付
されている括弧「( )」内の数値は、当該カテゴリの
詳細化レベルを表している。詳細化レベルは、その文字
カテゴリに属している文字コードの数に応じて付され
る。詳細化レベルは、値が小さいほど詳細なカテゴリで
あるということを表している。例えば、「第」という文字
の属する最も詳細なカテゴリは「第」という文字そのも
ので、その詳細化レベルは「0」である。また、最も抽
象的なカテゴリは「日本語」で、その詳細化レベルは「3
0」である。
【0019】次に、遷移確率取得部37により、文字カ
テゴリ属性集合の列36と図4の遷移確率情報400か
ら各候補文字間の遷移確率を取得する(ステップ50
3)。各候補文字間の遷移確率が取得して、図6で示し
た候補文字集合の列である「第10回横浜マラソン」、
「第IO回横浜マラソン」、「第i0回様浜マラりン」
中の「第10回」、「第IO回」、「第i0回」という
文字列の各文字間の関係を遷移確率を付して図示する
と、図8のようなものとなる。
テゴリ属性集合の列36と図4の遷移確率情報400か
ら各候補文字間の遷移確率を取得する(ステップ50
3)。各候補文字間の遷移確率が取得して、図6で示し
た候補文字集合の列である「第10回横浜マラソン」、
「第IO回横浜マラソン」、「第i0回様浜マラりン」
中の「第10回」、「第IO回」、「第i0回」という
文字列の各文字間の関係を遷移確率を付して図示する
と、図8のようなものとなる。
【0020】次に、最適パス取得部38により、ステッ
プ503で取得した遷移確率に基づき、複数の候補文字
列から動的計画法を用いて遷移確率が最大となる1つの
候補文字列を取得して、最適候補文字列として得る(ス
テップ504)。
プ503で取得した遷移確率に基づき、複数の候補文字
列から動的計画法を用いて遷移確率が最大となる1つの
候補文字列を取得して、最適候補文字列として得る(ス
テップ504)。
【0021】図9および図10を用いてステップ503
の処理の詳細を説明する。図9は、遷移確率取得の処理
のイメージを表した図である。図9は、ステップ503
の遷移確率取得の処理の詳細を示したフローチャートで
ある。
の処理の詳細を説明する。図9は、遷移確率取得の処理
のイメージを表した図である。図9は、ステップ503
の遷移確率取得の処理の詳細を示したフローチャートで
ある。
【0022】ここでは、例として「第」という文字と「1」
という文字の間の遷移確率の取得方法を説明する。まず
図10のステップ1001において、変数lおよびrに
「1」をそれぞれ設定し、さらに変数Rmax、Lmaxにカ
テゴリー数を設定する。変数Rmaxは、自分自身に対して
右側の文字のカテゴリー数、変数Lmaxは自分自身に対
して右側の文字のカテゴリー数である。図9に示すよう
に「第」と「1」は、各々4つの文字カテゴリに含まれ
るので、変数Rmax、Lmax共に「4」が設定される。
という文字の間の遷移確率の取得方法を説明する。まず
図10のステップ1001において、変数lおよびrに
「1」をそれぞれ設定し、さらに変数Rmax、Lmaxにカ
テゴリー数を設定する。変数Rmaxは、自分自身に対して
右側の文字のカテゴリー数、変数Lmaxは自分自身に対
して右側の文字のカテゴリー数である。図9に示すよう
に「第」と「1」は、各々4つの文字カテゴリに含まれ
るので、変数Rmax、Lmax共に「4」が設定される。
【0023】次に、CL(i)を左側の文字のi番目に
詳細な文字カテゴリー、CR(i)を右側の文字のi番
目に詳細な文字カテゴリー、DL(i)を左側の文字の
i番目に詳細なカテゴリーの詳細度、DR(i)を右側
の文字のi番目に詳細なカテゴリーの詳細度としたと
き、CL(l)→CR(r)の遷移確率が辞書(すなわ
ち、遷移確率情報記憶部23)に登録されているかを判
定する(ステップ1002)。このCL(l)→CR
(r)の文字のカテゴリ間に遷移確率が登録されている
場合には、その遷移確率を遷移確率情報記憶部23から
抽出し取得する(ステップ1003)。図4の例では、
カテゴリ「第」とカテゴリ「1」については、遷移確率
が登録されていないので、次にl=Lmaxかつr=Rmaxか
を判定する(ステップ1004)、ここでは、l=Lmax
かつr=Rmaxではないので、次に、左側の文字の詳細化レ
ベルを一段下げた場合の当該文字組合せの詳細化レベル
の合計、右側の文字の詳細化レベルを一段下げた場合の
当該文字組合せ詳細化レベルの合計とを比較する(ステ
ップ1006)。図9では、「第」の詳細化レベルを一
段下げた「JIS第1水準」(詳細化レベル:15)と
「1」(詳細化レベル:0)の合計の「15」と、変数
1の詳細化レベルを下げた「アラビア数字」(詳細化レ
ベル:2)と「第」を(詳細化レベル:0)の合計の
「2」とを比較する。この例ように、左側の文字の詳細
化レベルを一段下げた場合の方が詳細化レベルの合計が
大きい場合には、変数rをカウントアップして、右側文
字のカテゴリを一段下げる(ステップ1006,100
8)、逆に、ステップ1006で、右側の文字の詳細化
レベルを一段下げた場合の方が詳細化レベルの合計が大
きい場合には、変数lをカウントアップして、左側文字
のカテゴリを一段下げる(ステップ1007)。
詳細な文字カテゴリー、CR(i)を右側の文字のi番
目に詳細な文字カテゴリー、DL(i)を左側の文字の
i番目に詳細なカテゴリーの詳細度、DR(i)を右側
の文字のi番目に詳細なカテゴリーの詳細度としたと
き、CL(l)→CR(r)の遷移確率が辞書(すなわ
ち、遷移確率情報記憶部23)に登録されているかを判
定する(ステップ1002)。このCL(l)→CR
(r)の文字のカテゴリ間に遷移確率が登録されている
場合には、その遷移確率を遷移確率情報記憶部23から
抽出し取得する(ステップ1003)。図4の例では、
カテゴリ「第」とカテゴリ「1」については、遷移確率
が登録されていないので、次にl=Lmaxかつr=Rmaxか
を判定する(ステップ1004)、ここでは、l=Lmax
かつr=Rmaxではないので、次に、左側の文字の詳細化レ
ベルを一段下げた場合の当該文字組合せの詳細化レベル
の合計、右側の文字の詳細化レベルを一段下げた場合の
当該文字組合せ詳細化レベルの合計とを比較する(ステ
ップ1006)。図9では、「第」の詳細化レベルを一
段下げた「JIS第1水準」(詳細化レベル:15)と
「1」(詳細化レベル:0)の合計の「15」と、変数
1の詳細化レベルを下げた「アラビア数字」(詳細化レ
ベル:2)と「第」を(詳細化レベル:0)の合計の
「2」とを比較する。この例ように、左側の文字の詳細
化レベルを一段下げた場合の方が詳細化レベルの合計が
大きい場合には、変数rをカウントアップして、右側文
字のカテゴリを一段下げる(ステップ1006,100
8)、逆に、ステップ1006で、右側の文字の詳細化
レベルを一段下げた場合の方が詳細化レベルの合計が大
きい場合には、変数lをカウントアップして、左側文字
のカテゴリを一段下げる(ステップ1007)。
【0024】ステップ1004で、l=Lmaxかつr=Rm
axの場合は、予め定めておいた十分小さな値を遷移確率
とする(ステップ10005)。このようにして、2つ
の候補文字間の遷移確率を、遷移確率情報記憶部23に
登録されている遷移確率情報400の組み合わせの中
で、詳細化レベルの合計を最小にする組み合わせから得
る。この一連の処理を各候補文字間について行ってい
く。例えば、図6では、「第」と「I」、「第」と
「1」、「第」と「i」といった順に行っていく。
axの場合は、予め定めておいた十分小さな値を遷移確率
とする(ステップ10005)。このようにして、2つ
の候補文字間の遷移確率を、遷移確率情報記憶部23に
登録されている遷移確率情報400の組み合わせの中
で、詳細化レベルの合計を最小にする組み合わせから得
る。この一連の処理を各候補文字間について行ってい
く。例えば、図6では、「第」と「I」、「第」と
「1」、「第」と「i」といった順に行っていく。
【0025】このようにして得た各候補文字間の遷移確
率に基づき、最適パス取得部38において、動的計画法
を用いて遷移確率が最大となる1つの候補文字列を取得
して最適候補文字列として抽出する。
率に基づき、最適パス取得部38において、動的計画法
を用いて遷移確率が最大となる1つの候補文字列を取得
して最適候補文字列として抽出する。
【0026】この結果、図8の例では、「第10回」、
「第IO回」、「第i0回」という文字列の各文字間の
遷移確率は、「第10回」の「第」、「1」、「回」と
いう文字間の遷移確率が最大であるため、最終的な候補
文字列として「第10回」という文字列が抽出される。
「第IO回」、「第i0回」という文字列の各文字間の
遷移確率は、「第10回」の「第」、「1」、「回」と
いう文字間の遷移確率が最大であるため、最終的な候補
文字列として「第10回」という文字列が抽出される。
【0027】このように、タブレット等から入力された
文字を認識して得られる候補文字列の各文字に対し文字
カテゴリを付加し、その候補文字の文字カテゴリー間の
遷移確率を評価し、遷移確率が最大となるような文字を
最適候補文字列として出力することにより、大規模な単
語辞書を用いることなく、また大きな遷移確率行列を持
たずに高精度の認識結果を得ることができる。また、遷
移確率情報も同一カテゴリ内(例:漢字→漢字)の遷移
確率については詳細な情報を持ち、カテゴリをまたいだ
遷移(ひらがな→かたかな)については大まかな情報を
持てばよいので、遷移確率情報も大規模なものを必要と
せずに、高精度な認識結果を得ることができる。
文字を認識して得られる候補文字列の各文字に対し文字
カテゴリを付加し、その候補文字の文字カテゴリー間の
遷移確率を評価し、遷移確率が最大となるような文字を
最適候補文字列として出力することにより、大規模な単
語辞書を用いることなく、また大きな遷移確率行列を持
たずに高精度の認識結果を得ることができる。また、遷
移確率情報も同一カテゴリ内(例:漢字→漢字)の遷移
確率については詳細な情報を持ち、カテゴリをまたいだ
遷移(ひらがな→かたかな)については大まかな情報を
持てばよいので、遷移確率情報も大規模なものを必要と
せずに、高精度な認識結果を得ることができる。
【0028】また、文字認識結果の候補文字の信頼度が
低い場合、各文字に対する候補数が多く、候補の絞り込
みができなくなる。文字列全体の候補数は、各文字に対
する候補数の累積であるため、各文字に対する候補数が
増えると、文字列全体の候補数は爆発的に増加する。こ
のような場合、従来の形態素解析による方法にあって
は、候補文字列の中に、単語辞書に登録されている単語
がない場合、それぞれの候補文字列の確からしさを評価
する方法がなく、候補文字列の中での絞り込みができな
くなる。しかし、本発明の文字カテゴリー間の遷移確率
を用いる方法にあっては、どのような文字列であって
も、各文字の文字カテゴリーの遷移確率の累積を計算す
ることにより、それぞれの文字列の確からしさを評価す
ることができ、これによって候補文字列の中での絞り込
みが可能になる。
低い場合、各文字に対する候補数が多く、候補の絞り込
みができなくなる。文字列全体の候補数は、各文字に対
する候補数の累積であるため、各文字に対する候補数が
増えると、文字列全体の候補数は爆発的に増加する。こ
のような場合、従来の形態素解析による方法にあって
は、候補文字列の中に、単語辞書に登録されている単語
がない場合、それぞれの候補文字列の確からしさを評価
する方法がなく、候補文字列の中での絞り込みができな
くなる。しかし、本発明の文字カテゴリー間の遷移確率
を用いる方法にあっては、どのような文字列であって
も、各文字の文字カテゴリーの遷移確率の累積を計算す
ることにより、それぞれの文字列の確からしさを評価す
ることができ、これによって候補文字列の中での絞り込
みが可能になる。
【0029】さらに、漢字1文字が平仮名に挾まれてい
るような文字列、例えば「海は大きい」という文字列の
「は大き」という部分に注目した場合、「大」は「丈」
という文字に類似しているので、「は大き」と「は丈
き」という候補が考えられる。本発明においては、この
ように1文字の認識結果に差がつきにくい文字に関し
て、重点的に遷移確率情報を登録することにより、遷移
確率情報記憶部23の大きさをそれほど大きくすること
なく、対処することができる。具体的には、次のように
遷移確率情報を登録しておく。 「は」→「漢字」=0.3 「大」→「き」=0.4 「漢字」→「き」=0.1 このようにした場合、「は大き」と「は丈き」の文字列
の遷移確率は、 「は大き」=0.3×0.4=0.12 「は丈き」=0.3×0.1=0.03 となり、結果的に「海は大きい」という正しい認識結果
を得ることができる。すなわち、漢字1文字が平仮名に
挾まれているような文字列えであっても正しい認識結果
を得ることができる。
るような文字列、例えば「海は大きい」という文字列の
「は大き」という部分に注目した場合、「大」は「丈」
という文字に類似しているので、「は大き」と「は丈
き」という候補が考えられる。本発明においては、この
ように1文字の認識結果に差がつきにくい文字に関し
て、重点的に遷移確率情報を登録することにより、遷移
確率情報記憶部23の大きさをそれほど大きくすること
なく、対処することができる。具体的には、次のように
遷移確率情報を登録しておく。 「は」→「漢字」=0.3 「大」→「き」=0.4 「漢字」→「き」=0.1 このようにした場合、「は大き」と「は丈き」の文字列
の遷移確率は、 「は大き」=0.3×0.4=0.12 「は丈き」=0.3×0.1=0.03 となり、結果的に「海は大きい」という正しい認識結果
を得ることができる。すなわち、漢字1文字が平仮名に
挾まれているような文字列えであっても正しい認識結果
を得ることができる。
【0030】なお、本発明は、上記実施形態に限定され
るものではなく、候補文字列の文字カテゴリー情報を取
得する処理以降の処理を、要素技術として既存の文字認
識処理の中に組み込んで構成することができる。また、
図5で示した処理は、コンピュータが実行可能なプログ
ラムとしてCDROM等の記録媒体に格納されてユーザ
に提供される。または、インタネット等の通信媒体を通
じて有償で提供される。
るものではなく、候補文字列の文字カテゴリー情報を取
得する処理以降の処理を、要素技術として既存の文字認
識処理の中に組み込んで構成することができる。また、
図5で示した処理は、コンピュータが実行可能なプログ
ラムとしてCDROM等の記録媒体に格納されてユーザ
に提供される。または、インタネット等の通信媒体を通
じて有償で提供される。
【0031】
【発明の効果】本発明によれば、タブレット等から入力
された文字を認識して得られる候補文字列の各文字に対
し文字カテゴリを付加し、その候補文字の文字カテゴリ
ー間の遷移確率を評価し、遷移確率が最大となるような
文字を最適候補文字列として出力することにより、大規
模な単語辞書を用いることなく、また大きな遷移確率行
列を持たずに高精度の認識結果を得ることができる。ま
た、遷移確率情報も同一カテゴリ内(例:漢字→漢字)
の遷移確率については詳細な情報を持ち、カテゴリをま
たいだ遷移(ひらがな→かたかな)については大まかな
情報を持てばよいので、遷移確率情報も大規模なものを
必要とせずに、高精度な認識結果を得ることができる。
された文字を認識して得られる候補文字列の各文字に対
し文字カテゴリを付加し、その候補文字の文字カテゴリ
ー間の遷移確率を評価し、遷移確率が最大となるような
文字を最適候補文字列として出力することにより、大規
模な単語辞書を用いることなく、また大きな遷移確率行
列を持たずに高精度の認識結果を得ることができる。ま
た、遷移確率情報も同一カテゴリ内(例:漢字→漢字)
の遷移確率については詳細な情報を持ち、カテゴリをま
たいだ遷移(ひらがな→かたかな)については大まかな
情報を持てばよいので、遷移確率情報も大規模なものを
必要とせずに、高精度な認識結果を得ることができる。
【図1】本発明にかかる文字認識後処理装置の実施形態
を示すブロック図である。
を示すブロック図である。
【図2】文字カテゴリの概念を示す図である。
【図3】文字カテゴリ情報の例を示す図である。
【図4】遷移確率情報の例を示す図である。
【図5】本発明における後処理の概要を示すフローチャ
ートである。
ートである。
【図6】候補文字集合の列の例を示す図である。
【図7】文字カテゴリ属性集合の列の一例を示す図であ
る。
る。
【図8】取得した遷移確率の関係を示す図である。
【図9】遷移確率を取得する処理の概要説明図である。
【図10】遷移確率取得の詳細な処理を表したフローチ
ャートである。
ャートである。
10…タブレット、20…外部記憶装置、21…辞書、
22…文字カテゴリ情報記憶部、23…遷移確率情報記
憶部、30…データ処理装置、31…CPU、32…メ
モリ、33…候補文字集合抽出部、34…候補文字集合
の列、35…文字カテゴリ属性生成部、36…文字カテ
ゴリ属性集合の列、37…遷移確率取得部、38…最適
パス取得部、39…認識結果文字列、40…ディスプレ
イ装置。
22…文字カテゴリ情報記憶部、23…遷移確率情報記
憶部、30…データ処理装置、31…CPU、32…メ
モリ、33…候補文字集合抽出部、34…候補文字集合
の列、35…文字カテゴリ属性生成部、36…文字カテ
ゴリ属性集合の列、37…遷移確率取得部、38…最適
パス取得部、39…認識結果文字列、40…ディスプレ
イ装置。
─────────────────────────────────────────────────────
フロントページの続き
(56)参考文献 特開 平8−180137(JP,A)
特開 平6−162274(JP,A)
特開 平9−282420(JP,A)
特開 平5−108891(JP,A)
(58)調査した分野(Int.Cl.7,DB名)
G06K 9/00 - 9/82
Claims (2)
- 【請求項1】認識された日本語文字列に対して、最適な
候補文字を選択する文字認識後処理装置において、文字毎に当該文字を最下位概念とし、その上位の複数の
概念にわたる階層構造の 文字カテゴリ情報を記憶する文
字カテゴリ情報記憶手段と、認識した各候補文字の属す
る文字カテゴリの集合を前記文字カテゴリ情報記憶手段
に記憶された文字カテゴリ情報に基づき生成する手段
と、文字カテゴリ間の遷移確率情報を記憶した遷移確率
情報記憶手段と、前記生成した文字カテゴリの集合に基
づき、各候補文字間の文字カテゴリ毎の遷移確率情報を
前記遷移確率情報記憶手段から取得し、文字列候補毎に
遷移確率を算出し、遷移確率が最大の文字列候補を最適
候補文字列とする最適パス取得手段とを備えることを特
徴とする文字認識後処理装置。 - 【請求項2】 文字毎に当該文字を最下位概念とし、その
上位の複数の概念にわたる階層構造の文字カテゴリ情報
を記憶する文字カテゴリ情報記憶手段と、文字カテゴリ
間の遷移確率情報を記憶した遷移確率情報記憶手段とを
備え、認識された日本語文字列に対して、最適な候補文
字を選択する文字認識後処理方法であって、 認識した各候補文字の属する文字カテゴリの集合を前記
文字カテゴリ情報記憶手段に記憶された文字カテゴリ情
報に基づき生成する第1のステップと、 生成した文字カテゴリの集合に基づき、各候補文字間の
文字カテゴリごとの遷移確率情報を前記遷移確率情報記
憶手段から取得し、文字列候補毎に遷移確率を算出する
第2のステップと、 算出した遷移確率が最大の文字列候補を最適候補文字列
として決定する第3のステップとを備えることを特徴と
する文字認識後処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34641497A JP3415012B2 (ja) | 1997-12-16 | 1997-12-16 | 文字認識後処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34641497A JP3415012B2 (ja) | 1997-12-16 | 1997-12-16 | 文字認識後処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11175665A JPH11175665A (ja) | 1999-07-02 |
JP3415012B2 true JP3415012B2 (ja) | 2003-06-09 |
Family
ID=18383267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34641497A Expired - Fee Related JP3415012B2 (ja) | 1997-12-16 | 1997-12-16 | 文字認識後処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3415012B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4640155B2 (ja) | 2005-12-15 | 2011-03-02 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
-
1997
- 1997-12-16 JP JP34641497A patent/JP3415012B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11175665A (ja) | 1999-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10489682B1 (en) | Optical character recognition employing deep learning with machine generated training data | |
JP2726568B2 (ja) | 文字認識方法及び装置 | |
EP0844583B1 (en) | Method and apparatus for character recognition | |
EP2166488B1 (en) | Handwritten word spotter using synthesized typed queries | |
JP3425408B2 (ja) | 文書読取装置 | |
JP3292388B2 (ja) | 文書画像の復号なしに文書を要約するための方法と装置 | |
JP3452774B2 (ja) | 文字認識方法 | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
JPS61502495A (ja) | 暗号解析装置 | |
US7099507B2 (en) | Method and system for extracting title from document image | |
KR102220894B1 (ko) | 통계 데이터베이스의 데이터를 대화형으로 제공하는 질의 답변 시스템 | |
Baluja | Learning typographic style: from discrimination to synthesis | |
US6360010B1 (en) | E-mail signature block segmentation | |
Guillevic | Unconstrained handwriting recognition applied to the processing of bank cheques | |
Elms | The representation and recognition of text using hidden Markov models | |
CN117152770A (zh) | 一种面向手写输入的书写能力智能评测方法及系统 | |
JP3415012B2 (ja) | 文字認識後処理装置 | |
Hull | A computational theory of visual word recognition | |
Majeed et al. | Construction of Alphabetic Character Recognition Systems: A Review | |
JP2002063197A (ja) | 検索装置、記録媒体およびプログラム | |
Lu et al. | Retrieving imaged documents in digital libraries based on word image coding | |
JP3233803B2 (ja) | 難読漢字検索装置 | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
CN111259650A (zh) | 基于类标序列生成式对抗模型的文本自动生成方法 | |
JPH08115330A (ja) | 類似文書検索方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090404 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120404 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150404 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |