JP3080066B2 - 文字認識装置、方法及び記憶媒体 - Google Patents

文字認識装置、方法及び記憶媒体

Info

Publication number
JP3080066B2
JP3080066B2 JP10134746A JP13474698A JP3080066B2 JP 3080066 B2 JP3080066 B2 JP 3080066B2 JP 10134746 A JP10134746 A JP 10134746A JP 13474698 A JP13474698 A JP 13474698A JP 3080066 B2 JP3080066 B2 JP 3080066B2
Authority
JP
Japan
Prior art keywords
character
candidate
word
probability
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP10134746A
Other languages
English (en)
Other versions
JPH11328316A (ja
Inventor
修司 仙田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10134746A priority Critical patent/JP3080066B2/ja
Publication of JPH11328316A publication Critical patent/JPH11328316A/ja
Application granted granted Critical
Publication of JP3080066B2 publication Critical patent/JP3080066B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識装置、方
法及び記憶媒体に関し、特に、印刷文字または手書き文
字を認識するオフラインもしくはオンライン文字認識装
置において、言語知識によって個別文字認識手段が出力
する候補文字の中から効率的かつ精度良く正解文字を求
めることのできる文字認識装置に関する。
【0002】
【従来の技術】個々の文字の形状のみから文字を認識す
る個別文字認識手法では、前後にどのような文字が書か
れているかに関係なく、個々の文字を独立に認識する。
それに対して、言語的な知識を利用して前後関係を考慮
した後処理を行えば、文字認識精度は大幅に向上すると
期待できる。このような言語知識による文字認識後処理
手法は、文字n−gramを利用するもの(例えば、伊
東「Bigramによるオンライン漢字認識の文脈後処
理手法」情報処理学会自然言語処理 研究会資料、第9
7−6号、1993年発行)と形態素解析を利用するも
の(例えば、高尾、西野「日本語文書リーダ後処理の現
実と評価」情報処理学会 論文誌、第30巻11号13
94〜1401頁、1989年発行)に大別できる。
【0003】上記の伊東の論文にもあるように、文字n
−gramとは、ある文字が出現する確率をその直前の
n−1文字によって決定される事後確率として定義する
手法であり、この確率を文字n−gram確率と呼ぶ。
日本語の場合、文字種が多いため、nとしては2または
3を用いることが多く、それぞれ、文字bigram
(バイグラム)または文字trigram(トライグラ
ム)と呼ばれる。文字n−gram確率は、予め、大量
の学習用文書から統計的に求めておくことができる。よ
って、文字n−gram確率は統計的言語知識である。
文字n−gramを利用すると、ある文字列の出現確率
は、文字列中の個々の文字の文字n−gram確率を掛
け合わせることによって求めることができる。よって、
個別文字認識手段が出力する候補文字の中から最も出現
確率の高い文字列を求めてそれを正解とするのが文字n
−gramによる文字認識後処理である。文字n−gr
amの利点は、言語知識となる文字n−gram確率を
機械的に求めることができること、文字列の出現確率を
求めるだけなので後処理部の構成が簡単になること、学
習用文書には存在しない表現が出現しても特別な処理を
必要としないことが挙げられる。
【0004】上記の高尾と西野の論文にもあるように、
形態素解析とは、品詞ごとに分類された単語辞書と品詞
間の接続可否を記述した品詞接続表とを用いて、文字列
を接続可能な単語の列として解析する手法である。形態
素解析による文字認識後処理は、単語と品詞という文法
的な知識を用いるので、文字n−gramによる統計的
な手法と比べると文法的に正しい解を得ることができる
という利点がある。しかし、単語を単位として解析を行
なうので未知の単語があると解析できないこと、接続可
否の情報だけでは複数の解が有り得る場合にどれを選べ
ば良いか分からないこと、1文字単語同士の接続などに
よって文法的には正しくても実際には有り得ない文字列
を正解としてしまうことなどが問題となる。
【0005】これらの形態素解析手法の欠点を補うもの
として、特開平8−315078号公報に示されるよう
に、文字trigramなどの統計による言語知識を利
用しつつ形態素解析を行なう手法がある。この手法を実
現するための構成が図15に示されている。
【0006】図15のブロック図を参照して説明する
と、本手法は、文字候補生成手段100が入力文の文字
候補を生成する。形態素解析手段101は、生成された
文字候補を入力とし、単語モデル103から単語仮説生
成手段102で得られた単語仮説情報と、類似語モデル
105から類似語検索手段104で得られた類似語と、
品詞付けモデル106からの品詞付けモデル情報に基づ
いて形態素列を出力する。
【0007】上記単語モデル103は、品詞出現確率テ
ーブル、品詞別単語長テーブル、単語内文字三つ組確率
テーブルから構成される。単語内文字三つ組確率テーブ
ルは、単語内に限った場合の文字trigram確率を
表形式で蓄積したものである。この単語モデル103に
よって、単語辞書に未知の単語が存在しても、そのつづ
りと品詞が自動的に生成されるために解析を続けること
ができる。
【0008】類似語モデル105は、単語テーブル、文
内文字三つ組確率テーブルから構成される。文内文字三
つ組確率テーブルは、通常の文字trigram確率で
ある。品詞付けモデル106は、品詞三つ組確率テーブ
ル、品詞別単語出現確率テーブルから構成される。品詞
三つ組確率は、ある品詞の事後確率を直前の2つの品詞
で定義した品詞trigram確率である。このよう
に、文字trigram確率と品詞trigram確率
を用いることによって、複数の候補が接続可能な場合に
どれが最も良いかという順位付けを行なっている。
【0009】
【発明が解決しようとする課題】しかしながら、上述の
ように形態素解析を主体とする手法は、予め用意した文
法に合致する文章しか受理できないという問題がある。
形態素解析に用いられる文法は、人手により詳細に設計
されるものであるため、柔軟性の少ない書き言葉を中心
としたものである。より柔軟に多様な文章を入力できる
ようにするにはそれを受理する柔軟な文法を用意する必
要があるが、これには多くの人手を要するため容易には
実現できない。仮に、完璧な文法を用意できたとして
も、形態素解析は文章の意味を理解するものではないた
めに、文法的には正しくても実際には有り得ない文字列
を受理してしまうという問題は残る。また、統計による
言語知識と形態素解析を併用する手法は、処理が複雑に
なるために処理時間が増大するという問題がある。
【0010】それに対して、文字n−gramだけを用
いる手法は、日本語は文字の種類が多いために、文字t
rigramでさえ十分に学習することは難しいという
問題がある。例えば、3000字種を対象とした場合、
3000×3000×3000個の文字trigram
確率を求める必要があり、実際に使われるのはそのうち
の一部であるとしても、その数は膨大なものになる。こ
のように膨大な数の文字trigram確率を統計的に
十分な精度で求めるには、それに見合うだけの膨大な量
の学習用文書が必要とする。
【0011】また、学習が可能な状況であっても、求め
た文字trigram確率を格納する辞書容量は非常に
大きなものであり、取り扱いが困難である。更に、この
ようにして求めた文字trigram確率でさえ、それ
は直前の2文字から次の1文字が生起する確率を表して
いるにすぎないので、3文字より長い表現をうまく扱う
ことはできない。
【0012】文字n−gramを用いる他の問題とし
て、文字n−gramでは候補文字の組み合わせの中か
ら正解を求めることは比較的容易であるが、正解の文字
が候補文字に入っていなかった場合の処理は非常に困難
であるということが挙げられる。その理由は、文字n−
gramで表現できる文字列長が短いために、候補文字
以外から正解を探し出そうとすると、その候補が多くな
りすぎるためである。
【0013】そこで、本発明の第1の目的は、統計によ
る言語知識と文字認識の確信度とを併用することによっ
て、多様な文章を認識対象とする文字認識装置、方法及
び記憶媒体を提供することにある。
【0014】本発明の第2の目的は、文字n−gram
を補足する言語知識として生起確率付き単語辞書を併用
し、後処理の精度を向上させた文字認識装置を提供、方
法及び記憶媒体することにある。
【0015】本発明の第3の目的は、単語辞書を用いた
あいまい検索を行なうことにより候補文字以外から正解
を探しだすことを可能とし、後処理の精度を向上させた
文字認識装置、方法及び記憶媒体を提供することにあ
る。
【0016】
【課題を解決するための手段】前述の課題を解決するた
め、本発明による文字認識装置、方法及び記憶媒体は、
次のような特徴的な構成を採用している。
【0017】(1)個別文字認識を行ない候補文字と各
候補文字の確からしさを表わす確率である確信度を出力
する個別文字認識手段と、前記個別文字認識手段で出力
された候補文字の列に対して、ある文字が出現する確率
をその直前のn−1文字によって決定される事後確率と
して定義される文字n−gram確率を計算する文字n
−gram確率計算手段と、前記個別文字認識手段で出
力された候補文字の列の中から単語を検索しその生起確
率を計算する単語生起確率計算手段と、前記個別文字認
識手段で出力された文字認識の確信度と前記文字n−g
ram確率計算手段で計算された文字n−gram確率
と前記単語生起確率計算手段で計算された単語の生起確
率とを統合して最適な候補文字列を選択する最適候補選
択手段とを備えて成る文字認識装置。
【0018】(2)前記個別文字認識手段で出力された
候補文字の列の中から単語辞書に登録された単語と類似
した単語を検索するあいまい検索を行ない、あいまい検
索により見つかった単語の中で不一致となった文字とそ
の確信度を候補文字に追加するあいまい単語検索手段を
有する(1)の文字認識装置。
【0019】(3)前記最適候補選択手段が出力する最
適候補文字列の評価値から処理の打ち切りを判断する評
価値判定手段と、前記評価値が低い場合に前記個別文字
認識手段が出力するべき候補文字数を増やす候補文字数
増加手段と、を備える(1)または(2)の文字認識装
置。
【0020】(4)前記文字n−gram確率計算手段
が利用する文字n−gram確率辞書と前記単語生起確
率計算手段が利用する生起確率付き単語辞書とを2つ1
組とした複数組の辞書と、前記文字n−gram確率辞
書と生起確率付き単語辞書の組を使用して得られた最適
候補文字列の評価値のうち、最も評価値の高い組を選択
する最適辞書選択手段と、を有する(1)、(2)また
は(3)の文字認識装置。
【0021】(5)前記nは2または3である(1)、
(2)、(3)または(4)の文字認識装置。
【0022】(6)与えられた文字列パタンをその形状
的な特徴によって1文字ごとに分割し、切り出し候補と
して出力する文字切り出し候補生成手段と、前記切り出
し候補に対応する文字パタンを文字認識辞書によって文
字認識し、1つの切り出し候補に対して複数の候補文字
と各候補文字の確からしさを表わす確率である確信度を
出力する個別文字認識手段と、候補文字列の文字n−g
ram確率を求める文字n−gram確率計算手段と、
前記候補文字列が予め用意した生起確率付き単語辞書に
存在するか検索する完全一致単語検索手段と、前記候補
文字列が前記生起確率付き単語辞書に存在するかどうか
を検索する際、一部の文字が一致しなくても検索できた
とみなすあいまい検索を行なうあいまい単語検索手段
と、前記完全一致単語検索手段または前記あいまい単語
検索手段によって検索された単語の生起確率を求める単
語生起確率計算手段と、前記得られた候補文字の中か
ら、前記個別文字認識手段によって与えられた個々の文
字の確信度と、前記文字n−gram確率計算手段もし
くは前記単語生起確率計算手段によって与えられた前後
の文字を考慮した確率とを統合して、全体として最適な
文字列を認識結果として出力する最適候補選択手段と、
を備えて成る文字認識装置。
【0023】(7)文字n−gram確率計算と完全一
致単語検索とあいまい単語検索のそれぞれの処理の終了
後に最適候補選択手段による評価値計算を行なって、あ
る一定の値以上の評価値が得られればそこで処理を打ち
切る評価値判定手段と、あいまい単語検索をした後の最
適候補文字列の評価値が一定の値以下である場合には個
別文字認識における候補文字数を増やす候補文字数増加
手段と、を有する(6)の文字認識装置。
【0024】(8)前記文字n−gram確率辞書は、
異なる分野の学習用文書から学習された辞書で構成さ
れ、各文字n−gram確率辞書を使用した場合に得ら
れる最適候補文字列の評価値のうち最も大きい方の結果
を最終的な結果とする最適辞書選択手段を有する(6)
または(7)の文字認識装置。
【0025】(9)個別文字認識を行ない候補文字とそ
の確信度を求めるステップと、前記候補文字の列に対し
て、ある文字が出現する確率をその直前のn−1文字に
よって決定される事後確率として定義される文字n−g
ram確率を求めるステップと、得られた候補文字の列
中から単語を検索し、その生起確率を求めるステップ
と、前記文字認識の確信度と文字n−gram確率と単
語の生起確率を統合した認識基準から求めた評価値に基
づいて最適な候補文字列を選択する文字認識方法。
【0026】(10)前記候補文字の列の中から単語辞
書に登録された単語と類似した単語を検索するあいまい
検索を行ない、あいまい検索により見つかった単語の中
で不一致となった文字とその確信度を候補文字に追加す
るステップを有する(9)の文字認識方法。
【0027】(11)前記最適候補列選択の際に用いる
前記評価値から処理の打ち切りを判断するするステップ
と、前記評価値が低い場合に候補文字数を増やすステッ
プとを有する(9)の文字認識方法。
【0028】(12)前記評価値は、複数の言語知識を
それぞれ適用して得られた評価値のうち高い方の言語知
識に基づいて得られる請求項9に記載の文字認識方法。
【0029】(13)上記(9)乃至(12)のいずれ
かに記載されているステップ処理手順が格納されている
記憶媒体。
【0030】
【発明の実施の形態】以下、図面を参照しながら本発明
による文字認識装置、方法及び記憶媒体の種々の実施形
態を図面を参照しながら説明する。
【0031】先ず、本発明の概要を簡単に説明する。本
発明の第1の目的は、統計による言語知識と文字認識の
確信度とを併用することによって、多様な文章を認識対
象とする文字認識装置、方法及び記憶媒体を提案するこ
とである。
【0032】すなわち、統計による言語知識は学習用文
書から自動的に生成するので、対象とする文章に応じた
言語知識を準備することは容易であり、複数の言語知識
を切り替えて使用することも可能である。そして、個別
文字認識から得られる確信度を併用することによって、
予め用意した言語知識では対応できない表現があって
も、後処理を行わない個別文字認識の精度と同等の精度
を保つことができる。
【0033】また、本発明の第2の目的は、文字n−g
ramを補足する言語知識として生起確率付き単語辞書
を併用し、後処理の精度を向上させる文字認識装置、方
法及び記憶媒体を提案することである。
【0034】すなわち、文字n−gramだけでは、n
を増やすと学習が困難になることと辞書用量が指数的に
増加することが問題となり、nを減らすとn文字より長
い表現を扱えないことが問題となる。これに対して、本
発明では、nの小さい文字n−gramと単語辞書を併
用することによって上記問題を解決する。単語辞書中の
単語には生起確率を付与することによって確率を基にし
て両者の統合を行なう。
【0035】本発明の第3の目的は、単語辞書を用いた
あいまい検索を行なうことにより、候補文字以外から正
解を探しだすことを可能とし、後処理の精度を向上させ
ることである。単語の一部が候補文字に入っていない場
合でも、あいまい検索によって検索を行なうことがで
き、その結果から候補文字の補完を行なう文字認識装
置、方法及び記憶媒体を提案することである。
【0036】次に、図1に示すブロック図を参照する
と、本発明の第1の実施の形態においては、文字切り出
し候補生成手段1は文字列パタンを入力として図8に示
すような切り出し候補を出力する。この切り出し候補
は、切り出し位置1〜6に対して切り出し候補を図8に
示す如く、アーク1〜8と指定して得られる。個別文字
認識手段2は、上記切り出し候補を入力としてそれを文
字認識し、その文字認識結果を図9のような確信度付き
候補文字として出力する。文字n−gram確率計算手
段3は、上記候補文字列を入力としてそれに対する文字
n−gram確率を求める。単語生起確率計算手段4
は、上記候補文字の列を入力として、それが単語であっ
た場合にその生起確率を求める。
【0037】最適候補選択手段5は、単語生起確率計算
手段4と個別文字認識手段2によって得られた候補文字
の確信度と、文字n−garm確率計算手段3、単語生
起確率計算手段4によって得られた候補文字列の確率と
を統合して最適な結果を得る。
【0038】また、文字認識辞書6は、個別文字認識を
行なうための情報を保持し、文字n−gram確率辞書
7は学習用文書から統計的に求められた文字n−gra
m確率を保持し、生起確率付き単語辞書8は単語の表記
と学習用文書中におけるその生起確率を保持し、候補文
字ラティスバッファ9は個別文字認識手段2によって得
られた確信度付き候補文字と文字n−gram確率計算
手段3または単語生起確率計算手段4によって得られた
候補文字列の確率とを切り出し位置に基づいたラティス
構造として格納している。
【0039】更に、完全一致単語検索手段41は候補文
字列を入力としてそれと完全に一致する単語を生起確率
付き単語辞書8から検索し、あいまい単語検索手段42
は、候補文字列を入力としてそれと類似した単語を生起
確率付き単語辞書8から検索する。
【0040】より具体的に説明すると、文字切り出し候
補生成手段1は、与えられた文字列パタンをその形状的
な特徴によって1文字ごとに分割し、切り出し候補とし
て出力する。切り出し候補の間には重なりがあってもよ
く、例えば、Aという候補と、Aに隣接するBという候
補と、それらを合わせたABという候補とを出力しても
よい。そのため、各切り出し候補は、例えば図8に示す
ように、文字列パタンの位置に対応したノード間をつな
ぐアークとしてラティス構造で表現される。
【0041】個別文字認識手段2は、上記切り出し候補
に対応する文字パタンを文字認識辞書6によって文字認
識し、1つの切り出し候補に対して複数の候補文字と各
候補文字の確信度を出力する。この確信度は、各候補文
字の確からしさを表わす確率である。このようにして得
られた確信度付き候補文字は、例えば図9に示すよう
に、ラティス構造のアークに付与されて候補文字ラティ
スバッファ9に蓄積される。
【0042】文字n−gram確率計算手段3は、候補
文字ラティスバッファ9からn文字の候補文字列を全て
生成し、それらの文字n−gram確率を文字n−gr
am確率辞書7を参照して計算する。計算された文字n
−gram確率は、例えば図11のように、候補文字ラ
ティスバッファ9に蓄積される。
【0043】単語生起確率計算手段4は、完全一致単語
検索手段41またはあいまい単語検索手段42によって
検索された単語の生起確率を候補文字ラティスバッファ
9に蓄積する。
【0044】完全一致単語検索手段41は、候補文字ラ
ティスバッファ9から生成される候補文字列が生起確率
付き単語辞書8に存在するか検索する。
【0045】あいまい単語検索手段42は、完全一致単
語検索手段41と同様に、候補文字ラティスバッファ9
から生成される候補文字列が生起確率付き単語辞書8に
存在するかどうかを検索するが、この検索には、一部の
文字が一致しなくても検索できたとみなすあいまい検索
を行なう。多くの不一致を許すと全く関係のない単語ま
で検索されてしまうため、単語長に応じて不一致文字数
の最大値が設定されている。あいまい検索によって検索
された単語内の不一致文字は、候補文字ラティスバッフ
ァ9には候補文字として存在していないので、その文字
に対する文字パタンと文字コードを個別文字認識手段2
に渡すことによって、図13に示すように、上記文字パ
タンを前記文字コードとして認識するときの確信度を求
めてそれらを候補文字ラティスバッファ9に追加する。
【0046】最適候補選択手段5は、候補文字ラティス
バッファ9に蓄積された候補文字の中から、個別文字認
識手段2によって与えられた個々の文字の確信度と、文
字n−gram確率計算手段3もしくは単語生起確率計
算手段4によって与えられた前後の文字を考慮した確率
とを統合して、全体として最適な文字列を認識結果とし
て出力する。
【0047】文字n−gram確率辞書7は、n文字の
表記とその文字n−gram確率とを組とした表形式で
格納されている。例えば、文字bigram確率辞書の
一部を示す図10では、「パク0.0224」は、
「パ」という文字の後に「ク」という文字が出現する条
件付き確率P(ク|パ)が0.0224であることを表
している。生起確率付き単語辞書8は、文字n−gra
m確率辞書7と同様に、単語の表記とその生起確率とを
組とした表形式で格納されている。ここで格納される生
起確率は、文字n−gram確率辞書7との対応を取る
ために、単語の最初の文字は既に存在するとした場合の
条件付き確率である。例えば、生起確率付き単語辞書8
の一部を示す図12では、「パタン0.0068」は、
「パ」という文字の後に「タン」という文字列が出現す
る条件付き確率P(タン|パ)が0.0068であるこ
とを表している。
【0048】次に、図1および図2を参照して本実施の
形態の動作について詳細に説明する。
【0049】入力として与えられた文字列パタンは、文
字切り出し候補生成手段1によってその形状的な特徴に
基づき1文字ごとに分割され、切り出し候補として出力
される(図2のステップS1)。個々の切り出し候補に
対応する文字パタンは、個別文字認識手段2によって独
立に文字認識され、認識結果として得られた候補文字の
文字コードと確信度が、例えば、図9のように、候補文
字ラティスバッファ9に蓄積される(ステップS2)。
【0050】次に、文字n−gram確率計算手段3に
よって、候補文字ラティスバッファ9中に存在するn文
字の候補文字列が全て生成され、それらの文字n−gr
am確率が計算されて、例えば、図10のように、候補
文字ラティスバッファ9に書き込まれる(ステップS
3)。次に、完全一致単語検索手段41によって、候補
文字ラティスバッファ9中に存在する候補文字列全てが
生起確率付き単語辞書8によって検索され(ステップS
4)、見つかった単語とその生起確率は単語生起確率計
算手段4によって候補文字ラティスバッファ9に書き込
まれる(ステップS5)。
【0051】続いて、あいまい単語検索手段42によっ
て、候補文字ラティスバッファ9中に存在する候補文字
の列全てが生起確率付き単語辞書8によってあいまい検
索される(ステップS6)。このあいまい検索では、単
語長に応じて設定された不一致文字数の上限の範囲内
で、候補文字列と単語の文字に不一致があってもよい。
あいまい検索によって見つかった単語中の不一致となっ
た文字は、個別文字認識手段2によってその確信度が計
算されて、候補外文字として候補文字ラティスバッファ
9に書き加えられる(ステップS7)。そして、その生
起確率は、単語生起確率計算手段4によって、例えば、
図12のように、候補文字ラティスバッファ9に書き込
まれる(ステップS8)。
【0052】最後に、最適候補選択手段5によって、候
補文字ラティスバッファ9に蓄積された候補文字の中か
ら、個別文字認識手段2によって与えられた個々の文字
の確信度と、文字n−gram確率計算手段3もしくは
単語生起確率計算手段4によって与えられた前後の文字
を考慮した確率とを統合して、全体として最適となる候
補文字が選択され、文字列認識結果として出力される
(ステップS9)。
【0053】次に、上述本発明の実施形態の作用効果に
ついて説明する。本実施の形態では、個別文字認識手段
2が出力する個別文字の確信度と、文字n−gram確
率計算手段3もしくは単語生起確率計算手段4が出力す
る文字の前後を考慮した文字列としての確率とを統合す
る最適候補選択手段5を備えているために、文字認識の
確信度と統計による言語知識とを併用することによって
多様な文章を認識対象とすることができる。すなわち、
統計による言語知識は学習用文書から自動的に生成する
ので、対象とする文章に応じた言語知識を準備すること
は容易であるだけでなく、個別文字認識から得られる確
信度を併用することによって、予め用意した言語知識で
は対応できない表現であっても、後処理を行わない個別
文字認識の精度と同等の精度を保つことができる。
【0054】また、本実施の形態では、文字n−gra
m確率辞書7だけでなく生起確率付き単語辞書8をも備
えているために、文字n−gramの言語知識の不足を
補うことができる。文字n−gram確率辞書7と生起
確率付き単語辞書8は、両者とも文字列の生起確率を表
わすものであり、全く同じ尺度として扱うことができる
ので両者の統合は容易である。
【0055】更に、本実施の形態では、あいまい単語検
索手段42を備えているために、候補外文字をも言語知
識による後処理の対象としており、精度の向上が期待で
きる。
【0056】次に、具体的な実施例を用いて本実施の形
態の動作を説明する。図8の上部に示すような「パタン
研」と書かれた文字列パタンが入力されたとする。文字
切り出し候補生成手段1は、形状的な特徴に基づいて図
8中にアーク1〜8として示したような切り出し候補を
生成する(図2のステップS1)。図8の例では、8個
の切り出し候補が生成される。
【0057】次に、個別文字認識手段2は、個々の切り
出し候補に対応する文字パタンを文字認識する(ステッ
プS2)。文字認識の結果、図9のように、各切り出し
候補に対応する候補文字のコードと確信度がアークに付
与された。図9は、候補文字ラティスバッファ9を図示
したものであり、(左端切り出し位置、右端切り出し位
置、文字コード、確信度)の4つの組の表として蓄積さ
れている。例えば、アーク1では(0、1、1、0.8
2)、アーク2では(0、2、パ、0.44)等のよう
に表現される。
【0058】文字n−gram確率計算手段3は、図1
0に示すような文字bigram確率辞書を参照して、
図9に示すように候補文字ラティスバッファ9中の文字
列長2の全ての文字列の文字bigram確率を計算
し、それを候補文字ラティスバッファ9に蓄積する(ス
テップS3)。
【0059】本実施例の場合、図11に示すように、5
個の文字bigram確率が蓄積された。それ以外の候
補文字列は文字bigram確率辞書に存在しなかった
ために候補文字ラティスバッファ9には蓄積されていな
いが、後述する文字bigram確率による評価値を計
算する際には定数εの確率であるとする。これは、学習
用文書に現れなかった表現にも対処するためである。ε
としては、学習用文書の文字数をLとすれば、ε<1/
Lとするのが適当である。本実施例では、ε=0.1/
Lとしたが、これに限るものではない。
【0060】次に、全ての候補文字列から図12に示す
ような単語辞書を参照して単語検索を行なう。本実施例
の場合、完全一致する単語は存在しなかった(ステップ
S4,S5)。続いて、あいまい単語検索手段42によ
ってあいまい検索が行われ、「パタン」が検索された
(ステップS6)。本実施例では、あいまい単語検索手
段は、単語辞書中の3文字以上の単語に対して、長さが
同じで1文字の不一致があっても一致したとみなすもの
を用いた。「タ」は候補外文字であるので、個別文字認
識手段2によって確信度が計算され、図13に示すよう
に候補文字ラティスバッファ9に追加された(ステップ
S7)。また、「パタン」の生起確率は0.0068で
あるので、図13に示すように「パタン0.0068」
に対応するアークが追加された(ステップS8)。
【0061】最後に、最適候補選択手段5が、図11に
示された文字の確信度と文字bigram確率、図13
に示された単語生起確率を統合して最適な候補文字の選
択を行なう。具体的には、候補文字ラティス中の先頭か
ら最後に至る全ての候補文字列のうち、以下の評価値E
が最大となる候補文字列を選択する。 E=(1−ω)Ec+ωEb Ecは候補文字列内の各文字の文字認識確信度による評
価値であり、P(Ci)を文字Ciの確信度として、 Ec=Σlog(P(Ci)) によって定める。Ebは言語知識による候補文字列の評
価値であり、文字bigram確率だけを使う場合に
は、 Eb=Σlog(P(Ci|Ci−1)) によって定義される。
【0062】もし候補文字列内に完全一致検索またはあ
いまい検索によって検索された単語が存在する場合に
は、それに対応する部分の文字bigram確率による
評価値は単語の生起確率から求めた評価値に置き換え
る。例えば、候補文字列が「パタン研」である場合、仮
に単語辞書に「パタン」がないとすれば、 Eb=log(P(タ|パ))+log(P(ン|
タ)) +log(P(研|ン))となるが、本実施例では、
「パタン」は単語辞書にあるので、「パタン」に対応す
る上記log(P(タ|パ))+log(P(ン|
タ))の部分がlog(P(タン|パ))に置き換わ
り、 Eb=log(P(タン|パ))+log(P(研|
ン)) となる。ωは文字認識による確信度と文字列としての生
起確率を統合する定数である。ω=0の場合は、個別文
字認識の結果と一致し、ω=1の場合は、文字認識の確
信度を用いない結果と一致する。ωは0.1〜0.5ぐ
らいが良い。本実施例では、ω=0.2としたが、これ
に限るものではない。
【0063】図13では、「パタン研」という候補文字
列に対して、Ec=log(0.44)+log(0.
08)+log(0.73)+log(0.48)、E
b=log(0.0068)+log(0.0002)
となり、これが最も評価値の高い候補文字列として選択
された。
【0064】次に、本発明の第2の実施の形態について
図3を参照して詳細に説明する。
【0065】図3を参照すると、本発明の第2の実施の
形態は、最適候補選択手段5が出力する候補文字列の評
価値を基に処理の打ち切りを判断する評価値判定手段5
1と、評価値判定手段51の結果を基に候補文字数を増
やす候補文字数増加手段52を有する点が、本発明の第
1の実施の形態とは異なる。
【0066】評価値判定手段51は、文字n−gram
確率計算と完全一致単語検索とあいまい単語検索のそれ
ぞれの処理の終了後に最適候補選択手段による評価値計
算を行なって、ある一定の値以上の評価値が得られれば
そこで処理を打ち切る。候補文字数増加手段52は、あ
いまい単語検索をした後の最適候補文字列の評価値が一
定の値以下である場合には個別文字認識における候補文
字数を増やす。
【0067】次に、本実施の形態の動作について図4〜
図7を参照して説明する。入力として与えられた文字列
パタンは、文字切り出し候補生成手段1によってその形
状的な特徴に基づき切り出し候補として出力され(図4
のステップS11)、個別文字認識手段2によって文字
認識される(ステップS12)。次に、文字n−gra
m確率計算手段3によって、文字n−gram確率が計
算された後(ステップS13)、最適候補選択手段5に
よって、最適な候補文字列とその評価値が計算される
(ステップS14)。
【0068】得られた評価値は、予め定められた定数T
と比較され、これを上回っている場合にはこの時点での
候補文字列が文字認識結果として出力される(図7のス
テップS43)。評価値がTより小さい場合、完全一致
単語検索手段41によって、生起確率付き単語辞書8に
存在する単語が検索され(図5のステップS21)、単
語が見つかった場合には、単語生起確率計算手段4によ
って単語の生起確率が候補文字ラティスバッファ9に蓄
積された後(ステップS22)、最適候補選択手段5に
よって、最適な候補文字列とその評価値が計算される
(ステップS23)。
【0069】得られた評価値は、予め定められた定数T
と比較され、これを上回っている場合にはこの時点での
候補文字列が文字認識結果として出力される(ステップ
S24)。評価値がTより小さい場合、あいまい単語検
索手段42によって、生起確率付き単語辞書8に存在す
る単語があいまい検索され(図6のステップS31)、
単語が見つかった場合には不一致となっていた候補外文
字の確信度を文字認識手段2によって求め(ステップS
32)、単語生起確率計算手段4によって単語の生起確
率が候補文字ラティスバッファ9に蓄積された後(ステ
ップS33)、最適候補選択手段5によって、最適な候
補文字列とその評価値が計算される(ステップS3
4)。
【0070】得られた評価値は、予め定められた定数T
と比較され、これを上回っている場合にはこの時点での
候補文字列が文字認識結果として出力される(ステップ
S35)。評価値がTより小さい場合、個別文字認識手
段2における1文字パタンあたりの候補文字数が定数N
よりも大きいかどうかを調べ(図7のステップS4
1)、大きくない場合は前記候補文字数を増やして(ス
テップS42)、図4のステップS12の個別文字認識
に戻る。候補文字数が定数Nよりも大きい場合は、この
時点での最適候補文字列が文字認識結果として出力され
る(ステップS43)。
【0071】次に、本実施の形態の作用効果について説
明する。本実施の形態では、文字n−gram確率計算
と完全一致単語検索とあいまい単語検索のそれぞれの処
理の終了後に最適候補選択手段による評価値計算を行な
ってある一定の値以上の評価値が得られればそこで処理
を打ち切るために、完全一致単語検索とあいまい単語検
索を必ず行なう場合よりも処理時間を短縮できる。更
に、本実施の形態では、あいまい単語検索をした後の最
適候補文字列の評価値が一定の値以下である場合には個
別文字認識における候補文字数を増やすために、個別文
字認識率が高い場合には高速に正解を得ることができ、
個別文字認識率が低い場合は低速にはなるが正解をより
広い範囲で探すという適応的な処理を行える。
【0072】次に、本発明の第3の実施の形態について
図14を参照して説明する。本実施の形態は、第1の文
字n−gram確率辞書71と、第1の生起確率付き単
語辞書81と、第2の文字n−gram確率辞書72
と、第2の生起確率付き単語辞書82と、最適辞書選択
手段50を有する点が本発明の第1の実施の形態とは異
なる。
【0073】第1の文字n−gram確率辞書71と第
1の生起確率付き単語辞書81は組をなしており、例え
ば、電子メール本文用、住所宛名用、論文用などと、分
野を限定した学習用文書から学習されたものである。そ
して、第2の文字n−gram確率辞書72と第2の生
起確率付き単語辞書82も組をなしており、第1の文字
n−gram確率辞書71と第1の生起確率付き単語辞
書81とは異なる分野の学習用文書から学習されたもの
である。最適辞書選択手段50は、第1の文字n−gr
am確率辞書71と第1の生起確率付き単語辞書81を
使用した場合に得られる最適候補文字列の評価値と、第
2の文字n−gram確率辞書72と第2の生起確率付
き単語辞書82を使用した場合に得られる最適候補文字
列の評価値とを比べて大きい方の結果を最終的な結果と
する。ここでは、文字n−gram確率辞書および生起
確率付き単語辞書が2組の場合を示したが、それ以上で
も同様である。
【0074】次に、上述第3の実施の形態の作用効果に
ついて説明する。本実施の形態では、複数の連動した文
字n−gram確率辞書および生起確率付き単語辞書を
有するので、異なる分野ごとに辞書を用意することによ
り、その分野に適した処理が行える。どの辞書を利用す
るかは評価値を基に自動的に決定されるので使用者が指
定する必要はない。
【0075】以上に詳述した実施形態の構成をまとめる
と次のようになる。本発明の第1の文字認識装置は、文
字認識の確信度と文字n−gram確率と単語の生起確
率を統合し、最適な候補を選択する。具体的には、個別
文字認識を行ない候補文字とその確信度を出力する個別
文字認識手段2と、候補文字列中から単語を検索しその
生起確率を計算する単語生起確率計算手段4と、あいま
い検索を行ない不一致となった文字を候補文字に追加す
るあいまい単語検索手段42と、文字認識の確信度と文
字n−gram確率と単語の生起確率を統合して最適な
候補文字列を選択する最適候補選択手段5とを有する。
【0076】本発明の第2の文字認識装置は、評価値に
よって単語検索を打ち切ったり、個別文字認識の候補文
字数を調整したりする。より具体的には、最適候補選択
手段が出力する評価値から処理の打ち切りを判断する評
価値判定手段51と、評価値が低い場合に候補文字数を
増やす候補文字数増加手段52を有する。
【0077】本発明の第3の文字認識装置は、複数の言
語知識の中から対象とする文章に応じた言語知識を自動
的に選択する。より具体的には、複数の言語知識をそれ
ぞれ適用して得られた評価値のうち、高い方の言語知識
を選択する最適辞書選択手段50を有する。
【0078】個別文字認識手段2は、文字パタンを文字
認識辞書6によって文字認識し、複数の候補文字と各候
補文字の確信度を出力する。この確信度は、各候補文字
の確からしさを表わす確率である。最適候補選択手段5
は、個別文字認識手段2によって与えられた個々の文字
の確信度と、文字n−gram確率計算手段3もしくは
単語生起確率計算手段4によって与えられた前後の文字
を考慮した確率とを統合して、全体として最適な文字列
を認識結果として出力する。
【0079】単語生起確率計算手段4は、完全一致単語
検索手段41またはあいまい単語検索手段42によって
検索された単語の生起確率を文字n−gram確率と同
等な尺度となるように計算する。
【0080】あいまい単語検索手段42は、一部の文字
が不一致であっても検索できたとするあいまい検索を行
ない、検索された単語の不一致となった文字の確信度を
個別文字認識手段2を用いて計算し、それを候補文字に
追加する。
【0081】評価値判定手段51は、最適候補選択手段
5が出力する評価値が十分に大きいかどうかを判断し、
その結果として単語検索処理を打ち切る。
【0082】候補文字数増加手段52は、最適候補選択
手段51が出力する評価値が小さい場合に個別文字認識
における候補文字数を増やす。
【0083】最適辞書選択手段50は、複数の言語知識
をそれぞれ適用した場合の最適候補選択手段による評価
値を比較し、評価値が最も大きい言語知識を選択する。
【0084】
【発明の効果】以上説明したように本発明による文字認
識装置は次のような顕著な効果を奏する。
【0085】すなわち、本発明の第1の効果は、文字認
識の確信度と統計による言語知識とを併用することによ
って多様な文章を認識対象とすることができることであ
る。これは、個別文字認識から得られる確信度を併用す
ることによって、予め用意した言語知識では対応できな
い表現であっても、後処理を行わない個別文字認識の精
度と同等の精度を保つことができるからである。
【0086】第2の効果は、生起確率付き単語辞書を利
用することによって文字n−gramの言語知識の不足
を補えることである。その理由は、文字n−gram確
率辞書と生起確率付き単語辞書は、両者とも文字列の生
起確率を表わすものであり全く同じ尺度として扱うこと
ができるので両者の統合は容易だからである。
【0087】第3の効果は、候補外文字を言語知識によ
る後処理の対象とできることである。これは、あいまい
単語検索手段によってあいまい検索を行ない、不一致と
なった候補外文字の確信度を個別文字認識手段を用いて
計算し直すからである。
【0088】第4の効果は、単語検索の処理時間を省略
できることである。その理由は、単語検索の前に最適候
補選択手段による評価値計算を行ない、十分な値が得ら
れればその時点での最適候補を解とするからである。
【0089】第5の効果は、個別文字認識率が高い場合
には高速に正解を得ることができ、個別文字認識率が低
い場合は低速にはなるが正解をより広い範囲で探すとい
う適応的な処理を行えることである。これは、最適候補
選択手段が出力する評価値が小さい場合には個別文字認
識における候補文字数を増やすからである。
【0090】第6の効果は、異なる分野ごとに辞書を用
意することにより、その分野に適した処理が自動的に行
えることである。その理由は、複数の連動した文字n−
gram確率辞書および生起確率付き単語辞書を用意
し、最適候補選択手段によって最も評価値が高いものを
選択するからである。
【図面の簡単な説明】
【図1】本発明による文字認識装置の第1の実施の形態
を示すブロック図である。
【図2】図1に示す本発明の第1の実施の形態の動作を
示すフローチャートである。
【図3】本発明による文字認識装置の第2の実施の形態
を示すブロック図である。
【図4】図3に示す本発明の第2の実施の形態の動作を
示すフローチャートである。
【図5】図3に示す本発明の第2の実施の形態の動作を
示すフローチャートである。
【図6】図3に示す本発明の第2の実施の形態の動作を
示すフローチャートである。
【図7】図3に示す本発明の第2の実施の形態の動作を
示すフローチャートである。
【図8】文字切り出し候補の例をラティス構造で示す図
である。
【図9】確信度付き候補文字が蓄積された候補文字ラテ
ィスバッファの例を示す図である。
【図10】文字bigram確率辞書の一部を示す図で
ある。
【図11】文字bigram確率が蓄積された候補文字
ラティスバッファの例を示す図である。
【図12】生起確率付き単語辞書の一部を示す図であ
る。
【図13】あいまい検索された生起確率付き単語が蓄積
された候補文字ラティスバッファの例を示す図である。
【図14】本発明による文字認識装置の第3の実施の形
態を示すブロック図である。
【図15】従来の文字認識装置の構成ブロック図であ
る。
【符号の説明】
1 文字切り出し候補生成手段 2 個別文字認識手段 3 文字n−gram確率計算手段 4 単語生起確率計算手段 5 最適候補選択手段 6 文字認識辞書 7 文字n−gram確率辞書 8 生起確率付き単語辞書 9 候補文字ラティスバッファ 41 完全一致単語検索手段 42 あいまい単語検索手段 50 最適辞書選択手段 51 評価値判定手段 52 候補文字数増加手段 71 第1の文字n−gram確率辞書 72 第2の文字n−gram確率辞書 81 第1の生起確率付き単語辞書 82 第2の生起確率付き単語辞書 100 文字候補生成手段 101 形態素解析手段 102 単語仮説生成手段 103 単語モデル 104 類似単語検索手段 105 類似語モデル 106 品詞付けモデル
フロントページの続き (56)参考文献 特開 平5−174195(JP,A) 特開 平9−282420(JP,A) 特開 平11−328317(JP,A) 特開 昭62−247480(JP,A) 「情報処理学会論文誌」Vol.33 No.5 p.664−670(1992) 「電子情報処理学会論文誌」Vol. J76−D−2 No.6 p.1090− 1096(1993) 「電子情報処理学会論文誌」Vol. J68−D No.1 p.64−71 (1985) 「情報処理学会全国大会講演論文集」 Vol.56th No.2 p.113− 114(1998) (58)調査した分野(Int.Cl.7,DB名) G06K 9/72 JICSTファイル(JOIS)

Claims (13)

    (57)【特許請求の範囲】
  1. 【請求項1】個別文字認識を行ない候補文字と各候補文
    字の確からしさを表わす確率である確信度を出力する個
    別文字認識手段と、前記個別文字認識手段で出力された
    候補文字の列に対して、ある文字が出現する確率をその
    直前のn−1文字によって決定される事後確率として定
    義される文字n−gram確率を計算する文字n−gr
    am確率計算手段と、前記個別文字認識手段で出力され
    た候補文字の列の中から単語を検索しその生起確率を計
    算する単語生起確率計算手段と、前記個別文字認識手段
    で出力された文字認識の確信度と前記文字n−gram
    確率計算手段で計算された文字n−gram確率と前記
    単語生起確率計算手段で計算された単語の生起確率とを
    統合して最適な候補文字列を選択する最適候補選択手段
    とを備えて成ることを特徴とする文字認識装置。
  2. 【請求項2】前記個別文字認識手段で出力された候補文
    字の列の中から単語辞書に登録された単語と類似した単
    語を検索するあいまい検索を行ない、あいまい検索によ
    り見つかった単語の中で不一致となった文字とその確信
    度を候補文字に追加するあいまい単語検索手段を有する
    請求項1に記載の文字認識装置。
  3. 【請求項3】前記最適候補選択手段が出力する最適候補
    文字列の評価値から処理の打ち切りを判断する評価値判
    定手段と、前記評価値が低い場合に前記個別文字認識手
    段が出力するべき候補文字数を増やす候補文字数増加手
    段と、を備える請求項1または2に記載の文字認識装
    置。
  4. 【請求項4】前記文字n−gram確率計算手段が利用
    する文字n−gram確率辞書と前記単語生起確率計算
    手段が利用する生起確率付き単語辞書とを2つ1組とし
    た複数組の辞書と、前記文字n−gram確率辞書と生
    起確率付き単語辞書の組を使用して得られた最適候補文
    字列の評価値のうち、最も評価値の高い組を選択する最
    適辞書選択手段と、を有する請求項1、2または3に記
    載の文字認識装置。
  5. 【請求項5】前記nは2または3である請求項1、2、
    3または4に記載の文字認識装置。
  6. 【請求項6】与えられた文字列パタンをその形状的な特
    徴によって1文字ごとに分割し、切り出し候補として出
    力する文字切り出し候補生成手段と、前記切り出し候補
    に対応する文字パタンを文字認識辞書によって文字認識
    し、1つの切り出し候補に対して複数の候補文字と各候
    補文字の確からしさを表わす確率である確信度を出力す
    る個別文字認識手段と、候補文字列の文字n−gram
    確率を求める文字n−gram確率計算手段と、前記候
    補文字列が予め用意した生起確率付き単語辞書に存在す
    るか検索する完全一致単語検索手段と、前記候補文字列
    が前記生起確率付き単語辞書に存在するかどうかを検索
    する際、一部の文字が一致しなくても検索できたとみな
    すあいまい検索を行なうあいまい単語検索手段と、前記
    完全一致単語検索手段または前記あいまい単語検索手段
    によって検索された単語の生起確率を求める単語生起確
    率計算手段と、前記得られた候補文字の中から、前記個
    別文字認識手段によって与えられた個々の文字の確信度
    と、前記文字n−gram確率計算手段もしくは前記単
    語生起確率計算手段によって与えられた前後の文字を考
    慮した確率とを統合して、全体として最適な文字列を認
    識結果として出力する最適候補選択手段と、を備えて成
    ることを特徴とする文字認識装置。
  7. 【請求項7】文字n−gram確率計算と完全一致単語
    検索とあいまい単語検索のそれぞれの処理の終了後に最
    適候補選択手段による評価値計算を行なって、ある一定
    の値以上の評価値が得られればそこで処理を打ち切る評
    価値判定手段と、あいまい単語検索をした後の最適候補
    文字列の評価値が一定の値以下である場合には個別文字
    認識における候補文字数を増やす候補文字数増加手段
    と、を有する請求項6に記載の文字認識装置。
  8. 【請求項8】前記文字n−gram確率辞書は、異なる
    分野の学習用文書から学習された辞書で構成され、各文
    字n−gram確率辞書を使用した場合に得られる最適
    候補文字列の評価値のうち最も大きい方の結果を最終的
    な結果とする最適辞書選択手段を有する請求項6または
    7に記載の文字認識装置。
  9. 【請求項9】個別文字認識を行ない候補文字とその確信
    度を求めるステップと、前記候補文字の列に対して、あ
    る文字が出現する確率をその直前のn−1文字によって
    決定される事後確率として定義される文字n−gram
    確率を求めるステップと、得られた候補文字の列中から
    単語を検索し、その生起確率を求めるステップと、前記
    文字認識の確信度と文字n−gram確率と単語の生起
    確率を統合した認識基準から求めた評価値に基づいて最
    適な候補文字列を選択することを特徴とする文字認識方
    法。
  10. 【請求項10】前記候補文字の列の中から単語辞書に登
    録された単語と類似した単語を検索するあいまい検索を
    行ない、あいまい検索により見つかった単語の中で不一
    致となった文字とその確信度を候補文字に追加するステ
    ップを有する請求項9に記載の文字認識方法。
  11. 【請求項11】前記最適候補列選択の際に用いる前記評
    価値から処理の打ち切りを判断するするステップと、前
    記評価値が低い場合に候補文字数を増やすステップとを
    有する請求項9に記載の文字認識方法。
  12. 【請求項12】前記評価値は、複数の言語知識をそれぞ
    れ適用して得られた評価値のうち高い方の言語知識に基
    づいて得られる請求項9に記載の文字認識方法。
  13. 【請求項13】請求項9乃至12のいずれかに記載され
    ているステップ処理手順が格納されている記憶媒体。
JP10134746A 1998-05-18 1998-05-18 文字認識装置、方法及び記憶媒体 Expired - Lifetime JP3080066B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10134746A JP3080066B2 (ja) 1998-05-18 1998-05-18 文字認識装置、方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10134746A JP3080066B2 (ja) 1998-05-18 1998-05-18 文字認識装置、方法及び記憶媒体

Publications (2)

Publication Number Publication Date
JPH11328316A JPH11328316A (ja) 1999-11-30
JP3080066B2 true JP3080066B2 (ja) 2000-08-21

Family

ID=15135623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10134746A Expired - Lifetime JP3080066B2 (ja) 1998-05-18 1998-05-18 文字認識装置、方法及び記憶媒体

Country Status (1)

Country Link
JP (1) JP3080066B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6164930A (en) 1998-06-18 2000-12-26 Flow International Corporation Apparatus for regulating flow of a pumped substance

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4601835B2 (ja) * 2000-01-28 2010-12-22 株式会社東芝 単語認識方法および単語認識プログラムおよび単語認識装置
JP5699570B2 (ja) * 2010-11-30 2015-04-15 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5729260B2 (ja) * 2011-11-01 2015-06-03 富士通株式会社 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法
CN104268603B (zh) * 2014-09-16 2017-04-12 科大讯飞股份有限公司 用于文字性客观题的智能阅卷方法及系统
CN110634471B (zh) * 2019-09-21 2020-10-02 龙马智芯(珠海横琴)科技有限公司 一种语音质检方法、装置、电子设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
「情報処理学会全国大会講演論文集」Vol.56th No.2 p.113−114(1998)
「情報処理学会論文誌」Vol.33 No.5 p.664−670(1992)
「電子情報処理学会論文誌」Vol.J68−D No.1 p.64−71(1985)
「電子情報処理学会論文誌」Vol.J76−D−2 No.6 p.1090−1096(1993)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6164930A (en) 1998-06-18 2000-12-26 Flow International Corporation Apparatus for regulating flow of a pumped substance

Also Published As

Publication number Publication date
JPH11328316A (ja) 1999-11-30

Similar Documents

Publication Publication Date Title
US8660834B2 (en) User input classification
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
JP2008504605A (ja) 非ローマ文字および単語のスペル修正のためのシステムおよび方法
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
CN111428474A (zh) 基于语言模型的纠错方法、装置、设备及存储介质
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Saluja et al. Error detection and corrections in Indic OCR using LSTMs
CN113673228A (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
CN111859950A (zh) 一种自动化生成讲稿的方法
CN114970514A (zh) 基于人工智能的中文分词方法、装置、计算机设备及介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
CN112560489A (zh) 一种基于Bert的实体链接方法
CN112528653A (zh) 短文本实体识别方法和系统
JP3309174B2 (ja) 文字認識方法及び装置
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
CN115146630B (zh) 基于专业领域知识的分词方法、装置、设备及存储介质
Lin et al. A Simple and Practical Approach to Improve Misspellings in OCR Text

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080623

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090623

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 10