JPH08315078A - 日本語文字認識方法及び装置 - Google Patents

日本語文字認識方法及び装置

Info

Publication number
JPH08315078A
JPH08315078A JP7115926A JP11592695A JPH08315078A JP H08315078 A JPH08315078 A JP H08315078A JP 7115926 A JP7115926 A JP 7115926A JP 11592695 A JP11592695 A JP 11592695A JP H08315078 A JPH08315078 A JP H08315078A
Authority
JP
Japan
Prior art keywords
word
character
speech
probability
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7115926A
Other languages
English (en)
Other versions
JP3309174B2 (ja
Inventor
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11592695A priority Critical patent/JP3309174B2/ja
Publication of JPH08315078A publication Critical patent/JPH08315078A/ja
Application granted granted Critical
Publication of JP3309174B2 publication Critical patent/JP3309174B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 本発明の目的は、入力文が辞書に登録されて
いない単語を含む場合や、正解文字が候補文字に含まれ
ていない場合でも、形態素解析候補を最も尤もらしい順
番に提示でき、かつ高い精度を持つ、日本語文字認識方
法及び装置を提供することである。 【構成】 本発明は、確率が高い順番に任意の個数の形
態素解析候補を求める形態素解析手段、単語モデルに基
づく単語仮説生成手段、類似語モデルに基づく類似語検
索手段を用いて、辞書に登録されていない入力文中の単
語の表記と品詞を正しく同定し、正解文字が候補文字に
含まれていない場合でも正確単語を提示し、最も尤もら
しい順に、単語列と品詞列の組を提示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、印刷文字または手書き
文字を認識する日本語文字認識方法及び装置に係り、特
に、光学的文字認識装置(OCR)が出力する文字認識
誤りを含む日本語テキストに対して、統計的言語モデル
とN-best探索アルゴリズムを用いて入力文を構成する単
語の表記と品詞を精度良く求められるようにした日本語
文字認識方法及び装置に関する。
【0002】
【従来の技術】文字認識の誤り検出・訂正法は、(1)
文字の連接情報を利用する方法、(2)単語辞書との照
合検査、および、単語間の文法的接続検査を行なう方
法、の二つに大別できる。
【0003】(1) 文字の連接情報を利用する方法 文字の連接情報を利用する方法(例えば、杉村・斎藤
「文字連接情報を用いた読み取り不能文字の判定処理−
文字認識への応用−」信学論Vol.J68-D No.1,pp.64-71,
1985)は、文字連接表(binary n-gram table)または文
字連接確率(n-gram probability) を用いて、隣接する
文字候補の連接の可否(または尤もらしさ)を判定する
ことにより、誤りの検出・訂正を行なう。
【0004】この文字の連接情報を利用する方法は、実
現が容易で、かつ、比較的大きな認識性能の向上が達成
できる。 (2) 単語辞書との照合検査及び、単語間の文法的接
続検査を行う方法 単語辞書との照合検査と単語間の文法的接続検査を行な
う方法(例えば、高尾・西野「日本語文書リーダ後処理
の実現と評価」情処論Vol.30 No.11,pp.1394-1401,198
9)は、文字認識の候補文字を組み合わせて構成される
単語を単語辞書から検索しながら単語間の接続を検査
し、文頭から文末まで到達する単語列の中で最適なもの
を正解文字列とする。
【0005】
【発明が解決しようとする課題】上記従来の第1の方法
である「文字の連接情報を利用する方法」は、入力文を
単なる文字列として扱うので、単語を構成しない文字列
や、文法的に正しくない文字列を許容することが多いと
いう問題点がある。
【0006】また、上記の従来の第2の方法である「単
語辞書と単語接続情報を利用する方法」は、(a)辞書
に登録されていない単語が入力文中に存在したり、
(b)正解文字が候補文字に含まれていない場合に、性
能が大きく低下するという問題点がある。
【0007】辞書に登録されていない単語への対処法と
しては、未登録語テンプレートを使って未登録語を発見
し、文字の連接確率を使って文字列を限定する方法があ
る(前述の高尾・西野の論文)。しかし、この未登録語
テンプレートは発見的(heuristic)に人手で作成せねば
ならず、網羅性や移植性に問題がある。
【0008】正解文字が候補文字に含まれていない場合
の対処法としては、候補文字補完と単語類似検索があ
る。候補文字補完とは、あらかじめ文字認識が誤りそう
な類似文字の組を定義しておき、文字認識結果の候補文
字に対して無条件にこの類似文字を候補として付け加え
る方法である(杉村「候補文字補完と言語処理による漢
字認識の誤り訂正処理法」信学論Vol.J72-D-II No.7,p
p.993-1000,1989) 。候補文字補完は、補完した文字が
必ずしも正解文字を含むとは限らないのに、誤り訂正に
必要な計算量を一様に大きく増加させるという問題があ
る。
【0009】単語類似検索とは、単語辞書との照合の際
に、完全に一致したものだけではなく類似した(部分的
に一致した)単語も検索する方法である(例えば、Wagn
erとFischer "The String-to-String Correction Probl
em" Jounal of ACM Vol.21 No.1 pp.168-173,1974)。類
似検索は、英語のように長い単語が多い(平均約5文
字)言語のスペルチェックなどでは有効であるが、日本
語のように短い単語が多い(平均約2文字)言語では、
あまり有効ではない。例えば、単語の類似度を一致した
文字数で計測する場合、一文字が一致する二文字単語の
組は非常に多く存在するし、すべての一文字単語の組は
同じ類似度を持つという問題がある。
【0010】この他の問題点として、単語辞書との照合
検査と単語間の文法的接続検査を行なう方法では、候補
文字の組合せから得られる(少なくとも文法的には正し
い)単語列は、一般に複数存在する。そこで、何らかの
評価値(コスト)によって単語列に順位を与える必要が
ある。また、自動的な誤り訂正によって認識率が100
%になることはあり得ないので、システムが誤りらしい
部分を提示し、オペレータに確認させる必要がある。
【0011】これに対しては、単語の出現確率、品詞間
の遷移確率(bigram)、単語を構成する各文字の正解確
率の積をコストとし、単語の組合せをビーム探索するこ
とにより、単語列に順位を与え、誤りの可能性がある部
分を指摘する方法(伊東・丸山「OCR入力された日本
語文の誤り検出と自動訂正」情処論Vol.33 No.5,pp.664
-670,1992)がある。この方法は、単語の組合せをビーム
探索しているので、第2位以下の候補の順位は必ずしも
正しいとは保障されないという問題点がある。
【0012】このように、従来の方法は、 1.辞書に登録されていない入力文中の単語を正しく同
定できない、 2.正解文字が候補文字に含まれていない場合、正解単
語を提示できない、 3.最も尤もらしい順に、正解候補を提示できない、 という問題点がある。
【0013】本発明は、上記の点に鑑みなされたもの
で、入力文が辞書に登録されていない単語を含む場合
や、正解文字が候補文字に含まれていない場合でも、形
態素解析候補を最も尤もらしい順番に提示でき、かつ高
い精度を持つ、日本語文字認識方法及び装置を提供する
ことを目的する。
【0014】
【課題を解決するための手段】本発明は、文字誤りを含
む日本語テキストが入力文として与えられ、該入力文を
構成する単語列と品詞列を出力する日本語文字認識方法
において、入力文が辞書に登録されていない単語を含む
場合や、正解文字が候補文字に含まれていない場合で
も、形態素解析候補を最も尤もらしい順番で提示する。
【0015】図1は、本発明の原理を説明するためのフ
ローチャートである。本発明の日本語文字認識装置は、
まず、文字候補生成手段が文字マトリックスを生成する
(ステップ1)。次に、この文字マトリックスに含まれ
る未知語、すなわち、辞書に登録されていない単語を同
定するために、単語仮説生成手段が単語仮説、すなわ
ち、単語の表記と品詞と品詞別出現確率の組を生成する
(ステップ2)。また、正解文字が候補文字に含まれて
いない単語の訂正候補を生成するために、類似語検索手
段が文字マトリックスに含まれる文字列の類似語を検索
する(ステップ3)。最後に、形態素解析手段が、品詞
付けモデルに基づいて、形態素解析候補、すなわち、単
語列と品詞列の組を、確率が高い順番に任意の個数だけ
出力する。
【0016】また、本発明は、文字誤りを含む日本語テ
キストが入力文として与えられ、該入力文を構成する単
語列と品詞列を出力する日本語文字認識装置であって、
入力文が辞書に登録されていない単語を含む場合や、正
解文字が候補文字に含まれていない場合でも、形態素解
析候補を最も尤もらしい順番で提示する手段を有する。
【0017】また、本発明は、単語を構成する文字列と
その品詞の同時確率に基づいて単語の表記と品詞と品詞
別単語出現確率を推定する推定手段と、推定手段により
推定に基づいて、正解文字が文字候補に含まれていない
場合に類似語を検索して、訂正候補を生成する訂正候補
生成手段と、確率が高い順に訂正候補生成手段で生成さ
れた訂正候補を任意の個数提示する候補提示手段とを有
する。
【0018】図2は、本発明の原理構成図である。本発
明の日本語文字認識装置は、光学的文字認識装置が出力
する文字誤りを含む日本語テキストを入力として与えら
れ、入力文を構成する単語列と品詞列を出力する装置で
あって、文字マトリックス、すなわち、入力文の各文字
位置において文字認識スコアの高い順番に文字候補を並
べたリストのリストを生成する文字候補生成手段100
と、品詞三つ組確率と品詞別単語出現確率から文を構成
する単語列と単語に付与された品詞列の同時確率を与え
る品詞付けモデル700と、品詞付けモデル700に基
づいて品詞列と単語列の同時確率を最大化する単語列と
品詞列の組を求める形態素解析手段200と、品詞出現
確率と品詞別単語長と単語内文字三つ組確率から単語の
表記と品詞の同時確率を与える単語モデル400と、辞
書に登録されていない単語を同定するために単語モデル
400に基づいて単語仮説を生成する単語仮説生成手段
300と、文字マトリックスに含まれるある文字列の前
後の文字列と文内文字三つ組確率を用いて、この文字列
と単語リスト中の単語との類似度を与える類似度モデル
600と、正解文字が候補文字に含まれていない場合に
訂正候補を生成するために類似度モデル600に基づい
て文字マトリックスに含まれる文字列と類似した単語を
検索する類似語検索手段500とを有する。
【0019】
【作用】本発明は、品詞三つ組確率と品詞別単語出現確
率から構成される品詞付けモデル、品詞出現確率と品詞
別単語長と単語内文字三つ組確率から構成される単語モ
デル、文内文字三つ組を用いて二つの単語の類似度を与
える類似度モデル、確率が高い順番に任意の個数の形態
素解析候補を求める形態素解析手段、単語モデルに基づ
く単語仮説生成手段、類似語モデルに基づく類似語検索
手段を用いて、入力文が辞書に登録されていない単語を
含む場合や、正解文字が候補文字に含まれていない場合
でも、辞書に登録されていない入力文中の単語の表記と
品詞を正しく同定し、正解文字が候補文字に含まれてい
ない場合でも正確単語を提示し、最も尤もらしい順に、
単語列と品詞列の組を提示することが可能である。
【0020】
【実施例】図3は、本発明の一実施例の日本語文字認識
装置の構成図である。まず、図3を参照して説明する。
同図に示す日本語文字認識装置は、文字候補生成部1、
前向きDP探索部2、最適経路スコアテーブル3、後向
きA* 探索部4、単語仮説生成部5、品詞出現確率テー
ブル6、品詞別単語長テーブル7、単語内文字三つ組確
率テーブル8、類似語検索部9、単語テーブル10、文
内文字三つ組確率テーブル11、品詞三つ組確率テーブ
ル12、品詞別単語出現確率テーブル13より構成され
る。
【0021】文字候補生成部1は、入力文をOCR等で
光学的に認識し、文字マトリックスを生成する。前向き
DP探索部2は、入力文の文頭から文末へ一文字ずつ進
む動的計画法(Dynamic Programming)を用いて、単語列
と品詞列の同時確率、すなわち、品詞三つ組確率と品詞
別単語出力確率と文字認識確率の積を最大化するよう
な、入力文の単語分割と品詞付与の組を求める。
【0022】品詞三つ組確率テーブル12および品詞別
単語出現確率テーブル13は、それぞれ、品詞三つ組確
率および品詞別単語出力確率を格納する。この前向きの
動的計画法では、文頭からある単語に至るまでの単語列
と品列の同時確率を最大化する最適部分経路(単語列と
品詞列の組)の確率を、最後の単語の表記と最後の二つ
の単語の品詞の異なる組合せ毎に計算し、最適経路スコ
アテーブル3に記録する。
【0023】以下では、文字マトリックスの各文字位置
において、その文字位置の文字候補のリストから一文字
ずつ選ぶことにより構成される文字列を、文字マトリッ
クスに含まれる文字列と呼ぶことにする。前向きDP探
索部1では、文字マトリックスのある文字位置から始ま
る全ての部分文字列を、品詞別単語出現確率テーブル1
3の単語表記と照合し、単語候補として提案する。
【0024】単語仮説生成部5は、前向きDP探索にお
いて、入力文のある文字位置から始まる単語候補を探索
する際に、単語が辞書に登録されていない場合に対処す
るために、品詞出現確率テーブル6、品詞別単語長テー
ブル7、単語内文字三つ組確率テーブル8の値を用い
て、単語の表記と品詞と品詞別単語出現確率の組である
単語仮説を、単語の表記と品詞の同時確率が大きい順に
予め定めた個数だけ生成する。
【0025】また、類似語検索部9は、前向きDP探索
において、入力文のある文字位置から始まる単語候補を
検索する際に、正解文字が文字候補のリストに存在しな
い場合に対処するために、単語テーブル10と文内文字
三つ組確率テーブル11の値を用いて、文字マトリック
スに含まれるモジュール列に類似した単語を検索し、単
語仮説に付け加える。
【0026】後向きA* 探索部4は、前向きDP探索部
2で計算された最適経路スコアテーブル3を入力とし、
文末から文頭へ一単語ずつ進むA* アルゴリズムを用い
て、品詞三つ組確率と品詞別単語出力確率と文字認識確
率の積が最も大きいものから順番に一つずつ形態素解析
候補を求める。
【0027】以下では、まず、本発明の理論的基礎であ
る「文字認識誤り訂正の情報理論的解釈」について述
べ、続いて、文字認識誤りモデル、品詞付けモデル、前
向きDP探索、後向きA* 探索、単語モデル、単語仮説
生成、類似語モデル、類似語検索の順に説明する。
【0028】 文字認識誤り訂正の情報理論的解釈 入力文字列Cに対する文字認識結果をXとすれば、ベイ
ズの定理より、次の関係が成り立つ。
【0029】
【数1】
【0030】従って、文字認識結果Xが与えられた時
に、最も尤もらしい文字列C”は、P(C)を最大にす
る文字列である。
【0031】
【数2】
【0032】ここでは、P(X|C)を文字認識モデ
ル、P(C)を言語モデルと呼ぶことにする。以下で
は、まず、本発明で用いる文字認識モデルと言語モデル
について述べる。 文字認識モデル 文字認識モデルP(X|C)は、入力文字列Cを構成す
る各文字ci が文字認識結果Xを構成する各文字xi
認識される確率の積から計算できる。
【0033】
【数3】
【0034】一般に、P(xi |ci )はコンフュージ
ョンマトリックスと呼ばれ、文字認識装置の入力と出力
を大量に比較することにより求められる。コンフュージ
ョンマトリックスP(xi |ci )の作成には、大きな
労力を必要とするので、本発明では、これを正解文字の
順位の分布で近似した。すなわち、入力文のi番目の文
字ci に対する第j候補をxijとするとき、xijが正解
文字である確率P(xij)により、P(xij|ci )を
近似する。第1候補の正解率をpとすれば、P
(xij)、次のような幾何分布で近似できる。
【0035】
【数4】
【0036】ここで、正解文字の分布に幾何分布を用い
るのは、第1候補の正解率と、第2候補以下が急速に信
頼できなくなるという傾向を近似するためである。 品詞付けモデル(言語モデル) 文字列C=c1 2 …cm から構成される入力文が、単
語列W=w1 2 …w n に分割され、品詞列T=t1
2 …tn が付与されるとする。本発明では、文字列Cの
確率P(C)を、文字列Cの最も尤もらしい形態素解析
候補の確率P(W,T)で近似する。
【0037】形態素解析は、文字列が与えられた時の単
語列と品詞列の同時確率P(W,T|C)を最大化する
単語列と品詞列の組(W”,T”)を求める問題であ
る。実際にはCはすべてに共通なので、同時確率P
(W,T)を最大化するものを求めればよい。
【0038】
【数5】
【0039】同時確率P(W,T)は、二次隠れマルコ
フモデルで近似する。すなわち、品詞三つ組確率P(t
i |ti-2 ,ti-1 )と品詞別単語出現確率P(wi
i)を用いて、次式で表す。
【0040】
【数6】
【0041】文字認識の誤り訂正では、(2)式を最大
化する文字列Cを求めればよい。これが、本発明で、文
字列Cの確率P(C)を、文字列Cの最も尤もらしい形
態素解析候補の確率P(W,T)で近似する理由であ
る。図4は、品詞三つ組確率の一例である。品詞三つ組
確率のデータは、三つの品詞とその出現確率の四つの要
素から構成されるリスト構造である。
【0042】図5は、品詞別単語出現確率の一例であ
る。品詞別単語出現確率のデータは、品詞、表記、確率
の三つの要素から構成されるリスト構造である。例え
ば、サ変名詞の“挨拶”の出現確率は、「0.0004101722
7235438886773 」であることを示す。
【0043】 前向きDP探索 前向きDP探索部2が、最適経路スコアテーブル3を計
算する手順を示す。最初に、前向きDP探索部2で用い
られるデータ構造を説明し、次に、処理の流れを説明す
る。
【0044】図6は、本発明の一実施例のN-bestアルゴ
リズムのためのデータ構成を示す。前向き探索では、図
6に示すようなスロットを持つ、parse とwordという二
つのデータ構造を使用する。構造体parse は部分解析を
表す。この構造体は、最適経路スコアテーブル3におい
て、単語の情報、および、文頭からその単語へ至る最適
部分経路(同時確率が最大となるような、単語列と品詞
列の組、すなわち形態素列)の情報を格納するのに用い
られる。parse.start とparse.end は、入力文における
単語の開始位置と終了位置のインデックスである。pars
e.pos は、単語の品詞で、ここでは、単語の品詞、活用
型、活用形のリストを用いている。parse.nth-order-st
ate は、この単語を含む最後の二つの単語の品詞のリス
トである。parse.prob-so-far は、文頭から現在の単語
に至るまでの最適部分経路のスコアである。
【0045】構造体wordは単語を表す。この構造体は、
品詞別単語出現確率テーブル13において、個々の単語
の情報を格納するのに用いられる。word.form, word.po
s, word.probは、それぞれ、単語の表記、品詞、品詞別
の出力確率を表す。最適経路スコアテーブル3は、最後
の単語の開始点と終了点、および、最後の二つの単語の
品詞の組をキーとし、同じキーを持つ部分解析構造の中
で、最適部分経路スコアが最良なものを値として保持す
るテーブルである。
【0046】図7は、本発明の一実施例の前向きDP探
索部の動作を説明するためのフローチャートである。以
下では、この図7に従って、前向きDP探索部2の動作
を説明する。前向きDP探索は、入力文の先頭から始ま
り、文末方向へ一文字ずつ進む。
【0047】ステップ101) 探索の開始位置を入力
文の先頭に設定する。 ステップ102) 探索が文末に達したかを判断する。
もし、文末に達していれば、前向き探索を終了する。そ
うでなければ、以下の処理を各文字位置で行なう。
【0048】ステップ103) 現在の文字位置に到達
する全ての部分解析を最適経路スコアテーブル3から検
索し、その中の一つを現在の部分解析として選ぶ。 ステップ104) 全ての部分解析を調べたかを判定す
る。もしそうならば、ステップ112において探索を次
の文字位置へ進める。そうでなければ、以下の処理を各
部分解析について行なう。
【0049】ステップ105) 現在の文字位置から文
末までの各文字位置において、文字マトリックスの中か
ら一つずつ候補文字を選ぶことにより構成される全ての
文字列の最左部分文字列と、品詞別単語出現確率テーブ
ル13の表記を照合し、完全一致する単語を全て検索す
る。そして、その中の一つを現在の単語として選ぶ。
【0050】ステップ106) 全ての単語を調べたか
を判定する。もしそうならば、ステップ111において
次の部分解析を選ぶ。そうでなければ、以下の処理を各
単語について行なう。 ステップ107) 現在の単語とその直前の二つの単語
の品詞三つ組確率を品詞三つ組確率テーブル12から検
索する。
【0051】ステップ108) 品詞三つ組確率がゼロ
かどうかを判定する。もし品詞三つ組確率が0ならば、
ステップ110において次の単語を選ぶ。もしそうでな
ければ、以下の処理を行なう。 ステップ109) まず、開始位置(parse.start)が現
在の文字位置で、終了位置(parse.end) が現在の文字位
置と現在の単語の表記の長さの和で、品詞(parse.pos)
が現在の単語の品詞であるような新しい部分解析(parse
構造) を作る。最後の二つの品詞(parse.nth-order-sta
te) はステップ108で調べた品詞三つ組の先頭要素を
取り除いたものであり、最適経路スコア(parse.prob-s
o-far)は、現在の部分解析の最適経路スコアと品詞三つ
組確率と現在の単語の品詞別単語出現確率(word.prob)
と現在の単語の文字認識確率(word.prob) の積である。
【0052】次に、最適経路スコアテーブル3から、こ
の新しい部分解析と同じキー(最後の単語の開始点と終
了点、および、最後の二つの単語の品詞の組)で既に登
録されている部分解析を検索し、これよりもスコアが良
ければ、新しい部分解析を最適経路スコアテーブル3に
登録する。
【0053】ステップ110) 次の単語を選び、ステ
ップ106へ戻る。 ステップ111) 次の部分解析を選び、ステップ10
4へ戻る。 ステップ112) 探索を次の文字位置へ進め、ステッ
プ102へ戻る。 後向きA* 探索 後向きA* 探索部4が最も尤もらしい順に一つずつ形態
素解析候補を求める手順を示す。まず、後向きA* 探索
の概要とA* 探索に用いられるデータ構造を説明し、次
に、処理の流れを説明する。
【0054】本発明の後向きA* 探索では、単語と品詞
の組であるparse 構造を、A* アルゴリズムにおけるグ
ラフのノードと考える。そして、コストとしては、確率
の対数の絶対値を用いる。これにより、確率最大の解は
コスト最小の解に対応し、確率の積はコストの和に対応
する。
【0055】A* 探索では、ヒューリスティック関数f
(n)を考える。ヒューリスティック関数f(n)は、
現在のノードnを生成した経路に沿って、初期状態から
最終状態へ至るまでのコストの推定値を与える。初期状
態から現在のノードへ至るまでのコストを与える関数を
g(n)、現在のノードから最終状態へ至るまでのコス
トの推定値を与える関数をh(n)とすると、ヒューリ
スティック関数f(n)は次式により与えられる。
【0056】 f(n)=g(n)+h(n) (7) 本発明の後向き探索では、関数gとして、文末から現在
の単語(parse 構造)に至るまでの品詞三つ組確率と品
詞別単語出力確率と文字認識確率の積の対数の絶対値を
用いる。また、関数hとしては、文頭から現在の単語に
至るまでの品詞三つ組確率と品詞別単語出力確率と文字
認識確率の積の最大値の対数の絶対値を用いる。
【0057】この後向きA* 探索のために、図6に示す
ようなスロットを持つpathというデータ構造を定義す
る。構造体pathはA* 探索におけるグラフのノードに相
当し、現在の単語(parse 構造) 、後向き探索における
経路、および、コストに関する情報を保持する。path.p
arseは、parse 構造を格納する。path.previous は直前
のpath構造へのポインタである。path, cost-so-far
は、初期状態からのコストである。path.total-cost 初
期状態から最終状態までのコストの推定値である。
【0058】A* 探索では、openとclose という二つの
リストを用いる。リストopenは、既に生成され、ヒュー
リスティック関数が適用されているが、まだ展開されて
(調べられて)いないノード(path構造)の集合であ
る。このリストは、ヒューリスティック関数の値に基づ
く優先度付きキューになっている。リストclose は、既
に展開された(調べられた)ノードの集合である。
【0059】A* 探索では、目標状態に対応するノード
を生成するまで、各ステップで一つのノードを展開す
る。各ステップでは、既に生成されているが、まだ展開
されていない、最も有望なノードを展開する。すなわ
ち、選ばれたノードの後続のノードを生成し、ヒューリ
スティック関数を適用し、既に生成されていないかを検
査した後にリストopenに加える。この検査によって、各
ノードはグラフの中に一回だけ現れることが保証され
る。また、二つ以上の経路が同じノードを生成する時
は、スコアの良い方だけを記録する。
【0060】図8、図9は、本発明の一実施例の後向き
* 探索部の動作を説明するためのフローチャートであ
る。以下では、この図8、図9に従って、後向きA*
索部4の動作を説明する。 ステップ201) 文末に到達した部分解析を表す(す
なわち、この部分解析をparse スロットに持つ)path構
造のリストをリストopenに代入する。また、リストclos
edには空リストを代入する。
【0061】ステップ202) リストopenが空リスト
かどうかを調べる。もし、そうならば、解が見つからな
かったので探索が失敗したことを通知して探索を終了す
る。そうでなければ、以下の処理を行なう。 ステップ203) リストopenの先頭要素を取り出して
変数bestpathに代入する。
【0062】ステップ204) 探索が文頭に達したか
を調べる。もし、探索が文頭に達していれば、変数best
pathが最適解であり、探索が成功したことを通知して探
索を終了する。そうでなければ、以下の処理を行なう。
また、探索は成功したが、さらに、その次に最も尤もら
しい解を求めたい場合にも、以下の処理を行なう。
【0063】ステップ205) 変数bestpathをリスト
closedへ挿入し、リストclosedの要素を初期状態から最
終状態までのコストの推定値の順にソートする。 ステップ206) 変数bestpathが表す部分解析の左側
に連接する全ての部分解析を最適経路スコアテーブル3
から検索し、その中の一つを現在の部分解析とする。
【0064】ステップ207) 全ての部分解析を調べ
たかどうかを判定する。もしそうであれば、ステップ2
02へ進む。そうでなければ、以下の処理を行なう。 ステップ208) 変数bestpathから現在の部分解析へ
遷移する経路を表す新しいpath構造を作成し、これを変
数newpath に代入する。neapsth.parse には現在の部分
解析を代入し、newpath.previousにはbestpathを代入す
る。newpath.cost-so-far には、bestpath.parseへ至る
までのコストbestpath.cost-so-farと、bestpath.parse
からnewpath.parse への遷移のコストの和が代入され
る。newpath.total-costには、文末からnewpath.parse
までのコスト(newpath.cost-so-far)と文頭からnewpat
h.parse までのコストの和が代入される。
【0065】ステップ209) 現在の部分解析への遷
移を表すpath構造が、リストopenに含まれているかどう
かを検査する。もし含まれていなければ、ステップ21
3へ進む。含まれていれば、以下の処理を行なう。 ステップ210) 現在の部分解析への遷移を表すリス
トopenの中のpath構造を変数oldpath に代入する。
【0066】ステップ211) 変数newpath のコスト
(newpath.total-cost)と変数oldpath のコスト(oldp
ath.total-cost) を比較する。もし、変数newpath のコ
ストの方が大きければ、何もせずにステップ218へ進
む。もし、変数newpath のコストの方が小さければ、ス
テップ212に移行する。
【0067】ステップ212) リストopenから変数ol
dpath を削除し、変数newpath をリストopenへ挿入した
後にコストの順にソートする。そしてステップ218へ
進む。 ステップ213) 現在の部分解析への遷移を表すpath
構造がリストclosedに含まれているかどうかを検査す
る。もし含まれていなければ、ステップ217へ進む。
含まれていれば、以下の処理を行なう。
【0068】ステップ214) 現在の部分解析への遷
移を表すリストclosedの中のpath構造を変数oldpath に
代入する。 ステップ215) 変数newpath のコスト(newpath.to
tal-cost) と変数oldpath のコスト(oldpath.total-co
st)を比較する。もし、変数newpath のコストの方が大
きければ、何もせずにステップ218へ進む。もし、変
数newpath のコストの方が小さければ、ステップ216
に移行する。
【0069】ステップ216) リストclosedから変数
oldpath を削除し、変数newpath をリストclosedへ挿入
した後にコストの順にソートする。そしてステップ21
8へ進む。 ステップ217) 変数newpath をリストopenへ挿入し
た後にコストの順にソートする。そしてステップ218
へ進む。
【0070】ステップ218では、次の部分解析を選
ぶ。 単語モデル 単語モデルは、単語を構成する文字列と品詞の同時確率
分布として定義される。これは、一般性を失うことな
く、以下のように表せる。
【0071】 P(c1 …ck ,T)=P(T)P(k|T)P(c1 …ck |k,T) (8) ここでc1 …ck は、品詞がTである単語を構成する長
さkの文字列である。品詞出現確率P(T)は、品詞タ
グ付きコーパスにおける品詞の相対頻度から求められ
る。品詞別単語長確率P(k|T)は、品詞Tが与えら
れた時の単語長kをポワソン分布で近似する。
【0072】
【数7】
【0073】ここでλT は、品詞がTである単語の平均
文字長であり、これも品詞タグ付きコーパスから計算す
る。単語長と品詞が与えられた時の単語表記の確率P
(c1 …ck |k,T)は、以下のように、単語内文字
三つ組確率の積で近似する。
【0074】
【数8】
【0075】ここで“#”は、単語の先頭および末尾を
表す特別な記号である。単語内文字三つ組確率も品詞タ
グ付きコーパスから計算する。図10は、品詞出現確率
の一例である。品詞出現確率テーブル6のデータは、品
詞とその出現確率から構成されるリスト構造で表され
る。
【0076】図11は、品詞別単語長の一例である。品
詞別単語長テーブル7のデータは、品詞とその品詞の単
語の平均文字列長から構成されるリスト構造で表され
る。図12は、単語内文字三つ組確率の一例である。単
語内文字三つ組確率テーブル8は、三つの文字とその単
語内出現確率の四つの要素から構成されるリスト構造で
表される。ここで、“#”は単語の先頭及び末尾を表す
特別な記号である。
【0077】 単語仮説の生成 単語仮説生成は、入力文が辞書に登録されていない単語
を含む場合に対処するために行なう。単語仮説生成部5
は、前向き探索において、入力文の各文字位置で、その
文字位置より後ろの各文字位置において、文字マトリッ
クスの中から一つずつ候補文字を選ぶことにより構成さ
れる全ての文字列の最左部分文字列の中で、(8)式に
示す単語モデルに基づいて、表記と品詞の確率が高い順
番に、単語仮説、すなわち、単語の表記(文字列と長
さ)と品詞と品詞別単語出力確率の組を、予め決めた個
数だけ生成する。
【0078】この方法は、本来、辞書に登録されている
単語が文字認識誤りによって、みかけ上、辞書に登録さ
れていない単語になった場合に、単語区切りと品詞を推
定する方法としても有効である。品詞別単語出現確率
は、次の式により計算する。
【0079】 P(c1 …ck |T)=P(k|T)P(c1 …ck |k,T) (11) 以下では、単語仮説生成部5が、単語モデルを用いて入
力文に対して単語仮説を生成する手順を説明する。ここ
では、説明を簡単にするために、文字認識の第1候補の
文字列に対してのみ、単語仮説を生成することにする。
【0080】図13は、本発明の一実施例の単語仮説生
成部の動作を説明するためのフローチャートである。以
下では、この図13に従って、単語仮説生成部5の動作
を説明する。単語仮説生成部5は、入力文に対する文字
マトリックスの第一候補からなる文字列、および、単語
仮説を生成すべき文字位置が与えられる。
【0081】ステップ301) 単語仮説の開始点を変
数iに代入し、単語仮説の終了点を表す変数jにi+1
を代入する。また単語仮説のリストに初期値として空リ
ストを代入する。
【0082】ステップ302) jが入力文の長さより
小さいかどうかを調べる。そうでなければ、ステップ3
10へ進む。そうであれば、以下の処理を行なう。 ステップ303) 単語仮説の長さj−1が、予め定め
た単語仮説(すなわち、未知語)の最大長より大きいか
どうかを調べる。もしそうならば、ステップ310へ進
む。そうでなければ、以下の処理を行なう。
【0083】ステップ304) 入力文のj文字目が区
切り記号かどうかを調べる。区切り記号とは、句
点(。)や読点(、)などの単語の一部とはなり得ない
記号のことである。もしそうならば、ステップ310へ
進む。そうでなければ、以下の処理を行なう。
【0084】ステップ305) 入力文字列の文字位置
iから文字位置jまでの部分文字列を単語仮説の表記と
する。 ステップ306) 予め定めた単語仮説に割り当てるべ
き品詞の集合の中から一つを選び、単語仮説の品詞とす
る。
【0085】ステップ307) 全ての品詞を調べたか
どうかを調べる。もしそうであれば、ステップ309に
進む。そうでなければ、以下の処理を行なう。 ステップ308) まず、単語モデルに基づいて、単語
が現在の表記と現在の品詞を持つ確率を計算する。次
に、表記と品詞と確率の組から構成される単語仮説を単
語仮説リストに加え、ステップ307へ進む。
【0086】ステップ309) 単語仮説の終りの文字
位置を一つ先に進める。 ステップ310) 得られた単語仮説のリストを確率の
大きい順にソートし、予め決められた個数の単語仮説を
選ぶ。 図14は、本発明の一実施例の単語仮説生成の例を示
す。ここでは「はい、シングルとツインと1部屋ずつで
すね。」という入力文において、「ツイン」という単語
が未知語であるとする。
【0087】前向き探索が入力文の「と」と「ツ」の間
の文字位置に達した際に、単語仮説の表記の候補として
は、「ツ」「ツイ」「ツイン」「ツインと」などの文字
列が考慮される。また、品詞と単語長の組合せとして
は、単語モデルに基づく確率の順に、「長さ1の記号」
「長さ1の格助詞」「長さ2の普通名詞」などが考慮さ
れる。
【0088】そして、最終的な単語仮説としては、図1
4の左下に示したような表記と品詞と品詞別単語出現確
率の組が求められる。もし、機能語は辞書に全て登録さ
れており、内容語のみが未知語になりうると仮定するな
らば、単語仮説として生成される品詞は、名詞や動詞な
どの内容語に限定され、図14の右下のような単語仮説
が生成される。
【0089】 類似語モデル 類似度モデルは、二つの単語の類似度を与える。単語の
類似度として、本発明では、文脈に依存しない類似度と
文脈に依存した類似度の二つを考える。文脈に依存しな
い単語の類似度の尺度としては、二つの単語の表記の一
致度を用いる。同じ長さnを持つ二つの単語がc文字だ
け一致するとき、二つの単語の類似度を次式で表す。
【0090】 c/n (12) 一般にc/nが大きいほど、二つの単語は類似してい
る。この尺度は、長さ3以上の単語では非常に有効であ
る。しかし、長さ2の単語の類似検索に(12)式を用
いると、非常に多くの類似語が検索されてしまう。ま
た、長さ1の単語は(12)では類似度が定義できな
い。そこで、本発明では、短い単語については、以下に
述べる文脈に依存する類似度を、文字列としての類似度
と併用する。
【0091】文脈に依存する単語の類似度の尺度として
は、ある単語の前後の文字列と、もう一つの単語が共起
する確率を用いる。例えば、ある長さ2の単語ci
i+1 に対して、それが出現した文脈における直前の2文
字がci-2 i-1 、直後の2文字がci+2 i+3 である
とする。この時、すべての長さ2の単語si i+1 に対
して、文字列ci-2 ,ci-1 ,si ,si+1 ,ci+2
i+3 の出現確率を考え、この確率が大きいほど、単語
i i+1 と単語si i+1 は類似していると考える。
【0092】文字列ci-2 i-1 i i+1 i+2
i+3 の出現確率は、文内文字三つ組確率から以下のよう
に計算できる。 P(ci-2, ci-1, si ,si+1, ci+2, ci+3) = P(si | ci-2, ci-1)P( si+1 | ci-1, si ) P(ci+2 | si ,si+1)P( ci+3 | si+1, ci+2) (13) 同様に、長さ1の単語ci に対しては、その前後の文字
列ci-2 i-1 およびci+2 i+3 と、長さ1の単語s
i が共起する確率を、類似度の尺度として用いる。
【0093】 P(ci-2, ci-1, si ,si+1, ci+1, ci+2) = P(si | ci-2, ci-1)P(ci+1 |ci-1, si )P(ci+2 | si ,ci+1) (14) 図15は、文内文字三つ組確率の一例である。文内文字
三つ組確率テーブル11のデータは、三つの文字とその
文内出現確率の四つの要素から構成されるリスト構造で
表される。
【0094】 類似語検索 本発明では、正解文字が候補文字に含まれていない場合
に対処するために、前向き探索において、文字認識の第
1候補の文字列に対して、ある文字位置から始まる長さ
最左部分文字列の類似語を、訂正候補として生成する。
【0095】本来は、各文字位置において文字マトリッ
クスの中から一つずつ候補文字を選ぶことにより構成さ
れる全ての文字列に対して類似検索を行なうことが望ま
しい。しかし、これは非常に多くの計算を必要とするの
で、ここでは、文字認識の第1候補のみを類似検索の対
象としている。
【0096】本発明では、前述の二つの類似度を組み合
わせて、以下のようにして類似語を検索する。以下で、
単語リストとは、品詞別単語出現確率テーブル13から
表記だけを取り出し、重複を取り除いたものを表す。長
さ3以上の単語に対して類似語を検索する場合には、単
語リストの中から、文字列としての類似度c/nが予め
決めた閾値以上である全ての単語を選ぶ。
【0097】長さ2の単語に対して類似語を検索する場
合には、まず、文字認識の第1候補の文字列に対して、
単語リストの中からちょうど1文字一致する単語si
i+1を全て選ぶ。次に、文内文字三つ組確率テーブル1
1の確率を用いて、この単語と前後の文字列を組み合わ
せた長さ6の文字列の出現確率を計算し、この確率が大
きい順番に予め決められた個数の単語を選ぶ。
【0098】長さ1の単語に対して類似語を検索する場
合には、まず、単語リスト中のすべての長さ1の単語s
i を取り出す。次に、文内文字三つ組確率を用いて、こ
の単語と前後の文字列を組み合わせた長さ5の文字列の
出現確率を計算し、この確率が大きい順番に予め決めら
れた個数の単語を選ぶ。
【0099】図16は、本発明の一実施例の類似語検索
部の動作を説明するためのフローチャートである。以下
では、この図16に従って、類似語検索部9の動作を説
明する。類似語検索部9は、入力文に対する文字マトリ
ックスの第一候補からなる文字列、および、類似語を検
索すべき文字位置が与えられる。
【0100】ステップ401) 類似語検索のキーとな
る文字列の開始点を表す変数iを設定する。また、類似
語検索のキーとなる文字列の終了点を表す変数jをi+
1に設定する。 ステップ402) jが入力文の長さより小さいかどう
かを調べる。もしそうでなければ、処理を終了する。そ
うであれば、以下の処理を行なう。
【0101】ステップ403) 類似語検索キーの長さ
j−iが、予め定めた類似語の最大長より大きいかどう
かを調べる。もしそうならば、処理を終了する。そうで
なければ、以下の処理を行なう。 ステップ404) 入力文のj文字目が区切り記号かど
うかを調べる。もしそうならば、処理を終了する。そう
でなければ以下の処理を行なう。
【0102】ステップ405) 入力文字列の文字位置
iから文字位置jまでの部分文字列を類似語検索のキー
とする。 ステップ406) 類似語検索キーの長さが2より大き
いかを調べる。もしそうならば、ステップ405へ進
む。そうでなければ以下の処理を行なう。
【0103】ステップ407) 単語リストから長さj
−iの単語を検索し、その中の一つを現在の単語として
選ぶ。 ステップ408) 全ての単語を調べたかどうかを判定
する。もしそうならば、ステップ413へ進む。そうで
なければ以下の処理を行なう。
【0104】ステップ409) 類似語検索キーの長さ
が2であるかどうかを調べる。もしそうでなければステ
ップ411へ進む。もしそうであれば、ステップ410
において、現在の単語が類似語検索キーと2文字のうち
のどちらかちょうど1文字が一致するかどうかを調べ
る。もしそうでなければステップ412へ進む。もしそ
うならば、以下の処理を行なう。
【0105】ステップ411) 入力文の文字位置i−
1から文字位置iまでの文字列、現在の単語、および、
入力文の文字位置jからj+2までの文字列を連結した
長さj−i+2の文字列の出現確率を文内文字三つ組確
率テーブル11の確率を用いて計算する。
【0106】ステップ412) 次の単語を選び、ステ
ップ408へ進む。 ステップ413) 連結された文字列の出現確率が大き
い順に予め決められた数の単語を類似語として提案す
る。 ステップ414) jに1を加え、類似語検索キーの長
さを1文字大きくする。
【0107】ステップ415) 単語リストから長さj
−iの単語を全て検索し、その中の一つを現在の単語と
する。 ステップ416) すべての単語を調べたかどうかを判
定する。もしそうであれば414へ進む。そうでなけれ
ば以下の処理を行なう。
【0108】ステップ417) 類似語検索キーと現在
の単語の文字列としての類似度が閾値以上であるかどう
かを判定する。もしそうでなければ、ステップ419へ
進む。もしそうであれば、以下の処理を行なう。 ステップ418) 現在の単語を類似語として提案す
る。
【0109】ステップ419) 次の単語を選択する。
図17は、本発明の一実施例の長さ3以上の単語に対す
る類似語検索の例である。ここでは、入力文 「ああ、アメリカ人工知能学会ですか。」 に対する文字認識の第一候補の文字列が 「ああ、アメ川カ人工知能字会ですか:」 であるとする。
【0110】長さ3以上の単語に対しては、文脈に依存
しない文字列としての類似度を用いるので、「アメ川
カ」という文字列をキーとして、単語リストの中の長さ
4の単語が類似検索され、最終的に「アメリカ」と「ア
フリカ」という単語が訂正候補として提案される。
【0111】図18は、本発明の一実施例の長さ2以下
の単語に対する類似語検索の例である。ここでは入力文
「分かりました。」に対する文字認識の第一候補の文字
列が「分かりま[た。」であるとする。長さ2以下の単
語に対しては、文字列としての類似度と文脈に依存した
類似度を組合せるので、まず、“「ま[」”という文字
列に対して、どちらかちょうど1文字が一致する単語が
単語リストから検索される。次に、“「ま[」”の前後
の文字列「かり○○た。」の中に、検索された長さ2の
単語が埋め込まれ、長さ6の文字列の出現確率が計算さ
れる。最終的には、この文字列の出現確率の大きいもの
から順に予め決められた個数の単語が、訂正候補として
提案される。
【0112】最後に、本発明の処理例を示す。図19
は、本発明の一実施例の文字候補生成部が生成する文字
マトリックスの例である。入力文「分かりました。」に
対する文字認識候補が、第1位から第10位まで与えら
れている。ここでは正解文字を[と]で囲んだ。従っ
て、入力文6文字中4文字は、第1候補に正解文字があ
り、1文字は第2候補に正解文字がある。しかし、残り
の1文字は候補文字の中に正解文字がない。
【0113】図20は、図19の文字マトリックスに対
して得られた形態素解析候補である。ここでは、上位3
個の形態素解析候補が示されており、第1候補が正しい
単語列と品詞列を与えている。各形態素解析候補にはそ
の確率の対数が示されており、この値が大きいほど尤も
らしい。この例では、入力文の4文字目に対する正解文
字が文字マトリックスには含まれていないが、類似検索
により訂正候補を生成した結果、形態素解析の第1候補
には「まし」という単語が現れている。
【0114】このようにして、類似語検索の結果、最も
尤もらしい順に提示された候補よりユーザが正解と思え
る候補を選択すればよい。なお、本発明は、上記の実施
例に限定されることなく、特許請求の範囲内で種々変更
・応用が可能である。
【0115】
【発明の効果】以上のように、この発明によれば、品詞
三つ組確率と品詞別単語出現確率から構成される品詞付
けモデル、動的計画法を用いた前向き探索とA* アルゴ
リズムを用いた後向き探索により、単語列と品詞列の同
時確率を最大化する単語列と品詞列の組を求める形態素
解析手段、品詞出現確率と品詞列単語長と単語内文字三
つ組確率から構成される単語モデル、単語モデルに基づ
く単語仮説生成手段、文内文字三つ組確率と単語リスト
を用いる類似語モデル、類似語モデルに基づく類似語検
索手段により、入力文に辞書に登録されていない単語が
含まれている場合や、正解文字が候補文字に含まれてい
ない場合でも、確率が高い順番に入力文を構成する単語
列と品詞列の組の候補を提示できる日本語文字認識装置
が実現できる。
【図面の簡単な説明】
【図1】本発明の原理を説明するためのフローチャート
である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施例の日本語文字認識装置の構成
図である。
【図4】品詞三つ組確率の例を示す図である。
【図5】品詞別単語出力確率の例を示す図である。
【図6】N−bestアルゴリズムのためのデータ構造
を示す図である。
【図7】本発明の一実施例の前向きDP探索の動作を示
すフローチャートである。
【図8】本発明の一実施例の後向きA* 探索部の動作を
説明するためのフローチャート(その1)である。
【図9】本発明の一実施例の後向きA* 探索部の動作を
説明するためのフローチャート(その2)である。
【図10】品詞出現確率の一例を示す図である。
【図11】品詞別単語長の一例を示す図である。
【図12】単語内文字三つ組確率の一例を示す図であ
る。
【図13】本発明の一実施例の単語仮説生成部の動作を
説明するためのフローチャートである。
【図14】本発明の一実施例の単語仮説生成の例を示す
図である。
【図15】文内文字三つ組確率の例を示す図である。
【図16】本発明の一実施例の類似語検索部の動作を説
明するためのフローチャートである。
【図17】本発明の一実施例の長さ3以上の単語に対す
る類似語検索の例を示す図である。
【図18】本発明の一実施例の長さ弐以下の単語に対す
る類似語検索の例を示す図である。
【図19】本発明の一実施例の文字候補生成部が生成す
る文字マトリックスの例を示す図である。
【図20】本発明の一実施例の文字マトリックスに対し
て得られた形態素解析候補の例を示す図である。
【符号の説明】
1 文字候補生成部 2 前向きDP探索部 3 最適経路スコアテーブル 4 後向きA* 探索部 5 単語仮説生成部 6 品詞出現確率テーブル 7 品詞別単語長テーブル 8 単語内文字三つ組確率テーブル 9 類似語検索部 10 単語テーブル 11 文内文字三つ組確率テーブル 12 品詞三つ組確率テーブル 13 品詞別単語出現確率テーブル 100 文字候補生成手段 200 形態素解析手段 300 単語仮説生成手段 400 単語モデル 500 類似語検索手段 600 類似語モデル 700 品詞付けモデル

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文字誤りを含む日本語テキストが入力文
    として与えられ、該入力文を構成する単語列と品詞列を
    出力する日本語文字認識方法において、 前記入力文が辞書に登録されていない単語を含む場合
    や、正解文字が候補文字に含まれていない場合でも、形
    態素解析候補を最も尤もらしい順番で提示することを特
    徴とする日本語文字認識方法。
  2. 【請求項2】 前記入力文の各文字位置において文字認
    識スコアの高い順番に文字候補を並べた文字マトリック
    スを生成し、 単語の表記と品詞と品詞別出現確率の組を生成して前記
    文字マトリックスに含まれる未知語を同定し、 前記文字マトリックスに含まれる文字列の類似語を探索
    して、正解文字が候補文字に含まれていない単語の訂正
    候補を生成し、 単語列と品詞列の組を確率が高い順番に任意の個数だけ
    出力する請求項1記載の日本語文字認識方法。
  3. 【請求項3】 文字誤りを含む日本語テキストが入力文
    として与えられ、該入力文を構成する単語列と品詞列を
    出力する日本語文字認識装置であって、 前記入力文が辞書に登録されていない単語を含む場合
    や、正解文字が候補文字に含まれていない場合でも、形
    態素解析候補を最も尤もらしい順番で提示する手段を有
    することを特徴とする日本語文字認識装置。
  4. 【請求項4】 単語を構成する文字列とその品詞の同時
    確率に基づいて単語の表記と品詞と品詞別単語出現確率
    を推定する推定手段と、 前記推定手段により推定に基づいて、正解文字が文字候
    補に含まれていない場合に類似語を検索して、訂正候補
    を生成する訂正候補生成手段と、 確率が高い順に前記訂正候補生成手段で生成された前記
    訂正候補を任意の個数提示する候補提示手段とを有する
    請求項3記載の日本語文字認識装置。
  5. 【請求項5】 前記入力文の各文字位置において文字認
    識スコアの高い順番に文字候補を並べたリストである文
    字マトリックスを生成する文字候補生成手段と、 品詞三つ組確率と品詞別単語出現確率から文字を構成す
    る単語列と各単語に付与された品詞列の同時確率を与え
    る品詞付けモデルと、 前記品詞付けモデルに基づいて、確率が高い順番に任意
    の個数の形態素解析候補を求める形態素解析手段と、 品詞出現確率と品詞別単語長と単語内文字三つ組確率か
    ら、単語を構成する文字列とその品詞の同時確率を与え
    る単語モデルと、 ある文字位置から始まる文字マトリクスに含まれる部分
    文字列の中から、前記単語モデルに基づいて確率が高い
    順番に任意の個数の単語仮説を求める単語仮説生成手段
    と、 ある単語の前後の文字列と単語リストと文内文字三つ組
    確率から、その単語に類似した単語を求める類似語モデ
    ルと、 ある文字位置から始まる文字マトリクスに含まれる部分
    文字列に類似した単語を、類似語モデルに基づいて確率
    が高い順番に任意の個数だけ検索する類似語検索手段と
    を有する請求項4記載の日本語文字認識装置。
JP11592695A 1995-05-15 1995-05-15 文字認識方法及び装置 Expired - Lifetime JP3309174B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11592695A JP3309174B2 (ja) 1995-05-15 1995-05-15 文字認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11592695A JP3309174B2 (ja) 1995-05-15 1995-05-15 文字認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH08315078A true JPH08315078A (ja) 1996-11-29
JP3309174B2 JP3309174B2 (ja) 2002-07-29

Family

ID=14674617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11592695A Expired - Lifetime JP3309174B2 (ja) 1995-05-15 1995-05-15 文字認識方法及び装置

Country Status (1)

Country Link
JP (1) JP3309174B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098035A (en) * 1997-03-21 2000-08-01 Oki Electric Industry Co., Ltd. Morphological analysis method and device and Japanese language morphological analysis method and device
JP2008276561A (ja) * 2007-04-27 2008-11-13 Yahoo Japan Corp 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2010257329A (ja) * 2009-04-27 2010-11-11 Trans Cosmos Inc コード変換装置、コード変換方法、コード変換プログラム、コード変換支援装置、コード変換支援方法及びコード変換支援プログラム
JP2011008802A (ja) * 2004-05-20 2011-01-13 Microsoft Corp カメラで取得されたドキュメント用の低解像度のocr
JP2017033434A (ja) * 2015-08-05 2017-02-09 大日本印刷株式会社 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法
CN109344830A (zh) * 2018-08-17 2019-02-15 平安科技(深圳)有限公司 语句输出、模型训练方法、装置、计算机设备及存储介质
CN110738048A (zh) * 2019-09-30 2020-01-31 平安直通咨询有限公司上海分公司 一种关键词提取方法、装置及终端设备
CN110751234A (zh) * 2019-10-09 2020-02-04 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备
CN111310547A (zh) * 2019-12-04 2020-06-19 湖北工业大学 在线笔迹认证中一种笔顺特征的提取及认证方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098035A (en) * 1997-03-21 2000-08-01 Oki Electric Industry Co., Ltd. Morphological analysis method and device and Japanese language morphological analysis method and device
JP2011008802A (ja) * 2004-05-20 2011-01-13 Microsoft Corp カメラで取得されたドキュメント用の低解像度のocr
JP2008276561A (ja) * 2007-04-27 2008-11-13 Yahoo Japan Corp 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2010257329A (ja) * 2009-04-27 2010-11-11 Trans Cosmos Inc コード変換装置、コード変換方法、コード変換プログラム、コード変換支援装置、コード変換支援方法及びコード変換支援プログラム
JP2017033434A (ja) * 2015-08-05 2017-02-09 大日本印刷株式会社 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法
CN109344830A (zh) * 2018-08-17 2019-02-15 平安科技(深圳)有限公司 语句输出、模型训练方法、装置、计算机设备及存储介质
CN110738048A (zh) * 2019-09-30 2020-01-31 平安直通咨询有限公司上海分公司 一种关键词提取方法、装置及终端设备
CN110738048B (zh) * 2019-09-30 2023-08-04 平安直通咨询有限公司上海分公司 一种关键词提取方法、装置及终端设备
CN110751234A (zh) * 2019-10-09 2020-02-04 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备
CN110751234B (zh) * 2019-10-09 2024-04-16 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备
CN111310547A (zh) * 2019-12-04 2020-06-19 湖北工业大学 在线笔迹认证中一种笔顺特征的提取及认证方法
CN111310547B (zh) * 2019-12-04 2023-05-30 武汉汉德瑞庭科技有限公司 在线笔迹认证中一种笔顺特征的提取及认证方法

Also Published As

Publication number Publication date
JP3309174B2 (ja) 2002-07-29

Similar Documents

Publication Publication Date Title
TW448381B (en) Automatic segmentation of a text
JP4568774B2 (ja) 手書き文字認識で使用されるテンプレートを生成する方法
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
KR100734741B1 (ko) 단어 인식 방법 및 시스템 및 컴퓨터 프로그램 메모리저장 디바이스
US7536297B2 (en) System and method for hybrid text mining for finding abbreviations and their definitions
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
Tong et al. A statistical approach to automatic OCR error correction in context
JP4833476B2 (ja) モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ
US20040243409A1 (en) Morphological analyzer, morphological analysis method, and morphological analysis program
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
Peng et al. Self-supervised Chinese word segmentation
JP2007323671A (ja) 中国語テキストにおける単語分割
JP2003514304A5 (ja)
Toselli et al. Two methods to improve confidence scores for lexicon-free word spotting in handwritten text
Schaback et al. Multi-level feature extraction for spelling correction
JP3777456B2 (ja) 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置
JP3309174B2 (ja) 文字認識方法及び装置
Kinaci Spelling correction using recurrent neural networks and character level n-gram
JPH11328317A (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
CN116306594A (zh) 一种医学ocr识别纠错方法
CN116484842A (zh) 语句纠错的方法及装置、电子设备、存储介质
JPH076215A (ja) ニューラルネットワークに基づく文字処理装置のための字句の後処理方法
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Chatterjee et al. Machine transliteration using SVM and HMM

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090524

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090524

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100524

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100524

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110524

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120524

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130524

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140524

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term