JPH08315078A

JPH08315078A - 日本語文字認識方法及び装置

Info

Publication number: JPH08315078A
Application number: JP7115926A
Authority: JP
Inventors: Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-05-15
Filing date: 1995-05-15
Publication date: 1996-11-29
Anticipated expiration: 2017-07-29
Also published as: JP3309174B2

Abstract

(57)【要約】【目的】本発明の目的は、入力文が辞書に登録されて
いない単語を含む場合や、正解文字が候補文字に含まれ
ていない場合でも、形態素解析候補を最も尤もらしい順
番に提示でき、かつ高い精度を持つ、日本語文字認識方
法及び装置を提供することである。【構成】本発明は、確率が高い順番に任意の個数の形
態素解析候補を求める形態素解析手段、単語モデルに基
づく単語仮説生成手段、類似語モデルに基づく類似語検
索手段を用いて、辞書に登録されていない入力文中の単
語の表記と品詞を正しく同定し、正解文字が候補文字に
含まれていない場合でも正確単語を提示し、最も尤もら
しい順に、単語列と品詞列の組を提示する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、印刷文字または手書き
文字を認識する日本語文字認識方法及び装置に係り、特
に、光学的文字認識装置（ＯＣＲ）が出力する文字認識
誤りを含む日本語テキストに対して、統計的言語モデル
とN-best探索アルゴリズムを用いて入力文を構成する単
語の表記と品詞を精度良く求められるようにした日本語
文字認識方法及び装置に関する。

【０００２】

【従来の技術】文字認識の誤り検出・訂正法は、（１）
文字の連接情報を利用する方法、（２）単語辞書との照
合検査、および、単語間の文法的接続検査を行なう方
法、の二つに大別できる。

【０００３】（１）文字の連接情報を利用する方法文字の連接情報を利用する方法（例えば、杉村・斎藤
「文字連接情報を用いた読み取り不能文字の判定処理−
文字認識への応用−」信学論Vol.J68-D No.1,pp.64-71,
1985）は、文字連接表（binary n-gram table)または文
字連接確率（n-gram probability) を用いて、隣接する
文字候補の連接の可否（または尤もらしさ）を判定する
ことにより、誤りの検出・訂正を行なう。

【０００４】この文字の連接情報を利用する方法は、実
現が容易で、かつ、比較的大きな認識性能の向上が達成
できる。（２）単語辞書との照合検査及び、単語間の文法的接
続検査を行う方法単語辞書との照合検査と単語間の文法的接続検査を行な
う方法（例えば、高尾・西野「日本語文書リーダ後処理
の実現と評価」情処論Vol.30 No.11,pp.1394-1401,198
9）は、文字認識の候補文字を組み合わせて構成される
単語を単語辞書から検索しながら単語間の接続を検査
し、文頭から文末まで到達する単語列の中で最適なもの
を正解文字列とする。

【０００５】

【発明が解決しようとする課題】上記従来の第１の方法
である「文字の連接情報を利用する方法」は、入力文を
単なる文字列として扱うので、単語を構成しない文字列
や、文法的に正しくない文字列を許容することが多いと
いう問題点がある。

【０００６】また、上記の従来の第２の方法である「単
語辞書と単語接続情報を利用する方法」は、（ａ）辞書
に登録されていない単語が入力文中に存在したり、
（ｂ）正解文字が候補文字に含まれていない場合に、性
能が大きく低下するという問題点がある。

【０００７】辞書に登録されていない単語への対処法と
しては、未登録語テンプレートを使って未登録語を発見
し、文字の連接確率を使って文字列を限定する方法があ
る（前述の高尾・西野の論文）。しかし、この未登録語
テンプレートは発見的（heuristic)に人手で作成せねば
ならず、網羅性や移植性に問題がある。

【０００８】正解文字が候補文字に含まれていない場合
の対処法としては、候補文字補完と単語類似検索があ
る。候補文字補完とは、あらかじめ文字認識が誤りそう
な類似文字の組を定義しておき、文字認識結果の候補文
字に対して無条件にこの類似文字を候補として付け加え
る方法である（杉村「候補文字補完と言語処理による漢
字認識の誤り訂正処理法」信学論Vol.J72-D-II No.7,p
p.993-1000,1989) 。候補文字補完は、補完した文字が
必ずしも正解文字を含むとは限らないのに、誤り訂正に
必要な計算量を一様に大きく増加させるという問題があ
る。

【０００９】単語類似検索とは、単語辞書との照合の際
に、完全に一致したものだけではなく類似した（部分的
に一致した）単語も検索する方法である（例えば、Wagn
erとFischer "The String-to-String Correction Probl
em" Jounal of ACM Vol.21 No.1 pp.168-173,1974)。類
似検索は、英語のように長い単語が多い（平均約５文
字）言語のスペルチェックなどでは有効であるが、日本
語のように短い単語が多い（平均約２文字）言語では、
あまり有効ではない。例えば、単語の類似度を一致した
文字数で計測する場合、一文字が一致する二文字単語の
組は非常に多く存在するし、すべての一文字単語の組は
同じ類似度を持つという問題がある。

【００１０】この他の問題点として、単語辞書との照合
検査と単語間の文法的接続検査を行なう方法では、候補
文字の組合せから得られる（少なくとも文法的には正し
い）単語列は、一般に複数存在する。そこで、何らかの
評価値（コスト）によって単語列に順位を与える必要が
ある。また、自動的な誤り訂正によって認識率が１００
％になることはあり得ないので、システムが誤りらしい
部分を提示し、オペレータに確認させる必要がある。

【００１１】これに対しては、単語の出現確率、品詞間
の遷移確率（bigram）、単語を構成する各文字の正解確
率の積をコストとし、単語の組合せをビーム探索するこ
とにより、単語列に順位を与え、誤りの可能性がある部
分を指摘する方法（伊東・丸山「ＯＣＲ入力された日本
語文の誤り検出と自動訂正」情処論Vol.33 No.5,pp.664
-670,1992)がある。この方法は、単語の組合せをビーム
探索しているので、第２位以下の候補の順位は必ずしも
正しいとは保障されないという問題点がある。

【００１２】このように、従来の方法は、１．辞書に登録されていない入力文中の単語を正しく同
定できない、２．正解文字が候補文字に含まれていない場合、正解単
語を提示できない、３．最も尤もらしい順に、正解候補を提示できない、という問題点がある。

【００１３】本発明は、上記の点に鑑みなされたもの
で、入力文が辞書に登録されていない単語を含む場合
や、正解文字が候補文字に含まれていない場合でも、形
態素解析候補を最も尤もらしい順番に提示でき、かつ高
い精度を持つ、日本語文字認識方法及び装置を提供する
ことを目的する。

【００１４】

【課題を解決するための手段】本発明は、文字誤りを含
む日本語テキストが入力文として与えられ、該入力文を
構成する単語列と品詞列を出力する日本語文字認識方法
において、入力文が辞書に登録されていない単語を含む
場合や、正解文字が候補文字に含まれていない場合で
も、形態素解析候補を最も尤もらしい順番で提示する。

【００１５】図１は、本発明の原理を説明するためのフ
ローチャートである。本発明の日本語文字認識装置は、
まず、文字候補生成手段が文字マトリックスを生成する
（ステップ１）。次に、この文字マトリックスに含まれ
る未知語、すなわち、辞書に登録されていない単語を同
定するために、単語仮説生成手段が単語仮説、すなわ
ち、単語の表記と品詞と品詞別出現確率の組を生成する
（ステップ２）。また、正解文字が候補文字に含まれて
いない単語の訂正候補を生成するために、類似語検索手
段が文字マトリックスに含まれる文字列の類似語を検索
する（ステップ３）。最後に、形態素解析手段が、品詞
付けモデルに基づいて、形態素解析候補、すなわち、単
語列と品詞列の組を、確率が高い順番に任意の個数だけ
出力する。

【００１６】また、本発明は、文字誤りを含む日本語テ
キストが入力文として与えられ、該入力文を構成する単
語列と品詞列を出力する日本語文字認識装置であって、
入力文が辞書に登録されていない単語を含む場合や、正
解文字が候補文字に含まれていない場合でも、形態素解
析候補を最も尤もらしい順番で提示する手段を有する。

【００１７】また、本発明は、単語を構成する文字列と
その品詞の同時確率に基づいて単語の表記と品詞と品詞
別単語出現確率を推定する推定手段と、推定手段により
推定に基づいて、正解文字が文字候補に含まれていない
場合に類似語を検索して、訂正候補を生成する訂正候補
生成手段と、確率が高い順に訂正候補生成手段で生成さ
れた訂正候補を任意の個数提示する候補提示手段とを有
する。

【００１８】図２は、本発明の原理構成図である。本発
明の日本語文字認識装置は、光学的文字認識装置が出力
する文字誤りを含む日本語テキストを入力として与えら
れ、入力文を構成する単語列と品詞列を出力する装置で
あって、文字マトリックス、すなわち、入力文の各文字
位置において文字認識スコアの高い順番に文字候補を並
べたリストのリストを生成する文字候補生成手段１００
と、品詞三つ組確率と品詞別単語出現確率から文を構成
する単語列と単語に付与された品詞列の同時確率を与え
る品詞付けモデル７００と、品詞付けモデル７００に基
づいて品詞列と単語列の同時確率を最大化する単語列と
品詞列の組を求める形態素解析手段２００と、品詞出現
確率と品詞別単語長と単語内文字三つ組確率から単語の
表記と品詞の同時確率を与える単語モデル４００と、辞
書に登録されていない単語を同定するために単語モデル
４００に基づいて単語仮説を生成する単語仮説生成手段
３００と、文字マトリックスに含まれるある文字列の前
後の文字列と文内文字三つ組確率を用いて、この文字列
と単語リスト中の単語との類似度を与える類似度モデル
６００と、正解文字が候補文字に含まれていない場合に
訂正候補を生成するために類似度モデル６００に基づい
て文字マトリックスに含まれる文字列と類似した単語を
検索する類似語検索手段５００とを有する。

【００１９】

【作用】本発明は、品詞三つ組確率と品詞別単語出現確
率から構成される品詞付けモデル、品詞出現確率と品詞
別単語長と単語内文字三つ組確率から構成される単語モ
デル、文内文字三つ組を用いて二つの単語の類似度を与
える類似度モデル、確率が高い順番に任意の個数の形態
素解析候補を求める形態素解析手段、単語モデルに基づ
く単語仮説生成手段、類似語モデルに基づく類似語検索
手段を用いて、入力文が辞書に登録されていない単語を
含む場合や、正解文字が候補文字に含まれていない場合
でも、辞書に登録されていない入力文中の単語の表記と
品詞を正しく同定し、正解文字が候補文字に含まれてい
ない場合でも正確単語を提示し、最も尤もらしい順に、
単語列と品詞列の組を提示することが可能である。

【００２０】

【実施例】図３は、本発明の一実施例の日本語文字認識
装置の構成図である。まず、図３を参照して説明する。
同図に示す日本語文字認識装置は、文字候補生成部１、
前向きＤＰ探索部２、最適経路スコアテーブル３、後向
きＡ^*探索部４、単語仮説生成部５、品詞出現確率テー
ブル６、品詞別単語長テーブル７、単語内文字三つ組確
率テーブル８、類似語検索部９、単語テーブル１０、文
内文字三つ組確率テーブル１１、品詞三つ組確率テーブ
ル１２、品詞別単語出現確率テーブル１３より構成され
る。

【００２１】文字候補生成部１は、入力文をＯＣＲ等で
光学的に認識し、文字マトリックスを生成する。前向き
ＤＰ探索部２は、入力文の文頭から文末へ一文字ずつ進
む動的計画法（Dynamic Programming)を用いて、単語列
と品詞列の同時確率、すなわち、品詞三つ組確率と品詞
別単語出力確率と文字認識確率の積を最大化するよう
な、入力文の単語分割と品詞付与の組を求める。

【００２２】品詞三つ組確率テーブル１２および品詞別
単語出現確率テーブル１３は、それぞれ、品詞三つ組確
率および品詞別単語出力確率を格納する。この前向きの
動的計画法では、文頭からある単語に至るまでの単語列
と品列の同時確率を最大化する最適部分経路（単語列と
品詞列の組）の確率を、最後の単語の表記と最後の二つ
の単語の品詞の異なる組合せ毎に計算し、最適経路スコ
アテーブル３に記録する。

【００２３】以下では、文字マトリックスの各文字位置
において、その文字位置の文字候補のリストから一文字
ずつ選ぶことにより構成される文字列を、文字マトリッ
クスに含まれる文字列と呼ぶことにする。前向きＤＰ探
索部１では、文字マトリックスのある文字位置から始ま
る全ての部分文字列を、品詞別単語出現確率テーブル１
３の単語表記と照合し、単語候補として提案する。

【００２４】単語仮説生成部５は、前向きＤＰ探索にお
いて、入力文のある文字位置から始まる単語候補を探索
する際に、単語が辞書に登録されていない場合に対処す
るために、品詞出現確率テーブル６、品詞別単語長テー
ブル７、単語内文字三つ組確率テーブル８の値を用い
て、単語の表記と品詞と品詞別単語出現確率の組である
単語仮説を、単語の表記と品詞の同時確率が大きい順に
予め定めた個数だけ生成する。

【００２５】また、類似語検索部９は、前向きＤＰ探索
において、入力文のある文字位置から始まる単語候補を
検索する際に、正解文字が文字候補のリストに存在しな
い場合に対処するために、単語テーブル１０と文内文字
三つ組確率テーブル１１の値を用いて、文字マトリック
スに含まれるモジュール列に類似した単語を検索し、単
語仮説に付け加える。

【００２６】後向きＡ^*探索部４は、前向きＤＰ探索部
２で計算された最適経路スコアテーブル３を入力とし、
文末から文頭へ一単語ずつ進むＡ^*アルゴリズムを用い
て、品詞三つ組確率と品詞別単語出力確率と文字認識確
率の積が最も大きいものから順番に一つずつ形態素解析
候補を求める。

【００２７】以下では、まず、本発明の理論的基礎であ
る「文字認識誤り訂正の情報理論的解釈」について述
べ、続いて、文字認識誤りモデル、品詞付けモデル、前
向きＤＰ探索、後向きＡ^*探索、単語モデル、単語仮説
生成、類似語モデル、類似語検索の順に説明する。

【００２８】文字認識誤り訂正の情報理論的解釈入力文字列Ｃに対する文字認識結果をＸとすれば、ベイ
ズの定理より、次の関係が成り立つ。

【００２９】

【数１】

【００３０】従って、文字認識結果Ｘが与えられた時
に、最も尤もらしい文字列Ｃ”は、Ｐ（Ｃ）を最大にす
る文字列である。

【００３１】

【数２】

【００３２】ここでは、Ｐ（Ｘ｜Ｃ）を文字認識モデ
ル、Ｐ（Ｃ）を言語モデルと呼ぶことにする。以下で
は、まず、本発明で用いる文字認識モデルと言語モデル
について述べる。文字認識モデル文字認識モデルＰ（Ｘ｜Ｃ）は、入力文字列Ｃを構成す
る各文字ｃ_iが文字認識結果Ｘを構成する各文字ｘ_iに
認識される確率の積から計算できる。

【００３３】

【数３】

【００３４】一般に、Ｐ（ｘ_i｜ｃ_i）はコンフュージ
ョンマトリックスと呼ばれ、文字認識装置の入力と出力
を大量に比較することにより求められる。コンフュージ
ョンマトリックスＰ（ｘ_i｜ｃ_i）の作成には、大きな
労力を必要とするので、本発明では、これを正解文字の
順位の分布で近似した。すなわち、入力文のｉ番目の文
字ｃ_iに対する第ｊ候補をｘ_ijとするとき、ｘ_ijが正解
文字である確率Ｐ（ｘ_ij）により、Ｐ（ｘ_ij｜ｃ_i）を
近似する。第１候補の正解率をｐとすれば、Ｐ
（ｘ_ij）、次のような幾何分布で近似できる。

【００３５】

【数４】

【００３６】ここで、正解文字の分布に幾何分布を用い
るのは、第１候補の正解率と、第２候補以下が急速に信
頼できなくなるという傾向を近似するためである。品詞付けモデル（言語モデル）文字列Ｃ＝ｃ₁ｃ₂…ｃ_mから構成される入力文が、単
語列Ｗ＝ｗ₁ｗ₂…ｗ _nに分割され、品詞列Ｔ＝ｔ₁ｔ
₂…ｔ_nが付与されるとする。本発明では、文字列Ｃの
確率Ｐ（Ｃ）を、文字列Ｃの最も尤もらしい形態素解析
候補の確率Ｐ（Ｗ，Ｔ）で近似する。

【００３７】形態素解析は、文字列が与えられた時の単
語列と品詞列の同時確率Ｐ（Ｗ，Ｔ｜Ｃ）を最大化する
単語列と品詞列の組（Ｗ”，Ｔ”）を求める問題であ
る。実際にはＣはすべてに共通なので、同時確率Ｐ
（Ｗ，Ｔ）を最大化するものを求めればよい。

【００３８】

【数５】

【００３９】同時確率Ｐ（Ｗ，Ｔ）は、二次隠れマルコ
フモデルで近似する。すなわち、品詞三つ組確率Ｐ（ｔ
_i｜ｔ_i-2，ｔ_i-1）と品詞別単語出現確率Ｐ（ｗ_i｜
ｔ_i）を用いて、次式で表す。

【００４０】

【数６】

【００４１】文字認識の誤り訂正では、（２）式を最大
化する文字列Ｃを求めればよい。これが、本発明で、文
字列Ｃの確率Ｐ（Ｃ）を、文字列Ｃの最も尤もらしい形
態素解析候補の確率Ｐ（Ｗ，Ｔ）で近似する理由であ
る。図４は、品詞三つ組確率の一例である。品詞三つ組
確率のデータは、三つの品詞とその出現確率の四つの要
素から構成されるリスト構造である。

【００４２】図５は、品詞別単語出現確率の一例であ
る。品詞別単語出現確率のデータは、品詞、表記、確率
の三つの要素から構成されるリスト構造である。例え
ば、サ変名詞の“挨拶”の出現確率は、「0.0004101722
7235438886773 」であることを示す。

【００４３】前向きＤＰ探索前向きＤＰ探索部２が、最適経路スコアテーブル３を計
算する手順を示す。最初に、前向きＤＰ探索部２で用い
られるデータ構造を説明し、次に、処理の流れを説明す
る。

【００４４】図６は、本発明の一実施例のN-bestアルゴ
リズムのためのデータ構成を示す。前向き探索では、図
６に示すようなスロットを持つ、parse とwordという二
つのデータ構造を使用する。構造体parse は部分解析を
表す。この構造体は、最適経路スコアテーブル３におい
て、単語の情報、および、文頭からその単語へ至る最適
部分経路（同時確率が最大となるような、単語列と品詞
列の組、すなわち形態素列）の情報を格納するのに用い
られる。parse.start とparse.end は、入力文における
単語の開始位置と終了位置のインデックスである。pars
e.pos は、単語の品詞で、ここでは、単語の品詞、活用
型、活用形のリストを用いている。parse.nth-order-st
ate は、この単語を含む最後の二つの単語の品詞のリス
トである。parse.prob-so-far は、文頭から現在の単語
に至るまでの最適部分経路のスコアである。

【００４５】構造体wordは単語を表す。この構造体は、
品詞別単語出現確率テーブル１３において、個々の単語
の情報を格納するのに用いられる。word.form, word.po
s, word.probは、それぞれ、単語の表記、品詞、品詞別
の出力確率を表す。最適経路スコアテーブル３は、最後
の単語の開始点と終了点、および、最後の二つの単語の
品詞の組をキーとし、同じキーを持つ部分解析構造の中
で、最適部分経路スコアが最良なものを値として保持す
るテーブルである。

【００４６】図７は、本発明の一実施例の前向きＤＰ探
索部の動作を説明するためのフローチャートである。以
下では、この図７に従って、前向きＤＰ探索部２の動作
を説明する。前向きＤＰ探索は、入力文の先頭から始ま
り、文末方向へ一文字ずつ進む。

【００４７】ステップ１０１）探索の開始位置を入力
文の先頭に設定する。ステップ１０２）探索が文末に達したかを判断する。
もし、文末に達していれば、前向き探索を終了する。そ
うでなければ、以下の処理を各文字位置で行なう。

【００４８】ステップ１０３）現在の文字位置に到達
する全ての部分解析を最適経路スコアテーブル３から検
索し、その中の一つを現在の部分解析として選ぶ。ステップ１０４）全ての部分解析を調べたかを判定す
る。もしそうならば、ステップ１１２において探索を次
の文字位置へ進める。そうでなければ、以下の処理を各
部分解析について行なう。

【００４９】ステップ１０５）現在の文字位置から文
末までの各文字位置において、文字マトリックスの中か
ら一つずつ候補文字を選ぶことにより構成される全ての
文字列の最左部分文字列と、品詞別単語出現確率テーブ
ル１３の表記を照合し、完全一致する単語を全て検索す
る。そして、その中の一つを現在の単語として選ぶ。

【００５０】ステップ１０６）全ての単語を調べたか
を判定する。もしそうならば、ステップ１１１において
次の部分解析を選ぶ。そうでなければ、以下の処理を各
単語について行なう。ステップ１０７）現在の単語とその直前の二つの単語
の品詞三つ組確率を品詞三つ組確率テーブル１２から検
索する。

【００５１】ステップ１０８）品詞三つ組確率がゼロ
かどうかを判定する。もし品詞三つ組確率が０ならば、
ステップ１１０において次の単語を選ぶ。もしそうでな
ければ、以下の処理を行なう。ステップ１０９）まず、開始位置（parse.start)が現
在の文字位置で、終了位置(parse.end) が現在の文字位
置と現在の単語の表記の長さの和で、品詞(parse.pos)
が現在の単語の品詞であるような新しい部分解析(parse
構造) を作る。最後の二つの品詞(parse.nth-order-sta
te) はステップ１０８で調べた品詞三つ組の先頭要素を
取り除いたものであり、最適経路スコア（parse.prob-s
o-far)は、現在の部分解析の最適経路スコアと品詞三つ
組確率と現在の単語の品詞別単語出現確率(word.prob)
と現在の単語の文字認識確率(word.prob) の積である。

【００５２】次に、最適経路スコアテーブル３から、こ
の新しい部分解析と同じキー（最後の単語の開始点と終
了点、および、最後の二つの単語の品詞の組）で既に登
録されている部分解析を検索し、これよりもスコアが良
ければ、新しい部分解析を最適経路スコアテーブル３に
登録する。

【００５３】ステップ１１０）次の単語を選び、ステ
ップ１０６へ戻る。ステップ１１１）次の部分解析を選び、ステップ１０
４へ戻る。ステップ１１２）探索を次の文字位置へ進め、ステッ
プ１０２へ戻る。後向きＡ^*探索後向きＡ^*探索部４が最も尤もらしい順に一つずつ形態
素解析候補を求める手順を示す。まず、後向きＡ^*探索
の概要とＡ^*探索に用いられるデータ構造を説明し、次
に、処理の流れを説明する。

【００５４】本発明の後向きＡ^*探索では、単語と品詞
の組であるparse 構造を、Ａ^*アルゴリズムにおけるグ
ラフのノードと考える。そして、コストとしては、確率
の対数の絶対値を用いる。これにより、確率最大の解は
コスト最小の解に対応し、確率の積はコストの和に対応
する。

【００５５】Ａ^*探索では、ヒューリスティック関数ｆ
（ｎ）を考える。ヒューリスティック関数ｆ（ｎ）は、
現在のノードｎを生成した経路に沿って、初期状態から
最終状態へ至るまでのコストの推定値を与える。初期状
態から現在のノードへ至るまでのコストを与える関数を
ｇ（ｎ）、現在のノードから最終状態へ至るまでのコス
トの推定値を与える関数をｈ（ｎ）とすると、ヒューリ
スティック関数ｆ（ｎ）は次式により与えられる。

【００５６】ｆ（ｎ）＝ｇ（ｎ）＋ｈ（ｎ）（７）本発明の後向き探索では、関数ｇとして、文末から現在
の単語（parse 構造）に至るまでの品詞三つ組確率と品
詞別単語出力確率と文字認識確率の積の対数の絶対値を
用いる。また、関数ｈとしては、文頭から現在の単語に
至るまでの品詞三つ組確率と品詞別単語出力確率と文字
認識確率の積の最大値の対数の絶対値を用いる。

【００５７】この後向きＡ^*探索のために、図６に示す
ようなスロットを持つpathというデータ構造を定義す
る。構造体pathはＡ^*探索におけるグラフのノードに相
当し、現在の単語（parse 構造) 、後向き探索における
経路、および、コストに関する情報を保持する。path.p
arseは、parse 構造を格納する。path.previous は直前
のpath構造へのポインタである。path, cost-so-far
は、初期状態からのコストである。path.total-cost 初
期状態から最終状態までのコストの推定値である。

【００５８】Ａ^*探索では、openとclose という二つの
リストを用いる。リストopenは、既に生成され、ヒュー
リスティック関数が適用されているが、まだ展開されて
（調べられて）いないノード（path構造）の集合であ
る。このリストは、ヒューリスティック関数の値に基づ
く優先度付きキューになっている。リストclose は、既
に展開された（調べられた）ノードの集合である。

【００５９】Ａ^*探索では、目標状態に対応するノード
を生成するまで、各ステップで一つのノードを展開す
る。各ステップでは、既に生成されているが、まだ展開
されていない、最も有望なノードを展開する。すなわ
ち、選ばれたノードの後続のノードを生成し、ヒューリ
スティック関数を適用し、既に生成されていないかを検
査した後にリストopenに加える。この検査によって、各
ノードはグラフの中に一回だけ現れることが保証され
る。また、二つ以上の経路が同じノードを生成する時
は、スコアの良い方だけを記録する。

【００６０】図８、図９は、本発明の一実施例の後向き
Ａ^*探索部の動作を説明するためのフローチャートであ
る。以下では、この図８、図９に従って、後向きＡ^*探
索部４の動作を説明する。ステップ２０１）文末に到達した部分解析を表す（す
なわち、この部分解析をparse スロットに持つ）path構
造のリストをリストopenに代入する。また、リストclos
edには空リストを代入する。

【００６１】ステップ２０２）リストopenが空リスト
かどうかを調べる。もし、そうならば、解が見つからな
かったので探索が失敗したことを通知して探索を終了す
る。そうでなければ、以下の処理を行なう。ステップ２０３）リストopenの先頭要素を取り出して
変数bestpathに代入する。

【００６２】ステップ２０４）探索が文頭に達したか
を調べる。もし、探索が文頭に達していれば、変数best
pathが最適解であり、探索が成功したことを通知して探
索を終了する。そうでなければ、以下の処理を行なう。
また、探索は成功したが、さらに、その次に最も尤もら
しい解を求めたい場合にも、以下の処理を行なう。

【００６３】ステップ２０５）変数bestpathをリスト
closedへ挿入し、リストclosedの要素を初期状態から最
終状態までのコストの推定値の順にソートする。ステップ２０６）変数bestpathが表す部分解析の左側
に連接する全ての部分解析を最適経路スコアテーブル３
から検索し、その中の一つを現在の部分解析とする。

【００６４】ステップ２０７）全ての部分解析を調べ
たかどうかを判定する。もしそうであれば、ステップ２
０２へ進む。そうでなければ、以下の処理を行なう。ステップ２０８）変数bestpathから現在の部分解析へ
遷移する経路を表す新しいpath構造を作成し、これを変
数newpath に代入する。neapsth.parse には現在の部分
解析を代入し、newpath.previousにはbestpathを代入す
る。newpath.cost-so-far には、bestpath.parseへ至る
までのコストbestpath.cost-so-farと、bestpath.parse
からnewpath.parse への遷移のコストの和が代入され
る。newpath.total-costには、文末からnewpath.parse
までのコスト（newpath.cost-so-far)と文頭からnewpat
h.parse までのコストの和が代入される。

【００６５】ステップ２０９）現在の部分解析への遷
移を表すpath構造が、リストopenに含まれているかどう
かを検査する。もし含まれていなければ、ステップ２１
３へ進む。含まれていれば、以下の処理を行なう。ステップ２１０）現在の部分解析への遷移を表すリス
トopenの中のpath構造を変数oldpath に代入する。

【００６６】ステップ２１１）変数newpath のコスト
（newpath.total-cost）と変数oldpath のコスト（oldp
ath.total-cost) を比較する。もし、変数newpath のコ
ストの方が大きければ、何もせずにステップ２１８へ進
む。もし、変数newpath のコストの方が小さければ、ス
テップ２１２に移行する。

【００６７】ステップ２１２）リストopenから変数ol
dpath を削除し、変数newpath をリストopenへ挿入した
後にコストの順にソートする。そしてステップ２１８へ
進む。ステップ２１３）現在の部分解析への遷移を表すpath
構造がリストclosedに含まれているかどうかを検査す
る。もし含まれていなければ、ステップ２１７へ進む。
含まれていれば、以下の処理を行なう。

【００６８】ステップ２１４）現在の部分解析への遷
移を表すリストclosedの中のpath構造を変数oldpath に
代入する。ステップ２１５）変数newpath のコスト（newpath.to
tal-cost) と変数oldpath のコスト（oldpath.total-co
st）を比較する。もし、変数newpath のコストの方が大
きければ、何もせずにステップ２１８へ進む。もし、変
数newpath のコストの方が小さければ、ステップ２１６
に移行する。

【００６９】ステップ２１６）リストclosedから変数
oldpath を削除し、変数newpath をリストclosedへ挿入
した後にコストの順にソートする。そしてステップ２１
８へ進む。ステップ２１７）変数newpath をリストopenへ挿入し
た後にコストの順にソートする。そしてステップ２１８
へ進む。

【００７０】ステップ２１８では、次の部分解析を選
ぶ。単語モデル単語モデルは、単語を構成する文字列と品詞の同時確率
分布として定義される。これは、一般性を失うことな
く、以下のように表せる。

【００７１】Ｐ（ｃ₁…ｃ_k，Ｔ）＝Ｐ（Ｔ）Ｐ（ｋ｜Ｔ）Ｐ（ｃ₁…ｃ_k｜ｋ，Ｔ）（８）ここでｃ₁…ｃ_kは、品詞がＴである単語を構成する長
さｋの文字列である。品詞出現確率Ｐ（Ｔ）は、品詞タ
グ付きコーパスにおける品詞の相対頻度から求められ
る。品詞別単語長確率Ｐ（ｋ｜Ｔ）は、品詞Ｔが与えら
れた時の単語長ｋをポワソン分布で近似する。

【００７２】

【数７】

【００７３】ここでλ_Tは、品詞がＴである単語の平均
文字長であり、これも品詞タグ付きコーパスから計算す
る。単語長と品詞が与えられた時の単語表記の確率Ｐ
（ｃ₁…ｃ_k｜ｋ，Ｔ）は、以下のように、単語内文字
三つ組確率の積で近似する。

【００７４】

【数８】

【００７５】ここで“＃”は、単語の先頭および末尾を
表す特別な記号である。単語内文字三つ組確率も品詞タ
グ付きコーパスから計算する。図１０は、品詞出現確率
の一例である。品詞出現確率テーブル６のデータは、品
詞とその出現確率から構成されるリスト構造で表され
る。

【００７６】図１１は、品詞別単語長の一例である。品
詞別単語長テーブル７のデータは、品詞とその品詞の単
語の平均文字列長から構成されるリスト構造で表され
る。図１２は、単語内文字三つ組確率の一例である。単
語内文字三つ組確率テーブル８は、三つの文字とその単
語内出現確率の四つの要素から構成されるリスト構造で
表される。ここで、“＃”は単語の先頭及び末尾を表す
特別な記号である。

【００７７】単語仮説の生成単語仮説生成は、入力文が辞書に登録されていない単語
を含む場合に対処するために行なう。単語仮説生成部５
は、前向き探索において、入力文の各文字位置で、その
文字位置より後ろの各文字位置において、文字マトリッ
クスの中から一つずつ候補文字を選ぶことにより構成さ
れる全ての文字列の最左部分文字列の中で、（８）式に
示す単語モデルに基づいて、表記と品詞の確率が高い順
番に、単語仮説、すなわち、単語の表記（文字列と長
さ）と品詞と品詞別単語出力確率の組を、予め決めた個
数だけ生成する。

【００７８】この方法は、本来、辞書に登録されている
単語が文字認識誤りによって、みかけ上、辞書に登録さ
れていない単語になった場合に、単語区切りと品詞を推
定する方法としても有効である。品詞別単語出現確率
は、次の式により計算する。

【００７９】Ｐ（ｃ₁…ｃ_k｜Ｔ）＝Ｐ（ｋ｜Ｔ）Ｐ（ｃ₁…ｃ_k｜ｋ，Ｔ）（１１）以下では、単語仮説生成部５が、単語モデルを用いて入
力文に対して単語仮説を生成する手順を説明する。ここ
では、説明を簡単にするために、文字認識の第１候補の
文字列に対してのみ、単語仮説を生成することにする。

【００８０】図１３は、本発明の一実施例の単語仮説生
成部の動作を説明するためのフローチャートである。以
下では、この図１３に従って、単語仮説生成部５の動作
を説明する。単語仮説生成部５は、入力文に対する文字
マトリックスの第一候補からなる文字列、および、単語
仮説を生成すべき文字位置が与えられる。

【００８１】ステップ３０１）単語仮説の開始点を変
数ｉに代入し、単語仮説の終了点を表す変数ｊにｉ＋１
を代入する。また単語仮説のリストに初期値として空リ
ストを代入する。

【００８２】ステップ３０２）ｊが入力文の長さより
小さいかどうかを調べる。そうでなければ、ステップ３
１０へ進む。そうであれば、以下の処理を行なう。ステップ３０３）単語仮説の長さｊ−１が、予め定め
た単語仮説（すなわち、未知語）の最大長より大きいか
どうかを調べる。もしそうならば、ステップ３１０へ進
む。そうでなければ、以下の処理を行なう。

【００８３】ステップ３０４）入力文のｊ文字目が区
切り記号かどうかを調べる。区切り記号とは、句
点（。）や読点（、）などの単語の一部とはなり得ない
記号のことである。もしそうならば、ステップ３１０へ
進む。そうでなければ、以下の処理を行なう。

【００８４】ステップ３０５）入力文字列の文字位置
ｉから文字位置ｊまでの部分文字列を単語仮説の表記と
する。ステップ３０６）予め定めた単語仮説に割り当てるべ
き品詞の集合の中から一つを選び、単語仮説の品詞とす
る。

【００８５】ステップ３０７）全ての品詞を調べたか
どうかを調べる。もしそうであれば、ステップ３０９に
進む。そうでなければ、以下の処理を行なう。ステップ３０８）まず、単語モデルに基づいて、単語
が現在の表記と現在の品詞を持つ確率を計算する。次
に、表記と品詞と確率の組から構成される単語仮説を単
語仮説リストに加え、ステップ３０７へ進む。

【００８６】ステップ３０９）単語仮説の終りの文字
位置を一つ先に進める。ステップ３１０）得られた単語仮説のリストを確率の
大きい順にソートし、予め決められた個数の単語仮説を
選ぶ。図１４は、本発明の一実施例の単語仮説生成の例を示
す。ここでは「はい、シングルとツインと１部屋ずつで
すね。」という入力文において、「ツイン」という単語
が未知語であるとする。

【００８７】前向き探索が入力文の「と」と「ツ」の間
の文字位置に達した際に、単語仮説の表記の候補として
は、「ツ」「ツイ」「ツイン」「ツインと」などの文字
列が考慮される。また、品詞と単語長の組合せとして
は、単語モデルに基づく確率の順に、「長さ１の記号」
「長さ１の格助詞」「長さ２の普通名詞」などが考慮さ
れる。

【００８８】そして、最終的な単語仮説としては、図１
４の左下に示したような表記と品詞と品詞別単語出現確
率の組が求められる。もし、機能語は辞書に全て登録さ
れており、内容語のみが未知語になりうると仮定するな
らば、単語仮説として生成される品詞は、名詞や動詞な
どの内容語に限定され、図１４の右下のような単語仮説
が生成される。

【００８９】類似語モデル類似度モデルは、二つの単語の類似度を与える。単語の
類似度として、本発明では、文脈に依存しない類似度と
文脈に依存した類似度の二つを考える。文脈に依存しな
い単語の類似度の尺度としては、二つの単語の表記の一
致度を用いる。同じ長さｎを持つ二つの単語がｃ文字だ
け一致するとき、二つの単語の類似度を次式で表す。

【００９０】ｃ／ｎ（１２）一般にｃ／ｎが大きいほど、二つの単語は類似してい
る。この尺度は、長さ３以上の単語では非常に有効であ
る。しかし、長さ２の単語の類似検索に（１２）式を用
いると、非常に多くの類似語が検索されてしまう。ま
た、長さ１の単語は（１２）では類似度が定義できな
い。そこで、本発明では、短い単語については、以下に
述べる文脈に依存する類似度を、文字列としての類似度
と併用する。

【００９１】文脈に依存する単語の類似度の尺度として
は、ある単語の前後の文字列と、もう一つの単語が共起
する確率を用いる。例えば、ある長さ２の単語ｃ_iｃ
_i+1に対して、それが出現した文脈における直前の２文
字がｃ_i-2ｃ_i-1、直後の２文字がｃ_i+2ｃ_i+3である
とする。この時、すべての長さ２の単語ｓ_iｓ_i+1に対
して、文字列ｃ_i-2，ｃ_i-1，ｓ_i，ｓ_i+1，ｃ_i+2，
ｃ_i+3の出現確率を考え、この確率が大きいほど、単語
ｃ_iｃ _i+1と単語ｓ_iｓ_i+1は類似していると考える。

【００９２】文字列ｃ_i-2ｃ_i-1ｓ_iｓ_i+1ｃ_i+2ｃ
_i+3の出現確率は、文内文字三つ組確率から以下のよう
に計算できる。 P(c_i-2, c_i-1, s_i,s_i+1, c_i+2, c_i+3) ＝ P(s_i｜ c_i-2, c_i-1)P( s_i+1｜ c_i-1, s_i) P(c_i+2｜ s_i,s_i+1)P( c_i+3｜ s_i+1, c_i+2) （１３）同様に、長さ１の単語ｃ_iに対しては、その前後の文字
列ｃ_i-2ｃ_i-1およびｃ_i+2ｃ_i+3と、長さ１の単語ｓ
_iが共起する確率を、類似度の尺度として用いる。

【００９３】 P(c_i-2, c_i-1, s_i,s_i+1, c_i+1, c_i+2) ＝ P(s_i｜ c_i-2, c_i-1)P(ｃ_i+1｜ｃ_i-1, s_i)P(c_i+2｜ s_i,c_i+1) （１４）図１５は、文内文字三つ組確率の一例である。文内文字
三つ組確率テーブル１１のデータは、三つの文字とその
文内出現確率の四つの要素から構成されるリスト構造で
表される。

【００９４】類似語検索本発明では、正解文字が候補文字に含まれていない場合
に対処するために、前向き探索において、文字認識の第
１候補の文字列に対して、ある文字位置から始まる長さ
最左部分文字列の類似語を、訂正候補として生成する。

【００９５】本来は、各文字位置において文字マトリッ
クスの中から一つずつ候補文字を選ぶことにより構成さ
れる全ての文字列に対して類似検索を行なうことが望ま
しい。しかし、これは非常に多くの計算を必要とするの
で、ここでは、文字認識の第１候補のみを類似検索の対
象としている。

【００９６】本発明では、前述の二つの類似度を組み合
わせて、以下のようにして類似語を検索する。以下で、
単語リストとは、品詞別単語出現確率テーブル１３から
表記だけを取り出し、重複を取り除いたものを表す。長
さ３以上の単語に対して類似語を検索する場合には、単
語リストの中から、文字列としての類似度ｃ／ｎが予め
決めた閾値以上である全ての単語を選ぶ。

【００９７】長さ２の単語に対して類似語を検索する場
合には、まず、文字認識の第１候補の文字列に対して、
単語リストの中からちょうど１文字一致する単語ｓ_iｓ
_i+1を全て選ぶ。次に、文内文字三つ組確率テーブル１
１の確率を用いて、この単語と前後の文字列を組み合わ
せた長さ６の文字列の出現確率を計算し、この確率が大
きい順番に予め決められた個数の単語を選ぶ。

【００９８】長さ１の単語に対して類似語を検索する場
合には、まず、単語リスト中のすべての長さ１の単語ｓ
_iを取り出す。次に、文内文字三つ組確率を用いて、こ
の単語と前後の文字列を組み合わせた長さ５の文字列の
出現確率を計算し、この確率が大きい順番に予め決めら
れた個数の単語を選ぶ。

【００９９】図１６は、本発明の一実施例の類似語検索
部の動作を説明するためのフローチャートである。以下
では、この図１６に従って、類似語検索部９の動作を説
明する。類似語検索部９は、入力文に対する文字マトリ
ックスの第一候補からなる文字列、および、類似語を検
索すべき文字位置が与えられる。

【０１００】ステップ４０１）類似語検索のキーとな
る文字列の開始点を表す変数ｉを設定する。また、類似
語検索のキーとなる文字列の終了点を表す変数ｊをｉ＋
１に設定する。ステップ４０２）ｊが入力文の長さより小さいかどう
かを調べる。もしそうでなければ、処理を終了する。そ
うであれば、以下の処理を行なう。

【０１０１】ステップ４０３）類似語検索キーの長さ
ｊ−ｉが、予め定めた類似語の最大長より大きいかどう
かを調べる。もしそうならば、処理を終了する。そうで
なければ、以下の処理を行なう。ステップ４０４）入力文のｊ文字目が区切り記号かど
うかを調べる。もしそうならば、処理を終了する。そう
でなければ以下の処理を行なう。

【０１０２】ステップ４０５）入力文字列の文字位置
ｉから文字位置ｊまでの部分文字列を類似語検索のキー
とする。ステップ４０６）類似語検索キーの長さが２より大き
いかを調べる。もしそうならば、ステップ４０５へ進
む。そうでなければ以下の処理を行なう。

【０１０３】ステップ４０７）単語リストから長さｊ
−ｉの単語を検索し、その中の一つを現在の単語として
選ぶ。ステップ４０８）全ての単語を調べたかどうかを判定
する。もしそうならば、ステップ４１３へ進む。そうで
なければ以下の処理を行なう。

【０１０４】ステップ４０９）類似語検索キーの長さ
が２であるかどうかを調べる。もしそうでなければステ
ップ４１１へ進む。もしそうであれば、ステップ４１０
において、現在の単語が類似語検索キーと２文字のうち
のどちらかちょうど１文字が一致するかどうかを調べ
る。もしそうでなければステップ４１２へ進む。もしそ
うならば、以下の処理を行なう。

【０１０５】ステップ４１１）入力文の文字位置ｉ−
１から文字位置ｉまでの文字列、現在の単語、および、
入力文の文字位置ｊからｊ＋２までの文字列を連結した
長さｊ−ｉ＋２の文字列の出現確率を文内文字三つ組確
率テーブル１１の確率を用いて計算する。

【０１０６】ステップ４１２）次の単語を選び、ステ
ップ４０８へ進む。ステップ４１３）連結された文字列の出現確率が大き
い順に予め決められた数の単語を類似語として提案す
る。ステップ４１４）ｊに１を加え、類似語検索キーの長
さを１文字大きくする。

【０１０７】ステップ４１５）単語リストから長さｊ
−ｉの単語を全て検索し、その中の一つを現在の単語と
する。ステップ４１６）すべての単語を調べたかどうかを判
定する。もしそうであれば４１４へ進む。そうでなけれ
ば以下の処理を行なう。

【０１０８】ステップ４１７）類似語検索キーと現在
の単語の文字列としての類似度が閾値以上であるかどう
かを判定する。もしそうでなければ、ステップ４１９へ
進む。もしそうであれば、以下の処理を行なう。ステップ４１８）現在の単語を類似語として提案す
る。

【０１０９】ステップ４１９）次の単語を選択する。
図１７は、本発明の一実施例の長さ３以上の単語に対す
る類似語検索の例である。ここでは、入力文「ああ、アメリカ人工知能学会ですか。」に対する文字認識の第一候補の文字列が「ああ、アメ川カ人工知能字会ですか：」であるとする。

【０１１０】長さ３以上の単語に対しては、文脈に依存
しない文字列としての類似度を用いるので、「アメ川
カ」という文字列をキーとして、単語リストの中の長さ
４の単語が類似検索され、最終的に「アメリカ」と「ア
フリカ」という単語が訂正候補として提案される。

【０１１１】図１８は、本発明の一実施例の長さ２以下
の単語に対する類似語検索の例である。ここでは入力文
「分かりました。」に対する文字認識の第一候補の文字
列が「分かりま［た。」であるとする。長さ２以下の単
語に対しては、文字列としての類似度と文脈に依存した
類似度を組合せるので、まず、“「ま［」”という文字
列に対して、どちらかちょうど１文字が一致する単語が
単語リストから検索される。次に、“「ま［」”の前後
の文字列「かり○○た。」の中に、検索された長さ２の
単語が埋め込まれ、長さ６の文字列の出現確率が計算さ
れる。最終的には、この文字列の出現確率の大きいもの
から順に予め決められた個数の単語が、訂正候補として
提案される。

【０１１２】最後に、本発明の処理例を示す。図１９
は、本発明の一実施例の文字候補生成部が生成する文字
マトリックスの例である。入力文「分かりました。」に
対する文字認識候補が、第１位から第１０位まで与えら
れている。ここでは正解文字を［と］で囲んだ。従っ
て、入力文６文字中４文字は、第１候補に正解文字があ
り、１文字は第２候補に正解文字がある。しかし、残り
の１文字は候補文字の中に正解文字がない。

【０１１３】図２０は、図１９の文字マトリックスに対
して得られた形態素解析候補である。ここでは、上位３
個の形態素解析候補が示されており、第１候補が正しい
単語列と品詞列を与えている。各形態素解析候補にはそ
の確率の対数が示されており、この値が大きいほど尤も
らしい。この例では、入力文の４文字目に対する正解文
字が文字マトリックスには含まれていないが、類似検索
により訂正候補を生成した結果、形態素解析の第１候補
には「まし」という単語が現れている。

【０１１４】このようにして、類似語検索の結果、最も
尤もらしい順に提示された候補よりユーザが正解と思え
る候補を選択すればよい。なお、本発明は、上記の実施
例に限定されることなく、特許請求の範囲内で種々変更
・応用が可能である。

【０１１５】

【発明の効果】以上のように、この発明によれば、品詞
三つ組確率と品詞別単語出現確率から構成される品詞付
けモデル、動的計画法を用いた前向き探索とＡ^*アルゴ
リズムを用いた後向き探索により、単語列と品詞列の同
時確率を最大化する単語列と品詞列の組を求める形態素
解析手段、品詞出現確率と品詞列単語長と単語内文字三
つ組確率から構成される単語モデル、単語モデルに基づ
く単語仮説生成手段、文内文字三つ組確率と単語リスト
を用いる類似語モデル、類似語モデルに基づく類似語検
索手段により、入力文に辞書に登録されていない単語が
含まれている場合や、正解文字が候補文字に含まれてい
ない場合でも、確率が高い順番に入力文を構成する単語
列と品詞列の組の候補を提示できる日本語文字認識装置
が実現できる。

【図面の簡単な説明】

【図１】本発明の原理を説明するためのフローチャート
である。

【図２】本発明の原理構成図である。

【図３】本発明の一実施例の日本語文字認識装置の構成
図である。

【図４】品詞三つ組確率の例を示す図である。

【図５】品詞別単語出力確率の例を示す図である。

【図６】Ｎ−ｂｅｓｔアルゴリズムのためのデータ構造
を示す図である。

【図７】本発明の一実施例の前向きＤＰ探索の動作を示
すフローチャートである。

【図８】本発明の一実施例の後向きＡ^*探索部の動作を
説明するためのフローチャート（その１）である。

【図９】本発明の一実施例の後向きＡ^*探索部の動作を
説明するためのフローチャート（その２）である。

【図１０】品詞出現確率の一例を示す図である。

【図１１】品詞別単語長の一例を示す図である。

【図１２】単語内文字三つ組確率の一例を示す図であ
る。

【図１３】本発明の一実施例の単語仮説生成部の動作を
説明するためのフローチャートである。

【図１４】本発明の一実施例の単語仮説生成の例を示す
図である。

【図１５】文内文字三つ組確率の例を示す図である。

【図１６】本発明の一実施例の類似語検索部の動作を説
明するためのフローチャートである。

【図１７】本発明の一実施例の長さ３以上の単語に対す
る類似語検索の例を示す図である。

【図１８】本発明の一実施例の長さ弐以下の単語に対す
る類似語検索の例を示す図である。

【図１９】本発明の一実施例の文字候補生成部が生成す
る文字マトリックスの例を示す図である。

【図２０】本発明の一実施例の文字マトリックスに対し
て得られた形態素解析候補の例を示す図である。

【符号の説明】

１文字候補生成部２前向きＤＰ探索部３最適経路スコアテーブル４後向きＡ^*探索部５単語仮説生成部６品詞出現確率テーブル７品詞別単語長テーブル８単語内文字三つ組確率テーブル９類似語検索部１０単語テーブル１１文内文字三つ組確率テーブル１２品詞三つ組確率テーブル１３品詞別単語出現確率テーブル１００文字候補生成手段２００形態素解析手段３００単語仮説生成手段４００単語モデル５００類似語検索手段６００類似語モデル７００品詞付けモデル

Claims

【特許請求の範囲】

【請求項１】文字誤りを含む日本語テキストが入力文
として与えられ、該入力文を構成する単語列と品詞列を
出力する日本語文字認識方法において、前記入力文が辞書に登録されていない単語を含む場合
や、正解文字が候補文字に含まれていない場合でも、形
態素解析候補を最も尤もらしい順番で提示することを特
徴とする日本語文字認識方法。
【請求項２】前記入力文の各文字位置において文字認
識スコアの高い順番に文字候補を並べた文字マトリック
スを生成し、単語の表記と品詞と品詞別出現確率の組を生成して前記
文字マトリックスに含まれる未知語を同定し、前記文字マトリックスに含まれる文字列の類似語を探索
して、正解文字が候補文字に含まれていない単語の訂正
候補を生成し、単語列と品詞列の組を確率が高い順番に任意の個数だけ
出力する請求項１記載の日本語文字認識方法。
【請求項３】文字誤りを含む日本語テキストが入力文
として与えられ、該入力文を構成する単語列と品詞列を
出力する日本語文字認識装置であって、前記入力文が辞書に登録されていない単語を含む場合
や、正解文字が候補文字に含まれていない場合でも、形
態素解析候補を最も尤もらしい順番で提示する手段を有
することを特徴とする日本語文字認識装置。
【請求項４】単語を構成する文字列とその品詞の同時
確率に基づいて単語の表記と品詞と品詞別単語出現確率
を推定する推定手段と、前記推定手段により推定に基づいて、正解文字が文字候
補に含まれていない場合に類似語を検索して、訂正候補
を生成する訂正候補生成手段と、確率が高い順に前記訂正候補生成手段で生成された前記
訂正候補を任意の個数提示する候補提示手段とを有する
請求項３記載の日本語文字認識装置。
【請求項５】前記入力文の各文字位置において文字認
識スコアの高い順番に文字候補を並べたリストである文
字マトリックスを生成する文字候補生成手段と、品詞三つ組確率と品詞別単語出現確率から文字を構成す
る単語列と各単語に付与された品詞列の同時確率を与え
る品詞付けモデルと、前記品詞付けモデルに基づいて、確率が高い順番に任意
の個数の形態素解析候補を求める形態素解析手段と、品詞出現確率と品詞別単語長と単語内文字三つ組確率か
ら、単語を構成する文字列とその品詞の同時確率を与え
る単語モデルと、ある文字位置から始まる文字マトリクスに含まれる部分
文字列の中から、前記単語モデルに基づいて確率が高い
順番に任意の個数の単語仮説を求める単語仮説生成手段
と、ある単語の前後の文字列と単語リストと文内文字三つ組
確率から、その単語に類似した単語を求める類似語モデ
ルと、ある文字位置から始まる文字マトリクスに含まれる部分
文字列に類似した単語を、類似語モデルに基づいて確率
が高い順番に任意の個数だけ検索する類似語検索手段と
を有する請求項４記載の日本語文字認識装置。