JPH0554197A - 日本語文字認識装置 - Google Patents

日本語文字認識装置

Info

Publication number
JPH0554197A
JPH0554197A JP3218951A JP21895191A JPH0554197A JP H0554197 A JPH0554197 A JP H0554197A JP 3218951 A JP3218951 A JP 3218951A JP 21895191 A JP21895191 A JP 21895191A JP H0554197 A JPH0554197 A JP H0554197A
Authority
JP
Japan
Prior art keywords
character
kanji
hiragana
representative
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3218951A
Other languages
English (en)
Inventor
Hiroyoshi Toda
浩義 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3218951A priority Critical patent/JPH0554197A/ja
Publication of JPH0554197A publication Critical patent/JPH0554197A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 漢字を全て一つの代表文字に置き換え、文字
種を数十種類に減らして確率遷移行列を使用し、それに
より形態素を用いることなく言語処理を行うことで文字
の認識率を向上させる。 【構成】 漢字と平仮名を含む各種の文字を読取るイメ
ージセンサと、CPUを備え、CPUにより、読取った
文字をあらかじめ記憶した文字パターンと比較し、複数
の文字候補として認識し、認識した文字候補の内の漢字
文字候補を漢字代表文字に置き換え、確率遷移行列を用
いて、漢字代表文字と平仮名文字候補から平仮名を決定
し、漢字代表文字から漢字を決定するよう構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、日本語OCR(光学
的文字読み取り装置)のような日本語文字認識装置に関
する。
【0002】
【従来の技術】日本語の文章には、英語の文章と違って
空白で区切られた単語という単位が存在しない。そこ
で、従来の日本語文字認識装置では、文字認識結果候補
を展開処理して文字列を作成し、その文字列に対して言
語辞書から最長一致法によって形態素を求め、最も妥当
な形態素が得られる文字列を選び出すことにより各文字
を決定するようにしている(特開昭59−078400号公報参
照)。
【0003】
【発明が解決しようとする課題】しかしながら、上記処
理方法では、(i) 言語辞書に登録されていないと、正し
い形態素を求めるのが困難であり、(ii)文字認識結果候
補そのものの信頼度が低い場合、それを用いて求めた形
態素の信頼度は更に低くなる、というような問題があ
る。
【0004】本発明では、英語文字認識で使用されてい
る確率遷移行列を日本語に応用する。1データ当たりn
バイトを使用する3文字の確率遷移行列では、 英語の場合 263 ×nバイト 日本語の場合 30003 ×nバイト のメモリーを使用する。そのため従来は、日本語文字認
識に確率遷移行列を用いるのは困難と考えられていた。
そこで、本発明においては、漢字を全て一つの代表文字
に置き換えて、文字種を数十種類に減らすことにより確
率遷移行列を使用する。また、漢字を他の文字との連結
性より幾つかの代表文字に置き換えて、文字種を数十種
類に減らすことにより確率遷移行列を使用する。さら
に、漢字をその代表読みから平仮名に置き換えて、文字
種を平仮名のみの数十種類に減らすことにより確率遷移
行列を使用する。
【0005】本発明は、このようにして確率遷移行列を
使用することにより、形態素を用いることなく言語処理
を行うようにした日本語文字認識装置を提供するもので
ある。
【0006】
【課題を解決するための手段】図1は請求項1の発明の
構成を示すブロック図であり、図に示すように、請求項
1の発明は、漢字と平仮名を含む各種の文字を読取る読
取り手段101 と、読取り手段101 で読取った文字をあら
かじめ記憶した文字パターンと比較し、複数の文字候補
として認識する認識手段102 と、認識手段102 によって
認識された複数の文字候補から各文字を決定するに際
し、漢字文字候補を漢字代表文字に置き換える漢字置き
換え手段103 と、確率遷移行列を用いて、漢字代表文字
と平仮名文字候補から平仮名を決定する平仮名決定手段
104 と、あらかじめ記憶した言語辞書を検索することに
より、漢字代表文字から漢字を決定する漢字決定手段10
5 と、を備えてなる日本語文字認識装置である。
【0007】なお、漢字置き換え手段103 は、漢字文字
候補を全て一つの漢字代表文字に置き換えるものであっ
てもよいし、漢字文字候補を他の文字との連結性より幾
つかの漢字代表文字に置き換えるものであってもよい。
【0008】また、図2は請求項4の発明の構成を示す
ブロック図であり、図に示すように、請求項4の発明
は、漢字と平仮名を含む各種の文字を読取る読取り手段
101 と、読取り手段101 で読取った文字をあらかじめ記
憶した文字パターンと比較し、複数の文字候補として認
識する認識手段102 と、認識手段102 によって認識され
た複数の文字候補から各文字を決定するに際し、漢字文
字候補をその代表読みから平仮名に置き換える平仮名置
き換え手段106 と、平仮名置き換え手段106 によって置
き換えられて平仮名文字候補のみとなった文章に確率遷
移行列を用いて各平仮名を決定する平仮名決定手段107
と、平仮名置き換え手段106 によって置き換えられた平
仮名を元の漢字に戻すことにより漢字を決定する漢字決
定手段108と、を備えてなる日本語文字認識装置であ
る。
【0009】
【作用】請求項1の発明によれば、漢字文字候補を漢字
代表文字に置き換えることによって確率遷移行列を用い
ることができるようにし、この確率遷移行列を用いて、
漢字代表文字と平仮名文字候補から平仮名を決定し、さ
らに漢字代表文字から漢字を決定するので、文字認識結
果候補の信頼度が低くても、その前後の文字より正しい
文字を推定することができ、文字の認識率が向上する。
また、請求項4の発明によれば、漢字文字候補を平仮名
に置き換えることによって確率遷移行列を用いることが
できるようにし、この確率遷移行列を用いて、各平仮名
を決定し、さらに置き換えた平仮名文字を元の漢字に戻
すことにより漢字を決定するので、文字認識結果候補の
信頼度が低くても、その前後の文字より正しい文字を推
定することができ、文字の認識率が向上する。
【0010】
【実施例】以下、図面に示す実施例に基づいてこの発明
を詳述する。なお、これによってこの発明が限定される
ものではない。
【0011】図3はこの発明の一実施例の構成を示すブ
ロック図である。この図において、1はCPU、2は漢
字代表文字変換部、3は存在確率計算部、4は言語辞書
検索部、5は文字列バッファ、6は文字認識結果候補バ
ッファ、7はシステム全体を制御するセントラルプロセ
ッサからなる制御部、8は確率遷移行列を演算するプロ
セッサからなる確率遷移行列演算部、9はROMからな
る言語辞書である。漢字代表文字変換部2、存在確率計
算部3、言語辞書検索部4は、それぞれプロセッサから
構成されており、文字列バッファ5、文字認識結果候補
バッファ6は、それぞれRAMから構成されている。文
字認識結果候補バッファ6には、イメージセンサ(図示
しない)によって読取られた漢字と平仮名を含む各種の
文字が文字パターンと比較され、複数の文字候補として
認識された文字認識結果候補が格納されている。
【0012】CPU1は、漢字代表文字変換部2によ
り、文字認識結果候補バッファ6に格納された各文字の
認識結果のうち、漢字と認識されているものを一つの漢
字代表文字に置き換えて新しい認識結果候補を作り、存
在確率計算部3により、漢字代表文字変換部2で置き換
えた認識結果候補を展開処理して文字列を作り、確率遷
移行列演算部8による確率遷移行列を用いてその文字列
の存在確率を求めて、文字列バッファ5へ格納する。次
に、文字列バッファ5より、存在確率の最も高い文字列
を正解として選択する。これにより、平仮名が確定す
る。そして、漢字代表文字を元の認識結果候補に戻し、
漢字代表文字が連続する場合には言語辞書検索部4によ
り、最適な漢字の組み合わせを決定する。
【0013】漢字代表文字変換部2で置き換える一つの
漢字代表文字とは、全ての漢字文字候補の代わりに用い
られる、仮想の文字である。例えば、ある文章を認識し
た結果、次の様な認識結果候補が得られたとする。 第1候補 木日は晴大ない 第2候補 本目 天た夕 第3候補 に り 漢字代表文字を□として置き換えた場合、上の認識結果
候補は次の様に変換される。 第1候補 □□は□□ない 第2候補 に た□ 第3候補 り
【0014】なお、漢字代表文字変換部2では、各文字
の認識結果のうち、漢字と認識されているものを一つの
漢字代表文字に置き換えるが、この置き換えについて
は、漢字と認識されているものを数種の漢字代表文字に
置き換えるようにしてもよい。
【0015】すなわち、この場合の数種の漢字代表文字
とは、他の文字との連結性から漢字文字候補に置き換え
て用いられる、仮想の文字である。例えば、ある文章を
認識した結果、次の様な認識結果候補が得られたとす
る。 第1候補 不連読性については木確認 第2候補 す 続 非 な未 第3候補 あ
【0016】ここで漢字代表文字を、接頭語となりやす
い漢字(非、不など)をP、接尾語になりやすい漢字
(性、度など)をS、それ以外の漢字をKとして置き換
えた場合、上の認識結果候補は次の様に変換される。 第1候補 PKKSについてはKKK 第2候補 す P なP 第3候補 あ
【0017】存在確率計算部3で行う存在確率の計算
は、以下のように行う。n文字の確率遷移行列とは、全
ての文字種のn個の組合せの、教師文章中での出現頻度
を表したものであり、各出現頻度は次式で求められる。 C(W1,W2,…,Wn)=N(W1,W2,…,Wn) /N
total C(W1,W2,…,Wn):文字W1,W2,…,Wnの組み合わ
せの出現頻度 N(W1,W2,…,Wn):文字W1,W2,…,Wnの組み合わ
せの出現回数 Ntotal :全ての文字の組み合わせの出
現回数
【0018】認識処理によって得られた文字列W=W1,
2,…,Wnの生起確率P(W)は、2文字の確率遷移行
列と3文字の確率遷移行列を用いて次式で求められる。
【0019】なお、文字認識結果候補バッファ6に格納
された複数の文字認識結果候補から各文字を決定するに
際し、漢字文字候補をその代表読みから平仮名に置き換
えて、平仮名文字候補のみとなった文章に確率遷移行列
を用いて各平仮名を決定し、置き換えた平仮名を元の漢
字に戻すことにより漢字を決定するようにしてもよい。
【0020】この場合、代表読みとは、各漢字について
あらかじめ決められている読み方である。この読み方
は、その漢字の使われ方(単独で、あるいは熟語とし
て)に関係無くただ一通りに決められる。認識によって
得られた漢字文字候補は、その前後のつながりに関係無
くこの代表読みで平仮名に一時的に置き換えられ、確率
遷移行列で用いられる。この代表読みには通常はその漢
字の音読みの1つを使用する。 (例) 行進 → 〔こう〕〔しん〕 行く → 〔こう〕く 進む → 〔しん〕む 明日は遠足に行く →〔みょう〕〔にち〕は〔えん〕
〔そく〕に〔こう〕く
【0021】次に、このような実施例の動作を図4及び
図5に従い説明する。図4は漢字文字候補を漢字代表文
字に変換して漢字を決定する場合の言語処理フローチャ
ートである。このフローチャートにおける開始状態は、
各文字の認識結果候補がすでに求められた状態である。
まず、各文字の認識結果候補のうち、漢字と認識されて
いるものを一つの漢字代表文字、又は他の文字との連結
性より、ある漢字代表文字に置き換えて、新しい認識結
果候補を作る(ステップ41)。次に、その認識結果候補
を展開処理して文字列を作り、確率遷移行列よりその文
字列の存在(生起)確率を求めて、文字列バッファ5へ
格納する(ステップ42)。その後、文字列バッファ5よ
り、存在確率の最も高い文字列を正解として選択する
(ステップ43)。これにより、平仮名が確定する。そし
て、漢字代表文字を元の認識結果候補に戻し、漢字代表
文字が連続する場合には言語辞書検索を用いて最適な漢
字の組み合わせを決定する(ステップ44)。
【0022】図5は漢字文字候補を代表読みより平仮名
に変換して漢字を決定する場合の言語処理フローチャー
トである。このフローチャートにおいても、開始状態
は、各文字の認識結果候補がすでに求められた状態であ
る。まず、各文字の認識結果候補のうち、漢字と認識さ
れているものを代表読みから平仮名に置き換えて、新し
い認識結果候補を作る(ステップ51)。次に、その認識
結果候補を展開処理して文字列を作り、確率遷移行列よ
りその文字列の存在(生起)確率を求めて、文字列バッ
ファ5へ格納する(ステップ52)。その後、文字バッフ
ァ5より、存在確率の最も高い文字列を正解として選択
する(ステップ53)。これにより、平仮名が確定する。
そして、確定した平仮名のうち、代表読みによって置き
換えた平仮名を元の漢字に置き換える(ステップ54)。
【0023】このようにして、確率遷移行列より文字列
の存在確率を求めて日本語を認識する。
【0024】
【発明の効果】日本語文字認識に確率遷移行列を応用す
ることにより、言語辞書に登録されていない単語の認識
が可能となり、また文字認識結果候補の信頼度が低くて
も、その前後の文字より正しい文字を推定することで、
文字の認識率が向上する。
【図面の簡単な説明】
【図1】請求項1の発明の構成を示すブロック図。
【図2】請求項4の発明の構成を示すブロック図。
【図3】本発明の一実施例の構成を示すブロック図。
【図4】実施例の動作を示すフローチャート。
【図5】実施例の動作を示すフローチャート。
【符号の説明】
1 CPU 2 漢字代表文字変換部 3 存在確率計算部 4 言語辞書検索部 5 文字列バッファ 6 文字認識結果候補バッファ 7 確率遷移行列演算部 8 言語辞書

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 漢字と平仮名を含む各種の文字を読取る
    読取り手段と、 読取り手段で読取った文字をあらかじめ記憶した文字パ
    ターンと比較し、複数の文字候補として認識する認識手
    段と、 認識手段によって認識された複数の文字候補から各文字
    を決定するに際し、漢字文字候補を漢字代表文字に置き
    換える漢字置き換え手段と、 確率遷移行列を用いて、漢字代表文字と平仮名文字候補
    から平仮名を決定する平仮名決定手段と、 あらかじめ記憶した言語辞書を検索することにより、漢
    字代表文字から漢字を決定する漢字決定手段と、を備え
    てなる日本語文字認識装置。
  2. 【請求項2】 漢字置き換え手段が、漢字文字候補を全
    て一つの漢字代表文字に置き換える単一漢字代表文字置
    き換え手段からなる請求項1の日本語文字認識装置。
  3. 【請求項3】 漢字置き換え手段が、漢字文字候補を他
    の文字との連結性より幾つかの漢字代表文字に置き換え
    る数種漢字代表文字置き換え手段からなる請求項1の日
    本語文字認識装置。
  4. 【請求項4】 漢字と平仮名を含む各種の文字を読取る
    読取り手段と、 読取り手段で読取った文字をあらかじめ記憶した文字パ
    ターンと比較し、複数の文字候補として認識する認識手
    段と、 認識手段によって認識された複数の文字候補から各文字
    を決定するに際し、漢字文字候補をその代表読みから平
    仮名に置き換える平仮名置き換え手段と、 平仮名置き換え手段によって置き換えられて平仮名文字
    候補のみとなった文章に確率遷移行列を用いて各平仮名
    を決定する平仮名決定手段と、 平仮名置き換え手段によって置き換えられた平仮名を元
    の漢字に戻すことにより漢字を決定する漢字決定手段
    と、を備えてなる日本語文字認識装置。
JP3218951A 1991-08-29 1991-08-29 日本語文字認識装置 Pending JPH0554197A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3218951A JPH0554197A (ja) 1991-08-29 1991-08-29 日本語文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3218951A JPH0554197A (ja) 1991-08-29 1991-08-29 日本語文字認識装置

Publications (1)

Publication Number Publication Date
JPH0554197A true JPH0554197A (ja) 1993-03-05

Family

ID=16727897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3218951A Pending JPH0554197A (ja) 1991-08-29 1991-08-29 日本語文字認識装置

Country Status (1)

Country Link
JP (1) JPH0554197A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing

Similar Documents

Publication Publication Date Title
US7440889B1 (en) Sentence reconstruction using word ambiguity resolution
KR100582968B1 (ko) 문자열 입력 장치 및 방법
KR20160105400A (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
JP2765665B2 (ja) タイポグラフィカル情報付き文書の翻訳装置
JP2001092485A (ja) 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
US7136803B2 (en) Japanese virtual dictionary
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
US6968308B1 (en) Method for segmenting non-segmented text using syntactic parse
JP3309174B2 (ja) 文字認識方法及び装置
JPH0554197A (ja) 日本語文字認識装置
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
JP5445244B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2006031099A (ja) 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム
JP2006194952A (ja) 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置
JPH0380363A (ja) 文書処理装置
JPH0546612A (ja) 文章誤り検出装置
JP2001318595A (ja) 点字変換システム
CN115310458A (zh) 一种人名翻译方法、系统、设备及计算机可读存储介质
JPH0350668A (ja) 文字処理装置
JPH11238061A (ja) 日本語テキスト解析方法