JP3123181B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP3123181B2
JP3123181B2 JP04014611A JP1461192A JP3123181B2 JP 3123181 B2 JP3123181 B2 JP 3123181B2 JP 04014611 A JP04014611 A JP 04014611A JP 1461192 A JP1461192 A JP 1461192A JP 3123181 B2 JP3123181 B2 JP 3123181B2
Authority
JP
Japan
Prior art keywords
phrase
character
unit
evaluation value
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04014611A
Other languages
English (en)
Other versions
JPH05205110A (ja
Inventor
寿男 丹羽
一弘 萱嶋
泰治 〆木
英嗣 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP04014611A priority Critical patent/JP3123181B2/ja
Priority to EP19930101079 priority patent/EP0553745A3/en
Publication of JPH05205110A publication Critical patent/JPH05205110A/ja
Priority to US08/652,845 priority patent/US5689583A/en
Application granted granted Critical
Publication of JP3123181B2 publication Critical patent/JP3123181B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字を読みとるための
文字認識装置に関するものである。
【0002】
【従来の技術】近年、データベースの発展に伴い、高速
で認識率の高い文字認識装置に対する要求が高まってい
る。
【0003】従来の文字認識装置としては、例えば、情
報処理学会論文誌Vol.30 No.11 pp.1394-1401に示され
ている。図4は従来の文字認識装置を示すものである。
文字修正部1は、文字認識部2から1文字につきn個の
候補文字を入力として受けとる。その候補文字列集合の
中から単語辞書や文法辞書を使い、候補文字を組み合わ
せて語彙的および文法的に正しい候補文節を選び出す。
候補文節の中で、最も正しいと思われる文節を選択し
て、文字認識装置の出力とする。
【0004】以上のように単語辞書や文法辞書を使うこ
とにより、文字認識部だけでは判断が難しい文字を単語
と文法の知識により修正することができる。
【0005】
【発明が解決しようとする課題】しかしながら、上記の
文字認識装置では、文字認識部から出力された認識文字
の修正に利用している知識は、単語と文法の一般的な知
識である。ところが文書は固有の特徴を持っている。例
えば、特許の文書であれば特許に固有の単語が多く記載
される。このように文書の内容によって文章の文体や使
われる単語が変わってくる。この文書の持っている固有
の情報は認識文字の修正のために用いられていなかっ
た。
【0006】本発明はこのような従来の課題を解決する
もので、文字認識率を高くすることを目的としている。
【0007】
【課題を解決するための手段】本発明は上記目的を達成
するために、一度文書を文字修正部で処理し修正文字列
を取り出す。そして、キーワード抽出部で修正文字列で
使われている単語からキーワードを抽出する。
【0008】さらに、このキーワードの情報を取り入れ
て文字修正部の文節評価値演算部で文節評価値を演算す
る。その文節評価値をもとに文節選択部で文節を選択し
修正文字列を出力する。
【0009】
【作用】本発明は上記した構成により、文書中のキーワ
ードを抽出できる。そのキーワード情報を用いて候補文
字の修正を行うので、文書の内容に即した文字の修正が
でき、文字認識率が向上する。
【0010】
【実施例】以下、本発明の第1の発明の一実施例につい
て説明する。図1にこの実施例の文字認識装置の構成を
示す。
【0011】文字認識部1は、文字の画像より文字認識
を行い、長さmの文字列で1文字につき第1候補文字か
ら第n候補文字までのn個の候補文字を持つ候補文字集
合を出力する。
【0012】文字修正部9は、入力として文字認識部か
ら候補文字集合を受け取り、候補文字集合の中から正し
い文字を選択し修正された文字列を出力する。単語検索
部2は、単語辞書7を検索することにより候補文字集合
の組み合わせの中から、単語辞書7に存在する単語と一
致する候補文字の組み合わせを選び出す。文節検索部3
は、文法辞書8を参照して文節となりえる単語の組み合
わせを選び出す。文節評価値演算部4は、文節検索部3
で検索された文節の語彙的および文法的な正しさを文節
中の単語の長さや頻度などを基準として評価値を計算す
る。文節選択部5は、文節の候補の中で評価値の大きい
文節を選択する。
【0013】キーワード抽出部6は、文字修正部9の出
力の修正文字列から認識対象の文書のキーワードを抽出
する。
【0014】上記の構成の文字認識装置において次のよ
うにしてキーワード抽出を行う。まず、認識対象の文書
を文字認識部1で処理し、候補文字集合を得る。次に、
文字修正部9で入力として受け取った候補文字集合から
単語や文法の辞書を用いて文字を選択し、修正された文
字列を出力する。この修正文字列中の文節の評価値をE
i(i=1,B)とする。ただし、Bは文書全体の文節の数で
ある。
【0015】キーワード抽出部6で、文字修正部9の出
力の修正文字列と修正文字列中の文節の評価値と単語の
一般的な頻度情報からキーワードを抽出する。例えば、
単語wに対するキーワードへのなり易さKwは、次の式
により求めることができる。
【0016】
【数1】
【0017】ただし、Siは文節iに含まれる文字列
を、Fwは単語wの一般的な頻度を表す。
【0018】(数1)で計算できるキーワードへのなり
易さKwを大きいものから順に求めることにより、キー
ワードが抽出できる。
【0019】本実施例により、ニューラルネットワーク
関連の文書からキーワードを抽出した結果が表1であ
る。
【0020】
【表1】
【0021】(表1)は、キーワードへのなり易さKw
の大きい順に単語を並べたものである。この表からわか
るように、文書の中に含まれるキーワードを抽出するこ
とができる。また、単語の頻度情報だけを利用すると
「こと」、「もの」などの頻出単語が抽出されるのであ
るが、このような「こと」、「もの」などの頻出単語が
キーワードとして抽出されず、文書の内容を表す単語だ
けがキーワードとして抽出されることがわかる。
【0022】このように本発明では、文書画像を文字認
識した結果のような間違いを含む文字列から、文節の評
価値と単語の一般的な頻度を用いることにより、入力の
間違いに影響されずに、キーワードを抽出することを可
能にした。
【0023】以上説明したように、本発明は、文書画像
から文字認識を行うと同時に自動的にキーワードの抽出
ができる。
【0024】なお、本実施例では文字列の語彙的および
文法的な正しさを文節単位で評価したものをキーワード
情報抽出のために用いたが、これは単語単位及び文章単
位で評価してもよい。
【0025】次に、本発明の第2の発明の実施例につい
て説明する。図2にこの実施例の文字認識装置の構成を
示す。
【0026】文字認識部1、単語検索部2、文節検索部
3、文節評価値演算部4、文節選択部5、キーワード抽
出部6は、第1の発明の実施例と同じである。
【0027】文節評価値演算部10は、文節検索部3で検
索された文節の語彙的および文法的な正しさを文節中の
単語の長さや頻度などとキーワード抽出部からのキーワ
ード情報を基準として評価値を計算する。文節選択部11
は、文節選択部5と同じものである。
【0028】上記の構成の文字認識装置において次のよ
うにして文字認識を行う。まず、認識対象の文書を文字
認識部1で処理し、候補文字集合を得る。次に、単語検
索部2で、単語辞書7に存在する単語と一致する候補文
字の組み合わせを選び出し、文節検索部3で、文法辞書
8を参照して文節となりえる単語の組み合わせを選び出
す。文節評価値演算部4で、文節検索部3で検索された
文節の評価値を計算する。文節選択部5で、文節の候補
の中で評価値を基準にして正しい文節を選択し、修正文
字列を出力する。この修正文字列中の文節の評価値をE
i(i=1,B)とする。ただし、Bは文書全体の文節の数で
ある。
【0029】キーワード抽出部6で、第1の発明と同様
にしてキーワードへのなり易さKwを計算する。
【0030】キーワード情報と文節検索部3で検索され
た文節から、文節評価値演算部10で再度文節の評価値を
計算する。このときに評価値の計算で使われる単語wの
頻度Fwに新たにキーワードの情報を含める。例えば、
キーワードの情報も含めた単語wの頻度の情報Fw'は、
次の式で求めることができる。
【0031】Fw'=aKw+bFw ただし、a,bは定数である。文節の語彙的および文法
的な正しさを文節中の単語の長さやキーワード情報も含
めた頻度などを基準としてもう一度評価値を計算しなお
す。文節選択部11で、文節の候補の中で評価値の大きい
文節を選択し、修正文字列を出力する。
【0032】本実施例により文字認識を行った結果の一
部を図3に示す。文字修正部9からの出力を1パス認識
結果とする。この結果からキーワード情報を求めたもの
を表1に示す。さらにキーワード情報を用いて文字修正
を行った結果が2パス認識結果である。図3では、「現
場学習機能を」という文字列に対して7つの文節が候補
に上がった。1パス認識結果では、「学習」という文節
が選択されなかったが、キーワード情報に「学習」とい
う単語が含まれるために、2パス認識結果では「学習」
という文節の評価値が上がり、正しく文字を修正するこ
とができた。このように、1パス認識結果、2パス認識
結果共に語彙的及び文法的に正しいものからキーワード
情報を用いることにより文書の内容に合った文字列を選
択することができた。
【0033】なお、本実施例では一度文字修正部で処理
した文字列からキーワードを抽出して、抽出したキーワ
ードの情報を用いてもう一度文字修正部で処理する2パ
ス認識を行ったが、さらにその認識の結果を用いてキー
ワードを抽出して再度文字修正部で処理を行うnパス認
識を行ってもよい。この場合、さらに正しいキーワード
情報が得られ認識率が向上する。
【0034】本実施例による文字認識の実験で、874文
字の文書に対してキーワード情報を用いることにより、
誤認識している箇所の内4箇所の文字列を正しく修正で
きた。さらに、長い文書に適用すれば、キーワード情報
を用いた効果がより表れると思われる。
【0035】これらの実施例で示したように一度文字修
正部で処理を行い、得られた修正文字列をもとにして、
キーワード情報を抽出することができる。このキーワー
ド情報を用いて文字修正を行うので、文字認識対象の文
書の内容によって文節選択の評価基準が変わり、文書の
内容に依存した文字認識ができ、文字認識の認識率を向
上することができる。
【0036】
【発明の効果】以上の実施例から明らかなように、本発
明の構成の文字認識装置を使用することにより、認識し
ている文書の内容に即した文字認識ができる。このため
認識対象の文章の特徴をとらえて文字認識を行うために
認識率が向上し、その実用的効果は大きい。
【図面の簡単な説明】
【図1】本発明の第1の実施例の文字認識装置の構成図
【図2】本発明の第2の実施例の文字認識装置の構成図
【図3】本発明の第2の実施例の実験結果出力図
【図4】従来の文字認識装置の構成図
【符号の説明】
1 文字認識部 2 単語検索部 3 文節検索部 4 文節評価値演算部 5 文節選択部 6 キーワード抽出部 7 単語辞書 8 文法辞書 9 文字修正部 10 文節評価値演算部 11 文節選択部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 前川 英嗣 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 特開 昭63−129489(JP,A) 特開 昭63−49928(JP,A) 特開 平3−198180(JP,A) 特開 平3−176763(JP,A) 特開 平1−255989(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/72 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書画像を認識して1文字に付きN個の候
    補文字を出力する文字認識部と、候補文字列の集合から
    語彙的及び文法的に正しい修正文字列を選択する文字修
    正部であって、単語辞書を検索することにより候補文字
    集合の組み合わせの中から単語辞書に存在する単語と一
    致する候補文字の組み合わせを選び出す単語検索部と、
    文法辞書を参照して文節となりえる単語の組み合わせを
    選び出す文節検索部と、文節検索部で検索された文節の
    評価値を計算する文節評価値演算部と、文節の候補の中
    で評価値の大きい文節を選択する文節選択部とを有する
    文字修正部と、前記修正文字列から修正文字列中の文節
    の評価値と単語の一般的な頻度情報を用いることにより
    認識対象の文書のキーワードを抽出するキーワード抽出
    部を備え、前記キーワード抽出部の出力に、キーワード
    情報を用いて候補文字列の集合に含まれる文節の語彙的
    及び文法的な正しさを計算する文節評価値演算部と、文
    節の評価値を基準にして文節を選択し修正文字列を出力
    する文節選択部とを接続した文字認識装置。
JP04014611A 1992-01-30 1992-01-30 文字認識装置 Expired - Fee Related JP3123181B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP04014611A JP3123181B2 (ja) 1992-01-30 1992-01-30 文字認識装置
EP19930101079 EP0553745A3 (en) 1992-01-30 1993-01-25 Character recognition apparatus
US08/652,845 US5689583A (en) 1992-01-30 1996-05-23 Character recognition apparatus using a keyword

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04014611A JP3123181B2 (ja) 1992-01-30 1992-01-30 文字認識装置

Publications (2)

Publication Number Publication Date
JPH05205110A JPH05205110A (ja) 1993-08-13
JP3123181B2 true JP3123181B2 (ja) 2001-01-09

Family

ID=11865998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04014611A Expired - Fee Related JP3123181B2 (ja) 1992-01-30 1992-01-30 文字認識装置

Country Status (1)

Country Link
JP (1) JP3123181B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0750486B2 (ja) * 1986-08-20 1995-05-31 松下電器産業株式会社 キ−ワ−ド抽出装置
JPS63129489A (ja) * 1986-11-19 1988-06-01 Fujitsu Ltd 漢字ocrにおける後処理方式
JPH03198180A (ja) * 1989-12-27 1991-08-29 Ricoh Co Ltd 文字認識の後処理方法

Also Published As

Publication number Publication date
JPH05205110A (ja) 1993-08-13

Similar Documents

Publication Publication Date Title
US8660834B2 (en) User input classification
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
US6757647B1 (en) Method for encoding regular expressions in a lexigon
JP3309174B2 (ja) 文字認識方法及び装置
JP3123181B2 (ja) 文字認識装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
JP3339879B2 (ja) 文字認識装置
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
US5689583A (en) Character recognition apparatus using a keyword
JP3350127B2 (ja) 文字認識装置
JP3274014B2 (ja) 文字認識装置および文字認識方法
JP3264961B2 (ja) 文字認識装置
Selvaramalakshmi et al. A novel PSS stemmer for string similarity joins
JPS61122781A (ja) 音声ワ−ドプロセツサ
KR100347055B1 (ko) 한국어 형태소 분석방법
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH0757059A (ja) 文字認識装置
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JP3001334B2 (ja) 認識用言語処理装置
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JP3085107B2 (ja) 文字認識装置
JPH05174194A (ja) 文字認識装置
JP2798747B2 (ja) 自然言語処理方式
JP3139624B2 (ja) 形態素解析装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees