JPH0757059A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0757059A
JPH0757059A JP5202258A JP20225893A JPH0757059A JP H0757059 A JPH0757059 A JP H0757059A JP 5202258 A JP5202258 A JP 5202258A JP 20225893 A JP20225893 A JP 20225893A JP H0757059 A JPH0757059 A JP H0757059A
Authority
JP
Japan
Prior art keywords
word
character
candidate
keyword
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5202258A
Other languages
English (en)
Inventor
Toshio Niwa
寿男 丹羽
Satoru Ito
哲 伊藤
Yoshihiro Kojima
良宏 小島
Koji Yamamoto
浩司 山本
Hidetsugu Maekawa
英嗣 前川
Kazuhiro Kayashima
一弘 萱嶋
泰治 〆木
Taiji Shimeki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP5202258A priority Critical patent/JPH0757059A/ja
Publication of JPH0757059A publication Critical patent/JPH0757059A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】文字認識部が認識できなかった文字を認識対象
文書のキーワードをもとに推定することにより、文字認
識率を向上すること。 【構成】文字認識部1で、文書画像10を認識して1文
字に付きN個の候補文字を出力し、候補文字集合11か
ら、単語辞書6、文法辞書7を用いて候補文節を求め、
文節評価値演算部で文節の語彙的及び文法的な正しさを
計算し、文節の評価値を基準として文節選択部5で文節
を選択し、修正文字列14を出力する。単語キーワード
抽出部23で単語キーワードを、複合語キーワード抽出
部22で複合語キーワードを抽出し、キーワード部分一
致検索部24で、長文字列単語辞書21、単語キーワー
ド、複合語キーワードと候補文字集合11との部分一致
を求める。候補単語付加部25は、キーワード部分一致
検索部24で検索された単語を候補単語集合12に追加
する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書などに記載されて
いる文章の文字を読み取って認識するための文字認識装
置に関するものである。
【0002】
【従来の技術】近年、データベースの発展に伴い、高速
で認識率の高い文字認識装置に対する要求が高まってい
る。
【0003】従来の文字認識装置としては、例えば、情
報処理学会論文誌Vol.30 No.11 pp.1394-1401に開示さ
れているものが知られている。図5はその従来の文字認
識装置を示すものである。1文字認識部1は、文書画像
10の中の文字を一文字づつ認識し、n個の候補文字を
候補文字集合11として出力する。文字修正部8は、単
語検索部2、単語辞書6、文節検索部3、文法辞書7、
文節評価値計算部4などにより構成され、上記文字認識
部1から1文字につきn個の候補文字を候補文字集合1
1として受けとる。文字修正部8内の単語検索部2で
は、その候補文字集合11の中から単語辞書6を用いて
候補単語集合12を得る。文節検索部3では、その候補
単語集合12から文法辞書7を使い、候補文節を選び出
して候補文節集合13を得る。文節評価値計算部4で
は、候補文節の毎に、文字認識部1の評価値と、単語の
頻度と、文字の長さなどを評価演算して、文節の確から
しさを示す文節評価値を導き出す。文節選択部5では文
節評価値に基づいて最も正しいと思われる文節を選択し
て、修正文字列14を得る。
【0004】以上のように、従来の文字認識装置では、
単語辞書6や文法辞書7を使うことにより、文字認識部
1だけでは判断が難しい文字を単語と文法の知識により
修正することができる。
【0005】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の文字認識装置では、文字認識部1から出力さ
れた認識文字の修正に利用している知識は、一般的な文
書についての単語と文法の知識である。ところが文書の
中には固有の特徴を持っているものも多数ある。例え
ば、特許の文書であれば特許に固有の単語が多く記載さ
れる。このように文書の内容によって文章の文体や使わ
れる単語の頻度などが異なっているのが普通であるが、
文書が持つこのような固有の情報は認識文字の修正のた
めに用いられていなかった。
【0006】さらに、従来手法では、修正には文字認識
部1から出力されるn個の候補文字から正しい文字を選
択するが、正解文字がn個の候補の中になければ、修正
は不可能であった。
【0007】したがって、以上のように従来の文字認識
装置の文字認識率は低いという課題がある。
【0008】本発明は、従来の文字認識装置の課題を考
慮し、従来よりも文字認識率をより高くすることができ
る文字認識装置を提供することを目的とするものであ
る。
【0009】
【課題を解決するための手段】本発明は、認識対象文書
の文字列を読み取って候補文字群を得る候補文字認識手
段と、単語辞書及び候補文字群から作成される候補文字
列によって候補単語群を得、その候補単語群及び文法辞
書によって候補文節群を得る単語文節検索手段と、その
候補文節群の語彙的及び文法的な正しさを考慮した評価
値を文節毎に演算する評価値演算手段と、その演算結果
に応じて、候補文節群から文節を選択し、その選択され
た文節により作成される選択文字列を出力する文節選択
手段と、その出力された選択文字列から所定の基準に基
づいてキーワードを抽出するキーワード抽出手段と、候
補文字群とキーワードとの間で部分一致検索を行う部分
一致検索手段と、その部分一致したキーワードを候補単
語として候補単語群に付加する候補単語付加手段とを備
え、その候補単語群を用いて前記読み取った文字列を認
識する文字認識装置である。
【0010】
【作用】本発明は、候補文字認識手段が認識対象文書の
文字列を読み取って候補文字群を得て、単語文節検索手
段が単語辞書及び候補文字群から作成される候補文字列
によって候補単語群を得、その候補単語群及び文法辞書
によって候補文節群を得て、評価値演算手段がその候補
文節群の語彙的及び文法的な正しさを考慮した評価値を
文節毎に演算し、その演算結果に応じて、文節選択手段
が候補文節群から文節を選択し、その選択された文節に
より作成される選択文字列を出力し、キーワード抽出手
段がその出力された選択文字列から所定の基準に基づい
て単語及び複合語のキーワードを抽出し、部分一致検索
手段が候補文字群とキーワードとの間で部分一致検索を
行い、候補単語付加手段がその部分一致したキーワード
を候補単語として候補単語群に付加し、その候補単語群
を用いて読み取った文字列の認識を行う。
【0011】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。
【0012】図2は、本発明の第1の発明の一実施例に
かかる文字認識装置の全体の構成を示す構成図である。
文字認識部1は、文書画像10より文字認識を行い、1
文字につき第1候補文字から第n候補文字までのn個の
候補文字を持つ候補文字集合11を出力する手段であ
る。
【0013】単語検索部2は、単語辞書6を検索するこ
とにより候補文字集合11の組み合せの中から、単語辞
書6に存在する単語と一致する候補文字の組み合せであ
る候補単語集合12を選び出す手段である。文節検索部
3は、文法辞書7を参照して候補単語集合12から文節
となりえる単語の組み合せの候補文節集合13を選び出
す手段である。文節評価値演算部4は、文節検索部3で
検索された文節の語彙的及び文法的な正しさを文節中の
単語の長さや頻度を基準として評価値を計算する手段で
ある。文節選択部5は、文節の候補の中で評価値の最も
大きい文節を選択し、修正文字列14として出力する手
段である。
【0014】単語誤訂正度演算部31は、修正文字列1
4から訂正された単語が、誤訂正である確からしさ、す
なわち単語誤訂正度を計算する手段である。リジェクト
文字決定部32は、単語誤訂正度演算部31が出力した
単語誤訂正度にもとづきリジェクト文字を決定する手段
である。
【0015】長文字列単語辞書21は一定の長さ以上の
文字列からなる単語だけからなる辞書である。部分一致
検索部33は長文字列単語辞書21に存在する単語と候
補文字集合との部分一致検索を行う手段である。例え
ば、長文字列単語辞書21に「ネットワーク」という単
語が存在している場合には、候補文字集合にある「ネ*
トワーク」、「ネット*ーク」、「ネッ***ク」など
が部分一致文字列として抽出される。候補単語付加部2
5は、部分一致した単語の中で、リジェクト文字となっ
ている文字をその文書の候補単語として候補単語集合1
2に付加する手段である。前述の例では、部分一致した
「ネ*トワーク」、「ネット*ーク」、「ネッ***
ク」が「ネットワーク」として候補単語集合12に付加
される。これによって、文字認識部1から出力されなか
った文字を候補内文字に入れることができる。
【0016】上述のような構成の文字認識装置は、次の
ようにして文字認識を行う。
【0017】まず、認識対象の文書画像10を文字認識
部1で文字認識して、1文字につき第1候補文字から第
n候補文字までのn個の候補文字を持つ候補文字集合を
出力する。
【0018】さらに、単語検索部2で、単語辞書6を検
索することにより候補文字集合11の組み合せの中か
ら、単語辞書6に存在する単語と一致する候補文字の組
み合せである候補単語集合12を選び出す。さらに、文
節検索部3で、文法辞書7を参照して候補単語集合12
から文節となりえる単語の組み合せである候補文節集合
13を選び出す。文節評価値演算部4は、文節検索部3
で検索された文節の語彙的及び文法的な正しさを文節中
の単語の長さや頻度などを基準として文節評価値を計算
する。文節選択部5は、文節評価値を求めた候補文節に
対して文節評価値を基準にして、正しい文節の組み合せ
を選択し修正文字列14を出力する。
【0019】次に、単語誤訂正度演算部31は、訂正単
語の長さ、単語中に含まれる文字の文字認識部1での評
価値、訂正文字と第1候補文字の文字認識部1での評価
値の差、単語を構成する文字の種類、訂正単語が正解で
ある統計確率などから単語誤訂正度を計算する。リジェ
クト文字決定部32は、訂正単語とその前後の単語の単
語誤訂正度などからリジェクト文字を決定する。
【0020】部分一致検索部33で長文字列単語辞書2
1と候補文字集合との部分一致検索を行う。計算量を少
なくするために、候補文字集合として文字認識部1から
上位の文字、例えば、1位のみを候補集合としてもよ
い。これは、文字認識部1が高い認識率を有していれば
問題がない。
【0021】次に、候補単語付加部25で、部分一致検
索部33で出力された単語とリジェクト文字決定部32
で出力された文字とを比較し、両者が一致している単語
を候補単語として候補単語集合12に付加する。
【0022】再び、文節検索部3と文節評価値演算部4
で、付加された候補単語から候補文節を検索し、文節評
価値を求める。さらに、文節選択部5で、文節の候補の
中で評価値の大きい文節を選択し、修正文字列14を出
力する。
【0023】次に、本発明の第2の発明の一実施例につ
いて説明する。図1にこの実施例の文字認識装置の全体
の構成を示す。
【0024】文字認識部1、単語検索部2、文節検索部
3、文節評価値演算部4、文節選択部5は、第1の発明
の実施例と同じであるのでその詳細は省略する。
【0025】単語キーワード抽出部23は、文節選択部
5の出力の修正文字列14から認識対象の文書の単語キ
ーワードを抽出し、単語キーワード集合を作成する。単
語キーワードの抽出は、例えば、文書中の単語の頻度と
一般の文書における単語の頻度との差から求める。複合
語キーワード抽出部22は、文節選択部5の出力の修正
文字列14から認識対象の文書の複合語キーワードを抽
出し、複合語キーワード集合を作成する。複合語キーワ
ードの抽出は、例えば、文書中の単語の共出現頻度から
求める。
【0026】キーワード部分一致検索部24は長文字列
単語辞書21に存在する単語、単語キーワード及び複合
語キーワードと候補文字集合との部分一致検索を行う。
例えば、単語キーワードに「認識」が抽出されていれ
ば、候補文字集合にある「認*」、「*識」が部分一致
文字列として抽出される。候補単語付加部25は、部分
一致した単語および複合語を、候補単語に付加する。前
述の例では、部分一致した「認*」や「*識」が「認
識」として候補単語集合12に付加される。これによっ
て、文字認識部1から出力されなかった文字を文字訂正
に用いることができる。
【0027】上記のような構成の文字認識装置の実施例
は次のようにして文字認識を行う。
【0028】まず、認識対象の文書画像10を文字認識
部1で文字認識して、1文字につき第1候補文字から第
n候補文字までのn個の候補文字を持つ候補文字集合を
出力する。
【0029】さらに、単語検索部2で、単語辞書6を検
索することにより候補文字集合11の組み合せの中か
ら、単語辞書6に存在する単語と一致する候補文字の組
み合せである候補単語集合12を選び出す。さらに、文
節検索部3で、文法辞書7を参照して候補単語集合12
から文節となりえる単語の組み合せである候補文節集合
13を選び出す。文節検索部3で検索された文節の語彙
的及び文法的な正しさを文節中の単語の長さや頻度など
を基準として文節評価値を計算する。文節評価値を求め
た候補文節に対して文節評価値を基準にして、文節選択
部5で正しい文節の組み合せを選択し修正文字列14を
出力する。
【0030】次いで、単語キーワード抽出部23で、修
正文字列14から単語キーワード集合を抽出する。複合
語キーワード抽出部22で、修正文字列14から複合語
キーワード集合を抽出する。
【0031】キーワード部分一致検索部24で長文字列
単語辞書21の単語、単語キーワード及び複合語キーワ
ードと候補文字集合との部分一致検索を行う。計算量を
少なくするために、候補文字集合として文字認識部1か
ら上位の文字、例えば、1位のみを候補集合としてもよ
い。これは、文字認識部1が高い認識率を有していれば
問題がない。
【0032】次に、候補単語付加部25で、キーワード
部分一致検索部24で出力された単語を候補単語として
候補単語集合12に付加する。
【0033】再び、文節検索部3と文節評価値演算部4
で、付加された候補単語から候補文節を検索し、文節評
価値を求める。さらに、文節選択部5で、文節の候補の
中で評価値の大きい文節を選択し、修正文字列14を出
力する。
【0034】これにより、文字認識部1における初めの
文字認識で認識できなかった文字も認識することができ
る。
【0035】次に、本発明の第3の発明の一実施例につ
いて説明する。図3にこの実施例の文字認識装置の全体
の構成を示す。
【0036】文字認識部1、単語検索部2、文節検索部
3、文節評価値演算部4、文節選択部5は、第1の発明
の実施例と同じであるのでその詳細は省略する。
【0037】単語キーワード抽出部23、複合語キーワ
ード抽出部22、候補単語付加部は、第2の発明の実施
例と同じであるのでその詳細は省略する。
【0038】キーワード部分一致検索部24は、長文字
列単語辞書21に存在する単語、単語キーワード及び複
合語キーワードと前記候補文字集合との部分一致検索を
行う。ただし、ここで部分一致に用いる候補文字集合
は、キーワード及び長文字列単語の種類と長さにもとづ
いて、文字認識部1の上位の候補文字のみに限定する。
さらに、キーワード及び長文字列単語の種類と長さにも
とづいて、部分一致しない文字の最大文字数を限定す
る。例えば、(表1)に示すように単語キーワード、複
合語キーワード、長文字列単語という種類と、単語の長
さによって、部分一致に用いる候補文字の順位といくつ
の文字が候補外文字でもよいかを決める。
【0039】
【表1】
【0040】(表1)では、例えば、複合語キーワード
が「現場学習」であれば、複合語キーワードの文字数4
であるので、第10候補文字までの候補文字集合と「現
場学習」との部分一致を求める。ただし、部分一致で一
致しない文字は1文字だけである。
【0041】上記のような構成の文字認識装置の実施例
は次のようにして文字認識を行う。
【0042】まず、認識対象の文書画像10を文字認識
部1で文字認識して、1文字につき第1候補文字から第
n候補文字までのn個の候補文字を持つ候補文字集合を
出力する。
【0043】さらに、単語検索部2で、単語辞書6を検
索することにより候補文字集合11の組み合せの中か
ら、単語辞書6に存在する単語と一致する候補文字の組
み合せである候補単語集合12を選び出す。さらに、文
節検索部3で、文法辞書7を参照して候補単語集合12
から文節となりえる単語の組み合せである候補文節集合
13を選び出す。文節検索部3で検索された文節の語彙
的及び文法的な正しさを文節中の単語の長さや頻度など
を基準として文節評価値を計算する。文節評価値を求め
た候補文節に対して文節評価値を基準にして、文節選択
部5で正しい文節の組み合せを選択し修正文字列14を
出力する。
【0044】次いで、単語キーワード抽出部23で、修
正文字列14から単語キーワード集合を抽出する。複合
語キーワード抽出部22で、修正文字列14から複合語
キーワード集合を抽出する。
【0045】キーワード部分一致検索部24で長文字列
単語辞書21、単語キーワード及び複合語キーワードと
単語の長さと種類にもとづいて求めた候補文字集合との
部分一致検索を行う。
【0046】次に、候補単語付加部25で、キーワード
部分一致検索部24で出力された単語を候補単語として
候補単語集合12に付加する。
【0047】再び、文節検索部3と文節評価値演算部4
で、付加された候補単語から候補文節を検索し、文節評
価値を求める。さらに、文節選択部5で、文節の候補の
中で評価値の大きい文節を選択し、修正文字列14を出
力する。
【0048】次に、本発明の第4の発明の一実施例につ
いて説明する。図4にこの実施例の文字認識装置の全体
の構成を示す。
【0049】文字認識部1、単語検索部2、文節検索部
3、文節評価値演算部4、文節選択部5、単語誤訂正度
演算部31、リジェクト文字決定部32は、第1の発明
の実施例と同じであるのでその詳細は省略する。
【0050】単語キーワード抽出部23、複合語キーワ
ード抽出部22、候補単語付加部25は、第2の発明の
実施例と同じであるのでその詳細は省略する。
【0051】キーワード部分一致検索部24は、長文字
列単語辞書21に存在する単語、単語キーワード及び複
合語キーワードと候補文字集合との部分一致検索を行
う。ただし、ここで部分一致に用いる候補文字集合は、
キーワード及び長文字列単語の種類と長さおよび修正文
字列のリジェクト文字部分であるかどうかにもとづい
て、文字認識部1の上位の候補文字のみに限定する。さ
らに、キーワード及び長文字列単語の種類と長さ及び修
正文字列のリジェクト文字部分であるかどうかにもとづ
いて、部分一致しない文字の最大文字数を限定する。例
えば、(表2)に示すように単語キーワード、複合語キ
ーワード、長文字列単語という種類と、単語の長さと、
修正文字列のリジェクト文字部分であるかどうかによっ
て、部分一致に用いる候補文字の順位といくつの文字が
候補外文字でもよいかを決める。
【0052】
【表2】
【0053】(表2)では、例えば、複合語キーワード
が「現場学習」で修正文字列のリジェクト部分であれ
ば、複合語キーワードで文字数が4でリジェクト部分で
あるので、第10候補文字までの候補文字集合と「現場
学習」との部分一致を求める。ただし、リジェクト部分
であるので部分一致で一致しない文字の最大文字数は2
文字である。
【0054】上記のような構成の文字認識装置の実施例
は次のようにして文字認識を行う。
【0055】まず、認識対象の文書画像10を文字認識
部1で文字認識して、1文字につき第1候補文字から第
n候補文字までのn個の候補文字を持つ候補文字集合を
出力する。
【0056】さらに、単語検索部2で、単語辞書6を検
索することにより候補文字集合11の組み合せの中か
ら、単語辞書6に存在する単語と一致する候補文字の組
み合せである候補単語集合12を選び出す。さらに、文
節検索部3で、文法辞書7を参照して候補単語集合12
から文節となり得る単語の組み合せである候補文節集合
13を選び出す。文節検索部3で検索された文節の語彙
的及び文法的な正しさを文節中の単語の長さや頻度など
を基準として文節評価値を計算する。文節評価値を求め
た候補文節に対して文節評価値を基準にして、文節選択
部5で正しい文節の組み合せを選択し修正文字列14を
出力する。
【0057】次いで、単語キーワード抽出部23で、修
正文字列14から単語キーワード集合を抽出する。複合
語キーワード抽出部22で、修正文字列14から複合語
キーワード集合を抽出する。
【0058】次に、単語誤訂正度演算部31で、訂正単
語の長さ、単語中に含まれる文字の文字認識部1での評
価値、訂正文字と第1候補文字の文字認識部1での評価
値の差、単語を構成する文字の種類、訂正単語が正解で
ある統計確率などから単語誤訂正度を計算する。リジェ
クト文字決定部32で、訂正単語とその前後の単語の単
語誤訂正度などからリジェクト文字を決定する。
【0059】キーワード部分一致検索部24で長文字列
単語辞書21、単語キーワード及び複合語キーワードと
単語の長さと種類および修正文字列のリジェクト部分で
あるかどうかにもとづいて求めた候補文字集合との部分
一致検索を行う。
【0060】次に、候補単語付加部25で、キーワード
部分一致検索部24で出力された単語を候補単語として
候補単語集合12に付加する。
【0061】再び、文節検索部3と文節評価値演算部4
で、付加された候補単語から候補文節を検索し、文節評
価値を求める。さらに、文節選択部5で、文節の候補の
中で評価値の大きい文節を選択し、修正文字列14を出
力する。
【0062】なお、本発明の各部は、コンピュータを用
いてソフトウェア的に実現し、あるいはそれら各機能を
有する専用のハード回路を用いて実現する事が出来る。
【0063】
【発明の効果】以上述べたところから明らかなように、
本発明の文字認識装置を使用することにより、文字認識
部で認識できなかった候補外文字がある場合において
も、候補外文字を推定することができ、文字認識率を向
上させることができる。
【図面の簡単な説明】
【図1】本発明の文字認識装置の第2の実施例の文字認
識装置の構成図
【図2】本発明の文字認識装置の第1の実施例の文字認
識装置の構成図
【図3】本発明の文字認識装置の第3の実施例の文字認
識装置の構成図
【図4】本発明の文字認識装置の第4の実施例の文字認
識装置の構成図
【図5】従来の文字認識装置の構成図
【符号の説明】
1 文字認識部 2 単語検索部 3 文節検索部 4 文節評価値演算部 5 文節選択部 6 単語辞書 7 文法辞書 8 文字修正部 10 文書画像 11 候補文字集合 12 候補単語集合 13 候補文節集合 14 修正文字列 21 長文字列単語辞書 22 複合語キーワード抽出部 23 単語キーワード抽出部 24 キーワード部分一致検索部 25 候補単語付加部 31 単語誤訂正度演算部 32 リジェクト文字決定部 33 部分一致検索部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山本 浩司 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 前川 英嗣 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 萱嶋 一弘 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 〆木 泰治 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を認識して1文字に付きN個の
    候補文字を出力する文字認識部と、その候補文字集合か
    ら単語辞書を用いて候補単語集合を求める単語検索部
    と、その候補単語集合から文法辞書を用いて候補文節を
    求める文節検索部と、その候補文節の語彙的及び文法的
    な正しさを計算する文節評価値演算部と、それら候補文
    節の評価値を基準にしてその中から文節を選択し修正文
    字列を出力する文節選択部と、修正された単語が誤訂正
    である確からしさを求める単語誤訂正度演算部と、その
    単語誤訂正度からリジェクト文字を決定するリジェクト
    文字決定部と、一定の長さ以上の文字列からなる単語だ
    けを登録した長文字列単語辞書と、その長文字列単語辞
    書に存在する単語と前記候補文字集合との間で部分一致
    検索を行う部分一致検索部と、その部分一致した単語の
    中で前記リジェクト文字となっている文字を前記候補単
    語として候補単語集合に付加する候補単語付加部とを備
    えたことを特徴とする文字認識装置。
  2. 【請求項2】 文書画像を認識して1文字に付きN個の
    候補文字を出力する文字認識部と、その候補文字集合か
    ら単語辞書を用いて候補単語集合を求める単語検索部
    と、その候補単語集合から文法辞書を用いて候補文節を
    求める文節検索部と、その候補文節の語彙的及び文法的
    な正しさを計算する文節評価値演算部と、それら候補文
    節の評価値を基準にしてその中から文節を選択し修正文
    字列を出力する文節選択部と、その修正文字列から認識
    対象の文書の単語のキーワードを抽出する単語キーワー
    ド抽出部と、前記修正文字列から認識対象の文書の複合
    語のキーワードを抽出する複合語キーワード抽出部と、
    前記単語キーワード及び複合語キーワードと前記候補文
    字集合との間で部分一致検索を行うキーワード部分一致
    検索部と、その部分一致した単語を候補単語として候補
    単語集合に付加する候補単語付加部とを備えたことを特
    徴とする文字認識装置。
  3. 【請求項3】 キーワード部分一致検索部が、一定の長
    さ以上の文字列からなる単語だけを登録した長文字列単
    語辞書を用いて、その長文字列単語辞書の単語、前記単
    語キーワード及び複合語キーワードと前記候補文字集合
    との間で部分一致検索を行うことを特徴とする請求項2
    記載の文字認識装置。
  4. 【請求項4】 キーワード部分一致検索部が、前記単語
    キーワード、複合語キーワードの種類と単語の長さにも
    とづいて決まる候補順位以上である文字認識部の候補文
    字集合と、前記単語キーワード、複合語キーワードの種
    類と単語の長さにもとづいて決まる部分一致しない文字
    の最大文字数にしたがって、部分一致検索を行うことを
    特徴とする請求項2記載の文字認識装置。
  5. 【請求項5】 キーワード部分一致検索部が、一定の長
    さ以上の文字列からなる単語だけを登録した長文字列単
    語辞書を用いて抽出した長文字列単語、前記単語キーワ
    ード、複合語キーワードの種類と単語の長さにもとづい
    て決まる候補順位以上である文字認識部の候補文字集合
    と、長文字列単語、単語キーワード、複合語キーワード
    の種類と単語の長さにもとづいて決まる部分一致しない
    文字の最大文字数にしたがって、部分一致検索を行うこ
    とを特徴とする請求項4記載の文字認識装置。
  6. 【請求項6】 文書画像を認識して1文字に付きN個の
    候補文字を出力する文字認識部と、その候補文字集合か
    ら単語辞書を用いて候補単語集合を求める単語検索部
    と、その候補単語集合から文法辞書を用いて候補文節を
    求める文節検索部と、その候補文節の語彙的及び文法的
    な正しさを計算する文節評価値演算部と、それら候補文
    節の評価値を基準にして文節を選択し修正文字列を出力
    する文節選択部と、修正された単語が誤訂正である確か
    らしさを求める単語誤訂正度演算部と、単語誤訂正度か
    らリジェクト文字を決定するリジェクト文字決定部と、
    前記修正文字列から認識対象の文書の単語のキーワード
    を抽出する単語キーワード抽出部と、前記修正文字列か
    ら認識対象の文書の複合語のキーワードを抽出する複合
    語キーワード抽出部と、前記単語キーワード及び複合語
    キーワードと前記候補文字集合との間で部分一致検索を
    行うキーワード部分一致検索部と、その部分一致した単
    語を候補単語として候補単語集合に付加する候補単語付
    加部とを備えたことを特徴とする文字認識装置。
  7. 【請求項7】 キーワード部分一致検索部が、前記単語
    キーワード、複合語キーワードの種類と単語の長さと修
    正文字列がリジェクト文字であるかどうかにもとづいて
    決まる候補順位以上である文字認識部の候補文字集合
    と、前記単語キーワード、複合語キーワードの種類と単
    語の長さと修正文字列がリジェクト文字であるかどうか
    にもとづいて決まる部分一致しない文字の最大文字数に
    したがって、部分一致検索を行うことを特徴とする請求
    項6記載の文字認識装置。
  8. 【請求項8】 キーワード部分一致検索部が、一定の長
    さ以上の文字列からなる単語だけを登録した長文字列単
    語辞書を用いて抽出した長文字列単語、前記単語キーワ
    ード、複合語キーワードの種類と単語の長さと修正文字
    列がリジェクト文字であるかどうかにもとづいて決まる
    候補順位以上である文字認識部の候補文字集合と、前記
    長文字列単語、単語キーワード、複合語キーワードの種
    類と単語の長さと修正文字列がリジェクト文字であるか
    どうかにもとづいて決まる部分一致しない文字の最大文
    字数にしたがって、部分一致検索を行うことを特徴とす
    る請求項7記載の文字認識装置。
JP5202258A 1993-08-16 1993-08-16 文字認識装置 Pending JPH0757059A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5202258A JPH0757059A (ja) 1993-08-16 1993-08-16 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5202258A JPH0757059A (ja) 1993-08-16 1993-08-16 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0757059A true JPH0757059A (ja) 1995-03-03

Family

ID=16454570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5202258A Pending JPH0757059A (ja) 1993-08-16 1993-08-16 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0757059A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834121B2 (en) 1999-12-22 2004-12-21 Nec Corporation Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
JP2020166770A (ja) * 2019-03-29 2020-10-08 日本電気株式会社 文字認識装置、文字認識方法およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834121B2 (en) 1999-12-22 2004-12-21 Nec Corporation Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
JP2020166770A (ja) * 2019-03-29 2020-10-08 日本電気株式会社 文字認識装置、文字認識方法およびプログラム

Similar Documents

Publication Publication Date Title
JP3041268B2 (ja) 中国語誤り検査(cec)システム
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
CN111832299A (zh) 一种中文分词系统
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
CN110888946A (zh) 一种基于知识驱动的查询的实体链接方法
JP4102153B2 (ja) インターネットを利用した文字認識の後処理装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2003242446A (ja) 文字列予測装置及び方法並びに当該方法を具現化するコンピュータ実行可能なプログラム
JPH0757059A (ja) 文字認識装置
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
US5689583A (en) Character recognition apparatus using a keyword
JP3350127B2 (ja) 文字認識装置
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3123181B2 (ja) 文字認識装置
JP3339879B2 (ja) 文字認識装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP3241854B2 (ja) 単語スペル自動補正装置
JP3916792B2 (ja) 音声認識装置