JPS60217490A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS60217490A
JPS60217490A JP59073425A JP7342584A JPS60217490A JP S60217490 A JPS60217490 A JP S60217490A JP 59073425 A JP59073425 A JP 59073425A JP 7342584 A JP7342584 A JP 7342584A JP S60217490 A JPS60217490 A JP S60217490A
Authority
JP
Japan
Prior art keywords
character
word
virtual
dictionary
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59073425A
Other languages
English (en)
Other versions
JPH0682402B2 (ja
Inventor
Yoshiaki Kurosawa
由明 黒沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59073425A priority Critical patent/JPH0682402B2/ja
Publication of JPS60217490A publication Critical patent/JPS60217490A/ja
Publication of JPH0682402B2 publication Critical patent/JPH0682402B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の技術分野〕 本発明は入力文字パターン列を簡易に、且つ効果的に認
識することのできる文字認識装置に関する。
〔発明の技術的背景とその問題点〕
情報処理技術の発達に伴い、印刷・手書き入力された文
字パターン列、或いは音声入力された文字パターン列か
らなる単語データを認識し、その認識結果を計算機シス
テムに取込むことが行われている。この単語データの認
識処理は、基本的には上記単語データを構成する文字列
の各文字の特徴を検出して行われるが、個々の文字認識
結果を単に組合わせるだけでは精度の高い認識結果が得
られないことが多い。例えば入力文字列中のある文字に
ついて正しい認識結果が得られなかった場合には、上記
入力文字列が示す単語全体の認識結果が得られなくなる
そこで従来では、例えば個々の文字認識結果で示される
入力文字列情報と、単語辞書に予め登録された認識対象
単語の各文字との類似度をそれぞれめ、これらの類似度
を総合的に評価して上記入力文字列全体の認識結果を得
ることが行われている。
このような処理方式によれば、前述したように入力文字
列中に正しい文字認識結果が得られない文字が存在して
いても、その人力文字列全体から単語データを認識する
ことが可能となる。
然し乍ら、認識処理に供せられる入力文字列は、例えば
一般文章のように必ずしも単語単位に分割されていない
ことが多い。この為、上述した単語単位の処理だけでは
これに対処することができず、例えばオペレータの判断
によりて、入力文字列の文脈からその文字に対する正し
い認識結果を推定することが必要であった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力文字パターン列から処理単
位となる単語を明確に抽出することができない場合であ
っても、その認識処理を効率良く、高精度に実行するこ
とのできる文字認識装置を提供することにある。
〔発明の概要〕
本発明は、入力文字パターン列の各文字パターンに対し
てそれぞれめられた文字認識結果の列で示される入力文
字列中から、上記入力文字列中の冒頭文字、または既に
出力すべき認識結果を(qた入力文字の次の入力文字か
ら連続するn(1゜2、〜N)文字としてその文字数を
相互に異ならせた複数の連続文字列を仮想単語として選
択し、これらの各仮想単語と単語辞書メモリに予め登録
された複数の辞書単語との類似度をそれぞれめ、これら
の類似度値から上記各仮想単語と着像し得る辞書単語を
前記単語辞書メモリからそれぞれ選択すると共に、これ
らの選択された各辞書単語に対してめられた前記類似度
値を前記文字数の異なる仮想単語間で相互に比較し、単
gRとして最も信頼性の高い仮想単語を検出してその仮
想単語についてめられた前記辞書単語を認識結果として
出力するようにしたものである。
〔発明の効果〕
かくして本発明によれば、入力文字列を単語単位に明確
に分割できない場合であっても、その入力文字列中から
文字数の異なる複数の仮想単語を選択し、これらの各仮
想単語の辞書単語に対する類似度から単語として最も確
からしい仮想単語を選択して後処理を行うので、前記入
力文字列に対する正しい認識結果を簡易に、且つ効果的
に得ることが可能となる。しかも、入力文字列中から単
語として最も確からしい仮想単語を辞書単8Bに対する
類似度から自動的にめて文字認識結果に対する後処理を
行うので、入力文字列の文脈に関する判断をオペレータ
に委ねる必要がなく、オペレータに対する負担を大幅に
軽減し得る等の効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明する
第1図は実施例装置の概略構成図である。この実施例装
置は帳票1に印刷、或いは手書きされた文字パターン列
を光学的に読取って文字認識するものであり、上記帳票
1に記載された文字パターン列の情報は入力部2を介し
て画像データとして入力される。前処理部3は上記画像
データ中から雑音成分を除去し、各文字パターンの大き
さを正規化する等の前処理を行うと共に、入力画像パタ
ーンを検切処理して文字パターンを1文字毎に区分し、
且つ各文字パターンの特徴を抽出するものとなっている
。文字認識部4は文字辞書メモリ5に予め登録された標
準文字パターンの特徴情報と前記前処理部3でめられた
前記各文字の特徴とを照合してその文字認識結果をめて
おり、その文字認識結果を前記入力文字に対応して文字
認識結果バッファ6に格納している。尚、上記文字認識
部4における文字認識方式は、従来より知られている種
々の方式を適宜採用することができる。
しかして類似度計算部7は、前記文字認識結果バッファ
6に格納された入力文字列中から文字数の相互に異なる
複数の文字列を仮想単8Bとしてそれぞれ選択し、これ
らの各仮想単語と単語辞書メモリ8に予め登録された辞
書単語との類似度計算を行っている。この類似度計算は
、例えば入力文字列中のN文字からなる仮想単語の各文
字認識結果をRi (i=1.2〜N)とし、前記単語
辞書メモリ8に登録された辞書単語の各文字をAi(i
=1.2〜N)として、入力文字R1が文字Aiである
確からしさをP(Ai lRi )としたとき、 5=(1話P(Ai IRi ))P(A)なる計算に
よって類似度Sをめることによって行われる。尚、上記
P(A)は文字列Aiの出現頻度である。
尚、上記式の対数を取り、 S’ = IogS F(Ai lRi )−1ogP(Ai lRi >と
置換え、且つ前記出現頻度P(A)が一定であると着像
すと、類似度計算を S′−ΣF(AllRi> i=1 として簡易に実行することができる。
ところで、前記仮想単語の選択とその仮想単語と辞書単
語との類似度に暴く文字認識結果の後処理は次のように
して行われる。
仮想単語は、例えば前記文字認識結果バッファ6に格納
された入カバターンに対する文字認識結果の列、つまり
入力文字列に対して、その冒頭文字から連続するn(1
,2,〜N)文字からなる複数の文字列としてそれぞれ
設定される。つまり、その冒頭文字を文字数” 1 ”
の仮想単語とし、上記冒頭文字とその次の文字を文字数
“2″の仮想単語とし、更に上記冒頭文字から3文字目
までを文字数″3″の仮想単語とし、同様にして前記冒
頭文字からN文字目までの文字列を文字数11 N !
1の仮想単語として設定している。このようにしてめら
れた文字数を相互に異にする複数の仮想単語について、
前記辞書単語との間の類似度がそれぞれ計算される。し
かして、これらの各仮想単語の前記辞書単語に対する類
似度から、先ず各仮想単語として着像し得る辞書単語が
それぞれめられる。この処理によって仮想単語として着
像し得る辞書単語がめられなかった仮想単語については
、もはや仮想単語としての資格がないとして処理対象か
ら排除される。しかる後、これらの各仮想単語として着
像された辞書単語間で、その辞書単語を得るに至った類
似度値を相互に比較し、類似度値が最も高い仮想単語を
選択する。この仮想単語に対してめられた前記辞書単語
を、その認識出力結果として最も信頼性が高いとして選
択し、この辞書単語を前記入力文字列の該当仮想単語に
対する認識結果とする。
その後、上記認識結果を得た仮想単語を前記入力文字列
中から除去し、残された文字列に対して同様な処理を実
行する。
かくして、このような仮想単語の設定による文字認識結
果に対する後処理によれば、例えば第2図その処理概念
を示すように、入力文字列を順次効果的に後処理して正
しい認識結果を精度良く得ることが可能となる。
即ち、第2図は「今日は日本晴れ」なる入力文字列に対
する後処理を示すものであり、この場合、先ず第1段階
として「今」 「今日」 「今日は」「今日は日」 「
今日は日本」なる文字数を相互に異ならせた複数の仮想
単語が選択される。そして、これらの各仮想単語につい
てそれぞれ辞占単語との類似度が計算される。この例で
は、「今」なる仮想単語について類似度S1がめられ、
「今日」なる仮想単語について類似度S2がめられ、他
の仮想単語に対する該当辞書単SRは見出されない。
そこで前記2つの仮想単語の各類似度値S1゜S2を相
互に比較して、類似度値の高い仮想単語「今日」を前記
入力文字列の冒頭部分のu H結果としてめる。その後
、この処理によってめられた認識結果を示す文字列(仮
想単語)を前記入力文字列中から取除き、残され々文字
列に対して同様な処理を行う。この第2段階では「は」
 「は日」・「は日本」等の仮想単語が選択され、十分
な類似度値を得た仮想単語「は」が認識結果として選択
される。そして、第3段階では「日」 「日本」「日本
晴」 「日本晴れ」なる仮想単語がそれぞれ選択され、
その辞書単語に対する類似度から仮想単語「日本」が認
識結果として選択される。以下、この処理が入力文字列
の全てに対する認識結果がめられるまで、繰返し実行さ
れる。
以上説明したように本装置によれば、入力文字列に対す
る後処理を、上記入力文字列中から文字数の異なる複数
の仮想単語を選択し、これらの仮想単語と辞書生詰と照
合して単語として最も確からしい仮想単語を抽出しなが
ら、その認識結果をめることによって行うので、入力文
字列を単語単位に明確に区切ることができない場合であ
っても、これを効果的に認識して正しい認識結果を簡易
に、且つ精度良くめることが可能となる。しかも、入力
文字列に対する文脈の判断をオペレータに委ねることな
しに入力文字列を後処理することができる。故に、オペ
レータに対する負担、労力を大幅に軽減し、入カバター
ンに対する効果的な文字認識とその後処理を行って、高
い精度の認識結果を効率良く得ることが可能となる等の
実用上絶大なる効果が奏せられる。
尚、本発明は上述した実施例に限定されるものではない
。実施例では、文字入カバターンを光学的に画像入力し
て認識処理するものについて述べたが、タブレット装置
等を介して実時間的に筆記入力される文字入カバターン
や、音声入力された文字入カバターン(音韻情報)を認
識処理するものであっても良い。要するに本発明はその
要旨を逸脱しない範囲で種々変形して実施することがで
きる。
【図面の簡単な説明】
第1図は本発明の一実施例装置の概略構成図、第2図は
実施例装置における文字認識結果に対する後処理の概念
を示す図である。 1・・・帳票、2・・・入力部、3・・・前処理部、4
・・・文字認識部、5・・・文字辞書メモリ、6・・・
文字認識結果バッファ、7・・・類似度計算部、8・・
・単語辞書メモリ。 出願人代理人 弁理士 鈴江武彦 第1図

Claims (1)

  1. 【特許請求の範囲】 (1) 入力文字パターン列の各文字パターンに対する
    文字LWI結果をそれぞれめる手段と、これらの文字認
    識結果の列で示される入力文字列中から文字数を相互に
    異ならせた複数の仮想単語を選択する手段と、これらの
    各仮想単語と単語辞書メモリに予め登録された複数の辞
    書単晶Rとの類似度をそれぞれめる手段と、これらの類
    似度値から上記各仮想単語と着像し得る辞書単語を前記
    単語辞書メモリからそれぞれ選択し、これらの各辞書単
    語に対してめられた前記類似度値を前記文字数の異なる
    仮想単語間で相互に比較し、単語として最も信頼性の高
    い仮想単語を検出する手段と、この手段で検出された仮
    想単語についてめられた前記辞書単語を認識結果として
    出力する手段とを具備したことを特徴とする文字W&識
    装置。 (2文字数の異なる複数の仮想単語は、成る入力文字か
    ら連続するn(1,2,〜N)文字の連続文字列として
    選択されるものである特許請求の範囲第1項記載の文字
    認識装置。 (3)成る入力文字は、入力文字列中の冒頭文字、また
    は既に出力すべき認識結果を得た仮想単語の次の入力文
    字として設定されるものである特許請求の範囲第2項記
    載の文字認識装置。
JP59073425A 1984-04-12 1984-04-12 文字認識装置 Expired - Lifetime JPH0682402B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59073425A JPH0682402B2 (ja) 1984-04-12 1984-04-12 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59073425A JPH0682402B2 (ja) 1984-04-12 1984-04-12 文字認識装置

Publications (2)

Publication Number Publication Date
JPS60217490A true JPS60217490A (ja) 1985-10-31
JPH0682402B2 JPH0682402B2 (ja) 1994-10-19

Family

ID=13517863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59073425A Expired - Lifetime JPH0682402B2 (ja) 1984-04-12 1984-04-12 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0682402B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138411A (ja) * 2009-12-28 2011-07-14 Toshiba Corp パターン認識装置およびパターン認識方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144886A (ja) * 1983-12-31 1985-07-31 Ricoh Co Ltd 文字認識装置における後処理方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60144886A (ja) * 1983-12-31 1985-07-31 Ricoh Co Ltd 文字認識装置における後処理方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138411A (ja) * 2009-12-28 2011-07-14 Toshiba Corp パターン認識装置およびパターン認識方法

Also Published As

Publication number Publication date
JPH0682402B2 (ja) 1994-10-19

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
JP3848319B2 (ja) 情報処理方法及び情報処理装置
JP2739945B2 (ja) 音声認識方法
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
US20210365836A1 (en) Methods and systems for pre-optimizing input data for an ocr engine or other computer-implemented analysis process
CN111079794B (zh) 一种基于类别间相互融合的声音数据增强方法
EP0074769A1 (en) Recognition of speech or speech-like sounds using associative memory
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
US11394919B2 (en) Image processing apparatus, image processing method and medium
JPS60217490A (ja) 文字認識装置
CN115022733B (zh) 摘要视频生成方法、装置、计算机设备及存储介质
CN111210830B (zh) 基于拼音的语音唤醒方法、装置和计算机设备
JPH0654503B2 (ja) パタ−ン認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JPH028348B2 (ja)
JP3322536B2 (ja) ニューラルネットワークの学習方法および音声認識装置
JPS58186882A (ja) 手書き文字入力装置
JPH0795337B2 (ja) 単語認識方式
JPS60225273A (ja) 単語検索方式
JPS6095690A (ja) 文字読取装置
JPS6073697A (ja) 音韻辞書の作成方法
CN115661825A (zh) 一种文字识别方法和系统
JP2977244B2 (ja) 文字認識方法及び文字認識装置
CN116600176A (zh) 笔顺音视频生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term