JPS6077274A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPS6077274A
JPS6077274A JP59171017A JP17101784A JPS6077274A JP S6077274 A JPS6077274 A JP S6077274A JP 59171017 A JP59171017 A JP 59171017A JP 17101784 A JP17101784 A JP 17101784A JP S6077274 A JPS6077274 A JP S6077274A
Authority
JP
Japan
Prior art keywords
characters
character
pronunciation
image data
katakana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59171017A
Other languages
English (en)
Other versions
JPH0432430B2 (ja
Inventor
グレゴリー・マーチン・ベツドナー
ジヨージ・バーナード・フライヤー
マンスリ・セルヴアブライ・ナラシマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS6077274A publication Critical patent/JPS6077274A/ja
Publication of JPH0432430B2 publication Critical patent/JPH0432430B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、区別的発音筒が付加される可能性のある文字
または記号を、光学式文字認識装置を用いて認識するた
めの文字認識方法に関する。
「従来技術] 人間の伝達手段である言語は、アルファベットに構成す
る記号のセラ1へを使用している2、こうした記号のう
ちあるものは、区別的発音筒と呼ばれる符号を付加する
ことによって変更される場合がある。区別的発音筒はそ
の言語の規則に従って所望の位置に付加される。こうし
た区別的発音筒は、例えば記号すなわち基本文字に付加
されてその発音を変更することもある。
日本の表音文字であるカタカナは、こうしたタイプのア
ルファベラ1−である。本発明を記述するために、カタ
カナを例として用いるが、本発明はもちろんこれに限定
されるものではない。
文字認識装置は、従来区別的発音筒を有する文字と区別
的発音筒を有しない文字との差異を認識するための特別
の手段が必要であると考えられてきた。米国特許第37
10321号はそうした例を示すものである。この例で
は、中央、水平行領域がアルファベラ1−の主要文字す
なわち基本記号を有している。こうした主要文字のうち
あるものはその−に1部領域または下部領域に区別的発
音性を伴う場合がある。主要文字を垂直走査しその文字
が区別的発音性を有しているということがわかると、次
の主要文字の垂直走査を一時中断して区別的発音性を有
する文字の」二部または下部(場合によって異なる)の
区別的発音符頭域の走査を準備する。その後、主要文字
の走査を続行しながら、上部または下部の区別的発音性
を識別するための特別な論理が付勢されて、区別的発音
符頭域が走査される。
日本のアルファベットであるカタカナおよびひらがなの
うち、カタカナは、文字認識装置によって日本語をデー
タ処理装置に入力する為の通常の手段となっている。カ
タカナ音は、母音A(ア)、■ (イ)、U(つ)、E
(1)、およびO(オ)と5子音に、S、T、N、I−
T、M、Y、R1およびWを組合せて一音節を形成する
。ただしYl、YE、WI、WU、およびWEの組合せ
は除外する。A、■、U、E、○、およびNはこれ自体
で発音され、これらはまたカタカナに含まれる。見本記
号のあるものの発音は、区別的発音性(n’。
濁点、° ;半濁点)を基本記号のすぐ右」二に付加す
ることによって変更されることもある。さらに長音記号
(−)を基本記号の後に付記することによってその発音
が変更される場合もある。2つの区別的発音性および長
音記号を基本記号に組合せることによってカタカナは全
部で72文字に拡張される。区別的発音性が付加された
カタカナ文字すなわち濁音文字および半濁音文字を総称
してここでは特に゛′修飾文字″と呼び、区別的発音性
が付加されていないカタカナ文字を“非修飾文字″と呼
ぶことにする。
カタカナは文字の数が多いので、手動によるデータ処理
装置への入力は、時間がかかり、面倒であり、かつ非経
済的である。従来から1手書きカタカナ文字を自動的に
読み取る光学式文字認識(OCR)機械が開発されてき
た。しかしながら、修飾文字が複雑であること、および
、区別的発音性の位置が基本記号に近接すること、とい
う理由から、こうしたOCR機械は、区別的発音性が基
本記号から明確に分離するように区別的発音符自身の文
字空間に分離した符号としてそれを書き込むようにしな
ければならない。従って、OCR[械は46個の基本的
な非修飾文字と、分離しかつ独立した2つの区別的発音
性しか読み取ることができず、区別的発音性が本来の形
式(右」二に近接)に従って(J加された25個の修飾
文字を読み取ることはできない。従って、こうしたO 
CR機械の場合は、カタカナの通常の規則とは異なる特
別の規則を用いた一H式を使用しなければならない。
ところで、本来の形式に従って修飾文字を認識する従来
技術もあるが、そうした従来の文字認識技術は、文書か
ら読み取った未知文字イメージと、標準的な大ぎさを有
する既知の文字イメージとを比較して、その大きさを規
格化するという操作を行う。修飾文字は、一般的に、非
修飾文字よりも大きい場合が多いので、修飾文字は規格
化により相対的に小さくなる。区別的発音性は1通゛ト
(′、基本文字よりも小さいので、規格化によってその
解像度が落ちる。従って区別的発音性の認識の信頼性が
低くなる。
[発明が解決しようとする問題点コ 従来技術は、区別的発音性が本来の書式に基づいて書か
れた文字の認識の信頼性という点で問題があった。
本発明はこの問題を解決するものである。
[問題点を解決するための手段] 本発明は、未知の文字およびそれに付加される区別的発
音性を高信頼に識別する方法を提供するものである。本
発明は、カタカナ文字において、区別的発音性が本来の
近接した形式で書かれている場合、又は通常のOCR機
械の要求する制限のもとて基本文字と分離して書かれて
いるような場合のいずれにも用いることができる。本発
明により、72個のすべてのカタカナ文字および2つの
区別的発音性(独立した記号として基本文字と分離して
いる)を、特別な規則を必要とせず、認識することがで
きる。カタカナの規則に基づし)で一般的に書かれた文
字の認識が可能となるように光学式文字認識の能力を拡
張することができる。さらに、本発明は、新たな映像事
前処理技術、包含的ピッ1へコーディング、特殊な区別
的発音性の大ぎさill!l定、認識結果の一意的符号
化、および区別的発音性を含む文字のための事後処理検
証を有していてもよい。
未知文字(区別的発音性を伴う文字を含んでし1てもよ
い)認識のためのデータ処理方法は、区別的発音性を含
む場合がある未知文字のイメージデータを記憶するステ
ップを有する。記憶されたイメージデータから、所定の
局所的な領域のデータを抽出する。この局所的な領域は
、区別的発音性の存在すべき場所に対応している。こう
して抽出された区別的発音筒イメージデータと、記憶さ
れている未知文字のイメージデータの少なくとも一部と
を検査してその文字を認識する。例えば、カタカナの場
合、区別的発音性はその文字の右上側に位置している。
従ってカタカナの場合は、未知文字の右上側に対応する
領域のイメージデータが抽出され、認識のための検査が
行われる。詳述すれば、抽出されたイメージデータを、
さらに、その領域内で右り隅に位置調整し、@査過程お
よび認識過程の間は規格化しないでおく。一方、未知文
字のイメージデータは規格化されて、カタカナ文字認識
のための検査が行われる。
次に、イメージデータの映像事前処理について述べる。
区別的発音性が付加された文字は、通常、その文字にそ
れが付加されない場合に比べて幅が広い。この差異を利
用して、初めに、修飾文字と非修飾文字とを区分する。
1行の未知文字全体が2それらを読む方向と平行に走査
される。そうして1行の未知文字に対する水平方向のプ
ロファイルが生成される。生成されたプロファイルデー
タに対して論理的な検査を行い、そのプロファイルを、
次のようにして、未知文字(区別的発音性を含む)を表
わす個々のセグメントに区分する。文字と文字とのすき
間(分離領域と呼ぶ)を″切出し点″によって調べる。
分離領域が存在すると予想される所に″切出し点″を持
っていき、そこに分離領域が存在するかどうかを調べる
。″切出し点″が予想された分離領域に入っていれば、
その切出しは確定する(すなわち文字と文字との区分が
行われる)。分離領域が存すると予想される所に″切出
し点″を移動させても、そこで水平方向のプロファイル
が連続していれば(すなわちそこに分離領域が存在しな
い;隣接する文字が重なり合っているような場合)、″
切出し点″の位置を次のように調整する。″切出し点″
の位置を右方向に所定の距離だけ進行させる。この所定
の距離の範囲内でプロファイルが不連続になれば(すな
わちその範囲内で″切出し点″が分離領域に入れば)、
その場所で切出しが確定する。このようにして当該文字
の範囲を拡張して当該文字を切出す(拡張部分に区別的
発音性が存在する可能性があるため)。所定の距離まで
“切出し点″を進行させてもその間にプロファイルが不
連続にならない場合は(すなわちその範囲内で″切出し
点”が分離領域に入らない場合は)、今度は、逆に、″
切出し点″を初めの位置から左方向へ所定の距離だけ後
退させる。切出しを拡張する場合と同様にして、この後
退させた所定の範囲内でプロファイルが不連続になれば
、その場所で切出しが確定する。以上のようにして、カ
タカナの場合は、それが通常の書式で書かれていても(
区別的発音性が隣接)、また、従来のOCR機械の規則
に基づいて書かれていても(区別的発音性が分離)、そ
の文字を認識することができる。
文字の幅および高さをパラメータに用いて、水平方向お
よび垂直方向(またはいずれか一方)のプロファイルを
測定しその相対的な大きさを解析することにより、初め
に、修飾文字と非修飾文字を区別する。カタカナの場合
は、文字全体(区別的発音性を含む)の水平方向の幅の
差異に基づいて、修飾文字と非修飾文字を区別する。従
来、文字の高さおよび幅の符号化には、排他的ビットコ
ーディングが用いられてきた。排他的ピッ1〜コーティ
ングは、本発明で用いる包含的ビットコーディングより
も劣る。排他的ビットコーディングは、各々の特定の値
(すなわち高さおよび幅の範囲)に対して一意的な1つ
のピントをセラ1〜する。1つのビットを検査して、特
定の高さまたは幅を有する全ての文字と、その特定の値
よりも大きいかまたは小さい値を有する他の全ての文字
と、が区別できる。カタカナの修飾文字を識別するには
、特定の高さまたは幅よりも小さい全ての文字(非修飾
文字)と、特定の高さまたは幅よりも大きい全ての文字
(修飾文字)とを区別することが要求される。排他的ビ
ットコーディングを用いれば、この識〉111のために
複数のピッ1−を検査しなければならない。包含的ピッ
1−コーディングの場合は、文字の大きさに合わせて連
続するピッ1〜ストリンクをセツトシ、その文字の大き
さが少なくとも、セットされた各ピッI−と同じたけの
大きさであるということを示すようにしておく。こうし
て]つのピッ1−を検査するだけで、特定の高さまたは
幅よりも人きい全での文字と、この値以下の全ての文字
を区別することができる。従って、一般的に、区別的発
音性を有する幅の広いかつ高さの高い文字(修飾文字)
と、区別的発音性を含まない文字(非修飾文字)を区別
することができる。
カタカナ文字の認識結果の符号化に関して、l」本工業
規格JISでは、46個の双本カタカナ記号、および2
個の区別的発音性(濁点および半濁点)に対して、それ
ぞれに一意的な」バイ1−のコートポイントが割り当て
られている。2つの区別的発音性のためのコートポイン
1〜は、区別的発音性が独立した記号として独自の文字
領域に存在するということを示してはいるが、独立した
記号として書かれた区別的発音性と、本来の書式に従っ
て基本文字に隣接して書かれた区別的発音性と、を区別
することはない。従って、新たに2つのコードポイン1
−を割り当てることによって、基本文字が区別的発音性
を含むということを表わすようにしてもよい。
修飾文字の事後処理検証に関して説明する。区別的発音
性が認識された場合は、ある手順が用いられる。カタカ
ナの場合は、先行文字の認識結果が検査されて、その先
行文字が濁点を付加し得る20個の文字であるか、また
は、半濁点を付加し得る5個の文字であるかどうかを検
証する。検証の結果、いずれの文字でもなければ、先行
文字および区別的発音性(またはいずれか一方)は無効
ゾ字として拒否することができる。
[実施例] 第1図について説明する。第1図は実7]&例における
各処理の流れを表わす図である。走査器5の構成および
動作は通常のものである。走査器5は、区別的発音性を
含む未lf、目の文字が示された文書6を、それらを読
む方向に対して並行に走査する。
第1図は一行の文字7を水平に走査している様子を表わ
している。走査器5は文書6または走査機構を移動させ
て文書全体の高さを検査し、適切な幅が視界に入るよう
に選んで文書全体の幅を検査する。走査データが生成さ
れるとそれは事前処理される。事前処理は、文字行のプ
ロファイル登生成しそのプロファイルを個々の文字のセ
グメントに分割し、それによって文字イメージデータを
得るという処理である。修飾文字を分類するために、文
字イメージデータから区別的発音性の存在ずへき場所に
対応する所定の位置にある領域を抽出する。そうして抽
出されたイメージデータおよび文字イメージデータを検
査して、各々、区別的発音性および文字を認識する。こ
うしてillもって認識された文字が次に事後処理検証
手順を経て、言語規則に基づいて区別的発音性を付加す
る可能性のある文字(清音文字という)に区別的発音性
が付加されていることを検証する。
第2図について説明する。第2図は区>1目的発音符を
有する文字(修飾文字)と区別的発音性を有しない文字
(非修飾文字)を含むカタカナの例を示す。カタカナ文
字、HE(へ)、■ (イ)、WΔ (ワ)、N(ン)
、KU(り)、およびIぐA(う)は区別的発音性を有
しない文字(非修飾文字)である。カタカナ文字BU(
ブ)は右上に区別的発音性(II:濁点)を有し、カタ
カナ文字PE(ぺ)は右上に区別的発音性(°;半濁点
)を有する。[3U(ブ)およびPE(ぺ)は修飾文字
である。走査器5から得られる水平方向の走査線データ
をOR機能で論理的に組合せて、走査された、文字行に
対する水平方向のプロファイルを生成する。水平方向の
プロファイルは、走査方向に11′?ける文字の幅Sお
よび文字と文字との++JIの空白を表わす。
次に動作について説明する。光学式走査器は文書の文字
イメージを表わす情報を生成する。この情報は、通常、
文書の暗部骨および明部分(従って文書に書かれた文字
)を表わす一連の2値走査線データである。走査器は連
続的に水平方向を走査する。各々走査の間に、走査器は
論理値u O++(ブランクを表わす)および論理値”
M’(走査線に沿−)で文字イメージか存在することを
表わす)を生成する。文字方向のプロファイルを生成す
る方法の」−)として、当該文字行に対応する所定数の
水平走査線のデータを、走査される文11・の絵素位置
に対応する位置を有するレジスタに順次にロードすると
いう方法がある。はじめにレジスタをりtJアして(す
なわち全て論理値If Onにする)、水平走査線のデ
ータを連続的にレジスタに入れると、それらのデータの
論理和か得られる。走査線データが論理値II I +
+ならば、対応するレジスタのビットは論理値II 1
− ++にセラ1〜され、文字イメージの外形全体が走
査された後にレジスタがクリアされるまでは論理値II
 I ++か維持される。絵素位置がブランクの場合は
、レジスタは論理値II 071のままである。走査線
データが全てレジスタに入ると、どの水平位置に文字デ
ータが存在するかということが示される。この文字デー
タが水平方向のプロファイルを表わしている。
第2図の]Oに示すような文字の水平方向のプロファイ
ルは、一連の、黒セグメント(論理値LL ] I+ 
)および空白(論理値” O” )として現われる。黒
セグメンl〜1工は、文字および区別的発音筒を表わす
イメージデータの幅に対応している。
空白]2は、文字と文字とのすき間に対応している。
水]1方向のプロファイルは、次に、区別的発音筒を含
む各々の未知の文字を表オ)すセグメン1へに分割され
る6所与のピンチ(文字と文字との間隔)または、ピッ
チの計算値(通常の手法を用いて決定してもよい)に基
づいて、文字の初期切出しが行われる。論理的検査を実
行して、初期切出し点が、文字と文字とのすき間の領域
に人っているかどうかを判定する。第4A図に示すよう
に、初期切出し点20が、隣り合う文字の水平方向のプ
ロファイル・セグメン1−22、および23の間の実際
の分離領域21内に入っていれば、その初期切出し点は
文字と文字とを分離するものとして確定する。
初期切出し点が実際の分離領域に入らない場合は(すな
わち文字と文字が重なり合っているか、または、区別的
発音筒が次の文字領域まで伸びている場合は)、第4B
図に示すように、右方向に初期切出し点を所定量(例え
ば1..5mm)まで進行させながら水平方向のプロフ
ァイルを検査する。
所定量の範囲内で切出し点が分離領域に入れば、その時
点で切出し点が文字と文字とを分離するものとして確定
する。この様子は第4B図の破線で示した。第2図に示
すように、修飾文字BU(ブ)およびPE(ぺ)は、水
平方向のプロファイル・セグメン1へが通常考えられる
よりも長い可能性のある文字の例である。これらは、第
4B図に示すように切出し点を延長させる手法を適用し
て切出すことができる。
第4C図に示すように、初期切出し点を右方向に進行さ
せても、それが実際の分離領域に入らない場合(矢印1
)は、初期切出し点を左方向に所定量(例えば1.5m
m)まで後退させながら水平方向のプロファイルを検査
する(矢印2)。所定量の範囲内で切出し点が分離領域
に入れば、その時点で切出し点が文字と文字とを分離す
るものとして確定する。この様子は第4C図の破線で示
した。
第41D図に示すように、初期切出し点を進行させても
(矢印1)後退させても(矢印2)、実際の分離領域に
入らない場合は、初期切出し点が文字と文字とを分離す
るものとして確定する(矢印3)。これは、第2図の文
字N(ン)およびKU(り)に示すように、隣接する文
字が重なり合う場合に適用できる。
第3図は、第4八図ないし第41)図に説明した欠字と
文字との区切りを確立するための事前処理を表オ)す流
れ図である。
こうした切出しの手法を用いれば、カタカナの(+’4
飾文字を書く場合に通常用いられる言語規則に従って、
基本文字が区別的全音符を包含(右肩に隣接)していて
もよい。走査器から得られるデータを適切に操作するか
、または、走査器の方向を変えることによって、垂直方
向の文字のプロファイルを使用するようにしてもよいし
、また垂直方向および水゛ト方向の両方のプロファイル
を使用するようにしてもよい。
前述のJ:うに、区別的全音符を有する文字はそれを有
しない文字に比べて一般に高さ、幅とも大きい。第5図
は、水平方向の文字のプロファイルの幅(これは実際の
文字幅と比例関係にある)に対する文字発生頻度を表わ
す図であり、図は修飾文字が一般に長い幅を有すること
を示している。
従って、非修飾文字と修飾文字を区別するために文字の
幅をパラメータにとることは妥当であると考えられる。
水平方向のプロファイルを区分することによって文字イ
メージデータが分けられると、第6図に示すように、修
飾文字の識別を開始する。第6図においては、文字の大
きさを符号化し、水平方向の文字のプロファイルの幅の
差異に基づいて修飾文字と非修飾文字を区別する。次に
、区別的全音符が存在すると予想される場所に対応する
領域を。
文字イメージデータから抽出してその位置調整を行う。
抽出されたイメージデータおよび記憶されたイメージデ
ータは、次に、未知文字識別のために文字認識論理に送
られる。
文字の大きさを符号化するために、実施例では包含的ビ
ットコーディングを用いて、区別的全音符を含む文字の
高さおよび幅を論理的に記憶する。
次に示す表−1は、これを説明するための表である。
】ワーlj(+6ビツ1−)が絵素幅64の文字空間製
表オ〕している。1ピツ1〜は絵素4つ分の幅に対応す
る。従来は排他的ビートコーディングを用いて1つのデ
ィジットをセットして各文字の幅を表わしていた。1つ
のビットを検査するので、特定の幅を有する文字は全て
、特定の値よりも大きいかまたは小さい他の全ての文字
と区別することができるが、特定の値よりも大きな値を
有する文字を認識するには、多数の検査が必要である。
包含的ピッ1〜コーデイングを用いれば、特定の幅以丁
の全てのビットは全て同じ論理状態(すなわち論理値L
L I I+ )にセットされる。例を挙げると、文字
幅が絵素38個分とすれば、その文字に係る包含的ビッ
トコーディングに基づいたワードは ″ 1 コ j 
1 1111 1100 0000”である。これが排
他的ビットコーディングならば、“0000 0000
 0100 0000”となる。実施例では、幅の広い
(または高さの高い)文字と幅の狭い文字とを区別する
には、包含的ビットコーディングにより符号化されたワ
ードの1ピツ)・を検査するだけでよい。前述の例に当
てはめれば、包含的ピッ1〜コーデイングに基づいたワ
ードのビット10を検査するだけで、絵素幅4゜より大
なる文字と絵素幅40以下の文字とを全て区別すること
ができる。排他的ビン1〜コーデイングに基づいたワー
ドを検査して同じ結果を得るには、各ワードごとに最低
7ビツトを検査しなければならない。
包含的ピッ1〜コーデイングは認識論理の自動設計にも
有利である。自動膜H]プログラムは、通常、統計的決
定アルゴリズムを使用している。統計的決定アルゴリズ
ムは、最小エラー規準に基づいて文字の異なる2つの分
類を区別するために1つのビットを選択するものである
。包含的ビットコーディングはそうしたアルゴリズムに
とって最適の情報を与える。
次に第7図および第8図について説明する。
カタカナ文字の場合は、区別的発音筒は文字イメージの
右j二部に位置する。第7図の破線で示すように、修飾
文字の抽出部30(または窓)が定義される。この局所
的な領域内のデータは抽出部バッファに置かれる。良好
な実施例では、抽出部は」二16本の走査線に含まれる
文字イメージデータの右端の]3絵素(すなわち1.6
mmX2.11n In )から成る。抽出部30の大
きさは区別的発音筒を識別するのに十分な情報量を有し
、これによってマイクロプロセッサは効率的にデータを
処理することかもき、かつ、基本文字の認識手順とも互
換性があるので、最シイな大きさであると考えられる。
抽出部30の位置は、修飾文字の基本文字部分または非
修飾文字の線分との干渉が最少になるように選択されて
いる。抽出部30の位置を固定すれば、節1)1で効率
よくしかも信頼性の高い抽出処理ができる。カタカナ以
外の他のアルファベラ1−では、抽出部の大ぎさおよび
位置は必要に応して変更してもよい。カタカナの場合は
、抽出部30の1一端および右端をそれぞれ基本文字の
最上部および最右端にしておけばよいであろう。
良好な実施例では、抽出部30内のイメージデータが抽
出部バッファに置かれる場合は、イメージデータはその
右上隅にさらに位置調整されて、正規化されない形式で
記憶される。この位置調整の様子を第8図に示す。こう
して1区別的発音符が抽出部30の右上隅に位置するの
で、区別的発音筒の存在を容易にか・つ信頼性高く認識
でき、さらに、認識論理に要する記憶も少なくてすむ。
抽出部3o内のイメージデータのうちで基本文字に対応
する部分は不必要なものである。
抽出部バッファにあるイメージデータを用いて、区別的
発音筒の特徴の存在の有無を判定することもできる。こ
の判定はツリータイプ検知構造によって実現できる。こ
れは、例えば、修飾文字と非修飾文字との区別、濁点と
半濁点との区別登行うものである。
通常の文字認識技術は、標準的な大きさを有する既知文
字イメージとの比較のために、未知文字イメージの大き
さを規格化(すなわち縮少)するという操作を有してい
る。区別的発音筒は、通常、基本文字よりも小さいので
、規格化によってその解像度が落ちる場合がある。本実
施例では、この情報を維持するために、規格化されてい
ない元の修飾文字のイメージデータから区別的発音性を
抽出して、規格化されていない状態でこれを検査する。
しかしJン木文字は大きいので、そのイメージデータは
規格化されるのが普通である。次に、未知文字の規格化
されたイメージデータ、規格化さJしていない区別的発
音性のイメージデータ、および任意の区別的発音符特徴
を用いて、最終的な文字認識が行われる。
文字認識に続いて、先行文字が識別された区別的発音性
を付加し得るものであるかどうかを検証することが要求
される場合もある。第9図は、この事後処理検証手順を
表オ〕す流れ図である。
第9図において、区別的発音性が存在するならば、先行
文字の認識結果を調べて、その先行文字が、濁点を付加
し得る20個の清音文字(力行。
(を行、夕行、ハ行)のうちの1つであるか、または、
半円点をイー1加し得る5個の清音文字(へ行)のうち
の1つであるかどうかを検査する。認識された先行文字
が妥当な清音文字でない場合は、1以」二の拒否コード
を生成する。
従来のOCR機械は日本工業規格、I I Sに基づい
て動作する。J I Sでは、46個のカタカナ文字の
各々に、16進の一意的なバイトが割り当てられており
、濁点および半濁点にもそれぞれ16進の一意的なバイ
ト”BE”および“B F”が割り当てられている。こ
うした−M:的なハイ1−によって区別的発音性が認別
される。区別的発音性は、基本文字とは別個の記号とし
て、独自の文字領域に書かれる。実施例では、さらに2
つのコートポイントを割り当てて隣接する手書−きの区
別的発音性を識別する一方5.J I Sに基づく区別
的発音性の記号を用いる、既存のO(、R装置との互換
性も維持している。具体的に言うと、隣接濁点には11
7 F I+、隣接半濁点にはII 4 ]、 uが割
り当てられている。
[発明の効果] 以上に説明した方法により、区別的発音性を有する文字
を、信頼性高く、認識することが可能となる。
【図面の簡単な説明】
第1図は実施例における各処理の流れを表わす1メ1、
第2図はカタカナ文字の一例とその水平方向のプロファ
イルを表わす図、第3図は切出し点を確定するための事
前処理手順を表わす流れ図、第4八図ないし第1] l
’)図は切出し点の確定の様イを31体的[こ表わす図
、第5図は文字の水i11方向のプロファイルの幅と、
文字の発生頻度との関係を表わす1ン1、第6図は修飾
文字識別の手順を表わす回、第7図は修飾文字のイメー
ジデータと抽出される領域の関係を表わす図、第8図は
抽出された領域内のイメージデータを位置調整した様子
を表わす図、第9図は311後処離検証毛順を表わす図
である。 出願人 インターナショナル・ビジネス・マシーンズ・
コーポレーション 代理人 弁理士 頓 宮 孝 − (外1名) 第3図 第2図 文字の水平方向の10フフイ「の輻 第5庖 事前処理Jり 文字認識へ 第6図 、7図 第8図

Claims (1)

  1. 【特許請求の範囲】 既知文字セラ1〜から、区別的発音筒が付加された文字
    を含む未知文字を認識するための文字認識方法であって
    、 前記区別的発音筒を含む場合のある未知文字のイメージ
    データを記憶し、 該記憶された未知文字のイメージデータから、前記区別
    的発音筒が存すると予想される場所に対応した所定位置
    の領域に在るイメージデータを抽出し、 前記記憶された未知文字のイメージデータの少なくとも
    一部分と、前記抽出された区別的発音筒のイメージデー
    タと、を検査して、前記未知文字、
JP59171017A 1983-09-29 1984-08-18 文字認識方法 Granted JPS6077274A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US537279 1983-09-29
US06/537,279 US4611346A (en) 1983-09-29 1983-09-29 Method and apparatus for character recognition accommodating diacritical marks

Publications (2)

Publication Number Publication Date
JPS6077274A true JPS6077274A (ja) 1985-05-01
JPH0432430B2 JPH0432430B2 (ja) 1992-05-29

Family

ID=24141985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59171017A Granted JPS6077274A (ja) 1983-09-29 1984-08-18 文字認識方法

Country Status (5)

Country Link
US (1) US4611346A (ja)
EP (1) EP0138079B1 (ja)
JP (1) JPS6077274A (ja)
CA (1) CA1208784A (ja)
DE (1) DE3484890D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61250793A (ja) * 1985-04-30 1986-11-07 Canon Inc 文字認識装置

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4887301A (en) * 1985-06-05 1989-12-12 Dest Corporation Proportional spaced text recognition apparatus and method
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
JP2835178B2 (ja) * 1990-11-28 1998-12-14 株式会社東芝 文書読取装置
US5307424A (en) * 1990-12-12 1994-04-26 Eberhard Kuehl Character recognition system
US5515455A (en) * 1992-09-02 1996-05-07 The Research Foundation Of State University Of New York At Buffalo System for recognizing handwritten words of cursive script
US5373566A (en) * 1992-12-24 1994-12-13 Motorola, Inc. Neural network-based diacritical marker recognition system and method
US5946410A (en) * 1996-01-16 1999-08-31 Apple Computer, Inc. Adaptive classifier for compound characters and other compound patterns
US6453070B1 (en) * 1998-03-17 2002-09-17 Motorola, Inc. Diacritical processing for unconstrained, on-line handwriting recognition using a forward search
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
KR101145986B1 (ko) 2005-02-28 2012-05-21 지 데쿠마 아베 세그먼트화-기반 인식
CN101128838B (zh) * 2005-02-28 2011-11-16 Zi德库玛股份公司 辨认图
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8423908B2 (en) * 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080189606A1 (en) * 2007-02-02 2008-08-07 Michal Rybak Handheld electronic device including predictive accent mechanism, and associated method
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7925089B2 (en) * 2007-09-18 2011-04-12 Microsoft Corporation Optimization of multi-label problems in computer vision
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
JP5807342B2 (ja) * 2011-02-21 2015-11-10 富士ゼロックス株式会社 文字認識装置及びプログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP2016508007A (ja) 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014189400A1 (en) 2013-05-22 2014-11-27 Axon Doo A method for diacritisation of texts written in latin- or cyrillic-derived alphabets
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US20160098597A1 (en) * 2013-06-18 2016-04-07 Abbyy Development Llc Methods and systems that generate feature symbols with associated parameters in order to convert images to electronic documents
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3638188A (en) * 1969-10-17 1972-01-25 Westinghouse Electric Corp Classification method and apparatus for pattern recognition systems
US3710321A (en) * 1971-01-18 1973-01-09 Ibm Machine recognition of lexical symbols
US4206442A (en) * 1974-07-03 1980-06-03 Nippon Electric Co., Ltd. Letter segmenting apparatus for OCR comprising multi-level segmentor operable when binary segmenting fails
JPS5156139A (en) * 1974-11-13 1976-05-17 Hitachi Ltd Mojomitorisochi niokeru kiridashihoshiki
JPS6043555B2 (ja) * 1980-02-26 1985-09-28 株式会社トキメック 印字文字切出し装置
EP0113119B1 (en) * 1982-12-28 1989-08-23 Nec Corporation Character pitch detecting apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61250793A (ja) * 1985-04-30 1986-11-07 Canon Inc 文字認識装置

Also Published As

Publication number Publication date
EP0138079A3 (en) 1988-07-06
US4611346A (en) 1986-09-09
DE3484890D1 (de) 1991-09-12
JPH0432430B2 (ja) 1992-05-29
EP0138079A2 (en) 1985-04-24
EP0138079B1 (en) 1991-08-07
CA1208784A (en) 1986-07-29

Similar Documents

Publication Publication Date Title
JPS6077274A (ja) 文字認識方法
US11922318B2 (en) System and method of character recognition using fully convolutional neural networks with attention
US5764799A (en) OCR method and apparatus using image equivalents
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
Kompalli et al. Challenges in OCR of Devanagari documents
RU2259592C2 (ru) Способ распознавания графических объектов с использованием принципа целостности
US4975974A (en) Character recognition apparatus
KR101012101B1 (ko) 한글 인식 방법 및 장치
Kumar et al. Line based robust script identification for indianlanguages
JPH10177623A (ja) 文書認識装置および言語処理装置
KR100332752B1 (ko) 문자인식방법
JP2939945B2 (ja) ローマ字住所認識装置
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
KR910007032B1 (ko) 한글 문서 인식장치의 문자열과 개별문자 절출방법
JPH056464A (ja) 文字列認識方法及びその装置
JP3151866B2 (ja) 英文字認識方法
JPH0527157B2 (ja)
JP2001022773A (ja) イメージ文書のキーワード抽出方法
JPH02292691A (ja) 文字認識装置
JPH08185481A (ja) 文字認識装置
JPS62169285A (ja) 文書処理装置
JPS636686A (ja) 文字認識装置
JPH07296102A (ja) データ入力方式
JP2002074262A (ja) 認識文字修正方法