JPS5953985A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS5953985A
JPS5953985A JP57163401A JP16340182A JPS5953985A JP S5953985 A JPS5953985 A JP S5953985A JP 57163401 A JP57163401 A JP 57163401A JP 16340182 A JP16340182 A JP 16340182A JP S5953985 A JPS5953985 A JP S5953985A
Authority
JP
Japan
Prior art keywords
word
character
candidate
recognition
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57163401A
Other languages
English (en)
Other versions
JPH0474756B2 (ja
Inventor
Yoshiaki Kurosawa
由明 黒沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Tokyo Shibaura Electric Co Ltd filed Critical Toshiba Corp
Priority to JP57163401A priority Critical patent/JPS5953985A/ja
Publication of JPS5953985A publication Critical patent/JPS5953985A/ja
Publication of JPH0474756B2 publication Critical patent/JPH0474756B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発ψ」の技術分野〕 本発明は、例えば手壱入力されたn文字からなる単語を
簡易に且つ効果的に認識し、その認識結果によって示さ
れるデータベース等の属性データを得ることのできる文
字1i11□に装[1−jに関する。
〔発明の技術的背景とその問題点〕
文字を認識する場合、基本的にはその文字の特徴を検出
して行われるが、n文字からなる単ldを認識するとき
、個々の文字をそれぞれf7 ii+7し、その結果を
組合せるだけでは不十分なことが多い0また成る文字の
htg RfNが不十分な場合にはその単語を認識する
ことがし1」嬌となることもある。そこで従来では、第
1図Vこ示すように簡jf?に装置を構成し、有意の単
語数が限られることを利用して個々の文字認識が不十分
な場合で)りてもその単語を認識するような工夫が施さ
れている。即ち、文字入力部1を介して与えられるn文
字の文字列からなる単語をml 1iii1!部2に導
ひいて文字認識する。この認識が困難な場合には、その
単語に対する複数の候補カテゴリを求めて単語照合!’
1fX3に与える。この単6!■照合部3でQ、l、上
記11.+′、:1iliカデコ゛りの中の単lll1
fとして有意な、il1合せを、単11+辞町4に登録
されlこ単語の中から4+’コL出し、これによって正
しい+l’t Fit″1の選択を行いそのiL、、l
:識を行う。このような昭f!iff!処理によれU」
1、イト・1々の文字に対する認識結果が不完全であっ
ても、その候補カテゴリの組合せによって有7Gな’l
’ t:j’FをJ’Aび出ずことができ、結果として
効果的な単語−8茜シが可能となる。然し乍ら、文学誌
iii・(によって得られる候補カテゴリが多い場合、
そのに1[合ぜが膨大となる為に、単語との照合1c 
)r4iめで多大な時間を要すると云う不具合がある。
またこのようにして認識された結果に基すいで、別のブ
゛−タペースを検索することが良く行われるが、このデ
ータベース検索においても多大な時間を少すると云う問
題があった。しかも、単111tとデータペースとは、
本来一体とし゛で扱うif’i ef&であるものが、
それぞれ独立に与えられることになるので、その管理に
困難を生じる等の問題もあった。
〔発す]の目的〕
本発明はこのような4(情を考IA5.!、 してなさ
れたもので、その目的とするところは、簡易に且つ高速
度に辞書単語と候補カテゴリとの比較を行って単語認識
を効果的に行い、同時にその単語の14性データをも効
果的に得ることのできる文字認識装置を提供することに
ある。
〔うら明の概要〕
本発明はn文字からなる入力、Q’p、暗の各文字につ
きそれぞれr個の候補カテゴリ(文字コード)を求め、
単語辞書に登録された’:’ 1i71の各文字と上記
候補カテゴリとを単語文字位置4fiに比較して、その
一致した候補カテゴ゛りの候補順位あるいはその類似度
から上記比較された単語の入力単語に対する一致度を計
算し、一致度の高い1個の単6ηを候補単語として選び
出すことによって認i右’&候補となる単語を厳ノ;へ
し、これVこよって+I’6速で適確な記1誠を簡易に
行うととを可能とし、史に単語辞列に予め登録してなる
’1in(iに付属したkii性デ゛−りをイ(Iるよ
うにしたものである。
〔発明の効果〕
従って本)J/;明によれば、入力された単語を高速に
、安定・確実に認識し、その認識結果と共にその単rj
ji (’C付A(16する属性データを得ることがで
きるので、単語?g Blとそのデータベース検索とを
茜速に効」り民<行うことが可能となる。これ故、単1
11とそのデータペースとを一体に取扱うことが町81
4となり、データベース検索や管理!1ill 岬等に
おいで寅用上多大なる効果が奏せられる。
〔うi明の実施イI)ll〕
以−「、図面を谷照して本発明の一実施例につきi兄明
する。
第2図は実h113夕1j装置貨の概略構成図である。
n文字からなる文字列として与えられる入力単語(」、
i:;、l、: ti、・:r、tXl(11にて各文
字ニラき一’f: レソレ認識され、それぞれr個の候
補カテゴリ(文字コード)が求められる。これらの候補
カテゴリは、その候補順位に応じて第1位から第1位ま
で各単語文字位置毎に定められる。尚、このとき各候補
カテゴリの文字に対する類似度、つ1り候補カテゴリの
標準文字パターンと入力文字i4ターンとが似ている度
合をそれぞれ求め、この類似PLと候補カテゴリとを一
体的に扱うようにしてもよい。かくして、認誠部11に
よって求めら゛れたn文字に対するそれぞれr個の(I
N袖カテゴリのfJj合ぜによって得られるYa j!
i&対象単ni4はrn個となる。そして、これらの1
v−補カテゴリは、編集部12を介して単語照合部13
に与えられる。
一方、単語辞書14にはn文字からなるLnイ1mlの
単語と、その単語に付属する属性データとがそれぞれ対
応して予め登録されている。これらの単1計は順次読出
されて前記単117照合部13に与えられ、認識処理に
供される。
さて、単語照合部13は、基本的には次のように)l:
’j成される。前記記、i1′に部1ノを弁して^ハ;
・1すされたn文字に対するr個の候補カテコゞす、っ
1I)nXr個のnカ袖カテゴリは候補文字レジスタ2
1に格納される。1だアドレスカウンタ22の制御を受
けて単語計h14から読出される単Etj &、:l、
単vμ辞W3レジスタ23に格納される。
この単語辞望)レジスタ23に格納された単語の各文字
はコンパレータ24に供給され、レジスタカウンタ25
の制御を受けて候補文字レジスタ2ノから11次読出さ
れる候補カテゴリと単語文字位置に対応して一致比較さ
れる。このコンパレータ24によって単語文字と候補カ
テゴリとの一致が庁飴文字位置毎に行われる。そして、
その一致検出情報は一絞度計算部26に力えられ、この
RI算郡部26て前記レジスタ23に格納されて比較に
供された単語の入力単語に対する一致度が計3ン、され
ている。この−軟度計算は、例えば一致した候補カテゴ
リの候補順位を各単語文字位jH44σに求め、その候
補順位情報の総合イ11(を求める等して行われる。ま
た前記したように候補カテゴリについてその類似度が求
められている場合には、各単語文字位置毎に一致検出さ
れた候補カテゴリの類似度の総和値として一致度を求め
るようにしてもよい。尚、この一致比較によっていずれ
かの単語文字位[′Lにおいて一致する候補カテゴリが
見出されない場合には、その単語に対する一致性がない
ものとして取扱うようにすればよい。そして、このよう
な単1ijjの一致度計算は、単語辞書14から単語を
読出す都度繰返して行われ、lLn例の全ての単語につ
き、その−絞度が求められる。しかして、このようにし
て求められた各単語の入力単語に対する一致度の情報は
ソート処理部に導びかれ、−絞度の高いものから順にソ
ート処理される。
ぞして\−一致度高いX個の単語が候補単11(とじて
編集部12に与えられる。このft1i集部12では、
これらの候補単語と入力単語の認識情報とを総合的に編
集し、これを判定して認識結果を得、その単語と共に単
語に付属した属性データを求めている。
ところで、このような照合処理は、具体的にIJ次のよ
うにして行われる。第3図はその一例を示すもので、1
1六補文字レジスタ21は、n行r列の記憶エリアを持
つシフトレジスタにより41’+成される。しかして、
n文字につきそれぞれ既罰、(:された餞41目カテゴ
リは、n行に単語文字位lI′j:jを対応させ、ぞの
候補順位に従ってr列に亘って順次格納される。そしで
、これらの格納されたtk袖カテプリは、カウンタ25
の制御を受けて1列iIJに並列的に胱出さノシ、コン
パレータ24に与えられる。またこのコンパレータ24
にはレジスタ23から単語の各文字データが単N’ij
文字位1へ対応して並列的に与えられている。
これによって、各?)j、飴文字位fδにおいて、候補
カテゴリと単+iii文字との同時対比が行われる。
ぞして、一致結果をイ4jた単011文字位置からその
情¥1!、が−1)り度を層1淳ン拮1i26に力えら
れ、そのときのカウンタ25のdi算値が候補順位情報
として取込才れろ。そして、1回の比較が終了したとき
、カウンタ25が歩進されて次の1列の候補ノJテコ゛
りがコンパレータ24KJ−jえられ、同和ζにして一
致検出が行われる。そして、この一致検出は、r回繰返
して行われ、これによってレジスタ23に格納された単
ht1に対する照合処理を終える。
このとき、−絞度割算部26には各単語文字位1a毎に
一致検出された候補カテゴリを示すカウント値、つまシ
候補順位の1n報が得られており、この情報に従って、
レジスタ23に格納された単語の入力単語に対する一致
度が求められている。ソート処理部27は、このときの
アドレスカウンタ22のカウント値から、上記−絞度が
求められた単語を認識しており、その−絞度の高い単語
を、一致度とカウント値として格納している。そして、
次に入力された単h11の一致朋と、先に入力された単
語の一致度とを比較し、−絞度の低い単語41イ報を切
捨てると共に、その並び換えを行う等してソート処理を
行っている。
尚、この場合、レジスタ21VC−格納し/ξ候補カテ
ゴリに対応して、その類似度情報を別の記憶エリアに渚
納しておき、−軟度Fit 31:を前記した候補l1
jtli位に代えて類似度情報に従って行うようにして
もよい。
且だ、この第3図に示す4′trt成では、照合処理を
frQ” j!7を文字(L iit’Zにつき並列的
に同時に実行するようにしたが、第4図に示すようにシ
リアルに実行するようにしても良い。νIJち候補文字
レジスタ21 をn X r個の記憶エリアをもつもの
とし、これらのj’lL (:cdエリアに候補力テコ
ゝりを順に格納するように+i’f成する。尚ことでは
候補カテコゞりと共に類似度情報も格納するようにした
ものを7」<す。そ−して、土d己候イ由カテコ゛すを
カウンタ25のアドレスfljlJ御により順次読出し
てコンノ(?レータ24に供胎すると共に、レジスタ2
3に格納された単記の各文字をセレクタ28を介して順
次Rji□出すようにする。この場合、比1位の文字を
セレクトしてその文字位(へにおける候補文字をIil
+↓次肌出しで一致検出し、その後a< 2位の文字を
セレクトしてその文字位置の候補カテゴリに対する一致
桟出を行うようにカウンタ25のアト1/ス制御と、セ
レクタ28のセレクト制御を同期させるようにすればよ
い。このようにしても、先の例と同様に照合処理を行う
ことができる。
第5図は上述した認識処理の概念を示す図であり、ここ
では入力単語として]−黒沢」なる人名単語が与えられ
る例を示している。しかして単111辞癲14には、認
識対象とするQGliIll 4 aと共に、その単語
14aにイづ属する属性データ14bが対応して予め登
録されている。このうち、上記単語14mが入力単語に
対する認d隈処理に供されることになる。そして、この
単ff514aが認識結果として前述した如く求められ
たとき、この単語148と共に、その属性データ14b
が読出されることになる。この読出し処理が前記編集部
12により行われる。
尚、上記属性データ14bは、例えは卑dけ14aが人
名単語として与えられる場合には、その住所や電話査号
、年令等のデータとして与えられる。そして、この属性
データ14bによって会員名;Ivや顧客台1眼等のデ
ータベース検索や、そのグ]1理が行われることになる
。丑た単語14aが仮名文字で力えられる鳴合、ルA性
データ14bを対応漢字として与えることにより、仮名
・漢字変換を行うこともできる。
以上説明したように本発明によれば、候補カテ了りによ
って示される候補文字と辞書単語とをし・ソスタに格納
して、高速度な照合処理を行い、その−軟度を求めるの
で、短時間に効率良く精度の高い単6a認識を行い得る
。しかも与えられた’Ij、tsの文字・品質が惑い、
用台であっても、十分精度の商い認識がoJ能であり、
実用的利点が商い。またJ)5.D4^’1’ 田の構
成の、71純化と、その作成i史が6易である晴−の効
果も秦する。更には、〜i詔と七の鵜性データとを一体
的に取扱うことがijJ能となるので、データベース検
索ヲハじめとして、゛実用上絶大なる効果が奏せられる
向、本発明は上記実施例に駆足されるものでldない。
例えは属性データとして、単語の公知′陥報を与えても
よい。−ま/辷、その’lt++/iの出現頻度の情報
を属性データとして与えることも可能であり、要するに
本発明はその波旨を逸脱しない範囲で種々変形して実施
することができる。
【図面の簡単な説明】
第1図は従来装置の一例を示す概略構成図、第2図は本
発明の一実施例装置の概略、(1q成図、第3図および
第4図はそれぞれ単語照合部の基本的な構成例を示す図
、第5図は認識処理概念を示す図である。 1)・・・認識部、12・・・編集部、13・・・単語
照合部、14・・・単語辞書、21・・・候補文字レジ
スタ、22・・・アドレスカウンタ、23・・・≠胎辞
−語しノスタ、24・・・コンパレータ、25・・・レ
ジスタカウンタ、26・・・−絞度計算部、27・・・
ソート処理部、28・・・セレクタ、14a・・・嚇飴
、14b・・・属性データ。 出願人代理人 弁理士 鈴 江 武 彦第1図 第2図

Claims (1)

    【特許請求の範囲】
  1. n文字からなる文字列として与えられた入力単語の各文
    字につき認識してそれぞれr個の候補カテゴリを求める
    手段と、認識対象単語およびその属性データを予め登録
    した単11t1辞書のn文字からなる複数の単語の各文
    字と」二記候補カデゴリとを単語文字位置毎にそれぞれ
    比較照合する手段と、各単語文字位置において一致した
    候補カテゴリの候補順位または入力部d1jの文字に夕
    ]するi+74似度から前記単語辞書から選ばれて比較
    された1、s語の前記入力単語に対する一致度を4詐し
    て一致1yの高い1個の単語を候補単語として選択する
    手段と、この選択された単61jとその属性フ′−夕を
    前記単)f7+辞用かも読出す手段とを具+iii し
    たことを特留とする文字認識装置i 。
JP57163401A 1982-09-20 1982-09-20 文字認識装置 Granted JPS5953985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57163401A JPS5953985A (ja) 1982-09-20 1982-09-20 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57163401A JPS5953985A (ja) 1982-09-20 1982-09-20 文字認識装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP7280636A Division JPH08227427A (ja) 1995-10-27 1995-10-27 文字認識装置

Publications (2)

Publication Number Publication Date
JPS5953985A true JPS5953985A (ja) 1984-03-28
JPH0474756B2 JPH0474756B2 (ja) 1992-11-27

Family

ID=15773188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57163401A Granted JPS5953985A (ja) 1982-09-20 1982-09-20 文字認識装置

Country Status (1)

Country Link
JP (1) JPS5953985A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219849A (ja) * 2006-02-16 2007-08-30 Fujitsu Ltd 単語検索装置、単語検索方法、及びコンピュータプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5235559A (en) * 1975-09-12 1977-03-18 Yokogawa Hokushin Electric Corp Word reader
JPS5576400A (en) * 1978-12-04 1980-06-09 Fujitsu Ltd Retrieval by speech system for chinese character items
JPS56145473A (en) * 1980-04-15 1981-11-12 Mitsubishi Electric Corp Character recognition device
JPS5725074A (en) * 1980-07-21 1982-02-09 Fujitsu Ltd Character recognition post-processing system
JPS5741768A (en) * 1980-08-27 1982-03-09 Toshiba Corp Word processing system
JPS57108959A (en) * 1980-12-25 1982-07-07 Casio Comput Co Ltd Data storage device of electronic dictionary

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5235559A (en) * 1975-09-12 1977-03-18 Yokogawa Hokushin Electric Corp Word reader
JPS5576400A (en) * 1978-12-04 1980-06-09 Fujitsu Ltd Retrieval by speech system for chinese character items
JPS56145473A (en) * 1980-04-15 1981-11-12 Mitsubishi Electric Corp Character recognition device
JPS5725074A (en) * 1980-07-21 1982-02-09 Fujitsu Ltd Character recognition post-processing system
JPS5741768A (en) * 1980-08-27 1982-03-09 Toshiba Corp Word processing system
JPS57108959A (en) * 1980-12-25 1982-07-07 Casio Comput Co Ltd Data storage device of electronic dictionary

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219849A (ja) * 2006-02-16 2007-08-30 Fujitsu Ltd 単語検索装置、単語検索方法、及びコンピュータプログラム
JP4744317B2 (ja) * 2006-02-16 2011-08-10 富士通株式会社 単語検索装置、単語検索方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
JPH0474756B2 (ja) 1992-11-27

Similar Documents

Publication Publication Date Title
US11055557B2 (en) Automated extraction of product attributes from images
EP0784285B1 (en) Method, apparatus and computer program product for generating a classification tree
JPH0664631B2 (ja) 文字認識装置
US20200210957A1 (en) Classification of job titles via machine learning
CN108959559A (zh) 问答对生成方法和装置
US20040184663A1 (en) Pattern string matching apparatus and pattern string matching method
Shabir et al. Reduction of an information system
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
US6286012B1 (en) Information filtering apparatus and information filtering method
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
Dewar The SETL programming language
JPS5953985A (ja) 文字認識装置
CN113592523B (zh) 一种金融数据处理系统及方法
Efremova et al. A hybrid disambiguation measure for inaccurate cultural heritage data
CN114023380A (zh) 有毒生物的鉴定方法、装置及服务器
JP2732661B2 (ja) テキスト型データベース装置
CN116340481B (zh) 自动回复提问的方法及装置、计算机可读存储介质、终端
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
US20230266940A1 (en) Semantic based ordinal sorting
JPH08227427A (ja) 文字認識装置
Lima et al. Evaluation of Deep Learning Techniques for Entity Matching.
Bakr et al. Specialized Syntactic Quran Search Engines: Evaluation and Limitations
CN112800778A (zh) 一种基于词串长度的意图识别方法、系统及存储介质
JP2839515B2 (ja) 文字読取システム
CN111859100A (zh) 一种检索意图转移识别方法及装置