JPS6049480A - データ検索装置 - Google Patents

データ検索装置

Info

Publication number
JPS6049480A
JPS6049480A JP58157591A JP15759183A JPS6049480A JP S6049480 A JPS6049480 A JP S6049480A JP 58157591 A JP58157591 A JP 58157591A JP 15759183 A JP15759183 A JP 15759183A JP S6049480 A JPS6049480 A JP S6049480A
Authority
JP
Japan
Prior art keywords
word
data
character
word data
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58157591A
Other languages
English (en)
Inventor
Yoshiaki Kurosawa
由明 黒沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58157591A priority Critical patent/JPS6049480A/ja
Publication of JPS6049480A publication Critical patent/JPS6049480A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は入力単語を簡易に且つ効果的に行うことができ
、更にはその認識単語に対するデータ検索をも容易に行
い得る文字認識装置に関する。
〔発明の技術的背景とその問題点〕
文字認識は、基本的にはその文字の特徴を検出して行わ
れる。然し乍ら、数文字によって構成される単語を認識
する場合、個々の文字をそれぞれ認識し、単にその認識
結果を組合せるだけでは不十分なことが多い。例えば成
る文字についての認識が不十分な場合、その単語全体を
認識することが困難になることがある。
そこで従来では文字認識装置を第1図に示す如く構成し
、単語としての有意な文字列について認識処理、所謂後
処理することが行われている。この装置は、例えば特願
昭56−138163号に詳しく紹介されるように、光
電変換部1により原稿2から読取った文字列(−単語)
を前処理部3を介して前処理し、その個々の文字につい
ての特徴検出を行って文字認識部4にて文字認識する。
しかるのち、単語辞書5に予め登録された単語と、上記
文字認識結果情報との間の類似度を単語認識部6にて計
算し、その類似度情報から前記入力単語の正しい認識結
果を推定するようにしたものである。従って、単語辞書
5に、予め単語としての有意な組合せを為す文字列を登
録しておけば、仮え成る文字についての認識結果が不十
分であったとしても、その単語全体についての類似度か
ら、正しい認識結果を容易に得ることが可能となる。
然し乍ら、認識対象とする単語の構造が益々複雑化する
傾向にあり、上述した単純な処理法だけでは複雑な言語
処理プロセスを十分にコントロールすることができない
と云う不具合がちる。ちなみに、上記言語処理プロセス
をコント・ロールする為の情報を辞書に登録しておくこ
とが考えられているが、単語辞書の構成が複雑化し、そ
の辞書作成が容易でなくなることや、処理所要時間が長
くなる等の問題が生じた。
またこの種の文字認識システムの一還として上記の如く
認識された結果を用いて、別のデータベースを検索する
ことが行われるが、このデータベース検索においても多
大な処理時間を必要とした。しかも、上記単語とデータ
ベースとは、本来一体的に取扱われる情報であるにも拘
らず、それぞれが独立に与えられるのでその管理に困難
が生じる等の問題があった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、簡易に且つ高速に入力単語の文
字認識結果と単語辞書との照合を行い得ると共に、その
認識結果に基ずくデータ検索を効果的に行い得る文字認
識装置を提供することにある。
〔発明の概要〕
本発明は入力単語を構成する各文字についてそれぞれ認
識し、これらの文字認識システムと単語辞書に予め登録
された単語との間の翅似度を計算して上記入力単語に対
する認識結果を得る文字認識装置において、単語辞書に
は認識対象とする単語データと、認識処理については直
接対象とならない非単語データとを、それぞれその識別
符号を付加して登録し、この単語辞書から順に読出され
るデータの上記識別符号を参照して前記認識対象とする
単語データについてのみ順次類似度計算による単語認識
処理に用いるようにしたものである。そして上記単語デ
ータと非単語データとの関連性からそのデータ検索を行
うようにしたものである。また上記非卑語データとして
認識処理プロセスをコントロールする情報を格納してお
き、これに従って上記認識処理プロセスをコントロール
するようにしたものである。
〔発明の効果〕
かくして本発明によれば認識対象とする単語データ、お
よび認識対象とは直接関係はないが上記単語データに関
連する属性等のデータや処理プロセス・コントロール情
報等の非単語データを統一的に管理することができる。
しかも上記各データに付加され′fciika別符号に
、従って単語辞書から読出されるデータを識別し、その
単語データについてのみ入力単語の文字認識結果との間
での類似度計算による単語照合を行うので、その認識処
理効率が良い。換言すれば、単語辞書に上記卑語データ
と共に登録された非単語データによって単語認識処理に
おける処理効率の低下を招くことがない。また単語辞書
に登録された単語データと非単語データとの関連性から
、認識された単語に従って上記非単語データを検索する
ことができる。これ故、単語データと非単語データとを
一体的に取扱うことが可能となシ、データベース検索や
管理制御等に絶大なる効果が奏せられる。
〔発明の実施例〕 以下、図面を参照して本発明の一実施例につき説明する
第2図は実施例装置の概略構成図である。n文字からな
る入力文字列として与えられる入力単語は文字認識部1
1に入力され、該入力単語を構成する各文字についてそ
れぞれ認識される。
この文字認識部1ノによって、上記n個の文字の各文字
について、例えばr個の候補カテゴリ(文字コード)が
−それぞれめられる。そして、これらの候補カテゴリは
、その候補順位に応じて第1位から第1位まで、各単語
文字位置毎に分類されてレジスタ12に格納される。尚
このとき、各候補カテゴリの入力文字に対する類似度、
即ち候補カテゴリの標準文字パターンと入力文字パター
ンとが似ている度合をそれぞれめ、このような類似度を
上記候補カテゴリと一体的に取扱って前記レジスタ12
に格納するようにしても良い。あるいはまた、類似度や
順位点を文字コードに応じて決められるレジスタの格納
位置に格納する形式にしても良い。このようにしてレジ
スタ12に格納された情報が入力単語に対する文字認識
結果となる。
一方、単語辞書13には、L個の単語データおよびM個
の非単語データが、相互に関連付けられた上で登録され
ている。上記単語データは、直接認識対象となる単語を
構成する文字コード列からなるものであシ、また非単語
データは例えば上記単語データに関連するが、認識対象
とU直接にならない清報や、処理プロセスをコントロー
ルする情報等からなる。第3図はこのようなデータを登
録した単語辞書13の構成例を示すもので、「東京都」
なる単語データAと、「トウキョウト」なる非単語デー
タBとが示される。そして、これらの単語データAおよ
び非単語データBには、それぞれそのデータを識別する
為の識別符号a、bが付加されて辞書登録されている。
尚、ここでは「東京都」なる単語データAに対して、非
単語データBはその読みを示す情報として「トウキミウ
ト」なるデータとして、その関係付けが行われて登録さ
れている。
このようにして単語辞書13に登録された情報は、アド
レス制御部14の制御を受けて順に読出され、類似度計
算部15およびコントロール部16にそれぞれ供給され
ている。コントロール部16は、上記単語辞書13から
読出されたデータに付加された前記識別情報から該デー
タが単語データであるか、或いは非単語データであるか
を識別しておシ、単語データのみを選択的に類似度計算
部15に取込んでいる。そして、データが非単語データ
である場合には、前記アドレス制御部14を付勢して、
単語辞書13から速やかに次のデータを読出すと共に、
上記非単語データが処理プロセス・コントロール・デー
タである場合には、これに従って処理プロセスをコント
ロールしている。
しかして、類似度計算部15は、単語辞書15から読出
された単語データと前記レジスタ12に格納された入力
単語の文字認識結果との間の類似度を計算するもので、
例えば次のように類似度計算を実行している。即ち今、
単語辞書13に登録された単語データの第j番目の単語
が、その文字列(alj、a2j−anj)で表記され
るものとする。但し、上記添字nは、その単語がn文字
で構成されていることを意味する。
これに対して入力単語の各文字についての文字認識結果
が、Qiを1番目の結果として、Q、。
Q2〜Qnとして得られているものとする。ここでQi
は、文字aljに対応したものであシ、文字認識辞書に
登録されている候補文字の中から選択された文字の組、
或いは文字認識プロセスの結果得られる候補文字群とそ
れらの類似度の組からなる。このようなQiO組(Qi
 )が前述した文字認識結果情報となる。類似度計算は
、上記各Qiとaijとの間で行われてその類似度Sj
をファイル内の全ての単語についてめることによって行
われ、その最大のSiを有する単語を最終的な認識結果
としてめている。具体的には、例えば文字aljの(Q
i )中で得られる文字単位の類似度Pijからとして
類似度Sijを算出して類似度処理が行われる。
このような一連の処理によって単語辞書13に登録され
たデータ中の単語データを用いて、つま9非単語データ
を用いることなしに効率良く単語認識処理が実行される
。そして、最終的な単語認識結果が得られたとき、その
単語データに関連付けて登録された非単語データが、必
要に応じて上記単語データと共に出力される。
非単語データは前述した読みを示すデータのみならず、
単語データの所謂属性データであってもよい。即ち、単
語データが人名単語として与えられる場合、I単語デー
タとしてその住所や電話番号、更には年令等のデータを
与えることができる。そして、この非単語データにより
、会員名簿や顧客台帳等のデータベース検索や、その管
理を行うことが可能となる。また単語データを漢字文字
として与え、非単語データを対応仮名文字として与えて
おくようにすれば、これによって漢字・仮名変換や仮名
・漢字変換を効率良く行うことが可能となり、その実用
性が高い。
以上説明したように本装置によれば、単語辞書に相互に
関連付けて登録し、一体的な取扱いを可能とした単語デ
ータと非単語データとを、各データに付加された識別符
号によって識別して上記単語データのみを認識処理に用
いることが可能となる。これ故、上記データを統一的に
取扱ってデータベース検索を効率良く行うことが可能と
なる。また上記したようvcR別符号に従って単語デー
タのみを認識処理の類似度計算に用いるので、非単語デ
ータの存在によって単語認識処理効率が低下することが
ない。そしてまた、単語データと非単語データとを一体
的に取扱うことができるのでその辞書作成を容易ならし
め、また辞書構造の簡易化を図ることが可能となる。更
には複雑な認識処理プロセスのコントロール・データを
も非単語データとして単語辞書に登録可能なので、上記
処理プロセスの制御系の簡易化を図ることも可能となり
、その実用的利点は絶大である。
尚、本発明は上記実施例に限定されるものではない。例
えば卑語データおよび非単語データのフォーマットハ種
々変形可能であり、ノー−ドウエア構成や単語の類似度
計算方式も第2図に示すものに特定されない。要するに
本発明はその猥旨を逸脱しない範囲で種々変形して実施
することができる。
【図面の簡単な説明】
第1図は文字認識装置の基本構成図、第2図は本発明の
一実施例装置の概略構成図、第3図は本発明に係る単語
辞書の構成を模式的に示す図である。 11°・・文字認識部、12・・・レジスタ、13・・
・単語辞書、14・・・アドレス制御部、15・・・類
似度計算部、16・・・コントロール部。

Claims (3)

    【特許請求の範囲】
  1. (1)入力単語を構成する各文字につきそれぞれ認識し
    、これらの文字認識結果情報と単語辞書に予め登録され
    た単語との間の類似度を計算して前記入力単語に対する
    認識結果を得る文字認識装置において、上記単語辞書に
    は文字コード列で示される認識対象単語データと直接認
    識対象とはならない非単語データとをそれぞれその識別
    符号を付加して登録し、この単語辞簀から順に読出され
    る単語データに付加された上記識別符号を参照して前記
    認識対象単語データについてのみ前記類似度計算を実行
    して単語認識処理を行うことを特徴とする文字認識装置
  2. (2)入力単語は印刷文字列、手書文字列、或いは音声
    入力された文字列と、して与えられるものである特許請
    求の範囲第1項記載の文字認識装置。
  3. (3)非単語データは、認識対象単語データとの間で所
    定の関係を有するものである特許請求の範囲第1項記載
    の文字認識装置。
JP58157591A 1983-08-29 1983-08-29 データ検索装置 Pending JPS6049480A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58157591A JPS6049480A (ja) 1983-08-29 1983-08-29 データ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58157591A JPS6049480A (ja) 1983-08-29 1983-08-29 データ検索装置

Publications (1)

Publication Number Publication Date
JPS6049480A true JPS6049480A (ja) 1985-03-18

Family

ID=15653052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58157591A Pending JPS6049480A (ja) 1983-08-29 1983-08-29 データ検索装置

Country Status (1)

Country Link
JP (1) JPS6049480A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5699582A (en) * 1980-01-09 1981-08-10 Nec Corp Word recognizing device
JPS5710876A (en) * 1980-06-23 1982-01-20 Toshiba Corp Electronic dictionary
JPS5757382A (en) * 1980-09-11 1982-04-06 Nec Corp Difference degree detecting device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5699582A (en) * 1980-01-09 1981-08-10 Nec Corp Word recognizing device
JPS5710876A (en) * 1980-06-23 1982-01-20 Toshiba Corp Electronic dictionary
JPS5757382A (en) * 1980-09-11 1982-04-06 Nec Corp Difference degree detecting device

Similar Documents

Publication Publication Date Title
US6874002B1 (en) System and method for normalizing a resume
CN111209753A (zh) 一种实体命名识别方法及装置
JPH0729003A (ja) 指紋照合装置
JPS6049480A (ja) データ検索装置
JP2500680B2 (ja) デ−タ名付与登録装置
CN113345430B (zh) 基于语音固定条件下多字段的查询方法
JPH08272813A (ja) ファイリング装置
JPS6394365A (ja) 日本文文書誤り検定装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPS63138479A (ja) 文字認識装置
JPH0256086A (ja) 文字認識の後処理方法
JP2996823B2 (ja) 文字認識装置
JP3657680B2 (ja) 名標検索装置
JP2746345B2 (ja) 文字認識の後処理方法
JPH09138840A (ja) 文字認識装置
JPS63282586A (ja) 文字認識装置
JPH02148174A (ja) Ocrによる住所データベース検索装置
JP2839515B2 (ja) 文字読取システム
JPS60225273A (ja) 単語検索方式
JPH06274701A (ja) 単語照合装置
JPH0934897A (ja) 図書管理システム
JPH05258100A (ja) 文字認識装置
JPH10328624A (ja) 文書理解装置および郵便区分機
JPH03278194A (ja) 文字認識処理方式
JPS63100584A (ja) 文字認識処理方式