JPH06325204A - 文字認識後処理装置 - Google Patents

文字認識後処理装置

Info

Publication number
JPH06325204A
JPH06325204A JP5113082A JP11308293A JPH06325204A JP H06325204 A JPH06325204 A JP H06325204A JP 5113082 A JP5113082 A JP 5113082A JP 11308293 A JP11308293 A JP 11308293A JP H06325204 A JPH06325204 A JP H06325204A
Authority
JP
Japan
Prior art keywords
character string
expression form
character
data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5113082A
Other languages
English (en)
Inventor
Hiromitsu Kawajiri
博光 川尻
Takatoshi Yoshikawa
隆敏 吉川
Masayoshi Okamoto
正義 岡本
Hideto Yamamoto
英人 山本
Hiroshi Horii
洋 堀井
Takayuki Kowada
孝之 古和田
Kimio Nagasawa
喜美男 長沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP5113082A priority Critical patent/JPH06325204A/ja
Publication of JPH06325204A publication Critical patent/JPH06325204A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 住所などの特定の意味を持つ文字列の記述
が、不完全もしくは所望の表現形態とは違う別の表現形
態で書かれていたとしても、自動的に所望の表現形態に
変換して出力することを可能とした文字認識後処理装置
を実現するものである。 【構成】 文字認識結果候補蓄積部(2)により、入力文
字列の各文字に対する複数の文字認識結果候補を認識結
果データ記憶部(3)に蓄積し、蓄積された文字認識結果
候補の組合せからなる文字列に基づいて、住所文字列認
識部(4)で、辞書との照合により意味のある文字列集合
を認識し、出力される文字列から表現形態データ部(8)
に記憶された表現形態データを基に、特定文字列検出部
(6)により異なる表現形態を持つ文字列を抽出し、表現
形態変換部(7)で変換することにより、どの表現形態の
入力文字列データに対しても常に所望の表現形態で出力
することが可能となる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、認識文字の表現形態を
統一して出力する文字認識後処理装置に関する。特に、
本発明は、入力文字列中の住所、ふりがな、会社名、電
話番号などの表現形態を統一して出力する機能を持っ
た、文字認識後処理装置に関する。
【0002】
【従来の技術】OCRなどの文字入力装置の出現によ
り、手書きによる文字データを文字認識させ、文字コー
ドデータに変換することにより、情報機器への文字入力
の合理化、文字情報の再利用などが可能となっている。
住所データに関しては、その文字認識結果の信頼性を高
めるために、住所と郵便番号の相互の強い関連性を利用
し、一連の住所データの文字認識を行なう際に住所と郵
便番号からなる辞書との照合範囲を限定し、誤認識を減
少させる技術や、辞書データとの照合の結果、住所デー
タに一部の地名が欠落している場合に、その箇所を自動
的に補う技術が存在する(特開昭63-298492号公報)。
【0003】しかし、地名自体が不完全な記述をされて
いる場合、例えば、「岐阜県」と記述されるべき文字列が
「岐阜」とだけ記述された場合、それらを従来までの住所
辞書との照合方法では、入力文字「岐阜」の文字数が2で
あるのに対して、住所辞書に存在する照合文字「岐阜県」
の文字数が3であるため、文字数の不一致を招き、照合
が不可能となり、最後の文字「県」を補うことはできなか
った。
【0004】また、出力結果を特定の表現形態によるデ
ータでしか対応していないアプリケーション等で利用す
る場合、入力された住所データが必ずしもその表現形態
になっているとは限らないため、人手による修正が必要
であった。
【0005】
【発明が解決しようとする課題】本発明の文字認識後処
理装置は、上述の実情を考慮してなされたものであっ
て、住所などの特定の意味を持つ文字列の記述が、不完
全もしくは所望の表現形態とは違う別の表現形態で書か
れていたとしても、自動的に所望の表現形態に変換して
出力することを可能とした文字認識後処理装置を実現す
るものである。
【0006】
【課題を解決するための手段】本発明の文字認識後処理
装置は、入力文字列の各文字に対する複数の文字認識結
果候補を蓄積する蓄積手段と、該蓄積手段に蓄積された
文字認識結果候補の組合せからなる文字列に基づいて、
意味のある文字列集合を認識し出力する文字列認識手段
と、該認識手段で必要な情報を記述した辞書とを備えた
文字認識後処理装置において、前記文字列認識手段で出
力される文字列集合の表現形態を決定するために、異な
る表現形態を持つ文字列を抽出する特定文字列抽出手段
(6)と、該文字列を所望の表現形態に変換する表現形態
変換手段と、前記特定文字列抽出手段(6)と前記変換手
段で必要な表現形態をデータとして記憶しておく表現形
態データ記憶部を備えている。
【0007】
【作用】本発明の文字認識後処理装置においては、蓄積
手段(2,3)により、入力文字列の各文字に対する複数の
文字認識結果候補を蓄積し、蓄積された文字認識結果候
補の組合せからなる文字列に基づいて、文字列認識手段
(4)で、辞書(5)との照合により意味のある文字列集合を
認識し、出力される文字列から表現形態データ記憶部
(8)に記憶された表現形態データを基に、特定文字列抽
出手段(6)により異なる表現形態を持つ文字列を抽出
し、表現形態変換手段(7)で変換することにより、どの
表現形態の入力文字列データに対しても常に所望の表現
形態で出力することが可能となる。
【0008】
【実施例】図1は、本発明の一実施例の文字認識後処理
装置の機能構成を示すブロック図である。図1におい
て、(1)は、データ入力部である。このデータ入力部(1)
は、外部のオンラインあるいはオフライン文字認識装置
と接続され、文字認識装置の文字認識結果候補データを
本装置に入力するインタフェース部に相当する。
【0009】(2)は、文字認識結果候補蓄積部である。
(3)は、認識結果データ記憶部であり、RAM等からな
る。文字認識結果候補蓄積部(2)は、データ入力部(1)か
ら入力された文字認識結果候補を意味を持つ文字列の集
合別(ここでは、住所の都道府県、市・区などの階層毎)
に、類似度を表す値(以下、類似値とする)とともに認識
結果データ記憶部(3)に蓄積する。
【0010】(5)は、住所辞書部である。この住所辞書
部(5)は、ROMまたはRAM等からなり、図2に示すよ
うに階層的に住所情報を区分し、各階層に対応する地名
単語が記述されており、階層に沿ってある地名単語に続
く下位の地名単語の抽出が行なえる構造になっている。
図2では、岐阜県の下に岐阜市,大垣市,高山市等が存在
し、岐阜市の下には朝日町,神田町等が存在するという
ように、岐阜県の一部の地名を例にとった場合の辞書構
造を示している。
【0011】(4)は、住所文字列認識部である。この住
所文字列認識部(4)は、文字認識結果候補蓄積部(2)から
階層毎に文字認識候補の組合せからなる文字列データを
受けとり、住所辞書部(5)の対応する階層の地名単語と
の照合を行なう。照合は上位の階層から行ない、省略さ
れる可能性のある地名単語の最終文字(図2の○で囲んだ
部分に代表される「県」や「市」など)との照合は行なわな
いようにする。
【0012】これは、地名の文字数Nから最後の1文字
を除いたN−1文字分に対する照合を行なうことで実現
できる。地名単語と一致した場合は、その文字列を構成
する文字認識結果候補文字の類似値をすべて加算し、そ
れを確信度を表す得点として文字列とともに保持してお
く。
【0013】次に、その地名の下位の階層で照合を行な
い、一致する時は上位階層での得点とを加算した得点を
保持していく。全ての文字列に対して照合が行なわれた
後、最下位の階層で一番得点の高い文字列を含む文字列
の住所情報から全階層の地名単語をとりだし、階層毎に
特定文字列検出部(6)に送出する。この時、照合を省略
した地名の最終文字は付加して送出する。
【0014】(8)は、表現形態データ部である。表現形
態データ部(8)は、RAM等からなる。図3の301に示す
機能番号毎に定義されている特定文字列検出部(6)と表
現形態変換部(7)で行なう処理の機能番号が、表現形態
を決定するのに必要な数だけ各階層別に記述されてい
る。記述内容の詳細は後述する。ここに記述された番号
に基づいて、番号に対応する特定文字列検出部(6)と表
現形態変換部(7)の処理を行なう。
【0015】特定文字列検出部(6)で、図3の302に示さ
れるいくつかの種類の検出する文字列が機能番号毎に定
義され、表現形態データ部(8)指定する番号に応じて対
応する特定文字列を検出し、その検出文字列を表現形態
変換部(7)に渡す。なお、図3からも判るように、(F1,F
2),(F5〜F7),(F8〜F11)等は、そのうちの1 つのみが、
選択的に設定される。以下の実施例では、(F1,F2)にお
いてはF1が選 ばれ、(F5〜F7)ではF7が、選ばれた例を
示している。
【0016】文字列の検出は、その文字列が入力文字列
中に含まれているかどうかを最終文字から先頭文字に向
かって一文字ずつ照合して行く。検出対象文字列全てが
一致した時のみ、その文字列を出力し、続けて照合を繰
り返す。検出文字列と一致しなかった時は、表現形態デ
ータ部(8)に記述される次の指定番号に基づく文字列検
出処理に移る。
【0017】(7)は、表現形態変換部である。表現形態
変換部(7)は、特定文字列検出部(6)で検出された文字列
の出力を入力として受け、図3の303に示されるように、
機能番号に対応した出力に変換して出力データ作成部
(9)に送出する。(9)は、出力データ作成部である。出力
データ作成部(9)は、階層毎に表現形態変換部(7)の出力
文字列を入力として受け、各入力文字列を後ろから前に
つなげて一つの文字列にまとめて出力データを作成し、
出力データ部(10)または表示装置(11)に送出する。
【0018】(10)は、出力データ部である。この出力デ
ータ部(10)は、出力データ作成部(9)の出力データのR
AMまたはファイル出力装置を介したファイル出力等に
よるデータ保存に相当する。この保存データを外部のデ
ータベース装置などの入力に利用することができ、外部
出力インターフェースに相当する。(11)は、表示装置で
ある。表示装置(11)は、CRTまたはプリンター等から
なり、出力データ作成部(9)から送出されたデータの外
部表示出力を行なう。
【0019】(12)は、入力装置部である。入力装置部(1
2)は、キーボードまたはスイッチ等からなり、制御部(1
3)を介して各制御の指示入力を行なう。利用者の操作は
この入力装置部(12)を用いて行なわれる。(13)は、制御
部である。制御部(13)は、CPU等からなり、入力装置
部(12)からの指示入力に対して、文字認識結果候補蓄積
部(2),住所文字列認識部(4)、特定文字列検出部(6)、
表現形態変換部(7)、データ出力部(9)の処理を実行させ
る。
【0020】また、細線の矢印は制御信号の流れ方向、
太線の矢印はデータの流れ方向を示している。上記実施
例は、住所文字列の文字認識結果候補からなる文字列集
合から、表現形態を統一した住所データに変換して出力
するものである。例えば、住所が手書きで筆記された帳
票をOCRで読み取った時の文字認識結果候補群を入力
データとして処理し、表現形式を統一した出力データを
データベース装置などに引き渡すことを可能とする。
【0021】本発明の一実施例の処理の流れを図1,図3,
図4,図5,図6,図7,図8を用いて説明する。分かち書きさ
れた住所の入力文字列(図4の401、402、403、404)に対する
文字認識結果候補が、データ入力部(1)から与えられた
時、文字列認識結果候補蓄積部(2)により、認識結果デ
ータ記憶部(3)に図4の405、406、407、408のように階層別
に第1位から第n位までの候補文字を蓄積する。
【0022】そして、住所文字列認識部(4)により、全
ての候補文字の組合せに対して住所辞書部(5)との照合
を行なうと、全ての階層に対して住所として意味を持つ
単語の組合せ(図4の□で囲んだ文字からなる文字列)を
決定する。この時、住所文字列として認識された住所文
字列認識部(4)の出力結果には、図5の如く、照合を省略
した地名の最終文字(「県」や「市」など)を補った形式で与
える。
【0023】次に、階層毎に図3の301に示す機能番号を
基に記述された表現形態データ部(8)の表現形態データ
(図6の601、602、603、604)に従って、特定文字列検出部に
文字列を送出し、機能番号に応じた文字列の検出を行な
う。文字列の検出は、入力文字列の最後の文字から先頭
の文字に向かって行なう。その結果データを表現形態変
換部(7)が受け、変換後のデータをデータ出力部(9)に送
出する。
【0024】図6を用いて表現形態データ部(8)の記述内
容と丁目・番地の階層の文字列データに対する特定文字
列検出部(6)と表現形態変換部(7)の処理の流れを説明す
る。図6において、601は、都道府県の階層に対応する表
現形態データを示し、都道府県を表す文字列が、漢字列
と最後に「都」「道」「府」「県」の文字のどれかを追加した表
現で成り立っていることを基に、図3の301からF3とF1を
選択し、F3F1と記述されている。
【0025】このように、表現形態データには、入力文
字列の構成を基に図3の302の検出文字列を選択し、実際
の出力(図3の303)に応じて機能番号(図3の301)を順次記
述する。602は、市・区の階層に対する表現形態データ
を示し、入力文字列構成からF3F1と記述されている。
【0026】603は、町の階層に対する表現形態データ
を示し、漢字列をそのまま出力するためにF3と記述され
ている。604は、丁目・番地に対する表現形態データを
示し、入力文字列構成が数字列と数字列の間に「の」また
は「−」が挿入された場合を仮定して、数字列と「−」と数
字列の並びで出力されるように、F4F7F4と記述されてい
る。
【0027】今、丁目・番地の階層の文字列データ(60
5)の「2の115」が入力されると、その階層に対応する
表現形態データ(604)のF4F7F4を参照し、まず最終デー
タF4から図3の(301)の機能番号F4に対応する文字列検出
を行なう。(606)で数字とデータの照合から連続した数
字の文字列「115」を出力し、(609)で入力された文字
列「115」(612)をそのまま出力する。
【0028】次に、表現形態データのF7から文字列検出
の続きを行なうため、(607)では機能番号F7に対応す
る検出処理として、「丁目」または「の」または「−」の文字
列の照合を行ない、一致した「の」を出力する。(610)で
は機能番号F7の変換処理として、入力された文字列を
「−」(613)に置き換えて出力する。
【0029】次に、表現形態データのF4から文字列検出
の続きを行なうため、(608)では機能番号F4に対応する
検出処理として、数字とデータの照合から「2」を出力
し、(611)では機能番号F4の変換処理として、入力され
た文字列「2」(614)をそのまま出力する。図7の如く、表
現形態データの機能番号に対応した特定文字列検出処理
と表現形態変換処理を行なうことで、都道府県の階層で
は、表現形態データ(601)のF3F1からF3に対応する「岐
阜」とF1に対応する「県」を出力し、市・区の階層では、
表現形態データ(602)のF3F1からF3に対応する「高山」とF
1に対応する「市」を出力し、町の階層では、表現形態デ
ータ(603)のF3から「馬場町」を出力する。
【0030】出力データ作成部(9)では、階層毎に、表
現形態変換部(7)から出力された文字列を出力順に文字
列の先頭に追加していき、全ての出力文字列を一つの文
字列にまとめて結合する。例えば、丁目・番地の階層で
は、表現形態変換部(7)から「115」、「−」、「2」の順に
文字列が出力されると、「115」、「−115」、「2−1
15」の順に出力データを作成する。
【0031】同様に、各階層の出力データとして、図8
の如く、都道府県の階層では「岐阜県」を、市・区の階層
では「高山市」を、町の階層では「馬場町」を作成する。全
ての階層に対して出力データを作成すると、図8に示す
最終結果を出力データ部(10)と表示装置(11)に出力す
る。この応用として、表現形態データ部(8)の表現形態
データ(図6の604)をF4F7F4F11に変更することにより、
「2丁目115番地」などの文字列データに対して、「2」
をF4に、「丁目」をF7に、「115」をF4に、「番地」をF11
に対応させることで、「2−115」に変換して出力した
り、図6の(601)をF3F2に変更して「東京都」の入力に対し
て「東京」をF3に、「都」をF2に対応させ、「東京」のように
簡略して出力することが可能となる。
【0032】また、住所データ以外に応用すると、表現
形態データをF3F13と設定し、会社名を表す文字列「三三
電電株式会社」に対して、「三三電電」をF3に、「株式会
社」をF13に対応させて、「三三電電(株)」で出力すること
や、表現形態データをF17F18と設定し、ふりがなを表す
文字列「やまだ」と「ヤマダ」の両方に対して、前者をF17
に、後者をF18に対応させることで、常にカタカナの「ヤ
マダ」で統一して出力したり、表現形態データをF4F15F4
F15F4と設定し、電話番号を表す文字列「0584(12)
3456」に対して、「0584」をF4に、「(」をF15に、
「12」をF4に、「)」をF15に、「3456」をF4に対応させ
ることで、「0584−12−3456」に変換して出力
することなどが可能である。
【0033】
【発明の効果】本発明の文字認識後処理装置によれば、
入力としての意味のある文字列の表現形態に関する制限
を緩和し、常に所望の表現形態に統一した文字列データ
に変換して出力することが可能となる。出力データをデ
ータベースなどのデータに利用すると検索などが行ない
やすくなる。
【図面の簡単な説明】
【図1】本発明の一実施例の文字認識後処理装置の構成
を示すブロック図である。
【図2】この一実施例の住所辞書部(5)の階層構造を示
す図である。
【図3】この一実施例の表現形態データ部の内容の一例
を示す図である。
【図4】この一実施例における入力データの文字認識結
果候補の例を示す図である。
【図5】この一実施例の住所辞書(5)との照合の結果特
定された住所文字列認識結果の例を示す図である。
【図6】この一実施例の表現形態データ部の内容と表現
形態変換の工程を示す図である。
【図7】この一実施例の表現形態変換されたデータ出力
を示す図である。
【図8】この一実施例の決められた表現形態に変換され
た住所データを示す図である。
【符号の説明】
1 データ部 2 文字認識結果候補蓄積部(蓄積手段) 3 認識結果データメモリ部(蓄積手段) 4 住所文字列認識部(文字列認識手段) 5 住所辞書部(辞書) 6 特定文字列検出部(特定文字列検出手段,特定文字列
抽出手段) 7 表現形式変換部(表現形態変換手段) 8 表現形態データ部(表現形態データ記憶部) 9 出力データ作成部 10 出力データ部 11 表示装置部 12 入力装置部 13 制御部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山本 英人 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内 (72)発明者 堀井 洋 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内 (72)発明者 古和田 孝之 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内 (72)発明者 長沢 喜美男 大阪府守口市京阪本通2丁目18番地 三洋 電機株式会社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力文字列の各文字に対する複数の文字
    認識結果候補を蓄積する蓄積手段(2、3)と、該蓄積手段
    (2、3)に蓄積された文字認識結果候補の組合せからなる
    文字列に基づいて、意味のある文字列集合を認識し出力
    する文字列認識手段(4)と、該認識手段(4)で必要な情報
    を記述した辞書(5)とを備えた文字認識後処理装置にお
    いて、 前記文字列認識手段(4)で出力される文字列集合の表現
    形態を決定するために、異なる表現形態を持つ文字列を
    抽出する特定文字列検出手段(6)と、 該文字列を所望の表現形態に変換する表現形態変換手段
    (7)と、 前記特定文字列抽出手段(6)と前記表現形態変換手段(7)
    で必要な表現形態をデータとして記憶しておく表現形態
    データ記憶部(8)とを備えていることを特徴とした文字
    認識後処理装置。
  2. 【請求項2】 前記特定文字列検出手段(6)は、予め検
    出する文字列を定義し、必要に応じて検出する文字列を
    選択し、検出した文字列を出力することを特徴とする請
    求項1記載の文字認識後処理装置。
  3. 【請求項3】 前記表現形態変換手段(7)は、予め前記
    特定文字列検出手段(6)で検出した文字列に対応する変
    換文字列を定義し、前記特定文字列検出手段(8)で検出
    した文字列を別の表現形態に変換することを特徴とした
    請求項1記載の文字認識後処理装置。
JP5113082A 1993-05-14 1993-05-14 文字認識後処理装置 Pending JPH06325204A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5113082A JPH06325204A (ja) 1993-05-14 1993-05-14 文字認識後処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5113082A JPH06325204A (ja) 1993-05-14 1993-05-14 文字認識後処理装置

Publications (1)

Publication Number Publication Date
JPH06325204A true JPH06325204A (ja) 1994-11-25

Family

ID=14603031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5113082A Pending JPH06325204A (ja) 1993-05-14 1993-05-14 文字認識後処理装置

Country Status (1)

Country Link
JP (1) JPH06325204A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138396A (ja) * 2014-01-22 2015-07-30 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2018060474A (ja) * 2016-10-07 2018-04-12 富士通株式会社 地名抽出プログラム、地名抽出装置および地名抽出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138396A (ja) * 2014-01-22 2015-07-30 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2018060474A (ja) * 2016-10-07 2018-04-12 富士通株式会社 地名抽出プログラム、地名抽出装置および地名抽出方法

Similar Documents

Publication Publication Date Title
US8504350B2 (en) User-interactive automatic translation device and method for mobile device
US6405172B1 (en) Voice-enabled directory look-up based on recognized spoken initial characters
CN1424711A (zh) 基于约束条件的语音识别系统和方法
JPH0634185B2 (ja) 入力語認識装置
US8411958B2 (en) Apparatus and method for handwriting recognition
JPH10230226A (ja) 住所読み取り装置
JPH1011434A (ja) 情報認識装置
JPH06325204A (ja) 文字認識後処理装置
JP5443788B2 (ja) 正式名称判定システム及び正式名称判定プログラム
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
CN112562668A (zh) 一种语义信息纠偏方法和装置
JPH11207266A (ja) 住所読取装置及び方法
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JPH08180064A (ja) 文書検索方法及び文書ファイリング装置
JP2014137636A (ja) 情報検索装置及び情報検索方法
JP2000090193A (ja) 文字認識装置および項目分類方法
CN113722447B (zh) 一种基于多策略匹配的语音搜索方法
JPH06325215A (ja) 文字列認識装置
JPH0441388B2 (ja)
JP2000215023A (ja) ペ―ジ記述言語表示装置及びペ―ジ記述言語表示プログラムを記録した機械読み取り可能な記録媒体
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JP2021085996A (ja) 音声認識システム、音声認識方法
JPH11316802A (ja) 単語認識装置及びその住所地名登録方法並びに記録媒体
KR100207657B1 (ko) 계층 구조의 문자 인식 방법 및 장치,그리고 이에 적합한 단어후처리 방법
JP2000036008A (ja) 文字認識装置及び記憶媒体