JPH0778155A - 文書認識装置 - Google Patents

文書認識装置

Info

Publication number
JPH0778155A
JPH0778155A JP5172721A JP17272193A JPH0778155A JP H0778155 A JPH0778155 A JP H0778155A JP 5172721 A JP5172721 A JP 5172721A JP 17272193 A JP17272193 A JP 17272193A JP H0778155 A JPH0778155 A JP H0778155A
Authority
JP
Japan
Prior art keywords
word
document
recognition
sentence
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5172721A
Other languages
English (en)
Inventor
Keiko Hara
恵子 原
Jun Yoshino
順 吉野
Kazumi Iwane
和巳 岩根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP5172721A priority Critical patent/JPH0778155A/ja
Publication of JPH0778155A publication Critical patent/JPH0778155A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 認識文書について、1度だけの形態素解析に
よって表記と読みとの双方を出力できる文書認識装置を
提供する。 【構成】 文字認識処理部(111)が、入力文書の文
字列画像から文字を切出して、文字認識を行なって複数
個の認識候補文字列を出力する。次に、形態素解析処理
部(121)が、認識候補文字列から単語を抽出し、各
単語の接続検定を行い、接続可能な単語を繋げていくこ
とにより、入力文書の正しい表記を決定する。その際、
形態素解析処理部(121)は更に、入力文書の各単語
に単語番号を付与して、正しい表記と共に出力する。次
に、ふりがな付与部(131)が、形態素解析部から得
た文の表記に、各単語の単語番号に基づいて、予め用意
したふりがなを自動的に付与する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書認識装置に関するも
のであり、特に、出力文書に自動的にふりがなを付与す
ることができる文書認識装置に関するものである。
【0002】
【従来の技術】従来、文書認識装置は、文字認識部と形
態素解析部とを備える。文字認識部では入力した文書の
文字列画像から文字を切出して文字認識を行なって、複
数個の認識候補文字を出力する。形態素解析部は、文字
認識部で認識した認識候補文字を単語辞書と照合して、
照合単語間の接続検定を行ない、接続可能な単語の組合
わせから出力文書を作成する。
【0003】従来の文書認識装置における形態素解析部
は、認識候補文字の表記のみを用い、したがって、出力
結果も認識した文字の表記のみであり、これらの文字の
読みであるふりがなまでは問題にしていない。
【0004】
【発明が解決しようとする課題】このように、従来の文
書認識装置の出力結果には、文書の読み、すなわちふり
がなが付与されていないため、例えば、文字認識装置を
文字読上げ装置と接続して、盲人向けの文章朗読を自動
化する場合等、出力結果を音声化する必要がある場合
に、文字認識装置の出力結果について再度形態素解析を
行なって出力文字の読みを得る必要がる。つまり、従来
は、文書認識装置で認識した文書を音声化するにあたっ
て、認識候補文字から認識結果を得るためと、この認識
結果の読みを得るためとに、2度形態素解析を行なう必
要がある。このため装置の構成が複雑になり、処理時間
が長くなるという問題がある。従って、本発明の目的
は、1度だけの形態素解析によって認識文書について、
表記と読みとの双方を出力できる文書認識装置を提供す
る。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、入力文書の文字列画像について文字認識
を行なって、認識候補文字列を出力する文字認識処理手
段と、この認識候補文字列について形態素解析を行なっ
て、正解文の表記と、正解文を構成する各単語の単語番
号とを出力する形態素解析処理手段と、形態素解析手段
より出力した単語番号に基づいて、前記正解文に自動的
にふりがなを付与する自動ふりがな付与手段とを備える
ことを特徴とする文書認識装置。
【0006】
【作用】入力文書について、まず文字認識を行なって、
認識候補文字列を得る。次に、この認識候補文字列に対
して形態素解析を行なって、正解文の表記を決定する。
形態素解析では一般に、単語辞書を参照して、認識候補
文字列から各単語を抽出し、単語間の接続検定を行な
い、接続可能な単語を繋げていくことにより正解文の表
記を決定する。
【0007】この形態素解析において、上記表記決定処
理に加え、各単語にその単語番号をを付す処理が行なわ
れる。これにより、形態素解析から得られた正解文は、
その表記に各単語の単語番号が付加されたものとなる。
この正解文に対し、各単語番号に基づき各単語の読み
(ふりがな)が付与される。この結果、読みが追加され
た正解文が出力される。
【0008】このようにして、従来、文書を認識するた
めと、その読みを得るために2度必要であった形態素解
析処理を一度行なうだけで、文書の表記とその読みとを
得ることができるため、処理の高速化を図ることができ
る。
【0009】
【実施例】以下に図面を用いて本発明の文書認識装置の
実施例を説明する。
【0010】図1は、本発明の文書認識装置の一実施例
構成を示すブロック図である。
【0011】図1に示すとおり、文書認識装置は、入力
文書画像の文字認識を行なう文字認識処理部111、文
字認識処理部111で認識した認識文字について形態素
解析を行なう形態素解析処理部121、形態素解析結果
にふりがなを付与するふりがな付与処理部131、及び
メモリ部141とで構成されている。
【0012】メモリ部141は、文字の画像特徴量を記
録した文字認識用辞書142、文字認識の結果を格納す
る文字認識結果テーブル143、単語の表記、読み、文
法的な接続情報を記録した単語辞書144、単語間接属
のルールを記述した文法接続ルール145、及び形態素
解析結果を格納する形態素解析結果テーブル146とか
ら構成されている。
【0013】図1に示す文書認識装置における文書認識
処理を、以下に説明する。
【0014】まず、文字認識処理部111に文書画像を
入力し、入力文書から入力文字列画像の文字切出しを行
なって、文字認識用辞書142を用いて文字認識を行な
う。この認識結果(複数個の認識候補文字列)は文字認
識結果テーブル143に格納しておく。
【0015】ついで、形態素解析処理部121にて、文
字認識結果テーブル143に格納した認識候補文字列に
ついて形態素解析を行なって、認識候補文字列から正解
文字を選択した文、あるいは認識候補文字列に正解文字
が含まれていない場合はこれを訂正した文を作成する。
この形態素解析では、認識候補文字列を単語辞書144
と照合して単語を抽出し、更に、この抽出した単語につ
いて、文法接続ルール145による単語間の接続検定を
行ない、接続可能な単語を繋げていくことにより、出力
文を作成する。なお、単語辞書144に格納されている
各単語には、一意に単語番号が与えられており、形態素
解析処理部121は、作成した出力文について、その文
の表記と共に、この文を構成する単語間を区切るマーキ
ングと、各単語の単語番号とを付加した情報を、形態素
解析結果テーブル146に格納する。
【0016】図2は、単語辞書144の構成を示す図で
ある。単語辞書144は、各単語の表記品詞、接続可能
な品詞リスト等の形態素解析用の単語情報を単語番号順
に格納した形態素解析用テーブル144a、ふりがなテ
ーブル144cへのポインタを単語番号順に格納した単
語情報テーブル144b、及び、単語番号順にふりがな
のみを格納したふりがなテーブル144cとから構成さ
れている。なお、この単語辞書144では、表記が同一
で読みが異なる単語については別単語として登録されて
いる。
【0017】ふりがな付与処理部131において、形態
素解析結果テーブル146に格納した文について、この
文を構成する各単語に付された単語番号に基づいて単語
辞書144から単語の読みを得て、出力文にふりがなを
付与する。なお、単語辞書144でふりがなを別テーブ
ルに格納するのは、ふりがなの長さが単語によって異な
るためである。
【0018】ふりがな付与処理部131では、出力文を
構成する各単語の単語番号を取得し、この単語番号に対
応する単語について、ふりがなテーブル144cを参照
してふりがなを取得する。ついで、形態素解析結果テー
ブル146から出力文書の表記を得て、先に取得したふ
りがなと共に文書認識結果として出力する。
【0019】次に、図1に示す文書認識装置における処
理の具体例を図3及び図4を用いて説明する。
【0020】この例では手書きされた「重箱読みと湯桶
読みがある」が入力文書であるものとする。
【0021】まず、文字認識処理部111において、入
力した画像に対して文字の切出しを行ない、文字認識用
辞書142を用いて文字認識を行なう。図3に、この結
果得られたN個の認識候補文字列を示す。このようにし
て得た認識候補文字列は、文字認識結果テーブル143
に格納される。
【0022】次に、形態素解析処理部121においてこ
の認識候補文字列に対して形態素解析を行なって、正解
文字を選択し、或いは正解文字が含まれていない場合は
この訂正を行なう。即ち、認識候補文字列と単語辞書1
44の形態素解析用テーブル144aに記録した品詞情
報、表記等を照合して単語を抽出し、文法接続ルール1
45を用いて抽出した単語間の接続検定を行なう。そし
て、接続可能である単語組を繋げていくことによって、
出力文を構成してその表記を形態素解析結果格納テーブ
ル146に格納する。その際、形態素解析用テーブル1
44aに記録されている単語情報には、単語番号が付与
されているので、これを参照して出力文を構成する各単
語を区切るマーキングと各単語の単語番号とを、出力文
の表記と共に形態素解析結果テーブル146に格納する
ようにする。この例では、入力文通り解析され、「重箱
読み|と|湯桶読み|が|ある」と出力されたものとす
る。
【0023】形態素解析の手法としては、右方向最長一
致法を用いる手法、接続表を用いる手法等があるが、ど
の手法を用いてもよい。
【0024】次に、ふりがな付与処理部131におい
て、上記形態素解析結果に対してふりがなの付与を行な
う。即ち、上記の形態素解析処理部121の出力文書を
構成する単語に付されている単語番号に基づいて当該単
語の読みを得るようにする。即ち、ふりがなテーブル1
44cから各単語の単語番号に対応するふりがなを取得
して、認識文書の表記と共に、この表記の読み(ふりが
な)を付して、ふりがな付きの文書として出力する。
【0025】なお、単語辞書144に、漢字部分の読み
のみを登録するようにしておくことによって、出力文書
の漢字部分についてのみふりがなを付与することが可能
である。
【0026】以上、本発明の好適な一実施例を説明した
が、本発明はこの実施例にのみ限定されるのではなく、
種々の異なる態様で実施することが可能である。
【0027】
【発明の効果】上記に詳細に説明したとおり、本発明の
文書認識装置では、文書の表記を決定するための形態素
解析において、文書を構成する各単語と、予め用意した
各単語の読みとの対応付けを行なうようにしているの
で、この文書を音声化して出力する際等に、従来、2度
行なう必要のあった形態素解析処理を一度で済ませるこ
とができ、よって処理の高速化を図ることが可能とな
る。
【図面の簡単な説明】
【図1】 本発明の文書認識装置の構成を示すブロック
図である。
【図2】 本発明の装置に用いる単語辞書の構成を示す
図である。
【図2】 図1に示す装置における処理の具体例を示す
図である。
【図3】 入力データの文書例とその文字認識結果の一
例を示す図である。
【符号の説明】
111 文字認識処理部 121 形態素解析処理部 131 ふりがな付与処理部 141 メモリ部 142 文字認識用辞書 143 文字認識結果テーブル 144 単語辞書 145 文法接続ルール 146 形態素解析結果テーブル
【手続補正書】
【提出日】平成6年3月16日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】図面の簡単な説明
【補正方法】変更
【補正内容】
【図面の簡単な説明】
【図1】 本発明の文書認識装置の構成を示すブロック
図である。
【図2】 本発明の装置に用いる単語辞書の構成を示す
図である。
【図3】 図1に示す装置における処理の具体例を示す
図である。
【図4】 入力データの文書例とその文字認識結果の一
例を示す図である。
【符号の説明】 111 文字認識処理部 121 形態素解析処理部 131 ふりがな付与処理部 141 メモリ部 142 文字認識用辞書 143 文字認識結果テーブル 144 単語辞書 145 文法接続ルール 146 形態素解析結果テーブル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力文書の文字列画像について文字認識
    を行なって、認識候補文字列を出力する文字認識処理手
    段と、 前記認識候補文字列について形態素解析を行なって、正
    解文の表記と、正解文を構成する各単語の単語番号とを
    出力する形態素解析処理手段と、 前記形態素解析手段より出力した単語番号に基づいて、
    前記正解文に自動的にふりがなを付与する自動ふりがな
    付与手段とを備えることを特徴とする文書認識装置。
  2. 【請求項2】 請求項1記載の装置において、前記形態
    素解析に必要な種々の単語の表記と単語番号、及び前記
    ふりがな付与処理に必要な単語番号に対応する読みを格
    納した単語辞書を備え、 前記単語辞書では、表記が同一で読みが異なる単語が別
    単語として登録されていることを特徴とする文書認識装
    置。
  3. 【請求項3】 請求項2記載の装置において、前記単語
    辞書には、漢字の単語の読みのみが登録されていること
    を特徴とする文書認識装置。
  4. 【請求項4】 請求項1乃至3のいずれか記載の装置に
    おいて、前記形態素解析手段が、前記正解文の表記と共
    に、この正解文の各単語を区切るマーキングと各単語の
    単語番号とを出力し、 前記ふりがな付与手段が、前記正解文の各単語の単語番
    号に対応する読みを前記単語辞書から取得することによ
    り、前記正解文にふりがなを付与することを特徴とする
    文書認識装置。
JP5172721A 1993-06-18 1993-06-18 文書認識装置 Pending JPH0778155A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5172721A JPH0778155A (ja) 1993-06-18 1993-06-18 文書認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5172721A JPH0778155A (ja) 1993-06-18 1993-06-18 文書認識装置

Publications (1)

Publication Number Publication Date
JPH0778155A true JPH0778155A (ja) 1995-03-20

Family

ID=15947103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5172721A Pending JPH0778155A (ja) 1993-06-18 1993-06-18 文書認識装置

Country Status (1)

Country Link
JP (1) JPH0778155A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7432321B2 (en) 2002-07-09 2008-10-07 Momentive Performance Materials Inc. Silica-rubber mixtures having improved hardness

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7432321B2 (en) 2002-07-09 2008-10-07 Momentive Performance Materials Inc. Silica-rubber mixtures having improved hardness

Similar Documents

Publication Publication Date Title
US6178396B1 (en) Word/phrase classification processing method and apparatus
JP2000163418A (ja) 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JPH0778155A (ja) 文書認識装置
JPS62165267A (ja) 音声ワ−ドプロセツサ装置
JP3002202B2 (ja) 規則音声合成装置における数詞読み付与装置
KR940022311A (ko) 기계번역장치 및 방법
JP3470927B2 (ja) 自然語解析方法及び装置
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JPH01114976A (ja) 文書処理装置の辞書構造
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
van Leeuwen TooLiP: a development tool for linguistic rules
JP2939945B2 (ja) ローマ字住所認識装置
JPS62224859A (ja) 日本語処理方式
JPH0546814A (ja) 文字読み取り装置
JPS62180462A (ja) 音声入力かな漢字変換装置
JP2798747B2 (ja) 自然言語処理方式
JPH11161651A (ja) 発音記号生成装置
KR100932643B1 (ko) 한국어 tts 시스템을 위한 형태소, 구문 분석 없는음소열-발음열 변환방법 및 장치
JPS6146557A (ja) 音声ワ−ドプロセツサ
JPH0262659A (ja) 日本文訂正候補文字抽出装置
KR19980036108A (ko) 개념기반 다국어 번역시스템의 문법 자동수정 방법
JPH05181900A (ja) 固有名詞処理装置
JPH047670A (ja) 文章解析方式