JP3347477B2 - 単語辞書登録装置及び文書認識装置 - Google Patents

単語辞書登録装置及び文書認識装置

Info

Publication number
JP3347477B2
JP3347477B2 JP14281694A JP14281694A JP3347477B2 JP 3347477 B2 JP3347477 B2 JP 3347477B2 JP 14281694 A JP14281694 A JP 14281694A JP 14281694 A JP14281694 A JP 14281694A JP 3347477 B2 JP3347477 B2 JP 3347477B2
Authority
JP
Japan
Prior art keywords
word
unknown
meaning
item
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14281694A
Other languages
English (en)
Other versions
JPH0816597A (ja
Inventor
秀樹 山本
達哉 介弘
久明 松下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP14281694A priority Critical patent/JP3347477B2/ja
Publication of JPH0816597A publication Critical patent/JPH0816597A/ja
Application granted granted Critical
Publication of JP3347477B2 publication Critical patent/JP3347477B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は単語辞書登録装置及び
文書認識装置に関し、例えば、種々の言語処理のための
ものである。
【0002】
【従来の技術】近年、自然言語処理に関する技術開発が
盛んに行なわれている。このような自然言語処理に使用
される単語辞書登録装置に関する技術として、文献:特
開平3−246673号公報に示されている技術があ
る。
【0003】この文献で示されている技術は、単語表記
と意味カテゴリを各単語に対して規定した単語辞書を備
え、単語の持つ意味を示す意味カテゴリを利用して自然
言語による入力文の処理を行う自然言語処理装置に対す
る単語辞書登録装置に関するものである。
【0004】具体的には、単語辞書を参照して、入力文
を構成する単語と、その単語の意味カテゴリを抽出し、
未知語を検出する形態素解析手段を備えている。
【0005】更に、その形態素解析から、入力を構成す
る単語の単語表記と意味カテゴリ、及び未知語であるか
どうかの情報を得て、その入力文中に未知語があればユ
ーザに知らせて登録を促し、未知語が無ければ入力文を
自然言語処理装置へ送る未知語表示手段を備えるもので
ある。
【0006】更にまた、入力文に対する自然言語処理装
置の処理内容にユーザが疑問や不備を持ったときに、そ
のユーザの求めに応じて、未知語検索表示手段を得てい
る入力文を構成する単語の意味カテゴリと、各単語表記
とを表示する解析結果表示手段を備える。
【0007】更に、未知語表示手段又は解析結果表示手
段で示された情報を参考にして、単語辞書に新規に登録
する単語、又は登録内容を変更する単語の単語表記をユ
ーザに入力させる単語表記入力手段を備えるものであ
る。
【0008】以上のような構成によって、未知語と判断
された単語に対して、意味定義文の入力手段を与え、そ
れによって未知語の単語登録を容易にさせようとするも
のである。
【0009】
【発明が解決しようとする課題】しかしながら、その未
知語の意味をユーザが全く知らない場合や、更に、既存
の紙の辞典、辞典の類に登録されていない場合は、ユー
ザは意味定義文を作成することができず、単語の登録が
できないという問題があった。
【0010】このため、未知語に対する品詞や意味カテ
ゴリなどの諸元を単語辞書装置に従来に比べ能率的に登
録することができる仕組みと、文書中の情報から自動的
に文字認識して未知語に対する品詞や意味カテゴリなど
の諸元を単語辞書装置に能率的に登録し得る仕組みの提
供が要請されている。
【0011】
【課題を解決するための手段】かかる課題を解決するた
めに、第1の本発明の単語辞書登録装置は、単語辞書に
登録されていない未知語に対して、少なくともその単語
表記とその単語の意味カテゴリとを単語辞書に登録する
単語辞書登録装置において、入力された文書の中から複
数の項目によって構成されている表領域を抽出する表領
域抽出手段と、表領域抽出手段によって抽出された表領
域の各項目に記載されている単語の意味カテゴリを、各
単語を見出しとして単語辞書を参照して検出し、その検
出された各単語の意味カテゴリの出現数を各項目毎に集
計する形態素解析手段と、表領域抽出手段により抽出さ
れた表領域の各項目に記載されている単語のうち、単語
辞書に登録されていない未知語を各項目毎に検出する未
知語検出手段と、未知語検出手段によって検出された未
知語が属する項目と同じ項目に記載されている登録単語
の意味カテゴリの出現数に基づいて、未知語の意味カテ
ゴリを推定する意味カテゴリ推定手段と、意味カテゴリ
推定手段により推定された未知語の意味カテゴリを表示
して、表示された未知語の意味カテゴリについてのユー
ザによる判断結果を取り込む表示・判断手段と、表示・
判断手段からの判断結果に基づいて、未知語の意味カテ
ゴリを単語辞書に登録する登録手段とを備えることを特
徴とする。 また、第2の本発明の文書識別装置は、各単
語に対して、少なくともその単語 表記とその単語の意味
カテゴリとが登録されている単語辞書を備え、入力され
た文書を認識する文書認識装置において、入力された文
書の中から複数の項目によって構成されている表領域
と、その表領域以外の文字領域とを選別する文書構造選
別手段と、文書構造選別手段によって選別された表領域
以外の文字領域の単語を認識して、その文字領域認識結
果を記憶する文字領域認識手段と、文書構造選別手段に
よって選別された表領域の各項目に記載されている単語
の意味カテゴリを、各単語を見出しとして上記単語辞書
を参照して検出し、その検出された各単語の意味カテゴ
リの出現数を各項目毎に集計する形態素解析手段と、文
書構造選別手段により選別された表領域の各項目に記載
されている単語のうち、未知語を各項目毎に検出する未
知語検出手段と、未知語検出手段によって検出された未
知語が属する項目と同じ項目に記載されている登録単語
の意味カテゴリの出現数に基づいて、未知語の意味カテ
ゴリを推定する意味カテゴリ推定手段と、意味カテゴリ
推定手段により推定された未知語の意味カテゴリを表示
して、表示された未登録の意味カテゴリについてのユー
ザによる判断結果を取り込む表示・判断手段と、表示・
判断手段からの判断結果に基づいて、文書認識手段に記
憶されている未知語に対応する文字領域認証結果内容を
修正する修正手段とを備えることを特徴とする。
【0012】
【作用】第1の本発明の単語辞書登録装置の構成は、表
の同じ列の項目が同じ品詞と意味カテゴリを採り易いと
いう性質を利用したものであり、例えば、文書中の表デ
ータの既知語の情報を使用して、表データの未知語の品
詞と意味カテゴリとを自動的に推定できるものである。
【0013】更に、推定結果を提示し、提示された推定
結果を修正するための表示・判断手段とを備えること
で、ユーザなどからの入力情報に基づき修正して適当な
意味カテゴリを得ることができ、単語辞書に登録するこ
ともできるものである。
【0014】従って、上述の構成によって、ユーザが知
らない単語や、単語辞書に登録されていない未知語の意
味カテゴリを推定することができる。このようなことか
ら、未知語の単語辞書登録の手間を大幅に改善すること
ができると考えられる。
【0015】また、第2の本発明の文書認識装置の構成
、未知語の意味カテゴリを推定し、この推定結果を用
いて文書認識結果を修正する手段を備えることで、文書
認識の精度を向上させ、認識文書に含まれる未知語の登
録を能率的にさせることができる。
【0016】また、未知語とその推定結果又は推定結果
の修正後の意味カテゴリを単語辞書に登録する手段を備
えることで、未知語の意味カテゴリの内容も充実したも
のにすることができると考えられる。
【0017】
【実施例】次にこの発明の好適な実施例を図面を用いて
説明する。『基本的な考え方』:そこで、この実施例で
は、『ユーザが知らない辞書に登録されていない未知
語の意味カテゴリを推定する手段を設けるものであ
る』。更に、『ユーザは、この実施例の装置を使用し、
装置が出力する意味カテゴリ候補の中から意味カテゴリ
を選択できるように構成する』ものである。
【0018】『第1実施例』: そこで、第1実施例
では、単語表記と意味カテゴリを各単語に対して規定し
た単語辞書を備え、単語の持つ意味を示す意味カテゴリ
を利用して自然言語による入力文の処理を行う自然言語
処理装置に対する単語辞書登録装置において、以下のよ
うな各手段を備えるものである。
【0019】(a)自然言語文を入力する手段と、
(b)入力した文書の中から表属性のある箇所を抽出す
る手段と、(c)単語辞書を参照して、表を構成する単
語とその単語の意味カテゴリを抽出し、未知語を検出す
る形態素解析手段と、(d)この解析結果を集計する手
段と、(e)表の構成情報を用いて既知語の意味カテゴ
リから未知語の意味カテゴリを推定する手段と、(f)
推定された意味カテゴリをユーザに確認或いは訂正させ
る手段と、(g)辞書に登録する手段とを備えるもので
ある。
【0020】『第1実施例の装置の構成』: 図1は
この第1実施例の単語辞書登録装置の機能構成図であ
る。この図1において、単語辞書登録装置は、文書入力
回路1と、文書属性抽出回路2と、形態素解析回路3
と、解析結果集計回路4と、品詞意味推定回路5と、未
知語表示回路6と、辞書データ入力回路7と、辞書登録
回路8と、単語辞書部9と、未知語テーブル10と、品
詞意味テーブル11とから構成されている。
【0021】そして、文書入力回路1は、文書を入力す
る回路であって、例えば、図2に示しているような文書
を取り込むものとする。この図2に示している文書21
は、表と文章との属性を持ったオブジェクトから構成さ
れている。
【0022】また、入力する文書は、図、ページ番号、
章番号などの属性を持ったオブジェクトから構成される
ものとする。
【0023】更に、文書属性抽出回路2は、入力された
文書の中から表の属性だけを抽出する回路である。この
抽出された表は、表の識別を行うための表ID(識別
子)31、表の表題32、表の列名28〜30、行デー
タ23〜27までの部分から構成されている。
【0024】更にまた、形態素解析回路3は、単語辞書
部9を参照して、表の行データの各項目を構成する単語
とその単語の意味カテゴリとを検出し、未知語を検出す
る回路である。更にまた、単語辞書部9の例を図8に示
している。また、単語辞書部9は、単語見出し81、品
詞82、意味カテゴリ83、訳語84などから構成され
る。
【0025】一方、図2に示している入力文書の表中の
氏名29の列の形態素解析結果を図3に示している。ま
た、図2の行23の氏名29「山本太郎」の解析結果
は、「山本」、及び「太郎」が単語辞書部9に存在する
ので、図3の行35のように解析される。
【0026】更に、図2の行24の氏名29「川野篤
志」の解析結果は、「篤志」が図8の単語辞書部9に存
在しないので未知語となる。更にまた、図3では便宜
上、行36の品詞39欄を未知語としている。また同様
に、「松下泰弘」というデータの解析結果では、「泰
弘」が未知語になっている。
【0027】更にまた、解析結果集計回路4は、形態素
解析の結果を集計するものである。具体的には、形態素
解析した結果、未知語が含まれている項目については、
解析結果集計回路4は、未知語テーブル10に格納す
る。ここで、未知語テーブル10の例を図5に示してい
る。この未知語テーブル10は、形態素パターン64
と、それに対する付随的な情報である表ID61、列名
62、項目内容63などから構成される。
【0028】更に、形態素パターン64は、項目のデー
タを形態素解析した結果をパターン化したものである。
そして、この形態素パターンは、項目のデータを左の単
語から順に品詞と意味カテゴリを並べたものである。但
し、未知語については品詞の場所を「未知語」、意味カ
テゴリの場所にその未知語の見出しを入れるものであ
る。更に、表ID61、列名62は、項目の出現した表
IDと列名を表すものである。
【0029】更にまた、形態素解析した結果、未知語が
含まれていない項目については、解析結果集計回路4は
品詞意味テーブル11に格納するものである。ここで、
この品詞意味テーブル11の例を図4に示している。そ
して、品詞意味テーブル11は、表ID41、列名4
2、形態素パターン43、及び出現数44から構成され
る。また、表ID41、列名42は、項目の出現した表
IDと列名を表すものである。
【0030】尚この出現数44は、ある表IDの列名4
2の列のデータの中で該当する品詞と意味カテゴリが出
現した回数を保持している。例えば、図3の形態素解析
結果を使って説明すると、未知語の出現しなかった行3
5のデータ「山本太郎」は、「山本」と、「太郎」とは
両者とも品詞が名詞、意味カテゴリは人名であるため、
形態素パターンは「(名詞、人名)(名詞、人名)」と
なる。
【0031】また、図3の行35と行362の2つがこ
の形態素パターンであるために、図4の行45の出現数
44は2となる。そして、図3の行363のデータ「吉
田真」の形態素パターンは、「(名詞、人名)(名詞、
状態)」となる。このため、図4の行46の出現数44
は1となる。
【0032】更に、品詞意味推定回路5は、品詞意味テ
ーブル11をもとに未知語テーブル10の未知語の品詞
と意味カテゴリを推定する。この未知語の品詞と意味カ
テゴリの候補は、その未知語が現われた列の形態素パタ
ーンの出現数が多いものの順とする。
【0033】即ち、未知語テーブル10の表IDと列名
とに対して、同じ表IDと列名とを持つ品詞意味テーブ
ル11の中で、図4の出現数44が多いものを未知語の
品詞と、意味カテゴリの候補とするものである。また、
未知語表示回路6は、未知語及び品詞意味推定回路5の
推定結果をユーザのために表示するものである。
【0034】更に、辞書データ入力回路7は、未知語に
対する辞書情報をユーザが入力するための回路である。
この回路は、ユーザが品詞意味推定回路5の結果を用い
ることで未知語に対する辞書情報の入力が容易に行える
ようにするものである。
【0035】また、ユーザが未知語について知識がない
場合にもこの品詞意味推定回路5の推定結果を用いるこ
とで正解に近いデータを登録することができるものと考
えられる。そこで、未知語表示回路6及び辞書データ入
力回路7を同時に実現した画面例を図6に示している。
また、辞書登録回路8は、ユーザが入力した辞書情報を
単語辞書に登録する回路である。
【0036】『動作』: 一方、図7はこの第1実施
例の単語辞書登録装置の処理フローチャートである。こ
の図7において、先ずS71において、文書入力回路1
は文書を読み込んでいない部分がない場合は、S80に
処理を進める。次にS72において、文書入力回路1は
文書から1つのオブジェクトを読み込む。また、S73
では、文書属性抽出回路2は、読み込んだオブジェクト
が表でない場合は、S71に処理を進める。
【0037】更に、S74においては文書属性抽出回路
2は、読み込んだ表を解析して表に未読のオブジェクト
があるかどうかを調べ、もしなければS71に処理を進
める。更にまた、S75では表中のオブジェクトを読み
込む。また、行データを読み込んだ時点でS76に処理
を進める。
【0038】尚S76では、形態素解析回路は、行デー
タを項目毎に形態素解析するものである。また、S77
〜S79において、解析結果集計回路4は、解析結果に
未知語がある場合にはその項目の解析結果を未知語テー
ブル10にデータを追加するものである。
【0039】また、解析結果に未知語がない場合には品
詞意味テーブル11にデータを追加する。その後S71
に処理を戻すものである。
【0040】更に、図7のS80では、未知語テーブル
10に未知語が登録されていない場合は終了する。S8
1では、品詞意味推定回路5は品詞意味テーブル11を
使って未知語テーブル10の未知語の品詞を推定する。
詳細は後述する。更にまた、S82では、未知語表示回
路6が品詞意味推定回路5の推定結果を表示するもので
ある。
【0041】またS83では、辞書データ入力回路7は
ユーザに未知語情報を入力させる。次にS84では辞書
データ入力回路7においてユーザが辞書登録の指令を出
さなかった場合は処理を終了するものである。次にS8
5では辞書登録回路8はユーザが入力した未知語の情報
を単語辞書部9に格納するものである。
【0042】『品詞意味推定の手順』: 次は図7の
S81の品詞意味推定の手順を図9の処理フローチャー
トを用いて説明する。この図9において、先ずS91で
は未知語テーブル10のデータを調べ、読み込んでいな
いデータがない場合は終了する。次にS92では未知語
テーブル10からデータを1行読んでそれをlとする。
【0043】次はS93において、lの単語数をm、項
目内の未知語の位置を、U1、U2、U3、…、Unと
する。U1=1のときは、項目の最初の単語が未知語だ
ったことを表す。nは未知語の数を表すものである。
【0044】またS94では、lと同じ表ID41、列
名42、単語数48のデータを品詞意味テーブル11か
ら集める。ここで、lと同じ表ID41、列名42、単
語数48のデータがない場合は、S98に処理を進め、
ある場合はS96に処理を進める。S98では、lの未
知語に対する推定結果は無しとする。S96では集めた
データの中から最も出現数の多いデータの個数をkと
し、それらのデータをC1〜Ckとする。
【0045】また、S97ではCi(i=1〜k)の形
態素パターン中のU1、U2、…、Un番目の単語の品
詞と意味カテゴリとを、lの対応する位置の未知語の品
詞と意味カテゴリの推定結果とする。以下、S91〜S
98を未知語テーブル10の未読のデータがなくなるま
で繰り返すものである。
【0046】『詳細動作』: 次に図2の文書を使っ
て詳細に動作を説明する。図7のS72で、図2の文書
の表オブジェクトを読み込む。そして、S75において
表中のオブジェクト(表のタイトル、項目名及び表中の
行データ)を読み込む。この行データ23を読んだ時点
でS76に処理を進める。このS76において、「00
1」、「山本太郎」、「交換機」のそれぞれを形態素解
析する。この形態素解析では数字の列は未知語と扱われ
ない。
【0047】この行の項目は未知語がないのでS78
で、品詞意味テーブル11を作成する。更に、「山本太
郎」の形態素パターンは「(名詞、人名)(名詞、人
名)」となるので、品詞意味テーブル11の形態素パタ
ーン43が「(名詞、人名)(名詞、人名)」の行の出
現数44の値を1増加する。
【0048】また、S75、S77を処理して、次の行
データを読み込む。更に、S76で形態素解析した結
果、「川野篤志」の「篤志」が未知語であるため、S7
9で未知語テーブル10を作成する。尚「川野篤志」の
「川野」は、品詞が名詞で意味カテゴリが人名である。
そのため、未知語テーブル10の形態素パターン64
の、「川野篤志」の形態素アパターン64は、「(名
詞、人名)(未知語、篤志)」となる。
【0049】このようにして、表の行データがなくなる
まで、S75〜S79を繰り返す。その結果、図4の品
詞意味テーブル11と図5の未知語テーブルとができる
ものである。
【0050】その後、S71〜S72と処理を進め、文
書オブジェクト33を読む。更に、S73、S71と処
理を進め、文書が空きのためS80に処理を進める。次
に、未知語があると、S81に処理を進め、未知語の品
詞と意味カテゴリを推定する。
【0051】『品詞と意味カテゴリの推定の処理』:
そして、品詞と意味カテゴリの推定の処理は図9を用
いて説明する。S92では未知語テーブル10のデータ
65を読みとりlとするものである。次に、S93で
は、lは単語数が2で、2つ目の単語だけが未知語であ
るので、m=2、U1=2となる。
【0052】次にS94ではlと同じ表ID41、列名
42、単語数48を持つデータとして、データ45、4
6の2つを集める。また、S96ではデータ45、46
の出現数を比較して、データ45をCとするものであ
る。更に、S97ではlの未知語に対する品詞と意味カ
テゴリをCの形態素パターンから推定する。
【0053】例えば、lはU1=2であるので、Cの2
番目の単語の品詞と意味カテゴリとを推定結果とする。
即ち、 「篤志」の品詞 =「名詞」 「篤志」の意味カテゴリ=「人名」 と推定される。
【0054】同様に未知語テーブル10のデータ66、
67の品詞と意味カテゴリとはそれぞれ 「泰弘」の品詞 =「名詞」 「泰弘」の意味カテゴリ=「人名」 「MT」の品詞 =「名詞」 「MT」の意味カテゴリ=「装置」と推定される。 このようにして未知語テーブル10のデ
ータがなくなったときに品詞意味推定は終了するもので
ある。
【0055】尚上述のS82、83では、それぞれ未知
語を表示し、辞書データの入力をユーザに促す。一例と
して画面の例を図6に示している。この図6の行51〜
53はそれぞれ、図5の未知語テーブル10の行65〜
67の品詞と意味カテゴリとを推定した結果を表示して
いる。
【0056】更に、この画面では、未知語の見出し5
4、品詞55、訳語57をユーザが修正或いは登録でき
るようになっている。また、登録ボタン58が押される
と、S85で辞書登録が行われ終了するものである。こ
の終了ボタン59が押されると登録せずに終了するもの
である。
【0057】(第1実施例の効果): 以上の第1実
施例によれば、文書中の表データの既知語の情報を使用
して、表データの未知語の品詞と意味カテゴリとを自動
的に推定できるものである。また、表の同じ列の項目が
同じ品詞と意味カテゴリを採り易いという性質を利用し
たものであり、この推定結果は妥当なものと考えられ
る。
【0058】更に、この実施例を利用することで、未知
語の辞書登録作業が大幅に軽減される。特に複数の意味
カテゴリを持つような語の意味カテゴリを正しく登録で
きるため、自然言語処理システムの単語辞書登録装置と
して有効性が高いと考えられる。
【0059】(変形例): 第1実施例において、図
9のS92において、予め全ての文書を読み込んでから
以下に続く処理を行うように構成することも好ましい。
【0060】また、文書属性抽出回路2を90度回転し
た表を処理するようにすれば、90度回転した表を含ん
だ文書を扱うことができる。
【0061】『第2実施例』: 発明を文字認識装置
に適用した場合の実施例を以下に示す。
【0062】図10は第2実施例の文字認識装置の機能
構成図である。この図10において、文字認識装置は、
文書読み取り回路101と、文書構造抽出回路102
と、表領域文字認識回路103と、表領域外文字認識回
路1013と、認識結果ファイル1014と、認識結果
修正回路1015と、形態素解析回路3と、解析結果集
計回路4と、品詞意味推定回路5と、未知語表示回路6
と、辞書データ入力回路7と、辞書登録−回路8と、単
語辞書部9と、未知語テーブル10と、品詞意味テーブ
ル11とから構成されている。
【0063】この文字認識装置の構成においては、形態
素解析回路3と、解析結果集計回路4と、品詞意味推定
回路5と、未知語表示回路6と、辞書データ入力回路7
と、辞書登録回路8と、単語辞書部9と、未知語テーブ
ル10と、品詞意味テーブル11とは上述の第1実施例
と同様な機能である。
【0064】また、この文字認識装置で特徴的な構成
は、文書読み取り回路101と、文書構造抽出回路10
2と、表領域文字認識回路103と、表領域外文字認識
回路1013と、認識結果ファイル1014と、認識結
果修正回路1015とである。
【0065】そこで、文書読み取り回路101は、光学
式読取り装置など紙の文書を計算機に処理できる2値情
報に変換するものである。更に、文書構造抽出回路10
2は読み取った情報の中から、図、表、文書などの領域
を識別する回路である。
【0066】更にまた、表領域以外文字認識回路101
3は、表以外の部分の文字を認識する通常の認識回路で
ある。また、この表領域以外文字認識回路1013は認
識した結果を認識結果ファイル1014に書き込むもの
である。
【0067】更に、表領域文字認識回路103は、文書
構造抽出回路102で表として識別された領域の文字を
認識し、表の各項目毎に文字列を出力する回路である。
この表領域文字認識回路103の出力は図1の文書属性
抽出回路2が出力する、表ID、表の標題、表の列名、
表の行データと同じ形式のデータを出力するものであ
る。
【0068】この出力は認識結果ファイル1014に書
き込むと共に、形態素解析回路3に与えられる。そし
て、以下図10の形態素解析回路3〜品詞意味テーブル
11までは上述の第1実施例の構成と同様である。
【0069】また、認識結果修正回路1015は、未知
語表示回路6の未知語をユーザが訂正したときにその訂
正内容を認識結果ファイル1014に反映させる回路で
ある。
【0070】『動作説明』: 図12、図13は第2
実施例の処理フローチャートである。そこで先ずS12
01において文書を読み取る。次に読み取った文書の処
理が全て終了したらS1212に処理を進める。終了し
ていない場合は、S1203で文書構造を抽出する。
【0071】次にS1204では抽出した文書構造が表
でない場合は、S1211に処理を進めるものである。
またS1211では、表領域外文字認識回路1013が
文字認識を行い、この結果を認識結果ファイル1014
に書き込むものである。
【0072】その後、S1202に処理を進める。また
S1204で抽出した文書構造が表の場合は、S120
5で表の中が空かどうかを調べる。ここで、空でないと
きは、S1206で表領域文字認識回路103が表のタ
イトル、項目名及び表中の行データを行認識するもので
ある。
【0073】更に、以下のS1207〜S1210で
は、上述の第1実施例の図7のS76〜S79にそれぞ
れ対応しており同様な処理を行うものである。また、S
1205で表の中が空のときは、S1202に処理を進
めるものである。
【0074】このS1202で未処理の文書がなくなっ
たときはS1212に処理を進める。尚、S1212〜
S1215、S1217はそれぞれ第1実施例の図7の
S80〜S83、S85に対応した同じ処理である。S
1215では辞書データ入力回路7がユーザからの認識
結果及び推定結果に対する修正などの入力を受け付け
る。
【0075】また、S1216で辞書登録を選択すると
辞書登録を行う。そして、認識結果の修正を選択する
と、S1219で認識結果修正回路1015が、S12
15の修正結果によって認識結果の文字列の置換えを行
うものである。また、登録と認識結果と以外が選択され
たときは終了するものである。
【0076】ここでは図2の文書をこの第2実施例の文
字認識装置で文字認識する場合の動作を説明するもので
ある。そこで、単語辞書部9の例を図8に示す。この図
8の文書の表領域は、S1206で表のタイトル、項目
名及び表中の行データが認識される。
【0077】また、表の行データは1行づつ認識されて
S1207で形態素解析される。更に、形態素解析結
果、品詞意味テーブル11、未知語テーブル10はそれ
ぞれ図3〜図5と同じ形式である。
【0078】更にまた、S1214で未知語表示回路6
が未知語を表示するものである。この一例を図11に示
している。ここで行1105の認識結果は「川野篤志」
であり、この文字列の中の「篤志」が未知語である。ま
た、品詞意味推定回路5によってこの未知語の品詞と意
味カテゴリが上述の手順から名詞と人名というように推
定されるものである。
【0079】尚、図11の行1106の認識結果110
3は「松下秦弘」であり、この文字列の中の「秦弘」が
未知語である。そして、品詞意味推定回路5によってこ
の未知語の品詞と意味カテゴリが上述の手順によって名
詞と人名というように推定されるものである。
【0080】図2の文書と比較すると「秦弘」という認
識結果が誤っていることがわかる。このような場合、利
用者はこの画面上で正しい「弘」に修正することがで
きる。その後、図11の認識結果修正ボタン1110が
押されたときは、S1218、S1219に処理を進
め、認識結果修正回路1015が認識結果の文書におい
て、修正前後の文字を置換するものである。
【0081】即ち、認識結果の文書中の「秦弘」を「泰
弘」に置換するものである。そして、図11で登録ボタ
ン1109が押されたときは辞書登録回路8が単語辞書
登録を行うものである。一方、終了ボタン1108が選
択されたときは処理を終了するものである。
【0082】(第2実施例の効果): 以上の第2実
施例によれば、文書中の表データの既知語の情報を使用
して、表データの未知語の品詞と意味カテゴリとを自動
的に推定できるものである。更に、表の同じ列の項目が
同じ品詞と意味カテゴリを採り易いという性質を利用し
たものであり、この実施例の推定結果は妥当であると考
えられる。このような構成を使用することで、認識結果
の中の未知語の登録を容易にさせることができるものと
考えられる。
【0083】また、上述の構成を文字認識手段の認識誤
りの修正にも適用して効果的である。この実施例を利用
すると認識誤りが未知語になる場合は、その箇所の品詞
と意味カテゴリを推定する。このようにして、利用者は
それらをもとに認識誤りの結果、生じた未知語のもとの
正しい語を推測することが容易になる。
【0084】また、推定結果をもとに未知語を単誤辞書
に登録することで、表以外の領域の文字認識の精度を向
上させることができるものと考えられる。この実施例を
適用することで未知語の辞書登録の作業を大幅に軽減さ
せることができる。
【0085】特に、複数の意味カテゴリを持つような語
の意味カテゴリを正しく登録できるため、自然言語処理
システムの単語辞書登録装置として有効性が高いと考え
られる。
【0086】(他の実施例): (1)尚、上述の第
1実施例の単語辞書登録装置は、機械翻訳装置の辞書作
成装置として適用することもできる。
【0087】(2)また、第2実施例はOCR(光学的
文字読取)装置の辞書作成装置として用いることができ
る。
【0088】(3)更に、自然文要約装置、全文検索装
置、文書作成支援装置などの自然言語の辞書を用いる装
置などに適用することができる。
【0089】(4)更にまた、上述の実施例をより具体
的に実現する上で、ハードウエア的にはコンピュータ装
置の基本的な構成で、必要な機能のプログラムを搭載す
ることで実現することができる。
【0090】(5)また、上述の実施例では表が含まれ
る文書を入力することで説明したが、他に文章だけでも
良いし、表の周辺に種々の言語や文字で記述されている
ものであっても良い。
【0091】
【発明の効果】以上、本発明の単語辞書登録装置は、入
力された文書の中から複数の項目によって構成されてい
る表領域を抽出する表領域抽出手段と、表領域抽出手段
によって抽出された表領域の各項目に記載されている単
語の意味カテゴリを、各単語を見出しとして単語辞書を
参照して検出し、その検出された各単語の意味カテゴリ
の出現数を各項目毎に集計する形態素解析手段と、表領
域抽出手段により抽出された表領域の各項目に記載され
ている単語のうち、単語辞書に登録されていない未知語
を各項目毎に検出する未知語検出手段と、未知語検出手
段によって検出された未知語が属する項目と同じ項目に
記載されている登録単語の意味カテゴリの出現数に基づ
いて、未知語の意味カテゴリを推定する意味カテゴリ推
定手段と、意味カテゴリ推定手段により推定された未知
語の意味カテゴリを表示して、表示された未知語の意味
カテゴリについてのユーザによる判断結果を取り込む表
示・判断手段と、表示・判断手段からの判断結果に基づ
いて、未登録単語の意味カテゴリを単語辞書に登録する
登録手段とを備えることで、従来に比べ大幅に未知語に
対する単語辞書登録の手間を改善することができる。
【0092】また、本発明の文書認識装置は、入力され
た文書の中から複数の項目によって構成されている表領
域と、その表領域以外の文字領域とを選別する文書構造
選別手段と、文書構造選別手段によって選別された表領
域以外の文字領域の単語を認識して、その文字領域認識
結果を記憶する文字領域認識手段と、文書構造選別手段
によって選別された表領域の各項目に記載されている単
語の意味カテゴリを、各単語を見出しとして上記単語辞
書を参照して検出し、その検出された各単語の意味カテ
ゴリの出現数を各項目毎に集計する形態素解析手段と、
文書構造選別手段により選別された表領域の各項目に記
載されている単語のうち、単語辞書に登録されていない
未知語を各項目毎に検出する未知語検出手段と、未知語
検出手段によって検出された未知語が属する項目と同じ
項目に記載されている登録単語の意味カテゴリの出現数
に基づいて、未知語の意味カテゴリを推定する意味カテ
ゴリ推定手段と、意味カテゴリ推定手段により推定され
た未知語の意味カテゴリを表示して、表示された未知語
の意味カテゴリについてのユーザによる判断結果を取り
込む表示・判断手段と、表示・判断手段からの判断結果
に基づいて、文書認識手段に記憶されている未知語に対
応する文字領域認証結果内容を修正する修正手段とを備
えることで、文書認識の精度を向上させ、認識文書に含
まれる未知語の登録を能率的にさせると共に、未知語の
意味カテゴリの内容も充実したものにすることができる
と考えられる。
【図面の簡単な説明】
【図1】この発明の第1実施例の単語辞書登録装置の機
能構成図である。
【図2】第1実施例の入力文書の例の説明図である。
【図3】第1実施例の形態素解析結果の説明図である。
【図4】第1実施例の品詞意味テーブルの説明図であ
る。
【図5】第1実施例の未知語テーブルの説明図である。
【図6】第1実施例の未知語表示回路と辞書データ入力
回路の画面の説明図である。
【図7】第1実施例の処理フローチャートである。
【図8】第1実施例の単語辞書部の説明図である。
【図9】第1実施例の品詞意味推定の処理フローチャー
トである。
【図10】第2実施例の文書認識装置の機能構成図であ
る。
【図11】第2実施例の未知語表示回路の説明図であ
る。
【図12】第2実施例の処理フローチャートである。
【図13】第2実施例の処理フローチャートである。
【符号の説明】
1…文書入力回路、2…文書属性抽出回路、3…形態素
解析回路、4…解析結果集計回路、5…品詞意味推定回
路、6…未知語表示回路、7…辞書データ入力回路、8
…辞書登録回路、9…単語辞書部、10…未知語テーブ
ル、11…品詞意味テーブル。
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/30

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 単語辞書に登録されていない未知語に対
    して、少なくともその単語表記とその単語の意味カテゴ
    リとを上記単語辞書に登録する単語辞書登録装置におい
    て、 入力された文書の中から複数の項目によって構成されて
    いる表領域を抽出する表領域抽出手段と、 上記表領域抽出手段によって抽出された表領域の各項目
    に記載されている単語の意味カテゴリを、各単語を見出
    しとして上記単語辞書を参照して検出し、その検出され
    た各単語の意味カテゴリの出現数を各項目毎に集計する
    形態素解析手段と、 上記表領域抽出手段により抽出された表領域の各項目に
    記載されている単語のうち、上記単語辞書に登録されて
    いない未知語を各項目毎に検出する未知語検出手段と、 上記未知語検出手段によって検出された未知語が属する
    項目と同じ項目に記載されている登録単語の意味カテゴ
    リの出現数に基づいて、当該未知語の意味カテゴリを推
    定する意味カテゴリ推定手段と、 上記意味カテゴリ推定手段により推定された未知語の意
    味カテゴリを表示して、表示された当該未知語の意味カ
    テゴリについてのユーザによる判断結果を取り込む表示
    ・判断手段と、 上記表示・判断手段からの判断結果に基づいて、当該未
    知語の意味カテゴリを上記単語辞書に登録する登録手段
    を備えることを特徴とする単語辞書登録装置。
  2. 【請求項2】 各単語に対して、少なくともその単語表
    記とその単語の意味カテゴリとが登録されている単語辞
    書を備え、入力された文書を認識する文書認識装置にお
    いて、 入力された文書の中から複数の項目によって構成されて
    いる表領域と、その表 領域以外の文字領域とを選別する
    文書構造選別手段と、 上記文書構造選別手段によって選別された表領域以外の
    文字領域の単語を認識して、その文字領域認識結果を記
    憶する文字領域認識手段と、 上記文書構造選別手段によって選別された表領域の各項
    目に記載されている単語の意味カテゴリを、各単語を見
    出しとして上記単語辞書を参照して検出し、その検出さ
    れた各単語の意味カテゴリの出現数を各項目毎に集計す
    る形態素解析手段と、 上記文書構造選別手段により選別された表領域の各項目
    に記載されている単語のうち、上記単語辞書に登録され
    ていない未知語を各項目毎に検出する未知語検出手段
    と、 上記未知語検出手段によって検出された未知語が属する
    項目と同じ項目に記載されている登録単語の意味カテゴ
    リの出現数に基づいて、当該未知語の意味カテゴリを推
    定する意味カテゴリ推定手段と、 上記意味カテゴリ推定手段により推定された未知語の意
    味カテゴリを表示して、表示された当該未知語の意味カ
    テゴリについてのユーザによる判断結果を取り込む表示
    ・判断手段と、 上記表示・判断手段からの判断結果に基づいて、上記文
    書認識手段に記憶されている上記未知語に対応する文字
    領域認証結果内容を修正する修正手段と を備えることを
    特徴とする文書認識装置。
  3. 【請求項3】 上記修正手段は、上記表示・判断手段か
    らの判断結果に基づいて、上記未知語の意味カテゴリを
    上記単語辞書に登録する登録手段を備えることを特徴と
    する請求項2に記載の文書認識装置。
JP14281694A 1994-06-24 1994-06-24 単語辞書登録装置及び文書認識装置 Expired - Fee Related JP3347477B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14281694A JP3347477B2 (ja) 1994-06-24 1994-06-24 単語辞書登録装置及び文書認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14281694A JP3347477B2 (ja) 1994-06-24 1994-06-24 単語辞書登録装置及び文書認識装置

Publications (2)

Publication Number Publication Date
JPH0816597A JPH0816597A (ja) 1996-01-19
JP3347477B2 true JP3347477B2 (ja) 2002-11-20

Family

ID=15324301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14281694A Expired - Fee Related JP3347477B2 (ja) 1994-06-24 1994-06-24 単語辞書登録装置及び文書認識装置

Country Status (1)

Country Link
JP (1) JP3347477B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) * 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법
WO2008136135A1 (ja) * 2007-05-01 2008-11-13 Japan Field Co., Ltd. 被加熱目的液の加熱方法及びその装置
KR100978693B1 (ko) * 2008-05-20 2010-08-30 야후! 인크. 전자사전 서비스를 제공하는 시스템 및 방법
JP5741298B2 (ja) * 2011-08-02 2015-07-01 大日本印刷株式会社 辞書作成装置、辞書作成方法、およびプログラム
JP5941345B2 (ja) * 2012-06-13 2016-06-29 株式会社日立ソリューションズ 文字情報の分析方法および情報分析装置並びにプログラム
KR101939384B1 (ko) * 2017-03-27 2019-01-16 전북대학교산학협력단 용어사전 구축 장치 및 구축 방법이 구현된 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체
JP2021157667A (ja) * 2020-03-27 2021-10-07 富士通株式会社 更新支援装置、更新支援方法及び更新支援プログラム

Also Published As

Publication number Publication date
JPH0816597A (ja) 1996-01-19

Similar Documents

Publication Publication Date Title
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
US5850561A (en) Glossary construction tool
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
JP2726568B2 (ja) 文字認識方法及び装置
JPH05250408A (ja) 取り込んだ情報で文書画像を復号することなく選択した文書の重要な部分を補完するための方法
JP3347477B2 (ja) 単語辞書登録装置及び文書認識装置
EP0797157A2 (en) Machine interpreter
JP3448895B2 (ja) 取引処理装置
JPH08180068A (ja) 電子ファイリング装置
JP4054453B2 (ja) 文字認識装置およびプログラム記録媒体
JP3919968B2 (ja) 文書校正装置
JP3477822B2 (ja) 文書登録検索システム
JP3484446B2 (ja) 光学文字認識装置
JP3209125B2 (ja) 語義曖昧性解消装置
JPH0748217B2 (ja) 文書要約装置
JPH06103402A (ja) 名刺認識装置
JP2000259847A (ja) 情報検索方法、装置および記録媒体
JP2001155017A (ja) タグ付き文書作成装置およびそのプログラムを記録した記録媒体
JP4142506B2 (ja) Ocr入力装置
JP3501240B2 (ja) 文書作成支援装置
JP4843705B2 (ja) 名刺読取装置
JPH0757040A (ja) Ocr付きファイリング装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH0470962A (ja) データ処理装置
JPS63163956A (ja) 文書作成・校正支援装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070906

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100906

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees