JPH0816597A - 単語辞書登録装置及び文書認識装置 - Google Patents

単語辞書登録装置及び文書認識装置

Info

Publication number
JPH0816597A
JPH0816597A JP6142816A JP14281694A JPH0816597A JP H0816597 A JPH0816597 A JP H0816597A JP 6142816 A JP6142816 A JP 6142816A JP 14281694 A JP14281694 A JP 14281694A JP H0816597 A JPH0816597 A JP H0816597A
Authority
JP
Japan
Prior art keywords
word
circuit
dictionary
meaning
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6142816A
Other languages
English (en)
Other versions
JP3347477B2 (ja
Inventor
Hideki Yamamoto
秀樹 山本
Tatsuya Kaikou
達哉 介弘
Hisaaki Matsushita
久明 松下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP14281694A priority Critical patent/JP3347477B2/ja
Publication of JPH0816597A publication Critical patent/JPH0816597A/ja
Application granted granted Critical
Publication of JP3347477B2 publication Critical patent/JP3347477B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 未知語に対する品詞や意味カテゴリなどの諸
元を単語辞書装置に従来に比べ能率的に登録する。 【構成】 文書入力回路1は文書を入力する。文書属性
抽出回路2は入力された文書の中から表の属性だけを抽
出する。形態素解析回路3は単語辞書部9を参照して、
表の行データの各項目を構成する単語とその単語の意味
カテゴリとを検出し未知語を検出する。解析結果集計回
路4は形態素解析の結果を集計する。品詞意味推定回路
5は品詞意味テーブル11を基に未知語テーブル10の
未知語の品詞と意味カテゴリを推定する。未知語表示回
路6は未知語及び品詞意味推定回路5の推定結果をユー
ザのために表示する。辞書データ入力回路7は未知語に
対する辞書情報をユーザが入力する。辞書登録回路8は
ユーザが入力した辞書情報を単語辞書に登録する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は単語辞書登録装置及び
文書認識装置に関し、例えば、種々の言語処理のための
ものである。
【0002】
【従来の技術】近年、自然言語処理に関する技術開発が
盛んに行なわれている。このような自然言語処理に使用
される単語辞書登録装置に関する技術として、文献:特
開平3−246673号公報に示されている技術があ
る。
【0003】この文献で示されている技術は、単語表記
と意味カテゴリを各単語に対して規定した単語辞書を備
え、単語の持つ意味を示す意味カテゴリを利用して自然
言語による入力文の処理を行う自然言語処理装置に対す
る単語辞書登録装置に関するものである。
【0004】具体的には、単語辞書を参照して、入力文
を構成する単語と、その単語の意味カテゴリを抽出し、
未知語を検出する形態素解析手段を備えている。
【0005】更に、その形態素解析から、入力を構成す
る単語の単語表記と意味カテゴリ、及び未知語であるか
どうかの情報を得て、その入力文中に未知語があればユ
ーザに知らせて登録を促し、未知語が無ければ入力文を
自然言語処理装置へ送る未知語表示手段を備えるもので
ある。
【0006】更にまた、入力文に対する自然言語処理装
置の処理内容にユーザが疑問や不備を持ったときに、そ
のユーザの求めに応じて、未知語検索表示手段を得てい
る入力文を構成する単語の意味カテゴリと、各単語表記
とを表示する解析結果表示手段を備える。
【0007】更に、未知語表示手段又は解析結果表示手
段で示された情報を参考にして、単語辞書に新規に登録
する単語、又は登録内容を変更する単語の単語表記をユ
ーザに入力させる単語表記入力手段を備えるものであ
る。
【0008】以上のような構成によって、未知語と判断
された単語に対して、意味定義文の入力手段を与え、そ
れによって未知語の単語登録を容易にさせようとするも
のである。
【0009】
【発明が解決しようとする課題】しかしながら、その未
知語の意味をユーザが全く知らない場合や、更に、既存
の紙の辞典、辞典の類に登録されていない場合は、ユー
ザは意味定義文を作成することができず、単語の登録が
できないという問題があった。
【0010】このため、未知語に対する品詞や意味カテ
ゴリなどの諸元を単語辞書装置に従来に比べ能率的に登
録することができる仕組みと、文書中の情報から自動的
に文字認識して未知語に対する品詞や意味カテゴリなど
の諸元を単語辞書装置に能率的に登録し得る仕組みの提
供が要請されている。
【0011】
【課題を解決するための手段】
(1)そこで、この発明は、各単語に対して、少なくと
も単語表記と意味カテゴリとを規定して単語辞書に登録
する単語辞書登録装置において、以下の特徴的な構成で
実現するものである。
【0012】つまり、文書を取り込み、表属性がある部
分を抽出する手段と、単語辞書を参照して、上記表属性
がある部分から単語と、この単語の意味カテゴリを抽出
し、未知語を検出する形態素解析手段と、この解析結果
を集計する手段とを備える。
【0013】更に、上記表属性がある部分に含まれてい
る構成情報から既知語の意味カテゴリを用いて未知語の
意味カテゴリを推定する手段と、この推定結果を提示す
るための手段と、この推定結果を修正するための手段
と、上記未知語とその推定結果又は推定結果の修正後の
意味カテゴリを単語辞書に登録する手段とを備ること
で、上述に課題を解決するものである。
【0014】(2)また、上述の構成を文書認識装置に
適用することが考えられる。即ち、各単語に対して単語
表記と意味カテゴリとを規定した単語辞書を備え、この
単語辞書を用いて文書認識を行う文書認識装置におい
て、以下の構成をとることができる。
【0015】つまり、文書を取り込み、表属性がある部
分を抽出する手段と、単語辞書を参照して、上記表属性
がある部分から単語と、この単語の意味カテゴリを抽出
し、未知語を検出する形態素解析手段と、この解析結果
を集計する手段とを備える。
【0016】更に上記表属性がある部分に含まれている
構成情報から既知語の意味カテゴリを用いて未知語の意
味カテゴリを推定する手段と、この推定結果を提示する
ための手段と、この推定結果を修正するための手段と、
この修正結果を用いて文書認識結果を修正する手段とを
備えて上述の課題を解決するものである。
【0017】尚ここで、未知語とその推定結果又は推定
結果の修正後の意味カテゴリを単語辞書に登録する手段
を備えることも好ましい。
【0018】
【作用】この発明の単語辞書登録装置の構成は、表の同
じ列の項目が同じ品詞と意味カテゴリを採り易いという
性質を利用したものであり、例えば、文書中の表データ
の既知語の情報を使用して、表データの未知語の品詞と
意味カテゴリとを自動的に推定できるものである。
【0019】更に、推定結果を提示するための手段と、
この推定結果を修正するための手段とを備えることで、
ユーザなどからの入力情報に基づき修正して適当な意味
カテゴリを得ることができ、単語辞書に登録することも
できるものである。
【0020】従って、上述の構成によって、ユーザが知
らない単語や、単語辞書に登録されていない未知語の意
味カテゴリを推定することができる。このようなことか
ら、未知語の単語辞書登録の手間を大幅に改善すること
ができると考えられる。
【0021】また、上述の構成を文書認識装置に適用す
ることもでき、このため、未知語の意味カテゴリを推定
し、この推定結果を用いて文書認識結果を修正する手段
を備えることで、文書認識の精度を向上させ、認識文書
に含まれる未知語の登録を能率的にさせることができ
る。
【0022】また、未知語とその推定結果又は推定結果
の修正後の意味カテゴリを単語辞書に登録する手段を備
えることで、未知語の意味カテゴリの内容も充実したも
のにすることができると考えられる。
【0023】
【実施例】次にこの発明の好適な実施例を図面を用いて
説明する。『基本的な考え方』:そこで、この実施例で
は、『ユーザが知らない辞書に登録されていない未知語
の意味カテゴリを推定する手段を設けるものである』。
更に、『ユーザは、この実施例の装置を使用し、装置が
出力する意味カテゴリ候補の中から意味カテゴリを選択
できるように構成する』ものである。
【0024】『第1実施例』:そこで、第1実施例で
は、単語表記と意味カテゴリを各単語に対して規定した
単語辞書を備え、単語の持つ意味を示す意味カテゴリを
利用して自然言語による入力文の処理を行う自然言語処
理装置に対する単語辞書登録装置において、以下のよう
な各手段を備えるものである。
【0025】(a)自然言語文を入力する手段と、
(b)入力した文書の中から表属性のある箇所を抽出す
る手段と、(c)単語辞書を参照して、表を構成する単
語とその単語の意味カテゴリを抽出し、未知語を検出す
る形態素解析手段と、(d)この解析結果を集計する手
段と、(e)表の構成情報を用いて既知語の意味カテゴ
リから未知語の意味カテゴリを推定する手段と、(f)
推定された意味カテゴリをユーザに確認或いは訂正させ
る手段と、(g)辞書に登録する手段とを備えるもので
ある。
【0026】『第1実施例の装置の構成』: 図1は
この第1実施例の単語辞書登録装置の機能構成図であ
る。この図1において、単語辞書登録装置は、文書入力
回路1と、文書属性抽出回路2と、形態素解析回路3
と、解析結果集計回路4と、品詞意味推定回路5と、未
知語表示回路6と、辞書データ入力回路7と、辞書登録
回路8と、単語辞書部9と、未知語テーブル10と、品
詞意味テーブル11とから構成されている。
【0027】そして、文書入力回路1は、文書を入力す
る回路であって、例えば、図2に示しているような文書
を取り込むものとする。この図2に示している文書21
は、表と文章との属性を持ったオブジェクトから構成さ
れている。
【0028】また、入力する文書は、図、ページ番号、
章番号などの属性を持ったオブジェクトから構成される
ものとする。
【0029】更に、文書属性抽出回路2は、入力された
文書の中から表の属性だけを抽出する回路である。この
抽出された表は、表の識別を行うための表ID(識別
子)31、表の表題32、表の列名28〜30、行デー
タ23〜27までの部分から構成されている。
【0030】更にまた、形態素解析回路3は、単語辞書
部9を参照して、表の行データの各項目を構成する単語
とその単語の意味カテゴリとを検出し、未知語を検出す
る回路である。更にまた、単語辞書部9の例を図8に示
している。また、単語辞書部9は、単語見出し81、品
詞82、意味カテゴリ83、訳語84などから構成され
る。
【0031】一方、図2に示している入力文書の表中の
氏名29の列の形態素解析結果を図3に示している。ま
た、図2の行23の氏名29「山本太郎」の解析結果
は、「山本」、及び「太郎」が単語辞書部9に存在する
ので、図3の行35のように解析される。
【0032】更に、図2の行24の氏名29「川野篤
志」の解析結果は、「篤志」が図8の単語辞書部9に存
在しないので未知語となる。更にまた、図3では便宜
上、行36の品詞39欄を未知語としている。また同様
に、「松下泰弘」というデータの解析結果では、「泰
弘」が未知語になっている。
【0033】更にまた、解析結果集計回路4は、形態素
解析の結果を集計するものである。具体的には、形態素
解析した結果、未知語が含まれている項目については、
解析結果集計回路4は、未知語テーブル10に格納す
る。ここで、未知語テーブル10の例を図5に示してい
る。この未知語テーブル10は、形態素パターン64
と、それに対する付随的な情報である表ID61、列名
62、項目内容63などから構成される。
【0034】更に、形態素パターン64は、項目のデー
タを形態素解析した結果をパターン化したものである。
そして、この形態素パターンは、項目のデータを左の単
語から順に品詞と意味カテゴリを並べたものである。但
し、未知語については品詞の場所を「未知語」、意味カ
テゴリの場所にその未知語の見出しを入れるものであ
る。更に、表ID61、列名62は、項目の出現した表
IDと列名を表すものである。
【0035】更にまた、形態素解析した結果、未知語が
含まれていない項目については、解析結果集計回路4は
品詞意味テーブル11に格納するものである。ここで、
この品詞意味テーブル11の例を図4に示している。そ
して、品詞意味テーブル11は、表ID41、列名4
2、形態素パターン43、及び出現数44から構成され
る。また、表ID41、列名42は、項目の出現した表
IDと列名を表すものである。
【0036】尚この出現数44は、ある表IDの列名4
2の列のデータの中で該当する品詞と意味カテゴリが出
現した回数を保持している。例えば、図3の形態素解析
結果を使って説明すると、未知語の出現しなかった行3
5のデータ「山本太郎」は、「山本」と、「太郎」とは
両者とも品詞が名詞、意味カテゴリは人名であるため、
形態素パターンは「(名詞、人名)(名詞、人名)」と
なる。
【0037】また、図3の行35と行362の2つがこ
の形態素パターンであるために、図4の行45の出現数
44は2となる。そして、図3の行363のデータ「吉
田真」の形態素パターンは、「(名詞、人名)(名詞、
状態)」となる。このため、図4の行46の出現数44
は1となる。
【0038】更に、品詞意味推定回路5は、品詞意味テ
ーブル11をもとに未知語テーブル10の未知語の品詞
と意味カテゴリを推定する。この未知語の品詞と意味カ
テゴリの候補は、その未知語が現われた列の形態素パタ
ーンの出現数が多いものの順とする。
【0039】即ち、未知語テーブル10の表IDと列名
とに対して、同じ表IDと列名とを持つ品詞意味テーブ
ル11の中で、図4の出現数44が多いものを未知語の
品詞と、意味カテゴリの候補とするものである。また、
未知語表示回路6は、未知語及び品詞意味推定回路5の
推定結果をユーザのために表示するものである。
【0040】更に、辞書データ入力回路7は、未知語に
対する辞書情報をユーザが入力するための回路である。
この回路は、ユーザが品詞意味推定回路5の結果を用い
ることで未知語に対する辞書情報の入力が容易に行える
ようにするものである。
【0041】また、ユーザが未知語について知識がない
場合にもこの品詞意味推定回路5の推定結果を用いるこ
とで正解に近いデータを登録することができるものと考
えられる。そこで、未知語表示回路6及び辞書データ入
力回路7を同時に実現した画面例を図6に示している。
また、辞書登録回路8は、ユーザが入力した辞書情報を
単語辞書に登録する回路である。
【0042】『動作』: 一方、図7はこの第1実施
例の単語辞書登録装置の処理フローチャートである。こ
の図7において、先ずS71において、文書入力回路1
は文書を読み込んでいない部分がない場合は、S80に
処理を進める。次にS72において、文書入力回路1は
文書から1つのオブジェクトを読み込む。また、S73
では、文書属性抽出回路2は、読み込んだオブジェクト
が表でない場合は、S71に処理を進める。
【0043】更に、S74においては文書属性抽出回路
2は、読み込んだ表を解析して表に未読のオブジェクト
があるかどうかを調べ、もしなければS71に処理を進
める。更にまた、S75では表中のオブジェクトを読み
込む。また、行データを読み込んだ時点でS76に処理
を進める。
【0044】尚S76では、形態素解析回路は、行デー
タを項目毎に形態素解析するものである。また、S77
〜S79において、解析結果集計回路4は、解析結果に
未知語がある場合にはその項目の解析結果を未知語テー
ブル10にデータを追加するものである。
【0045】また、解析結果に未知語がない場合には品
詞意味テーブル11にデータを追加する。その後S71
に処理を戻すものである。
【0046】更に、図7のS80では、未知語テーブル
10に未知語が登録されていない場合は終了する。S8
1では、品詞意味推定回路5は品詞意味テーブル11を
使って未知語テーブル10の未知語の品詞を推定する。
詳細は後述する。更にまた、S82では、未知語表示回
路6が品詞意味推定回路5の推定結果を表示するもので
ある。
【0047】またS83では、辞書データ入力回路7は
ユーザに未知語情報を入力させる。次にS84では辞書
データ入力回路7においてユーザが辞書登録の指令を出
さなかった場合は処理を終了するものである。次にS8
5では辞書登録回路8はユーザが入力した未知語の情報
を単語辞書部9に格納するものである。
【0048】『品詞意味推定の手順』: 次は図7の
S81の品詞意味推定の手順を図9の処理フローチャー
トを用いて説明する。この図9において、先ずS91で
は未知語テーブル10のデータを調べ、読み込んでいな
いデータがない場合は終了する。次にS92では未知語
テーブル10からデータを1行読んでそれをlとする。
【0049】次はS93において、lの単語数をm、項
目内の未知語の位置を、U1、U2、U3、…、Unと
する。U1=1のときは、項目の最初の単語が未知語だ
ったことを表す。nは未知語の数を表すものである。
【0050】またS94では、lと同じ表ID41、列
名42、単語数48のデータを品詞意味テーブル11か
ら集める。ここで、lと同じ表ID41、列名42、単
語数48のデータがない場合は、S98に処理を進め、
ある場合はS96に処理を進める。S98では、lの未
知語に対する推定結果は無しとする。S96では集めた
データの中から最も出現数の多いデータの個数をkと
し、それらのデータをC1〜Ckとする。
【0051】また、S97ではCi(i=1〜k)の形
態素パターン中のU1、U2、…、Un番目の単語の品
詞と意味カテゴリとを、lの対応する位置の未知語の品
詞と意味カテゴリの推定結果とする。以下、S91〜S
98を未知語テーブル10の未読のデータがなくなるま
で繰り返すものである。
【0052】『詳細動作』: 次に図2の文書を使っ
て詳細に動作を説明する。図7のS72で、図2の文書
の表オブジェクトを読み込む。そして、S75において
表中のオブジェクト(表のタイトル、項目名及び表中の
行データ)を読み込む。この行データ23を読んだ時点
でS76に処理を進める。このS76において、「00
1」、「山本太郎」、「交換機」のそれぞれを形態素解
析する。この形態素解析では数字の列は未知語と扱われ
ない。
【0053】この行の項目は未知語がないのでS78
で、品詞意味テーブル11を作成する。更に、「山本太
郎」の形態素パターンは「(名詞、人名)(名詞、人
名)」となるので、品詞意味テーブル11の形態素パタ
ーン43が「(名詞、人名)(名詞、人名)」の行の出
現数44の値を1増加する。
【0054】また、S75、S77を処理して、次の行
データを読み込む。更に、S76で形態素解析した結
果、「川野篤志」の「篤志」が未知語であるため、S7
9で未知語テーブル10を作成する。尚「川野篤志」の
「川野」は、品詞が名詞で意味カテゴリが人名である。
そのため、未知語テーブル10の形態素パターン64
の、「川野篤志」の形態素アパターン64は、「(名
詞、人名)(未知語、篤志)」となる。
【0055】このようにして、表の行データがなくなる
まで、S75〜S79を繰り返す。その結果、図4の品
詞意味テーブル11と図5の未知語テーブルとができる
ものである。
【0056】その後、S71〜S72と処理を進め、文
書オブジェクト33を読む。更に、S73、S71と処
理を進め、文書が空きのためS80に処理を進める。次
に、未知語があると、S81に処理を進め、未知語の品
詞と意味カテゴリを推定する。
【0057】『品詞と意味カテゴリの推定の処理』:
そして、品詞と意味カテゴリの推定の処理は図9を用
いて説明する。S92では未知語テーブル10のデータ
65を読みとりlとするものである。次に、S93で
は、lは単語数が2で、2つ目の単語だけが未知語であ
るので、m=2、U1=2となる。
【0058】次にS94ではlと同じ表ID41、列名
42、単語数48を持つデータとして、データ45、4
6の2つを集める。また、S96ではデータ45、46
の出現数を比較して、データ45をCとするものであ
る。更に、S97ではlの未知語に対する品詞と意味カ
テゴリをCの形態素パターンから推定する。
【0059】例えば、lはU1=2であるので、Cの2
番目の単語の品詞と意味カテゴリとを推定結果とする。
即ち、 「篤志」の品詞 =「名詞」 「篤志」の意味カテゴリ=「人名」 と推定される。
【0060】同様に未知語テーブル10のデータ66、
67の品詞と意味カテゴリとはそれぞれ、以下のように
推定される。 「泰弘」の品詞 =「名詞」 「泰弘」の意味カテゴリ=「人名」 「MT」の品詞 =「名詞」 「MT」の意味カテゴリ=「装置」 このようにして未知語テーブル10のデータがなくなっ
たときに品詞意味推定は終了するものである。
【0061】尚上述のS82、83では、それぞれ未知
語を表示し、辞書データの入力をユーザに促す。一例と
して画面の例を図6に示している。この図6の行51〜
53はそれぞれ、図5の未知語テーブル10の行65〜
67の品詞と意味カテゴリとを推定した結果を表示して
いる。
【0062】更に、この画面では、未知語の見出し5
4、品詞55、訳語57をユーザが修正或いは登録でき
るようになっている。また、登録ボタン58が押される
と、S85で辞書登録が行われ終了するものである。こ
の終了ボタン59が押されると登録せずに終了するもの
である。
【0063】(第1実施例の効果): 以上の第1実
施例によれば、文書中の表データの既知語の情報を使用
して、表データの未知語の品詞と意味カテゴリとを自動
的に推定できるものである。また、表の同じ列の項目が
同じ品詞と意味カテゴリを採り易いという性質を利用し
たものであり、この推定結果は妥当なものと考えられ
る。
【0064】更に、この実施例を利用することで、未知
語の辞書登録作業が大幅に軽減される。特に複数の意味
カテゴリを持つような語の意味カテゴリを正しく登録で
きるため、自然言語処理システムの単語辞書登録装置と
して有効性が高いと考えられる。
【0065】(変形例): 第1実施例において、図
9のS92において、予め全ての文書を読み込んでから
以下に続く処理を行うように構成することも好ましい。
【0066】また、文書属性抽出回路2を90度回転し
た表を処理するようにすれば、90度回転した表を含ん
だ文書を扱うことができる。
【0067】『第2実施例』:発明を文字認識装置に適
用した場合の実施例を以下に示す。
【0068】図10は第2実施例の文字認識装置の機能
構成図である。この図10において、文字認識装置は、
文書読み取り回路101と、文書構造抽出回路102
と、表領域文字認識回路103と、表領域外文字認識回
路1013と、認識結果ファイル1014と、認識結果
修正回路1015と、形態素解析回路3と、解析結果集
計回路4と、品詞意味推定回路5と、未知語表示回路6
と、辞書データ入力回路7と、辞書登録−回路8と、単
語辞書部9と、未知語テーブル10と、品詞意味テーブ
ル11とから構成されている。
【0069】この文字認識装置の構成においては、形態
素解析回路3と、解析結果集計回路4と、品詞意味推定
回路5と、未知語表示回路6と、辞書データ入力回路7
と、辞書登録回路8と、単語辞書部9と、未知語テーブ
ル10と、品詞意味テーブル11とは上述の第1実施例
と同様な機能である。
【0070】また、この文字認識装置で特徴的な構成
は、文書読み取り回路101と、文書構造抽出回路10
2と、表領域文字認識回路103と、表領域外文字認識
回路1013と、認識結果ファイル1014と、認識結
果修正回路1015とである。
【0071】そこで、文書読み取り回路101は、光学
式読取り装置など紙の文書を計算機に処理できる2値情
報に変換するものである。更に、文書構造抽出回路10
2は読み取った情報の中から、図、表、文書などの領域
を識別する回路である。
【0072】更にまた、表領域以外文字認識回路101
3は、表以外の部分の文字を認識する通常の認識回路で
ある。また、この表領域以外文字認識回路1013は認
識した結果を認識結果ファイル1014に書き込むもの
である。
【0073】更に、表領域文字認識回路103は、文書
構造抽出回路102で表として識別された領域の文字を
認識し、表の各項目毎に文字列を出力する回路である。
この表領域文字認識回路103の出力は図1の文書属性
抽出回路2が出力する、表ID、表の標題、表の列名、
表の行データと同じ形式のデータを出力するものであ
る。
【0074】この出力は認識結果ファイル1014に書
き込むと共に、形態素解析回路3に与えられる。そし
て、以下図10の形態素解析回路3〜品詞意味テーブル
11までは上述の第1実施例の構成と同様である。
【0075】また、認識結果修正回路1015は、未知
語表示回路6の未知語をユーザが訂正したときにその訂
正内容を認識結果ファイル1014に反映させる回路で
ある。
【0076】『動作説明』: 図12、図13は第2
実施例の処理フローチャートである。そこで先ずS12
01において文書を読み取る。次に読み取った文書の処
理が全て終了したらS1212に処理を進める。終了し
ていない場合は、S1203で文書構造を抽出する。
【0077】次にS1204では抽出した文書構造が表
でない場合は、S1211に処理を進めるものである。
またS1211では、表領域外文字認識回路1013が
文字認識を行い、この結果を認識結果ファイル1014
に書き込むものである。
【0078】その後、S1202に処理を進める。また
S1204で抽出した文書構造が表の場合は、S120
5で表の中が空かどうかを調べる。ここで、空でないと
きは、S1206で表領域文字認識回路103が表のタ
イトル、項目名及び表中の行データを行認識するもので
ある。
【0079】更に、以下のS1207〜S1210で
は、上述の第1実施例の図7のS76〜S79にそれぞ
れ対応しており同様な処理を行うものである。また、S
1205で表の中が空のときは、S1202に処理を進
めるものである。
【0080】このS1202で未処理の文書がなくなっ
たときはS1212に処理を進める。尚、S1212〜
S1215、S1217はそれぞれ第1実施例の図7の
S80〜S83、S85に対応した同じ処理である。S
1215では辞書データ入力回路7がユーザからの認識
結果及び推定結果に対する修正などの入力を受け付け
る。
【0081】また、S1216で辞書登録を選択すると
辞書登録を行う。そして、認識結果の修正を選択する
と、S1219で認識結果修正回路1015が、S12
15の修正結果によって認識結果の文字列の置換えを行
うものである。また、登録と認識結果と以外が選択され
たときは終了するものである。
【0082】ここでは図2の文書をこの第2実施例の文
字認識装置で文字認識する場合の動作を説明するもので
ある。そこで、単語辞書部9の例を図8に示す。この図
8の文書の表領域は、S1206で表のタイトル、項目
名及び表中の行データが認識される。
【0083】また、表の行データは1行づつ認識されて
S1207で形態素解析される。更に、形態素解析結
果、品詞意味テーブル11、未知語テーブル10はそれ
ぞれ図3〜図5と同じ形式である。
【0084】更にまた、S1214で未知語表示回路6
が未知語を表示するものである。この一例を図11に示
している。ここで行1105の認識結果は「川野篤志」
であり、この文字列の中の「篤志」が未知語である。ま
た、品詞意味推定回路5によってこの未知語の品詞と意
味カテゴリが上述の手順から名詞と人名というように推
定されるものである。
【0085】尚、図11の行1106の認識結果110
3は「松下秦弘」であり、この文字列の中の「秦弘」が
未知語である。そして、品詞意味推定回路5によってこ
の未知語の品詞と意味カテゴリが上述の手順によって名
詞と人名というように推定されるものである。
【0086】図2の文書と比較すると「秦弘」という認
識結果が誤っていることがわかる。このような場合、利
用者はこの画面上で正しい「秦弘」に修正することがで
きる。その後、図11の認識結果修正ボタン1110が
押されたときは、S1218、S1219に処理を進
め、認識結果修正回路1015が認識結果の文書におい
て、修正前後の文字を置換するものである。
【0087】即ち、認識結果の文書中の「秦弘」を「泰
弘」に置換するものである。そして、図11で登録ボタ
ン1109が押されたときは辞書登録回路8が単語辞書
登録を行うものである。一方、終了ボタン1108が選
択されたときは処理を終了するものである。
【0088】(第2実施例の効果): 以上の第2実
施例によれば、文書中の表データの既知語の情報を使用
して、表データの未知語の品詞と意味カテゴリとを自動
的に推定できるものである。更に、表の同じ列の項目が
同じ品詞と意味カテゴリを採り易いという性質を利用し
たものであり、この実施例の推定結果は妥当であると考
えられる。このような構成を使用することで、認識結果
の中の未知語の登録を容易にさせることができるものと
考えられる。
【0089】また、上述の構成を文字認識手段の認識誤
りの修正にも適用して効果的である。この実施例を利用
すると認識誤りが未知語になる場合は、その箇所の品詞
と意味カテゴリを推定する。このようにして、利用者は
それらをもとに認識誤りの結果、生じた未知語のもとの
正しい語を推測することが容易になる。
【0090】また、推定結果をもとに未知語を単誤辞書
に登録することで、表以外の領域の文字認識の精度を向
上させることができるものと考えられる。この実施例を
適用することで未知語の辞書登録の作業を大幅に軽減さ
せることができる。
【0091】特に、複数の意味カテゴリを持つような語
の意味カテゴリを正しく登録できるため、自然言語処理
システムの単語辞書登録装置として有効性が高いと考え
られる。
【0092】(他の実施例): (1)尚、上述の第
1実施例の単語辞書登録装置は、機械翻訳装置の辞書作
成装置として適用することもできる。
【0093】(2)また、第2実施例はOCR(光学的
文字読取)装置の辞書作成装置として用いることができ
る。
【0094】(3)更に、自然文要約装置、全文検索装
置、文書作成支援装置などの自然言語の辞書を用いる装
置などに適用することができる。
【0095】(4)更にまた、上述の実施例をより具体
的に実現する上で、ハードウエア的にはコンピュータ装
置の基本的な構成で、必要な機能のプログラムを搭載す
ることで実現することができる。
【0096】(5)また、上述の実施例では表が含まれ
る文書を入力することで説明したが、他に文章だけでも
良いし、表の周辺に種々の言語や文字で記述されている
ものであっても良い。
【0097】
【発明の効果】以上述べた様にこの発明の単語辞書登録
装置は、文書を取り込み、表属性がある部分を抽出する
手段と、単語辞書を参照して、表属性がある部分から単
語と、この単語の意味カテゴリを抽出し、未知語を検出
する形態素解析手段と、この解析結果を集計する手段
と、表属性がある部分に含まれている構成情報から既知
語の意味カテゴリを用いて未知語の意味カテゴリを推定
する手段と、この推定結果を提示するための手段と、こ
の推定結果を修正するための手段と、未知語とその推定
結果又は推定結果の修正後の意味カテゴリを単語辞書に
登録する手段とを備えたことで、従来に比べ大幅に未知
語に対する単語辞書登録の手間を改善することができ
る。
【0098】また、上述のような構成を文書認識装置へ
適用することで、文書認識の精度を向上させ、認識文書
に含まれる未知語の登録を能率的にさせると共に、未知
語の意味カテゴリの内容も充実したものにすることがで
きると考えられる。
【図面の簡単な説明】
【図1】この発明の第1実施例の単語辞書登録装置の機
能構成図である。
【図2】第1実施例の入力文書の例の説明図である。
【図3】第1実施例の形態素解析結果の説明図である。
【図4】第1実施例の品詞意味テーブルの説明図であ
る。
【図5】第1実施例の未知語テーブルの説明図である。
【図6】第1実施例の未知語表示回路と辞書データ入力
回路の画面の説明図である。
【図7】第1実施例の処理フローチャートである。
【図8】第1実施例の単語辞書部の説明図である。
【図9】第1実施例の品詞意味推定の処理フローチャー
トである。
【図10】第2実施例の文書認識装置の機能構成図であ
る。
【図11】第2実施例の未知語表示回路の説明図であ
る。
【図12】第2実施例の処理フローチャートである。
【図13】第2実施例の処理フローチャートである。
【符号の説明】
1…文書入力回路、2…文書属性抽出回路、3…形態素
解析回路、4…解析結果集計回路、5…品詞意味推定回
路、6…未知語表示回路、7…辞書データ入力回路、8
…辞書登録回路、9…単語辞書部、10…未知語テーブ
ル、11…品詞意味テーブル。
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06K 9/72 9061−5H 9288−5L G06F 15/20 550 A 8420−5L 15/38 E

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 各単語に対して、少なくとも単語表記と
    意味カテゴリとを規定して単語辞書に登録する単語辞書
    登録装置において、 文書を取り込み、表属性がある部分を抽出する手段と、 単語辞書を参照して、上記表属性がある部分から単語
    と、この単語の意味カテゴリを抽出し、未知語を検出す
    る形態素解析手段と、 この解析結果を集計する手段と、 上記表属性がある部分に含まれている構成情報から既知
    語の意味カテゴリを用いて未知語の意味カテゴリを推定
    する手段と、 この推定結果を提示するための手段と、 この推定結果を修正するための手段と、 上記未知語とその推定結果又は推定結果の修正後の意味
    カテゴリを単語辞書に登録する手段とを備えたことを特
    徴とする単語辞書登録装置。
  2. 【請求項2】 各単語に対して、少なくとも単語表記と
    意味カテゴリとを規定した単語辞書を備え、この単語辞
    書を用いて文書認識を行う文書認識装置において、 文書を取り込み、表属性がある部分を抽出する手段と、 単語辞書を参照して、上記表属性がある部分から単語
    と、この単語の意味カテゴリを抽出し、未知語を検出す
    る形態素解析手段と、 この解析結果を集計する手段と、 上記表属性がある部分に含まれている構成情報から既知
    語の意味カテゴリを用いて未知語の意味カテゴリを推定
    する手段と、 この推定結果を提示するための手段と、 この推定結果を修正するための手段と、 この修正結果を用いて文書認識結果を修正する手段とを
    備えたことを特徴とする文書認識装置。
  3. 【請求項3】 請求項2記載の文書認識装置において、 未知語とその推定結果又は推定結果の修正後の意味カテ
    ゴリを単語辞書に登録する手段を備えたことを特徴とす
    る文書認識装置。
JP14281694A 1994-06-24 1994-06-24 単語辞書登録装置及び文書認識装置 Expired - Fee Related JP3347477B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14281694A JP3347477B2 (ja) 1994-06-24 1994-06-24 単語辞書登録装置及び文書認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14281694A JP3347477B2 (ja) 1994-06-24 1994-06-24 単語辞書登録装置及び文書認識装置

Publications (2)

Publication Number Publication Date
JPH0816597A true JPH0816597A (ja) 1996-01-19
JP3347477B2 JP3347477B2 (ja) 2002-11-20

Family

ID=15324301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14281694A Expired - Fee Related JP3347477B2 (ja) 1994-06-24 1994-06-24 単語辞書登録装置及び文書認識装置

Country Status (1)

Country Link
JP (1) JP3347477B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) * 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법
JPWO2008136135A1 (ja) * 2007-05-01 2010-07-29 ジャパン・フィールド株式会社 被加熱目的液の加熱方法及びその装置
KR100978693B1 (ko) * 2008-05-20 2010-08-30 야후! 인크. 전자사전 서비스를 제공하는 시스템 및 방법
JP2013033367A (ja) * 2011-08-02 2013-02-14 Dainippon Printing Co Ltd 辞書作成装置、辞書作成方法、およびプログラム
JP2013257756A (ja) * 2012-06-13 2013-12-26 Hitachi Solutions Ltd 文字情報の分析方法および情報分析装置並びにプログラム
KR20180109176A (ko) * 2017-03-27 2018-10-08 전북대학교산학협력단 용어사전 구축 장치 및 구축 방법이 구현된 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) * 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법
JPWO2008136135A1 (ja) * 2007-05-01 2010-07-29 ジャパン・フィールド株式会社 被加熱目的液の加熱方法及びその装置
KR100978693B1 (ko) * 2008-05-20 2010-08-30 야후! 인크. 전자사전 서비스를 제공하는 시스템 및 방법
JP2013033367A (ja) * 2011-08-02 2013-02-14 Dainippon Printing Co Ltd 辞書作成装置、辞書作成方法、およびプログラム
JP2013257756A (ja) * 2012-06-13 2013-12-26 Hitachi Solutions Ltd 文字情報の分析方法および情報分析装置並びにプログラム
KR20180109176A (ko) * 2017-03-27 2018-10-08 전북대학교산학협력단 용어사전 구축 장치 및 구축 방법이 구현된 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체

Also Published As

Publication number Publication date
JP3347477B2 (ja) 2002-11-20

Similar Documents

Publication Publication Date Title
JPH08235182A (ja) 文章処理方法とその装置
JPH0816597A (ja) 単語辞書登録装置及び文書認識装置
JP2003186870A (ja) 文書表示方法、文書表示装置、プログラムおよび記録媒体
JP2994336B1 (ja) 文書解析装置およびその方法
JP3448895B2 (ja) 取引処理装置
JPH10177623A (ja) 文書認識装置および言語処理装置
JP3209125B2 (ja) 語義曖昧性解消装置
JP2004046388A (ja) 情報処理システムおよび文字修正方法
JPH0748217B2 (ja) 文書要約装置
JPH08115330A (ja) 類似文書検索方法および装置
JPS63163956A (ja) 文書作成・校正支援装置
JP3501240B2 (ja) 文書作成支援装置
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JPH0612453A (ja) 未知語抽出登録装置
JP2973369B2 (ja) 日本文形態素解析処理用日本語辞書構成装置
JPH09160907A (ja) 文書処理装置及び方法
JPH06295309A (ja) 機械翻訳装置及び言語解析装置並びにディジタル複写装置
JP2776069B2 (ja) 文章検査装置
JPH1145245A (ja) 外国語文読解支援システム、外国語文読解支援プログラムが記憶された記憶媒体、及び外国語文読解支援方法
JPH09138835A (ja) 文字認識装置
JPH0486948A (ja) 分野別辞書を利用したカナ振りデータベースの作成方法
JPH06266765A (ja) 文章検索装置
JPS63163957A (ja) 文書作成・校正支援装置
JPH10187724A (ja) 文書作成支援方法及び装置
JPH02136959A (ja) 日本文訂正候補抽出装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070906

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080906

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090906

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100906

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees