JP2002297589A - 未知語収集方法 - Google Patents

未知語収集方法

Info

Publication number
JP2002297589A
JP2002297589A JP2001100238A JP2001100238A JP2002297589A JP 2002297589 A JP2002297589 A JP 2002297589A JP 2001100238 A JP2001100238 A JP 2001100238A JP 2001100238 A JP2001100238 A JP 2001100238A JP 2002297589 A JP2002297589 A JP 2002297589A
Authority
JP
Japan
Prior art keywords
unknown
word
unknown word
words
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001100238A
Other languages
English (en)
Inventor
Yoshihisa Oguro
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001100238A priority Critical patent/JP2002297589A/ja
Publication of JP2002297589A publication Critical patent/JP2002297589A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】テキストから未知語として辞書登録するにふさ
わしい形態素のみを効率よく抽出することができる未知
語検出方法を提供する。 【解決手段】 任意の入力テキストを形態素解析し、上
記自然言語処理装置で使用している言語辞書内に記載の
単語と重複しない形態素を抜き出す。そこで、まず、テ
キストを入力し(ステップS1)、テキストを形態素解
析する(ステップS2)。形態素解析結果の内、言語辞
書に登録されていない単語を抽出し、未知語リストを作
成する(ステップS3)。次いで、抽出した未知語に対
して言語情報を人手によって付与する(ステップS
4)。最後に未知語とその言語情報を言語辞書に登録す
る(ステップS5)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学的文字読取装
置の読み取り結果を、読み取り性能を向上させることを
目的として、言語情報を用いた自動修正を行なう文字認
識装置をはじめとする、自然言語処理応用装置の言語辞
書における未知語収集方法およびその方法を実施するた
めのコンピュータプログラムに関する。
【0002】
【従来の技術】テキストから未知語を収集する方法に関
して言及した技術として、例えば特開平6−30171
7号公報に開示された発明が公知である。この発明で
は、機能語や区切り記号によって挟まれた形態素の連結
を『長単位語』と定義し、それが言語辞書に未登録であ
れば、その範囲を未知語として認定している。
【0003】
【発明が解決しようとする課題】しかし、この方法で
は、前記公報において例に挙げている「入力文字処理機
能」のように、一般的な名詞である「入力」「文字」
「処理」「機能」など、意味のまとまりのある名詞が連
結した場合の複合名詞まで未知語として抽出してしま
う。一方、日本語において、「入力」「文字」「処理」
「機能」などの漢語の造語力は強く、漢語同士の組み合
わせによって作成される複合名詞の種類は膨大な数にの
ぼる。例えば、「入力文字処理機能」が出現するような
テキストにおいては、「入力文字」「文字処理」「処理
機能」「入力処理機能」「文字入力」「入力機能」など
の形態素も出現するであろうことは容易に予測できる。
【0004】『機能語や区切り記号によって挟まれた形
態素』という基準で未知語を抽出していけば、前述のよ
うな構成する単語は同じで組み合わせのみ異なる例も全
て抽出することになり、未知語辞書に登録すべき単語が
増大し、その辞書を利用した自然言語処理装置におい
て、処理時間および記憶容量の増大をまねくことは必至
である。さらに、言語辞書に「入力文字処理機能」を登
録しても、未知のテキストにおいて、「文字処理機能」
という形態素が出現した場合、同じ単語の組合わせに過
ぎないにも関わらず、一致しないので、「文字処理機
能」は未知語のまま処理されてしまい、言語辞書に「入
力文字処理機能」を登録した効果がない。
【0005】これらの問題を避けるために、未知語とし
て抽出すべき形態素は、意味的にまとまりのある最小単
位にすべきであり、徒に複合語を抽出することは避ける
ことが好ましい。可能であれば、(言語辞書にとって)
全くの新語が効率的に抽出することが望まれる。
【0006】そこで、本発明の目的とするところは、テ
キストから未知語として辞書登録するにふさわしい形態
素のみを効率よく抽出することができる未知語検出方法
を提供することにある。
【0007】また、他の目的は、抽出された未知語の頻
度情報を用いて誤入力を検出可能な誤り検出方法を提供
することにある。
【0008】さらに他の目的は、前記未知語検出方法お
よび誤り検出方法をコンピュータで実行するためのプロ
グラムを提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するため
に本発明では、テキストから未知語として辞書登録する
に、ふさわしい形態素のみを未知語として効率よく抽出
するために、形態素を ・文字種 ・単語長 ・出現頻度 ・KWIC(Key Word In Context)結果 ・大規模辞書による検索結果 ・隣接する形態素の既知語連続数 によって、絞り込むことを特徴とする。
【0010】具体的には、第1の手段は、文字画像に対
し、何らかの画像処理を行ない、画像の特徴を抽出し、
画像特徴格納辞書と照合し、言語情報によって誤り訂正
を行ない、文字認識を行なう装置をはじめとする自然言
語処理装置で使用する言語辞書の情報追加を行うための
未知語抽出方法において、任意の入力テキストを形態素
解析し、上記自然言語処理装置で使用している言語辞書
内に記載の単語と重複しない形態素を未知語として抜き
出すことを特徴とする。
【0011】第2の手段は、第1の手段において、抽出
された未知語をテキスト中の出現頻度によってさらに絞
り込むことを特徴とする。
【0012】第3の手段は、第1の手段において、抽出
された未知語を両端の文字に注目して、さらに絞り込む
ことを特徴とする。
【0013】第4の手段は、第1の手段において、抽出
された未知語を隣接する形態素の種類によって、さらに
絞り込むことを特徴とする。
【0014】第5の手段は、第1の手段において、抽出
された未知語を当該自然言語処理装置で使用していない
より大規模な言語辞書で検索することによって、さらに
絞り込むことを特徴とする。
【0015】第6の手段は、第1の手段において、抽出
された未知語を単語長によってさらに絞り込むことを特
徴とする。
【0016】第7の手段は、第1の手段において、抽出
された未知語を元テキスト内におけるKWIC結果によ
ってさらに絞り込むことを特徴とする。
【0017】第8の手段は、第1の手段において、未知
語に隣接する1文字の既知語を未知語に連結してまとめ
ることを特徴とする。
【0018】第9の手段は、第1の手段において、抽出
された未知語の文字種類によってその品詞を決定するこ
とを特徴とする。
【0019】第10の手段は、第1ないし9の手段にお
いて、抽出された未知語の頻度情報を用いて誤入力を検
出することを特徴とする。
【0020】第11の手段は、文字画像に対し、何らか
の画像処理を行ない、画像の特徴を抽出し、画像特徴格
納辞書と照合し、言語情報によって誤り訂正を行ない、
文字認識を行なう装置をはじめとする自然言語処理装置
で使用する言語辞書における未知語収集手順を実行する
ためのコンピュータプログラムにおいて、任意の入力テ
キストを形態素解析し、上記自然言語処理装置で使用し
ている言語辞書内に記載の単語と重複しない形態素を未
知語として抜き出す手順を含んでいることを特徴とす
る。
【0021】
【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。
【0022】1.任意の入力テキストを形態素解析し、
上記自然言語処理装置で使用している言語辞書内に記載
の単語と重複しない形態素を抜き出す未知語抽出 図1は、本発明の未知語抽出方法を実行するための概略
構成を示すブロック図である。
【0023】本発明の未知語抽出方法を実行する手段
は、テキスト入力手段1、テキスト記憶手段2、形態素
解析手段3、形態素解析結果記憶手段4、辞書検索手段
5、言語辞書6、辞書データと形態素解析結果との照合
手段7、未知語リスト記憶手段8、未知語リスト編集手
段9、および単語削除条件保持手段10から構成され
る。
【0024】自然言語文のバラエティは多く、かつ日々
変化するために、自然言語処理装置で使用する言語辞書
に、すべての自然言語文を処理するに十分な単語を予め
登録しておくことは不可能である。言語辞書には、一般
的によく使われる単語のみ登録されている場合が多い。
しかし、処理対象テキスト中の未知語は、自然言語処理
装置の処理精度を下げる原因になり、可能な限り、未知
語が少ないことが望まれる。特に、専門性の高いテキス
トを自然言語処理する場合には、一般的な辞書に登録さ
れていない単語が多数出現することが予想され、処理精
度は著しく低下する。
【0025】ここで、以下のような入力テキストから、
自然言語処理システムの言語辞書にとって未知語(=未
登録語)を抽出する場合を考える。
【0026】〔例1〕 大蔵省 第四十三号 信用金庫法(昭和二十六年法律第二百三十八号)第八十
九条において準用する銀行法(昭和五十六年法律第五十
九号)第十九条第二項の規定に基づき、信用金庫法施行
規則の一部を改正する省令を次のように定める。
【0027】平成七年六月二十一日 大蔵大臣 武村 正義 上記入力テキストを形態素解析する。形態素解析は自然
言語処理において公知の基本的な処理であり、入力され
たテキストを単語毎に分かち書きすることである。その
手法には「最長一致法」、「文節数最小法」、「字種切
り法」、「CYK法」など代表的なものが4つほどあ
り、一般的に確立されている。この形態素解析の手法
は、例えば以下の文献に詳細に記載されている。
【0028】(1)日高達:「自然言語理解の基礎−形
態論」、 情報処理 Vol.30,No.10,p
p.1169−1175(1989.10). (2)岡田直之ほか:「自然言語処理入門−II 機械
の文法と意味を考えよう」、 情報処理 Vol.3
4, No.12,pp.1548−1569(199
4). なお、本発明では形態素解析の方式を特定する必要がな
く、いずれの方式を用いてもかまわない。
【0029】以下、〔例1〕のテキストを「最長一致
法」によって形態素解析した結果を示す。
【0030】〔例1の形態素解析した結果〕 大蔵省 第四 十三 号 信用金庫 法 ( 昭和 二十 六年 法律 第二
百 三十 八 号 )第 八 十九条 において 準用
する 銀行 法 ( 昭和 五十 六年 法律 第五
十九 号 )第 十九 条 第二項 の 規定 に 基
づ き 、 信用金庫 法 施行規則 の 一部を 改
正 する 省令 を 次の ように 定める 。
【0031】平成 七年 六月 二十 一日 大蔵大臣 武 村正 義 そこで、前記形態素解析結果と、自然言語システムの辞
書とを比較し辞書に登録されていない形態素を抽出す
る。以下に列挙したのは未知語のリストである。
【0032】〔未知語リスト(1)〕 ..... ..... ..... 大阪府高槻市 大阪府堺市 大阪府大 大阪府池田市 大阪府豊中市 大司 大枝東新林町3 ..... ..... ..... 電気通信事業 電工株式会社 電子材料 電信電話 電電 電波法 電話番号 斗志子 渡志信 渡純 渡正年 登記申請 登録番号 都祁野 都市環境 都市鉄道 都道府県知事 都道府県名 度の 度分 度分の 土生町 土本 唐琴 ..... ..... ..... 前記未知語リストとして示した単語リストは、自然言語
処理装置にとっての未知語リストであり、これらに対し
人手によって各種の言語情報を付与した後、言語辞書に
登録すれば、自然言語処理装置の処理精度が著しく向上
するのは明らかである。未知語を辞書登録してから、同
じ入力テキストを自然言語処理すると精度が向上するの
は当然であるが、辞書登録に人手を介するため、効率的
とは言えない。しかし、大量の同質のテキストを自然言
語処理する場合には、全体をいくつかに分割し、その一
部のみを用いて未知語登録すべき単語を抽出した後、全
体を処理することによって、一部の処理は人手がかかる
ものの、未知語登録後は、全体として、効率的かつ高精
度に処理することができる。
【0033】例えば、一冊の専門書をOCR処理する場
合、奇数ページを最初にOCR処理し、人手によって修
正して正解テキストを作成した後、上記の方法によって
未知語を抽出して、言語辞書に未知語を登録する。その
後、偶数ページをOCR処理すれば、未知語に遭遇する
頻度は低くなることが予想され、認識精度が向上するこ
とが期待できる。また、使用するテキストは、必ずしも
認識対象原稿のテキストである必要はなく、認識対象原
稿と類似する分野のテキストが入手可能であるならば、
それを利用することもできる。
【0034】このとき処理手順を図2のフローチャート
に示す。
【0035】この処理では、まず、テキストを入力し
(ステップS1)、テキストを形態素解析する(ステッ
プS2)。形態素解析結果の内、言語辞書に登録されて
いない単語を抽出し、未知語リストを作成する(ステッ
プS3)。次いで、抽出した未知語に対して言語情報を
人手によって付与する(ステップS4)。最後に未知語
とその言語情報を言語辞書に登録する(ステップS
5)。
【0036】2.抽出された未知語のテキスト中の出現
頻度による絞り込み 前記未知語リスト(1)には、入力テキストの誤りや、
形態素解析のミスなどが原因の、未知語と登録すべきで
ない単語も含まれている。例えば、以下のような形態素
解析結果から、 東京都立 川市 羽衣 町 1 丁目 1番 4― 前記図2に示したフローチャートの処理によって、以下
の未知語リストが得られたとする。
【0037】川市 4― しかし、「川市」は、形態素解析の辞書に「東京都立」
が登録されているために、最長一致法では (正) (誤) 東京都/立川市 → 東京都立/川市 と間違って分割してしまうことが原因で生じた誤った分
け方である。単語としてまとまらないので、未知語とし
て登録すべきでない。このような形態素解析ミスによる
形態素は、 東京都立○○○ ※ 注意 ○○○:言語辞書に登録されていない未知語 「東京都立川市」においてももし「立川市」が辞書に登
録されていれば、東京都/立川市と正しく分割できる。
【0038】のように、特定の文脈でしか生じないか
ら、テキスト中の出現頻度は低い。
【0039】また、正しく形態素解析されたとしても、
出現頻度が低い未知語は、他のテキストにおいても出現
頻度が低い可能性が高く、言語辞書に登録するほどの普
遍性を備えているとは考えにくいので(固有名詞な
ど)、未知語登録する必要はない。
【0040】したがって、前記未知語リスト(1)中の
単語の入力テキスト中の出現頻度を求め、あるしきい値
以下のものは、未知語リストから削除する。以下、その
未知語リスト(2)を示す。
【0041】〔未知語リスト(2)〕 ..... ..... ..... 24 大阪府高槻市 34 大阪府堺市 9 大阪府大 ←削除 30 大阪府池田市 10 大阪府豊中市 5 大司 ←削除 3 大枝東新林町3 ←削除 ..... ..... ..... 123 電気通信事業 9 電工株式会社 ←削除 89 電子材料 76 電信電話 8 電電 ←削除 97 電波法 86 電話番号 7 斗志子 ←削除 1 渡志信 ←削除 1 渡純 ←削除 1 渡正年 54 登記申請 20 登録番号 1 都祁野 ←削除 19 都市環境 11 都市鉄道 12 都道府県知事 8 都道府県名 ←削除 2 度の ←削除 2 度分 ←削除 3 度分の ←削除 7 土生町 ←削除 6 土本 ←削除 3 唐琴 ←削除 ..... ..... ..... この削除により未知語リスト(2)作成する処理手順を
図3に示す。なお、この処理は、頻度情報付きの未知語
リストの例で、この例では、頻度10以下は削除するよ
うにしている。
【0042】まず、テキストを入力し(ステップS1
1)、テキストを形態素解析する(ステップS12)。
形態素解析結果の内、言語辞書に登録されていない単語
を抽出し、未知語リストを作成する(ステップS1
3)。次いで、未知語リスト中の単語のテキスト中の出
現頻度を求める(ステップS14)。そして、予め設定
された値より少ない頻度の単語を未知語リストから除外
し(ステップS15)、抽出した未知語に対して言語情
報を人手によって付与した(ステップS16)後、未知
語とその言語情報を言語辞書に登録する(ステップS1
7)。
【0043】3.抽出された未知語の両端の文字に注目
した絞り込み 日本語の場合、日常生活で普通に使う言葉、つまり基本
語彙を形成するものの多くは和語である。動詞「読
む」、「見る」など、名詞「月」、「花」などの他、助
詞や助動詞などがある。和語は日本語の基本語彙である
から出現頻度が高いが、基本語彙ゆえ、その種類が増え
ることは少なく、ほぼ固定されていると考えてよい。特
に和語の動詞、形容詞、副詞など、活用を伴う語(送り
仮名がつくもの)に関しては、その傾向が強いと言え
る。したがって、一般的な自然言語処理装置の言語辞書
は、和語に関して言えば、ほぼ十分な語彙が収録されて
いることが期待できる。
【0044】一方、漢語は(普通2字以上であるが、2
字以上の漢字を組み合わせた1字もある)、中国から輸
入された語彙であり、その歴史の古さから、語彙数が非
常に多い。しかも明治時代になってからも、外国語の翻
訳などに新造語として多用された。日本語において、
「入力」、「文字」、「処理」、「機能」など、漢語の
造語力は強く、漢語同士の組み合わせによって作成され
る複合名詞の種類は膨大な数にのぼる。例えば、「入力
文字処理機能」のような複合語が作成できる。また、日
本語は外国語の音を元にしたカタカナ語も造語力が強
く、新語として増える語彙の多くはカタカナ語である。
【0045】このように、日本語の語彙を大まかに分類
すると、その起源より、和語、漢語、カタカナ語に分類
され、上述したような特徴がある。例を示すと、同じ事
物を表す言葉でいえば、「宿屋」は和語、「旅館」は漢
語、「ホテル」はカタカナ語である。同様に「速さ」は
和語、「速度」は漢語、「スピード」はカタカナ語であ
る。
【0046】以上、述べたことから、未知語として抽出
すべき語の多くは、 漢語 カタカナ語 であることがわかる。これらの特徴は、 1文字以上 活用を伴わない 語彙の両端は漢字(漢語) 語彙の両端はカタカナ(カタカナ語) である。
【0047】したがって、前述の未知語リスト(1)か
ら、この条件に合致しない単語を削除する。このリスト
を未知語リスト(3)とする。
【0048】〔未知語リスト(3)〕 ..... ..... ..... 電気通信事業 大阪府高槻市 大阪府堺市 大阪府大 大阪府池田市 大阪府豊中市 大司 大枝東新林町3 ←削除 ..... ..... ..... 電気通信事業 電工株式会社 電子材料 電信電話 電電 電波法 電話番号 斗志子 渡志信 渡純 渡正年 登記申請 登録番号 都祁野 都市環境 都市鉄道 都道府県知事 都道府県名 度の ←削除 度分 度分の ←削除 土生町 土本 唐琴 ..... ..... ..... この条件では、和語である「宿屋」も上述の条件を満足
するので抽出されてしまうが、未知語抽出において、厳
密に和語であるか否かは重要でなく、単に未知語の傾向
として漢語が多いというだけであるから、言語辞書に未
登録であれば、和語であっても登録すべきであることは
言うまでもない。
【0049】このように単語両端の字種によって制限
し、未知語リスト(3)を作成する処理の処理手順を図
4に示す。
【0050】この処理では、まず、テキストを入力し
(ステップS21)、テキストを形態素解析する(ステ
ップS22)。次いで、形態素解析結果の内、言語辞書
に登録されていない単語を抽出し、未知語リストを作成
する(ステップS23)。そして、単語両端の文字を抜
き出し(ステップS24)、ステップS23で抜き出し
た文字が予め設定された字種であるならば、当該単語を
未知語リストから除外する(ステップS25)。次い
で、抽出した未知語に対して言語情報を人手によって付
与する(ステップS26)。最後に、未知語とその言語
情報を言語辞書に登録する(ステップS27)。
【0051】4.抽出された未知語に隣接する形態素の
種類による絞り込み また、前述のように形態素解析結果は100%正しく、
文を単語に分割できるわけではない。自然言語を扱うに
十分な語彙を形態素解析用辞書に予め登録しておくのは
不可能だからである。したがって、形態素解析結果には
誤りが含まれている可能性があることを前提としなけれ
ばならない。形態素解析が誤っている結果から未知語を
抽出しても、望む結果が得られないのは、前述3の通り
である。形態素解析が正しく行われた場合のみ、未知語
抽出の対象となるよう、以下の方法で判断する。
【0052】前記例を再掲する。形態素解析結果 東京都立 川市 羽衣 町 1 丁目 1番 4― に対して、今、未知語候補として 川市 4― が挙っているとする。形態素解析結果の内、上記、未知
語を[]で囲むと以下のようになる。 東京都立 [川市] 羽衣 町 1 丁目 1番 [4
―] 未知語[川市]に隣接している『羽衣』は辞書にある既
知語であるが、さらに隣の『町』は1語であり、周辺が
未知語であっても、問題なくほとんどの文脈に適応しう
るため信用できない。
【0053】一方、以下の形態素解析結果における、未
知語[審尋]は、2文字以上の既知語に連続して囲まれ
ているので、形態素解析が正しく行われている可能性が
高く、[審尋]は未知語抽出の対象としてもよい。申立
て に 『関する』 『破産者』 [審尋] 『期日』
『変更』 よって、以下の条件で未知語抽出結果を制限
すれば、形態素解析誤りに起因する未知語がリストに混
入する可能性を低減することができる。その条件とは、 条件: 注目している未知語の両隣に2文字以上の既知
語が連続していない場合には、形態素解析誤りの可能性
が高いので、注目している未知語は、未知語抽出の対象
としない。というものである。
【0054】このような条件で処理する処理手順を図5
に示す。図5は両隣の既知語連続数により制限する未知
語抽出の全体的な手順を示している。
【0055】この処理では、まず、テキストを入力し
(ステップS31)、テキストを形態素解析する(ステ
ップS32)。次いで、形態素解析結果の内、言語辞書
に登録されていない単語を抽出し、未知語リストを作成
し(ステップS33)、単語両隣の形態素を抜き出す
(ステップS34)。そして、ステップS33で抜き出
した形態素の列中で、辞書に登録されている単語が何回
連続して並ぶかを計数する(ステップS35)。計数し
た結果、予め設定された回数以下であるならば、当該単
語を未知語リストから除外すし(ステップS36)、抽
出した未知語に対して言語情報を人手によって付与する
(ステップS37)。最後に、未知語とその言語情報を
言語辞書に登録する(ステップS38)。
【0056】5.抽出された未知語を自然言語処理装置
で使用していないより大規模な言語辞書で検索すること
による絞り込み 自然言語処理装置で使用する言語辞書は、日本語の基本
的な語彙に関しては充実しているが、専門性の高い語彙
に関しては、あえて登録していない場合が多い。なぜな
ら、現在の自然言語処理装置の語彙の適用に関する判断
レベルは、人間による判断の域には達しておらず、機械
的に辞書検索したものを入力文に適用しているに過ぎな
いからである。したがって、意味的に適切でない語彙で
も機械的に適用してしまうため、可能な限り、あいまい
性がなくなるように使用頻度の低い語彙に関しては、辞
書に登録しないか、頻度情報を設定して、適用されにく
くしている。また、言語辞書内に登録している語彙の間
に、片方が成立すると、もう片方が成立し得ないという
矛盾が生じる場合もあり、このような場合にも、可能で
あれば、あいまい性がなくなるように調整することが多
い。
【0057】また、収録語彙数が多いと、記憶容量が増
大する上、検索時間も増加するので、無制限に収録語彙
数を増やすことは好ましくない。そのため、本発明によ
る方法で抽出した未知語も、自然言語処理用ではない大
規模な言語辞書には収録されている可能性は高い。例え
ば「審尋」は、一般的に広く利用されているパソコン用
OSであるWindows 付属のかな漢字変換ツール
であるMS−IMEの単語辞書には登録されていない
が、国語辞典『大辞林第二版』(23万3千語収録)に
は、以下のように登録されている。 しんじん [審尋・審訊] (名)スル (1)詳しく訊問すること。審問。 (2)裁判所が訴訟当事者や訴訟関係人に、陳述の機会
を与えること。 同様に、「伐期齢」は、MS−IME には「伐期」の
み登録されているが、「伐期齢」では登録されていな
い。大辞林第二版には以下のように登録されている。 ばっき−れい [伐期齢] 伐期のときの林齢。
【0058】専門性の高い語である「施業」も同様であ
る。 せぎょう ―げふ [施業] 事業を経営管理し処理すること。特に林業経営について
いう。
【0059】このように、自然言語処理装置の言語辞書
には、専門性の高い語彙や複合語は登録されていないこ
とが多い。
【0060】前述の例では、「伐期齢」「施業」は、林
業関係の専門語である。したがって、未知語として抽出
された単語を、自然言語処理用でない大規模な辞書で検
索し、検索に成功したならば、専門性の高さゆえの未知
語と見なすことは合理的な解釈であると言える。なお、
新語ゆえの未知語に関しては、この方法では判断できな
い。
【0061】このような場合の処理手順を図6のフロー
チャートに示す。図6は、自然言語処理用でない別の大
規模辞書での検索結果によって制限する未知語抽出の全
体的な手順を示す。
【0062】この処理では、まず、テキストを入力し
(ステップS41)、テキストを形態素解析する(ステ
ップS42)。次いで、形態素解析結果の内、言語辞書
に登録されていない単語を抽出し、未知語リストを作成
し(ステップS43)、大規模な辞書によって、未知語
リスト中の単語を検索する(ステップS44)。そし
て、見出し語がなければ、当該単語を未知語リストから
除外し(ステップS45)、抽出した未知語に対して言
語情報を人手によって付与する(ステップS46)。最
後に、未知語とその言語情報を言語辞書に登録する(ス
テップS47)。
【0063】6.抽出された未知語の単語長による絞り
込み 前述の項目1で説明した未知語抽出方法で抽出された未
知語リストの内、単語長さの短いもの、特に1文字のも
のは、形態素誤りに起因するものが多い。例えば以下の
形態素解析結果において、[]で囲まれた部分を未知語
であるとする。[抽] せん 場所 株式会社 富士
総合研究所 ( 東京都 江戸川区「抽選」は言語辞書
に登録されていても、「抽せん」が未登録である場合に
は上のような結果になる。常用漢字など、漢字の使用に
制限がある場合には、本来、漢字で書かれるべき部分も
ひらがなで書かれるので、このような例は頻繁に起こり
うる。他には「近頃」→「近ごろ」、「帳尻」→「帳じ
り」などがある。このような場合、[抽]は未知語とし
て抽出されるが、明らかに形態素解析の誤りであり、未
知語として登録すべき単語ではない。したがって、1文
字の未知語は未知語リストから削除する方が、精度よく
未知語を抽出できるといえる。
【0064】同様に、2文字から構成される未知語も、
前述の項目2で示した例における[川市]のように形態
素解析が誤る可能性がある。しかも、1文字単語と1文
字単語の複合は、まれであるから、2文字の単語は複合
語として成立しているとは考えにくい。つまり、2文字
の未知語は、形態素解析の誤りに起因するものか、ある
いは複合語でない、全くの未知語である可能性が高い。
したがって、主に複合語の未知語を抽出したい場合に
は、単語長が3文字以上のものに制限すればよい。しか
も、単語長さが長くなるほど、抽出された未知語が言語
辞書に登録された後、自然言語処理に適用される可能性
が低く、たとえ間違って登録されていたとしても、悪影
響は少ない。2文字の単語の場合、間違って言語辞書に
登録されてしまうと、適用される場合が多いので、悪影
響が大きくなる恐れがあるので、言語辞書に登録する際
には慎重にならねばならない。
【0065】7.未知語に隣接する1文字の既知語を未
知語に連結する 未知語に隣接する語が、下記の接頭語あるいは接尾語で
ある場合には、未知語に連結して、全体を複合語として
抽出する。すなわち、自立性が弱く、直後の後続語を修
飾するか性格を規定する形容語としての接頭語で、熟語
と接続し、3字以上の熟語を構成する以下のような語は
分離せず、複合形をもって1語とする。 真;御;非;無;不;反;未;大;中;小;新;旧;
全;微;超;諸;名;単;急;暖;主;最;現;原;
軽;重;有;多;少;半;正;高;低;総;副;再;
前;後;本;今;対;準;好;悪;数;長;短;仮など 例:真犯人;非人間;無政府;反体制;新幹線 同様に、自立性が弱く、直前の語と結合し、3字熟語を
形成する以下の接尾語は、複合形をもって1語とする。 的;者;人;会;区;長;党;部;員;中;省;所;
間;化;機;局;社;車;号;生;性;駅;店;家;
力;半;後;国;団;法;内;線;戦;権;式;県;
館;本;書;品;派;金;署;発;期;場;地;用;
台;隊;室;費;学など 例:平和的;殺人者;商売人 なぜなら、前述したように、これらの接頭語あるいは接
尾語は、1文字単独では、あまり意味をなさず、隣接す
る単語を修飾するために存在するので、意味的には単語
と連結した方がまとまりがつくからである。
【0066】例えば、代表的な自然言語処理として、か
な漢字変換を考える。接頭語と、それが修飾する語を別
々に登録した場合 「しんはんにん」→「真犯人」/「新犯人」 「はんたいせい」→「反体制」/「半体制」 のあいまい性が生じる。しかし、「新犯人」「半体制」
という複合語は一般には存在しない。「犯人」を修飾す
るのは「真」に決っており、「体制」を修飾するのは
「反」に決っている。つまり、これらの接頭語は、修飾
する語と接続強度が強いのである。
【0067】これは、修飾する語が未知語であっても同
様で、○○が未知語として 真 + ○○○ 反 + ○○○ という形態素解析結果であれば、たとえ、「真」「反」
が既知語であっても 「真○○○」 「反○○○」 と未知語部分に接続して、全体を未知語として登録すべ
きである。しかも、接頭語あるいは接尾語を、それが修
飾する単語と連結して、ひとつの単語とみなせば、文全
体の形態素数が減るから、自然言語処理する際に、可能
性の数が著しく減り、処理時間が短縮される上、あいま
い性が低減されるので都合がよい。
【0068】8.抽出された未知語の元テキスト内にお
けるKWIC結果による絞り込み 前述したように形態素解析は100%正しく行なわれる
とは限らない。よって形態素解析結果を利用する本実施
形態の場合も100%正しく未知語を抽出する方法では
ない。そこで未知語抽出の精度向上のためには、人手に
よる検査が必要となる。不適切な未知語を検出する原因
は、形態素解析の誤りにあるので、未知語の周辺の文脈
を効率よく検査する手段があれば、不適切な未知語を削
除することができる。本実施形態では検査手段として
「KWIC」を使用する。
【0069】KWIC(クウィック)索引は、1959
(昭和34)年にルーン(Luhn,H.P.)が発表した文
献索引の自動作成の実用的な手法の1つで、順列式索引
の一種であり、Keyword in Context索引の略語であ
る。KWIC索引は、文脈付き索引とも呼ばれており、
文脈から抽出したキーワードに、原文中のキーワードの
前後の文脈を付けて、キーワードをアルファベット順、
またはJIS符号順に配列して索引としたものである。
KWICの作成方法としては、各種、既に確立されてお
り、本発明の要旨ではないので、ここでは特に限定され
ることはなく、いずれの方法を用いてもよい。
【0070】以下にKWIC作成法が具他的に記載され
ている文献を示す。 (1)「ソフトウエア作法」 B.W.Kerninghan, P.J.Plauger著,木村泉訳 共立出版 (1981) 下記に未知語候補の KWIC 出力結果を示す。未知
語候補として抽出した単語を中央に配し、両脇に周辺の
単語を並べている。未知語候補リストを作成した後、入
力テキストにおいて、未知語候補リスト中の単語に関す
る KWIC を作成する。KWIC 結果を人間が目
視によって検査し、形態素解析誤りがあれば、その単語
は未知語候補リストから削除する。
【0071】 〔未知語公報のKWIC出力例〕 ####[注目キーワード] KWIC 結果 ...... ...... ...... ####[専門委員] ( 専門委員 ) 委員長 の 指名 する 委員 又は 専門委員 がこれに 当た る。
【0072】 は 、 部会 に 属する 委員 又は 専門委員 のうちから 部会 長 が 2 部会 に 属す べき 委員 及び 専門委員 は、 委員長 が 指名 2 専門委員 は、 学識 経験 のある 3 専門委員 は、 当該 専門 の 事 4 専門委員 は、 非常勤 とする 。 「 委員会 」 という 。) に、 専門委員 を 置く ことができる 事項 を 調査 審議 させるため 、 専門委員 を 置く ことができる ####[川市] 東京都立 川市 羽衣 町1 丁目 1番 4― 東京都立 川市 栄町 5 丁目 21 番地 の 東京都立 川市 幸町 4 丁目 34 番地 の 東京都立 川市 柴崎 町4 丁目 1番6号 千葉市 花見 川市 幕張 町2 丁目 974 番 ####[審査会] 労働 保険 審査官 及び 労働 保険 審査会 法(昭和 31 年 法律 労働 保険 審査官 及び 労働 保険 審査会 法 第5 条の 規定 に基 労働 保険 審査官 及び 労働 保険 審査会 法 第五 条の 規定 に基 ####[審査官] 任 の申 出に 伴い 、 労働 保険 審査官 及び 労働 保険 審査会 労働 保険 審査官 及び 労働 保険 審査会 ####[審尋] 審尋 期日 平成 7年8月 30 審尋 期日 平成 7年9月5日 午 審尋 期日 平成 7年9月 11 債権者 集会 期日 及び 破産者 審尋 期日 平成 7年9月 11 日 審尋 期日 平成 7年 12 月 審尋 期日 平成 8年1月 22 免責 申立て に 関す る 破産者 審尋 期日 変更 免責 申立て に 関す る 破産者 審尋 期日 審尋 変更 期日 平成 7年8月1 例えば、[川市]の KWIC 結果をみると、以下の
ような形態素解析の誤りを検出することは容易である。
【0073】 (正) (誤) 東京都/立川市 → 東京都立/川市 花見川市/幕張 → 花見/川市/幕張 したがって、
【川市】は未知語候補リストから削除する。
【0074】9.抽出された未知語の頻度情報を用いた
誤入力の検出 入力テキスト中に入力ミスがあった場合、それは存在し
ない形態素になる可能性が高いので、本実施形態におい
ては未知語として抽出される。そして、同じ入力ミスが
繰り返されるとは考えにくいので、入力ミスに起因する
未知語の発生頻度は低いと予想される。したがって、項
目2で言及した方法の逆として、出現頻度の低い未知語
のみ、KWICを作成し、人間が目視によって検査する
ことにより入力テキスト中の入力ミスを効率的に発見す
ることができる。
【0075】10.抽出された未知語の文字種類による
品詞の決定 前述の項目3で言及した方法によって抽出される未知語
は、 ・単語長が1文字以上 ・活用を伴わない ・語彙の両端は漢字(漢語) ・語彙の両端はカタカナ(カタカナ語) であり、これは名詞と考えてよい。なぜなら、漢語・カ
タカナ語の名詞は、以下のように適用範囲が広く、現代
の日本語においては頻繁に使用されるからである。ま
た、動作性の名詞(例:運動、歩行、飛躍、ジャンプ、
ドライブなど)は「〜する」という送りをつけられてサ
変動詞となる。性質や状態を表す名詞(例:正直、静
寂、勤勉、ナイーブ、ユニークなど)は、形容動詞とな
る。その他の名詞に関しても「的」「性」などの接尾語
が付けば、形容動詞となるので、ほとんどの名詞は形容
動詞化することができる。
【0076】したがって、前述の項目3の条件を満足す
る未知語は、人間が検査することなく、漢語名詞あるい
はカタカナ名詞と断定しても、ほとんど場合に問題はな
い。また、未知語のほとんどは、漢語・カタカナ語であ
り、これらの品詞を人手を介さず決定してしまうこと
は、完全な解決でないにしても費用対効果が非常に高
い。
【0077】11.実施方法 これまでに説明した未知語収集のための方法は、ソフト
ウェアによって実現することも、機能の一部をネットワ
ーク上にもって、通信回線などを通して実現することも
可能である。
【0078】図7はソフトウェアによって実現する場合
のシステム例を示すブロック図である。
【0079】同図において、未知語収集システムを採用
した自然言語処理装置は、パーソナルコンピュータ(以
下、PCと称す)70によって実現される。PC70
は、CPU71、メモリ72、表示装置73、ハードデ
ィスク装置74、キーボード75、CD−ROMドライ
ブ76、FDドライブ77および通信装置78からなる
公知のシステムである。このシステムでは、CPU71
は図示しないROMに書き込まれたプログラムにしたが
って図示しないRAMをワークエリアとして使用して前
記プログラムを実行する。
【0080】この実施形態の場合、未知語収集方法をプ
ログラム化して例えばCD−ROMに記録し、CD−R
OMからパーソナルコンピュータのハードディスク装置
にインストールして使用する。インストールされる手順
は、前述の図1に示した各ソフトウェア部品である。そ
して、CPU71は、前述の図2ないし図6に示したフ
ローチャートにしたがって未知語収集の処理を実行す
る。
【0081】なお、前記装置78は通信回線79を介し
て他のPCやサーバなどと通信可能であり、図8に示す
ようにインターネット80を使用すれば、図示しないサ
ーバから前記プログラムを自己のPC70−1〜3にダ
ウンロードして使用することも可能である。いずれにし
ても、この未知語収集方法を実施するためのプログラム
が自己のPC70,70−1〜3にインストールできれ
ば、この方法を各PC70,70−1〜3で実行するこ
とが可能となる。
【0082】
【発明の効果】以上のように本発明によれば、任意の入
力テキストを形態素解析し、自然言語処理装置で使用し
ている言語辞書内に記載の単語と重複しない形態素を抽
出するので、抽出された未知語リストに対し人手によっ
て各種の言語情報を付与した後、言語辞書に登録するこ
とにより、不適切な未知語が混入することを防ぎ、効率
よく抽出することができる。よって、高精度かつ高速な
自然言語処理装置を実現に寄与する言語辞書を作成する
ことが可能となり、自然言語処理装置の処理精度が著し
く向上する。
【0083】また、本発明によれば、抽出された未知語
をテキスト中の出現頻度によってさらに絞り込むので、
自然言語処理装置の処理精度がさらに向上する。
【0084】また、本発明によれば、抽出された未知語
を両端の文字に注目してさらに絞り込むので、自然言語
処理装置の処理精度がさらに向上する。
【0085】また、本発明によれば、抽出された未知語
を隣接する形態素の種類によってさらに絞り込むので、
自然言語処理装置の処理精度がさらに向上する。
【0086】また、本発明によれば、抽出された未知語
を当該自然言語処理装置で使用していないより大規模な
言語辞書で検索することによってさらに絞り込むので、
自然言語処理装置の処理精度がさらに向上する。
【0087】また、本発明によれば、抽出された未知語
を、その単語長によってさらに絞り込むので、自然言語
処理装置の処理精度がさらに向上する。
【0088】また、本発明によれば、未知語に隣接する
1文字の既知語を未知語に連結してまとめるので、自然
言語処理装置の処理精度がさらに向上する。
【0089】また、本発明によれば、抽出された未知語
を元テキスト内におけるKWIC(Key Word In Con
text)結果によってさらに絞り込むので、自然言語処理
装置の処理精度がさらに向上する。
【0090】また、本発明によれば、抽出された未知語
の文字種類によって、その品詞を決定するこので、品詞
を勘案して処理することにより自然言語処理装置の処理
精度がさらに向上する。
【0091】また、本発明によれば、抽出された未知語
の頻度情報を用いて誤入力を検出するので、誤入力され
た未知語を排除することにより、自然言語処理装置の処
理精度がさらに向上する。
【0092】さらに、本発明によれば、任意の入力テキ
ストを形態素解析し、上記自然言語処理装置で使用して
いる言語辞書内に記載の単語と重複しない未知語を抜き
出す手順を含んでいるので、ユーザ各自のコンピュータ
によって簡単に本発明を実施することができる。
【図面の簡単な説明】
【図1】本発明の未知語抽出方法の構成を示すブロック
図である。
【図2】本発明方法の未知語抽出を実施する際の処理手
順を示すフローチャートである。
【図3】本発明方法の未知語抽出を実施する際のテキス
ト中の出現頻度で制限する未知語抽出の処理手順を示す
フローチャートである。
【図4】本発明方法の未知語抽出を実施する際の両端の
文字種で制限する未知語中抽出の処理手順を示すフロー
チャートである。
【図5】本発明方法の未知語抽出を実施する際の両端の
既知語連続数によって制限する未知語中抽出の処理手順
を示すフローチャートである。
【図6】本発明方法の未知語抽出を実施する際に他の大
規模辞書での検索結果によって制限する未知語中抽出の
処理手順を示すフローチャートである。
【図7】本発明方法の未知語抽出をソフトウェアによっ
て実現する場合の構成を示すブロック図である。
【図8】本発明方法の未知語抽出をネットワークを介し
て実現する場合の構成を示すブロック図である。
【符号の説明】
1 テキスト入力手段 2 テキスト記憶手段 3 形態素解析手段 4 形態素解析結果記憶手段 5 辞書検索手段 6 言語辞書 7 辞書データと形態素解析結果との照合手段 8 未知語リスト 9 未知語リスト編集手段 10 単語削除条件保持手段 70 パーソナルコンピュータ(PC)

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 文字画像に対し、何らかの画像処理を行
    ない、画像の特徴を抽出し、画像特徴格納辞書と照合
    し、言語情報によって誤り訂正を行ない、文字認識を行
    なう装置をはじめとする自然言語処理装置で使用する言
    語辞書における未知語収集方法において 任意の入力テキストを形態素解析し、上記自然言語処理
    装置で使用している言語辞書内に記載の単語と重複しな
    い形態素を未知語として抜き出すことを特徴とする未知
    語抽出方法。
  2. 【請求項2】 抽出された未知語をテキスト中の出現頻
    度によってさらに絞り込むことを特徴とする請求項1記
    載の未知語抽出方法。
  3. 【請求項3】 抽出された未知語を、その両端の文字に
    注目してさらに絞り込むことを特徴とする請求項1記載
    の未知語抽出方法。
  4. 【請求項4】 抽出された未知語を、隣接する形態素の
    種類によってさらに絞り込むことを特徴とする請求項1
    記載の未知語抽出方法。
  5. 【請求項5】 抽出された未知語を前記自然言語処理装
    置で使用していないより大規模な言語辞書で検索するこ
    とによってさらに絞り込むことを特徴とする未知語抽出
    方法。
  6. 【請求項6】 抽出された未知語を、その単語長によっ
    てさらに絞り込むことを特徴とする請求項1記載の未知
    語抽出方法。
  7. 【請求項7】 抽出された未知語を、元テキスト内にお
    けるKWIC(KeyWord In Context)結果によってさ
    らに絞り込むことを特徴とする請求項1記載の未知語抽
    出方法。
  8. 【請求項8】 未知語に隣接する1文字の既知語を未知
    語に連結してまとめることを特徴とする請求項1記載の
    未知語抽出方法。
  9. 【請求項9】 抽出された未知語の文字種類によって、
    その品詞を決定することを特徴とする請求項1記載の未
    知語抽出方法。
  10. 【請求項10】 請求項1ないし9のいずれか1項に記
    載記載の未知語抽出方法における検出過程で、抽出され
    た未知語の頻度情報を用いて誤入力を検出することを特
    徴とする誤り検出方法。
  11. 【請求項11】 文字画像に対し、何らかの画像処理を
    行ない、画像の特徴を抽出し、画像特徴格納辞書と照合
    し、言語情報によって誤り訂正を行ない、文字認識を行
    なう装置をはじめとする自然言語処理装置で使用する言
    語辞書における未知語収集手順を実行するためのコンピ
    ュータプログラムにおいて、 任意の入力テキストを形態素解析し、上記自然言語処理
    装置で使用している言語辞書内に記載の単語と重複しな
    い未知語を抜き出す手順を含んでいることを特徴とする
    コンピュータプログラム。
JP2001100238A 2001-03-30 2001-03-30 未知語収集方法 Pending JP2002297589A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001100238A JP2002297589A (ja) 2001-03-30 2001-03-30 未知語収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001100238A JP2002297589A (ja) 2001-03-30 2001-03-30 未知語収集方法

Publications (1)

Publication Number Publication Date
JP2002297589A true JP2002297589A (ja) 2002-10-11

Family

ID=18953699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001100238A Pending JP2002297589A (ja) 2001-03-30 2001-03-30 未知語収集方法

Country Status (1)

Country Link
JP (1) JP2002297589A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012081386A1 (ja) 2010-12-17 2012-06-21 楽天株式会社 自然言語処理装置、方法、及びプログラム
WO2018135023A1 (ja) * 2017-01-20 2018-07-26 株式会社野村総合研究所 情報処理システム、情報処理方法、およびコンピュータプログラム
CN110134935A (zh) * 2018-02-08 2019-08-16 株式会社理光 一种提取字形特征的方法、装置及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012081386A1 (ja) 2010-12-17 2012-06-21 楽天株式会社 自然言語処理装置、方法、及びプログラム
EP2653981A4 (en) * 2010-12-17 2018-01-17 Rakuten, Inc. Natural language processing device, method, and program
WO2018135023A1 (ja) * 2017-01-20 2018-07-26 株式会社野村総合研究所 情報処理システム、情報処理方法、およびコンピュータプログラム
CN110235127A (zh) * 2017-01-20 2019-09-13 株式会社野村综合研究所 一种信息处理系统、信息处理方法、及计算机程序
CN110235127B (zh) * 2017-01-20 2023-05-26 株式会社野村综合研究所 一种信息处理系统、信息处理方法、及计算机程序
CN110134935A (zh) * 2018-02-08 2019-08-16 株式会社理光 一种提取字形特征的方法、装置及设备
CN110134935B (zh) * 2018-02-08 2023-08-11 株式会社理光 一种提取字形特征的方法、装置及设备

Similar Documents

Publication Publication Date Title
EP1899835B1 (en) Processing collocation mistakes in documents
Shaalan et al. NERA: Named entity recognition for Arabic
Gupta et al. A survey of text question answering techniques
US7424421B2 (en) Word collection method and system for use in word-breaking
KR101279707B1 (ko) 문서에서 정의를 식별하는 방법 및 정의 추출 시스템
US8266169B2 (en) Complex queries for corpus indexing and search
US8447588B2 (en) Region-matching transducers for natural language processing
US8510097B2 (en) Region-matching transducers for text-characterization
Oudah et al. NERA 2.0: Improving coverage and performance of rule-based named entity recognition for Arabic
Brummer et al. Coding in tongues: Developing non-English coding schemes for leadership profiling
US10810375B2 (en) Automated entity disambiguation
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
CN111259645A (zh) 一种裁判文书结构化方法及装置
Shafi et al. UNLT: Urdu natural language toolkit
US8041556B2 (en) Chinese to english translation tool
US20070067291A1 (en) System and method for negative entity extraction technique
Khoo et al. Using statistical and contextual information to identify two‐and three‐character words in Chinese text
Salah et al. Arabic rule-based named entity recognition systems progress and challenges
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
JP2002297589A (ja) 未知語収集方法
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
Oudah et al. Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition
Ji et al. Applying coreference to improve name recognition
Ababneh et al. Enhanced Arabic Information Retrieval by Using Arabic Slang
Abera et al. Information extraction model for afan oromo news text