JP2002091961A - コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 - Google Patents

コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体

Info

Publication number
JP2002091961A
JP2002091961A JP2000280582A JP2000280582A JP2002091961A JP 2002091961 A JP2002091961 A JP 2002091961A JP 2000280582 A JP2000280582 A JP 2000280582A JP 2000280582 A JP2000280582 A JP 2000280582A JP 2002091961 A JP2002091961 A JP 2002091961A
Authority
JP
Japan
Prior art keywords
error
corpus
candidate
probability
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000280582A
Other languages
English (en)
Other versions
JP3396734B2 (ja
Inventor
Maki Murata
真樹 村田
Masao Uchiyama
将夫 内山
Seiki Uchimoto
清貴 内元
Sei Ba
青 馬
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communications Research Laboratory
Original Assignee
Communications Research Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communications Research Laboratory filed Critical Communications Research Laboratory
Priority to JP2000280582A priority Critical patent/JP3396734B2/ja
Publication of JP2002091961A publication Critical patent/JP2002091961A/ja
Application granted granted Critical
Publication of JP3396734B2 publication Critical patent/JP3396734B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 タグ付きコーパスにおける種々の誤りを検出
し,検出した誤りを自動的に修正できるようにする。 【解決手段】 誤り候補切り出し部11によって,タグ
付きコーパスから誤り候補を切り出し,誤り箇所検出部
12によって,切り出した誤り候補のタグが誤っている
かどうかを,誤り候補の正解確率,誤り候補の誤り確率
および変更可能な修正候補の正解確率の算出によって評
価し,誤り箇所修正部13によって,評価結果に基づき
修正候補の提示または修正されたコーパス22を出力す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,計算機による言語
処理システムの分野で用いられるコーパスの誤りを検出
し,それを自動修正することを可能にしたコーパス誤り
の検出・修正システムに関するものである。
【0002】コーパスとは,言語分析用の電子化された
言語資料である。言語処理の分野では,システムの構築
にコーパスを参照することが多く,コーパスは重要な役
割を果している。特に,タグ付きコーパスとは,以下の
ように普通の文(「車で行く。」)に特殊なタグ(品詞
情報など)が付いているものをいう。
【0003】『車(名詞) で(助詞) 行く(動詞) 。』
このコーパスに付けられたタグが間違っている場合もあ
り,このことが各研究の進捗の妨げになることも多い。
本発明は,このコーパス中の誤りを,決定リスト,用例
ベース手法などを用いて,検出したり訂正したりするも
のである。
【0004】
【従来の技術】近年,さまざまなコーパスが作られ,
「教師あり機械学習」の研究をはじめとして,コーパス
を用いた多種多様な研究が数多くなされている。しか
し,コーパスには誤りが付きもので,この誤りが各研究
の進捗を妨げる場合も多い。このため,コーパス中の誤
りを検出・修正することは非常に重要なことである。
【0005】このコーパス中の誤りを検出する試みが,
最近いくつかなされ始めている。 [参考文献1]内山将夫,形態素解析結果から過分割を
検出する統計的尺度, 言語処理学会誌,Vol.6 ,No.7,1999. この参考文献1では,例えば「休憩室」という語がコー
パスで「休」と「憩室」に分割されているような誤りを
検出する研究について示されている。 [参考文献2]乾孝司 乾健太郎,統計的部分係り受け
解析における係り受け確率の利用法--- コーパス中の構
文タグ誤りの検出 ---,情報処理学会自然言語処理研究
会 99-NL-134 ,1999. この参考文献2では,コーパス中の構文的誤りを検出す
る研究について示されている。
【0006】まず,上記参考文献1に記載されている技
術について説明する。この参考文献1の研究では,形態
素コーパスでの過分割の誤り,例えば,「休憩室」を
「休」「憩室」と分割してしまう誤りを検出する方法を
提案している。単語分割の問題は,情報検索において重
要な問題として位置づけられている。ここでは,「分割
した場合の確率」と「つなげた場合の確率」をコーパス
から求め,「つなげた場合の確率」の方が圧倒的に大き
い場合に,分割するのは間違いであると判定する。
【0007】また,上記参考文献2の研究では,構文情
報のコーパスでの係り先の誤りを検出する方法を提案し
ている。コーパス中のある文節Xの係り先Yが合ってい
るかどうかを調べる場合,コーパスからその文節Xがそ
の係り先Yになる確率を求め,その確率が極端に小さい
場合にその係り先Yは間違いであると判定する。
【0008】両者の研究は,一般化して考えるとほぼ同
様なことをしており,コーパスのタグが合っている確率
と間違っている確率を求め,間違っている確率の方が圧
倒的に大きい場合に,そのコーパスのタグを誤りとする
という方法を採っている。「間違っている確率」の大き
いものを間違っているものと考えるのは自然なことであ
り,ほとんどのコーパス修正の研究で,この種の考え方
を利用することが可能であると考えられる。
【0009】しかし,先の二つの研究で用いられた手法
は,いずれも形態素の過分割,係り受け誤りと,それぞ
れその問題に特化した方法を用いて誤り検出を行ってい
たため,その手法の汎用性を見えにくくしている。
【0010】参考文献1の過分割の研究では,過分割の
検出に特化したような式,例えば,P(x)をxの出現
率として, P(休憩室)/(P(休)P(憩室)) が用いられている。ここで,P(休),P(憩室)の部
分は,「休」「憩室」の単純な出現率を用いているが,
厳密には「休憩室」という文字列が,「休」と「憩室」
に分割される確率を用いるもので,近似をすでに使った
ものとなっている。この近似は,データスパースネスに
対処するためのものであるが,この近似自体は,過分割
の検出と同じような問題でしか使えない。
【0011】また,参考文献2の研究では,すでにでき
あがった構文解析システムが出す誤り確率を利用してい
る。この構文解析システムでは,構文解析に特化した情
報を数多く利用していると思われるし,また,誤りを検
出する対象とするコーパス以外の情報を用いている可能
性も高く,汎用的なコーパス修正とは言いにくい。
【0012】
【発明が解決しようとする課題】上記参考文献1および
参考文献2に記載されている方法では,誤り検出の適用
範囲が過分割および構文的誤りというように限定されて
おり,例えば品詞の誤りというような形態素情報の誤り
を検出することができないという問題があった。また,
単に誤り検出のみを対象としているため,検出した誤り
をどのように修正すればよいかは人間が考えなければな
らず,また誤り箇所を修正するのも人間が行わなければ
ならないという問題があった。
【0013】本発明は上記問題点の解決を図り,タグ付
きコーパスにおける種々の誤りを検出し,それに対する
修正案を提示し自動修正する手段を提供することを目的
とする。
【0014】
【課題を解決するための手段】本発明は,上記課題を解
決するため,タグ付きコーパスから誤り候補を切り出す
誤り候補切り出し手段と,切り出した誤り候補のタグが
誤っているかどうかを,誤り候補の正解確率,誤り候補
の誤り確率および変更可能な修正候補の正解確率の算出
によって評価する誤り箇所検出手段と,評価結果に基づ
いて修正候補の提示または修正されたコーパスを出力す
る誤り箇所修正手段とを備えることを特徴とする。
【0015】また,本発明は,誤り箇所検出手段とし
て,何個かの形態素連続における形態素情報を誤り候補
として,形態素情報の誤りを検出する手段を持つことに
より,形態素情報の誤りについても検出しその修正を実
現することを特徴とする。
【0016】本発明は,単にコーパス中の誤りを検出す
るだけでなく,それを修正する手段を持つことが,従来
技術と大きく異なる。また,従来技術では,形態素の過
分割,係り受け誤りといったそれぞれの問題に特化した
誤り検出しか行われていなかったのに対し,本発明は,
例えば形態素情報の誤り,構文情報の誤りといった各種
の誤りを対象としてそれらを検出し,修正できる点が,
従来技術と大きく異なる。
【0017】以上の各処理手段をコンピュータによって
実現するためのプログラムは,コンピュータが読み取り
可能な可搬媒体メモリ,半導体メモリ,ハードディスク
などの適当な記録媒体に格納することができる。
【0018】
【発明の実施の形態】図1は,本発明のシステム構成例
を示す。図中,10は本発明に係るコーパス誤りの検出
・修正システムを表す。コーパス誤りの検出・修正シス
テム10は,誤り候補切り出し部11,誤り箇所検出部
12,誤り箇所修正部13を持つ。
【0019】図2は,図1に示すシステムの処理フロー
チャートである。誤り候補切り出し部11は,修正対象
であるタグ付きコーパス20から誤り候補を何らかの単
位で取り出す(ステップS1)。ここでは形態素情報の
修正の場合,例えばコーパスから1〜5個の形態素連続
における形態素情報を取り出す。また,構文情報の修正
の場合には,コーパスから誤り候補として,ある文節X
の係り先がYのときに,他の係り先候補をZ1,Z2,
Z3,…としたときに,X,Y,Zi (i=1,2,
3,…)といった三つ組のデータを取り出す。
【0020】次に,誤り箇所検出部12は,誤り候補切
り出し部11が取り出した誤り候補のすべてに対して,
高速検索用に変形したコーパス21を参照して,以下の
計算を行う(ステップS2)。
【0021】 a.その誤り候補の誤り確率の算出 b.そのときのシステムの確信度の算出 c.そのときの修正候補の算出 なお,高速検索用に変形したコーパス21は,誤り箇所
の検出のための確率値の算出を高速化するため,コーパ
ス20について,データの並びの順序を変更したり,不
要なデータ部分を削除したものである。例えば,形態素
の生データとその品詞の組を検索するとき,形態素の生
データとその品詞を連続して並べたものをオリジナルの
コーパス20からあらかじめ作っておけば,形態素の生
データとその品詞の組を1個の検索キーとして,1回の
検索操作で検索することができる。これが高速検索用に
変形したコーパス21である。
【0022】その後,誤り箇所検出部12は,取り出し
たすべての誤り候補のうち,確信度の高いものから,以
下の処理を行う(ステップS3)。ただし,形態素情報
の修正の場合,すでに誤り箇所もしくは正解箇所と推定
された箇所を含む部分については,以下の処理は行わな
い。また,構文情報の修正の場合,すでに誤り箇所と推
定された箇所を含む部分については,以下の処理は行わ
ない(形態素の場合と異なり,正解箇所と判断した箇所
については,以下の処理を引き続き行う)。
【0023】a.誤り候補の誤り確率が0.5以上の場
合,誤り箇所と判定し,そのときの修正候補を修正候補
とする。
【0024】b.誤り候補の誤り確率が0.5以上でな
い場合,正解箇所と判定し,その部分を以降誤り箇所と
は判定しない。
【0025】誤り箇所検出部12は,すべての誤り候補
に対して上記ステップS3の処理を行った後,処理を終
了し,誤り箇所と判定した箇所をすべて誤り箇所と検出
する(ステップS4)。
【0026】誤り箇所修正部13は,誤り箇所検出部1
2が誤り箇所と検出した箇所について,ステップS3で
修正候補としたものを修正候補として,誤りの修正候補
を示す(ステップS5)。その結果をもとに,修正され
たコーパス22(もしくは誤り箇所指摘および修正付き
コーパス)を出力する(ステップS6)。
【0027】ステップS3では,0.5以上のものを誤
り箇所と判断しているが,0.5より大きいものだけを
誤り箇所と判断してもよい。以下,具体例に従ってさら
に詳しく説明する。
【0028】[コーパスの例]図3は,代表的なコーパ
スとしてよく知られている京大コーパスの例,図4は,
そのコーパスのデータ構造の説明図である。
【0029】京大コーパスは,図3の具体例に示すよう
に,各文を文節に分割し,それらの係り受け関係を示す
とともに,さらに各文節を形態素に分割して各形態素の
品詞その他の詳細な情報を持たせたものである。
【0030】おおよそ一文が図3に示すように構成さ
れ,一文が終わるとEOS(end of sentence)の記号が
付与される。すなわち,図4(A)のように,#から始
まりEOSで終わる部分が一文に関する情報である。一
文に関する情報は,図4(B)に示すように,*から始
まる文節に関する情報によって構成される。
【0031】文節に関する情報の部分には,図4(C)
のように,*に続く第1カラム目に何番目の文節である
かを示す文節番号が記述され,第2カラム目には,その
文節の係り先の文節番号が記述される。第2カラムの数
字の次に続くアルファベットは,Dが通常の係りを表
し,P,Iの場合には並列的な係り,Aの場合には同格
的な係りを意味する。続くEOS,#,*以外のものか
ら始まる行は,形態素情報を表している。
【0032】形態素情報の部分には,図4(D)のよう
に,第1カラムに生データで出現したままの形の形態素
が記述され,第2カラムに読みの情報が記述され,第3
カラムに変化する形態素の場合は基本形を,そうでない
場合は*が記述される。また,第4カラムに品詞が記述
され,第5カラムに品詞細分類が記述され,第6カラム
に変化する形態素の場合は活用型を,そうでない場合は
*が記述される。第7カラムにも形態素の活用形に関す
る情報が記述される。
【0033】例えば,第3図に示す2行目の「* 0 26D
」は,第0番目(先頭)の文節を表し,この文節の係
り先が第26番目の文節(「示した」)であることを意
味している。また,3行目の「村山 むらやま * 名
詞 人名 * *」は,生データの形態素が「村山」,
その読みが「むらやま」,変化しないので第3カラムが
「*」,品詞は「名詞」,品詞細分類は「人名」,変化
する活用型ではないので,続くカラムは「*」,「*」
となっている。
【0034】[コーパス修正のための評価式]コーパス
の修正の課題は,このタグは正解,また,このタグは誤
りというものがふられたデータがないため,基本的に
「教師なし学習」の問題となる。このため,コーパス修
正には何らかの基準が必要となる。先に述べた参考文献
1,2の二つの先行研究では,以下の評価基準を利用し
て,コーパス誤り検出の教師なし問題を解いていること
になっている。 〔参考文献1の方法〕 評価式=(分割しない場合の出現率)/(分割した場合
の出現率) これを強いて一般化して表すと,次のように表すことが
できる。
【0035】評価式=(修正後のタグが正しい確率)/
(修正前のタグが正しい確率) 〔参考文献2の方法〕 評価式=(修正前のタグが誤っている確率) これらの評価式の値が大きい場合には,タグが誤ってい
る可能性が高いとする。クラスが二つしかない問題の場
合には,上記の二つの基準は等価となる。しかし,これ
らの評価式は,主として誤りの検出を考慮したものにな
っており,検出したコーパス誤りをどのように修正する
のがよいかを考慮したものにはなっていない。
【0036】本発明では,コーパス誤りを検出する評価
式として, 評価式=修正前のタグが誤っている確率 を用い,それを修正するための評価式として, 評価式=修正後のタグが誤っている確率 を用いることにより,コーパス誤りの自動修正を可能に
する。
【0037】[確率値の算出方法]「修正前のタグが誤
っている確率」や「修正後のタグが正しい確率」といっ
ても,これをどのようにして簡単に求めるかが次の課題
となる。ここでは,まず「修正前のタグが誤っている確
率」の算出方法を,具体的な処理の例に従って説明す
る。
【0038】図5は,決定リストを用いる場合の確率値
算出の処理の流れを示す。まず,ステップS10では,
誤り候補について変更可能な候補をコーパスから取り出
す。次にステップS11では,何種類かのパターンを定
義し,そのパターンごとに,以下の計算を行う。 a.誤り候補の正解確率の算出 今のパターンの形でのコーパスでの誤り候補の総出現数
を,今のパターンの総出現数で割ったものを誤り候補の
正解確率とする。 b.誤り候補の誤り確率の算出 1から誤り候補の正解確率を引いたものを誤り候補の誤
り確率とする。 c.変更可能な候補iの正解確率の算出 今のパターンの形でのコーパスでの変更可能な候補iの
総出現数を,今のパターンの総出現数で割ったものを変
更可能な候補iの正解確率とする。 d.修正候補の算出 cで計算した変更可能な候補のうち,最も正解確率が大
きいものを修正候補とする。 e.このときのシステムの確信度の算出 誤り候補の正解確率と,dで選んだ修正候補の正解確率
の大きい方をこのときのシステムの確信度とする。
【0039】次にステップS12では,ステップS11
で求めた全パターンのうち,最も確信度の大きいパター
ンのときの誤り候補の誤り確率,修正候補,確信度を,
その誤り候補の誤り確率,修正候補,確信度とする。
【0040】なお,この例では,eの確信度として,誤
り候補の正解確率と,dで選んだ修正候補の正解確率の
大きい方を用いるとしているが,a,bで求めた誤り候
補の正解確率と誤り確率の大きい方を用いることにして
もよい。
【0041】構文情報の修正の場合には,確率値算出の
処理が上記の処理と少々変わっているので,図6にその
処理の流れを示す。
【0042】誤り候補としては,ある文節Xの係り先が
Yのときに,他の係り先候補をZ1,Z2,Z3,…と
して,X,Y,Zi (i=1,2,3,…)といった三
つ組のデータが誤り候補の単位として,取り出されてい
る。そこで,この状況下で以下の計算を行う。まず,ス
テップS20では,変更可能な候補としてはZi を用い
る。
【0043】次にステップS21では,何種類かのパタ
ーンを定義し,そのパターンごとに,以下の計算を行
う。 a.誤り候補の正解確率の算出 今のパターンの形でのコーパスでの,Yが係り先になる
総数を,今のパターンの総数で割ったものを誤り候補の
正解確率とする。 b.誤り候補の誤り確率の算出 1から誤り候補の正解確率を引いたものを誤り候補の誤
り確率とする。 c.変更可能な候補iの正解確率の算出 今のパターンの形でのコーパスでの,Zi が係り先にな
る総数を,今のパターンの総数で割ったものを変更可能
な候補Zi の正解確率とする。 d.修正候補の算出 Zi を修正可能な候補とする。 e.このときのシステムの確信度の算出 誤り候補の正解確率と,修正候補Zi の正解確率の大き
い方をこのときのシステムの確信度とする。
【0044】ステップS22では,ステップS21で求
めた全パターンのうち,最も確信度の大きいパターンの
ときの誤り候補の誤り確率,修正候補,確信度をその誤
り候補の誤り確率,修正候補,確信度とする。
【0045】京大コーパスについての確率値算出の具体
例を説明する。京大コーパスについて,読点「、」の形
態素情報の統計をとってみると,図7(A)に示すよう
な結果が得られる。この統計情報は,ちょっと見ただけ
でも「特殊 読点」となっているデータが圧倒的に大き
く,他は誤っているということが予想される。ここで2
行目の「、 、 、 * *」の誤りの確率を考えてみ
る。
【0046】まず,これの正解確率は,その出現数を総
数で割ったものと考えてよい。
【0047】 正解確率=3/(26540+3+2+1) 一方,誤り確率は1から正解確率を引いたものと考えら
れるので, 誤り確率=1−3/(26540+3+2+1) となる。そこで,本実施の形態では,誤り確率の求め方
として,基本的にこの方法を用いる。
【0048】しかし,単にこれだけでは確率の求め方と
して粗すぎる場合がある。京大コーパスについて,例え
ば「の」の形態素情報の統計をとってみると,図7
(B)のような結果が得られる。ここで,頻度が191
の「の の だ 判定詞 * 判定詞 ダ列特殊連体
形」の誤り確率を求めると, 誤り確率=1−191/(25739+1601+…) =99.3% となって,ほとんど誤っていると判定される。「の の
だ 判定詞 * 判定詞 ダ列特殊連体形」が正しい
場合も数多くあり,この単純な方法では,正しいのにこ
れを全部誤っていると推定してしまう。
【0049】そこで,本実施の形態では,確率値の算出
に用例ベース手法や決定リスト手法を利用する。用例ベ
ース手法の参考文献としては,以下の参考文献3があ
り,決定リスト手法の参考文献としては,以下の参考文
献4,5がある。 [参考文献3]村田真樹,内元清貴,馬青,井佐原均,
排反な規則を用いた文節まとめあげ,情報処理学会論文
誌,(2000). [参考文献4]David Yarowsky, Decision lists for l
exical ambiguity resolution :Application to accent
restoration in Spanish and French, 32th Annual Me
etingof the Associtation of the Computational Ling
uistics,(1994), pp.88-95. [参考文献5]新納浩幸,複合語からの証拠に重みをつ
けた決定リストによる同音異義語判別,情報処理学会論
文誌,Vol.39, No.12,(1998). 用例ベース手法は,いま解きたいものと良く似た用例を
集め,その用例集合での出現率を確率値とする手法であ
る。
【0050】「のような」の場合,「の」は84個あっ
てすべて「の の だ 判定詞 *判定詞 ダ列特殊連
体形」であるので,正解確率100%,誤り確率0%と
なり,これを間違って誤りと検出することがなくなる。
用例ベース的確率算出方法は,バックオフによる確率推
定を極端なまで行ったことに相当する。また,誤り修正
の場合,自分自身だけの事例を用いると一つも誤りを検
出できなくなるので,最低自分以外に一つ,合計二つ以
上の事例をもってくる必要がある。
【0051】一方,決定リスト手法は,多くの素性に展
開し各素性の確信度を求め,確信度の最も高い素性(パ
ターン)のときの,正解確率と誤り確率を用いる方法で
ある。前述した「の」の例の場合,「の」「のような」
「名詞+の」「の+助動詞」などと,いろいろなパター
ンでの確率を求める(ただし,総数が1の素性は用いな
い)。この結果を京大コーパスを用いて計算すると,図
8のようになる。
【0052】図8における「判定詞の場合の数」は,京
大コーパスで各素性に適合する事例における「の」が判
定詞の場合の数で,「総数」は京大コーパスで各素性に
適合する事例の総数である。例えば,「のような」のパ
ターンは,判定詞の「の」だけが84個出現したことを
意味し,「の+助動詞」のパターンでは,判定詞の
「の」が187個,それ以外の「の」が1個出現したこ
とを意味する。
【0053】このデータからの正解確率,誤り確率の求
め方は,先に述べた例と同じで, 正解確率=187/188 誤り確率=1−(187/188) などの計算をして求める。
【0054】また,「確信度」はその規則の確らしさを
意味するものであり,この確信度としては,正解確率と
誤り確率のうち大きい方の値を用いる。例えば,1行目
の「のような」は,確信度100%でほぼ正しい情報と
推測されることになる。この規則は,上記参考文献3で
いう排反な規則に相当する。
【0055】決定リストでは,この図8の最上位にあ
る,この規則を用いることになり,誤り確率は0となっ
て,用例ベースと同じく「のような」の「の」は,判定
詞で正しいと推定され,間違って誤りと推定することは
ない。図8の上の二行の情報がないときは,誤り確率9
9.3%,確信度99.3%で誤っていると判定され
る。
【0056】次に「修正後のタグが正しい確率」の求め
方であるが,これは,図7(A)の読点の簡単な場合で
考えると,「修正後のタグ」は頻度の最も大きい「、
、* 特殊 読点 * *」とすればよく,これが正
しい確率は,これの出現数を総数で割ったもの,すなわ
ち,99.99%(=26540/26543)とな
る。
【0057】以上は単純な場合の例であるが,用例ベー
ス手法,決定リスト手法の場合ともに,誤り確率などを
求めた事例集合でこの計算をして,「修正後のタグが正
しい確率」を求めればよい。
【0058】もちろん確率値を算出する方法は,用例ベ
ース手法,決定リスト手法に限られるわけではなく,例
えば最大エントロピー法など,その他の手法を用いて確
率値を求めることもできる。
【0059】[形態素情報の修正例]以下では,形態素
情報のコーパス修正を試みた結果について述べる。ま
ず,対象とする京大コーパスでの形態素情報の調査を行
った。この結果を図9に示す。図9における全形態素数
はコーパスにあったすべての形態素の数を意味する。ま
た,曖昧形態素数はコーパスにあった形態素のうち,コ
ーパス中の他の形態素と表記が同じであった形態素の数
を意味する。例えば「の の * 助詞 格助詞*
*」,「の の * 助詞 接続助詞 * *」といっ
たものは,表記が同じ「の」で異なる形態素なので曖昧
形態素と考える。
【0060】また,この調査では,5つまでの形態素連
続までは「では」と「で|は」のように形態素の区切り
が異なるものが他にある場合も曖昧形態素と考えている
(つまり,この場合,「では」「で」「は」はそれぞれ
曖昧形態素となる)。
【0061】図9中の「読み情報あり」と「読み情報な
し」は,京大コーパスが読み情報に弱いという理由から
設定したもので,「読み情報あり」は,読み情報も含め
て曖昧形態素の数を数えたもので,「読み情報なし」
は,読み情報を省いて曖昧形態素の数を数えたものを意
味する。全形態素数は「読み情報あり」と「読み情報な
し」とで変わることはない。
【0062】例えば「読み情報なし」では,「日 ひ
* 名詞 時相名詞 * *」と「日 び * 名詞
時相名詞 * *」のように読み情報のみが異なる場
合,これらを異なる形態素として扱わない。
【0063】図9からわかるように,京大コーパス約2
万文には,487,691形態素が存在しており,人手
で50万の形態素を徹底的に調べあげるとコーパス修正
ができるがそれは非常に大変である。また,曖昧形態素
数は,読み情報の修正を諦めたとしても,270,53
4形態素存在しており,修正範囲を曖昧な形態素に絞っ
たところで網羅的に人手で修正するのは困難である。
【0064】曖昧形態素数の異なりは,5,539であ
るので,曖昧形態素の種類ごとにまとめて出力させ,そ
れを見て人手で修正することも可能かとも思われるが,
各種類ごとに多数の事例が出力されると思われ,それを
用いた修正も若干無理があると思われる。
【0065】以上のことから,コーパス修正は難しい問
題であることがわかる。このため,このコーパス修正を
容易に行う技術を確立することは重要である。
【0066】以下に述べる形態素情報の修正の例では,
読み情報は対象から外している。そこで,図1の高速検
索用に変形したコーパス21では,入力したコーパス2
0を変形し,読み情報の項目を消している。「タグが誤
っている確率」の算出には,前に述べたように用例ベー
ス手法と決定リスト手法とを利用する。
【0067】まず,1〜5個の形態素連続における形態
素情報を誤りの候補とする。この誤りの各候補に対し,
「タグが誤っている確率」と「確信度」と「修正後のタ
グ」を算出する。次に,確信度の大きい誤り候補から順
に欲張り法でコーパスを修正する。このとき,各修正箇
所には先に算出した「タグが誤っている確率」と「修正
後のタグ」を付与しておく。「タグが誤っている確率」
が0.5より大きい形態素のタグが誤っているものと判
定され,「修正後のタグ」に修正される。0.5以下の
形態素のタグは正しいものと判断され,修正の対象とな
らない。
【0068】「タグが誤っている確率」と「確信度」と
「修正後のタグ」の算出方法は,以下のとおりである。
まず,誤り候補から変更可能な候補をコーパスより取り
出す。ここで,変更可能な候補とは,表記が同じもので
ある。例えば「ロシア *名詞 普通名詞 * *」が
誤り候補の場合,「ロシア * 名詞 地名 **」が
変更可能な候補として取り出される。
【0069】ここで,用例ベース手法の場合には,誤り
候補のまわりの形態素の状態が最もよく似ている用例を
集め,その用例集合で前述した方法で「タグが誤ってい
る確率」と「修正後のタグ」を推定する。最もよく似て
いる用例の集め方は,候補の形態素から出発し,それに
対して,その前後の形態素の品詞,品詞細分類,残りの
全情報を順次追加していき,さらにその隣の形態素から
もそのような情報を順次追加する。これを繰り返し,検
出される用例が1個だけになる直前の状態のときの用例
を利用する。
【0070】「確信度」は,ここでは「タグが誤ってい
る確率」と「タグが正しい確率」のうち大きい方の値と
している。「確信度」を図5に示した例のように,誤り
候補の正解確率と,修正候補の正解確率の大きい方の値
としてもよい。
【0071】また,決定リスト手法の場合には,以下で
説明する16個の素性を用いて,前述した方法を用いて
「タグが誤っている確率」と「確信度」と「修正後のタ
グ」を推定する。16個の素性については,まず,各形
態素の情報として以下の四つのパターンの情報を考え,
この四つのパターン情報を,候補となっている形態素の
前後二つの形態素についてあらゆる組合わせを作って,
合計16個の素性を作り,それを決定リスト用の素性と
する。 (1)情報なし (2)品詞情報のみ (3)品詞情報と品詞細分類情報のみ(活用する形態素
の場合には,品詞情報と活用形のみを用いる) (4)形態素情報すべて 上記の方法でコーパス修正を行った結果は,以下のとお
りであった。
【0072】用例ベース手法では,591個がタグ誤り
と検出され,決定リスト手法では,4,054個がタグ
誤りと検出された。その検出されたデータの精度を,図
10に示す。
【0073】図10中の「ランダム300個」は,「誤
り確率」のことを考慮せずにコーパスの先頭300個を
調査したときの精度で,ほぼ平均精度に相当する。「上
位x個」は,集計したデータを「誤り確率」に基づいて
ソートし,「誤り確率」の上位x個のものの精度を調べ
たものである。「検出精度」は,誤り部分を正しく検出
した箇所の数を総数で割ったもので,「修正精度」は,
誤り部分を正しく修正した箇所の数を総数で割ったもの
である。また図10中の「不明」は,正否がはっきりし
ない場合の数である。「不明」としたものには,副詞と
名詞,サ変名詞と普通名詞,普通名詞と動詞連用形な
ど,タグの定義のゆれに関係しそうなものも含めてい
る。検出精度,修正精度の算出では,検出,修正を失敗
したものとして扱っている。
【0074】今回の実験では,図10のように,用例ベ
ース手法よりも決定リスト手法の方が抽出数,抽出精度
ともによかった。ただし,この結果は本実施の形態にお
ける素性の設定状況によるかもしれず,常に決定リスト
手法の方がよいとは限らない。
【0075】決定リスト手法では,抽出総数が約4,0
00で平均精度(図10の「ランダム300個」) が5
0%程度あるので,おおよそこの4,000のデータを
見るだけで2,000個の誤りを修正できる計算とな
る。また,上位での精度は70%〜80%と比較的高く
誤りを検出できており,この精度ならば人手でこれをチ
ェックしつつコーパス修正をするのもそれほど負担にな
らないと思われ,十分実用的にコーパス修正に利用可能
であると考えられる。
【0076】図11は,決定リスト手法の上位での修正
結果の例を示している。該当箇所の欄に×印をつけてい
るものは誤り検出失敗を意味する。検出の上位に
は,「、、 * *」といったコーパス作成中に何らか
のデータ作成ミスが生じたのではないかと思われる明ら
かな誤りも含まれている。
【0077】「の * 連体詞 * * *」「は *
助詞 格助詞 * *」というアノテーターによるミ
スと思われる誤りもある。「〜ぐらいの〜」を誤ってコ
ーパス誤りと推定しているが,これはコーパス中の他の
誤りが原因となっている。「〜ぐらいの〜」の「の」は
ほとんど判定詞「だ」であるが,コーパスで格助詞
「の」としている箇所が二つあるため,決定リストの一
つの素性「〜ぐらいの〜」における判定詞「だ」のタグ
が合っている確率が1にならず,誤りと検出してしまっ
ている。
【0078】決定リスト手法の場合には,手法の原理が
簡単であるために,誤り検出を失敗したとき,それなら
こっちのほうが誤っているのではないかと推測すること
が容易なので,誤り検出を失敗したとしても,副産物と
して他の誤りを検出できる可能性が高い。
【0079】[構文情報の修正例]次に,構文情報の修
正結果について述べる。本実験では,京大コーパスのう
ち,1995年1月10日までの約1万文のデータを利
用した。以下で修正方法を述べる。ある文節Xの係り先
がYのときに,その文節Xの係り先のタグが正しいかど
うかを判定する場合,他の係り先候補をZ1,Z2,Z
3,…としたとき,X,Y,Zi (i=1,2,3,
…)の三つ組のデータに対し,YとZi の比較でYが係
り先となる確率とZi が係り先になる確率を求め(この
二つの確率の求め方は後で述べる) ,これらの確率の大
きい方を「確信度」とし,Zi が係り先になる確率を
「誤っている確率」とし,Zi を「修正タグ」とする。
【0080】これをすべてのZ1,Z2,Z3,…に対
して計算し,このうち,「誤っている確率」が最も大き
いZiの「誤っている確率」と「修正タグ」を,文節X
に付与する。「誤っている確率」が0.5よりも大きい
文節の係り先タグは誤っていると判断し,その係り先タ
グは「修正タグ」に修正する。
【0081】次に,X,Y,Zi の三つ組のデータにお
いて,Yが係り先となる確率とZiが係り先になる確率
の求め方を記述する。この確率の算出には,決定リスト
を利用する。文節情報のAパターンとして以下を定義す
る。 (1)情報なし (2)付属語の品詞の情報 (3)付属語の品詞と品詞細分類の情報 (4)付属語の品詞と品詞細分類の情報と,自立語の品
詞 (5)付属語の品詞と品詞細分類の情報と,自立語の品
詞と分類語彙表の分類番号の上位5桁 (6)付属語の品詞と品詞細分類の情報と,自立語の品
詞と分類語彙表の分類番号の上位5桁と単語自体 また,文節情報のBパターンとして以下を定義する。 (1)情報なし (2)自立語の品詞 (3)自立語の品詞と品詞細分類 (4)自立語の品詞と品詞細分類と分類語彙表の分類番
号の上位5桁 (5)自立語の品詞と品詞細分類と分類語彙表の分類番
号の上位5桁と単語自体 文節XにはAパターンを,文節Y,Zi にはBパターン
を利用し,すべての各パターンの組合わせ,つまり,6
×5×5の素性を作る。また,YとZi は,どちらが文
で先に出現しているかも素性とし,合計6×5×5×2
の素性をこの決定リストの素性とする。
【0082】この素性ごとに,コーパスより文節Yが係
り先になる場合の数と,Zi が係り先になる場合の数を
求め,それぞれをその和で割ることでそれぞれの確率値
を求める。
【0083】また,このとき大きい方の確率値を確信度
とする。この計算をすべての素性で行ってやり,確信度
が最も大きいときの素性の,Yが係り先となる確率とZ
i が係り先になる確率を,X,Y,Zi の三つ組のデー
タにおけるその確率とする。ただし,文節Yが係り先に
なる場合の数が1で,そうでない場合の数が0となる素
性のデータは削除する。
【0084】この方法で実験を行った結果を,図12に
示す。また,正しく構文誤りを修正できたものの例を,
図13に示す。図13において,墨付き括弧の記号で囲
まれている文節の係り先が,コーパスでは一重下線の文
節であったが,二重下線の文節に正しく修正できたこと
を示している。図12のように抽出数がおよそ1,45
6で,平均検出精度が13%なので,この1,456の
データから200個くらい誤りを検出できると期待され
る。精度が格段に高いと言えないがそれなりにコーパス
の誤り修正ができており,本手法の汎用性の検証には十
分であると思われる。
【0085】
【発明の効果】以上説明したように,本発明によれば,
単にコーパス誤りの指摘だけでなく,誤った部分をどう
直せば良いかも示すため,コーパス修正の効率が向上す
る。
【図面の簡単な説明】
【図1】本発明のシステム構成例を示す図である。
【図2】本システムの処理フローチャートである。
【図3】京大コーパスの例を示す図である。
【図4】京大コーパスのデータ構造の説明図である。
【図5】決定リストを用いる場合の確率値算出の処理の
流れを示す図である。
【図6】決定リストを用いて構文情報を修正する場合の
確率値算出の処理の流れを示す図である。
【図7】形態素情報の統計情報を示す図である。
【図8】決定リストによる確率値算出方法の例を示す図
である。
【図9】形態素情報の調査結果の例を示す図である。
【図10】形態素情報の修正結果の例を示す図である。
【図11】形態素誤り修正結果の例を示す図である。
【図12】構文情報の修正結果の例を示す図である。
【図13】正しく構文誤りを修正できた例を示す図であ
る。
【符号の説明】 10 コーパス誤りの検出・修正システム 11 誤り候補切り出し部 12 誤り箇所検出部 13 誤り箇所修正部 20 コーパス 21 高速検索用に変形したコーパス 22 修正されたコーパス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 内元 清貴 兵庫県神戸市西区岩岡町岩岡588−2 郵 政省通信総合研究所 関西先端研究センタ ー内 (72)発明者 馬 青 兵庫県神戸市西区岩岡町岩岡588−2 郵 政省通信総合研究所 関西先端研究センタ ー内 (72)発明者 井佐原 均 兵庫県神戸市西区岩岡町岩岡588−2 郵 政省通信研合研究所 関西先端研究センタ ー内 Fターム(参考) 5B091 EA04

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 タグ付きコーパスの誤りを検出し修正す
    るためのコーパス誤りの検出・修正システムであって,
    タグ付きコーパスから誤り候補を切り出す誤り候補切り
    出し手段と,切り出した誤り候補のタグが誤っているか
    どうかを,前記誤り候補の正解確率,誤り候補の誤り確
    率および変更可能な修正候補の正解確率の算出によって
    評価する誤り箇所検出手段と,前記評価結果に基づいて
    修正候補の提示または修正されたコーパスを出力する誤
    り箇所修正手段とを備えることを特徴とするコーパス誤
    りの検出・修正システム。
  2. 【請求項2】 前記誤り箇所検出手段は,何個かの形態
    素連続における形態素情報を誤り候補として,形態素情
    報の誤りを検出する ことを特徴とする請求項1記載の
    コーパス誤りの検出・修正システム。
  3. 【請求項3】 タグ付きコーパスの誤りを検出し修正す
    るためのコーパス誤りの検出・修正処理方法であって,
    タグ付きコーパスから誤り候補を切り出す過程と,切り
    出した誤り候補のタグが誤っているかどうかを,前記誤
    り候補の正解確率,誤り候補の誤り確率および変更可能
    な修正候補の正解確率の算出によって評価する過程と,
    前記評価結果に基づいて修正候補の提示または修正され
    たコーパスを出力する過程とを有することを特徴とする
    コーパス誤りの検出・修正処理方法。
  4. 【請求項4】 コンピュータによってタグ付きコーパス
    の誤りを検出し修正するためのプログラムを記録した記
    録媒体であって,タグ付きコーパスから誤り候補を切り
    出す処理と,切り出した誤り候補のタグが誤っているか
    どうかを,前記誤り候補の正解確率,誤り候補の誤り確
    率および変更可能な修正候補の正解確率の算出によって
    評価する処理と,前記評価結果に基づいて修正候補の提
    示または修正されたコーパスを出力する処理とを,コン
    ピュータに実行させるためのプログラムを記録したこと
    を特徴とするコーパス誤りの検出・修正用プログラム記
    録媒体。
JP2000280582A 2000-09-14 2000-09-14 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体 Expired - Lifetime JP3396734B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000280582A JP3396734B2 (ja) 2000-09-14 2000-09-14 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000280582A JP3396734B2 (ja) 2000-09-14 2000-09-14 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2002091961A true JP2002091961A (ja) 2002-03-29
JP3396734B2 JP3396734B2 (ja) 2003-04-14

Family

ID=18765390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000280582A Expired - Lifetime JP3396734B2 (ja) 2000-09-14 2000-09-14 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3396734B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009093481A (ja) * 2007-10-10 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 大規模タグ付きコーパス作成方法、その装置およびプログラム
JP2010535377A (ja) * 2007-08-01 2010-11-18 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
CN106781790A (zh) * 2016-12-10 2017-05-31 杭州博世数据网络有限公司 一种带有自纠正功能的在线学习系统
KR101836996B1 (ko) 2016-11-10 2018-04-19 창원대학교 산학협력단 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
JP2018185601A (ja) * 2017-04-25 2018-11-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010535377A (ja) * 2007-08-01 2010-11-18 ジンジャー ソフトウェア、インコーポレイティッド インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
JP2009093481A (ja) * 2007-10-10 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 大規模タグ付きコーパス作成方法、その装置およびプログラム
KR101836996B1 (ko) 2016-11-10 2018-04-19 창원대학교 산학협력단 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
WO2018088664A1 (ko) * 2016-11-10 2018-05-17 창원대학교 산학협력단 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
US11074406B2 (en) 2016-11-10 2021-07-27 Changwon National University Industry University Cooperation Foundation Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor
CN106781790A (zh) * 2016-12-10 2017-05-31 杭州博世数据网络有限公司 一种带有自纠正功能的在线学习系统
JP2018185601A (ja) * 2017-04-25 2018-11-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7027696B2 (ja) 2017-04-25 2022-03-02 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JP3396734B2 (ja) 2003-04-14

Similar Documents

Publication Publication Date Title
JP2002517039A (ja) 中国語テキストにおける単語分割
WO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
Barrett et al. Cross-lingual transfer of correlations between parts of speech and gaze features
Tufiş et al. DIAC+: A professional diacritics recovering system
JP3361563B2 (ja) 形態素解析装置及びキーワード抽出装置
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2002091961A (ja) コーパス誤りの検出・修正システム,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
Pal et al. Vartani Spellcheck--Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP7117168B2 (ja) 情報処理装置および情報処理方法
Sharma et al. Improving existing punjabi grammar checker
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Kirschenbaum Unsupervised segmentation for different types of morphological processes using multiple sequence alignment
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
AlGahtani et al. Joint Arabic segmentation and part-of-speech tagging
CN112084777B (zh) 一种实体链接方法
Sigletos et al. Role identification from free text using hidden Markov models
JP5450276B2 (ja) 読み推定装置、読み推定方法、および読み推定プログラム
JP3783053B2 (ja) 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置
Ruch et al. Toward filling the gap between interactive and fully-automatic spelling correction using the linguistic context
Alnethary Morphological Analysis-Based Arabic Spell Checking and Correction

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3396734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term