JP2002091961A

JP2002091961A - コーパス誤りの検出・修正システム，コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体

Info

Publication number: JP2002091961A
Application number: JP2000280582A
Authority: JP
Inventors: Maki Murata; 真樹村田; Masao Uchiyama; 将夫内山; Seiki Uchimoto; 清貴内元; Sei Ba; 青馬; Hitoshi Isahara; 均井佐原
Original assignee: Communications Research Laboratory
Current assignee: Communications Research Laboratory
Priority date: 2000-09-14
Filing date: 2000-09-14
Publication date: 2002-03-29
Anticipated expiration: 2020-09-14
Also published as: JP3396734B2

Abstract

(57)【要約】【課題】タグ付きコーパスにおける種々の誤りを検出
し，検出した誤りを自動的に修正できるようにする。【解決手段】誤り候補切り出し部１１によって，タグ
付きコーパスから誤り候補を切り出し，誤り箇所検出部
１２によって，切り出した誤り候補のタグが誤っている
かどうかを，誤り候補の正解確率，誤り候補の誤り確率
および変更可能な修正候補の正解確率の算出によって評
価し，誤り箇所修正部１３によって，評価結果に基づき
修正候補の提示または修正されたコーパス２２を出力す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，計算機による言語
処理システムの分野で用いられるコーパスの誤りを検出
し，それを自動修正することを可能にしたコーパス誤り
の検出・修正システムに関するものである。

【０００２】コーパスとは，言語分析用の電子化された
言語資料である。言語処理の分野では，システムの構築
にコーパスを参照することが多く，コーパスは重要な役
割を果している。特に，タグ付きコーパスとは，以下の
ように普通の文（「車で行く。」）に特殊なタグ（品詞
情報など）が付いているものをいう。

【０００３】『車（名詞) で（助詞) 行く（動詞) 。』
このコーパスに付けられたタグが間違っている場合もあ
り，このことが各研究の進捗の妨げになることも多い。
本発明は，このコーパス中の誤りを，決定リスト，用例
ベース手法などを用いて，検出したり訂正したりするも
のである。

【０００４】

【従来の技術】近年，さまざまなコーパスが作られ，
「教師あり機械学習」の研究をはじめとして，コーパス
を用いた多種多様な研究が数多くなされている。しか
し，コーパスには誤りが付きもので，この誤りが各研究
の進捗を妨げる場合も多い。このため，コーパス中の誤
りを検出・修正することは非常に重要なことである。

【０００５】このコーパス中の誤りを検出する試みが，
最近いくつかなされ始めている。［参考文献１］内山将夫，形態素解析結果から過分割を
検出する統計的尺度，言語処理学会誌，Vol.6 ，No.7，1999. この参考文献１では，例えば「休憩室」という語がコー
パスで「休」と「憩室」に分割されているような誤りを
検出する研究について示されている。［参考文献２］乾孝司乾健太郎，統計的部分係り受け
解析における係り受け確率の利用法--- コーパス中の構
文タグ誤りの検出 ---，情報処理学会自然言語処理研究
会 99-NL-134 ，1999．この参考文献２では，コーパス中の構文的誤りを検出す
る研究について示されている。

【０００６】まず，上記参考文献１に記載されている技
術について説明する。この参考文献１の研究では，形態
素コーパスでの過分割の誤り，例えば，「休憩室」を
「休」「憩室」と分割してしまう誤りを検出する方法を
提案している。単語分割の問題は，情報検索において重
要な問題として位置づけられている。ここでは，「分割
した場合の確率」と「つなげた場合の確率」をコーパス
から求め，「つなげた場合の確率」の方が圧倒的に大き
い場合に，分割するのは間違いであると判定する。

【０００７】また，上記参考文献２の研究では，構文情
報のコーパスでの係り先の誤りを検出する方法を提案し
ている。コーパス中のある文節Ｘの係り先Ｙが合ってい
るかどうかを調べる場合，コーパスからその文節Ｘがそ
の係り先Ｙになる確率を求め，その確率が極端に小さい
場合にその係り先Ｙは間違いであると判定する。

【０００８】両者の研究は，一般化して考えるとほぼ同
様なことをしており，コーパスのタグが合っている確率
と間違っている確率を求め，間違っている確率の方が圧
倒的に大きい場合に，そのコーパスのタグを誤りとする
という方法を採っている。「間違っている確率」の大き
いものを間違っているものと考えるのは自然なことであ
り，ほとんどのコーパス修正の研究で，この種の考え方
を利用することが可能であると考えられる。

【０００９】しかし，先の二つの研究で用いられた手法
は，いずれも形態素の過分割，係り受け誤りと，それぞ
れその問題に特化した方法を用いて誤り検出を行ってい
たため，その手法の汎用性を見えにくくしている。

【００１０】参考文献１の過分割の研究では，過分割の
検出に特化したような式，例えば，Ｐ（ｘ）をｘの出現
率として，Ｐ（休憩室）／（Ｐ（休）Ｐ（憩室））が用いられている。ここで，Ｐ（休），Ｐ（憩室）の部
分は，「休」「憩室」の単純な出現率を用いているが，
厳密には「休憩室」という文字列が，「休」と「憩室」
に分割される確率を用いるもので，近似をすでに使った
ものとなっている。この近似は，データスパースネスに
対処するためのものであるが，この近似自体は，過分割
の検出と同じような問題でしか使えない。

【００１１】また，参考文献２の研究では，すでにでき
あがった構文解析システムが出す誤り確率を利用してい
る。この構文解析システムでは，構文解析に特化した情
報を数多く利用していると思われるし，また，誤りを検
出する対象とするコーパス以外の情報を用いている可能
性も高く，汎用的なコーパス修正とは言いにくい。

【００１２】

【発明が解決しようとする課題】上記参考文献１および
参考文献２に記載されている方法では，誤り検出の適用
範囲が過分割および構文的誤りというように限定されて
おり，例えば品詞の誤りというような形態素情報の誤り
を検出することができないという問題があった。また，
単に誤り検出のみを対象としているため，検出した誤り
をどのように修正すればよいかは人間が考えなければな
らず，また誤り箇所を修正するのも人間が行わなければ
ならないという問題があった。

【００１３】本発明は上記問題点の解決を図り，タグ付
きコーパスにおける種々の誤りを検出し，それに対する
修正案を提示し自動修正する手段を提供することを目的
とする。

【００１４】

【課題を解決するための手段】本発明は，上記課題を解
決するため，タグ付きコーパスから誤り候補を切り出す
誤り候補切り出し手段と，切り出した誤り候補のタグが
誤っているかどうかを，誤り候補の正解確率，誤り候補
の誤り確率および変更可能な修正候補の正解確率の算出
によって評価する誤り箇所検出手段と，評価結果に基づ
いて修正候補の提示または修正されたコーパスを出力す
る誤り箇所修正手段とを備えることを特徴とする。

【００１５】また，本発明は，誤り箇所検出手段とし
て，何個かの形態素連続における形態素情報を誤り候補
として，形態素情報の誤りを検出する手段を持つことに
より，形態素情報の誤りについても検出しその修正を実
現することを特徴とする。

【００１６】本発明は，単にコーパス中の誤りを検出す
るだけでなく，それを修正する手段を持つことが，従来
技術と大きく異なる。また，従来技術では，形態素の過
分割，係り受け誤りといったそれぞれの問題に特化した
誤り検出しか行われていなかったのに対し，本発明は，
例えば形態素情報の誤り，構文情報の誤りといった各種
の誤りを対象としてそれらを検出し，修正できる点が，
従来技術と大きく異なる。

【００１７】以上の各処理手段をコンピュータによって
実現するためのプログラムは，コンピュータが読み取り
可能な可搬媒体メモリ，半導体メモリ，ハードディスク
などの適当な記録媒体に格納することができる。

【００１８】

【発明の実施の形態】図１は，本発明のシステム構成例
を示す。図中，１０は本発明に係るコーパス誤りの検出
・修正システムを表す。コーパス誤りの検出・修正シス
テム１０は，誤り候補切り出し部１１，誤り箇所検出部
１２，誤り箇所修正部１３を持つ。

【００１９】図２は，図１に示すシステムの処理フロー
チャートである。誤り候補切り出し部１１は，修正対象
であるタグ付きコーパス２０から誤り候補を何らかの単
位で取り出す（ステップＳ１）。ここでは形態素情報の
修正の場合，例えばコーパスから１〜５個の形態素連続
における形態素情報を取り出す。また，構文情報の修正
の場合には，コーパスから誤り候補として，ある文節Ｘ
の係り先がＹのときに，他の係り先候補をＺ１，Ｚ２，
Ｚ３，…としたときに，Ｘ，Ｙ，Ｚi （ｉ＝１，２，
３，…）といった三つ組のデータを取り出す。

【００２０】次に，誤り箇所検出部１２は，誤り候補切
り出し部１１が取り出した誤り候補のすべてに対して，
高速検索用に変形したコーパス２１を参照して，以下の
計算を行う（ステップＳ２）。

【００２１】ａ．その誤り候補の誤り確率の算出ｂ．そのときのシステムの確信度の算出ｃ．そのときの修正候補の算出なお，高速検索用に変形したコーパス２１は，誤り箇所
の検出のための確率値の算出を高速化するため，コーパ
ス２０について，データの並びの順序を変更したり，不
要なデータ部分を削除したものである。例えば，形態素
の生データとその品詞の組を検索するとき，形態素の生
データとその品詞を連続して並べたものをオリジナルの
コーパス２０からあらかじめ作っておけば，形態素の生
データとその品詞の組を１個の検索キーとして，１回の
検索操作で検索することができる。これが高速検索用に
変形したコーパス２１である。

【００２２】その後，誤り箇所検出部１２は，取り出し
たすべての誤り候補のうち，確信度の高いものから，以
下の処理を行う（ステップＳ３）。ただし，形態素情報
の修正の場合，すでに誤り箇所もしくは正解箇所と推定
された箇所を含む部分については，以下の処理は行わな
い。また，構文情報の修正の場合，すでに誤り箇所と推
定された箇所を含む部分については，以下の処理は行わ
ない（形態素の場合と異なり，正解箇所と判断した箇所
については，以下の処理を引き続き行う）。

【００２３】ａ．誤り候補の誤り確率が０．５以上の場
合，誤り箇所と判定し，そのときの修正候補を修正候補
とする。

【００２４】ｂ．誤り候補の誤り確率が０．５以上でな
い場合，正解箇所と判定し，その部分を以降誤り箇所と
は判定しない。

【００２５】誤り箇所検出部１２は，すべての誤り候補
に対して上記ステップＳ３の処理を行った後，処理を終
了し，誤り箇所と判定した箇所をすべて誤り箇所と検出
する（ステップＳ４）。

【００２６】誤り箇所修正部１３は，誤り箇所検出部１
２が誤り箇所と検出した箇所について，ステップＳ３で
修正候補としたものを修正候補として，誤りの修正候補
を示す（ステップＳ５）。その結果をもとに，修正され
たコーパス２２（もしくは誤り箇所指摘および修正付き
コーパス）を出力する（ステップＳ６）。

【００２７】ステップＳ３では，０．５以上のものを誤
り箇所と判断しているが，０．５より大きいものだけを
誤り箇所と判断してもよい。以下，具体例に従ってさら
に詳しく説明する。

【００２８】［コーパスの例］図３は，代表的なコーパ
スとしてよく知られている京大コーパスの例，図４は，
そのコーパスのデータ構造の説明図である。

【００２９】京大コーパスは，図３の具体例に示すよう
に，各文を文節に分割し，それらの係り受け関係を示す
とともに，さらに各文節を形態素に分割して各形態素の
品詞その他の詳細な情報を持たせたものである。

【００３０】おおよそ一文が図３に示すように構成さ
れ，一文が終わるとＥＯＳ(end of sentence）の記号が
付与される。すなわち，図４（Ａ）のように，＃から始
まりＥＯＳで終わる部分が一文に関する情報である。一
文に関する情報は，図４（Ｂ）に示すように，＊から始
まる文節に関する情報によって構成される。

【００３１】文節に関する情報の部分には，図４（Ｃ）
のように，＊に続く第１カラム目に何番目の文節である
かを示す文節番号が記述され，第２カラム目には，その
文節の係り先の文節番号が記述される。第２カラムの数
字の次に続くアルファベットは，Ｄが通常の係りを表
し，Ｐ，Ｉの場合には並列的な係り，Ａの場合には同格
的な係りを意味する。続くＥＯＳ，＃，＊以外のものか
ら始まる行は，形態素情報を表している。

【００３２】形態素情報の部分には，図４（Ｄ）のよう
に，第１カラムに生データで出現したままの形の形態素
が記述され，第２カラムに読みの情報が記述され，第３
カラムに変化する形態素の場合は基本形を，そうでない
場合は＊が記述される。また，第４カラムに品詞が記述
され，第５カラムに品詞細分類が記述され，第６カラム
に変化する形態素の場合は活用型を，そうでない場合は
＊が記述される。第７カラムにも形態素の活用形に関す
る情報が記述される。

【００３３】例えば，第３図に示す２行目の「* 0 26D
」は，第０番目（先頭）の文節を表し，この文節の係
り先が第２６番目の文節（「示した」）であることを意
味している。また，３行目の「村山むらやま＊名
詞人名＊＊」は，生データの形態素が「村山」，
その読みが「むらやま」，変化しないので第３カラムが
「＊」，品詞は「名詞」，品詞細分類は「人名」，変化
する活用型ではないので，続くカラムは「＊」，「＊」
となっている。

【００３４】［コーパス修正のための評価式］コーパス
の修正の課題は，このタグは正解，また，このタグは誤
りというものがふられたデータがないため，基本的に
「教師なし学習」の問題となる。このため，コーパス修
正には何らかの基準が必要となる。先に述べた参考文献
１，２の二つの先行研究では，以下の評価基準を利用し
て，コーパス誤り検出の教師なし問題を解いていること
になっている。〔参考文献１の方法〕評価式＝（分割しない場合の出現率）／（分割した場合
の出現率）これを強いて一般化して表すと，次のように表すことが
できる。

【００３５】評価式＝（修正後のタグが正しい確率）／
（修正前のタグが正しい確率）〔参考文献２の方法〕評価式＝（修正前のタグが誤っている確率）これらの評価式の値が大きい場合には，タグが誤ってい
る可能性が高いとする。クラスが二つしかない問題の場
合には，上記の二つの基準は等価となる。しかし，これ
らの評価式は，主として誤りの検出を考慮したものにな
っており，検出したコーパス誤りをどのように修正する
のがよいかを考慮したものにはなっていない。

【００３６】本発明では，コーパス誤りを検出する評価
式として，評価式＝修正前のタグが誤っている確率を用い，それを修正するための評価式として，評価式＝修正後のタグが誤っている確率を用いることにより，コーパス誤りの自動修正を可能に
する。

【００３７】［確率値の算出方法］「修正前のタグが誤
っている確率」や「修正後のタグが正しい確率」といっ
ても，これをどのようにして簡単に求めるかが次の課題
となる。ここでは，まず「修正前のタグが誤っている確
率」の算出方法を，具体的な処理の例に従って説明す
る。

【００３８】図５は，決定リストを用いる場合の確率値
算出の処理の流れを示す。まず，ステップＳ１０では，
誤り候補について変更可能な候補をコーパスから取り出
す。次にステップＳ１１では，何種類かのパターンを定
義し，そのパターンごとに，以下の計算を行う。ａ．誤り候補の正解確率の算出今のパターンの形でのコーパスでの誤り候補の総出現数
を，今のパターンの総出現数で割ったものを誤り候補の
正解確率とする。ｂ．誤り候補の誤り確率の算出１から誤り候補の正解確率を引いたものを誤り候補の誤
り確率とする。ｃ．変更可能な候補ｉの正解確率の算出今のパターンの形でのコーパスでの変更可能な候補ｉの
総出現数を，今のパターンの総出現数で割ったものを変
更可能な候補ｉの正解確率とする。ｄ．修正候補の算出ｃで計算した変更可能な候補のうち，最も正解確率が大
きいものを修正候補とする。ｅ．このときのシステムの確信度の算出誤り候補の正解確率と，ｄで選んだ修正候補の正解確率
の大きい方をこのときのシステムの確信度とする。

【００３９】次にステップＳ１２では，ステップＳ１１
で求めた全パターンのうち，最も確信度の大きいパター
ンのときの誤り候補の誤り確率，修正候補，確信度を，
その誤り候補の誤り確率，修正候補，確信度とする。

【００４０】なお，この例では，ｅの確信度として，誤
り候補の正解確率と，ｄで選んだ修正候補の正解確率の
大きい方を用いるとしているが，ａ，ｂで求めた誤り候
補の正解確率と誤り確率の大きい方を用いることにして
もよい。

【００４１】構文情報の修正の場合には，確率値算出の
処理が上記の処理と少々変わっているので，図６にその
処理の流れを示す。

【００４２】誤り候補としては，ある文節Ｘの係り先が
Ｙのときに，他の係り先候補をＺ１，Ｚ２，Ｚ３，…と
して，Ｘ，Ｙ，Ｚi （ｉ＝１，２，３，…）といった三
つ組のデータが誤り候補の単位として，取り出されてい
る。そこで，この状況下で以下の計算を行う。まず，ス
テップＳ２０では，変更可能な候補としてはＺi を用い
る。

【００４３】次にステップＳ２１では，何種類かのパタ
ーンを定義し，そのパターンごとに，以下の計算を行
う。ａ．誤り候補の正解確率の算出今のパターンの形でのコーパスでの，Ｙが係り先になる
総数を，今のパターンの総数で割ったものを誤り候補の
正解確率とする。ｂ．誤り候補の誤り確率の算出１から誤り候補の正解確率を引いたものを誤り候補の誤
り確率とする。ｃ．変更可能な候補ｉの正解確率の算出今のパターンの形でのコーパスでの，Ｚi が係り先にな
る総数を，今のパターンの総数で割ったものを変更可能
な候補Ｚi の正解確率とする。ｄ．修正候補の算出Ｚi を修正可能な候補とする。ｅ．このときのシステムの確信度の算出誤り候補の正解確率と，修正候補Ｚi の正解確率の大き
い方をこのときのシステムの確信度とする。

【００４４】ステップＳ２２では，ステップＳ２１で求
めた全パターンのうち，最も確信度の大きいパターンの
ときの誤り候補の誤り確率，修正候補，確信度をその誤
り候補の誤り確率，修正候補，確信度とする。

【００４５】京大コーパスについての確率値算出の具体
例を説明する。京大コーパスについて，読点「、」の形
態素情報の統計をとってみると，図７（Ａ）に示すよう
な結果が得られる。この統計情報は，ちょっと見ただけ
でも「特殊読点」となっているデータが圧倒的に大き
く，他は誤っているということが予想される。ここで２
行目の「、、、＊＊」の誤りの確率を考えてみ
る。

【００４６】まず，これの正解確率は，その出現数を総
数で割ったものと考えてよい。

【００４７】正解確率＝３／（２６５４０＋３＋２＋１）一方，誤り確率は１から正解確率を引いたものと考えら
れるので，誤り確率＝１−３／（２６５４０＋３＋２＋１）となる。そこで，本実施の形態では，誤り確率の求め方
として，基本的にこの方法を用いる。

【００４８】しかし，単にこれだけでは確率の求め方と
して粗すぎる場合がある。京大コーパスについて，例え
ば「の」の形態素情報の統計をとってみると，図７
（Ｂ）のような結果が得られる。ここで，頻度が１９１
の「ののだ判定詞＊判定詞ダ列特殊連体
形」の誤り確率を求めると，誤り確率＝１−１９１／（２５７３９＋１６０１＋…）＝９９．３％となって，ほとんど誤っていると判定される。「のの
だ判定詞＊判定詞ダ列特殊連体形」が正しい
場合も数多くあり，この単純な方法では，正しいのにこ
れを全部誤っていると推定してしまう。

【００４９】そこで，本実施の形態では，確率値の算出
に用例ベース手法や決定リスト手法を利用する。用例ベ
ース手法の参考文献としては，以下の参考文献３があ
り，決定リスト手法の参考文献としては，以下の参考文
献４，５がある。［参考文献３］村田真樹，内元清貴，馬青，井佐原均，
排反な規則を用いた文節まとめあげ，情報処理学会論文
誌，(2000)．［参考文献４］David Yarowsky, Decision lists for l
exical ambiguity resolution :Application to accent
restoration in Spanish and French, 32th Annual Me
etingof the Associtation of the Computational Ling
uistics,(1994), pp.88-95. ［参考文献５］新納浩幸，複合語からの証拠に重みをつ
けた決定リストによる同音異義語判別，情報処理学会論
文誌，Vol.39, No.12,(1998). 用例ベース手法は，いま解きたいものと良く似た用例を
集め，その用例集合での出現率を確率値とする手法であ
る。

【００５０】「のような」の場合，「の」は８４個あっ
てすべて「ののだ判定詞＊判定詞ダ列特殊連
体形」であるので，正解確率１００％，誤り確率０％と
なり，これを間違って誤りと検出することがなくなる。
用例ベース的確率算出方法は，バックオフによる確率推
定を極端なまで行ったことに相当する。また，誤り修正
の場合，自分自身だけの事例を用いると一つも誤りを検
出できなくなるので，最低自分以外に一つ，合計二つ以
上の事例をもってくる必要がある。

【００５１】一方，決定リスト手法は，多くの素性に展
開し各素性の確信度を求め，確信度の最も高い素性（パ
ターン）のときの，正解確率と誤り確率を用いる方法で
ある。前述した「の」の例の場合，「の」「のような」
「名詞＋の」「の＋助動詞」などと，いろいろなパター
ンでの確率を求める（ただし，総数が１の素性は用いな
い）。この結果を京大コーパスを用いて計算すると，図
８のようになる。

【００５２】図８における「判定詞の場合の数」は，京
大コーパスで各素性に適合する事例における「の」が判
定詞の場合の数で，「総数」は京大コーパスで各素性に
適合する事例の総数である。例えば，「のような」のパ
ターンは，判定詞の「の」だけが８４個出現したことを
意味し，「の＋助動詞」のパターンでは，判定詞の
「の」が１８７個，それ以外の「の」が１個出現したこ
とを意味する。

【００５３】このデータからの正解確率，誤り確率の求
め方は，先に述べた例と同じで，正解確率＝１８７／１８８誤り確率＝１−（１８７／１８８）などの計算をして求める。

【００５４】また，「確信度」はその規則の確らしさを
意味するものであり，この確信度としては，正解確率と
誤り確率のうち大きい方の値を用いる。例えば，１行目
の「のような」は，確信度１００％でほぼ正しい情報と
推測されることになる。この規則は，上記参考文献３で
いう排反な規則に相当する。

【００５５】決定リストでは，この図８の最上位にあ
る，この規則を用いることになり，誤り確率は０となっ
て，用例ベースと同じく「のような」の「の」は，判定
詞で正しいと推定され，間違って誤りと推定することは
ない。図８の上の二行の情報がないときは，誤り確率９
９．３％，確信度９９．３％で誤っていると判定され
る。

【００５６】次に「修正後のタグが正しい確率」の求め
方であるが，これは，図７（Ａ）の読点の簡単な場合で
考えると，「修正後のタグ」は頻度の最も大きい「、
、＊特殊読点＊＊」とすればよく，これが正
しい確率は，これの出現数を総数で割ったもの，すなわ
ち，９９．９９％（＝２６５４０／２６５４３）とな
る。

【００５７】以上は単純な場合の例であるが，用例ベー
ス手法，決定リスト手法の場合ともに，誤り確率などを
求めた事例集合でこの計算をして，「修正後のタグが正
しい確率」を求めればよい。

【００５８】もちろん確率値を算出する方法は，用例ベ
ース手法，決定リスト手法に限られるわけではなく，例
えば最大エントロピー法など，その他の手法を用いて確
率値を求めることもできる。

【００５９】［形態素情報の修正例］以下では，形態素
情報のコーパス修正を試みた結果について述べる。ま
ず，対象とする京大コーパスでの形態素情報の調査を行
った。この結果を図９に示す。図９における全形態素数
はコーパスにあったすべての形態素の数を意味する。ま
た，曖昧形態素数はコーパスにあった形態素のうち，コ
ーパス中の他の形態素と表記が同じであった形態素の数
を意味する。例えば「のの＊助詞格助詞＊
＊」，「のの＊助詞接続助詞＊＊」といっ
たものは，表記が同じ「の」で異なる形態素なので曖昧
形態素と考える。

【００６０】また，この調査では，５つまでの形態素連
続までは「では」と「で｜は」のように形態素の区切り
が異なるものが他にある場合も曖昧形態素と考えている
（つまり，この場合，「では」「で」「は」はそれぞれ
曖昧形態素となる）。

【００６１】図９中の「読み情報あり」と「読み情報な
し」は，京大コーパスが読み情報に弱いという理由から
設定したもので，「読み情報あり」は，読み情報も含め
て曖昧形態素の数を数えたもので，「読み情報なし」
は，読み情報を省いて曖昧形態素の数を数えたものを意
味する。全形態素数は「読み情報あり」と「読み情報な
し」とで変わることはない。

【００６２】例えば「読み情報なし」では，「日ひ
＊名詞時相名詞＊＊」と「日び＊名詞
時相名詞＊＊」のように読み情報のみが異なる場
合，これらを異なる形態素として扱わない。

【００６３】図９からわかるように，京大コーパス約２
万文には，４８７，６９１形態素が存在しており，人手
で５０万の形態素を徹底的に調べあげるとコーパス修正
ができるがそれは非常に大変である。また，曖昧形態素
数は，読み情報の修正を諦めたとしても，２７０，５３
４形態素存在しており，修正範囲を曖昧な形態素に絞っ
たところで網羅的に人手で修正するのは困難である。

【００６４】曖昧形態素数の異なりは，５，５３９であ
るので，曖昧形態素の種類ごとにまとめて出力させ，そ
れを見て人手で修正することも可能かとも思われるが，
各種類ごとに多数の事例が出力されると思われ，それを
用いた修正も若干無理があると思われる。

【００６５】以上のことから，コーパス修正は難しい問
題であることがわかる。このため，このコーパス修正を
容易に行う技術を確立することは重要である。

【００６６】以下に述べる形態素情報の修正の例では，
読み情報は対象から外している。そこで，図１の高速検
索用に変形したコーパス２１では，入力したコーパス２
０を変形し，読み情報の項目を消している。「タグが誤
っている確率」の算出には，前に述べたように用例ベー
ス手法と決定リスト手法とを利用する。

【００６７】まず，１〜５個の形態素連続における形態
素情報を誤りの候補とする。この誤りの各候補に対し，
「タグが誤っている確率」と「確信度」と「修正後のタ
グ」を算出する。次に，確信度の大きい誤り候補から順
に欲張り法でコーパスを修正する。このとき，各修正箇
所には先に算出した「タグが誤っている確率」と「修正
後のタグ」を付与しておく。「タグが誤っている確率」
が０．５より大きい形態素のタグが誤っているものと判
定され，「修正後のタグ」に修正される。０．５以下の
形態素のタグは正しいものと判断され，修正の対象とな
らない。

【００６８】「タグが誤っている確率」と「確信度」と
「修正後のタグ」の算出方法は，以下のとおりである。
まず，誤り候補から変更可能な候補をコーパスより取り
出す。ここで，変更可能な候補とは，表記が同じもので
ある。例えば「ロシア＊名詞普通名詞＊＊」が
誤り候補の場合，「ロシア＊名詞地名＊＊」が
変更可能な候補として取り出される。

【００６９】ここで，用例ベース手法の場合には，誤り
候補のまわりの形態素の状態が最もよく似ている用例を
集め，その用例集合で前述した方法で「タグが誤ってい
る確率」と「修正後のタグ」を推定する。最もよく似て
いる用例の集め方は，候補の形態素から出発し，それに
対して，その前後の形態素の品詞，品詞細分類，残りの
全情報を順次追加していき，さらにその隣の形態素から
もそのような情報を順次追加する。これを繰り返し，検
出される用例が１個だけになる直前の状態のときの用例
を利用する。

【００７０】「確信度」は，ここでは「タグが誤ってい
る確率」と「タグが正しい確率」のうち大きい方の値と
している。「確信度」を図５に示した例のように，誤り
候補の正解確率と，修正候補の正解確率の大きい方の値
としてもよい。

【００７１】また，決定リスト手法の場合には，以下で
説明する１６個の素性を用いて，前述した方法を用いて
「タグが誤っている確率」と「確信度」と「修正後のタ
グ」を推定する。１６個の素性については，まず，各形
態素の情報として以下の四つのパターンの情報を考え，
この四つのパターン情報を，候補となっている形態素の
前後二つの形態素についてあらゆる組合わせを作って，
合計１６個の素性を作り，それを決定リスト用の素性と
する。（１）情報なし（２）品詞情報のみ（３）品詞情報と品詞細分類情報のみ（活用する形態素
の場合には，品詞情報と活用形のみを用いる）（４）形態素情報すべて上記の方法でコーパス修正を行った結果は，以下のとお
りであった。

【００７２】用例ベース手法では，５９１個がタグ誤り
と検出され，決定リスト手法では，４，０５４個がタグ
誤りと検出された。その検出されたデータの精度を，図
１０に示す。

【００７３】図１０中の「ランダム３００個」は，「誤
り確率」のことを考慮せずにコーパスの先頭３００個を
調査したときの精度で，ほぼ平均精度に相当する。「上
位ｘ個」は，集計したデータを「誤り確率」に基づいて
ソートし，「誤り確率」の上位ｘ個のものの精度を調べ
たものである。「検出精度」は，誤り部分を正しく検出
した箇所の数を総数で割ったもので，「修正精度」は，
誤り部分を正しく修正した箇所の数を総数で割ったもの
である。また図１０中の「不明」は，正否がはっきりし
ない場合の数である。「不明」としたものには，副詞と
名詞，サ変名詞と普通名詞，普通名詞と動詞連用形な
ど，タグの定義のゆれに関係しそうなものも含めてい
る。検出精度，修正精度の算出では，検出，修正を失敗
したものとして扱っている。

【００７４】今回の実験では，図１０のように，用例ベ
ース手法よりも決定リスト手法の方が抽出数，抽出精度
ともによかった。ただし，この結果は本実施の形態にお
ける素性の設定状況によるかもしれず，常に決定リスト
手法の方がよいとは限らない。

【００７５】決定リスト手法では，抽出総数が約４，０
００で平均精度（図１０の「ランダム３００個」) が５
０％程度あるので，おおよそこの４，０００のデータを
見るだけで２，０００個の誤りを修正できる計算とな
る。また，上位での精度は７０％〜８０％と比較的高く
誤りを検出できており，この精度ならば人手でこれをチ
ェックしつつコーパス修正をするのもそれほど負担にな
らないと思われ，十分実用的にコーパス修正に利用可能
であると考えられる。

【００７６】図１１は，決定リスト手法の上位での修正
結果の例を示している。該当箇所の欄に×印をつけてい
るものは誤り検出失敗を意味する。検出の上位に
は，「、、＊＊」といったコーパス作成中に何らか
のデータ作成ミスが生じたのではないかと思われる明ら
かな誤りも含まれている。

【００７７】「の＊連体詞＊＊＊」「は＊
助詞格助詞＊＊」というアノテーターによるミ
スと思われる誤りもある。「〜ぐらいの〜」を誤ってコ
ーパス誤りと推定しているが，これはコーパス中の他の
誤りが原因となっている。「〜ぐらいの〜」の「の」は
ほとんど判定詞「だ」であるが，コーパスで格助詞
「の」としている箇所が二つあるため，決定リストの一
つの素性「〜ぐらいの〜」における判定詞「だ」のタグ
が合っている確率が１にならず，誤りと検出してしまっ
ている。

【００７８】決定リスト手法の場合には，手法の原理が
簡単であるために，誤り検出を失敗したとき，それなら
こっちのほうが誤っているのではないかと推測すること
が容易なので，誤り検出を失敗したとしても，副産物と
して他の誤りを検出できる可能性が高い。

【００７９】［構文情報の修正例］次に，構文情報の修
正結果について述べる。本実験では，京大コーパスのう
ち，１９９５年１月１０日までの約１万文のデータを利
用した。以下で修正方法を述べる。ある文節Ｘの係り先
がＹのときに，その文節Ｘの係り先のタグが正しいかど
うかを判定する場合，他の係り先候補をＺ１，Ｚ２，Ｚ
３，…としたとき，Ｘ，Ｙ，Ｚi （ｉ＝１，２，３，
…）の三つ組のデータに対し，ＹとＺi の比較でＹが係
り先となる確率とＺi が係り先になる確率を求め（この
二つの確率の求め方は後で述べる) ，これらの確率の大
きい方を「確信度」とし，Ｚi が係り先になる確率を
「誤っている確率」とし，Ｚi を「修正タグ」とする。

【００８０】これをすべてのＺ１，Ｚ２，Ｚ３，…に対
して計算し，このうち，「誤っている確率」が最も大き
いＺｉの「誤っている確率」と「修正タグ」を，文節Ｘ
に付与する。「誤っている確率」が０．５よりも大きい
文節の係り先タグは誤っていると判断し，その係り先タ
グは「修正タグ」に修正する。

【００８１】次に，Ｘ，Ｙ，Ｚi の三つ組のデータにお
いて，Ｙが係り先となる確率とＺiが係り先になる確率
の求め方を記述する。この確率の算出には，決定リスト
を利用する。文節情報のＡパターンとして以下を定義す
る。（１）情報なし（２）付属語の品詞の情報（３）付属語の品詞と品詞細分類の情報（４）付属語の品詞と品詞細分類の情報と，自立語の品
詞（５）付属語の品詞と品詞細分類の情報と，自立語の品
詞と分類語彙表の分類番号の上位５桁（６）付属語の品詞と品詞細分類の情報と，自立語の品
詞と分類語彙表の分類番号の上位５桁と単語自体また，文節情報のＢパターンとして以下を定義する。（１）情報なし（２）自立語の品詞（３）自立語の品詞と品詞細分類（４）自立語の品詞と品詞細分類と分類語彙表の分類番
号の上位５桁（５）自立語の品詞と品詞細分類と分類語彙表の分類番
号の上位５桁と単語自体文節ＸにはＡパターンを，文節Ｙ，Ｚi にはＢパターン
を利用し，すべての各パターンの組合わせ，つまり，６
×５×５の素性を作る。また，ＹとＺi は，どちらが文
で先に出現しているかも素性とし，合計６×５×５×２
の素性をこの決定リストの素性とする。

【００８２】この素性ごとに，コーパスより文節Ｙが係
り先になる場合の数と，Ｚi が係り先になる場合の数を
求め，それぞれをその和で割ることでそれぞれの確率値
を求める。

【００８３】また，このとき大きい方の確率値を確信度
とする。この計算をすべての素性で行ってやり，確信度
が最も大きいときの素性の，Ｙが係り先となる確率とＺ
i が係り先になる確率を，Ｘ，Ｙ，Ｚi の三つ組のデー
タにおけるその確率とする。ただし，文節Ｙが係り先に
なる場合の数が１で，そうでない場合の数が０となる素
性のデータは削除する。

【００８４】この方法で実験を行った結果を，図１２に
示す。また，正しく構文誤りを修正できたものの例を，
図１３に示す。図１３において，墨付き括弧の記号で囲
まれている文節の係り先が，コーパスでは一重下線の文
節であったが，二重下線の文節に正しく修正できたこと
を示している。図１２のように抽出数がおよそ１，４５
６で，平均検出精度が１３％なので，この１，４５６の
データから２００個くらい誤りを検出できると期待され
る。精度が格段に高いと言えないがそれなりにコーパス
の誤り修正ができており，本手法の汎用性の検証には十
分であると思われる。

【００８５】

【発明の効果】以上説明したように，本発明によれば，
単にコーパス誤りの指摘だけでなく，誤った部分をどう
直せば良いかも示すため，コーパス修正の効率が向上す
る。

【図面の簡単な説明】

【図１】本発明のシステム構成例を示す図である。

【図２】本システムの処理フローチャートである。

【図３】京大コーパスの例を示す図である。

【図４】京大コーパスのデータ構造の説明図である。

【図５】決定リストを用いる場合の確率値算出の処理の
流れを示す図である。

【図６】決定リストを用いて構文情報を修正する場合の
確率値算出の処理の流れを示す図である。

【図７】形態素情報の統計情報を示す図である。

【図８】決定リストによる確率値算出方法の例を示す図
である。

【図９】形態素情報の調査結果の例を示す図である。

【図１０】形態素情報の修正結果の例を示す図である。

【図１１】形態素誤り修正結果の例を示す図である。

【図１２】構文情報の修正結果の例を示す図である。

【図１３】正しく構文誤りを修正できた例を示す図であ
る。

【符号の説明】１０コーパス誤りの検出・修正システム１１誤り候補切り出し部１２誤り箇所検出部１３誤り箇所修正部２０コーパス２１高速検索用に変形したコーパス２２修正されたコーパス

───────────────────────────────────────────────────── フロントページの続き (72)発明者内元清貴兵庫県神戸市西区岩岡町岩岡588−２郵政省通信総合研究所関西先端研究センター内 (72)発明者馬青兵庫県神戸市西区岩岡町岩岡588−２郵政省通信総合研究所関西先端研究センター内 (72)発明者井佐原均兵庫県神戸市西区岩岡町岩岡588−２郵政省通信研合研究所関西先端研究センター内Ｆターム(参考） 5B091 EA04

Claims

【特許請求の範囲】

【請求項１】タグ付きコーパスの誤りを検出し修正す
るためのコーパス誤りの検出・修正システムであって，
タグ付きコーパスから誤り候補を切り出す誤り候補切り
出し手段と，切り出した誤り候補のタグが誤っているか
どうかを，前記誤り候補の正解確率，誤り候補の誤り確
率および変更可能な修正候補の正解確率の算出によって
評価する誤り箇所検出手段と，前記評価結果に基づいて
修正候補の提示または修正されたコーパスを出力する誤
り箇所修正手段とを備えることを特徴とするコーパス誤
りの検出・修正システム。
【請求項２】前記誤り箇所検出手段は，何個かの形態
素連続における形態素情報を誤り候補として，形態素情
報の誤りを検出することを特徴とする請求項１記載の
コーパス誤りの検出・修正システム。
【請求項３】タグ付きコーパスの誤りを検出し修正す
るためのコーパス誤りの検出・修正処理方法であって，
タグ付きコーパスから誤り候補を切り出す過程と，切り
出した誤り候補のタグが誤っているかどうかを，前記誤
り候補の正解確率，誤り候補の誤り確率および変更可能
な修正候補の正解確率の算出によって評価する過程と，
前記評価結果に基づいて修正候補の提示または修正され
たコーパスを出力する過程とを有することを特徴とする
コーパス誤りの検出・修正処理方法。
【請求項４】コンピュータによってタグ付きコーパス
の誤りを検出し修正するためのプログラムを記録した記
録媒体であって，タグ付きコーパスから誤り候補を切り
出す処理と，切り出した誤り候補のタグが誤っているか
どうかを，前記誤り候補の正解確率，誤り候補の誤り確
率および変更可能な修正候補の正解確率の算出によって
評価する処理と，前記評価結果に基づいて修正候補の提
示または修正されたコーパスを出力する処理とを，コン
ピュータに実行させるためのプログラムを記録したこと
を特徴とするコーパス誤りの検出・修正用プログラム記
録媒体。