JP2014126927A

JP2014126927A - 動詞誤り検出装置、方法、及びプログラム

Info

Publication number: JP2014126927A
Application number: JP2012281376A
Authority: JP
Inventors: Kugatsu Sadamitsu; 九月貞光; Kuniko Saito; 邦子齋藤; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-12-25
Filing date: 2012-12-25
Publication date: 2014-07-07
Anticipated expiration: 2032-12-25
Also published as: JP5548252B2

Abstract

【課題】日本語の文章中の誤った動詞を精度良く検出する。
【解決手段】閉じた誤り検出部１２が、動詞の誤りを検出する処理対象の形態素解析済みの文章である対象文章を受け付け、形態素解析において品詞が不明であることを示す品詞情報が付与された単語またはその周辺単語を、周辺に動詞活用の誤りが存在することを示す閉じた誤りとして検出する。閉じない誤り検出部１４が、対象文章中の動詞＋助動詞などの活用語で表される動詞部分を１単語とみなし、動詞部分とその周辺前後Ｎ単語とからなる事例の統計情報２０を用いて、周辺文脈における動詞部分の自然さを示す確率を計算し、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。
【選択図】図３

Description

本発明は、動詞誤り検出装置、方法、及びプログラムに係り、特に、日本語の文章中に現れる動詞の誤りを検出する動詞誤り検出装置、方法、及びプログラムに関する。

従来、日本語の文章中に現れる格助詞を識別する技術が提案されている。例えば、「以下は旅行に行った時の写真を添付する」という自然でない日本語の文章から、「は」という誤った格助詞を検出したり、誤った格助詞「は」を正解の格助詞「に」に訂正したりする技術である（例えば、非特許文献１及び２参照）。

鈴木久美、Kristina Toutanova、「機械学習による日本語格助詞の予測」、言語処理学会第１２回年次大会 (2006) Na-raeHan, Joel Tetreault, Soo-hwaLee, Jin-young Ha, "Using an Error-Annotated Learner Corpus to Develop an ESL / EFL Error Correction System", LREC 2010

ここで、以下の例文１及び２を参照して、文章中の動詞の誤りとして、動詞＋助動詞などの活用語で表される動詞部分が誤っているもの（以下、「閉じた誤り」ともいう）と、動詞部分だけ見ると誤っていないが、周辺文脈との関係を考慮すると誤っているもの（以下、「閉じない誤り」ともいう）とに対応する場合について考える。
例文１：旅行に行くた時の写真を添付する
例文２：明日行った時の準備
この場合、例文１からは、「行くた」という閉じた誤りを検出し、例文２からは、「明日行った」という閉じない誤りを検出したい。

非特許文献１及び２に記載の手法では、格助詞の識別に焦点が絞られており、動詞の誤り検出は実現していない。非特許文献１及び２に記載の手法のような格助詞の識別と同じ枠組みを、動詞の誤り検出に適用することも考えられるが、文章中に動詞の誤りが存在する場合には、その文章の形態素解析自体に失敗する場合があり、格助詞の識別と同じ枠組みを動詞の誤り検出に適用することができない場合がある、という問題がある。例えば、例文１の「行くた」の部分が「行く（動詞）／た（過去形を表す助動詞）」と形態素解析される保証も妥当性もない。

また、対象単語の周辺文脈との関係を考慮する素性として、対象単語のＮｇｒａｍを用いる手法が存在するが、動詞部分を動詞とその動詞に続く活用語とに細分化した形態素解析結果を用いた場合には、各単語のＮｇｒａｍも細分化され、Ｎｇｒａｍに含まれる大部分が動詞部分に取られてしまい、動詞と周辺文脈との関係性を十分に捉えることができない場合がある、という問題がある。

本発明は上記事実を考慮して成されたもので、日本語の文章中の誤った動詞を精度良く検出することができる動詞誤り検出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する閉じた誤り検出部を含んで構成されている。

第１の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じた誤り検出部が、入力された文章において、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する。閉じた誤りとは、品詞が不明であることを示す情報が付与された単語の周辺に、動詞活用の誤りが存在することを示すものである。

このように、品詞が不明であることを示す情報が付与された単語、すなわち形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。

また、第１の発明に係る動詞誤り検出装置は、さらに、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出部を含んで構成することができる。閉じない誤りとは、動詞部分自体に誤りはないが、周辺単語との関係で動詞活用の誤りが存在することを示すものである。これにより、閉じた誤りに加え、動詞部分を１単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。

また、第２の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出部を含んで構成されている。

第２の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じない誤り検出部が、入力された文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、動詞部分と動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する。

このように、動詞部分を１単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。

また、第１及び第２の発明において、前記閉じない誤り検出部は、前記統計情報として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングした統計情報を用いることができる。これにより、動詞部分を１単語とみなすことにより統計情報が疎になることを回避して、日本語の文章中の誤った動詞を精度良く検出することができる。

また、第３の発明に係る動詞誤り検出方法は、閉じた誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じた誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する閉じた誤りステップを含む方法である。

また、第３の発明に係る動詞誤り検出方法は、閉じない誤り検出部をさらに含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出ステップを含むことができる。

また、第４の発明に係る動詞誤り検出方法は、閉じない誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出ステップを含む方法である。

また、第３及び第４の発明に係る動詞誤り検出方法の前記閉じない誤り検出ステップにおいて、前記閉じない誤り検出部が、前記統計情報として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングした統計情報を用いることができる。

また、第５の発明に係る動詞誤り検出プログラムは、コンピュータを、上記の動詞誤り検出装置を構成する各部として機能させるためのプログラムである。

本発明の動詞誤り検出装置、方法、及びプログラムによれば、品詞が不明であることを示す情報が付与された単語、すなわち形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、また、動詞部分を１単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる、という効果を有する。

第１の実施の形態に係る動詞誤り検出装置の機能的構成を示すブロック図である。第１の実施の形態における動詞誤り検出処理ルーチンを示すフローチャートである。第２の実施の形態に係る動詞誤り検出装置の機能的構成を示すブロック図である。第２の実施の形態における動詞誤り検出処理ルーチンを示すフローチャートである。第３の実施の形態に係る動詞誤り検出装置の機能的構成を示すブロック図である。第３の実施の形態における動詞誤り検出処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

第１の実施の形態に係る動詞誤り検出装置１０は、ＣＰＵと、ＲＡＭと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したＲＯＭとを備えたコンピュータで構成されている。また、記憶手段としてＨＤＤを設けてもよい。

動詞誤り検出装置１０を構成するコンピュータは、機能的には、図１に示すように、閉じた誤り検出部１２を含んだ構成で表すことができる。

閉じた誤り検出部１２は、入力として、動詞の誤りを検出する処理対象の形態素解析済みの文章である対象文章を受け付ける。形態素解析により、対象文章は、単語毎に分割され、各単語に品詞を示す情報が付与されている。なお、品詞が不明な単語には、例えば、「Ｋａｎａ」や「未知語」等の品詞が不明であることを示す品詞情報が付与されている。閉じた誤り検出部１２は、この対象文章の形態素解析結果の不自然性を利用して、動詞の誤り、特に、閉じた誤りを検出する。具体的には、形態素解析済みの対象文章において、品詞が不明であることを示す品詞情報が付与された単語、またはこの単語の周辺単語を閉じた誤りとして検出する。

動詞の活用形は動詞に続く単語に応じて定まるため、動詞の活用形と動詞に続く単語の品詞との関係が誤っている場合には形態素解析が失敗する可能性が高い。例えば、動詞「行く」に続く単語が過去形を表す助動詞「た」である場合は、「行く」は「行（動詞語幹）＋っ（活用語尾）」という活用形となるはずである。しかし、上記の例文１では、動詞「行く」はこの活用形となっていない。このように、動詞の活用形と動詞に続く単語の品詞との関係が誤っている場合には、形態素解析において、動詞に続く単語（ひらがな１文字）に、例えば、「Ｋａｎａ」や「未知語」等の品詞情報が付与されるため、これらの品詞情報を手掛かりに閉じた誤りを検出するものである。

なお、「Ｋａｎａ」や「未知語」等の品詞情報は、動詞の誤りに関連する単語以外にも付与される可能性があるため、「Ｋａｎａ」や「未知語」等の品詞情報が付与された単語を含む動詞部分や、「Ｋａｎａ」や「未知語」等の品詞情報が付与された単語の直前の品詞が動詞の単語などを閉じた誤り個所として検出するようにしてもよい。

次に、第１の実施の形態に係る動詞誤り検出装置１０の作用について説明する。動詞誤り検出装置１０に形態素解析済みの対象文章（テキストデータ）が入力されると、動詞誤り検出装置１０において、図２に示す動詞誤り検出処理ルーチンが実行される。

まず、ステップ１００で、閉じた誤り検出部１２が、入力された形態素解析済みの対象文章を受け付ける。ここでは、例えば、上述の例文１を形態素解析した下記の対象文章が入力されるものとする。
旅行／に／｛行く（動詞：自立）｝／た（Ｋａｎａ）
／時／の／写真／を／添付／する

なお、｛｝内が動詞部分である。また、（）内が形態素解析により単語に付与された品詞情報である。本来は各単語に品詞情報が付与されるが、上記の例では、説明の簡単のため、動詞の誤り検出の説明に必要な個所以外の品詞情報は省略している。

次に、ステップ１０２で、閉じた誤り検出部１２が、対象文章から、品詞情報として「Ｋａｎａ」や「未知語」等が付与された単語を閉じた誤りとして検出する。ここでは、「た（Ｋａｎａ）」の個所が閉じた誤りとして検出される。

次に、ステップ１０４で、閉じた誤り検出部１２が、上記ステップ１０２で検出した閉じた誤りに関する動詞誤り情報を出力して、動詞誤り検出処理ルーチンを終了する。動詞誤り情報は、例えば、下記に示すように、入力された対象文書に対して、検出された閉じた誤りの個所を［］で示したものとすることができる。
旅行／に／行く／［た］／時／の／写真／を／添付／する

なお、上記ステップ１０２で、品詞情報が「Ｋａｎａ」や「未知語」等の直前に存在する品詞が動詞の単語を閉じた誤りとして検出する場合には、「た（Ｋａｎａ）」の直前に存在する品詞が動詞の単語「行く」を閉じた誤りとして検出し、下記に示すような動詞誤り情報を出力するようにしてもよい。
旅行／に／［行く］／た／時／の／写真／を／添付／する

以上説明したように、第１の実施の形態に係る動詞誤り検出装置によれば、形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。

次に、第２の実施の形態について説明する。なお、第２の実施の形態に係る動詞誤り検出装置において、第１の実施の形態に係る動詞誤り検出装置１０と同一の構成については、同一符号を付して詳細な説明を省略する。

第２の実施の形態に係る動詞誤り検出装置２１０は、ＣＰＵと、ＲＡＭと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したＲＯＭとを備えたコンピュータで構成されている。また、記憶手段としてＨＤＤを設けてもよい。

動詞誤り検出装置２１０を構成するコンピュータは、機能的には、図３に示すように、閉じた誤り検出部１２と、閉じない誤り検出部１４とを含んだ構成で表すことができる。

閉じない誤り検出部１４は、入力として、閉じた誤り検出部１２による閉じた誤り検出後の対象文章を受け付け、対象文章内の動詞部分について、周辺文脈との統計情報に基づいて、動詞の誤り、特に、閉じない誤りを検出する。

具体的には、まず、対象文章中の品詞が動詞の単語＋活用語（動詞、助動詞等）で表される動詞部分を１単語とみなす。そして、１単語とみなした動詞部分と、その動詞部分の周辺前後Ｎ単語とからなる事例の統計情報２０を用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。統計情報２０の例としては、例えば、動詞部分の１つ前の単語が「旅行」である、動詞部分の１つ前の単語の品詞が「名詞」である等の事例が、大規模文書集合などにおいてどの程度出現するかを定めたものとすることができる。確率は、対象文章中の動詞部分と周辺前後Ｎ単語とからなる事例の出現頻度を統計情報２０から取得し、Ｎｇｒａｍモデルのような生成モデルや、識別モデルを用いて計算する。識別モデルを用いる場合には、動詞部分に含まれる「動詞」を共通に持つものに限る等することで、計算効率を向上させることが可能である。例えば、対象文章中の動詞部分「行った」に対し、「行った」、「行く」、「行ける」等、同じ動詞「行く」を含む動詞部分を対象とした識別モデルを用いることができる。

閉じない誤り検出部１４は、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。また、動詞部分に加え、その動詞部分の周辺前後Ｎ単語も含めた部分を閉じない誤りとして検出してもよい。

次に、第２の実施の形態に係る動詞誤り検出装置２１０の作用について説明する。動詞誤り検出装置２１０に形態素解析済みの対象文章（テキストデータ）が入力されると、動詞誤り検出装置２１０において、図４に示す動詞誤り検出処理ルーチンが実行される。なお、第１の実施の形態における動詞誤り検出処理ルーチン（図２）と同一の処理については、同一符号を付して詳細な説明を省略する。

まず、ステップ１００で、閉じた誤り検出部１２が、入力された形態素解析済みの対象文章を受け付け、次に、ステップ１０２で、閉じた誤り検出部１２が、対象文章から閉じた誤りを検出する。ここでは、例えば、上述の例文２を形態素解析した下記の対象文章が入力され、閉じた誤りは検出されないものとする。
明日／｛行っ（動詞：自立）／た（助動詞）｝／時／の／準備

次に、ステップ２００で、閉じない誤り検出部１４が、閉じた誤り検出後の対象文章を受け付け、対象文章中の動詞部分を１単語とみなす。ここでは、「行っ（行く）」という品詞が動詞の単語と、それに続く品詞が助動詞の単語「た」とで表された動詞部分「行っ／た」を１単語とみなす。そして、１単語とみなした動詞部分と、その動詞部分の周辺前後Ｎ単語とからなる事例の統計情報２０を用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。例えば、閉じない誤り検出部１４は、Ｎ＝１とし、動詞部分とその直前１単語とからなる「明日／行っ／た」という事例の出現頻度を統計情報２０から取得し、生成モデルや識別モデルを用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。そして、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。統計情報２０において、「明日／行っ／た」という事例の出現頻度が低い場合には確率も低くなり、「明日／行っ／た」という文脈は不自然であることを示すことになるため、閉じない誤りとして検出される。

次に、ステップ２０４で、閉じない誤り検出部１４が、上記ステップ１０２で検出された閉じた誤りに関する動詞誤り情報に、上記ステップ２００で検出した閉じない誤りに関する動詞誤り情報を追加して出力し、動詞誤り検出処理ルーチンを終了する。動詞誤り情報は、例えば、下記に示すように、入力された対象文書に対して、検出された閉じない誤りの個所を［］で示したものとすることができる。
明日／［行っ／た］／時／の／準備

なお、上記ステップ２００で、動詞部分に加え、周辺前後Ｎ単語も含めた部分を閉じない誤りとして検出した場合には、下記に示すような動詞誤り情報を出力するようにしてもよい。
［明日／行っ／た］／時／の／準備

以上説明したように、第２の実施の形態に係る動詞誤り検出装置によれば、第１の実施の形態により検出される閉じた誤りに加え、動詞＋助動詞などの活用語で表される動詞部分を１単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。

なお、第２の実施の形態では、第１の実施の形態に閉じない誤り検出部を追加した構成について説明したが、第１の実施の形態の閉じた誤り検出部に替えて第２の実施の形態の閉じない誤り検出部を設けた構成としてもよい。

次に、第３の実施の形態について説明する。

第３の実施の形態に係る動詞誤り検出装置３１０は、ＣＰＵと、ＲＡＭと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したＲＯＭとを備えたコンピュータで構成されている。また、記憶手段としてＨＤＤを設けてもよい。

動詞誤り検出装置３１０を構成するコンピュータは、機能的には、図５に示すように、閉じない誤り検出部３１４を含んだ構成で表すことができる。

閉じない誤り検出部３１４は、第２の実施の形態における閉じない誤り検出部１４と同様に、対象文章中の動詞部分を１単語とみなし、その動詞部分と周辺前後Ｎ単語とからなる事例の統計情報を用いて、周辺文脈における動詞部分の自然さを確率で計算する。なお、動詞部分を１単語とみなしてまとめてしまうことにより、統計情報内のデータが疎になる恐れがあるため、第３の実施の形態では、動詞部分とその周辺前後Ｎ単語とからなる事例に対して、品詞によるクラスタリングや、自動クラスタリングを行った統計情報３２０を用いる。

従って、閉じない誤り検出部３１４は、対象文書中の動詞部分とその周辺前後Ｎ単語とからなる事例が、統計情報３２０内のいずれのクラスタに属するかを判別し、そのクラスタの出現頻度を取得して、周辺文脈における動詞部分の自然さを示す確率を計算する。

次に、第３の実施の形態に係る動詞誤り検出装置３１０の作用について説明する。動詞誤り検出装置３１０に形態素解析済みの対象文章（テキストデータ）が入力されると、動詞誤り検出装置３１０において、図６に示す動詞誤り検出処理ルーチンが実行される。なお、第１の実施の形態における動詞誤り検出処理ルーチン（図２）と同一の処理については、同一符号を付して詳細な説明を省略する。

まず、ステップ１００で、閉じない誤り検出部１２が、対象文章を受け付け、次に、ステップ３００で、閉じない誤り検出部３１４が、対象文章中の動詞部分を１単語とみなし、動詞部分とその周辺前後Ｎ単語とからなる事例が統計情報３２０内のいずれのクラスタに属するかを判別し、そのクラスタの出現頻度を取得して、周辺文脈における動詞部分の自然さを示す確率を計算する。そして、閉じない誤り検出部３１４が、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。

次に、ステップ３０４で、閉じない誤り検出部３１４が、上記ステップ３００で検出した閉じない誤りに関する動詞誤り情報を出力して、動詞誤り検出処理ルーチンを終了する。

以上説明したように、第３の実施の形態に係る動詞誤り検出装置によれば、閉じない誤りを検出する際に、動詞部分とその周辺前後Ｎ単語とからなる事例をクラスタリングした統計情報を用いるため、動詞部分を１単語とみなすことにより統計情報が疎になることを回避して、日本語の文章中の誤った動詞を精度良く検出することができる。

なお、第３の実施の形態では、クラスタリングされた統計情報を用いる閉じない誤り検出部のみの構成について説明したが、第２の実施の形態における閉じない誤り検出部に替えて、第３の実施の形態における閉じない誤り検出部を設けた構成としてもよい。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記の各実施の形態では、形態素解析済みの対象文章が入力される場合について説明したが、形態素解析が未処理の対象文章を入力してもよい。この場合、第１及び第２の実施の形態では閉じた誤り検出部の前に、第３の実施の形態では閉じない誤り検出部の前に、入力された対象文章を形態素解析する形態素解析部を設けるとよい。

また、上述の動詞誤り検出装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。

１０、２１０、３１０動詞誤り検出装置
１２閉じた誤り検出部
１４、３１４閉じない誤り検出部
２０、３２０統計情報

上記目的を達成するために、第１の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞が動詞の単語に続く単語であって、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、前記動詞部分の誤りを示す閉じた誤りとして検出する閉じた誤り検出部を含んで構成されている。

第１の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じた誤り検出部が、入力された文章において、品詞が動詞の単語に続く単語であって、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、動詞部分の誤りを示す閉じた誤りとして検出する。閉じた誤りとは、品詞が不明であることを示す情報が付与された単語の周辺に、動詞活用の誤りが存在することを示すものである。

また、第１の発明に係る動詞誤り検出装置は、さらに、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出部を含んで構成することができる。閉じない誤りとは、動詞部分自体に誤りはないが、周辺単語との関係で動詞活用の誤りが存在することを示すものである。これにより、閉じた誤りに加え、動詞部分を１単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。

また、第２の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出部を含んで構成されている。

第２の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じない誤り検出部が、入力された文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、動詞部分と動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する。

また、第１及び第２の発明において、前記閉じない誤り検出部は、前記出現頻度として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングしたクラスタの出現頻度を用いることができる。これにより、動詞部分を１単語とみなすことにより統計情報が疎になることを回避して、日本語の文章中の誤った動詞を精度良く検出することができる。

また、第３の発明に係る動詞誤り検出方法は、閉じた誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じた誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞が動詞の単語に続く単語であって、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、前記動詞部分の誤りを示す閉じた誤りとして検出する閉じた誤りステップを含む方法である。

また、第３の発明に係る動詞誤り検出方法は、閉じない誤り検出部をさらに含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出ステップを含むことができる。

また、第４の発明に係る動詞誤り検出方法は、閉じない誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出ステップを含む方法である。

また、第３及び第４の発明に係る動詞誤り検出方法の前記閉じない誤り検出ステップにおいて、前記閉じない誤り検出部が、前記出現頻度として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングしたクラスタの出現頻度を用いることができる。

Claims

単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する閉じた誤り検出部
を含む動詞誤り検出装置。
前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出部
を含む請求項１記載の動詞誤り検出装置。
単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出部
を含む動詞誤り検出装置。
前記閉じない誤り検出部は、前記統計情報として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングした統計情報を用いる請求項２または請求項３記載の動詞誤り検出装置。
閉じた誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、
前記閉じた誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する閉じた誤り検出ステップ
を含む動詞誤り検出方法。
閉じない誤り検出部をさらに含む動詞誤り検出装置における動詞誤り検出方法であって、
前記閉じない誤り検出部が、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出ステップ
を含む請求項５記載の動詞誤り検出方法。
閉じない誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、
前記閉じない誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を１単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出ステップ
を含む動詞誤り検出方法。
前記閉じない誤り検出ステップにおいて、前記閉じない誤り検出部が、前記統計情報として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングした統計情報を用いる請求項６または請求項７記載の動詞誤り検出方法。
コンピュータを、請求項１〜請求項４のいずれか１項記載の動詞誤り検出装置を構成する各部として機能させるための動詞誤り検出プログラム。