JP2014126927A - 動詞誤り検出装置、方法、及びプログラム - Google Patents
動詞誤り検出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014126927A JP2014126927A JP2012281376A JP2012281376A JP2014126927A JP 2014126927 A JP2014126927 A JP 2014126927A JP 2012281376 A JP2012281376 A JP 2012281376A JP 2012281376 A JP2012281376 A JP 2012281376A JP 2014126927 A JP2014126927 A JP 2014126927A
- Authority
- JP
- Japan
- Prior art keywords
- verb
- word
- error detection
- error
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】日本語の文章中の誤った動詞を精度良く検出する。
【解決手段】閉じた誤り検出部12が、動詞の誤りを検出する処理対象の形態素解析済みの文章である対象文章を受け付け、形態素解析において品詞が不明であることを示す品詞情報が付与された単語またはその周辺単語を、周辺に動詞活用の誤りが存在することを示す閉じた誤りとして検出する。閉じない誤り検出部14が、対象文章中の動詞+助動詞などの活用語で表される動詞部分を1単語とみなし、動詞部分とその周辺前後N単語とからなる事例の統計情報20を用いて、周辺文脈における動詞部分の自然さを示す確率を計算し、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。
【選択図】図3
【解決手段】閉じた誤り検出部12が、動詞の誤りを検出する処理対象の形態素解析済みの文章である対象文章を受け付け、形態素解析において品詞が不明であることを示す品詞情報が付与された単語またはその周辺単語を、周辺に動詞活用の誤りが存在することを示す閉じた誤りとして検出する。閉じない誤り検出部14が、対象文章中の動詞+助動詞などの活用語で表される動詞部分を1単語とみなし、動詞部分とその周辺前後N単語とからなる事例の統計情報20を用いて、周辺文脈における動詞部分の自然さを示す確率を計算し、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。
【選択図】図3
Description
本発明は、動詞誤り検出装置、方法、及びプログラムに係り、特に、日本語の文章中に現れる動詞の誤りを検出する動詞誤り検出装置、方法、及びプログラムに関する。
従来、日本語の文章中に現れる格助詞を識別する技術が提案されている。例えば、「以下は旅行に行った時の写真を添付する」という自然でない日本語の文章から、「は」という誤った格助詞を検出したり、誤った格助詞「は」を正解の格助詞「に」に訂正したりする技術である(例えば、非特許文献1及び2参照)。
鈴木久美、Kristina Toutanova、「機械学習による日本語格助詞の予測」、言語処理学会第12回年次大会 (2006)
Na-raeHan, Joel Tetreault, Soo-hwaLee, Jin-young Ha, "Using an Error-Annotated Learner Corpus to Develop an ESL / EFL Error Correction System", LREC 2010
ここで、以下の例文1及び2を参照して、文章中の動詞の誤りとして、動詞+助動詞などの活用語で表される動詞部分が誤っているもの(以下、「閉じた誤り」ともいう)と、動詞部分だけ見ると誤っていないが、周辺文脈との関係を考慮すると誤っているもの(以下、「閉じない誤り」ともいう)とに対応する場合について考える。
例文1:旅行に行くた時の写真を添付する
例文2:明日行った時の準備
この場合、例文1からは、「行くた」という閉じた誤りを検出し、例文2からは、「明日行った」という閉じない誤りを検出したい。
例文1:旅行に行くた時の写真を添付する
例文2:明日行った時の準備
この場合、例文1からは、「行くた」という閉じた誤りを検出し、例文2からは、「明日行った」という閉じない誤りを検出したい。
非特許文献1及び2に記載の手法では、格助詞の識別に焦点が絞られており、動詞の誤り検出は実現していない。非特許文献1及び2に記載の手法のような格助詞の識別と同じ枠組みを、動詞の誤り検出に適用することも考えられるが、文章中に動詞の誤りが存在する場合には、その文章の形態素解析自体に失敗する場合があり、格助詞の識別と同じ枠組みを動詞の誤り検出に適用することができない場合がある、という問題がある。例えば、例文1の「行くた」の部分が「行く(動詞)/た(過去形を表す助動詞)」と形態素解析される保証も妥当性もない。
また、対象単語の周辺文脈との関係を考慮する素性として、対象単語のNgramを用いる手法が存在するが、動詞部分を動詞とその動詞に続く活用語とに細分化した形態素解析結果を用いた場合には、各単語のNgramも細分化され、Ngramに含まれる大部分が動詞部分に取られてしまい、動詞と周辺文脈との関係性を十分に捉えることができない場合がある、という問題がある。
本発明は上記事実を考慮して成されたもので、日本語の文章中の誤った動詞を精度良く検出することができる動詞誤り検出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する閉じた誤り検出部を含んで構成されている。
第1の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じた誤り検出部が、入力された文章において、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する。閉じた誤りとは、品詞が不明であることを示す情報が付与された単語の周辺に、動詞活用の誤りが存在することを示すものである。
このように、品詞が不明であることを示す情報が付与された単語、すなわち形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第1の発明に係る動詞誤り検出装置は、さらに、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出部を含んで構成することができる。閉じない誤りとは、動詞部分自体に誤りはないが、周辺単語との関係で動詞活用の誤りが存在することを示すものである。これにより、閉じた誤りに加え、動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第2の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出部を含んで構成されている。
第2の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じない誤り検出部が、入力された文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、動詞部分と動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する。
このように、動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第1及び第2の発明において、前記閉じない誤り検出部は、前記統計情報として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングした統計情報を用いることができる。これにより、動詞部分を1単語とみなすことにより統計情報が疎になることを回避して、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第3の発明に係る動詞誤り検出方法は、閉じた誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じた誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する閉じた誤りステップを含む方法である。
また、第3の発明に係る動詞誤り検出方法は、閉じない誤り検出部をさらに含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出ステップを含むことができる。
また、第4の発明に係る動詞誤り検出方法は、閉じない誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出ステップを含む方法である。
また、第3及び第4の発明に係る動詞誤り検出方法の前記閉じない誤り検出ステップにおいて、前記閉じない誤り検出部が、前記統計情報として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングした統計情報を用いることができる。
また、第5の発明に係る動詞誤り検出プログラムは、コンピュータを、上記の動詞誤り検出装置を構成する各部として機能させるためのプログラムである。
本発明の動詞誤り検出装置、方法、及びプログラムによれば、品詞が不明であることを示す情報が付与された単語、すなわち形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、また、動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる、という効果を有する。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
第1の実施の形態に係る動詞誤り検出装置10は、CPUと、RAMと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
動詞誤り検出装置10を構成するコンピュータは、機能的には、図1に示すように、閉じた誤り検出部12を含んだ構成で表すことができる。
閉じた誤り検出部12は、入力として、動詞の誤りを検出する処理対象の形態素解析済みの文章である対象文章を受け付ける。形態素解析により、対象文章は、単語毎に分割され、各単語に品詞を示す情報が付与されている。なお、品詞が不明な単語には、例えば、「Kana」や「未知語」等の品詞が不明であることを示す品詞情報が付与されている。閉じた誤り検出部12は、この対象文章の形態素解析結果の不自然性を利用して、動詞の誤り、特に、閉じた誤りを検出する。具体的には、形態素解析済みの対象文章において、品詞が不明であることを示す品詞情報が付与された単語、またはこの単語の周辺単語を閉じた誤りとして検出する。
動詞の活用形は動詞に続く単語に応じて定まるため、動詞の活用形と動詞に続く単語の品詞との関係が誤っている場合には形態素解析が失敗する可能性が高い。例えば、動詞「行く」に続く単語が過去形を表す助動詞「た」である場合は、「行く」は「行(動詞語幹)+っ(活用語尾)」という活用形となるはずである。しかし、上記の例文1では、動詞「行く」はこの活用形となっていない。このように、動詞の活用形と動詞に続く単語の品詞との関係が誤っている場合には、形態素解析において、動詞に続く単語(ひらがな1文字)に、例えば、「Kana」や「未知語」等の品詞情報が付与されるため、これらの品詞情報を手掛かりに閉じた誤りを検出するものである。
なお、「Kana」や「未知語」等の品詞情報は、動詞の誤りに関連する単語以外にも付与される可能性があるため、「Kana」や「未知語」等の品詞情報が付与された単語を含む動詞部分や、「Kana」や「未知語」等の品詞情報が付与された単語の直前の品詞が動詞の単語などを閉じた誤り個所として検出するようにしてもよい。
次に、第1の実施の形態に係る動詞誤り検出装置10の作用について説明する。動詞誤り検出装置10に形態素解析済みの対象文章(テキストデータ)が入力されると、動詞誤り検出装置10において、図2に示す動詞誤り検出処理ルーチンが実行される。
まず、ステップ100で、閉じた誤り検出部12が、入力された形態素解析済みの対象文章を受け付ける。ここでは、例えば、上述の例文1を形態素解析した下記の対象文章が入力されるものとする。
旅行/に/{行く(動詞:自立)}/た(Kana)
/時/の/写真/を/添付/する
旅行/に/{行く(動詞:自立)}/た(Kana)
/時/の/写真/を/添付/する
なお、{ }内が動詞部分である。また、( )内が形態素解析により単語に付与された品詞情報である。本来は各単語に品詞情報が付与されるが、上記の例では、説明の簡単のため、動詞の誤り検出の説明に必要な個所以外の品詞情報は省略している。
次に、ステップ102で、閉じた誤り検出部12が、対象文章から、品詞情報として「Kana」や「未知語」等が付与された単語を閉じた誤りとして検出する。ここでは、「た(Kana)」の個所が閉じた誤りとして検出される。
次に、ステップ104で、閉じた誤り検出部12が、上記ステップ102で検出した閉じた誤りに関する動詞誤り情報を出力して、動詞誤り検出処理ルーチンを終了する。動詞誤り情報は、例えば、下記に示すように、入力された対象文書に対して、検出された閉じた誤りの個所を[ ]で示したものとすることができる。
旅行/に/行く/[た]/時/の/写真/を/添付/する
旅行/に/行く/[た]/時/の/写真/を/添付/する
なお、上記ステップ102で、品詞情報が「Kana」や「未知語」等の直前に存在する品詞が動詞の単語を閉じた誤りとして検出する場合には、「た(Kana)」の直前に存在する品詞が動詞の単語「行く」を閉じた誤りとして検出し、下記に示すような動詞誤り情報を出力するようにしてもよい。
旅行/に/[行く]/た/時/の/写真/を/添付/する
旅行/に/[行く]/た/時/の/写真/を/添付/する
以上説明したように、第1の実施の形態に係る動詞誤り検出装置によれば、形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る動詞誤り検出装置において、第1の実施の形態に係る動詞誤り検出装置10と同一の構成については、同一符号を付して詳細な説明を省略する。
第2の実施の形態に係る動詞誤り検出装置210は、CPUと、RAMと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
動詞誤り検出装置210を構成するコンピュータは、機能的には、図3に示すように、閉じた誤り検出部12と、閉じない誤り検出部14とを含んだ構成で表すことができる。
閉じない誤り検出部14は、入力として、閉じた誤り検出部12による閉じた誤り検出後の対象文章を受け付け、対象文章内の動詞部分について、周辺文脈との統計情報に基づいて、動詞の誤り、特に、閉じない誤りを検出する。
具体的には、まず、対象文章中の品詞が動詞の単語+活用語(動詞、助動詞等)で表される動詞部分を1単語とみなす。そして、1単語とみなした動詞部分と、その動詞部分の周辺前後N単語とからなる事例の統計情報20を用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。統計情報20の例としては、例えば、動詞部分の1つ前の単語が「旅行」である、動詞部分の1つ前の単語の品詞が「名詞」である等の事例が、大規模文書集合などにおいてどの程度出現するかを定めたものとすることができる。確率は、対象文章中の動詞部分と周辺前後N単語とからなる事例の出現頻度を統計情報20から取得し、Ngramモデルのような生成モデルや、識別モデルを用いて計算する。識別モデルを用いる場合には、動詞部分に含まれる「動詞」を共通に持つものに限る等することで、計算効率を向上させることが可能である。例えば、対象文章中の動詞部分「行った」に対し、「行った」、「行く」、「行ける」等、同じ動詞「行く」を含む動詞部分を対象とした識別モデルを用いることができる。
閉じない誤り検出部14は、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。また、動詞部分に加え、その動詞部分の周辺前後N単語も含めた部分を閉じない誤りとして検出してもよい。
次に、第2の実施の形態に係る動詞誤り検出装置210の作用について説明する。動詞誤り検出装置210に形態素解析済みの対象文章(テキストデータ)が入力されると、動詞誤り検出装置210において、図4に示す動詞誤り検出処理ルーチンが実行される。なお、第1の実施の形態における動詞誤り検出処理ルーチン(図2)と同一の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップ100で、閉じた誤り検出部12が、入力された形態素解析済みの対象文章を受け付け、次に、ステップ102で、閉じた誤り検出部12が、対象文章から閉じた誤りを検出する。ここでは、例えば、上述の例文2を形態素解析した下記の対象文章が入力され、閉じた誤りは検出されないものとする。
明日/{行っ(動詞:自立)/た(助動詞)}/時/の/準備
明日/{行っ(動詞:自立)/た(助動詞)}/時/の/準備
次に、ステップ200で、閉じない誤り検出部14が、閉じた誤り検出後の対象文章を受け付け、対象文章中の動詞部分を1単語とみなす。ここでは、「行っ(行く)」という品詞が動詞の単語と、それに続く品詞が助動詞の単語「た」とで表された動詞部分「行っ/た」を1単語とみなす。そして、1単語とみなした動詞部分と、その動詞部分の周辺前後N単語とからなる事例の統計情報20を用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。例えば、閉じない誤り検出部14は、N=1とし、動詞部分とその直前1単語とからなる「明日/行っ/た」という事例の出現頻度を統計情報20から取得し、生成モデルや識別モデルを用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。そして、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。統計情報20において、「明日/行っ/た」という事例の出現頻度が低い場合には確率も低くなり、「明日/行っ/た」という文脈は不自然であることを示すことになるため、閉じない誤りとして検出される。
次に、ステップ204で、閉じない誤り検出部14が、上記ステップ102で検出された閉じた誤りに関する動詞誤り情報に、上記ステップ200で検出した閉じない誤りに関する動詞誤り情報を追加して出力し、動詞誤り検出処理ルーチンを終了する。動詞誤り情報は、例えば、下記に示すように、入力された対象文書に対して、検出された閉じない誤りの個所を[ ]で示したものとすることができる。
明日/[行っ/た]/時/の/準備
明日/[行っ/た]/時/の/準備
なお、上記ステップ200で、動詞部分に加え、周辺前後N単語も含めた部分を閉じない誤りとして検出した場合には、下記に示すような動詞誤り情報を出力するようにしてもよい。
[明日/行っ/た]/時/の/準備
[明日/行っ/た]/時/の/準備
以上説明したように、第2の実施の形態に係る動詞誤り検出装置によれば、第1の実施の形態により検出される閉じた誤りに加え、動詞+助動詞などの活用語で表される動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
なお、第2の実施の形態では、第1の実施の形態に閉じない誤り検出部を追加した構成について説明したが、第1の実施の形態の閉じた誤り検出部に替えて第2の実施の形態の閉じない誤り検出部を設けた構成としてもよい。
次に、第3の実施の形態について説明する。
第3の実施の形態に係る動詞誤り検出装置310は、CPUと、RAMと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
動詞誤り検出装置310を構成するコンピュータは、機能的には、図5に示すように、閉じない誤り検出部314を含んだ構成で表すことができる。
閉じない誤り検出部314は、第2の実施の形態における閉じない誤り検出部14と同様に、対象文章中の動詞部分を1単語とみなし、その動詞部分と周辺前後N単語とからなる事例の統計情報を用いて、周辺文脈における動詞部分の自然さを確率で計算する。なお、動詞部分を1単語とみなしてまとめてしまうことにより、統計情報内のデータが疎になる恐れがあるため、第3の実施の形態では、動詞部分とその周辺前後N単語とからなる事例に対して、品詞によるクラスタリングや、自動クラスタリングを行った統計情報320を用いる。
従って、閉じない誤り検出部314は、対象文書中の動詞部分とその周辺前後N単語とからなる事例が、統計情報320内のいずれのクラスタに属するかを判別し、そのクラスタの出現頻度を取得して、周辺文脈における動詞部分の自然さを示す確率を計算する。
次に、第3の実施の形態に係る動詞誤り検出装置310の作用について説明する。動詞誤り検出装置310に形態素解析済みの対象文章(テキストデータ)が入力されると、動詞誤り検出装置310において、図6に示す動詞誤り検出処理ルーチンが実行される。なお、第1の実施の形態における動詞誤り検出処理ルーチン(図2)と同一の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップ100で、閉じない誤り検出部12が、対象文章を受け付け、次に、ステップ300で、閉じない誤り検出部314が、対象文章中の動詞部分を1単語とみなし、動詞部分とその周辺前後N単語とからなる事例が統計情報320内のいずれのクラスタに属するかを判別し、そのクラスタの出現頻度を取得して、周辺文脈における動詞部分の自然さを示す確率を計算する。そして、閉じない誤り検出部314が、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。
次に、ステップ304で、閉じない誤り検出部314が、上記ステップ300で検出した閉じない誤りに関する動詞誤り情報を出力して、動詞誤り検出処理ルーチンを終了する。
以上説明したように、第3の実施の形態に係る動詞誤り検出装置によれば、閉じない誤りを検出する際に、動詞部分とその周辺前後N単語とからなる事例をクラスタリングした統計情報を用いるため、動詞部分を1単語とみなすことにより統計情報が疎になることを回避して、日本語の文章中の誤った動詞を精度良く検出することができる。
なお、第3の実施の形態では、クラスタリングされた統計情報を用いる閉じない誤り検出部のみの構成について説明したが、第2の実施の形態における閉じない誤り検出部に替えて、第3の実施の形態における閉じない誤り検出部を設けた構成としてもよい。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の各実施の形態では、形態素解析済みの対象文章が入力される場合について説明したが、形態素解析が未処理の対象文章を入力してもよい。この場合、第1及び第2の実施の形態では閉じた誤り検出部の前に、第3の実施の形態では閉じない誤り検出部の前に、入力された対象文章を形態素解析する形態素解析部を設けるとよい。
また、上述の動詞誤り検出装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
10、210、310 動詞誤り検出装置
12 閉じた誤り検出部
14、314 閉じない誤り検出部
20、320 統計情報
12 閉じた誤り検出部
14、314 閉じない誤り検出部
20、320 統計情報
上記目的を達成するために、第1の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞が動詞の単語に続く単語であって、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、前記動詞部分の誤りを示す閉じた誤りとして検出する閉じた誤り検出部を含んで構成されている。
第1の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じた誤り検出部が、入力された文章において、品詞が動詞の単語に続く単語であって、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、動詞部分の誤りを示す閉じた誤りとして検出する。閉じた誤りとは、品詞が不明であることを示す情報が付与された単語の周辺に、動詞活用の誤りが存在することを示すものである。
また、第1の発明に係る動詞誤り検出装置は、さらに、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出部を含んで構成することができる。閉じない誤りとは、動詞部分自体に誤りはないが、周辺単語との関係で動詞活用の誤りが存在することを示すものである。これにより、閉じた誤りに加え、動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第2の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出部を含んで構成されている。
第2の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じない誤り検出部が、入力された文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、動詞部分と動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する。
また、第1及び第2の発明において、前記閉じない誤り検出部は、前記出現頻度として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングしたクラスタの出現頻度を用いることができる。これにより、動詞部分を1単語とみなすことにより統計情報が疎になることを回避して、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第3の発明に係る動詞誤り検出方法は、閉じた誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じた誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞が動詞の単語に続く単語であって、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、前記動詞部分の誤りを示す閉じた誤りとして検出する閉じた誤りステップを含む方法である。
また、第3の発明に係る動詞誤り検出方法は、閉じない誤り検出部をさらに含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出ステップを含むことができる。
また、第4の発明に係る動詞誤り検出方法は、閉じない誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出ステップを含む方法である。
また、第3及び第4の発明に係る動詞誤り検出方法の前記閉じない誤り検出ステップにおいて、前記閉じない誤り検出部が、前記出現頻度として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングしたクラスタの出現頻度を用いることができる。
Claims (9)
- 単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する閉じた誤り検出部
を含む動詞誤り検出装置。 - 前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出部
を含む請求項1記載の動詞誤り検出装置。 - 単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出部
を含む動詞誤り検出装置。 - 前記閉じない誤り検出部は、前記統計情報として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングした統計情報を用いる請求項2または請求項3記載の動詞誤り検出装置。
- 閉じた誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、
前記閉じた誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を閉じた誤りとして検出する閉じた誤り検出ステップ
を含む動詞誤り検出方法。 - 閉じない誤り検出部をさらに含む動詞誤り検出装置における動詞誤り検出方法であって、
前記閉じない誤り検出部が、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出ステップ
を含む請求項5記載の動詞誤り検出方法。 - 閉じない誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、
前記閉じない誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の統計情報に基づいて得られ、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を閉じない誤りとして検出する閉じない誤り検出ステップ
を含む動詞誤り検出方法。 - 前記閉じない誤り検出ステップにおいて、前記閉じない誤り検出部が、前記統計情報として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングした統計情報を用いる請求項6または請求項7記載の動詞誤り検出方法。
- コンピュータを、請求項1〜請求項4のいずれか1項記載の動詞誤り検出装置を構成する各部として機能させるための動詞誤り検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012281376A JP5548252B2 (ja) | 2012-12-25 | 2012-12-25 | 動詞誤り検出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012281376A JP5548252B2 (ja) | 2012-12-25 | 2012-12-25 | 動詞誤り検出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014126927A true JP2014126927A (ja) | 2014-07-07 |
JP5548252B2 JP5548252B2 (ja) | 2014-07-16 |
Family
ID=51406395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012281376A Active JP5548252B2 (ja) | 2012-12-25 | 2012-12-25 | 動詞誤り検出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5548252B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61208164A (ja) * | 1985-03-12 | 1986-09-16 | Agency Of Ind Science & Technol | 日本語文章校正装置の表示方式 |
JPH11134335A (ja) * | 1997-10-30 | 1999-05-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 文字誤り校正装置 |
JP2004005641A (ja) * | 2002-05-22 | 2004-01-08 | Sharp Corp | 単語の使用を訂正または改善させる方法および装置 |
-
2012
- 2012-12-25 JP JP2012281376A patent/JP5548252B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61208164A (ja) * | 1985-03-12 | 1986-09-16 | Agency Of Ind Science & Technol | 日本語文章校正装置の表示方式 |
JPH11134335A (ja) * | 1997-10-30 | 1999-05-21 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 文字誤り校正装置 |
JP2004005641A (ja) * | 2002-05-22 | 2004-01-08 | Sharp Corp | 単語の使用を訂正または改善させる方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5548252B2 (ja) | 2014-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
Tajiri et al. | Tense and aspect error correction for ESL learners using global context | |
US10762293B2 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
Qian et al. | Disfluency detection using multi-step stacked learning | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
US8639496B2 (en) | System and method for identifying phrases in text | |
WO2012165529A1 (ja) | 言語モデル構築支援装置、方法及びプログラム | |
US11074406B2 (en) | Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor | |
KR100911834B1 (ko) | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
US20220284188A1 (en) | Machine based expansion of contractions in text in digital media | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
JP5766152B2 (ja) | 言語モデル生成装置、その方法及びプログラム | |
US10354646B2 (en) | Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP5548252B2 (ja) | 動詞誤り検出装置、方法、及びプログラム | |
JP4878220B2 (ja) | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 | |
JP2013134753A (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP2010257021A (ja) | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム | |
US20140074475A1 (en) | Speech recognition result shaping apparatus, speech recognition result shaping method, and non-transitory storage medium storing program | |
JP2017059216A (ja) | クエリ校正システムおよび方法 | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
JP4933118B2 (ja) | 文章区間抽出装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140516 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5548252 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |