JP5548252B2 - 動詞誤り検出装置、方法、及びプログラム - Google Patents

動詞誤り検出装置、方法、及びプログラム Download PDF

Info

Publication number
JP5548252B2
JP5548252B2 JP2012281376A JP2012281376A JP5548252B2 JP 5548252 B2 JP5548252 B2 JP 5548252B2 JP 2012281376 A JP2012281376 A JP 2012281376A JP 2012281376 A JP2012281376 A JP 2012281376A JP 5548252 B2 JP5548252 B2 JP 5548252B2
Authority
JP
Japan
Prior art keywords
verb
error
word
error detection
closed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012281376A
Other languages
English (en)
Other versions
JP2014126927A (ja
Inventor
九月 貞光
邦子 齋藤
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012281376A priority Critical patent/JP5548252B2/ja
Publication of JP2014126927A publication Critical patent/JP2014126927A/ja
Application granted granted Critical
Publication of JP5548252B2 publication Critical patent/JP5548252B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

本発明は、動詞誤り検出装置、方法、及びプログラムに係り、特に、日本語の文章中に現れる動詞の誤りを検出する動詞誤り検出装置、方法、及びプログラムに関する。
従来、日本語の文章中に現れる格助詞を識別する技術が提案されている。例えば、「以下は旅行に行った時の写真を添付する」という自然でない日本語の文章から、「は」という誤った格助詞を検出したり、誤った格助詞「は」を正解の格助詞「に」に訂正したりする技術である(例えば、非特許文献1及び2参照)。
鈴木久美、Kristina Toutanova、「機械学習による日本語格助詞の予測」、言語処理学会第12回年次大会 (2006) Na-raeHan, Joel Tetreault, Soo-hwaLee, Jin-young Ha, "Using an Error-Annotated Learner Corpus to Develop an ESL / EFL Error Correction System", LREC 2010
ここで、以下の例文1及び2を参照して、文章中の動詞の誤りとして、動詞+助動詞などの活用語で表される動詞部分が誤っているもの(以下、「閉じた誤り」ともいう)と、動詞部分だけ見ると誤っていないが、周辺文脈との関係を考慮すると誤っているもの(以下、「閉じない誤り」ともいう)とに対応する場合について考える。
例文1:旅行に行くた時の写真を添付する
例文2:明日行った時の準備
この場合、例文1からは、「行くた」という閉じた誤りを検出し、例文2からは、「明日行った」という閉じない誤りを検出したい。
非特許文献1及び2に記載の手法では、格助詞の識別に焦点が絞られており、動詞の誤り検出は実現していない。非特許文献1及び2に記載の手法のような格助詞の識別と同じ枠組みを、動詞の誤り検出に適用することも考えられるが、文章中に動詞の誤りが存在する場合には、その文章の形態素解析自体に失敗する場合があり、格助詞の識別と同じ枠組みを動詞の誤り検出に適用することができない場合がある、という問題がある。例えば、例文1の「行くた」の部分が「行く(動詞)/た(過去形を表す助動詞)」と形態素解析される保証も妥当性もない。
また、対象単語の周辺文脈との関係を考慮する素性として、対象単語のNgramを用いる手法が存在するが、動詞部分を動詞とその動詞に続く活用語とに細分化した形態素解析結果を用いた場合には、各単語のNgramも細分化され、Ngramに含まれる大部分が動詞部分に取られてしまい、動詞と周辺文脈との関係性を十分に捉えることができない場合がある、という問題がある。
本発明は上記事実を考慮して成されたもので、日本語の文章中の誤った動詞を精度良く検出することができる動詞誤り検出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞が動詞の単語に続く単語であって、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、前記動詞部分の誤りを示す閉じた誤りとして検出する閉じた誤り検出部を含んで構成されている。
第1の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じた誤り検出部が、入力された文章において、品詞が動詞の単語に続く単語であって、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、動詞部分の誤りを示す閉じた誤りとして検出する。閉じた誤りとは、品詞が不明であることを示す情報が付与された単語の周辺に、動詞活用の誤りが存在することを示すものである。
このように、品詞が不明であることを示す情報が付与された単語、すなわち形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第1の発明に係る動詞誤り検出装置は、さらに、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出部を含んで構成することができる。閉じない誤りとは、動詞部分自体に誤りはないが、周辺単語との関係で動詞活用の誤りが存在することを示すものである。これにより、閉じた誤りに加え、動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第2の発明に係る動詞誤り検出装置は、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出部を含んで構成されている。
第2の発明に係る動詞誤り検出装置によれば、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章を入力として受け付ける。そして、閉じない誤り検出部が、入力された文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、動詞部分と動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する。
このように、動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第1及び第2の発明において、前記閉じない誤り検出部は、前記出現頻度として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングしたクラスタの出現頻度を用いることができる。これにより、動詞部分を1単語とみなすことにより統計情報が疎になることを回避して、日本語の文章中の誤った動詞を精度良く検出することができる。
また、第3の発明に係る動詞誤り検出方法は、閉じた誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じた誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章において、品詞が動詞の単語に続く単語であって、品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、前記動詞部分の誤りを示す閉じた誤りとして検出する閉じた誤りステップを含む方法である。
また、第3の発明に係る動詞誤り検出方法は、閉じない誤り検出部をさらに含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、前記文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出ステップを含むことができる。
また、第4の発明に係る動詞誤り検出方法は、閉じない誤り検出部を含む動詞誤り検出装置における動詞誤り検出方法であって、前記閉じない誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出ステップを含む方法である。
また、第3及び第4の発明に係る動詞誤り検出方法の前記閉じない誤り検出ステップにおいて、前記閉じない誤り検出部が、前記出現頻度として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングしたクラスタの出現頻度を用いることができる。
また、第5の発明に係る動詞誤り検出プログラムは、コンピュータを、上記の動詞誤り検出装置を構成する各部として機能させるためのプログラムである。
本発明の動詞誤り検出装置、方法、及びプログラムによれば、品詞が不明であることを示す情報が付与された単語、すなわち形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、また、動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる、という効果を有する。
第1の実施の形態に係る動詞誤り検出装置の機能的構成を示すブロック図である。 第1の実施の形態における動詞誤り検出処理ルーチンを示すフローチャートである。 第2の実施の形態に係る動詞誤り検出装置の機能的構成を示すブロック図である。 第2の実施の形態における動詞誤り検出処理ルーチンを示すフローチャートである。 第3の実施の形態に係る動詞誤り検出装置の機能的構成を示すブロック図である。 第3の実施の形態における動詞誤り検出処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
第1の実施の形態に係る動詞誤り検出装置10は、CPUと、RAMと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
動詞誤り検出装置10を構成するコンピュータは、機能的には、図1に示すように、閉じた誤り検出部12を含んだ構成で表すことができる。
閉じた誤り検出部12は、入力として、動詞の誤りを検出する処理対象の形態素解析済みの文章である対象文章を受け付ける。形態素解析により、対象文章は、単語毎に分割され、各単語に品詞を示す情報が付与されている。なお、品詞が不明な単語には、例えば、「Kana」や「未知語」等の品詞が不明であることを示す品詞情報が付与されている。閉じた誤り検出部12は、この対象文章の形態素解析結果の不自然性を利用して、動詞の誤り、特に、閉じた誤りを検出する。具体的には、形態素解析済みの対象文章において、品詞が不明であることを示す品詞情報が付与された単語、またはこの単語の周辺単語を閉じた誤りとして検出する。
動詞の活用形は動詞に続く単語に応じて定まるため、動詞の活用形と動詞に続く単語の品詞との関係が誤っている場合には形態素解析が失敗する可能性が高い。例えば、動詞「行く」に続く単語が過去形を表す助動詞「た」である場合は、「行く」は「行(動詞語幹)+っ(活用語尾)」という活用形となるはずである。しかし、上記の例文1では、動詞「行く」はこの活用形となっていない。このように、動詞の活用形と動詞に続く単語の品詞との関係が誤っている場合には、形態素解析において、動詞に続く単語(ひらがな1文字)に、例えば、「Kana」や「未知語」等の品詞情報が付与されるため、これらの品詞情報を手掛かりに閉じた誤りを検出するものである。
なお、「Kana」や「未知語」等の品詞情報は、動詞の誤りに関連する単語以外にも付与される可能性があるため、「Kana」や「未知語」等の品詞情報が付与された単語を含む動詞部分や、「Kana」や「未知語」等の品詞情報が付与された単語の直前の品詞が動詞の単語などを閉じた誤り個所として検出するようにしてもよい。
次に、第1の実施の形態に係る動詞誤り検出装置10の作用について説明する。動詞誤り検出装置10に形態素解析済みの対象文章(テキストデータ)が入力されると、動詞誤り検出装置10において、図2に示す動詞誤り検出処理ルーチンが実行される。
まず、ステップ100で、閉じた誤り検出部12が、入力された形態素解析済みの対象文章を受け付ける。ここでは、例えば、上述の例文1を形態素解析した下記の対象文章が入力されるものとする。
旅行/に/{行く(動詞:自立)}/た(Kana)
/時/の/写真/を/添付/する
なお、{ }内が動詞部分である。また、( )内が形態素解析により単語に付与された品詞情報である。本来は各単語に品詞情報が付与されるが、上記の例では、説明の簡単のため、動詞の誤り検出の説明に必要な個所以外の品詞情報は省略している。
次に、ステップ102で、閉じた誤り検出部12が、対象文章から、品詞情報として「Kana」や「未知語」等が付与された単語を閉じた誤りとして検出する。ここでは、「た(Kana)」の個所が閉じた誤りとして検出される。
次に、ステップ104で、閉じた誤り検出部12が、上記ステップ102で検出した閉じた誤りに関する動詞誤り情報を出力して、動詞誤り検出処理ルーチンを終了する。動詞誤り情報は、例えば、下記に示すように、入力された対象文書に対して、検出された閉じた誤りの個所を[ ]で示したものとすることができる。
旅行/に/行く/[た]/時/の/写真/を/添付/する
なお、上記ステップ102で、品詞情報が「Kana」や「未知語」等の直前に存在する品詞が動詞の単語を閉じた誤りとして検出する場合には、「た(Kana)」の直前に存在する品詞が動詞の単語「行く」を閉じた誤りとして検出し、下記に示すような動詞誤り情報を出力するようにしてもよい。
旅行/に/[行く]/た/時/の/写真/を/添付/する
以上説明したように、第1の実施の形態に係る動詞誤り検出装置によれば、形態素解析結果の不自然性に基づいて閉じた誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る動詞誤り検出装置において、第1の実施の形態に係る動詞誤り検出装置10と同一の構成については、同一符号を付して詳細な説明を省略する。
第2の実施の形態に係る動詞誤り検出装置210は、CPUと、RAMと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
動詞誤り検出装置210を構成するコンピュータは、機能的には、図3に示すように、閉じた誤り検出部12と、閉じない誤り検出部14とを含んだ構成で表すことができる。
閉じない誤り検出部14は、入力として、閉じた誤り検出部12による閉じた誤り検出後の対象文章を受け付け、対象文章内の動詞部分について、周辺文脈との統計情報に基づいて、動詞の誤り、特に、閉じない誤りを検出する。
具体的には、まず、対象文章中の品詞が動詞の単語+活用語(動詞、助動詞等)で表される動詞部分を1単語とみなす。そして、1単語とみなした動詞部分と、その動詞部分の周辺前後N単語とからなる事例の統計情報20を用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。統計情報20の例としては、例えば、動詞部分の1つ前の単語が「旅行」である、動詞部分の1つ前の単語の品詞が「名詞」である等の事例が、大規模文書集合などにおいてどの程度出現するかを定めたものとすることができる。確率は、対象文章中の動詞部分と周辺前後N単語とからなる事例の出現頻度を統計情報20から取得し、Ngramモデルのような生成モデルや、識別モデルを用いて計算する。識別モデルを用いる場合には、動詞部分に含まれる「動詞」を共通に持つものに限る等することで、計算効率を向上させることが可能である。例えば、対象文章中の動詞部分「行った」に対し、「行った」、「行く」、「行ける」等、同じ動詞「行く」を含む動詞部分を対象とした識別モデルを用いることができる。
閉じない誤り検出部14は、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。また、動詞部分に加え、その動詞部分の周辺前後N単語も含めた部分を閉じない誤りとして検出してもよい。
次に、第2の実施の形態に係る動詞誤り検出装置210の作用について説明する。動詞誤り検出装置210に形態素解析済みの対象文章(テキストデータ)が入力されると、動詞誤り検出装置210において、図4に示す動詞誤り検出処理ルーチンが実行される。なお、第1の実施の形態における動詞誤り検出処理ルーチン(図2)と同一の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップ100で、閉じた誤り検出部12が、入力された形態素解析済みの対象文章を受け付け、次に、ステップ102で、閉じた誤り検出部12が、対象文章から閉じた誤りを検出する。ここでは、例えば、上述の例文2を形態素解析した下記の対象文章が入力され、閉じた誤りは検出されないものとする。
明日/{行っ(動詞:自立)/た(助動詞)}/時/の/準備
次に、ステップ200で、閉じない誤り検出部14が、閉じた誤り検出後の対象文章を受け付け、対象文章中の動詞部分を1単語とみなす。ここでは、「行っ(行く)」という品詞が動詞の単語と、それに続く品詞が助動詞の単語「た」とで表された動詞部分「行っ/た」を1単語とみなす。そして、1単語とみなした動詞部分と、その動詞部分の周辺前後N単語とからなる事例の統計情報20を用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。例えば、閉じない誤り検出部14は、N=1とし、動詞部分とその直前1単語とからなる「明日/行っ/た」という事例の出現頻度を統計情報20から取得し、生成モデルや識別モデルを用いて、周辺文脈における動詞部分の自然さを示す確率を計算する。そして、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。統計情報20において、「明日/行っ/た」という事例の出現頻度が低い場合には確率も低くなり、「明日/行っ/た」という文脈は不自然であることを示すことになるため、閉じない誤りとして検出される。
次に、ステップ204で、閉じない誤り検出部14が、上記ステップ102で検出された閉じた誤りに関する動詞誤り情報に、上記ステップ200で検出した閉じない誤りに関する動詞誤り情報を追加して出力し、動詞誤り検出処理ルーチンを終了する。動詞誤り情報は、例えば、下記に示すように、入力された対象文書に対して、検出された閉じない誤りの個所を[ ]で示したものとすることができる。
明日/[行っ/た]/時/の/準備
なお、上記ステップ200で、動詞部分に加え、周辺前後N単語も含めた部分を閉じない誤りとして検出した場合には、下記に示すような動詞誤り情報を出力するようにしてもよい。
[明日/行っ/た]/時/の/準備
以上説明したように、第2の実施の形態に係る動詞誤り検出装置によれば、第1の実施の形態により検出される閉じた誤りに加え、動詞+助動詞などの活用語で表される動詞部分を1単語にまとめて周辺文脈における不自然さに基づく閉じない誤りを検出するため、日本語の文章中の誤った動詞を精度良く検出することができる。
なお、第2の実施の形態では、第1の実施の形態に閉じない誤り検出部を追加した構成について説明したが、第1の実施の形態の閉じた誤り検出部に替えて第2の実施の形態の閉じない誤り検出部を設けた構成としてもよい。
次に、第3の実施の形態について説明する。
第3の実施の形態に係る動詞誤り検出装置310は、CPUと、RAMと、後述する動詞誤り検出処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
動詞誤り検出装置310を構成するコンピュータは、機能的には、図5に示すように、閉じない誤り検出部314を含んだ構成で表すことができる。
閉じない誤り検出部314は、第2の実施の形態における閉じない誤り検出部14と同様に、対象文章中の動詞部分を1単語とみなし、その動詞部分と周辺前後N単語とからなる事例の統計情報を用いて、周辺文脈における動詞部分の自然さを確率で計算する。なお、動詞部分を1単語とみなしてまとめてしまうことにより、統計情報内のデータが疎になる恐れがあるため、第3の実施の形態では、動詞部分とその周辺前後N単語とからなる事例に対して、品詞によるクラスタリングや、自動クラスタリングを行った統計情報320を用いる。
従って、閉じない誤り検出部314は、対象文書中の動詞部分とその周辺前後N単語とからなる事例が、統計情報320内のいずれのクラスタに属するかを判別し、そのクラスタの出現頻度を取得して、周辺文脈における動詞部分の自然さを示す確率を計算する。
次に、第3の実施の形態に係る動詞誤り検出装置310の作用について説明する。動詞誤り検出装置310に形態素解析済みの対象文章(テキストデータ)が入力されると、動詞誤り検出装置310において、図6に示す動詞誤り検出処理ルーチンが実行される。なお、第1の実施の形態における動詞誤り検出処理ルーチン(図2)と同一の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップ100で、閉じない誤り検出部12が、対象文章を受け付け、次に、ステップ300で、閉じない誤り検出部314が、対象文章中の動詞部分を1単語とみなし、動詞部分とその周辺前後N単語とからなる事例が統計情報320内のいずれのクラスタに属するかを判別し、そのクラスタの出現頻度を取得して、周辺文脈における動詞部分の自然さを示す確率を計算する。そして、閉じない誤り検出部314が、計算した確率が予め定めた閾値以下となる動詞部分を閉じない誤りとして検出する。
次に、ステップ304で、閉じない誤り検出部314が、上記ステップ300で検出した閉じない誤りに関する動詞誤り情報を出力して、動詞誤り検出処理ルーチンを終了する。
以上説明したように、第3の実施の形態に係る動詞誤り検出装置によれば、閉じない誤りを検出する際に、動詞部分とその周辺前後N単語とからなる事例をクラスタリングした統計情報を用いるため、動詞部分を1単語とみなすことにより統計情報が疎になることを回避して、日本語の文章中の誤った動詞を精度良く検出することができる。
なお、第3の実施の形態では、クラスタリングされた統計情報を用いる閉じない誤り検出部のみの構成について説明したが、第2の実施の形態における閉じない誤り検出部に替えて、第3の実施の形態における閉じない誤り検出部を設けた構成としてもよい。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記の各実施の形態では、形態素解析済みの対象文章が入力される場合について説明したが、形態素解析が未処理の対象文章を入力してもよい。この場合、第1及び第2の実施の形態では閉じた誤り検出部の前に、第3の実施の形態では閉じない誤り検出部の前に、入力された対象文章を形態素解析する形態素解析部を設けるとよい。
また、上述の動詞誤り検出装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
10、210、310 動詞誤り検出装置
12 閉じた誤り検出部
14、314 閉じない誤り検出部
20、320 統計情報

Claims (7)

  1. 単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出部と、
    前記文章に、前記閉じない誤り検出部により検出された閉じない誤りの箇所を示す情報を示して出力する出力部と、
    を含む動詞誤り検出装置。
  2. 前記文章において、品詞が動詞の単語に続く単語であって、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、前記動詞部分の誤りを示す閉じた誤りとして検出する閉じた誤り検出部を含み、
    前記出力部は、さらに、前記文章に、前記閉じた誤り検出部により検出された閉じた誤りの箇所を示す情報を示して出力する
    請求項1記載の動詞誤り検出装置。
  3. 前記閉じない誤り検出部は、前記出現頻度として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングしたクラスタの出現頻度を用いる請求項または請求項記載の動詞誤り検出装置。
  4. 閉じない誤り検出部と、出力部とを含む動詞誤り検出装置における動詞誤り検出方法であって、
    前記閉じない誤り検出部が、単語毎に分割され、少なくとも品詞に関する情報が各単語に付与された形態素解析済みの日本語の文章中の品詞が動詞の単語と該品詞が動詞の単語に続く活用語とからなる動詞部分を1単語とみなし、前記動詞部分と該動詞部分の周辺単語とからなる事例の大規模文書集合における出現頻度が低いほど低くなり、かつ周辺文脈における前記動詞部分の自然さを示す値が、予め定めた閾値より低い動詞部分を、動詞部分自体には誤りはないが、周辺単語との関係で誤りが存在することを示す閉じない誤りとして検出する閉じない誤り検出ステップと、
    前記出力部が、前記文章に、前記閉じない誤り検出部により検出された閉じない誤りの箇所を示す情報を示して出力する出力ステップと、
    を含む動詞誤り検出方法。
  5. 閉じた誤り検出部をさらに含む動詞誤り検出装置における動詞誤り検出方法であって、
    前記閉じた誤り検出部が、前記文章において、品詞が動詞の単語に続く単語であって、前記品詞に関する情報として品詞が不明であることを示す情報が付与された単語、または該単語を含む周辺単語を、前記動詞部分の誤りを示す閉じた誤りとして検出する閉じた誤り検出ステップをさらに含み、
    前記出力ステップにおいて、前記出力部が、さらに、前記文章に、前記閉じた誤り検出部により検出された閉じた誤りの箇所を示す情報を示して出力する
    請求項4記載の動詞誤り検出方法。
  6. 前記閉じない誤り検出ステップにおいて、前記閉じない誤り検出部が、前記出現頻度として、前記動詞部分と該動詞部分の周辺単語とからなる事例をクラスタリングしたクラスタの出現頻度を用いる請求項または請求項記載の動詞誤り検出方法。
  7. コンピュータを、請求項1〜請求項のいずれか1項記載の動詞誤り検出装置を構成する各部として機能させるための動詞誤り検出プログラム。
JP2012281376A 2012-12-25 2012-12-25 動詞誤り検出装置、方法、及びプログラム Active JP5548252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012281376A JP5548252B2 (ja) 2012-12-25 2012-12-25 動詞誤り検出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012281376A JP5548252B2 (ja) 2012-12-25 2012-12-25 動詞誤り検出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014126927A JP2014126927A (ja) 2014-07-07
JP5548252B2 true JP5548252B2 (ja) 2014-07-16

Family

ID=51406395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012281376A Active JP5548252B2 (ja) 2012-12-25 2012-12-25 動詞誤り検出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5548252B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61208164A (ja) * 1985-03-12 1986-09-16 Agency Of Ind Science & Technol 日本語文章校正装置の表示方式
JP3126945B2 (ja) * 1997-10-30 2001-01-22 株式会社エイ・ティ・アール音声翻訳通信研究所 文字誤り校正装置
GB2388940A (en) * 2002-05-22 2003-11-26 Sharp Kk Method and apparatus for the correction or improvement of word usage

Also Published As

Publication number Publication date
JP2014126927A (ja) 2014-07-07

Similar Documents

Publication Publication Date Title
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
US20120166942A1 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US20130262076A1 (en) Machine translation apparatus, method and computer readable medium
US8639496B2 (en) System and method for identifying phrases in text
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
KR101836996B1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
JP6556381B2 (ja) モデル学習装置及びモデル学習方法
WO2015043071A1 (zh) 一种译文检查方法及其系统
US10354646B2 (en) Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
KR20220036099A (ko) 자동통역 오류 유형을 자동으로 진단 및 교정하는 방법
JP5548252B2 (ja) 動詞誤り検出装置、方法、及びプログラム
JP5921601B2 (ja) 音声認識辞書更新装置、音声認識辞書更新方法、プログラム
US11907656B2 (en) Machine based expansion of contractions in text in digital media
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP2010257021A (ja) 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
KR101626386B1 (ko) 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치
US20140074475A1 (en) Speech recognition result shaping apparatus, speech recognition result shaping method, and non-transitory storage medium storing program
JP2017059216A (ja) クエリ校正システムおよび方法
US11494562B2 (en) Method, apparatus and computer program product for generating text strings
JP4933118B2 (ja) 文章区間抽出装置及びプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140516

R150 Certificate of patent or registration of utility model

Ref document number: 5548252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150