JP6472466B2 - 文体変換装置、方法、及びプログラム - Google Patents

文体変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP6472466B2
JP6472466B2 JP2017009078A JP2017009078A JP6472466B2 JP 6472466 B2 JP6472466 B2 JP 6472466B2 JP 2017009078 A JP2017009078 A JP 2017009078A JP 2017009078 A JP2017009078 A JP 2017009078A JP 6472466 B2 JP6472466 B2 JP 6472466B2
Authority
JP
Japan
Prior art keywords
morpheme
processing target
rule
ending
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017009078A
Other languages
English (en)
Other versions
JP2017068879A (ja
Inventor
千明 宮崎
千明 宮崎
平野 徹
徹 平野
東中 竜一郎
竜一郎 東中
牧野 俊朗
俊朗 牧野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017009078A priority Critical patent/JP6472466B2/ja
Publication of JP2017068879A publication Critical patent/JP2017068879A/ja
Application granted granted Critical
Publication of JP6472466B2 publication Critical patent/JP6472466B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文体変換装置、方法、及びプログラムに関する。
非特許文献1では、講演音声の書き起こしを対象として、新聞記事から作成された言語モデルを用いた統計的手法によって、文体を「である調」(常体)に統一する手法を説明している。ただし、「である調」(常体)への変換は精度が低い(つまり、変換すべき表現を正しく変換できない事例が多かった)ことが報告されている。さらに、変換できなかった箇所の多くが、動詞の活用形を変化させる必要のある表現であったことが述べられている。
下岡和也、河原達也、奥乃博、「講演の書き起こしに対する統計的手法を用いた文体の整形」、情報処理学会研究報告自然言語処理研究会報告、2002(44)、p.81-88、2002.
従来の技術には、前後の形態素によって変化する動詞の活用形を考慮しないために、形態素(列)の置換によって日本語として不適格な文を生成してしまったり、「ます」を含む一部の表現が変換されなかったりするという問題があった。
本発明は、上記の事情に鑑みてなされたもので、敬体表現を常体表現に精度よく変換することができる文体変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の文体変換装置は、入力文を受け付ける入力手段と、敬体表現である処理対象形態素より1つ前又は2つ前に出現する形態素の、品詞又は活用型と、前記処理対象形態素に後続して出現する後続形態素若しくは後続形態素列の、品詞又は表記、に応じて、前記敬体表現である処理対象形態素を常体表現に変換するための予め定められたルールに基づいて、前記入力文に含まれる敬体表現を常体表現に変換する表現置換手段と、を含んで構成され、前記ルールは、前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が名詞類であり、かつ、疑問終助詞が後続するか否かに応じて決定される。
本発明の文体変換方法は、入力手段及び表現置換手段を含む文体変換装置における文体変換方法であって、前記入力手段が、入力文を受け付けるステップと、前記表現置換手段が、敬体表現である処理対象形態素より1つ前又は2つ前に出現する形態素の、品詞又は活用型と、前記処理対象形態素に後続して出現する後続形態素若しくは後続形態素列の品詞又は表記、に応じて、前記敬体表現である処理対象形態素を常体表現に変換するための予め定められたルールに基づいて、前記入力文に含まれる敬体表現を常体表現に変換するステップと、を含んで構成され、前記ルールは、前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が名詞類であり、かつ、疑問終助詞が後続するか否かに応じて決定される。
本発明の前記表現置換手段は、前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が動詞類であって、前記処理対象形態素と、前記処理対象形態素より1つ前に出現する形態素との間で、「いる」が省略されているか否かに応じて、前記敬体表現である処理対象形態素を常体表現に変換するための前記ルールに基づいて、前記入力文に含まれる敬体表現を常体表現に変換するようにすることができる。
本発明の前記表現置換手段は、前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が、名詞類、形容詞類、及び動詞類の何れに該当するかに応じて、前記敬体表現である処理対象形態素を常体表現に変換するための前記ルールに基づいて、前記入力文に含まれる敬体表現を常体表現に変換するようにすることができる。
本発明の前記表現置換手段は、「です」、「でし」、「でしょ」、「ます」、「まし」、「ましょ」、又は「ませ」である処理対象形態素を常体表現に変換するための前記ルールに基づいて、前記入力文に含まれる敬体表現を常体表現に変換するようにすることができる。
本発明のプログラムは、コンピュータを、本発明の文体変換装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の文体変換装置、方法、及びプログラムによれば、敬体表現である処理対象形態素より1つ前又は2つ前に出現する形態素の、品詞又は活用型と、処理対象形態素に後続して出現する後続形態素若しくは後続形態素列の表記、後続形態素が無いこと、又は後続形態素が文末記号であるか否かとの少なくとも1つに応じて、敬体表現である処理対象形態素を常体表現に変換するための予め定められたルールに基づいて、入力文に含まれる敬体表現を常体表現に変換することにより、敬体表現を常体表現に精度よく変換することができる、という効果が得られる。
本実施の形態に係る文体変換装置の機能的な構成例を示すブロック図である。 動詞活用表の一部分の一例を示すイメージ図である。 本実施の形態における表現置換処理ルーチンを示すフローチャートである。 本実施の形態における表現置換処理ルーチンを示すフローチャートである。 本実施の形態における表現置換処理ルーチンを示すフローチャートである。
<概要>
まず、本発明の実施の形態の概要について説明する。
本発明の実施の形態で解決する課題は、日本語で書かれた文の中に含まれる敬体(です・ます体)表現を常体(だ・である体)表現に書き換えることである。本発明の実施の形態では、文字列の単純な置換では対処できないような環境に生起する敬体表現であっても、日本語として不適格な文の生成を抑制しつつ、常体表現に変換することを実現する。
本発明の実施の形態では、敬体表現を常体表現に置換する際、(A)処理対象形態素の1つ前又は2つ前に出現する形態素の品詞の種別、(B)処理対象形態素の表記、(C)後続形態素又は後続形態素列の表記、(D)テイル省略の有無、という4つの条件に基づく変換ルールを用いることにより、従来研究では扱えなかった、動詞の活用形を変化させる必要がある表現に対しても、日本語として不適格な表現への変換を抑制しながら、「です・ます」表現(「です」「ます」、およびこれらの活用形)を「だ」(または空文字)、および動詞の適切な活用形に変換することを可能とする。
例えば、「富士山はきれいです」「富士山に登ります」という敬体表現で書かれた文を「富士山はきれいだ」「富士山に登る」のような常体表現の文に変換することが可能である。
また、以下の説明における「文」(テキスト)とは日本語で書かれた文をいう。ここで、日本語で書かれた文とは、ブログ・SNS等への書き込み、発話の音声認識結果やテキストチャットなど、文字化された日本語のデータであれば何でも良い。
以下、図面を参照して、本発明の実施の形態を詳細に説明する。
<文体変換装置のシステム構成>
本実施の形態では、日本語で書かれた文を入力文として受け取り、入力された入力文に含まれる「です・ます」表現を、「だ」(または空文字)、及び動詞類の適切な活用形(活用語尾)に置換する。本実施の形態に係る文体変換装置100は、CPUと、RAMと、後述する文体変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成される。このコンピュータは、機能的には、図1に示すように、入力部10と、演算部20と、出力部30とを含んだ構成で表すことができる。以下、各部について詳述する。
入力部10は、文体変換対象の文を入力文として受け付ける。
演算部20は、入力部10によって受け付けた入力文に含まれる敬体表現を常体表現に変換する。演算部20は、形態素解析部22と、動詞活用表データベース24と、表現置換部26とを備えている。
形態素解析部22は、入力部10によって受け付けた入力文に対し、形態素解析を行う。具体的には、形態素解析部22は、入力文に対して形態素解析を行い、形態素境界、品詞、及び動詞類の活用型を取得する。
例えば、「富士山に登ります」を入力文として受け付けた場合、形態素解析部22は入力文に対し形態素解析を行い、形態素境界「富士山/に/登り/ます」と、各形態素の品詞及び動詞類の活用型「名詞/助詞/動詞:ラ行五段/助動詞」とを、形態素解析結果として取得する。
ここで、形態素解析部22で用いる形態素解析器は、形態素境界、品詞、及び動詞類の活用型を取得できさえすれば、どのようなものを使用しても良い。
動詞活用表データベース24には、動詞活用表が格納されている。図2に、動詞活用表の一部分の例を示す。図2には、動詞活用表の一部分の例として、動詞「見る」の活用型である一段活用の活用語尾リストと、動詞「書く」の活用型であるカ行五段活用の活用語尾リストと、動詞「登る」の活用型であるラ行五段活用の活用語尾リストとを示す。図2に示されるように、動詞活用表は、動詞類の活用型毎の活用語尾リストを備えている。ここで、動詞類とは、後述するように、動詞、動詞型の活用をする助動詞、又は補助動詞を表す。また、活用語尾リストには、動詞類の活用形(未然形(ア段)、未然形(オ段)、連用形、連用形(音便形)、終止形、及び命令形)に対応する活用語尾が格納されている。
ここで、未然形(ア段)とは母音がaである未然形を指す。これは、「ない」等の形態素に接続する形であり、一例として、「登らない」が挙げられる。未然形(オ段)とは、母音がoである未然形を指す。これは、「う」等の形態素に接続する形であり、一例として、「登ろう」が挙げられる。
また、連用形(音便形)とは、イ音便、促音便、又は撥音便化した連用形を指す。これは、「て(で)」や「た(だ)」に接続する形であり、一例として「登って」が挙げられる。
例えば、上記図2に示されるように、動詞類の活用型が「ラ行五段活用」の場合、対応する活用語尾リストには、「ら」、「ろ」、「り」、「っ」、「る」、「れ」が活用語尾として格納されている。
表現置換部26は、形態素解析部22で得られた形態素解析結果に基づいて、敬体表現である処理対象形態素より1つ前又は2つ前に出現する形態素の、品詞又は活用型と、処理対象形態素に後続して出現する後続形態素若しくは後続形態素列の表記、後続形態素が無いこと、又は後続形態素が文末記号であるか否かとの少なくとも1つに応じて、敬体表現である処理対象形態素を常体表現に変換するための予め定められた複数のルールを用いて、入力文に含まれる敬体表現を常体表現に変換する。
なお、処理対象形態素とは、後述するように入力文に含まれる「です・ます」表現に対応する形態素を示す。
具体的には、表現置換部26は、形態素解析部22で取得された形態素の表記、品詞、及び動詞類の活用型に基づいて、(A)処理対象形態素より1つ前又は2つ前に出現する形態素の品詞の種別、(B)処理対象形態素の表記、(C)後続形態素又は後続形態素列の表記、(D)テイル省略の有無という4つの条件に応じて定められた複数のルールを用いて、入力文に含まれる「です・ます」表現に対する置換処理を行う。表現置換部26は、活用語尾取得処理、及び14種類のルールを用いた置換処理を含んで構成される。
(A)1つ前又は2つ前に出現する形態素の品詞の種別、(C)後続形態素又は後続形態素列の表記、(D)テイル省略の有無は、(B)処理対象形態素である「です・ます」表現を検出したのちに、当該処理対象形態素を起点として、前後に現れる形態素を調べることによって把握される。(A)1つ前又は2つ前に出現する形態素の品詞の種別、(B)処理対象形態素の表記、(C)後続形態素又は後続形態素列の表記、及び(D)テイル省略の有無について以下説明する。
(A)1つ前又は2つ前に出現する形態素の品詞の種別
処理対象形態素(「です・ます」表現)より1つ前に出現する形態素の品詞の種別を参照する。処理対象形態素より1つ前に出現する形態素が接続助詞「て」又は「で」である場合は、処理対象形態素より2つ前に出現する形態素(「て」又は「で」の一つ前の形態素))の品詞の種別を参照する。本実施の形態では、1つ前に出現する形態素の品詞の種別を、下記(ア)〜(ウ)の3種の分類とする。また、動詞類は、活用型(カ行五段活用、一段活用等)によってさらに細分化される。なお、本実施の形態では、処理対象形態素より1つ前又は2つ前に出現する形態素の品詞及び活用型を用いる場合を例に説明する。
(ア)名詞類
名詞類として、名詞(代名詞、形式名詞、固有表現(人名、地名、日付表現、時間表現等)を含む)と、形容動詞とが含まれる。
(イ)形容詞類
形容詞類として、形容詞と形容詞型の活用をする助動詞(例えば、「ない」「たい」等)とが含まれる。
(ウ)動詞類
動詞類として、動詞と、動詞型の活用をする助動詞(例えば、「られる」「させる」等)と、補助動詞(例えば、「いる」「ある」等)とが含まれる。
従って、表現置換部26は、1つ前又は2つ前に出現する形態素の品詞の種別が、名詞類、形容詞類、及び動詞類の何れに該当するかに応じて、敬体表現である処理対象形態素を常体表現に変換するための予め定められた複数のルールに基づいて、入力文に含まれる敬体表現を常体表現に変換する。
(B)処理対象形態素の表記
処理対象形態素は、「です・ます」表現の表記が「です」、「でし」、「でしょ」、「ます」、「まし」、「ましょ」、「ませ」のいずれであるかを指すものとする。
なお、本実施の形態では、処理対象形態素の検出(「です」及び「ます」の活用形の検出)は、形態素解析結果の一部として出力される形態素の「基本形」に基づいて行うが、形態素または形態素列の表記に対する文字列の照合によって「です」及び「ます」の活用形を検出しても良い。
従って、表現置換部26は、「です」、「でし」、「でしょ」、「ます」、「まし」、「ましょ」、又は「ませ」である処理対象形態素を常体表現に変換するための予め定められた複数のルールに基づいて、入力文に含まれる敬体表現を常体表現に変換する。
(C)後続形態素又は後続形態素列の表記
後続形態素は、処理対象形態素に後続して出現する形態素を表す。後続形態素列は、処理対象形態素に後続して出現する形態素列を表す。本実施の形態では、後続形態素の表記は、「た」(完了の助動詞)、「て」(接続助詞)、「の*」(表記の先頭文字が「の」である形態素)、「ん」、又は疑問の終助詞(「か」「かしら」「かな」)の何れかであるものとする。また、後続形態素列の表記は、「ん」に「でした」を加えた「ん/でした」であるものとする。
また、本実施の形態では、後続形態素が無い(文の終端)場合、又は後続形態素が文末記号である場合に応じて、入力文に含まれる敬体表現を常体表現に変換する。
従って、表現置換部26は、後続形態素若しくは後続形態素列の表記、後続形態素が無いこと、又は後続形態素が文末記号であるか否かに応じて、敬体表現である処理対象形態素を常体表現に変換するための予め定められた複数のルールに基づいて、入力文に含まれる敬体表現を常体表現に変換する。
(D)テイル省略の有無
テイル省略の有無とは、動詞類と「ます」(およびその活用形)との間に「ている」の省略形「てる」が存在しているかどうか、又は「でいる」の省略形「でる」が存在しているかどうかを指すものとする。例えば、処理対象形態素の1つ前に出現する形態素が「て」又は「で」である場合には、テイル省略有りと判定する。処理対象形態素の1つ前に出現する形態素が「て」又は「で」でない場合には、テイル省略無しと判定する。テイル省略がされている一例として、例えば「登ってます」、「嗅いでます」が挙げられる。
表現置換部26は、処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が動詞類であって、処理対象形態素と、処理対象形態素より1つ前に出現する形態素との間で、「いる」が省略されているか否かに応じて、敬体表現である処理対象形態素を常体表現に変換するための予め定められたルールに基づいて、入力文に含まれる敬体表現を常体表現に変換する。
後述する図3〜図5のフローチャートにおける(A)〜(D)はそれぞれ、(A)処理対象形態素の1つ前又は2つ前に出現する形態素の品詞の種別、(B)処理対象形態素の表記、(C)後続形態素又は後続形態素列の表記、(D)テイル省略の有無、のうちどの条件に相当するかを示す。
本実施の形態では、表現置換部26は、形態素解析部22で得られた形態素解析結果に基づいて、上述した、(A)〜(D)の4つの条件に応じて定められた複数のルールとして、以下の(1)〜(14)に示すルールを用いて、入力文に含まれる敬体表現を常体表現に変換する。
(1)「です」を削除するルール
表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が形容詞類であって、かつ処理対象形態素の表記が「です」であるときに、入力文から処理対象形態素「です」を削除する。
例えば、入力文「富士山は美しいです」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/は/美しい/です)及び品詞(名詞/助詞/形容詞/助動詞)に基づいて、入力文から処理対象形態素「です」を削除し、「です」が削除された文「富士山は美しい」を出力する。
また、表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が名詞類であって、かつ処理対象形態素の表記が「です」であり、かつ処理対象形態素「です」に疑問の終助詞が後続するときに、入力文から処理対象形態素「です」を削除する。
例えば、入力文「富士山は山ですか」が入力された場合には、表現置換部26は、入力文から処理対象形態素「です」を削除し、「です」が削除された文「富士山は山か」を出力する。
ただし、「山か」「美しいか」のように、名詞類又は形容詞類+「か」(+文末記号類(。?!等)または文の終端)という形式は、会話における発話文としては硬い印象を与えてしまうため、「か」に疑問符(「?」)を後続させたり、「か」を疑問符に置換したりしても良い。
(2)「でしょ」を「だろ」に置換するルール
表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が形容詞類であって、かつ処理対象形態素の表記が「でしょ」であるときに、処理対象形態素「でしょ」を「だろ」に置換する。
例えば、入力文「富士山はきれいでしょう」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/は/きれい/でしょ/う)及び品詞(名詞/助詞/形容動詞/助動詞/助動詞)に基づいて、入力文に含まれる処理対象形態素「でしょ」を「だろ」に置換し、「でしょ」が「だろ」に置換された文「富士山はきれいだろう」を出力する。
また、表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が名詞類であって、かつ処理対象形態素の表記が「でしょ」であるときに、処理対象形態素「でしょ」を「だろ」に置換する。
(3)「でし」を削除し、「て」を「で」に置換するルール
表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が名詞類であって、かつ処理対象形態素の表記が「でし」であり、かつ後続形態素の表記が「て」であるときに、後続形態素「て」を「で」に置換し、処理対象形態素「でし」を削除する。
例えば、入力文「富士山はきれいでして」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/は/きれい/でし/て)及び品詞(名詞/助詞/形容動詞/助動詞/助詞)に基づいて、後続形態素「て」を「で」に置換し、処理対象形態素「でし」を削除し、「て」が「で」に置換され、「でし」が削除された文「富士山はきれいで」を出力する。
(4)「でし」を「だっ」に置換するルール
表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が名詞類であって、かつ処理対象形態素の表記が「でし」であり、かつ後続形態素の表記が「た」であるときに、処理対象形態素「でし」を「だっ」に置換する。
例えば、入力文「富士山はきれいでした」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/は/きれい/でし/た)及び品詞(名詞/助詞/形容動詞/助動詞/助動詞)に基づいて、処理対象形態素「でし」を「だっ」に置換し、「でし」が「だっ」に置換された文「富士山はきれいだった」を出力する。
(5)「です」を「だ」に置換するルール
表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が名詞類であって、かつ処理対象形態素の表記が「です」であり、かつ後続形態素の表記が「の*」(表記の先頭文字が「の」である形態素)でないときに、処理対象形態素「です」を「だ」に置換する。
例えば、入力文「富士山はきれいです」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/は/きれい/です)及び品詞(名詞/助詞/形容動詞/助動詞)に基づいて、処理対象形態素「です」を「だ」に置換し、「です」が「だ」に置換された文「富士山はきれいだ」を出力する。
(6)「です」を「な」に置換するルール
表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が名詞類であって、かつ処理対象形態素の表記が「です」であり、かつ後続形態素の表記が「の*」(表記の先頭文字が「の」である形態素)であるときに、処理対象形態素「です」を「な」に置換する。
例えば、入力文「富士山は火山ですので」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/は/火山/です/ので)及び品詞(名詞/助詞/名詞/助動詞/助詞)に基づいて、処理対象形態素「です」を「な」に置換し、「です」が「な」に置換された文「富士山は火山なので」を出力する。
(7)活用語尾を連用形(音便形)に、「た」を「だ」に置換し、「まし」を削除するルール
表現置換部26は、「テイル省略」が「無」の場合、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ動詞類の活用型が、ガ行五段活用、ナ行五段活用、バ行五段活用、又はマ行五段活用であり、かつ処理対象形態素の表記が「まし」であり、かつ後続形態素の表記が「た」であるときに、処理対象形態素の1つ前に出現する形態素の活用語尾を連用形(音便形)に変換し、後続形態素「た」を「だ」に置換し、処理対象形態素「まし」を削除する。
なお、表現置換部26は、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の連用形(音便形)の活用語尾を取得し、処理対象形態素の1つ前に出現する形態素の活用語尾と置換する。
例えば、入力文「富士山で叫びました」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/で/叫び/まし/た)と、品詞及び動詞類の活用型(名詞/助詞/動詞:バ行五段/助動詞/助動詞)とに基づいて、処理対象形態素の1つ前に出現する形態素の活用語尾を連用形(音便形)に置換し、後続形態素「た」を「だ」に置換し、処理対象形態素「まし」を削除する。そして、表現置換部26は、活用語尾が連用形(音便形)に置換され、「た」が「だ」に置換され、「まし」が削除された文「富士山で叫んだ」を出力する。
(8)活用語尾を連用形(音便形)に置換し、「まし」を削除するルール
表現置換部26は、動詞類について「テイル省略」が「無」の場合、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「まし」であるときに、処理対象形態素の1つ前に出現する形態素の活用語尾を連用形(音便形)に置換し、「まし」を削除する。
なお、動詞類について「テイル省略」が「無」の場合、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の連用形(音便形)の活用語尾を取得し、処理対象形態素の1つ前に出現する形態素の活用語尾と置換する。
一方、「テイル省略」が「有」の場合、表現置換部26は、処理対象形態素の2つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「まし」であるときに、「まし」を削除する。
例えば、入力文「富士山に登りました」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/に/登り/まし/た)と、品詞及び動詞類の活用型(名詞/助詞/動詞:ラ行五段/助動詞/助動詞)とに基づいて、活用語尾を連用形(音便形)に置換し、処理対象形態素「まし」を削除する。そして、表現置換部26は、活用語尾が連用形(音便形)に置換され、「まし」が削除された文「富士山に登った」を出力する。
また、表現置換部26は、「テイル省略」が「有」の場合、処理対象形態素の2つ前に出現する形態素の品詞の種別が動詞類であって、かつ動詞類の活用型が、ガ行五段活用、ナ行五段活用、バ行五段活用、又はマ行五段活用であり、かつ処理対象形態素の表記が「まし」であり、かつ後続形態素の表記が「た」であるときに、処理対象形態素「まし」を削除する。
また、表現置換部26は、「テイル省略」が「有」の場合、処理対象形態素の2つ前に出現する形態素の品詞の種別が動詞類であって、かつ動詞類の活用型がガ行五段活用、ナ行五段活用、バ行五段活用、又はマ行五段活用であり、かつ処理対象形態素の表記が「まし」であり、かつ後続形態素の表記が「て」であるときに、処理対象形態素「まし」を削除する。
(9)活用語尾を連用形(音便形)に、「て」を「で」に置換し、「まし」を削除するルール
表現置換部26は、「テイル省略」が「無」の場合、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ動詞類の活用型がガ行五段活用、ナ行五段活用、バ行五段活用、又はマ行五段活用であり、かつ処理対象形態素の表記が「まし」であり、かつ後続形態素の表記が「て」であるときに、処理対象形態素の1つ前に出現する形態素の活用語尾を連用形(音便形)に置換し、後続形態素「て」を「で」に置換し、処理対象形態素「まし」を削除する。
なお、表現置換部26は、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の連用形(音便形)の活用語尾を取得し、処理対象形態素の1つ前に出現する形態素の活用語尾と置換する。
例えば、入力文「富士山で叫びまして」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/で/叫び/まし/て)と、品詞及び動詞類の活用型(名詞/助詞/動詞:バ行五段/助動詞/助詞)とに基づいて、処理対象形態素の1つ前に出現する形態素の活用語尾を連用形(音便形)に置換し、後続形態素「て」を「で」に置換し、処理対象形態素「まし」を削除する。そして、表現置換部26は、活用語尾が連用形(音便形)に置換され、「て」が「で」に置換され、「まし」が削除された文「富士山で叫んで」を出力する。
(10)活用語尾を終止形に置換し、「ます」を削除するルール
表現置換部26は、動詞類について「テイル省略」が「無」の場合、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ます」であるときに、処理対象形態素の1つ前に出現する形態素の活用語尾を終止形に置換し、処理対象形態素「ます」を削除する。
なお、動詞類について「テイル省略」が「無」の場合、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の終止形の活用語尾を取得し、処理対象形態素の1つ前に出現する形態素の活用語尾と置換する。
一方、「テイル省略」が「有」の場合、表現置換部26は、処理対象形態素の2つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ます」であるときに、一段活用の活用語尾リストを動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の終止形の活用語尾を、「て」又は「で」の後に挿入し、処理対象形態素「ます」を削除する。
例えば、入力文「富士山に登ります」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/に/登り/ます)と、品詞及び動詞類の活用型(名詞/助詞/動詞:ラ行五段/助動詞)とに基づいて、処理対象形態素の1つ前に出現する形態素の活用語尾を終止形に置換し、処理対象形態素「ます」を削除する。そして、表現置換部26は、活用語尾が終止形に置換され、「ます」が削除された文「富士山に登る」を出力する。
(11)活用語尾を未然形(オ段)に置換し、「ましょ」を削除するルール
表現置換部26は、動詞類について「テイル省略」が「無」の場合、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ましょ」であるときに、処理対象形態素の1つ前に出現する形態素の活用語尾を未然形(オ段)に置換し、「ましょ」を削除する。
なお、動詞類について「テイル省略」が「無」の場合、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の未然形(オ段)の活用語尾を取得し、処理対象形態素の1つ前に出現する形態素の活用語尾と置換する。
一方、「テイル省略」が「有」の場合、表現置換部26は、処理対象形態素の2つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ましょ」であるときに、一段活用の活用語尾リストを動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の未然形(オ段)の活用語尾を、「て」又は「で」の後に挿入し、「ましょ」を削除する。
例えば、入力文「富士山に登りましょう」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/に/登り/ましょ/う)と、品詞及び動詞類の活用型(名詞/助詞/動詞:ラ行五段/助動詞/助動詞)とに基づいて、処理対象形態素の1つ前に出現する形態素の活用語尾を未然形(オ段)に置換し、処理対象形態素「ましょ」を削除する。そして、表現置換部26は、活用語尾が未然形(オ段)に置換され、「ましょ」が削除された文「富士山に登ろう」を出力する。
(12)活用語尾を命令形に置換し、「ませ」を削除するルール
表現置換部26は、動詞類について「テイル省略」が「無」の場合、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ませ」であり、かつ後続形態素が無い、又は後続形態素が文末記号類(。?!等)であるときに、処理対象形態素の1つ前に出現する形態素の活用語尾を命令形に置換し、処理対象形態素「ませ」を削除する。
なお、動詞類について「テイル省略」が「無」の場合、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の命令形の活用語尾を取得し、処理対象形態素の1つ前に出現する形態素の活用語尾と置換する。
一方、「テイル省略」が「有」の場合、表現置換部26は、処理対象形態素の2つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ませ」であり、かつ後続形態素が無い、又は後続形態素が文末記号類(。?!等)であるときに、一段活用の活用語尾リストを動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の命令形の活用語尾を、「て」又は「で」の後に挿入し、処理対象形態素「ませ」を削除する。
例えば、入力文「お帰りなさいませ」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(お/帰り/なさい/ませ)と、品詞及び動詞類の活用型(接頭辞/動詞:ラ行五段/助動詞:ラ行五段/助動詞)とに基づいて、処理対象形態素の1つ前に出現する形態素の活用語尾を命令形に置換し、処理対象形態素「ませ」を削除する。そして、表現置換部26は、活用語尾が命令形に置換され、「ませ」が削除された文「お帰りなさい」を出力する。
なお、「なさる」「いらっしゃる」「くださる」「おっしゃる」等、ラ行五段活用でありながら、口語体では命令形活用語尾が「い」となるものがある(「なさい」「いらっしゃい」等)。その場合、本実施の形態では「れ」ではなく「い」を用いることとする。
(13)活用語尾を未然形(ア段)に、「ん」を「ない」に置換し、「ませ」を削除するルール
表現置換部26は、動詞類について「テイル省略」が「無」の場合、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ませ」であり、かつ後続形態素の表記が「ん」であり、かつ後続形態素の後に「でした」が後続しないとき(後続形態素列が「ん/でした」でないとき)に、処理対象形態素の1つ前に出現する形態素の活用語尾を未然形(ア段)に置換し、後続形態素「ん」を「ない」に置換し、処理対象形態素「ませ」を削除する。
なお、動詞類について「テイル省略」が「無」の場合、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の未然形(ア段)の活用語尾を取得し、処理対象形態素の1つ前に出現する形態素の活用語尾と置換する。
一方、「テイル省略」が「有」の場合、表現置換部26は、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ませ」であり、かつ後続形態素の表記が「ん」であり、かつ後続形態素の後に「でした」が後続しないとき(後続形態素列が「ん/でした」でないとき)に、一段活用の活用語尾リストを動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の未然形(ア段)の活用語尾を「て」又は「で」の後に挿入し、後続形態素「ん」を「ない」に置換し、処理対象形態素「ませ」を削除する。
例えば、入力文「富士山に登りません」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/に/登り/ませ/ん)と、品詞及び動詞類の活用型(名詞/助詞/動詞:ラ行五段/助動詞/助動詞)とに基づいて、処理対象形態素の1つ前に出現する形態素の活用語尾を未然形(ア段)に置換し、後続形態素「ん」を「ない」に置換し、処理対象形態素「ませ」を削除する。そして、表現置換部26は、活用語尾が未然形(ア段)に置換され、「ん」が「ない」に置換され、「ませ」が削除された文「富士山に登らない」を出力する。
なお、後続形態素「ん」を「ない」に置換する処理を行わなかったとしても、日本語として文法上の問題は生じない(例:富士山に登らん)。ただし、現代の標準語(東京方言)の口語としては不自然に感じられるため、本実施の形態では後続形態素「ん」を「ない」に置換する処理を行い、活用語尾を未然形(ア段)に置換することとする。
(14)活用語尾を未然形(ア段)に、「んでし」を「なかっ」に置換し、「ませ」を削除するルール
表現置換部26は、動詞類について「テイル省略」が「無」の場合、処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ませ」であり、かつ後続形態素の表記が「ん」であり、かつ後続形態素の後に「でした」が後続するとき(後続形態素列が「ん/でした」であるとき)に、処理対象形態素の1つ前に出現する形態素の活用語尾を未然形(ア段)に置換し、「んでし」を「なかっ」に置換し、処理対象形態素「ませ」を削除する。
なお、動詞類について「テイル省略」が「無」の場合、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の未然形(ア段)の活用語尾を取得し、処理対象形態素の1つ前に出現する形態素の活用語尾と置換する。
一方、「テイル省略」が「有」の場合、表現置換部26は、処理対象形態素の2つ前に出現する形態素の品詞の種別が動詞類であって、かつ処理対象形態素の表記が「ませ」であり、かつ後続形態素の表記が「ん」であり、かつ後続形態素の後に「でした」が後続するとき(後続形態素列が「ん/でした」であるとき)に、一段活用の活用語尾リストを動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の未然形(ア段)の活用語尾を「て」又は「で」の後に挿入し、「んでし」を「なかっ」に置換し、処理対象形態素「ませ」を削除する。
例えば、入力文「富士山に登りませんでした」が入力された場合には、表現置換部26は、形態素解析部22によって得られた形態素境界(富士山/に/登り/ませ/ん/でし/た)と、品詞及び動詞類の活用型(名詞/助詞/動詞:ラ行五段/助動詞/助動詞/助動詞/助動詞)とに基づいて、処理対象形態素の1つ前に出現する形態素の活用語尾を未然形(ア段)に置換し、「んでし」を「なかっ」に置換し、処理対象形態素「ませ」を削除する。そして、表現置換部26は、活用語尾が未然形(ア段)に置換され、「んでし」が「なかっ」に置換され、「ませ」が削除された文「富士山に登らなかった」を出力する。
上記(1)〜(14)のルールにおいて、処理対象形態素の1つ前に出現する形態素が接続助詞「て」又は「で」である場合は、処理対象形態素の1つ前に出現する形態素の代わりに、処理対象形態素より2つ前に出現する形態素(「て」又は「で」の一つ前の形態素))の品詞の種別を参照し、処理対象形態素より2つ前に出現する形態素の品詞に応じてルールを適用する。
出力部30は、表現置換部26によって出力された文を結果として出力する。
<文体変換装置の作用>
次に、本実施の形態に係る文体変換装置100の作用について説明する。文体変換装置100に、文体変換対象の文が入力されると、文体変換装置100によって、図3〜図5に示す表現置換処理ルーチンが実行される。
まず、ステップS100において、入力部10によって、入力された文体変換対象の文を、入力文として受け付ける。
ステップS102において、形態素解析部22によって、上記ステップS100で受け付けた入力文に対して、形態素解析を行い、形態素境界、品詞、及び動詞類の活用型を取得する。
ステップS104において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、入力文の処理対象形態素の1つ前に出現する形態素の品詞の種別を判定する。入力文の処理対象形態素の1つ前に出現する形態素の品詞の種別が形容詞類である場合には、ステップS106へ進む。入力文の処理対象形態素の1つ前に出現する形態素の品詞の種別が名詞類である場合には、ステップS112へ進む。入力文の処理対象形態素の1つ前に出現する形態素の品詞の種別が動詞類である場合には、ステップS128へ進む。
なお、処理対象形態素の1つ前に出現する形態素が接続助詞「て」又は「で」である場合は、処理対象形態素の1つ前に出現する形態素の代わりに、処理対象形態素の2つ前に出現する形態素を参照して、処理対象形態素より2つ前に出現する形態素の品詞の種別が、形容詞類、名詞類、及び動詞類の何れであるかを判定する。
ステップS106において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、処理対象形態素の表記を判定する。処理対象形態素の表記が「です」である場合には、ステップS108へ進む。一方、処理対象形態素の表記が「でしょ」である場合には、ステップS110へ進む。
ステップS108において、表現置換部26によって、入力文から処理対象形態素「です」を削除する。
ステップS110において、表現置換部26によって、入力文に含まれる処理対象形態素「でしょ」を「だろ」に置換する。
ステップS112において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、処理対象形態素の後に疑問終助詞(「か」等)が後続するか否かを判定する。処理対象形態素の後に疑問終助詞(「か」等)が後続する場合には、ステップS108へ移行する。一方、処理対象形態素の後に疑問終助詞が後続しない場合には、ステップS114へ進む。
ステップS114において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、処理対象形態素の表記を判定する。処理対象形態素の表記が「でしょ」である場合には、ステップS110へ進む。処理対象形態素の表記が「でし」である場合には、ステップS116へ進む。処理対象形態素の表記が「です」である場合には、ステップS122へ進む。
ステップS116において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、後続形態素の表記を判定する。後続形態素の表記が「て」である場合には、ステップS118へ進む。一方、処理対象形態素の表記が「た」である場合には、ステップS120へ進む。
ステップS118において、表現置換部26によって、入力文に含まれる処理対象形態素「でし」を削除し、後続形態素「て」を「で」に置換する。
ステップS120において、表現置換部26によって、入力文に含まれる処理対象形態素「でし」を「だっ」に置換する。
ステップS122において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、後続形態素の表記を判定する。後続形態素の表記が「の*」以外である場合には、ステップS124へ進む。一方、処理対象形態素の表記が「の*」である場合には、ステップS126へ進む。
ステップS124において、表現置換部26によって、入力文に含まれる処理対象形態素「です」を「だ」に置換する。
ステップS126において、表現置換部26によって、入力文に含まれる処理対象形態素「です」を「な」に置換する。
ステップS128において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、動詞類と処理対象形態素との間で、「テイル」省略がされているか否かを判定する。「テイル」省略がされている場合には、ステップS130へ進む。一方、「テイル」省略がされていない場合には、ステップS132へ進む。
ステップS130において、表現置換部26によって、動詞活用表データベース24の動詞活用表の中から一段活用の活用語尾リストを読み込み、一段活用の活用語尾リスト内の活用語尾を取得する。
ステップS132において、表現置換部26によって、動詞類の活用型に応じた活用語尾リストを、動詞活用表データベース24の動詞活用表の中から読み込み、当該活用語尾リスト内の活用語尾を取得する。
ステップS134において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、処理対象形態素の表記を判定する。処理対象形態素の表記が「まし」である場合には、ステップS136へ進む。処理対象形態素の表記が「ます」である場合には、ステップS148へ進む。処理対象形態素の表記が「ましょ」である場合には、ステップS150へ進む。処理対象形態素の表記が「ませ」である場合には、ステップS152へ進む。
ステップS136において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、後続形態素の表記を判定する。後続形態素の表記が「た」である場合には、ステップS138へ進む。後続形態素の表記が「て」である場合には、ステップS144へ進む。
ステップS138において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、動詞類の活用型を判定する。動詞類の活用型が、ガ行五段活用、ナ行五段活用、バ行五段活用、又はマ行五段活用である場合には、ステップS139へ進む。一方、動詞類の活用型が、ガ行五段活用、ナ行五段活用、バ行五段活用、及びマ行五段活用でない場合には、ステップS142へ進む。
ステップS139において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、動詞類と処理対象形態素との間で、「テイル」省略がされているか否かを判定する。「テイル」省略がされている場合には、ステップS142へ進む。一方、「テイル」省略がされていない場合には、ステップS140へ進む。
ステップS140において、表現置換部26によって、上記ステップS130又はステップS132で取得した活用語尾リスト内の連用形(音便形)の活用語尾に基づいて、入力文の活用語尾を連用形(音便形)に変換し、後続形態素「た」を「だ」に置換し、処理対象形態素「まし」を削除する。
ステップS142において、表現置換部26によって、上記ステップS130又はステップS132で取得した活用語尾リスト内の連用形(音便形)の活用語尾に基づいて、入力文の活用語尾を連用形(音便形)に置換し、処理対象形態素「まし」を削除する。
ステップS144において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、動詞類の活用型を判定する。動詞類の活用型がガ行五段活用、ナ行五段活用、バ行五段活用、又はマ行五段活用である場合には、ステップS145へ進む。一方、動詞類の活用型が、ガ行五段活用、ナ行五段活用、バ行五段活用、及びマ行五段活用でない場合には、ステップS142へ進む。
ステップS145において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、動詞類と処理対象形態素との間で、「テイル」省略がされているか否かを判定する。「テイル」省略がされている場合には、ステップS142へ進む。一方、「テイル」省略がされていない場合には、ステップS146へ進む。
ステップS146において、表現置換部26によって、上記ステップS130又はステップS132で取得した活用語尾リスト内の連用形(音便形)の活用語尾に基づいて、入力文の活用語尾を連用形(音便形)に置換し、後続形態素「て」を「で」に置換し、処理対象形態素「まし」を削除する。
ステップS148において、表現置換部26によって、上記ステップS130又はステップS132で取得した活用語尾リスト内の終止形の活用語尾に基づいて、入力文の活用語尾を終止形に置換し、処理対象形態素「ます」を削除する。
ステップS150において、表現置換部26によって、上記ステップS130又はステップS132で取得した活用語尾リスト内の未然形(オ段)の活用語尾に基づいて、入力文の活用語尾を未然形(オ段)に置換し、処理対象形態素「ましょ」を削除する。
ステップS152において、表現置換部26によって、上記ステップS102で取得された形態素解析結果に基づいて、後続形態素を判定する。後続形態素が無い、又は後続形態素が文末記号類(。?!等)である場合には、ステップS154へ進む。一方、処理対象形態素の表記が「ん」である場合には、ステップS156へ進む。
ステップS154において、表現置換部26によって、上記ステップS130又はステップS132で取得した活用語尾リスト内の命令形の活用語尾に基づいて、入力文の活用語尾を命令形に置換し、処理対象形態素「ませ」を削除する。
ステップS156において、表現置換部26によって、後続形態素の後に「でした」が後続するか否かを判定する。後続形態素の後に「でした」が後続する場合には、ステップS160へ進む。一方、後続形態素の後に「でした」が後続しない場合には、ステップS158へ進む。
ステップS158において、表現置換部26によって、上記ステップS130又はステップS132で取得した活用語尾リスト内の未然形(ア段)の活用語尾に基づいて、入力文の活用語尾を未然形(ア段)に置換し、後続形態素「ん」を「ない」に置換し、処理対象形態素「ませ」を削除する。
ステップS160において、表現置換部26によって、上記ステップS130又はステップS132で取得した活用語尾リスト内の未然形(ア段)の活用語尾に基づいて、入力文の活用語尾を未然形(ア段)に置換し、「んでし」を「なかっ」に置換し、処理対象形態素「ませ」を削除する。
ステップS162において、上記ステップS108、S110、S118、S120、S124、S126、S140、S142、S146、S148、S150、S154、S158、及びS160の何れかのステップで変換された文を、結果として出力して、表現置換処理ルーチンを終了する。
以上説明したように、本実施の形態に係る文体変換装置によれば、敬体表現である処理対象形態素より1つ前に出現する形態素の、品詞又は活用型と、前記処理対象形態素に後続して出現する後続形態素若しくは後続形態素列の表記、後続形態素が無いこと、又は後続形態素が文末記号であるか否かとの少なくとも1つに応じて、敬体表現である処理対象形態素を常体表現に変換するための予め定められたルールに基づいて、入力文に含まれる敬体表現を常体表現に変換することにより、敬体表現を常体表現に精度よく変換することができる。
また、本実施の形態に係る文体変換装置によれば、常体表現と敬体表現とが入り混じった文書を、自動的に常体表現に統一することが可能となる。
本実施の形態に係る文体変換装置を文書校正に適用すれば、文書の文体を統一する支援をすることができる。また、本実施の形態に係る文体変換装置を、人間と対話をするコンピュータ(対話システム)の発話生成に適用すれば、システムの発話データベースを全て常体に統一することができ、システムの話し方(文体)に一貫性を持たせることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、文体変換装置100は、動詞活用表データベース24を備えている場合について説明したが、例えば動詞活用表データベース24が文体変換装置100の外部装置に設けられ、文体変換装置100は、外部装置と通信手段を用いて通信することにより、動詞活用表データベース24を参照するようにしてもよい。
上述の文体変換装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
22 形態素解析部
24 動詞活用表データベース
26 表現置換部
30 出力部
100 文体変換装置

Claims (10)

  1. 入力文を受け付ける入力手段と、
    敬体表現である処理対象形態素が、「です」、「でし」、「でしょ」、「ます」、「まし」、「ましょ」、又は「ませ」である場合に、
    前記処理対象形態素の表記と、
    前記処理対象形態素より1つ前又は2つ前に出現する形態素の、品詞又は活用型と、
    前記処理対象形態素に後続して出現する後続形態素若しくは後続形態素列の、品詞又は表記
    に応じたルールであって
    前記敬体表現である処理対象形態素を常体表現に変換するための予め定められたルールに基づいて、前記入力文に含まれる敬体表現を常体表現に変換する表現置換手段と、を含み、前記ルールは、
    前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が名詞類であり、かつ、疑問終助詞が後続するか否かに応じた第1の変換ルールを含むことを特徴とする文体変換装置。
  2. 前記第1の変換ルールは、
    (1)疑問終助詞が後続する場合に、処理対象形態素「です」を削除するルール
    (2)疑問終助詞が後続する場合に、処理対象形態素「でしょ」を「だろ」に置換するルール
    (3)疑問終助詞が後続せず、後続形態素が「て」である場合に、処理対象形態素「でし」を削除し、後続形態素「て」を「で」に置換するルール
    (4)疑問終助詞が後続せず、後続形態素が「た」である場合に、処理対象形態素「でし」を「だっ」に置換するルール
    (5)疑問終助詞が後続せず、後続形態素が「の*」以外である場合に、処理対象形態素「です」を「だ」に置換するルール
    (6)疑問終助詞が後続せず、後続形態素が「の*」である場合に、処理対象形態素「です」を「な」に置換するルール
    の少なくともいずれかを含むことを特徴とする請求項1に記載の文体変換装置。
  3. 前記第1の変換ルールは、
    (1)疑問終助詞が後続する場合に、処理対象形態素「です」を削除するルール
    (2)疑問終助詞が後続する場合に、処理対象形態素「でしょ」を「だろ」に置換するルール
    (3)疑問終助詞が後続せず、後続形態素が「て」である場合に、処理対象形態素「でし」を削除し、後続形態素「て」を「で」に置換するルール
    (4)疑問終助詞が後続せず、後続形態素が「た」である場合に、処理対象形態素「でし」を「だっ」に置換するルール
    (5)疑問終助詞が後続せず、後続形態素が「の*」以外である場合に、処理対象形態素「です」を「だ」に置換するルール
    (6)疑問終助詞が後続せず、後続形態素が「の*」である場合に、処理対象形態素「です」を「な」に置換するルール
    の全てを含むことを特徴とする請求項1に記載の文体変換装置。
  4. 前記ルールは、
    前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が動詞類であり、
    かつ、前記処理対象形態素と、前記処理対象形態素より1つ前に出現する形態素との間で、「いる」が省略されているか否かに応じた第2の変換ルールをさらに含むことを特徴とする請求項1乃至3のいずれか一項に記載の文体変換装置。

  5. 前記第2の変換ルールは、
    (7) 活用語尾を連用形(音便形)に、後続形態素「た」を「だ」に置換し、処理対象形態素「まし」を削除するルール
    (8)活用語尾を連用形(音便形)に置換し、処理対象形態素「まし」を削除するルール
    (9)活用語尾を連用形(音便形)に、後続形態素「て」を「で」に置換し、処理対象形態素「まし」を削除するルール
    (10)活用語尾を終止形に置換し、処理対象形態素「ます」を削除するルール
    (11)活用語尾を未然形(オ段)に置換し、処理対象形態素「ましょ」を削除するルール
    (12)活用語尾を命令形に置換し、処理対象形態素「ませ」を削除するルール
    (13)活用語尾を未然形(ア段)に、後続形態素「ん」を「ない」に置換し、処理対象形態素「ませ」を削除するルール
    (14)活用語尾を未然形(ア段)に、後続形態素列「んでし」を「なかっ」に置換し、処理対象形態素「ませ」を削除するルール
    の少なくともいずれかを含み、
    前記活用語尾は、前記処理対象形態素と、前記処理対象形態素の1つ前に出現する形態素との間で「いる」が省略されているか否かに応じて決定されることを特徴とする請求項4に記載の文体変換装置。
  6. 前記活用語尾は、
    前記処理対象形態素と前記処理対象形態素の1つ前に出現する形態素との間で「いる」が省略されていない場合は、前記処理対象形態素の1つ前に出現する形態素の品詞である動詞類の活用語尾であり、
    前記前記処理対象形態素と前記処理対象形態素の1つ前に出現する形態素との間で「いる」が省略されている場合は、前記処理対象形態素の2つ前に出現する形態素の品詞である動詞類の一段活用の活用語尾である、
    ことを特徴とする請求項5記載の文体変換装置。

  7. 前記ルールは、
    前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が形容詞類である場合に適用される第3の変換ルールをさらに含み、
    前記第3の変換ルールは、
    (1) 処理対象形態素「です」を削除するルール
    (2)処理対象形態素「でしょ」を「だろ」に置換するルール
    の少なくともいずれかを含むことを特徴とする請求項1乃至6のいずれか1項に記載の文体変換装置 。
  8. 前記ルールは、
    前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が形容詞類である場合に適用される第3の変換ルールをさらに含み、
    前記第3の変換ルールは、
    (1) 処理対象形態素「です」を削除するルール
    (2)処理対象形態素「でしょ」を「だろ」に置換するルール
    の全てを含むことを特徴とする請求項4乃至7のいずれか1項に記載の文体変換装置 。

  9. 入力手段及び表現置換手段を含む文体変換装置における文体変換方法であって、
    前記入力手段が、入力文を受け付けるステップと、
    前記表現置換手段が、敬体表現である処理対象形態素が、「です」、「でし」、「でしょ」、「ます」、「まし」、「ましょ」、又は「ませ」である場合に、
    前記処理対象形態素の表記と、
    前記処理対象形態素より1つ前又は2つ前に出現する形態素の、品詞又は活用型と、
    前記処理対象形態素に後続して出現する後続形態素若しくは後続形態素列の、品詞又は表記
    に応じたルールであって
    前記敬体表現である処理対象形態素を常体表現に変換するための予め定められたルールに基づいて、前記入力文に含まれる敬体表現を常体表現に変換するステップと、を含み、前記ルールは、
    前記処理対象形態素より1つ前又は2つ前に出現する形態素の品詞が名詞類であり、かつ、疑問終助詞が後続するか否かに応じた第1の変換ルールを含むことを特徴とする文体変換方法。

  10. コンピュータを、請求項1から8のいずれかに記載の文体変換装置の各手段として機能させるためのプログラム。
JP2017009078A 2017-01-23 2017-01-23 文体変換装置、方法、及びプログラム Active JP6472466B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017009078A JP6472466B2 (ja) 2017-01-23 2017-01-23 文体変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017009078A JP6472466B2 (ja) 2017-01-23 2017-01-23 文体変換装置、方法、及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014227573A Division JP6116014B2 (ja) 2014-11-07 2014-11-07 文体変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017068879A JP2017068879A (ja) 2017-04-06
JP6472466B2 true JP6472466B2 (ja) 2019-02-20

Family

ID=58492721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017009078A Active JP6472466B2 (ja) 2017-01-23 2017-01-23 文体変換装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6472466B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2790886B2 (ja) * 1990-02-26 1998-08-27 日本電信電話株式会社 日本語文推敲装置
JP2616108B2 (ja) * 1990-03-09 1997-06-04 松下電器産業株式会社 文末処理方法および文末処理装置
JPH05314171A (ja) * 1992-05-07 1993-11-26 Nippon Telegr & Teleph Corp <Ntt> 日本語記述文口語文変換方式
JP4041875B2 (ja) * 2001-07-06 2008-02-06 独立行政法人情報通信研究機構 文章語文体変換システムおよび文章語文体変換処理プログラム
JP3932350B2 (ja) * 2001-07-06 2007-06-20 独立行政法人情報通信研究機構 言語変換処理統一システム
JP5589915B2 (ja) * 2011-03-16 2014-09-17 富士通株式会社 情報処理装置の制御方法、制御プログラム及び情報処理装置

Also Published As

Publication number Publication date
JP2017068879A (ja) 2017-04-06

Similar Documents

Publication Publication Date Title
Pennell et al. Normalization of text messages for text-to-speech
Hadni et al. Hybrid part-of-speech tagger for non-vocalized Arabic text
Maamouri et al. Developing and Using a Pilot Dialectal Arabic Treebank.
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
Nicolai et al. Leveraging Inflection Tables for Stemming and Lemmatization.
Rasooli et al. Unsupervised morphology-based vocabulary expansion
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP6472466B2 (ja) 文体変換装置、方法、及びプログラム
JP6116014B2 (ja) 文体変換装置、方法、及びプログラム
JP2016218848A (ja) 言語表現書き換え装置、方法、及びプログラム
JP6058563B2 (ja) モデル学習装置、フィルタ装置、方法、及びプログラム
CN106294310B (zh) 一种藏语声调预测方法及系统
JP2015095182A (ja) 文字列処理装置、方法、及びプログラム
JP6325789B2 (ja) 翻訳装置及び翻訳プログラム
CN113158693A (zh) 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
JP2017151902A (ja) 書き換え装置、印象評価装置、方法、及びプログラム
JP2006243976A (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Gurusamy et al. Stemming techniques for tamil language
KR101604553B1 (ko) 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법
Mahanta et al. Entity recognition in assamese text
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction
JP2019087058A (ja) 文章中の省略を特定する人工知能装置
Khorsi et al. Unsupervised detection of morpheme boundaries
JP6915373B2 (ja) 評価プログラム、評価方法及び評価装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180410

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20180511

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180605

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20180605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190122

R150 Certificate of patent or registration of utility model

Ref document number: 6472466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150