JP5722375B2 - 文末表現変換装置、方法、及びプログラム - Google Patents

文末表現変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP5722375B2
JP5722375B2 JP2013064961A JP2013064961A JP5722375B2 JP 5722375 B2 JP5722375 B2 JP 5722375B2 JP 2013064961 A JP2013064961 A JP 2013064961A JP 2013064961 A JP2013064961 A JP 2013064961A JP 5722375 B2 JP5722375 B2 JP 5722375B2
Authority
JP
Japan
Prior art keywords
sentence
expression
conversion
attribute
sentence ending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013064961A
Other languages
English (en)
Other versions
JP2014191484A (ja
Inventor
千明 宮崎
千明 宮崎
平野 徹
徹 平野
東中 竜一郎
竜一郎 東中
牧野 俊朗
俊朗 牧野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013064961A priority Critical patent/JP5722375B2/ja
Publication of JP2014191484A publication Critical patent/JP2014191484A/ja
Application granted granted Critical
Publication of JP5722375B2 publication Critical patent/JP5722375B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文末表現変換装置、方法、及びプログラムに関する。
従来、日本語による文の語彙や構文を変換する技術が提案されている。例えば、文体及び難易度を考慮しつつ、機能表現(機能語とその複合辞)を意味的に等価な別の機能表現に変換する技術が提案されている(例えば、非特許文献1参照)。非特許文献1に記載の技術では、各機能表現に対して詳細な情報が記述された「機能表現辞書」を用いて、機能表現の変換を行っている。この機能表現辞書は、機能表現の全ての異形(表記のゆれ)のリストを備えている。また、各機能表現は、変換可能性の観点から設定した「大まかな意味を保つ」、「多くの文脈において変換しても不自然ではない」、及び「ほとんど全ての文脈において変換可能である」という3階層の意味階層に分類されている。さらに、各機能表現には、文体(常体、敬体、口語体、及び堅い文体)の情報、及び「日本語能力試験出題基準」に基づいた難易度の情報が付与されている。非特許文献1に記載の技術では、この機能表現辞書を用いることにより、意味を保持したまま機能表現の文体及び難易度のみを変更する変換を行っている。
また、文を変換することにより、変換後の文にキャラクタ性を持たせる技術も提案されている。例えば、標準語による文から方言による文へ変換する技術が提案されている(例えば、非特許文献2参照)。非特許文献2に記載の技術では、方言話者に作成させた標準語から方言への翻訳文を用いて、標準語と方言とで使用される単語の対応付けを記した辞書を作成し、この辞書に基づいて、標準語による文に含まれる単語を方言で使用される単語に置換している。
松吉 俊、佐藤 理史、"文体と難易度を制御可能な日本語機能表現の変換"、自然言語処理15(2)、75−99、2008. 石橋 季之、天野 真家、"共通語方言変換"、全国大会講演論文集 第70回平成20年(2)、一般社団法人情報処理学会、"2−191"−"2−192"、2008−03−13.
しかし、非特許文献1に記載の技術のように、詳細な情報が記述された辞書を作成するには、高度な言語学的知識及び膨大な作業コストを要するため、各地の方言や多様な人物属性毎の言い回しなどに対応した辞書を個別に作成することは難しい。従って、辞書のみに依存した手法で、変換後の文にキャラクタ性を持たせるような変換処理を実現することは困難である。
また、非特許文献2に記載の技術も、非特許文献1に記載の技術と同様に、変換に必要な情報(変換可能性または意味的等価性)を事前に人手でリスト化しておく必要があり、各地の方言や多様な人物属性に応じた変換を実現するためには、膨大な作業コストを要する。
さらに、文の文末に表れる文末表現を変換の対象とする場合には、世の中で使用される文末表現に含まれる語彙が、方言や著者(話者)の人物属性によって異なることや、さらに、促音(っ)、音引き(ー)、小文字(ぁ、ぃ、ぅ、ぇ、ぉ)等の挿入が行われることなどから、変換前の文末表現に対する全ての異形を列挙すると、表記のバリエーションは膨大な数になる。よって、多様な文末表現を全て人手で列挙することは不可能である。さらに、変換後の文のキャラクタ性を想定して、方言や著者の人物属性の全てに対応させて、文末表現の変換に必要な詳細情報を記載した辞書を人手で作成することは現実的ではない。
本発明は、上記の事情を鑑みてなされたものであり、人手による作業コストをかけることなく、変換後の文が所望のキャラクタ性を有するように、文末表現を変換することができる文末表現変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の文末表現変換装置は、日本語による文の文末に表れる文末表現、及び該文末表現の直前の形態素の品詞を含む文末表現情報を抽出する文末表現抽出手段と、複数の日本語による文の各々から抽出された複数の文末表現情報のうち、該複数の文末表現情報の各々に含まれる文末表現の直前の形態素の品詞と、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の直前の形態素の品詞とが一致する文末表現情報に含まれる文末表現を、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の変換候補として選択する変換候補選択手段と、著者の属性を含む著者情報が付与された複数の日本語による文の各々から抽出された複数の文末表現と著者の属性との対応関係から、出現比率の比較に用いられる指標に基づいて特定された属性毎に特徴的に表れる文末表現に基づいて、前記変換候補の各々に属性を付与する属性付与手段と、前記変換候補のうち、付与された属性が、変換後の文の著者の属性として予め設定された属性に一致する変換候補を選択し、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現を、選択した前記変換候補に変換する変換手段と、を含んで構成されている。
本発明の文末表現変換装置によれば、文末表現抽出手段が、日本語による文の文末に表れる文末表現、及び文末表現の直前の形態素の品詞を含む文末表現情報を抽出する。また、変換候補選択手段が、複数の日本語による文の各々から抽出された複数の文末表現情報のうち、複数の文末表現情報の各々に含まれる文末表現の直前の形態素の品詞と、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の直前の形態素の品詞とが一致する文末表現情報に含まれる文末表現を、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の変換候補として選択する。そして、属性付与手段が、著者の属性を含む著者情報が付与された複数の日本語による文の各々から抽出された複数の文末表現と著者の属性との対応関係から、出現比率の比較に用いられる指標に基づいて特定された属性毎に特徴的に表れる文末表現に基づいて、変換候補の各々に属性を付与し、変換手段が、変換候補のうち、付与された属性が、変換後の文の著者の属性として予め設定された属性に一致する変換候補を選択し、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現を、選択した変換候補に変換する。
このように、複数の文から抽出された複数の文末表現情報に基づいて変換候補を選択し、複数の著者情報付きの文から得られた属性毎に特徴的に表れる文末表現に基づいて変換候補の各々に付与された属性が設定された属性と一致する変換候補を選択するため、人手による作業コストをかけることなく、変換後の文が所望のキャラクタ性を有するように、文末表現を変換することができる。
また、前記属性毎に特徴的に表れる文末表現は、前記文末表現と著者の属性との対応関係の出現比率に基づいて抽出することができる。このように、複数の著者情報付きの文から、自動的に属性毎に特徴的に表れる文末表現を抽出することができる。
また、前記変換手段は、前記付与された属性が前記予め設定された属性に一致する変換候補のうち、前記付与された属性に対応する前記文末表現と著者の属性との対応関係が示す統計的指標が最も高い変換候補を選択することができる。これにより、所望のキャラクタ性をより適切に表した文に変換することができる。
また、前記変換候補選択手段は、前記変換候補のうち、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現が表すテンスまたはモダリティと一致するテンスまたはモダリティを表す変換候補を選択することができる。これにより、対話システムなどの対話行為に影響を与える要素が変更されることを防止することができる。
また、前記文末表現抽出手段は、前記文末表現の品詞をさらに含む文末表現情報を抽出し、前記変換候補選択手段は、複数の日本語による文の各々から抽出された複数の文末表現情報のうち、該複数の文末表現情報の各々に含まれる文末表現の品詞及び文末表現の直前の形態素の品詞と、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の品詞及び文末表現の直前の形態素の品詞とが一致する文末表現情報に含まれる文末表現を、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の変換候補として選択することができる。また、前記変換候補選択手段は、前記文末表現が複数の形態素を含む場合は、前記文末表現に含まれる形態素の品詞の少なくとも1つが一致する場合に、前記文末表現の品詞が一致すると判定することができる。変換候補の選択の際に、文末表現の品詞の一致を判定しない場合には、より多くの変換候補を選択することができ、文末表現の品詞の一致を判定する場合には、非文法的な変換候補が選択されてしまうことを抑制することができる。
また、本発明の文末表現変換方法は、文末表現抽出手段と、変換候補選択手段と、属性付与手段と、変換手段とを含む文末表現変換装置における文末表現変換方法であって、前記文末表現抽出手段が、日本語による文の文末に表れる文末表現、及び該文末表現の直前の形態素の品詞を含む文末表現情報を抽出し、前記変換候補選択手段が、複数の日本語による文の各々から抽出された複数の文末表現情報のうち、該複数の文末表現情報の各々に含まれる文末表現の直前の形態素の品詞と、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の直前の形態素の品詞とが一致する文末表現情報に含まれる文末表現を、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の変換候補として選択し、前記属性付与手段が、著者の属性を含む著者情報が付与された複数の日本語による文の各々から抽出された複数の文末表現と著者の属性との対応関係から、出現比率の比較に用いられる指標に基づいて特定された属性毎に特徴的に表れる文末表現に基づいて、前記変換候補の各々に属性を付与し、前記変換手段が、前記変換候補のうち、付与された属性が、変換後の文の著者の属性として予め設定された属性に一致する変換候補を選択し、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現を、選択した前記変換候補に変換する方法である。
また、本発明の文末表現変換プログラムは、コンピュータを、上記の文末表現変換装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の文末表現変換装置、方法、及びプログラムによれば、複数の文から抽出された複数の文末表現情報に基づいて変換候補を選択し、複数の著者情報付きの文から得られた属性毎に特徴的に表れる文末表現に基づいて変換候補の各々に付与された属性が設定された属性と一致する変換候補を選択するため、人手による作業コストをかけることなく、変換後の文が所望のキャラクタ性を有するように、文末表現を変換することができる、という効果が得られる。
本実施の形態に係る文末表現変換装置の機能的な構成例を示すブロック図である。 著者属性リストの一例を示すイメージ図である。 文末表現リストの一例を示すイメージ図である。 文末表現使用著者リストの一例を示すイメージ図である。 特徴的文末表現リストの一例を示すイメージ図である。 テンス、モダリティ等リストの一例を示すイメージ図である。 変換候補リストの一例を示すイメージ図である。 属性及びカイ二乗値が付与された変換候補リストの一例を示すイメージ図である。 本実施の形態におけるリスト作成処理を示すフローチャートである。 本実施の形態における変換処理を示すフローチャートである。
以下、図面を参照して、本発明の実施の形態を詳細に説明する。
本実施の形態に係る文末表現変換装置10は、CPUと、RAMと、後述するリスト作成処理及び変換処理を含む文末表現変換処理を実行するためのプログラムを記憶したROMとを備えたコンピュータで構成される。このコンピュータは、機能的には、図1に示すように、リスト作成部20と変換部30とを含んだ構成で表すことができる。さらに、リスト作成部20は、文末表現抽出部21と、特徴的文末表現抽出部22とを含んだ構成で表すことができる。また、変換部30は、文末表現抽出部21と、変換候補選択部31と、属性付与部32と、変換結果出力部33とを含んだ構成で表すことができる。なお、文末表現抽出部21は、リスト作成部20及び変換部30の両方に共通の機能部である。以下、各部について詳述する。
文末表現抽出部21は、文(テキストデータ)を入力として受け付け、文から文末表現、文末表現の品詞、及び文末表現の直前の形態素の品詞を含む文末表現情報を抽出する。
具体的には、文末表現抽出部21は、入力された文を形態素解析し、文末から見て初出の内容語より後ろの形態素列を文末表現として抽出する。例えば、品詞が名詞、形容詞、動詞等で、その単語のみで具体的な意味を持つ単語(形態素)を内容語として識別することができる。例えば、「今日はいい天気ですね」という文が入力された場合、文末から見て初出の内容語は名詞の「天気」となり、その後ろの形態素列である「ですね」を文末表現として抽出する。また、文末表現抽出部21は、文末表現の品詞を、形態素解析結果から抽出する。上記の例では、文末表現「ですね」に含まれる形態素「です」の品詞「判定詞:終止」と、「ね」の品詞「終助詞」とを結合した「判定詞:終止_終助詞」を文末表現の品詞として抽出する。さらに、文末表現抽出部21は、文末表現の直前の形態素の品詞を、形態素解析結果から抽出する。上記の例では、文末表現「ですね」の直前の形態素「天気」の品詞である「名詞」を抽出する。
なお、記号や英文字は文末表現に含めないようにしてもよい。また、顔文字を文末表現の一種として扱う場合など、必要に応じて記号や英文字を文末表現に含めるようにしてもよい。
ここで、文末表現抽出部21が、リスト作成部20の機能部として機能する場合には、文末表現抽出部21は、入力として文集合41及び著者情報付き文集合42を受け付ける。
文集合41は、Webなどから収集した大量の文(テキストデータ)の集合(コーパス)である。著者情報付き文集合42は、文集合41と同様、Webなどから収集した大量の文(テキストデータ)の集合であって、各文の著者を示す情報が対応付けられた文の集合(コーパス)である。また、著者情報付き文集合42には、各文に対応付けられた著者毎の属性を示す著者属性リストが含まれる。図2に著者属性リストの一例を示す。図2の例では、各著者の著者名に、属性として、性別(男性/女性)、年代(20歳未満、20代、30代、40歳以上)、及び居住地(東日本/西日本)が対応付けられている。なお、属性は、上記の例に限定されず、血液型、職業、出身地等、その他の属性を用いてもよい。また、その著者が特定のWebサービスの利用者か否か、その著者の特定の趣味(ある芸能人のファン、鉄道好き等)などを属性として利用してもよい。また、図2の例の「年代」及び「居住地」は、より詳細に区分した属性を用いてもよい。
文末表現抽出部21は、文集合41及び著者情報付き文集合42に含まれる各文から、上記の文末表現情報を抽出し、文末表現リスト25として、所定の記憶領域に記憶する。図3に、文末表現リスト25の一例を示す。図3の例では、「直前の形態素の品詞」列に、文末表現及び文末表現の品詞が同一の文末表現情報に含まれる文末表現の直前の形態素の品詞がまとめて記載されている。
また、文末表現抽出部21は、著者情報付き文集合42に含まれる各文から抽出した文末表現に、その文末表現を使用した著者名として、各文の著者名を対応付けた文末表現使用著者リストを作成する。図4に、文末表現使用著者リストの一例を示す。図4の例では、「文末表現を使用した著者名」列に、同一の文末表現を使用した著者名がまとめて記載されている。また、著者名は、図2に示した著者属性リストの著者名と対応している。
なお、文末表現抽出部21が、変換部30の機能部として機能する場合には、文末表現の変換対象となる入力文(テキストデータ)を受け付け、上記の文末表現情報を抽出すればよい。以下では、変換対象の入力文から抽出された文末表現情報を、「変換対象文末表現情報」といい、変換対象文末表現情報に含まれる文末表現を、「変換対象文末表現」という。
特徴的文末表現抽出部22は、文末表現抽出部21で作成された文末表現使用著者リスト、及び著者情報付き文集合42に含まれる著者属性リストを入力として受け付け、著者の属性毎に偏って多く使用される文末表現を、属性毎の特徴的な文末表現として抽出する。
具体的には、特徴的文末表現抽出部22は、文末表現使用著者リスト及び著者属性リストに基づいて、各文末表現がどのような属性の人物によって使用されたかの対応付けを行う。例えば、図4に示す文末表現使用者リストに含まれる文末表現「あんの」について、文末表現を使用した著者名「000_kitsune」の属性を、図2の著者属性リストから取得する。ここでは、「性別:女性」、「年代:20歳未満」、及び「居住地:西日本」という属性が取得される。この各属性を文末表現「あんの」に対応付けることにより、文末表現と属性とのペアを作成する。ここでは、「あんの−性別:女性」、「あんの−年代:20歳未満」、及び「あんの−居住地:西日本」という文末表現と属性とのペアが作成される。この文末表現と属性とのペアの作成を、各文末表現を使用した全ての著者について行い、作成された複数の文末表現と属性とのペアについて、同じ文末表現と属性とのペアの数を集計する。
なお、ここでは、文末表現と著者名とを対応付けた文末表現使用著者リストを作成してから、文末表現と属性との対応付けを行う場合について説明したが、文末表現抽出部21で抽出された文末表現に、著者の属性を直接対応付けてもよい。
さらに、特徴的文末表現抽出部22は、文末表現と属性とのペアの集計結果を用いて、例えば有意水準を1%とするカイ二乗検定により、属性毎の特徴的な文末表現を抽出する。例えば、「A」という文末表現について、「A−性別:男性」ペアの出現回数がx、「A−性別:女性」の出現回数がy(y>x)の場合を考える。期待値を(x+y)/2として計算したカイ二乗値が有意水準における値を超えている場合には、文末表現「A」は、男性または女性のいずれかに偏って多く使われていると言えるため、文末表現「A」を、出現回数が多い方のペアに含まれる属性(ここでは、女性)における特徴的な文末表現として抽出する。
なお、有意水準はデータや目的に応じて変更可能である。また、属性毎の特徴的な文末表現は、カイ二乗検定により抽出する場合に限定されず、tスコアや対数尤度比など、出現比率の比較に用いられる指標ならどのような指標を用いてもよい。特徴的文末表現抽出部22は、抽出した属性毎の特徴的な文末表現を、特徴的文末表現リスト26として作成し、所定の記憶領域に記憶する。図5に、特徴的文末表現リスト26の一例を示す。図5の例では、抽出された属性毎の特徴的な文末表現及び属性と共に、カイ二乗検定の際に計算したカイ二乗値も含まれる。
変換候補選択部31は、文末表現抽出部21で入力文から抽出された変換対象文末表現情報を入力として受け付け、変換対象文末表現情報に含まれる変換対象文末表現の変換候補を選択する。
具体的には、変換候補選択部31は、変換対象文末表現情報と、文末表現リスト25に含まれる各文末表現情報と照合する。そして、変換対象文末表現情報に含まれる変換対象文末表現の品詞及び直前の形態素の品詞と、文末表現の品詞及び直前の形態素の品詞とが一致する文末表現リスト25内の文末表現情報に含まれる文末表現を、変換対象文末表現の変換候補として選択する。
例えば、入力文が「明日はいい天気になるかな」の場合、文末表現抽出部21により、動詞「なる」の活用語尾以降の「るかな」が変換対象文末表現として抽出され、「活用語尾_終助詞」が文末表現の品詞として抽出され、「動詞語幹」が文末表現の直前の形態素の品詞として抽出される。従って、文末表現リスト25内の文末表現情報のうち、文末表現の品詞が「活用語尾_終助詞」で、直前の形態素の品詞が「動詞語幹」の文末表現情報に含まれる文末表現を変換候補として選択する。
なお、文末表現の品詞が一致するか否かを判定する際には、文末表現に含まれる全形態素の品詞が一致した場合のみ文末表現の品詞が一致すると判定してもよいし、文末表現に含まれる先頭の形態素の品詞など、少なくとも1つの形態素の品詞が一致していれば、文末表現の品詞が一致すると判定してもよい。一致させる品詞の個数を増やすことにより、非文法的な変換候補が選択されることを抑制することができる。また、方言や著者のキャラクタによっては、文末表現の品詞が誤って解析される場合もある。このような形態素解析が困難な文末表現を扱う場合には、文末表現の品詞が一致しない場合でも、変換候補として選択するようにしてもよい。すなわち、文末表現の直前の形態素の品詞の一致のみで、変換候補を選択してもよい。これにより、形態素解析が困難な文末表現を扱う場合でも、より多くの変換候補を選択することができる。
また、変換候補選択部31は、文末表現に表れるテンス(完了や継続などの時制を表す言語表現)やモダリティ(疑問、推量、否定、経験、依頼、勧誘などの著者の判断や感じ方を表す言語表現)に基づいて、変換候補を選択してもよい。具体的には、例えば図6に示すようなテンス、モダリティ等リストを参照して、変換対象文末表現及び文末表現リスト25内の各文末表現にテンス・モダリティ等を表す形態素が含まれているか否かを照合する。照合の結果、変換対象文末表現にテンス、モダリティ等を表す形態素が含まれていた場合は、変換対象文末表現に含まれるテンス、モダリティを表す形態素と同じ形態素が含まれる文末表現のみを、変換候補として選択する。
例えば、入力文が上記の「明日はいい天気になるかな」の場合、変換対象文末表現「るかな」に含まれる「かな」という形態素が「疑問」のモダリティを表す。そこで、上記のように、文末表現リスト25内の文末表現情報のうち、文末表現の品詞が「活用語尾_終助詞」で、直前の形態素の品詞が「動詞語幹」の文末表現情報に含まれる文末表現であって、「疑問」のモダリティを表す形態素を含む文末表現を、変換候補として選択する。
テンスやモダリティに基づいて変換候補を選択することにより、質問回答や情報提供などの対話行為を行う対話システムなどにおいて、対話行為に影響を与える要素が変更されることを防止することができる。なお、本実施の形態に係る文末表現変換装置10を、対話行為の変更に配慮しなくてもよいシステムに適用する場合には、テンスやモダリティに基づく変換候補の選択は、省略してもよい。
変換候補選択部31は、例えば図7に示すような、選択した変換候補の各々をリスト化した変換候補リストを出力する。図7の例では、入力文の変換対象文末表現より前の形態素列(図7中の「入力文の文末表現より前」)と共に、変換候補の各々をリスト化している。
属性付与部32は、変換候補選択部31から出力された変換候補リストを入力として受け付け、特徴的文末表現リスト26に含まれる文末表現から変換候補と一致する文末表現を抽出し、抽出した文末表現に対応付けられている属性を、変換候補の各々に付与する。変換候補と一致する文末表現が特徴的文末表現リスト26内に複数存在する場合には、対応する複数の属性を変換候補に付与する。図8に、変換候補リストに含まれる変換候補の各々に属性を付与した一例を示す。図8の例では、特徴的文末表現リスト26に含まれるカイ二乗値も合わせて付与している。
なお、特徴的文末表現リスト26に、各変換候補と同一の文末表現が存在しない場合には、変換候補を形態素に分割して、形態素の1〜N−gramを作り、1〜N−gramが一致する文末表現が特徴的文末表現リスト26に存在すれば、その文末表現に対応する属性を変換候補に付与するようにしてもよい。
変換結果出力部33は、入力文、変換後の文の著者の属性を示す著者属性、及び属性が付与された変換候補リストを入力として受け付け、付与された属性が入力された著者属性に一致する変換候補を、変換結果として決定する。属性が一致する変換候補が複数存在する場合には、カイ二乗値が最も高い変換候補を、変換結果として決定する。そして、変換結果出力部33は、入力文の変換対象文末表現より前の形態素列と、決定した変換結果とを結合した出力文を生成して、出力する。
例えば、「明日はいい天気になるかな」という入力文、及び「女性」という著者属性が入力された場合、図8の例では、変換候補の中から、属性が「女性」でありカイ二乗値が最も高い「る_かしら」という変換候補を変換結果として決定し、「明日はいい天気になるかしら」という変換後の出力文を出力する。
なお、属性が一致する変換候補が複数存在する場合には、カイ二乗値等の出現比率を示す指標に基づいて変換結果を決定する場合に限定されず、ランダムに決定したり、出現比率を示す指標以外の統計的指標に基づいて、決定したりしてもよい。出現比率を示す指標以外の統計的指標としては、例えば、変換候補とその変換候補に付与された属性とのペアの著者情報付き文集合42における出現頻度を用いることができる。出現頻度が高い変換候補を選択することで、より一般的な文末表現を選択することができる。また、その他の統計的指標として、例えば、著者情報付き文集合42における、変換候補とその変換候補に付与された属性とのペアと同一の文末表現と属性とのペア部分の直前の形態素の異なり数を用いてもよい。直前の形態素の異なり数が多い変換候補を選択することにより、様々な表現に後続できる、すなわち、どんな文脈にも適応できる可能性が高い文末表現を選択することができる。
また、著者属性は、入力された情報を受け付ける場合に限定されず、予め設定された著者属性を用いてもよいし、予め用意した複数の著者属性からランダムに選択したり、所定のルールに従って選択したりした著者属性を用いてもよい。
次に、本実施の形態に係る文末表現変換装置10の作用について説明する。文末表現変換装置10に文集合41及び著者情報付き文集合42が入力されると、リスト作成部20により、図9に示すリスト作成処理が実行される。また、文末表現変換装置10に入力文及び著者属性が入力されると、変換部30により、図10に示す変換処理が実行される。以下、各処理について詳述する。
まず、リスト作成処理のステップ100で、文末表現抽出部21が、文集合41及び著者情報付き文集合42に含まれる各文を形態素解析し、文末から見て初出の内容語より後ろの形態素列を文末表現として抽出し、文末表現に含まれる形態素の品詞列を文末表現の品詞として抽出し、文末表現の直前の形態素の品詞を抽出する。文末表現抽出部21は、抽出した文末表現、文末表現の品詞、及び直前の形態素の品詞を含む文末表現情報を、例えば図3に示すような文末表現リスト25として、所定の記憶領域に記憶する。
次に、ステップ102で、文末表現抽出部21が、著者情報付き文集合42に含まれる各文から抽出した文末表現に、その文末表現を使用した著者名として、各文の著者名を対応付け、例えば図4に示すような文末表現使用著者リストを作成する。
次に、ステップ104で、特徴的文末表現抽出部22が、上記ステップ102で作成された文末表現使用著者リスト、及び著者情報付き文集合42に含まれる、例えば図2に示すような著者属性リストに基づいて、文末表現使用著者リストに含まれる各文末表現に属性を対応付けた文末表現と属性とのペアを作成する。
次に、ステップ106で、特徴的文末表現抽出部22が、上記ステップ104で作成した文末表現と属性とのペアを集計し、例えばカイ二乗検定により、属性毎に偏って多く使用される特徴的な文末表現を抽出する。特徴的文末表現抽出部22は、抽出した属性毎の特徴的な文末表現に、例えばカイ二乗検定の際に計算したカイ二乗値を付与して、例えば図5に示すような特徴的文末表現リスト26として作成し、所定の記憶領域に記憶し、リスト作成処理を終了する。
次に、変換処理のステップ110で、文末表現抽出部21が、入力文から変換対象文末表現情報を抽出する。
次に、ステップ112で、変換候補選択部31が、上記ステップ110で抽出された変換対象文末表現情報と、文末表現リスト25に含まれる各文末表現情報と照合する。そして、変換対象文末表現情報に含まれる変換対象文末表現の品詞及び直前の形態素の品詞と、文末表現の品詞及び直前の形態素の品詞とが一致する文末表現リスト25内の文末表現情報に含まれる文末表現を、変換対象文末表現の変換候補として選択する。
次に、ステップ114で、変換候補選択部31が、例えば図6に示すようなテンス、モダリティ等リストを参照して、上記ステップ112で選択した変換候補のうち、変換対象文末表現に含まれるテンス、モダリティを表す形態素と同じ形態素が含まれる変換候補を選択する。変換候補選択部31は、例えば図7に示すような、選択した変換候補の各々をリスト化した変換候補リストを出力する。
次に、ステップ116で、属性付与部32が、上記ステップ114で出力された変換候補リストに含まれる変換候補の各々に、特徴的文末表現リスト26を参照して、属性及びカイ二乗値を付与する。
次に、ステップ118で、変換結果出力部33が、付与された属性が入力された著者属性に一致する変換候補のうち、カイ二乗値が最も高い変換候補を、変換結果として決定する。そして、変換結果出力部33が、入力文の変換対象文末表現より前の形態素列と、決定した変換結果とを結合した出力文を生成して出力し、変換処理を終了する。
以上説明したように、本実施の形態に係る文末表現変換装置によれば、Webなどから収集した大量のテキストデータである文集合から抽出された複数の文末表現から、少なくとも文末表現の直前の品詞が一致する変換候補を選択し、著者の属性毎に偏って多く使用される特徴的な文末表現に基づいて付与した属性が、所望の著者属性に一致する変換候補を選択する。著者の属性毎に偏って多く使用される特徴的な文末表現は、Webなどから収集した大量のテキストデータである著者情報付きの文集合から自動的に抽出しておくことができ、多様な属性に適用することができる。従って、人手による作業コストをかけることなく、変換後の文が所望のキャラクタ性を有するように、文末表現を変換することができる。
対話システムに本発明を適用すると、システムで生成する応答文にキャラクタ性を持たせることが可能となり、対話システムをより人間らしく親しみ易い存在にすることができる。また、WebページにおけるクチコミやQ&Aなどのテキストデータの要約に本発明を適用すると、方言や性別、年代を異にする複数の人物が書いた投稿内容に表れるキャラクタ性を統一することが可能になり、複数の人物が書いた文から成るものだと気付かせない、より自然な要約文を生成できるようになる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記実施の形態では、Webなどから収集したテキストデータである文を入力する場合について説明したが、ここでの「文」は日本語で記述された文であればよく、話者による発話を、書き起こしや音声認識によってテキスト化したものであってもよい。この場合、話者の属性を上記実施の形態における著者の属性として用いればよい。また、テキストデータではなく、音声データを入力するようにしもよい。この場合、文末表現抽出部の前に、音声認識部を設けるようにするとよい。また、出力文もテキストデータで出力する場合に限定されず、音声合成して音声データとして出力するようにしてもよい。
また、上記実施の形態では、リスト作成部と変換部とが同一のコンピュータで構成される場合について説明したが、別々のコンピュータで構成するようにしてもよい。この場合、リスト作成部を構成するコンピュータにより作成された文末表現リスト及び特徴的文末表現リストを、変換部を構成するコンピュータで読み込んで、上記の変換処理を実行するようにするとよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 文末表現変換装置
20 リスト作成部
21 文末表現抽出部
22 特徴的文末表現抽出部
25 文末表現リスト
26 特徴的文末表現リスト
30 変換部
31 変換候補選択部
32 属性付与部
33 変換結果出力部
41 文集合
42 著者情報付き文集合

Claims (8)

  1. 日本語による文の文末に表れる文末表現、及び該文末表現の直前の形態素の品詞を含む文末表現情報を抽出する文末表現抽出手段と、
    複数の日本語による文の各々から抽出された複数の文末表現情報のうち、該複数の文末表現情報の各々に含まれる文末表現の直前の形態素の品詞と、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の直前の形態素の品詞とが一致する文末表現情報に含まれる文末表現を、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の変換候補として選択する変換候補選択手段と、
    著者の属性を含む著者情報が付与された複数の日本語による文の各々から抽出された複数の文末表現と著者の属性との対応関係から、出現比率の比較に用いられる指標に基づいて特定された属性毎に特徴的に表れる文末表現に基づいて、前記変換候補の各々に属性を付与する属性付与手段と、
    前記変換候補のうち、付与された属性が、変換後の文の著者の属性として予め設定された属性に一致する変換候補を選択し、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現を、選択した前記変換候補に変換する変換手段と、
    を含む文末表現変換装置。
  2. 前記属性毎に特徴的に表れる文末表現は、前記文末表現と著者の属性との対応関係の出現比率に基づいて抽出される請求項1記載の文末表現変換装置。
  3. 前記変換手段は、前記付与された属性が前記予め設定された属性に一致する変換候補のうち、前記付与された属性に対応する前記文末表現と著者の属性との対応関係が示す統計的指標が最も高い変換候補を選択する請求項2記載の文末表現変換装置。
  4. 前記変換候補選択手段は、前記変換候補のうち、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現が表すテンスまたはモダリティと一致するテンスまたはモダリティを表す変換候補を選択する請求項1〜請求項3のいずれか1項記載の文末表現変換装置。
  5. 前記文末表現抽出手段は、前記文末表現の品詞をさらに含む文末表現情報を抽出し、
    前記変換候補選択手段は、複数の日本語による文の各々から抽出された複数の文末表現情報のうち、該複数の文末表現情報の各々に含まれる文末表現の品詞及び文末表現の直前の形態素の品詞と、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の品詞及び文末表現の直前の形態素の品詞とが一致する文末表現情報に含まれる文末表現を、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の変換候補として選択する
    請求項1〜請求項4のいずれか1項記載の文末表現変換装置。
  6. 前記変換候補選択手段は、前記文末表現が複数の形態素を含む場合は、前記文末表現に含まれる形態素の品詞の少なくとも1つが一致する場合に、前記文末表現の品詞が一致すると判定する請求項5記載の文末表現変換装置。
  7. 文末表現抽出手段と、変換候補選択手段と、属性付与手段と、変換手段とを含む文末表現変換装置における文末表現変換方法であって、
    前記文末表現抽出手段が、日本語による文の文末に表れる文末表現、及び該文末表現の直前の形態素の品詞を含む文末表現情報を抽出し、
    前記変換候補選択手段が、複数の日本語による文の各々から抽出された複数の文末表現情報のうち、該複数の文末表現情報の各々に含まれる文末表現の直前の形態素の品詞と、変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の直前の形態素の品詞とが一致する文末表現情報に含まれる文末表現を、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現の変換候補として選択し、
    前記属性付与手段が、著者の属性を含む著者情報が付与された複数の日本語による文の各々から抽出された複数の文末表現と著者の属性との対応関係から、出現比率の比較に用いられる指標に基づいて特定された属性毎に特徴的に表れる文末表現に基づいて、前記変換候補の各々に属性を付与し、
    前記変換手段が、前記変換候補のうち、付与された属性が、変換後の文の著者の属性として予め設定された属性に一致する変換候補を選択し、前記変換対象の日本語による文から抽出された文末表現情報に含まれる文末表現を、選択した前記変換候補に変換する
    文末表現変換方法。
  8. コンピュータを、請求項1〜請求項6のいずれか1項記載の文末表現変換装置を構成する各手段として機能させるための文末表現変換プログラム。
JP2013064961A 2013-03-26 2013-03-26 文末表現変換装置、方法、及びプログラム Active JP5722375B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013064961A JP5722375B2 (ja) 2013-03-26 2013-03-26 文末表現変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013064961A JP5722375B2 (ja) 2013-03-26 2013-03-26 文末表現変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014191484A JP2014191484A (ja) 2014-10-06
JP5722375B2 true JP5722375B2 (ja) 2015-05-20

Family

ID=51837707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013064961A Active JP5722375B2 (ja) 2013-03-26 2013-03-26 文末表現変換装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5722375B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6116014B2 (ja) * 2014-11-07 2017-04-19 日本電信電話株式会社 文体変換装置、方法、及びプログラム
JP6161656B2 (ja) * 2015-05-22 2017-07-12 日本電信電話株式会社 言語表現書き換え装置、方法、及びプログラム
JP6499555B2 (ja) * 2015-09-07 2019-04-10 日本電信電話株式会社 書き換え規則作成支援装置、方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5289261B2 (ja) * 2009-09-30 2013-09-11 ヤフー株式会社 文章変換装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2014191484A (ja) 2014-10-06

Similar Documents

Publication Publication Date Title
CN110462730B (zh) 促进以多种语言与自动化助理的端到端沟通
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
US9548052B2 (en) Ebook interaction using speech recognition
US20170199867A1 (en) Dialogue control system and dialogue control method
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
TW200900967A (en) Multi-mode input method editor
Adel et al. Features for factored language models for code-Switching speech.
Othman et al. English-asl gloss parallel corpus 2012: Aslg-pc12
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
WO2012079257A1 (zh) 机器翻译装置和方法
Zakharov Corpora of the Russian language
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
Foley et al. Comparing smartphone speech recognition and touchscreen typing for composition and transcription
JP5722375B2 (ja) 文末表現変換装置、方法、及びプログラム
Ablimit et al. A multilingual language processing tool for Uyghur, Kazak and Kirghiz
JP2005174325A (ja) 意味的速記のためのシステム及び方法
Sharma et al. Word prediction system for text entry in Hindi
US20230069113A1 (en) Text Summarization Method and Text Summarization System
Tran et al. Webnlg 2020 challenge: Semantic template mining for generating references from rdf
JP6325789B2 (ja) 翻訳装置及び翻訳プログラム
JP5718406B2 (ja) 発話文生成装置、対話装置、発話文生成方法、対話方法、発話文生成プログラム、及び対話プログラム
JP5872516B2 (ja) 文末表現抽出装置、文末表現変換装置、方法、及びプログラム
Tammanam et al. A hybrid approach to Pali Sandhi segmentation using BiLSTM and rule-based analysis.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140812

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150325

R150 Certificate of patent or registration of utility model

Ref document number: 5722375

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150