JP2008021093A - 文変換処理システム,文変換機能付きの翻訳処理システム,文変換機能付きの音声認識処理システム,および文変換機能付きの音声合成処理システム - Google Patents

文変換処理システム,文変換機能付きの翻訳処理システム,文変換機能付きの音声認識処理システム,および文変換機能付きの音声合成処理システム Download PDF

Info

Publication number
JP2008021093A
JP2008021093A JP2006191711A JP2006191711A JP2008021093A JP 2008021093 A JP2008021093 A JP 2008021093A JP 2006191711 A JP2006191711 A JP 2006191711A JP 2006191711 A JP2006191711 A JP 2006191711A JP 2008021093 A JP2008021093 A JP 2008021093A
Authority
JP
Japan
Prior art keywords
sentence
data
solution
case
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006191711A
Other languages
English (en)
Inventor
Maki Murata
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2006191711A priority Critical patent/JP2008021093A/ja
Publication of JP2008021093A publication Critical patent/JP2008021093A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 日本語の受身文・使役文を能動文に変換する際に機械学習方法を用いて変換後の格助詞を高精度に推定するシステムを提供する。
【解決手段】 解データ分割部101は,解データの問題から格助詞を特定し格助詞ごとの部分データを作成する。解−素性対生成部103は,部分データのもとの解データから素性を抽出し,部分データごとに素性の集合と解との組を生成する。機械学習部105は,所定の機械学習法により,部分データの素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかを学習し学習結果を学習結果データベース107に保存する。入力文分割部110は,対象の入力文3を格助詞で分割して入力文部分データを作成する。素性抽出部112は,入力文3から素性を抽出し,入力文部分データごとに素性の集合を生成する。解推定部は,学習結果をもとに,入力文部分データについて素性の集合の場合になりやすい解を推定し,変換文生成部116は,推定解をもとに変換文4を生成し出力する。
【選択図】 図1

Description

本発明は,コンピュータによって実現する自然言語処理技術に関する。さらに詳しくは,機械学習法を用いて,電子データ化された受身文や使役文を能動文へ,または,能動文を受身文や使役文へ文変換処理するシステムに関する。また,文変換機能を備えた翻訳処理システム,音声認識処理システム,および音声合成処理システムに関する。
受身文の能動文への変換は,文生成処理,言い換え処理,文の平易化/言語運用支援,自然言語文からの知識獲得や情報抽出,質問応答システムなどの多くの言語処理分野で役に立つものである。
例えば,質問応答システムでは,質問文が能動文であって,答えが受動文や使役文で書かれている場合に,質問文と答えを含む文とでは文構造が異なるために,質問の答えを取り出すのが困難な場合がある。このような問題も,受身文や使役文から能動文への変換処理を行うことにより解決することができる。このように,受身文と能動文との相互の変換は,自然言語処理において重要である。
図13に日本語の受身文・使役文の例,およびこれらの文に対応する能動文の例を示す。
図13(A)に示す文「犬に私が噛まれた。」の接尾辞「れた」は受身を示す助動詞であり,このような文を受身文と呼ぶ。また,図13(B)に示す文「彼が彼女に髪を切らせた。」の接尾辞「らせた」は使役を示す助動詞であり,このような文を使役文と呼ぶ。
日本語の受身文や使役文を能動文に文変換処理する際には,文変換後に用いる変換後格助詞を推定することが求められる。例えば,図13(A)の「犬に私が噛まれた。」という受身文から「犬が私を噛んだ。」という能動文に変換する場合に,(i)格助詞「に」は格助詞「が」に,(ii) 格助詞「が」は格助詞「を」に,それぞれ変換される。
また,図13(B)の「彼が彼女に髪を切らせた。」という使役文を「彼女が髪を切った。」という能動文に変換する場合に,「彼女に」の格助詞「に」が「が」に変換され,て,「髪を」の「を」は変換されない。
しかし,受身文や使役文から能動文への文変換処理における格助詞の変換は,変換される格助詞が動詞やその動詞の使われ方に依存して変わるので,簡単に自動処理できる問題ではない。
従来では,上記のような文変換処理において,どのように格助詞を変換すればよいかを記載した格フレーム辞書を用いて対処していた(例えば,非特許文献1および2参照)。
しかし,格フレーム辞書にすべての動詞とその動詞の使い方を記述しておくのは困難であるため,格フレーム辞書を用いる方法では,不十分であり,格フレーム辞書に記載されていない動詞や動詞の使い方がされた文を変換することができなかったり,誤変換する確率が高かったりするという問題が生じていた。
受身文・使役文から能動文への文変換処理における格助詞変換処理は,変換後の文で用いられる格助詞を決定することである。そして,変換後の格助詞の種類数は有限であるから,変換後の格助詞の推定問題は分類問題に帰着でき,機械学習手法を用いた処理として扱うことが可能である。この点に着目し,本発明者は,教師ありデータを使用する機械学習手法を用いて格助詞の変換を行なうことが可能な言語変換処理手法を発明した(特許文献1参照)。
特許文献1の手法では,解析対象についての情報(変換後格助詞など)を付与されていない文から生成されたデータ(教師なしデータ)を教師信号として機械学習を行う。これにより,大量に存在する通常の電子データ(文)を教師データとして利用することができ,解析対象についての情報を人手などにより付与するという労力負担を増加させることなく,高い精度の文変換処理を実現している。
Sadao Kurohashiand Makoto Nagao; A Method of Case Structure Analysis for Japanese Sentences based on Examples in Case Frame Dictionary; IEICE Transactions of Information and Systems, Vol.E77-D, No.2, 1994 近藤 恵子,佐藤 理史,奥村 学,「格変換による単文の言い換え」,情報処理学会論文誌,Vol.42, No.3, 2001年3月 特許第3780341号公報
特許文献1の手法は,従来の非特許文献1および2の手法に比べて高精度に格助詞を変換することができるが,さらに高性能な文変換処理を実現するためには,変換後の格助詞をより高精度に推定する必要がある。
本発明の目的は,日本語の受身文・使役文を能動文に,または能動文を受身文・使役文に変換処理する際に,機械学習方法を用いて変更されるべき格助詞を推定し,変換文を自動生成する処理システムを提供することである。
また,本発明の目的は,上記の高精度の文変換機能を備えた翻訳処理システム,音声認識処理システム,および音声合成処理システムを提供することである。
本発明は,文変換処理において,教師データを用いる機械学習処理を利用して,変換後の格助詞を推定する。
この機械学習処理において,例えば,入力文の変換前の格助詞が「に」であれば,学習データとして変換前の格助詞が「に」である文だけを用いる。また,入力文の変換前の格助詞が「が」であれば,学習データとして変換前の格助詞が「が」の文だけを用いる。
図14に,変換前の格助詞に対する変換後の格助詞の出現割合を示す。
図14に示すように,変換前の格助詞ごとに,出現頻度が高い変換後の格助詞として出現頻度の高い格助詞は異なる。変換前の格助詞が「に」のとき,変換後の格助詞として出現割合が高い格助詞は「に」と「が」である。一方,変換前の格助詞が「が」のとき,変換後の格助詞で出現割合が高いものは「を」である。
したがって,変換前の格助詞ごとに出現頻度の高い変換後の格助詞が異なるので,変換前の格助詞ごとに入力された文を分割し,変換前の格助詞ごとにそれぞれ学習データを作成し,格助詞の種類に分けた学習データごとに機械学習処理を行うことによって,学習制度の向上を図っている。
前記の目的に鑑み,本発明は,機械学習処理を用いて,受身文または使役文である文データを能動文の文データへの変換,または能動文の文データを受身文または使役文の文データへの変換のいずれか一方の変換を行う場合に,変換後の格助詞を推定する文変換処理システムであって,1)問題と解とで構成されたデータであって,文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と,2)前記解データの問題から格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と,3)前記部分データのもととなった解データの問題から,所定の解析処理によって素性を抽出し,前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と,4)所定の機械学習アルゴリズムにもとづいて,前記部分データに対する素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し,学習結果として,前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と,5)前記変換処理の対象として入力された入力文データから格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と,6)前記入力文データから所定の解析処理によって素性を抽出し,前記入力文部分データごとに素性の集合を生成する素性抽出手段と,7)前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて,前記入力文部分データについて,前記素性の集合の場合になりやすい解を推定する解推定手段とを備える。
本発明において,前記機械学習手段は,前記所定の機械学習アルゴリズムとして決定リスト法のアルゴリズムを使用し,前記素性の集合と解との組を規則とし,前記規則を所定の優先順位により格納したリストを前記学習結果として前記学習結果データ記憶手段に記憶し,前記解推定手段は,前記学習結果データ記憶手段に記憶された前記リストに格納された規則を優先順位の高い順に前記入力文部分データの素性の集合と比較し,素性が一致した規則の解を,前記入力文部分データの素性の集合のときになりやすい解として推定することを特徴とする。
または,本発明において,前記機械学習手段は,前記所定の機械学習アルゴリズムとして最大エントロピー法のアルゴリズムを使用し,前記素性の集合と解との組から,前記素性の集合が所定の条件式を満足しかつエントロピーを示す式を最大にするときの確率分布を前記学習結果データ記憶手段に記憶し,前記解推定手段は,前記学習結果データ記憶手段に記憶された前記確率分布をもとに,前記入力文部分データの素性の集合の場合の各分類の確率を求め,前記確率が最大の確率値を持つ分類を,前記入力文部分データの素性の集合のときになりやすい解として推定することを特徴とする。
さらに,本発明において,前記機械学習手段は,前記所定の機械学習アルゴリズムとしてサポートベクトルマシン法のアルゴリズムを使用し,前記素性の集合と解との組を用いて,所定のサポートベクトルマシン法による超平面を求め,前記超平面および前記超平面により分割された空間の分類を前記学習結果として前記学習結果データ記憶手段に記憶し,前記解推定手段は,前記学習結果データ記憶手段に記憶された前記超平面および前記超平面により分割された空間の分類をもとに,前記入力文部分データの素性の集合が前記超平面で分割された空間のいずれかに属するかを求め,前記素性の集合が属する空間の分類を前記入力文データの素性の集合の場合になりやすい解として推定することを特徴とする。
また,本発明は,第一の言語の文データを他の第二の言語へ翻訳処理した翻訳文データを出力する翻訳処理システムであって,1)第一の言語と第二の言語との意味および構文の対応関係を記述する翻訳辞書と,2)前記第一の言語による原文データを取得して,前記原文データが受身文または使役文である場合に前記原文データを能動文の文データへ変換し,前記原文データが能動文である場合に前記原文データを受身文または使役文の文データへ変換する文変換処理システムと,3)前記翻訳辞書を参照して,前記変換された第一の言語の原文データをもとに,前記第二の言語による翻訳文データを生成する翻訳処理手段とを備え,
前記文変換処理システムは,a)問題と解とで構成されたデータであって,前記第一の言語による文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と,b)前記解データの問題から格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と,c)前記部分データのもととなった解データの問題から,所定の解析処理によって素性を抽出し,前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と,d)所定の機械学習アルゴリズムにもとづいて,前記部分データに対する素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し,学習結果として,前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と,e)翻訳対象として入力された原文データから格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される原文部分データを作成する原文データ分割手段と,f)前記原文データから,所定の解析処理によって素性を抽出し,前記原文部分データごとに素性の集合を生成する素性抽出手段と,g)前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて,前記原文部分データについて,前記素性の集合の場合になりやすい解を推定する解推定手段と,h)前記解推定手段を用いて,前記原文部分データを文変換処理した変換文データを前記翻訳処理手段に対して出力する変換文生成手段とを備える。
また,本発明は,音声データを文データに変換する音声認識処理システムであって,1)所定の音声認識処理によって,認識対象の音声データの波形を解析し,文データを生成する音声認識処理手段と,2)前記生成された文データが受身文または使役文である場合に前記文データを能動文の文データへ変換し,前記文データが能動文である場合に前記文データを受身文または使役文の文データへ変換する文変換処理システムとを備え,
前記文変換処理システムは,a)問題と解とで構成されたデータであって,文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と,b)前記解データの問題から格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と,c)前記部分データのもととなった解データの問題から,所定の解析処理によって素性を抽出し,前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と,d)所定の機械学習アルゴリズムにもとづいて,前記部分データに対する素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し,学習結果として,前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と,e)前記音声認識処理手段で生成された文データを入力文データとして取得し,前記入力文データから格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と,f)前記入力文データから,所定の解析処理によって素性を抽出し,前記入力文部分データごとに素性の集合を生成する素性抽出手段と,g)前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて,前記入力文部分データについて,前記素性の集合の場合になりやすい解を推定する解推定手段と,h)前記解推定手段を用いて,前記入力文データを文変換処理した変換文データを出力する変換文生成手段とを備える。
また,本発明は,文データから音声データを生成する音声合成処理システムであって,1)合成対象となる文データが受身文または使役文である場合に前記文データを能動文の文データへ変換し,前記文データが能動文である場合に前記文データを受身文または使役文の文データへ変換する文変換処理システムと,2)所定の音声合成処理によって,前記変換された文データから波形を生成して音声データとする音声合成手段とを備え,
前記文変換処理システムは,a)問題と解とで構成されたデータであって,文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と,b)前記解データの問題から格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と,c)前記部分データのもととなった前記解データの問題から,所定の解析処理によって素性を抽出し,前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と,d)所定の機械学習アルゴリズムにもとづいて,前記部分データに対する素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し,学習結果として,前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と,e)前記合成対象の文データを入力文データとして取得し,前記入力文データから格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と,f)前記入力文データから所定の解析処理によって素性を抽出し,前記入力文部分データごとに素性の集合を生成する素性抽出手段と,g)前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて,前記入力文部分データについて,前記素性の集合の場合になりやすい解を推定する解推定手段と,h)前記解推定手段を用いて,前記入力文データを文変換処理した変換文データを前記音声合成手段に対して出力する変換文生成手段とを備える。
本発明によれば,文変換後の格助詞の推定処理について教師データを用いて機械学習を行い,変換対象とする入力文を格助詞ごとに分割し,機械学習の結果を参照して,それぞれの格助詞ごとに変換後の格助詞を推定する。
さらに,機械学習処理において,素性を充実させ,特に動詞辞書による解析処理結果を素性として用いるようにする。
これにより,文変換後の格助詞を,より高精度に推定することができる。実験においても,本発明では,高い精度(94.30%)を得た。一方,入力文を格助詞ごとに分割しない場合には,分割するときよりも低い精度(92.00%)であった。本発明によって,約5.2%(89.09%から94.30%)の精度向上を実現している。
本発明において行う文変換処理は,受身文または使役文から能動文への変換,能動文から受身文または使役文への変換などの処理である。格助詞の変換処理は,変換前の文に含まれる格助詞を,変換後の文で付与されるべき格助詞に変換する処理である。
本発明の実施形態を説明するための処理例として,受身文から能動文への変換処理を行うものとし,格助詞の変換処理とは,元の受身の格助詞を,変換後の能動文の格助詞へ変換する処理をいう。ここで,変換対象となる受身文に現れる元の格助詞を「変換前の格助詞」,また能動文に変換されるときに付与される格助詞を「変換後の格助詞」と呼ぶ。
図1に,本形態における文変換処理システムの構成例を示す。
文変換処理システム100は,CPUおよびメモリからなり,解データ分割部101,解−素性対生成部103,機械学習部105,学習結果データベース107,入力文分割部110,素性抽出部112,解推定部114,変換文生成部116および解データ記憶部2を備える。
解データ記憶部2は,機械学習処理において解となる情報が付与された「問題−解」という構造を持つ解データを記憶する記憶手段である。解は,事例に含まれる格助詞ごとに付与されている「変換後の格助詞」であり,機械学習処理において,学習の分類先となる情報である。
解データ分割部101は,解データ記憶部2から,解と問題との構造を持つ事例を取り出し,事例の問題から格助詞を特定して取り出し、特定した格助詞ごとにその格助詞に前接する体言と,その体言が係る用言とで構成される部分データを作成する処理手段である。この部分データが教師学習部105の教師データとなる。
解−素性対生成部103は,部分データのもととなった解データの問題から、所定の解析処理によって素性を抽出し,取り出した格助詞ごとの部分データごとに素性の集合と解との対(組)を生成する処理手段である。
ここで,素性は,機械学習法による解析処理に用いる情報の1単位であって,文脈を構成する各要素である。
機械学習部105は,格助詞ごとに分割された事例から作成された部分データを用いて,同じ「変換前の格助詞」について,当該事例の素性の集合と解との組から,どのような素性のときにどのような解(文変換後の格助詞)となりやすいかを,所定の機械学習法により学習し,その学習結果を学習結果データベース107に記憶する手段である。
入力文分割部110は,文変換処理の対象とする入力文(受身文)3から格助詞を特定し、前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する処理手段である。なお,入力文3は,文または少なくとも体言と用言を持つ文の一部とする。
素性抽出部112は,入力文3から,所定の解析処理によって素性を抽出し,入力文部分データごとに素性の集合を生成する処理手段である。抽出される素性は,解−素性対生成部103で行われる素性抽出処理と同じ処理を用いて行われる。
解推定部114は,学習結果データベース107を参照して,入力文3の分割された各格助詞の入力文部分データについて,抽出された素性の場合にどのような解になりやすいか,すなわち能動文へ変換する場合に「変換後の格助詞」として付与されやすい格助詞を推定する処理手段である。
変換文生成部116は,所定の文変換処理によって,受身文または使役文である入力文3の述語の変形,語順の変形などを行って能動文を生成し,入力文3の変換前の格助詞を推定した変換後の格助詞に置き換えて,変換文4を作成して出力する。
図2に,文変換処理システム100の処理フローを示す。
ステップS1: 解−素性対生成部103は,解データ記憶部2から,解がタグ付けされた事例を取り出す。
解データ記憶部2として,受身文に含まれる各格助詞に対して,それが能動文になったときに用いられる変換後の格助詞がタグとして付与された事例(単文)が記憶されているタグ付きコーパスを用いる。
図3に,解データ記憶部2(タグ付きコーパス)に記憶されている事例(単文)の例を示す。図3の単文中の下線を付けた2つの格助詞は,変換前の格助詞であり,下線部の下に矢印で示すタグ付けされた変換後の格助詞(解)である。図3の事例では,この受身文が能動文に変換される場合に,変換前の格助詞「に」から変換後の格助詞「が」へ,変換前の格助詞「が」から変換後の格助詞「を」へそれぞれ変換されることを意味する。
ステップS2: 解データ分割部101は,事例(単文または少なくとも体言nと用言vを持つ文の一部)から格助詞を取り出し,取り出した格助詞ごとに,格助詞と前接する体言,この体言がかかる用言とを用いて部分データを生成する。
図4に,事例の格助詞による分割の例を示す。図4に示す事例「犬に私が噛まれた。」の場合に,事例の格助詞「に」,「が」を抽出し,これらの格助詞ごとに事例を分割して格助詞ごとの教師データを作成する。作成される部分データは,例えば,部分データp1「問題=犬に,噛まれた。;解=が」,部分データp2「問題=私が,噛まれた。;解=を」である。
ステップS3: 解−素性対生成部103は,所定の解析処理により,部分データについて,その部分データの事例について素性を抽出し,各部分データについて,解と素性の集合の組(対)を生成する。
抽出される素性として,例えば,解析対象となる格助詞に前接する体言n,体言nが係る用言v,品詞などの形態素解析の結果,統語構造上の情報,述語素(対象の動詞と格要素となる名詞句との関係,各名詞句同士の関係など),意味素(対象の動詞の格要素になる名詞句の意味的な制限など),係り受け解析の結果,スタッキングによって融合された他の解析手法の解析結果などがある。
ステップS4: 機械学習部105により,各部分データについて,抽出された解と素性の集合との組から,どのような素性の集合のときにどのような解になりやすいかを,所定の機械学習法により学習し,この学習結果を学習結果データベース107に記憶する。機械学習処理では,抽出した素性の集合が文脈として,解が分類先として扱われる。
例えば,事例から作成された格助詞「に」の部分データ(「犬に,噛まれた。」)について,変換前の格助詞「に」が,どのような解(変換後の格助詞,例えば「が」)になりやすいかを,事例の素性の集合を用いて学習処理する。また,事例から作成された格助詞「が」の部分データ(「私が,噛まれた。」)を用いて,変換前の格助詞「が」が,どのような解(変換後の格助詞,例えば「を」)になりやすいかを,事例の素性の集合を用いて,学習処理する。
ステップS5: 入力文分割部110により,変換対象となる入力文3を取得し,入力文3から格助詞を取り出し,各格助詞について,格助詞と前接する体言とこの体言がかかる用言とを用いて入力文部分データを作成する。例えば,入力文3が「虫に彼女が刺された。」である場合に,入力文3から格助詞「に」,「が」を抽出し,これらの格助詞ごとに,入力文部分データを作成する。例えば,前記の入力文3から,「虫に,刺された。」という入力文部分データと,「彼女が,刺された。」という入力文部分データとを作成する。
ステップS6: 素性抽出部112により,解−素性対生成部103での処理とほぼ同様の処理によって,入力文3から素性を抽出する。そして,各入力文部分データについての素性の集合を,解推定部114に渡す。
ステップS7: 解推定部114により,学習結果データベース107の学習結果を参照して,格助詞ごとの入力文部分データについて,素性の集合の場合にどのような解(変換後の格助詞)になりやすいかを推定する。
ステップS8: 変換文生成部116は,既知の文変換処理によって,述語部について受身を表す助動詞を削除し,入力文3での活用形で動詞の基本形を活用させる。また,入力文3の各格助詞を,解推定部114で推定された格助詞に変換して,変換文4を生成して出力する。
本発明では,機械学習法として,サポートベクトルマシン法,決定リスト法,最大エントロピー法などの処理手法を採用することができる。しかし,前記手法に限定されるものではない。
上記の機械学習法を用いる場合の学習過程および解推定過程(ステップS4,S7)の処理について説明する。
サポートベクトルマシン法は,空間を超平面で分割することにより,2つの分類からなるデータを分類する手法である(参照,Nello Cristianini and John Shawe-Taylor, “An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods”, Cambridge University Press,2000)。
サポートベクトルマシン法は,分類の数が2個のデータを扱うものであるため,通常,サポートベクトルマシン法にペアワイズ手法を組み合わせて使用することで,分類数が3個以上のデータを扱えるようにする。
ペアワイズ手法とは,N個の分類を持つデータの場合に,異なる二つの分類先のあらゆるペア(N(N−1)/2個) を作り,各ペアごとにどちらがよいかを2値分類器(ここではサポートベクトルマシン法によるもの)で求め,最終的にN(N−1)/2個の2値分類器の分類先の多数決によって,分類先を求める方法である(参照,Taku Kudoh, TinySVM: Support Vector Machines, (http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html),2000)。
本発明において,機械学習法としてサポートベクトルマシン法を用いる場合に,機械学習部105は,与えられた教師データ(解と素性の集合との対)から解となりうる分類を特定する。さらにこの分類を正例と負例に分割し,所定のカーネル関数を用いたサポートベクトルマシン法を実行する関数にしたがって,素性の集合を次元とする空間上で正例と負例の間隔を最大にして,正例と負例を超平面で分割する超平面を求め,超平面およびこの超平面により分割された空間の分類を学習結果として学習結果データベース107に記憶する。
そして,解推定部114は,学習結果データベース107に記憶されている超平面およびこの超平面により分割された空間の分類を利用して,入力文3の入力文部分データの素性の集合が,この超平面で分割された空間において,正例側または負例側のどちらの側にあるかを特定し,特定された結果に基づいて定まる分類を,入力文部分データの素性の集合の場合になりやすい解と推定する。
決定リスト法は,素性と分類先の組を規則とし,それらをあらかじめ定めた優先順序でリストに蓄えておき,解析すべき入力が与えられたときに,リストで優先順位の高いところから入力のデータと規則の素性を比較し素性が一致した規則の分類先をその入力の分類先とする方法である。
本発明において,機械学習法として決定リスト法を用いる場合に,機械学習部105は,素性の集合と解との対で構成された部分データを規則とし,この規則を所定の順序でリスト上に並べたものを学習結果として学習結果データベース107に記憶する。
そして,解推定部114は,学習結果データベース107に記憶されたこの規則のリストを先頭からチェックしていき,入力文部分データの素性の集合と一致する規則を探し出し,その規則の解を,その素性の集合のときになりやすい解として推定する。
最大エントロピー法は,あらかじめ設定しておいた素性f(1≦j≦k)の集合をFとするとき,所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布p(a,b)を求め,その確率分布にしたがって求まる各分類の確率のうち,もっとも大きい確率値を持つ分類を解(求める分類)とする方法である。
本発明において,機械学習法として決定リスト法を用いる場合に,機械学習部105は,教師データから解となりうる分類を特定し,所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求め,この確率分布を学習結果として,学習結果データベース107に記憶する。
そして,解推定部114は,学習結果データベース107に記憶されたこの確率分布を利用して,入力文部分データの素性の集合の場合のそれぞれの解となりうる分類の確率を求めて,もっとも大きい確率値を持つ解となりうる分類を特定し,その特定した分類を,この素性の集合の場合になりやすい解と推定する。
以下に,本発明の具体的な実施例を説明する。
実施例において,文変換処理システム100の解データ記憶部2として,京都大学コーパスを使った(黒橋禎夫,長尾真,“京都大学テキストコーパス・プロジェクト”,言語処理学会第3回年次大会,115−118頁,1997)。このコーパスは,およそ2万文の新聞の文章からなるもので,形態素と構文のタグがすでにふられている。そのため,テキストの該当する格助詞に,その文が能動文に変換されたときに用いられる格助詞(変換後の格助詞)をタグとして付与した。
本実施例では,KNPの解析結果を利用した素性を使用する。京都大学コーパスにおけるKNPの係り受けの解析精度は,90.9%であるが,KNPの解析結果には誤りが少ない方が望ましい。KNPが解析誤りをした場合に,受け身の対応関係が誤りとなり,本来なら変換する必要のない格助詞まで変換対象に含めてしまうことになるからである。そこで,KNPが係り受け解析を誤る可能性が高い文を学習データから除外し,KNPが係り受けに正解したものだけを使用した。
具体的には,京都大学コーパスから受身文を取り出すと,格変換の対象として3960個の格助詞があった。その中から解析誤りとなった格助詞を対象から除外した結果,対象となる格助詞は3576個となり,元のデータの90.3%のデータ量となった。京都大学コーパスから取り出した受身文をKNPで解析したところ,対象の格助詞と受け身の用言の係り受け関係を正しく解析できたものは3576個であり,係り先を誤ったものは388個であった。この3576個の格助詞を実施例における処理対象として用いた。
解−素性対生成部103は,以下のF1〜F32のような素性を用いた。ここで,解析対象の格助詞に前接する体言をn,体言が係る用言をvとする。体言n,用言v,品詞や統語構造の情報の特定には,KNPを利用した。また,IPAL動詞辞書内での述語素とは,対象の動詞と格要素となる名詞句との関係や,各名詞句同士の関係を示したものである。意味素性とは対象の動詞の格要素になる名詞句の意味的な制限を示したものである。
F1:用言vの品詞,
F2:用言vの単語の基本形,
F3:用言vの全単語,
F4:用言vの単語の所定の分類語彙表の分類番号(1,2,3,4,5,7桁までの数字),
F5:用言vにつく助動詞列,
F6:体言nの単語,
F7:体言nの単語の所定の分類語彙表の分類番号(1,2,3,4,5,7桁までの数字),
F8:用言vにかかる体言n以外の体言の単語列(ただし,どういった格でかかっているかの情報をANDでつける),
F9:用言vにかかる体言n以外の体言の単語集合の分類語彙表の分類番号(1,2,3,4,5,7桁までの数字,また,どういった格でかかっているかの情報をANDでつける),
F10:用言vにかかる体言n以外の体言がとっている格助詞,
F11:同一文に共起する各単語,
F12:同一文に共起する各単語の分類語彙表の分類番号(3,5桁の数字),
F13:体言nに後接する変換前の格助詞(=対象の格助詞),
F14:KNPによって変換された格助詞(=KNPによる出力),
F15:近藤法によって変換された格助詞(=近藤法による出力),
F16:用言vがIPAL動詞辞書にある場合,用言vの格フレームの格助詞,
F17:用言vがIPAL動詞辞書にある場合,用言vの項となる名詞の述語素の全てをANDでつけたもの,
F18:用言vがIPAL動詞辞書にある場合,用言vの各述語素,
F19:KNPによって解析された体言nのIPALによって得られた意味素性の全てをANDでつけたもの,
F20:KNPによって解析された体言nのIPALによって得られた各意味素性,
F21:用言vがIPAL動詞辞書に存在するかどうか,
F22:VDIC辞書の定義により,用言vの受動態が可能な動詞かどうかの情報,
F23:VDIC辞書の定義による用言vの必須格,
F24:VDIC辞書の定義による用言vの種類,
F25:近藤法で変換の際に用いた格変換規則,
F26:用言vがVDIC辞書に存在するかどうか,
F27:用言vにかかる格助詞を持つ体言nを含む節の格助詞の出現順,
F28:用言vにかかる格助詞を持つ体言nを含む節の連続する格助詞のペア,
F29:体言nの前方に出現する全ての格助詞をANDでつけたもの,
F30:体言nの後方に出現する全ての格助詞をANDでつけたもの,
F31:体言nの直前に出現する名詞句の格助詞,
F32:体言nの直後に出現する名詞句の格助詞。
F14およびF15の素性は,他手法の解析結果を素性として追加したものである。このような手法は“スタッキング”と呼ばれる。このスタッキングは,複数のシステムの解析結果の融合に用いられている。
F16からF21までの素性は,KNPでの変換処理の際に用いた情報を,F22からF26までの素性は,近藤法による変換処理の際に用いた情報を,素性として利用している(参照,黒橋禎夫,“日本語構文解析システムKNP”Ver2.0b6,京都大学大学院情報学研究科,1998)。
F16からF20までの素性は,KNPによる格解析結果を使う。KNPの格解析ではIPAL動詞辞書を使用する(参照,“計算機用日本語基本動詞辞書IPAL説明書”,情報処理振興事業協会技術センター,1987)。そのため,これらの素性は用言vがIPAL動詞辞書に存在する場合のみ出力される。
F22からF26までの素性は,近藤法での格変換の際に用いた情報を使う。近藤法では,受身文を能動文へ変換する所定の7種類の格変換規則をもとに,対象の格助詞と動詞によって使用する格変換規則を選択して対象格の変換を行う処理を行う(近藤恵子,佐藤理史,奥村学,“格変換による単文の言い換え”,情報処理学会論文誌,2001)。近藤法では,格変換の際に,必要な情報を登録している動詞辞書を参照する。この動詞辞書をVDIC辞書と呼び,用言vがVDIC辞書にある場合のみ,これらの素性は出力される。
F27からF32までの素性は,入力された文の格助詞の情報を用いる。F27とF28の素性は,KNPによる係り受け解析の結果を利用する。F29からF32までの素性については係り受け解析の結果を利用せず,形態素解析の結果のみを利用した。
なお,本実施例では,素性の選択処理を行った。具体的には,最初にすべての素性を使用して機械学習処理を行った。次に,全素性から素性を1つだけ除去した素性の集合を作成し,この素性の集合を使用して機械学習処理を行った。
このように,全素性から1つの素性を除去した残りの素性による素性の集合を用いて機械学習処理を繰り返し行った。全ての素性について処理を行った後,1つの素性を除去することによって機械学習の処理精度が最も改善した場合に当該素性を除く素性の集合を採用する。このような素性の選択を,機械学習処理の精度が改善しなくなるまで繰り返し行って,最適となる素性を選択した。
機械学習部105は,サポートベクトルマシン法による機械学習処理を行った。これは,サポートベクトルマシン法が,他の手法に比べて比較的よい成績をおさめていると考えられるためである。
前述したように,サポートベクトルマシン法は,空間を超平面で分割することにより2つの分類からなるデータを分類する手法である。このとき,2つの分類が正例と負例からなるものとすると,学習データにおける正例と負例の間隔(マージン)が,大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ,このマージンを最大にする超平面を求め,それを用いて分類を行なう。
サポートベクトルマシン法を説明するため,図5に,サポートベクトルマシン法のマージン最大化の概念を示す。図5において,白丸は正例,黒丸は負例を意味し,実線は空間を分割する超平面を意味し,破線はマージン領域の境界を表す面を意味する。図5(A)は,正例と負例の間隔が狭い場合(スモールマージン)の概念図,図5(B)は,正例と負例の間隔が広い場合(ラージマージン)の概念図である。
サポートベクトルマシン法の2つの分類が正例と負例からなるものとすると,学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ,図5(B)に示すように,このマージンを最大にする超平面を求め,それを用いて分類を行なう。
基本的には,前述のとおりであるが,通常,学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や,超平面の線形の部分を非線型にする拡張(カーネル関数の導入など)がなされたものが用いられる。この拡張されたサポートベクトルマシン法は,以下の識別関数を用いて分類することと等価であり,その識別関数の出力値が正か負かによって二つの分類を判別することができる。
Figure 2008021093
ただし,xは識別したい事例の文脈(素性の集合) を,xとy(i=1,…,l,y ∈{1,−1})は学習データの文脈と分類先を意味し,関数sgnは,
Figure 2008021093
であり,また,各αは式(4)と式(5)の制約のもと式(3)を最大にする場合のものである。
Figure 2008021093
また,関数Kはカーネル関数と呼ばれ,様々なものが用いられるが,本形態では以下の多項式のものを用いる。
Figure 2008021093
C,dは実験的に設定される定数である。後述する具体例では,すべての処理を通して,Cとdは1および2に固定した。ここで,α>0となるxは,サポートベクトルと呼ばれ,通常,式(1) の和をとっている部分はこの事例のみを用いて計算される。すなわち,実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
サポートベクトルマシン法は,分類の数が2個のデータを扱うものであるから,分類の数が3個以上のデータを扱うために,ペアワイズ手法を組み合わせて用いることになる。本例では,文変換処理システム100は,サポートベクトルマシン法とペアワイズ手法を組み合わせた処理を行う。具体的には,TinySVMを利用して実現する。
本実施例で用いた京都大学コーパスをもとに,クローズドデータとオープンデータの2つの教師データを用意した。クローズドデータとオープンデータは,ともに,1788文である。
図6に,クローズドデータおよびオープンデータにおける「変換後の格助詞」の出現割合を示す。クローズドデータを素性選択処理に使用し,オープンデータを文変換処理システム100の評価用データとして使用した。クローズドデータの評価には,10分割のクロスバリデーションを利用した。オープンデータの学習データには,クローズドデータを利用した。
なお,本実施例では,複数の格助詞が正解となる場合には,その複数の格助詞の組を正解と扱って学習処理を行った。
図7に,実施例における処理結果の精度を示す。図7の処理結果の評価は,全データを利用した場合のものである。
図7において,本手法は,本発明による処理を意味する。
KNPでは,KNPによる出力の結果の精度を,近藤法では,近藤法による出力の結果の精度を,それぞれ示す。KNPはIPAL動詞辞書に解析対象の動詞が含まれている時のみ,近藤法はVDIC辞書に解析対象の動詞が含まれている時のみ答えが出力される。
KNPを用いた格助詞の変換は,次のような手順で行った。まず,KNPを用いて,入力文の係り受け解析を行う。その解析結果から対象とする動詞を発見し,格解析結果を取得する。次に,格解析の結果から対象とする動詞の格フレーム情報を取得し,処理対象の格が能動態の場合の格を取り出し,出力する。KNPを使用した格変換では,IPAL動詞辞書に対象とする動詞がない場合は,出力を行わないか,ベースラインの方法に従った出力を行った。
近藤法は,広く格変換一般を扱っているが,本実施例では,受動態から能動態への変換のみを対象とした。近藤法では,受動態から能動態への変換規則は7種類定められていて,それぞれの変換規則ごとに動詞の制約条件がある。動詞の条件は,IPAL動詞辞書をもとに作成された動詞辞書VDICに記されている。VDIC辞書には,1604語の動詞エントリがあった。近藤法における格変換処理は,対象とする格の変換が変換規則にあれば変換規則による格変換を行い,変換規則になければ格変換は行わずにそのままの格助詞を出力する。近藤法では,VDIC辞書に対象とする動詞がない場合,出力を行わないか,ベースラインの方法に従った出力を行った。
村田法は,前述の特許文献1による処理方法を示す。村田法では,素性のF1,F2,F5,F6,F7,F10,F13のみの素性を利用している。
ベースライン1は変換前の格助詞を答えに出力する処理方法,ベースライン2は最も頻度の多い変換後の格助詞(すなわち,「を」)を答えとして出力する処理方法を示す。
ベースライン3は,変換前の格助詞ごとにクローズドデータにおいて最も頻度の多い変換後の格助詞を答えに出力する処理方法である。例えば,変換前の格助詞が「に」であった場合に,クローズドデータにおいて,変換後の格助詞として最も頻度の多い格助詞は,図14に示す変換後の格助詞の出現割合から,「に」であることが分かる。したがって,この場合にはベースライン3による処理の答えとして,「に」が出力される。
一方,変換前の格助詞が「で」であった場合に,クローズドデータにおいて,変換後の格助詞として最も頻度の多い格助詞は,図14に示す出現割合から,「が」であるので,ベースライン3による処理の答えとして,「が」が出力される。
KNP/近藤法+ベースラインxは,IPALの辞書やVDICの辞書に解析対象の動詞が含まれておらず,かつKNPまたは近藤法で答えを出力できなかったときにはベースラインx(1〜3)の方法で答えを出力する方法を意味する。
処理の評価には,評価Aと評価Bの二つの評価基準を用いた。この基準は複数の格助詞が解となる場合のためのものである。例えば評価Aは,「が」と「で」が正解の場合に,出力が「が」と「で」の組の場合のみ正解とする。評価Bは,出力が「が」か「で」か「が」と「で」の組の場合も正解とするものである。
図8に,解析対象の動詞が,IPALの辞書とVDICの辞書の両方に含まれている場合の処理結果の評価を示す。解析対象の動詞がIPALの辞書とVDICの辞書の両方に含まれていた文は,クローズドデータで551文,オープンデータで539文であった。図7において,本発明の処理(本手法)であるが,格助詞による分割を行わない場合には,オープンデータの評価Bで92.00%の精度を得た。格助詞による分割を行って機械学習を行った場合に,精度は2.30%向上し,94.30%となった。
両側符合検定によって,有意水準1%で格助詞による分割を行った処理の方が,格助詞による分割を行わない処理よりも優れていることを確認した。これによって,入力文を格助詞によって分割して機械学習を行って,変換後の格助詞の推定を行うという本発明の有効性が確認された。
なお,村田法では,格助詞による分割を行わず,使用した素性は7つのみである。村田法は評価Bで89.77%の精度であった。格助詞による分割を行わない場合の本発明と,村田法とを比較すると,25種類の素性を追加することによって,3.30%の精度向上を実現できたことがわかる。両側符合検定によって,有意水準1%で,本手法において格助詞による分割を行わない処理の方が,村田法よりも優れていることを確認した。これによって,本手法で追加された素性の有効性も確認することができた。
ベースライン3の処理手法は,比較的高い精度となっている。オープンデータの評価Aで84.17%,評価Bで88.20%であった。ベースライン3の手法は,格助詞によって入力文を分割し,変換前の格助詞ごとに最も多い頻度の変換後の格助詞を出力する点で,本発明と類似する。しかし,本手法では,格助詞ごとに入力文を分割した後に,それぞれの格助詞ごとに機械学習を行う点で,改良されたものとなっている。ベースライン3の手法による精度の高さは,本手法が有効であることを示唆していると考えられる。
KNPと近藤法は,処理の精度が低く,オープンデータの評価Bで,KNPが29.14%,近藤法が41.00%であった。これらの処理手法が有効に働くのは,解析対象の動詞がそれぞれIPAL動詞辞書とVDIC辞書に含まれている場合である。図8の処理結果の評価(解析対象の動詞がIPAL動詞辞書と,VDIC辞書の両方に含まれる文のみを評価対象にした場合の精度)に示すように,オープンデータの評価Bで,KNPが76.07%,近藤法が78.85%であった。これらの手法の精度は,比較的高いものの,ベースライン3との組み合わせよりも低く,本発明の手法と比べてもはるかに低いものとなっている。
次に,素性の重要性を確認する。図9に,各素性を除去した場合の処理精度の変化を示す。
図9に示すように,F25の素性を使用しない場合には,精度が特に下がっていることが分かる(約2%の精度低下)。F25の素性は,近藤法で変換する際に利用した規則である。この規則の中でも,特に変換の難しい「に」で用いられる規則が効果的であった。
F25の素性を使用しない場合や村田法では,どちらの例も格助詞が変換されず,もとの格助詞のまま出力されていた。一方,全素性を使用した場合では,どちらも正しい出力であった。精度を比較すると,F25を使用しない時の評価Bにおける「が」格の再現率は62.57%,適合率は57.44%であった。これに対し,全素性を使用した時の「が」格の再現率は70.95%,適合率は66.15%と,いずれも8%以上の差が見られた。このことから,近藤法が変換に用いる規則が,変換後の格助詞の推定に有効であることが分かった。
また,F7の素性を使用しない場合にも,精度が下がっていることが分かる(約0.5%の精度低下)。F7の素性は,格助詞が前接する体言の意味素性である。このことから,格助詞が前接する体言の意味素性が,変換後の格助詞の推定に有効であることが分かった。
最後に,学習データ量と精度との関係について確認する。
図10に,学習データ量と処理精度の変化を示す。ここでは,処理に全素性を使用し,全データの1/2,1/4,1/8,1/16の各データ量で精度を求めた。本実施例では,変換前の格助詞による分割を行ったものと,分割を行わないものの二種類を行った。図10のグラフでは,オープンデータの評価Bによる精度のみをプロットしている。
格助詞による分割を行った場合には,データ量が1/16でも,高い精度となっている(88.36%)。逆に,格助詞による分割を行わない場合には,データ量が少なくなるにつれて,精度の低下が大きくなっている(75.57%)。このことから,本発明の,格助詞による分割を行った処理は,データ量の小さい場合にも効果的であることが分かる。
以上説明したように,本発明は,入力文を格助詞で分割した後に機械学習処理を行うことにより,変換後の格助詞の推定を高い精度(94.30%)で行うことができた。
特に,学習に利用するデータ量を変化させて処理を行い,本発明が,格助詞で分割しない従来手法に比べて,データ量が減少しても精度が大きく低下しないことが確認でき,本発明が,データ量の小さい場合にも効果的であることが分かった。
また,機械学習に用いる素性の種類を多くすることによっても,高い精度を得ることができた。
本発明の文変換処理システム100は,図11に示すように,翻訳処理システム200に組み込むことができる。図11の翻訳処理システム200は,図1に示す文変換処理システム100と,第一の言語の文データを他の第二の言語へ翻訳処理した翻訳文データを出力する翻訳エンジン130,および第一の言語と第二の言語との意味および構文の対応関係を記述する翻訳辞書150を備える。
翻訳処理システム200で,日本語から英語への翻訳処理を行うとする。
日本語の受身文「犬に私が噛まれた。」が入力文3として入力されると,文変換処理システム100によって,まず能動文「犬が私を噛んだ。」という変換文4が出力され,この変換文が翻訳エンジン130に入力される。翻訳エンジン130では,既知の英訳処理手法によって,一旦能動文に変換された日本文(能動文)をもとに英訳処理を行い翻訳文5「A dog bites me.」を出力する。したがって,翻訳処理システム200は,受身文の入力文3を直接入力して,翻訳処理を行う場合に比べて,より自然な翻訳文5を生成して出力することが可能となる。
また,本発明の文変換処理システム100は,図12に示すように,音声対話処理システム300に組み込むことができる。図12の音声対話処理システム300は,図1に示す文変換処理システム100と,所定の音声認識処理によって,認識対象の音声データ7の波形を解析し,文データを生成する音声認識処理システム170,所定の音声合成処理によって,前記変換された文データから波形を生成して音声データ8とする音声合成処理システム190を備える。音声認識処理システム170および音声合成処理システム190は,一般的な既存の処理手法によって,音声認識処理および音声合成処理を行う。
日本語の受身文「犬に私が噛まれた。」が音声データ7として音声対話処理システム300に入力されると,音声認識処理システム170は,この音声データ7を音声認識処理して,テキストデータを生成する。このテキストデータは,入力文3として文変換処理システム100に入力される。文変換処理システム100は,この入力文3を,能動文「犬が私を噛んだ。」に変換して出力する。出力された変換文4が,音声合成処理システム190によって,音声データ8に変換されて出力される。したがって,音声対話処理システム300は,音声データ7の文の態を変換して,音声データ8として出力することができ,高性能な音声インタフェースの実現が可能となる。
以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。
また,本発明は,コンピュータにより読み取られ実行されるプログラムとして実施することができる。本発明を実現するプログラムは,コンピュータが読み取り可能な,可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記録媒体に格納することができ,これらの記録媒体に記録して提供され,または,通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
本形態における文変換処理システムの構成例を示す図である。 文変換処理システムの処理フローを示す図である。 解データ記憶部に記憶されている事例(単文)の例を示す図である。 事例の格助詞による分割の例を示す図である。 サポートベクトルマシン法のマージン最大化の概念を示す図である。 クローズドデータおよびオープンデータにおける,変換後の格助詞の出現割合を示す図である。 実施例における処理結果の精度を示す図である。 実施例において,解析対象の動詞が,IPALの辞書とVDICの辞書の両方に含まれている場合の処理結果の評価を示す図である。 実施例において,各素性を除去した場合の処理精度の変化を示す図である。 実施例において,学習データ量と処理精度の変化を示す図である。 本発明の文変換処理システムを組み込んだ翻訳処理システムの構成例を示す図である。 本発明の文変換処理システムを組み込んだ音声対話処理システムの構成例を示す図である。 日本語の受身文・使役文の例およびこれらの文に対応する能動文の例を示す図である。 変換前の格助詞に対する変換後の格助詞の出現割合を示す図である。
符号の説明
100 文変換処理システム
101 解データ分割部
103 解−素性対生成部
105 機械学習部
107 学習結果データベース
110 入力文分割部
112 素性抽出部
114 解推定部
116 変換文生成部
2 解データ記憶部(タグ付きコーパス)
3 入力文
4 変換文
5 翻訳文
200 翻訳処理システム
130 翻訳エンジン
150 翻訳辞書
300 音声対話処理システム
170 音声認識処理システム
190 音声合成処理システム
7 音声データ(入力)
8 音声データ(出力)

Claims (9)

  1. 機械学習処理を用いて,受身文または使役文である文データを能動文の文データへの変換,または能動文の文データを受身文または使役文の文データへの変換のいずれか一方の変換を行う場合に,変換後の格助詞を推定する文変換処理システムであって,
    問題と解とで構成されたデータであって,文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と,
    前記解データの問題から格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と,
    前記部分データのもととなった解データの問題から,所定の解析処理によって素性を抽出し,前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と,
    所定の機械学習アルゴリズムにもとづいて,前記部分データに対する素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し,学習結果として,前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と,
    前記変換処理の対象として入力された入力文データから格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と,
    前記入力文データから所定の解析処理によって素性を抽出し,前記入力文部分データごとに素性の集合を生成する素性抽出手段と,
    前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて,前記入力文部分データについて,前記素性の集合の場合になりやすい解を推定する解推定手段とを備える
    ことを特徴とする文変換処理システム。
  2. 前記解−素性対生成手段は,述語素および格フレームの情報を含む動詞辞書を用いて前記解データの問題を解析処理した結果を,前記素性として用いる
    ことを特徴とする請求項1に記載の文変換処理システム。
  3. 前記解−素性対生成手段は,前記解データの問題を他の機械学習処理によって学習した結果を,前記素性として用いる
    ことを特徴とする請求項1に記載の文変換処理システム。
  4. 前記機械学習手段は,前記所定の機械学習アルゴリズムとして決定リスト法のアルゴリズムを使用し,前記素性の集合と解との組を規則とし,前記規則を所定の優先順位により格納したリストを前記学習結果として前記学習結果データ記憶手段に記憶し,
    前記解推定手段は,前記学習結果データ記憶手段に記憶された前記リストに格納された規則を優先順位の高い順に前記入力文部分データの素性の集合と比較し,素性が一致した規則の解を,前記入力文部分データの素性の集合のときになりやすい解として推定する
    ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の文変換処理システム。
  5. 前記機械学習手段は,前記所定の機械学習アルゴリズムとして最大エントロピー法のアルゴリズムを使用し,前記素性の集合と解との組から,前記素性の集合が所定の条件式を満足しかつエントロピーを示す式を最大にするときの確率分布を前記学習結果データ記憶手段に記憶し,
    前記解推定手段は,前記学習結果データ記憶手段に記憶された前記確率分布をもとに,前記入力文部分データの素性の集合の場合の各分類の確率を求め,前記確率が最大の確率値を持つ分類を,前記入力文部分データの素性の集合のときになりやすい解として推定する
    ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の文変換処理システム。
  6. 前記機械学習手段は,前記所定の機械学習アルゴリズムとしてサポートベクトルマシン法のアルゴリズムを使用し,前記素性の集合と解との組を用いて,所定のサポートベクトルマシン法による超平面を求め,前記超平面および前記超平面により分割された空間の分類を前記学習結果として前記学習結果データ記憶手段に記憶し,
    前記解推定手段は,前記学習結果データ記憶手段に記憶された前記超平面および前記超平面により分割された空間の分類をもとに,前記入力文部分データの素性の集合が前記超平面で分割された空間のいずれかに属するかを求め,前記素性の集合が属する空間の分類を前記入力文データの素性の集合の場合になりやすい解として推定する
    ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の文変換処理システム。
  7. 第一の言語の文データを他の第二の言語へ翻訳処理した翻訳文データを出力する翻訳処理システムであって,
    第一の言語と第二の言語との意味および構文の対応関係を記述する翻訳辞書と,
    前記第一の言語による原文データを取得して,前記原文データが受身文または使役文である場合に前記原文データを能動文の文データへ変換し,前記原文データが能動文である場合に前記原文データを受身文または使役文の文データへ変換する文変換処理システムと,
    前記翻訳辞書を参照して,前記変換された第一の言語の原文データをもとに,前記第二の言語による翻訳文データを生成する翻訳処理手段とを備え,
    前記文変換処理システムは,
    問題と解とで構成されたデータであって,前記第一の言語による文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と,
    前記解データの問題から格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と,
    前記部分データのもととなった解データの問題から,所定の解析処理によって素性を抽出し,前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と,
    所定の機械学習アルゴリズムにもとづいて,前記部分データに対する素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し,学習結果として,前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と,
    翻訳対象として入力された原文データから格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される原文部分データを作成する原文データ分割手段と,
    前記原文データから,所定の解析処理によって素性を抽出し,前記原文部分データごとに素性の集合を生成する素性抽出手段と,
    前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて,前記原文部分データについて,前記素性の集合の場合になりやすい解を推定する解推定手段と,
    前記解推定手段を用いて,前記原文部分データを文変換処理した変換文データを前記翻訳処理手段に対して出力する変換文生成手段とを備える
    ことを特徴とする文変換機能付きの翻訳処理システム。
  8. 音声データを文データに変換する音声認識処理システムであって,
    所定の音声認識処理によって,認識対象の音声データの波形を解析し,文データを生成する音声認識処理手段と,
    前記生成された文データが受身文または使役文である場合に前記文データを能動文の文データへ変換し,前記文データが能動文である場合に前記文データを受身文または使役文の文データへ変換する文変換処理システムとを備え,
    前記文変換処理システムは,
    問題と解とで構成されたデータであって,文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と,
    前記解データの問題から格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と,
    前記部分データのもととなった解データの問題から,所定の解析処理によって素性を抽出し,前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と,
    所定の機械学習アルゴリズムにもとづいて,前記部分データに対する素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し,学習結果として,前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と,
    前記音声認識処理手段で生成された文データを入力文データとして取得し,前記入力文データから格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と,
    前記入力文データから,所定の解析処理によって素性を抽出し,前記入力文部分データごとに素性の集合を生成する素性抽出手段と,
    前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて,前記入力文部分データについて,前記素性の集合の場合になりやすい解を推定する解推定手段と,
    前記解推定手段を用いて,前記入力文データを文変換処理した変換文データを出力する変換文生成手段とを備える
    ことを特徴とする文変換機能付きの音声認識処理システム。
  9. 文データから音声データを生成する音声合成処理システムであって,
    合成対象となる文データが受身文または使役文である場合に前記文データを能動文の文データへ変換し,前記文データが能動文である場合に前記文データを受身文または使役文の文データへ変換する文変換処理システムと,
    所定の音声合成処理によって,前記変換された文データから波形を生成して音声データとする音声合成手段とを備え,
    前記文変換処理システムは,
    問題と解とで構成されたデータであって,文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と,
    前記解データの問題から格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と,
    前記部分データのもととなった前記解データの問題から,所定の解析処理によって素性を抽出し,前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と,
    所定の機械学習アルゴリズムにもとづいて,前記部分データに対する素性の集合と解との組について,どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し,学習結果として,前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と,
    前記合成対象の文データを入力文データとして取得し,前記入力文データから格助詞を特定し,前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と,
    前記入力文データから所定の解析処理によって素性を抽出し,前記入力文部分データごとに素性の集合を生成する素性抽出手段と,
    前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて,前記入力文部分データについて,前記素性の集合の場合になりやすい解を推定する解推定手段と,
    前記解推定手段を用いて,前記入力文データを文変換処理した変換文データを前記音声合成手段に対して出力する変換文生成手段とを備える
    ことを特徴とする文変換機能付きの音声合成処理システム。
JP2006191711A 2006-07-12 2006-07-12 文変換処理システム,文変換機能付きの翻訳処理システム,文変換機能付きの音声認識処理システム,および文変換機能付きの音声合成処理システム Pending JP2008021093A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006191711A JP2008021093A (ja) 2006-07-12 2006-07-12 文変換処理システム,文変換機能付きの翻訳処理システム,文変換機能付きの音声認識処理システム,および文変換機能付きの音声合成処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006191711A JP2008021093A (ja) 2006-07-12 2006-07-12 文変換処理システム,文変換機能付きの翻訳処理システム,文変換機能付きの音声認識処理システム,および文変換機能付きの音声合成処理システム

Publications (1)

Publication Number Publication Date
JP2008021093A true JP2008021093A (ja) 2008-01-31

Family

ID=39076980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006191711A Pending JP2008021093A (ja) 2006-07-12 2006-07-12 文変換処理システム,文変換機能付きの翻訳処理システム,文変換機能付きの音声認識処理システム,および文変換機能付きの音声合成処理システム

Country Status (1)

Country Link
JP (1) JP2008021093A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005632A (ja) * 2016-07-04 2018-01-11 富士通株式会社 クラス推定装置、クラス推定方法及びクラス推定プログラム
CN110945514A (zh) * 2017-07-31 2020-03-31 北京嘀嘀无限科技发展有限公司 用于分割句子的系统和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171354A (ja) * 2002-11-21 2004-06-17 Communication Research Laboratory 言語解析処理方法、文変換処理方法、言語解析処理システム、および文変換処理システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171354A (ja) * 2002-11-21 2004-06-17 Communication Research Laboratory 言語解析処理方法、文変換処理方法、言語解析処理システム、および文変換処理システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018005632A (ja) * 2016-07-04 2018-01-11 富士通株式会社 クラス推定装置、クラス推定方法及びクラス推定プログラム
CN110945514A (zh) * 2017-07-31 2020-03-31 北京嘀嘀无限科技发展有限公司 用于分割句子的系统和方法
CN110945514B (zh) * 2017-07-31 2023-08-25 北京嘀嘀无限科技发展有限公司 用于分割句子的系统和方法

Similar Documents

Publication Publication Date Title
JP4065936B2 (ja) 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
JP4565106B2 (ja) 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム
Chieu et al. A maximum entropy approach to information extraction from semi-structured and free text
CN108874937B (zh) 一种基于词性结合和特征选择的情感分类方法
Yaghoobzadeh et al. Multi-level representations for fine-grained typing of knowledge base entities
Shen et al. Voting between multiple data representations for text chunking
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
Fonseca et al. A two-step convolutional neural network approach for semantic role labeling
Alnawas et al. Sentiment analysis of Iraqi Arabic dialect on Facebook based on distributed representations of documents
JP2009163303A (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
Al Khatib et al. Employing argumentation knowledge graphs for neural argument generation
Sabty et al. Data augmentation techniques on Arabic data for named entity recognition
Tasharofi et al. Evaluation of statistical part of speech tagging of Persian text
JP2005208782A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
Jaber et al. NER in English translation of hadith documents using classifiers combination
JP2008021093A (ja) 文変換処理システム,文変換機能付きの翻訳処理システム,文変換機能付きの音声認識処理システム,および文変換機能付きの音声合成処理システム
Banisakher et al. Improving the identification of the discourse function of news article paragraphs
Ouyang et al. Gated pos-level language model for authorship verification
JP3780341B2 (ja) 言語解析処理システムおよび文変換処理システム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Kolya et al. Event-event relation identification: A CRF based approach
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
Ilgen et al. Exploring feature sets for Turkish word sense disambiguation
Thu et al. Integrating dictionaries into an unsupervised model for Myanmar word segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120724