JP2008021093A

JP2008021093A - 文変換処理システム，文変換機能付きの翻訳処理システム，文変換機能付きの音声認識処理システム，および文変換機能付きの音声合成処理システム

Info

Publication number: JP2008021093A
Application number: JP2006191711A
Authority: JP
Inventors: Maki Murata; 真樹村田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2006-07-12
Filing date: 2006-07-12
Publication date: 2008-01-31

Abstract

【課題】日本語の受身文・使役文を能動文に変換する際に機械学習方法を用いて変換後の格助詞を高精度に推定するシステムを提供する。
【解決手段】解データ分割部１０１は，解データの問題から格助詞を特定し格助詞ごとの部分データを作成する。解−素性対生成部１０３は，部分データのもとの解データから素性を抽出し，部分データごとに素性の集合と解との組を生成する。機械学習部１０５は，所定の機械学習法により，部分データの素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかを学習し学習結果を学習結果データベース１０７に保存する。入力文分割部１１０は，対象の入力文３を格助詞で分割して入力文部分データを作成する。素性抽出部１１２は，入力文３から素性を抽出し，入力文部分データごとに素性の集合を生成する。解推定部は，学習結果をもとに，入力文部分データについて素性の集合の場合になりやすい解を推定し，変換文生成部１１６は，推定解をもとに変換文４を生成し出力する。
【選択図】図１

Description

本発明は，コンピュータによって実現する自然言語処理技術に関する。さらに詳しくは，機械学習法を用いて，電子データ化された受身文や使役文を能動文へ，または，能動文を受身文や使役文へ文変換処理するシステムに関する。また，文変換機能を備えた翻訳処理システム，音声認識処理システム，および音声合成処理システムに関する。

受身文の能動文への変換は，文生成処理，言い換え処理，文の平易化／言語運用支援，自然言語文からの知識獲得や情報抽出，質問応答システムなどの多くの言語処理分野で役に立つものである。

例えば，質問応答システムでは，質問文が能動文であって，答えが受動文や使役文で書かれている場合に，質問文と答えを含む文とでは文構造が異なるために，質問の答えを取り出すのが困難な場合がある。このような問題も，受身文や使役文から能動文への変換処理を行うことにより解決することができる。このように，受身文と能動文との相互の変換は，自然言語処理において重要である。

図１３に日本語の受身文・使役文の例，およびこれらの文に対応する能動文の例を示す。

図１３（Ａ）に示す文「犬に私が噛まれた。」の接尾辞「れた」は受身を示す助動詞であり，このような文を受身文と呼ぶ。また，図１３（Ｂ）に示す文「彼が彼女に髪を切らせた。」の接尾辞「らせた」は使役を示す助動詞であり，このような文を使役文と呼ぶ。

日本語の受身文や使役文を能動文に文変換処理する際には，文変換後に用いる変換後格助詞を推定することが求められる。例えば，図１３（Ａ）の「犬に私が噛まれた。」という受身文から「犬が私を噛んだ。」という能動文に変換する場合に，(i)格助詞「に」は格助詞「が」に，(ii) 格助詞「が」は格助詞「を」に，それぞれ変換される。

また，図１３（Ｂ）の「彼が彼女に髪を切らせた。」という使役文を「彼女が髪を切った。」という能動文に変換する場合に，「彼女に」の格助詞「に」が「が」に変換され，て，「髪を」の「を」は変換されない。

しかし，受身文や使役文から能動文への文変換処理における格助詞の変換は，変換される格助詞が動詞やその動詞の使われ方に依存して変わるので，簡単に自動処理できる問題ではない。

従来では，上記のような文変換処理において，どのように格助詞を変換すればよいかを記載した格フレーム辞書を用いて対処していた（例えば，非特許文献１および２参照）。

しかし，格フレーム辞書にすべての動詞とその動詞の使い方を記述しておくのは困難であるため，格フレーム辞書を用いる方法では，不十分であり，格フレーム辞書に記載されていない動詞や動詞の使い方がされた文を変換することができなかったり，誤変換する確率が高かったりするという問題が生じていた。

受身文・使役文から能動文への文変換処理における格助詞変換処理は，変換後の文で用いられる格助詞を決定することである。そして，変換後の格助詞の種類数は有限であるから，変換後の格助詞の推定問題は分類問題に帰着でき，機械学習手法を用いた処理として扱うことが可能である。この点に着目し，本発明者は，教師ありデータを使用する機械学習手法を用いて格助詞の変換を行なうことが可能な言語変換処理手法を発明した（特許文献１参照）。

特許文献１の手法では，解析対象についての情報（変換後格助詞など）を付与されていない文から生成されたデータ（教師なしデータ）を教師信号として機械学習を行う。これにより，大量に存在する通常の電子データ（文）を教師データとして利用することができ，解析対象についての情報を人手などにより付与するという労力負担を増加させることなく，高い精度の文変換処理を実現している。
Sadao Kurohashiand Makoto Nagao; A Method of Case Structure Analysis for Japanese Sentences based on Examples in Case Frame Dictionary; IEICE Transactions of Information and Systems, Vol.E77-D, No.2, １９９４近藤恵子，佐藤理史，奥村学，「格変換による単文の言い換え」，情報処理学会論文誌，Vol.42, No.3, ２００１年３月特許第３７８０３４１号公報

特許文献１の手法は，従来の非特許文献１および２の手法に比べて高精度に格助詞を変換することができるが，さらに高性能な文変換処理を実現するためには，変換後の格助詞をより高精度に推定する必要がある。

本発明の目的は，日本語の受身文・使役文を能動文に，または能動文を受身文・使役文に変換処理する際に，機械学習方法を用いて変更されるべき格助詞を推定し，変換文を自動生成する処理システムを提供することである。

また，本発明の目的は，上記の高精度の文変換機能を備えた翻訳処理システム，音声認識処理システム，および音声合成処理システムを提供することである。

本発明は，文変換処理において，教師データを用いる機械学習処理を利用して，変換後の格助詞を推定する。

この機械学習処理において，例えば，入力文の変換前の格助詞が「に」であれば，学習データとして変換前の格助詞が「に」である文だけを用いる。また，入力文の変換前の格助詞が「が」であれば，学習データとして変換前の格助詞が「が」の文だけを用いる。

図１４に，変換前の格助詞に対する変換後の格助詞の出現割合を示す。

図１４に示すように，変換前の格助詞ごとに，出現頻度が高い変換後の格助詞として出現頻度の高い格助詞は異なる。変換前の格助詞が「に」のとき，変換後の格助詞として出現割合が高い格助詞は「に」と「が」である。一方，変換前の格助詞が「が」のとき，変換後の格助詞で出現割合が高いものは「を」である。

したがって，変換前の格助詞ごとに出現頻度の高い変換後の格助詞が異なるので，変換前の格助詞ごとに入力された文を分割し，変換前の格助詞ごとにそれぞれ学習データを作成し，格助詞の種類に分けた学習データごとに機械学習処理を行うことによって，学習制度の向上を図っている。

前記の目的に鑑み，本発明は，機械学習処理を用いて，受身文または使役文である文データを能動文の文データへの変換，または能動文の文データを受身文または使役文の文データへの変換のいずれか一方の変換を行う場合に，変換後の格助詞を推定する文変換処理システムであって，１）問題と解とで構成されたデータであって，文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と，２）前記解データの問題から格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と，３）前記部分データのもととなった解データの問題から，所定の解析処理によって素性を抽出し，前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と，４）所定の機械学習アルゴリズムにもとづいて，前記部分データに対する素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し，学習結果として，前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と，５）前記変換処理の対象として入力された入力文データから格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と，６）前記入力文データから所定の解析処理によって素性を抽出し，前記入力文部分データごとに素性の集合を生成する素性抽出手段と，７）前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて，前記入力文部分データについて，前記素性の集合の場合になりやすい解を推定する解推定手段とを備える。

本発明において，前記機械学習手段は，前記所定の機械学習アルゴリズムとして決定リスト法のアルゴリズムを使用し，前記素性の集合と解との組を規則とし，前記規則を所定の優先順位により格納したリストを前記学習結果として前記学習結果データ記憶手段に記憶し，前記解推定手段は，前記学習結果データ記憶手段に記憶された前記リストに格納された規則を優先順位の高い順に前記入力文部分データの素性の集合と比較し，素性が一致した規則の解を，前記入力文部分データの素性の集合のときになりやすい解として推定することを特徴とする。

または，本発明において，前記機械学習手段は，前記所定の機械学習アルゴリズムとして最大エントロピー法のアルゴリズムを使用し，前記素性の集合と解との組から，前記素性の集合が所定の条件式を満足しかつエントロピーを示す式を最大にするときの確率分布を前記学習結果データ記憶手段に記憶し，前記解推定手段は，前記学習結果データ記憶手段に記憶された前記確率分布をもとに，前記入力文部分データの素性の集合の場合の各分類の確率を求め，前記確率が最大の確率値を持つ分類を，前記入力文部分データの素性の集合のときになりやすい解として推定することを特徴とする。

さらに，本発明において，前記機械学習手段は，前記所定の機械学習アルゴリズムとしてサポートベクトルマシン法のアルゴリズムを使用し，前記素性の集合と解との組を用いて，所定のサポートベクトルマシン法による超平面を求め，前記超平面および前記超平面により分割された空間の分類を前記学習結果として前記学習結果データ記憶手段に記憶し，前記解推定手段は，前記学習結果データ記憶手段に記憶された前記超平面および前記超平面により分割された空間の分類をもとに，前記入力文部分データの素性の集合が前記超平面で分割された空間のいずれかに属するかを求め，前記素性の集合が属する空間の分類を前記入力文データの素性の集合の場合になりやすい解として推定することを特徴とする。

また，本発明は，第一の言語の文データを他の第二の言語へ翻訳処理した翻訳文データを出力する翻訳処理システムであって，１）第一の言語と第二の言語との意味および構文の対応関係を記述する翻訳辞書と，２）前記第一の言語による原文データを取得して，前記原文データが受身文または使役文である場合に前記原文データを能動文の文データへ変換し，前記原文データが能動文である場合に前記原文データを受身文または使役文の文データへ変換する文変換処理システムと，３）前記翻訳辞書を参照して，前記変換された第一の言語の原文データをもとに，前記第二の言語による翻訳文データを生成する翻訳処理手段とを備え，
前記文変換処理システムは，a)問題と解とで構成されたデータであって，前記第一の言語による文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と，b)前記解データの問題から格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と，c)前記部分データのもととなった解データの問題から，所定の解析処理によって素性を抽出し，前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と，d)所定の機械学習アルゴリズムにもとづいて，前記部分データに対する素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し，学習結果として，前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と，e)翻訳対象として入力された原文データから格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される原文部分データを作成する原文データ分割手段と，f)前記原文データから，所定の解析処理によって素性を抽出し，前記原文部分データごとに素性の集合を生成する素性抽出手段と，g)前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて，前記原文部分データについて，前記素性の集合の場合になりやすい解を推定する解推定手段と，h)前記解推定手段を用いて，前記原文部分データを文変換処理した変換文データを前記翻訳処理手段に対して出力する変換文生成手段とを備える。

また，本発明は，音声データを文データに変換する音声認識処理システムであって，１）所定の音声認識処理によって，認識対象の音声データの波形を解析し，文データを生成する音声認識処理手段と，２）前記生成された文データが受身文または使役文である場合に前記文データを能動文の文データへ変換し，前記文データが能動文である場合に前記文データを受身文または使役文の文データへ変換する文変換処理システムとを備え，
前記文変換処理システムは，a)問題と解とで構成されたデータであって，文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と，b)前記解データの問題から格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と，c)前記部分データのもととなった解データの問題から，所定の解析処理によって素性を抽出し，前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と，d)所定の機械学習アルゴリズムにもとづいて，前記部分データに対する素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し，学習結果として，前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と，e)前記音声認識処理手段で生成された文データを入力文データとして取得し，前記入力文データから格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と，f)前記入力文データから，所定の解析処理によって素性を抽出し，前記入力文部分データごとに素性の集合を生成する素性抽出手段と，g)前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて，前記入力文部分データについて，前記素性の集合の場合になりやすい解を推定する解推定手段と，h)前記解推定手段を用いて，前記入力文データを文変換処理した変換文データを出力する変換文生成手段とを備える。

また，本発明は，文データから音声データを生成する音声合成処理システムであって，１）合成対象となる文データが受身文または使役文である場合に前記文データを能動文の文データへ変換し，前記文データが能動文である場合に前記文データを受身文または使役文の文データへ変換する文変換処理システムと，２）所定の音声合成処理によって，前記変換された文データから波形を生成して音声データとする音声合成手段とを備え，
前記文変換処理システムは，a)問題と解とで構成されたデータであって，文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と，b)前記解データの問題から格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と，c)前記部分データのもととなった前記解データの問題から，所定の解析処理によって素性を抽出し，前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と，d)所定の機械学習アルゴリズムにもとづいて，前記部分データに対する素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し，学習結果として，前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と，e)前記合成対象の文データを入力文データとして取得し，前記入力文データから格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と，f)前記入力文データから所定の解析処理によって素性を抽出し，前記入力文部分データごとに素性の集合を生成する素性抽出手段と，g)前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて，前記入力文部分データについて，前記素性の集合の場合になりやすい解を推定する解推定手段と，h)前記解推定手段を用いて，前記入力文データを文変換処理した変換文データを前記音声合成手段に対して出力する変換文生成手段とを備える。

本発明によれば，文変換後の格助詞の推定処理について教師データを用いて機械学習を行い，変換対象とする入力文を格助詞ごとに分割し，機械学習の結果を参照して，それぞれの格助詞ごとに変換後の格助詞を推定する。

さらに，機械学習処理において，素性を充実させ，特に動詞辞書による解析処理結果を素性として用いるようにする。

これにより，文変換後の格助詞を，より高精度に推定することができる。実験においても，本発明では，高い精度（９４．３０％）を得た。一方，入力文を格助詞ごとに分割しない場合には，分割するときよりも低い精度（９２．００％）であった。本発明によって，約５．２％（８９．０９％から９４．３０％）の精度向上を実現している。

本発明において行う文変換処理は，受身文または使役文から能動文への変換，能動文から受身文または使役文への変換などの処理である。格助詞の変換処理は，変換前の文に含まれる格助詞を，変換後の文で付与されるべき格助詞に変換する処理である。

本発明の実施形態を説明するための処理例として，受身文から能動文への変換処理を行うものとし，格助詞の変換処理とは，元の受身の格助詞を，変換後の能動文の格助詞へ変換する処理をいう。ここで，変換対象となる受身文に現れる元の格助詞を「変換前の格助詞」，また能動文に変換されるときに付与される格助詞を「変換後の格助詞」と呼ぶ。

図１に，本形態における文変換処理システムの構成例を示す。

文変換処理システム１００は，ＣＰＵおよびメモリからなり，解データ分割部１０１，解−素性対生成部１０３，機械学習部１０５，学習結果データベース１０７，入力文分割部１１０，素性抽出部１１２，解推定部１１４，変換文生成部１１６および解データ記憶部２を備える。

解データ記憶部２は，機械学習処理において解となる情報が付与された「問題−解」という構造を持つ解データを記憶する記憶手段である。解は，事例に含まれる格助詞ごとに付与されている「変換後の格助詞」であり，機械学習処理において，学習の分類先となる情報である。

解データ分割部１０１は，解データ記憶部２から，解と問題との構造を持つ事例を取り出し，事例の問題から格助詞を特定して取り出し、特定した格助詞ごとにその格助詞に前接する体言と，その体言が係る用言とで構成される部分データを作成する処理手段である。この部分データが教師学習部１０５の教師データとなる。

解−素性対生成部１０３は，部分データのもととなった解データの問題から、所定の解析処理によって素性を抽出し，取り出した格助詞ごとの部分データごとに素性の集合と解との対（組）を生成する処理手段である。

ここで，素性は，機械学習法による解析処理に用いる情報の１単位であって，文脈を構成する各要素である。

機械学習部１０５は，格助詞ごとに分割された事例から作成された部分データを用いて，同じ「変換前の格助詞」について，当該事例の素性の集合と解との組から，どのような素性のときにどのような解（文変換後の格助詞）となりやすいかを，所定の機械学習法により学習し，その学習結果を学習結果データベース１０７に記憶する手段である。

入力文分割部１１０は，文変換処理の対象とする入力文（受身文）３から格助詞を特定し、前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する処理手段である。なお，入力文３は，文または少なくとも体言と用言を持つ文の一部とする。

素性抽出部１１２は，入力文３から，所定の解析処理によって素性を抽出し，入力文部分データごとに素性の集合を生成する処理手段である。抽出される素性は，解−素性対生成部１０３で行われる素性抽出処理と同じ処理を用いて行われる。

解推定部１１４は，学習結果データベース１０７を参照して，入力文３の分割された各格助詞の入力文部分データについて，抽出された素性の場合にどのような解になりやすいか，すなわち能動文へ変換する場合に「変換後の格助詞」として付与されやすい格助詞を推定する処理手段である。

変換文生成部１１６は，所定の文変換処理によって，受身文または使役文である入力文３の述語の変形，語順の変形などを行って能動文を生成し，入力文３の変換前の格助詞を推定した変換後の格助詞に置き換えて，変換文４を作成して出力する。

図２に，文変換処理システム１００の処理フローを示す。

ステップＳ１：解−素性対生成部１０３は，解データ記憶部２から，解がタグ付けされた事例を取り出す。

解データ記憶部２として，受身文に含まれる各格助詞に対して，それが能動文になったときに用いられる変換後の格助詞がタグとして付与された事例（単文）が記憶されているタグ付きコーパスを用いる。

図３に，解データ記憶部２（タグ付きコーパス）に記憶されている事例（単文）の例を示す。図３の単文中の下線を付けた２つの格助詞は，変換前の格助詞であり，下線部の下に矢印で示すタグ付けされた変換後の格助詞（解）である。図３の事例では，この受身文が能動文に変換される場合に，変換前の格助詞「に」から変換後の格助詞「が」へ，変換前の格助詞「が」から変換後の格助詞「を」へそれぞれ変換されることを意味する。

ステップＳ２：解データ分割部１０１は，事例（単文または少なくとも体言ｎと用言ｖを持つ文の一部）から格助詞を取り出し，取り出した格助詞ごとに，格助詞と前接する体言，この体言がかかる用言とを用いて部分データを生成する。

図４に，事例の格助詞による分割の例を示す。図４に示す事例「犬に私が噛まれた。」の場合に，事例の格助詞「に」，「が」を抽出し，これらの格助詞ごとに事例を分割して格助詞ごとの教師データを作成する。作成される部分データは，例えば，部分データｐ１「問題＝犬に，噛まれた。；解＝が」，部分データｐ２「問題＝私が，噛まれた。；解＝を」である。

ステップＳ３：解−素性対生成部１０３は，所定の解析処理により，部分データについて，その部分データの事例について素性を抽出し，各部分データについて，解と素性の集合の組（対）を生成する。

抽出される素性として，例えば，解析対象となる格助詞に前接する体言ｎ，体言ｎが係る用言ｖ，品詞などの形態素解析の結果，統語構造上の情報，述語素（対象の動詞と格要素となる名詞句との関係，各名詞句同士の関係など），意味素（対象の動詞の格要素になる名詞句の意味的な制限など），係り受け解析の結果，スタッキングによって融合された他の解析手法の解析結果などがある。

ステップＳ４：機械学習部１０５により，各部分データについて，抽出された解と素性の集合との組から，どのような素性の集合のときにどのような解になりやすいかを，所定の機械学習法により学習し，この学習結果を学習結果データベース１０７に記憶する。機械学習処理では，抽出した素性の集合が文脈として，解が分類先として扱われる。

例えば，事例から作成された格助詞「に」の部分データ（「犬に，噛まれた。」）について，変換前の格助詞「に」が，どのような解（変換後の格助詞，例えば「が」）になりやすいかを，事例の素性の集合を用いて学習処理する。また，事例から作成された格助詞「が」の部分データ（「私が，噛まれた。」）を用いて，変換前の格助詞「が」が，どのような解（変換後の格助詞，例えば「を」）になりやすいかを，事例の素性の集合を用いて，学習処理する。

ステップＳ５：入力文分割部１１０により，変換対象となる入力文３を取得し，入力文３から格助詞を取り出し，各格助詞について，格助詞と前接する体言とこの体言がかかる用言とを用いて入力文部分データを作成する。例えば，入力文３が「虫に彼女が刺された。」である場合に，入力文３から格助詞「に」，「が」を抽出し，これらの格助詞ごとに，入力文部分データを作成する。例えば，前記の入力文３から，「虫に，刺された。」という入力文部分データと，「彼女が，刺された。」という入力文部分データとを作成する。

ステップＳ６：素性抽出部１１２により，解−素性対生成部１０３での処理とほぼ同様の処理によって，入力文３から素性を抽出する。そして，各入力文部分データについての素性の集合を，解推定部１１４に渡す。

ステップＳ７：解推定部１１４により，学習結果データベース１０７の学習結果を参照して，格助詞ごとの入力文部分データについて，素性の集合の場合にどのような解（変換後の格助詞）になりやすいかを推定する。

ステップＳ８：変換文生成部１１６は，既知の文変換処理によって，述語部について受身を表す助動詞を削除し，入力文３での活用形で動詞の基本形を活用させる。また，入力文３の各格助詞を，解推定部１１４で推定された格助詞に変換して，変換文４を生成して出力する。

本発明では，機械学習法として，サポートベクトルマシン法，決定リスト法，最大エントロピー法などの処理手法を採用することができる。しかし，前記手法に限定されるものではない。

上記の機械学習法を用いる場合の学習過程および解推定過程（ステップＳ４，Ｓ７）の処理について説明する。

サポートベクトルマシン法は，空間を超平面で分割することにより，２つの分類からなるデータを分類する手法である（参照，Nello Cristianini and John Shawe-Taylor, “An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods”, Cambridge University Press,2000）。

サポートベクトルマシン法は，分類の数が２個のデータを扱うものであるため，通常，サポートベクトルマシン法にペアワイズ手法を組み合わせて使用することで，分類数が３個以上のデータを扱えるようにする。

ペアワイズ手法とは，Ｎ個の分類を持つデータの場合に，異なる二つの分類先のあらゆるペア（Ｎ（Ｎ−１）／２個) を作り，各ペアごとにどちらがよいかを２値分類器（ここではサポートベクトルマシン法によるもの）で求め，最終的にＮ（Ｎ−１）／２個の２値分類器の分類先の多数決によって，分類先を求める方法である（参照，Taku Kudoh, TinySVM: Support Vector Machines, (http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html),2000）。

本発明において，機械学習法としてサポートベクトルマシン法を用いる場合に，機械学習部１０５は，与えられた教師データ（解と素性の集合との対）から解となりうる分類を特定する。さらにこの分類を正例と負例に分割し，所定のカーネル関数を用いたサポートベクトルマシン法を実行する関数にしたがって，素性の集合を次元とする空間上で正例と負例の間隔を最大にして，正例と負例を超平面で分割する超平面を求め，超平面およびこの超平面により分割された空間の分類を学習結果として学習結果データベース１０７に記憶する。

そして，解推定部１１４は，学習結果データベース１０７に記憶されている超平面およびこの超平面により分割された空間の分類を利用して，入力文３の入力文部分データの素性の集合が，この超平面で分割された空間において，正例側または負例側のどちらの側にあるかを特定し，特定された結果に基づいて定まる分類を，入力文部分データの素性の集合の場合になりやすい解と推定する。

決定リスト法は，素性と分類先の組を規則とし，それらをあらかじめ定めた優先順序でリストに蓄えておき，解析すべき入力が与えられたときに，リストで優先順位の高いところから入力のデータと規則の素性を比較し素性が一致した規則の分類先をその入力の分類先とする方法である。

本発明において，機械学習法として決定リスト法を用いる場合に，機械学習部１０５は，素性の集合と解との対で構成された部分データを規則とし，この規則を所定の順序でリスト上に並べたものを学習結果として学習結果データベース１０７に記憶する。

そして，解推定部１１４は，学習結果データベース１０７に記憶されたこの規則のリストを先頭からチェックしていき，入力文部分データの素性の集合と一致する規則を探し出し，その規則の解を，その素性の集合のときになりやすい解として推定する。

最大エントロピー法は，あらかじめ設定しておいた素性ｆ_ｊ（１≦ｊ≦ｋ）の集合をＦとするとき，所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布ｐ（ａ，ｂ）を求め，その確率分布にしたがって求まる各分類の確率のうち，もっとも大きい確率値を持つ分類を解（求める分類）とする方法である。

本発明において，機械学習法として決定リスト法を用いる場合に，機械学習部１０５は，教師データから解となりうる分類を特定し，所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求め，この確率分布を学習結果として，学習結果データベース１０７に記憶する。

そして，解推定部１１４は，学習結果データベース１０７に記憶されたこの確率分布を利用して，入力文部分データの素性の集合の場合のそれぞれの解となりうる分類の確率を求めて，もっとも大きい確率値を持つ解となりうる分類を特定し，その特定した分類を，この素性の集合の場合になりやすい解と推定する。

以下に，本発明の具体的な実施例を説明する。

実施例において，文変換処理システム１００の解データ記憶部２として，京都大学コーパスを使った（黒橋禎夫，長尾真，“京都大学テキストコーパス・プロジェクト”，言語処理学会第３回年次大会，１１５−１１８頁，１９９７）。このコーパスは，およそ２万文の新聞の文章からなるもので，形態素と構文のタグがすでにふられている。そのため，テキストの該当する格助詞に，その文が能動文に変換されたときに用いられる格助詞（変換後の格助詞）をタグとして付与した。

本実施例では，ＫＮＰの解析結果を利用した素性を使用する。京都大学コーパスにおけるＫＮＰの係り受けの解析精度は，９０.９％であるが，ＫＮＰの解析結果には誤りが少ない方が望ましい。ＫＮＰが解析誤りをした場合に，受け身の対応関係が誤りとなり，本来なら変換する必要のない格助詞まで変換対象に含めてしまうことになるからである。そこで，ＫＮＰが係り受け解析を誤る可能性が高い文を学習データから除外し，ＫＮＰが係り受けに正解したものだけを使用した。

具体的には，京都大学コーパスから受身文を取り出すと，格変換の対象として３９６０個の格助詞があった。その中から解析誤りとなった格助詞を対象から除外した結果，対象となる格助詞は３５７６個となり，元のデータの９０.３％のデータ量となった。京都大学コーパスから取り出した受身文をＫＮＰで解析したところ，対象の格助詞と受け身の用言の係り受け関係を正しく解析できたものは３５７６個であり，係り先を誤ったものは３８８個であった。この３５７６個の格助詞を実施例における処理対象として用いた。

解−素性対生成部１０３は，以下のＦ１〜Ｆ３２のような素性を用いた。ここで，解析対象の格助詞に前接する体言をｎ，体言が係る用言をｖとする。体言ｎ，用言ｖ，品詞や統語構造の情報の特定には，ＫＮＰを利用した。また，ＩＰＡＬ動詞辞書内での述語素とは，対象の動詞と格要素となる名詞句との関係や，各名詞句同士の関係を示したものである。意味素性とは対象の動詞の格要素になる名詞句の意味的な制限を示したものである。

Ｆ１：用言ｖの品詞，
Ｆ２：用言ｖの単語の基本形，
Ｆ３：用言ｖの全単語，
Ｆ４：用言ｖの単語の所定の分類語彙表の分類番号（１，２，３，４，５，７桁までの数字），
Ｆ５：用言ｖにつく助動詞列，
Ｆ６：体言ｎの単語，
Ｆ７：体言ｎの単語の所定の分類語彙表の分類番号（１，２，３，４，５，７桁までの数字），
Ｆ８：用言ｖにかかる体言ｎ以外の体言の単語列（ただし，どういった格でかかっているかの情報をＡＮＤでつける），
Ｆ９：用言ｖにかかる体言ｎ以外の体言の単語集合の分類語彙表の分類番号（１，２，３，４，５，７桁までの数字，また，どういった格でかかっているかの情報をＡＮＤでつける），
Ｆ１０：用言ｖにかかる体言ｎ以外の体言がとっている格助詞，
Ｆ１１：同一文に共起する各単語，
Ｆ１２：同一文に共起する各単語の分類語彙表の分類番号（３，５桁の数字），
Ｆ１３：体言ｎに後接する変換前の格助詞（＝対象の格助詞），
Ｆ１４：ＫＮＰによって変換された格助詞（＝ＫＮＰによる出力），
Ｆ１５：近藤法によって変換された格助詞（＝近藤法による出力），
Ｆ１６：用言ｖがＩＰＡＬ動詞辞書にある場合，用言ｖの格フレームの格助詞，
Ｆ１７：用言ｖがＩＰＡＬ動詞辞書にある場合，用言ｖの項となる名詞の述語素の全てをＡＮＤでつけたもの，
Ｆ１８：用言ｖがＩＰＡＬ動詞辞書にある場合，用言ｖの各述語素，
Ｆ１９：ＫＮＰによって解析された体言ｎのＩＰＡＬによって得られた意味素性の全てをＡＮＤでつけたもの，
Ｆ２０：ＫＮＰによって解析された体言ｎのＩＰＡＬによって得られた各意味素性，
Ｆ２１：用言ｖがＩＰＡＬ動詞辞書に存在するかどうか，
Ｆ２２：ＶＤＩＣ辞書の定義により，用言ｖの受動態が可能な動詞かどうかの情報，
Ｆ２３：ＶＤＩＣ辞書の定義による用言ｖの必須格，
Ｆ２４：ＶＤＩＣ辞書の定義による用言ｖの種類，
Ｆ２５：近藤法で変換の際に用いた格変換規則，
Ｆ２６：用言ｖがＶＤＩＣ辞書に存在するかどうか，
Ｆ２７：用言ｖにかかる格助詞を持つ体言ｎを含む節の格助詞の出現順，
Ｆ２８：用言ｖにかかる格助詞を持つ体言ｎを含む節の連続する格助詞のペア，
Ｆ２９：体言ｎの前方に出現する全ての格助詞をＡＮＤでつけたもの，
Ｆ３０：体言ｎの後方に出現する全ての格助詞をＡＮＤでつけたもの，
Ｆ３１:体言ｎの直前に出現する名詞句の格助詞,
Ｆ３２：体言ｎの直後に出現する名詞句の格助詞。

Ｆ１４およびＦ１５の素性は，他手法の解析結果を素性として追加したものである。このような手法は“スタッキング”と呼ばれる。このスタッキングは，複数のシステムの解析結果の融合に用いられている。

Ｆ１６からＦ２１までの素性は，ＫＮＰでの変換処理の際に用いた情報を，Ｆ２２からＦ２６までの素性は，近藤法による変換処理の際に用いた情報を，素性として利用している（参照，黒橋禎夫，“日本語構文解析システムＫＮＰ”Ｖｅｒ２．0ｂ６，京都大学大学院情報学研究科，１９９８）。

Ｆ１６からＦ２０までの素性は，ＫＮＰによる格解析結果を使う。ＫＮＰの格解析ではＩＰＡＬ動詞辞書を使用する（参照，“計算機用日本語基本動詞辞書ＩＰＡＬ説明書”，情報処理振興事業協会技術センター，１９８７）。そのため，これらの素性は用言ｖがＩＰＡＬ動詞辞書に存在する場合のみ出力される。

Ｆ２２からＦ２６までの素性は，近藤法での格変換の際に用いた情報を使う。近藤法では，受身文を能動文へ変換する所定の７種類の格変換規則をもとに，対象の格助詞と動詞によって使用する格変換規則を選択して対象格の変換を行う処理を行う（近藤恵子，佐藤理史，奥村学，“格変換による単文の言い換え”，情報処理学会論文誌，２００１）。近藤法では，格変換の際に，必要な情報を登録している動詞辞書を参照する。この動詞辞書をＶＤＩＣ辞書と呼び，用言ｖがＶＤＩＣ辞書にある場合のみ，これらの素性は出力される。

Ｆ２７からＦ３２までの素性は，入力された文の格助詞の情報を用いる。Ｆ２７とＦ２８の素性は，ＫＮＰによる係り受け解析の結果を利用する。Ｆ２９からＦ３２までの素性については係り受け解析の結果を利用せず，形態素解析の結果のみを利用した。

なお，本実施例では，素性の選択処理を行った。具体的には，最初にすべての素性を使用して機械学習処理を行った。次に，全素性から素性を１つだけ除去した素性の集合を作成し，この素性の集合を使用して機械学習処理を行った。

このように，全素性から１つの素性を除去した残りの素性による素性の集合を用いて機械学習処理を繰り返し行った。全ての素性について処理を行った後，１つの素性を除去することによって機械学習の処理精度が最も改善した場合に当該素性を除く素性の集合を採用する。このような素性の選択を，機械学習処理の精度が改善しなくなるまで繰り返し行って，最適となる素性を選択した。

機械学習部１０５は，サポートベクトルマシン法による機械学習処理を行った。これは，サポートベクトルマシン法が，他の手法に比べて比較的よい成績をおさめていると考えられるためである。

前述したように，サポートベクトルマシン法は，空間を超平面で分割することにより２つの分類からなるデータを分類する手法である。このとき，２つの分類が正例と負例からなるものとすると，学習データにおける正例と負例の間隔(マージン)が，大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ，このマージンを最大にする超平面を求め，それを用いて分類を行なう。

サポートベクトルマシン法を説明するため，図５に，サポートベクトルマシン法のマージン最大化の概念を示す。図５において，白丸は正例，黒丸は負例を意味し，実線は空間を分割する超平面を意味し，破線はマージン領域の境界を表す面を意味する。図５（Ａ）は，正例と負例の間隔が狭い場合（スモールマージン）の概念図，図５（Ｂ）は，正例と負例の間隔が広い場合（ラージマージン）の概念図である。

サポートベクトルマシン法の２つの分類が正例と負例からなるものとすると，学習データにおける正例と負例の間隔（マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ，図５（Ｂ）に示すように，このマージンを最大にする超平面を求め，それを用いて分類を行なう。

基本的には，前述のとおりであるが，通常，学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や，超平面の線形の部分を非線型にする拡張(カーネル関数の導入など)がなされたものが用いられる。この拡張されたサポートベクトルマシン法は，以下の識別関数を用いて分類することと等価であり，その識別関数の出力値が正か負かによって二つの分類を判別することができる。

ただし，ｘは識別したい事例の文脈（素性の集合) を，ｘ_ｉとｙ_ｊ（ｉ＝１，…，ｌ，ｙ_ｊ ∈｛１，−１｝）は学習データの文脈と分類先を意味し，関数ｓｇｎは，

であり，また，各α_ｉは式（４）と式（５）の制約のもと式（３）を最大にする場合のものである。

また，関数Ｋはカーネル関数と呼ばれ，様々なものが用いられるが，本形態では以下の多項式のものを用いる。

Ｃ，ｄは実験的に設定される定数である。後述する具体例では，すべての処理を通して，Ｃとｄは１および２に固定した。ここで，α_ｉ＞０となるｘ_ｉは，サポートベクトルと呼ばれ，通常，式（１) の和をとっている部分はこの事例のみを用いて計算される。すなわち，実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

サポートベクトルマシン法は，分類の数が２個のデータを扱うものであるから，分類の数が３個以上のデータを扱うために，ペアワイズ手法を組み合わせて用いることになる。本例では，文変換処理システム１００は，サポートベクトルマシン法とペアワイズ手法を組み合わせた処理を行う。具体的には，ＴｉｎｙＳＶＭを利用して実現する。

本実施例で用いた京都大学コーパスをもとに，クローズドデータとオープンデータの２つの教師データを用意した。クローズドデータとオープンデータは，ともに，１７８８文である。

図６に，クローズドデータおよびオープンデータにおける「変換後の格助詞」の出現割合を示す。クローズドデータを素性選択処理に使用し，オープンデータを文変換処理システム１００の評価用データとして使用した。クローズドデータの評価には，１０分割のクロスバリデーションを利用した。オープンデータの学習データには，クローズドデータを利用した。

なお，本実施例では，複数の格助詞が正解となる場合には，その複数の格助詞の組を正解と扱って学習処理を行った。

図７に，実施例における処理結果の精度を示す。図７の処理結果の評価は，全データを利用した場合のものである。

図７において，本手法は，本発明による処理を意味する。

ＫＮＰでは，ＫＮＰによる出力の結果の精度を，近藤法では，近藤法による出力の結果の精度を，それぞれ示す。ＫＮＰはＩＰＡＬ動詞辞書に解析対象の動詞が含まれている時のみ，近藤法はＶＤＩＣ辞書に解析対象の動詞が含まれている時のみ答えが出力される。

ＫＮＰを用いた格助詞の変換は，次のような手順で行った。まず，ＫＮＰを用いて，入力文の係り受け解析を行う。その解析結果から対象とする動詞を発見し，格解析結果を取得する。次に，格解析の結果から対象とする動詞の格フレーム情報を取得し，処理対象の格が能動態の場合の格を取り出し，出力する。ＫＮＰを使用した格変換では，ＩＰＡＬ動詞辞書に対象とする動詞がない場合は，出力を行わないか，ベースラインの方法に従った出力を行った。

近藤法は，広く格変換一般を扱っているが，本実施例では，受動態から能動態への変換のみを対象とした。近藤法では，受動態から能動態への変換規則は７種類定められていて，それぞれの変換規則ごとに動詞の制約条件がある。動詞の条件は，ＩＰＡＬ動詞辞書をもとに作成された動詞辞書ＶＤＩＣに記されている。ＶＤＩＣ辞書には，１６０４語の動詞エントリがあった。近藤法における格変換処理は，対象とする格の変換が変換規則にあれば変換規則による格変換を行い，変換規則になければ格変換は行わずにそのままの格助詞を出力する。近藤法では，ＶＤＩＣ辞書に対象とする動詞がない場合，出力を行わないか，ベースラインの方法に従った出力を行った。

村田法は，前述の特許文献１による処理方法を示す。村田法では，素性のＦ１，Ｆ２，Ｆ５，Ｆ６，Ｆ７，Ｆ１０，Ｆ１３のみの素性を利用している。

ベースライン１は変換前の格助詞を答えに出力する処理方法，ベースライン２は最も頻度の多い変換後の格助詞（すなわち，「を」）を答えとして出力する処理方法を示す。

ベースライン３は，変換前の格助詞ごとにクローズドデータにおいて最も頻度の多い変換後の格助詞を答えに出力する処理方法である。例えば，変換前の格助詞が「に」であった場合に，クローズドデータにおいて，変換後の格助詞として最も頻度の多い格助詞は，図１４に示す変換後の格助詞の出現割合から，「に」であることが分かる。したがって，この場合にはベースライン３による処理の答えとして，「に」が出力される。

一方，変換前の格助詞が「で」であった場合に，クローズドデータにおいて，変換後の格助詞として最も頻度の多い格助詞は，図１４に示す出現割合から，「が」であるので，ベースライン３による処理の答えとして，「が」が出力される。

ＫＮＰ／近藤法＋ベースラインｘは，ＩＰＡＬの辞書やＶＤＩＣの辞書に解析対象の動詞が含まれておらず，かつＫＮＰまたは近藤法で答えを出力できなかったときにはベースラインｘ（１〜３）の方法で答えを出力する方法を意味する。

処理の評価には，評価Ａと評価Ｂの二つの評価基準を用いた。この基準は複数の格助詞が解となる場合のためのものである。例えば評価Ａは，「が」と「で」が正解の場合に，出力が「が」と「で」の組の場合のみ正解とする。評価Ｂは，出力が「が」か「で」か「が」と「で」の組の場合も正解とするものである。

図８に，解析対象の動詞が，ＩＰＡＬの辞書とＶＤＩＣの辞書の両方に含まれている場合の処理結果の評価を示す。解析対象の動詞がＩＰＡＬの辞書とＶＤＩＣの辞書の両方に含まれていた文は，クローズドデータで５５１文，オープンデータで５３９文であった。図７において，本発明の処理（本手法）であるが，格助詞による分割を行わない場合には，オープンデータの評価Ｂで９２．００％の精度を得た。格助詞による分割を行って機械学習を行った場合に，精度は２．３０％向上し，９４．３０％となった。

両側符合検定によって，有意水準１％で格助詞による分割を行った処理の方が，格助詞による分割を行わない処理よりも優れていることを確認した。これによって，入力文を格助詞によって分割して機械学習を行って，変換後の格助詞の推定を行うという本発明の有効性が確認された。

なお，村田法では，格助詞による分割を行わず，使用した素性は７つのみである。村田法は評価Ｂで８９．７７％の精度であった。格助詞による分割を行わない場合の本発明と，村田法とを比較すると，２５種類の素性を追加することによって，３．３０％の精度向上を実現できたことがわかる。両側符合検定によって，有意水準１％で，本手法において格助詞による分割を行わない処理の方が，村田法よりも優れていることを確認した。これによって，本手法で追加された素性の有効性も確認することができた。

ベースライン３の処理手法は，比較的高い精度となっている。オープンデータの評価Ａで８４．１７％，評価Ｂで８８．２０％であった。ベースライン３の手法は，格助詞によって入力文を分割し，変換前の格助詞ごとに最も多い頻度の変換後の格助詞を出力する点で，本発明と類似する。しかし，本手法では，格助詞ごとに入力文を分割した後に，それぞれの格助詞ごとに機械学習を行う点で，改良されたものとなっている。ベースライン３の手法による精度の高さは，本手法が有効であることを示唆していると考えられる。

ＫＮＰと近藤法は，処理の精度が低く，オープンデータの評価Ｂで，ＫＮＰが２９．１４％，近藤法が４１．００％であった。これらの処理手法が有効に働くのは，解析対象の動詞がそれぞれＩＰＡＬ動詞辞書とＶＤＩＣ辞書に含まれている場合である。図８の処理結果の評価（解析対象の動詞がＩＰＡＬ動詞辞書と，ＶＤＩＣ辞書の両方に含まれる文のみを評価対象にした場合の精度）に示すように，オープンデータの評価Ｂで，ＫＮＰが７６．０７％，近藤法が７８．８５％であった。これらの手法の精度は，比較的高いものの，ベースライン３との組み合わせよりも低く，本発明の手法と比べてもはるかに低いものとなっている。

次に，素性の重要性を確認する。図９に，各素性を除去した場合の処理精度の変化を示す。

図９に示すように，Ｆ２５の素性を使用しない場合には，精度が特に下がっていることが分かる（約２％の精度低下）。Ｆ２５の素性は，近藤法で変換する際に利用した規則である。この規則の中でも，特に変換の難しい「に」で用いられる規則が効果的であった。

Ｆ２５の素性を使用しない場合や村田法では，どちらの例も格助詞が変換されず，もとの格助詞のまま出力されていた。一方，全素性を使用した場合では，どちらも正しい出力であった。精度を比較すると，Ｆ２５を使用しない時の評価Ｂにおける「が」格の再現率は６２．５７％，適合率は５７．４４％であった。これに対し，全素性を使用した時の「が」格の再現率は７０．９５％，適合率は６６．１５％と，いずれも８％以上の差が見られた。このことから，近藤法が変換に用いる規則が，変換後の格助詞の推定に有効であることが分かった。

また，Ｆ７の素性を使用しない場合にも，精度が下がっていることが分かる（約０．５％の精度低下）。Ｆ７の素性は，格助詞が前接する体言の意味素性である。このことから，格助詞が前接する体言の意味素性が，変換後の格助詞の推定に有効であることが分かった。

最後に，学習データ量と精度との関係について確認する。

図１０に，学習データ量と処理精度の変化を示す。ここでは，処理に全素性を使用し，全データの１／２，１／４，１／８，１／１６の各データ量で精度を求めた。本実施例では，変換前の格助詞による分割を行ったものと，分割を行わないものの二種類を行った。図１０のグラフでは，オープンデータの評価Ｂによる精度のみをプロットしている。

格助詞による分割を行った場合には，データ量が１／１６でも，高い精度となっている（８８．３６％）。逆に，格助詞による分割を行わない場合には，データ量が少なくなるにつれて，精度の低下が大きくなっている（７５．５７％）。このことから，本発明の，格助詞による分割を行った処理は，データ量の小さい場合にも効果的であることが分かる。

以上説明したように，本発明は，入力文を格助詞で分割した後に機械学習処理を行うことにより，変換後の格助詞の推定を高い精度（９４．３０％）で行うことができた。

特に，学習に利用するデータ量を変化させて処理を行い，本発明が，格助詞で分割しない従来手法に比べて，データ量が減少しても精度が大きく低下しないことが確認でき，本発明が，データ量の小さい場合にも効果的であることが分かった。

また，機械学習に用いる素性の種類を多くすることによっても，高い精度を得ることができた。

本発明の文変換処理システム１００は，図１１に示すように，翻訳処理システム２００に組み込むことができる。図１１の翻訳処理システム２００は，図１に示す文変換処理システム１００と，第一の言語の文データを他の第二の言語へ翻訳処理した翻訳文データを出力する翻訳エンジン１３０，および第一の言語と第二の言語との意味および構文の対応関係を記述する翻訳辞書１５０を備える。

翻訳処理システム２００で，日本語から英語への翻訳処理を行うとする。

日本語の受身文「犬に私が噛まれた。」が入力文３として入力されると，文変換処理システム１００によって，まず能動文「犬が私を噛んだ。」という変換文４が出力され，この変換文が翻訳エンジン１３０に入力される。翻訳エンジン１３０では，既知の英訳処理手法によって，一旦能動文に変換された日本文（能動文）をもとに英訳処理を行い翻訳文５「Ａｄｏｇｂｉｔｅｓｍｅ．」を出力する。したがって，翻訳処理システム２００は，受身文の入力文３を直接入力して，翻訳処理を行う場合に比べて，より自然な翻訳文５を生成して出力することが可能となる。

また，本発明の文変換処理システム１００は，図１２に示すように，音声対話処理システム３００に組み込むことができる。図１２の音声対話処理システム３００は，図１に示す文変換処理システム１００と，所定の音声認識処理によって，認識対象の音声データ７の波形を解析し，文データを生成する音声認識処理システム１７０，所定の音声合成処理によって，前記変換された文データから波形を生成して音声データ８とする音声合成処理システム１９０を備える。音声認識処理システム１７０および音声合成処理システム１９０は，一般的な既存の処理手法によって，音声認識処理および音声合成処理を行う。

日本語の受身文「犬に私が噛まれた。」が音声データ７として音声対話処理システム３００に入力されると，音声認識処理システム１７０は，この音声データ７を音声認識処理して，テキストデータを生成する。このテキストデータは，入力文３として文変換処理システム１００に入力される。文変換処理システム１００は，この入力文３を，能動文「犬が私を噛んだ。」に変換して出力する。出力された変換文４が，音声合成処理システム１９０によって，音声データ８に変換されて出力される。したがって，音声対話処理システム３００は，音声データ７の文の態を変換して，音声データ８として出力することができ，高性能な音声インタフェースの実現が可能となる。

以上,本発明をその実施の形態により説明したが,本発明はその主旨の範囲において種々の変形が可能であることは当然である。

また，本発明は，コンピュータにより読み取られ実行されるプログラムとして実施することができる。本発明を実現するプログラムは，コンピュータが読み取り可能な，可搬媒体メモリ，半導体メモリ，ハードディスクなどの適当な記録媒体に格納することができ，これらの記録媒体に記録して提供され，または，通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。

本形態における文変換処理システムの構成例を示す図である。文変換処理システムの処理フローを示す図である。解データ記憶部に記憶されている事例（単文）の例を示す図である。事例の格助詞による分割の例を示す図である。サポートベクトルマシン法のマージン最大化の概念を示す図である。クローズドデータおよびオープンデータにおける，変換後の格助詞の出現割合を示す図である。実施例における処理結果の精度を示す図である。実施例において，解析対象の動詞が，ＩＰＡＬの辞書とＶＤＩＣの辞書の両方に含まれている場合の処理結果の評価を示す図である。実施例において，各素性を除去した場合の処理精度の変化を示す図である。実施例において，学習データ量と処理精度の変化を示す図である。本発明の文変換処理システムを組み込んだ翻訳処理システムの構成例を示す図である。本発明の文変換処理システムを組み込んだ音声対話処理システムの構成例を示す図である。日本語の受身文・使役文の例およびこれらの文に対応する能動文の例を示す図である。変換前の格助詞に対する変換後の格助詞の出現割合を示す図である。

符号の説明

１００文変換処理システム
１０１解データ分割部
１０３解−素性対生成部
１０５機械学習部
１０７学習結果データベース
１１０入力文分割部
１１２素性抽出部
１１４解推定部
１１６変換文生成部
２解データ記憶部（タグ付きコーパス）
３入力文
４変換文
５翻訳文
２００翻訳処理システム
１３０翻訳エンジン
１５０翻訳辞書
３００音声対話処理システム
１７０音声認識処理システム
１９０音声合成処理システム
７音声データ（入力）
８音声データ（出力）

Claims

機械学習処理を用いて，受身文または使役文である文データを能動文の文データへの変換，または能動文の文データを受身文または使役文の文データへの変換のいずれか一方の変換を行う場合に，変換後の格助詞を推定する文変換処理システムであって，
問題と解とで構成されたデータであって，文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と，
前記解データの問題から格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と，
前記部分データのもととなった解データの問題から，所定の解析処理によって素性を抽出し，前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と，
所定の機械学習アルゴリズムにもとづいて，前記部分データに対する素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し，学習結果として，前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と，
前記変換処理の対象として入力された入力文データから格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と，
前記入力文データから所定の解析処理によって素性を抽出し，前記入力文部分データごとに素性の集合を生成する素性抽出手段と，
前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて，前記入力文部分データについて，前記素性の集合の場合になりやすい解を推定する解推定手段とを備える
ことを特徴とする文変換処理システム。
前記解−素性対生成手段は，述語素および格フレームの情報を含む動詞辞書を用いて前記解データの問題を解析処理した結果を，前記素性として用いる
ことを特徴とする請求項１に記載の文変換処理システム。
前記解−素性対生成手段は，前記解データの問題を他の機械学習処理によって学習した結果を，前記素性として用いる
ことを特徴とする請求項１に記載の文変換処理システム。
前記機械学習手段は，前記所定の機械学習アルゴリズムとして決定リスト法のアルゴリズムを使用し，前記素性の集合と解との組を規則とし，前記規則を所定の優先順位により格納したリストを前記学習結果として前記学習結果データ記憶手段に記憶し，
前記解推定手段は，前記学習結果データ記憶手段に記憶された前記リストに格納された規則を優先順位の高い順に前記入力文部分データの素性の集合と比較し，素性が一致した規則の解を，前記入力文部分データの素性の集合のときになりやすい解として推定する
ことを特徴とする請求項１ないし請求項３のいずれか一項に記載の文変換処理システム。
前記機械学習手段は，前記所定の機械学習アルゴリズムとして最大エントロピー法のアルゴリズムを使用し，前記素性の集合と解との組から，前記素性の集合が所定の条件式を満足しかつエントロピーを示す式を最大にするときの確率分布を前記学習結果データ記憶手段に記憶し，
前記解推定手段は，前記学習結果データ記憶手段に記憶された前記確率分布をもとに，前記入力文部分データの素性の集合の場合の各分類の確率を求め，前記確率が最大の確率値を持つ分類を，前記入力文部分データの素性の集合のときになりやすい解として推定する
ことを特徴とする請求項１ないし請求項３のいずれか一項に記載の文変換処理システム。
前記機械学習手段は，前記所定の機械学習アルゴリズムとしてサポートベクトルマシン法のアルゴリズムを使用し，前記素性の集合と解との組を用いて，所定のサポートベクトルマシン法による超平面を求め，前記超平面および前記超平面により分割された空間の分類を前記学習結果として前記学習結果データ記憶手段に記憶し，
前記解推定手段は，前記学習結果データ記憶手段に記憶された前記超平面および前記超平面により分割された空間の分類をもとに，前記入力文部分データの素性の集合が前記超平面で分割された空間のいずれかに属するかを求め，前記素性の集合が属する空間の分類を前記入力文データの素性の集合の場合になりやすい解として推定する
ことを特徴とする請求項１ないし請求項３のいずれか一項に記載の文変換処理システム。
第一の言語の文データを他の第二の言語へ翻訳処理した翻訳文データを出力する翻訳処理システムであって，
第一の言語と第二の言語との意味および構文の対応関係を記述する翻訳辞書と，
前記第一の言語による原文データを取得して，前記原文データが受身文または使役文である場合に前記原文データを能動文の文データへ変換し，前記原文データが能動文である場合に前記原文データを受身文または使役文の文データへ変換する文変換処理システムと，
前記翻訳辞書を参照して，前記変換された第一の言語の原文データをもとに，前記第二の言語による翻訳文データを生成する翻訳処理手段とを備え，
前記文変換処理システムは，
問題と解とで構成されたデータであって，前記第一の言語による文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と，
前記解データの問題から格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と，
前記部分データのもととなった解データの問題から，所定の解析処理によって素性を抽出し，前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と，
所定の機械学習アルゴリズムにもとづいて，前記部分データに対する素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し，学習結果として，前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と，
翻訳対象として入力された原文データから格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される原文部分データを作成する原文データ分割手段と，
前記原文データから，所定の解析処理によって素性を抽出し，前記原文部分データごとに素性の集合を生成する素性抽出手段と，
前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて，前記原文部分データについて，前記素性の集合の場合になりやすい解を推定する解推定手段と，
前記解推定手段を用いて，前記原文部分データを文変換処理した変換文データを前記翻訳処理手段に対して出力する変換文生成手段とを備える
ことを特徴とする文変換機能付きの翻訳処理システム。
音声データを文データに変換する音声認識処理システムであって，
所定の音声認識処理によって，認識対象の音声データの波形を解析し，文データを生成する音声認識処理手段と，
前記生成された文データが受身文または使役文である場合に前記文データを能動文の文データへ変換し，前記文データが能動文である場合に前記文データを受身文または使役文の文データへ変換する文変換処理システムとを備え，
前記文変換処理システムは，
問題と解とで構成されたデータであって，文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と，
前記解データの問題から格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と，
前記部分データのもととなった解データの問題から，所定の解析処理によって素性を抽出し，前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と，
所定の機械学習アルゴリズムにもとづいて，前記部分データに対する素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し，学習結果として，前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と，
前記音声認識処理手段で生成された文データを入力文データとして取得し，前記入力文データから格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と，
前記入力文データから，所定の解析処理によって素性を抽出し，前記入力文部分データごとに素性の集合を生成する素性抽出手段と，
前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて，前記入力文部分データについて，前記素性の集合の場合になりやすい解を推定する解推定手段と，
前記解推定手段を用いて，前記入力文データを文変換処理した変換文データを出力する変換文生成手段とを備える
ことを特徴とする文変換機能付きの音声認識処理システム。
文データから音声データを生成する音声合成処理システムであって，
合成対象となる文データが受身文または使役文である場合に前記文データを能動文の文データへ変換し，前記文データが能動文である場合に前記文データを受身文または使役文の文データへ変換する文変換処理システムと，
所定の音声合成処理によって，前記変換された文データから波形を生成して音声データとする音声合成手段とを備え，
前記文変換処理システムは，
問題と解とで構成されたデータであって，文データを問題とし前記変換処理での問題に対する解情報を解とする解データを記憶する解データ記憶手段と，
前記解データの問題から格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される部分データを作成する解データ分割手段と，
前記部分データのもととなった前記解データの問題から，所定の解析処理によって素性を抽出し，前記部分データごとに素性の集合と解との組を生成する解−素性対生成手段と，
所定の機械学習アルゴリズムにもとづいて，前記部分データに対する素性の集合と解との組について，どのような素性の集合の場合にどのような解になりやすいかということを機械学習処理し，学習結果として，前記どのような素性の集合の場合にどのような解になりやすいかということを学習結果データ記憶手段に保存する機械学習手段と，
前記合成対象の文データを入力文データとして取得し，前記入力文データから格助詞を特定し，前記特定した格助詞ごとに当該格助詞に前接する体言と当該体言が係る用言とで構成される入力文部分データを作成する入力文データ分割手段と，
前記入力文データから所定の解析処理によって素性を抽出し，前記入力文部分データごとに素性の集合を生成する素性抽出手段と，
前記学習結果データ記憶手段に学習結果として記憶された前記どのような素性の集合の場合にどのような解になりやすいかということにもとづいて，前記入力文部分データについて，前記素性の集合の場合になりやすい解を推定する解推定手段と，
前記解推定手段を用いて，前記入力文データを文変換処理した変換文データを前記音声合成手段に対して出力する変換文生成手段とを備える
ことを特徴とする文変換機能付きの音声合成処理システム。