JP3932350B2

JP3932350B2 - 言語変換処理統一システム

Info

Publication number: JP3932350B2
Application number: JP2001205889A
Authority: JP
Inventors: 真樹村田; 均井佐原
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2001-07-06
Filing date: 2001-07-06
Publication date: 2007-06-20
Anticipated expiration: 2021-07-06
Also published as: JP2003022264A

Description

【０００１】
【発明の属する技術分野】
本発明は，ある自然言語で記述された文または文章などの文字列を，同一の自然言語で記述された他の表現による文字列に変換するシステムであって，特に，コンピュータによる自然言語処理において多種多様な言い換えを統一的に扱うことができるようにした言語変換処理統一システムに関するものである。
【０００２】
【従来の技術】
自然言語で記述された文または文章に関する表現の変換処理として典型的なものは，機械翻訳である。機械翻訳では，ある国の自然言語で記述された文または文章を他の国の自然言語で記述された文または文章に変換する。
【０００３】
機械翻訳が他の国の言語に変換するのに対し，同一の自然言語間での文または文章の変換処理を行うシステムも用いられるようになってきている。例えば，要約文を自動生成したり，文章を推敲したりするシステムである。
【０００４】
一般に同一自然言語間での文の変換処理では，変換前の語・句・文などのパターンと変換後の語・句・文などのパターンとの対からなる変換規則を大量に用意し，いわゆるパターン・マッチングによって入力文中に現れる変換前のパターンを探し出し，該当するパターンがあれば，それを変換後の語・句・文などのパターンに置き換える処理を行っている。
【０００５】
【発明が解決しようとする課題】
従来の同一自然言語内での文または文章の変換処理では，一般に変換規則による一律な変換を行っており，変換結果の良し悪しについての評価は行われていなかった。また，平易文生成，要約文生成，文章の推敲といった変換の目的に応じて，それぞれ個別に独自のシステムを構築する必要があり，あるシステムで使用する変換の処理ロジック（処理プログラム）を，他のシステムでも利用したり，あるシステムで使用する変換のための規則を他のシステムでも利用したりするといったことはできなかった。
【０００６】
そのため，複数の言語変換処理システムを開発する場合に，言語変換処理システムの種類に比例して開発コストが大きくなるという問題があった。また，言語変換処理システムの利用者（アプリケーションプログラムを含む）も，それぞれ個々のシステムごとにユーザ・インタフェースが異なるため，各システム独自のインタフェースに従ってシステムを利用しなければならず，使用方法の習得に時間がかかるという問題があった。
【０００７】
本発明は上記問題点の解決を図り，各種の言い換えを統一的に扱うことができるシステムを提供し，複数の言語変換処理システムを開発する場合の開発コストを低減し，また，複数の言語変換処理システムを統一されたインタフェースで利用可能にすることを目的とする。
【０００８】
【課題を解決するための手段】
本発明は，上記課題を解決するため，ある自然言語で記述された文字列を，同一の自然言語で記述された他の表現による文字列に変換するシステムにおいて，主要なモジュールとして変形処理手段と評価処理手段とを持ち，さらにこれらに付随する入力手段および出力手段を持つ。また，自然言語の文字列に関する変形の規則を記憶する変形規則記憶手段と，文字列を変形した結果が目的とするふさわしい変換であるかどうかを評価するための尺度を与える評価関数または評価規則を記憶する評価情報記憶手段とを持ち，これらを変換の目的に応じて交換できるようにする。または，変形規則記憶手段および評価情報記憶手段に，変形規則および評価関数等を複数種類用意し，変換の目的に応じて選択できるようにする。
【０００９】
入力手段によって，自然言語で記述された変換対象の文字列を入力すると，変形処理手段は，入力された文字列を変形規則記憶手段に記憶された複数の変形の規則を用いて変形し，複数の変換の候補を生成する。評価処理手段は，変形処理手段によって生成された変換の候補を，評価情報記憶手段に記憶された評価関数または評価規則を用いて評価値を算出し，評価値の最も高い表現を選択する。出力手段は，変形処理手段による変形および評価処理手段による評価結果から，評価値の最も高い文字列の変換結果を出力する。
【００１０】
ここで，変形処理手段が用いる変形規則および評価処理手段が用いる評価関数または評価規則は，変換の目的に応じて交換または選択可能に構成されているため，これらの交換または選択によって，多種多様な言い換えに対応できるようになっている。
【００１１】
自然言語による質問に対して，知識データベースを検索して回答を自然言語で応える質問応答システムに対応する場合，入力手段は，質問文と質問文に対する回答を含む文の候補の文字列を入力する。変形規則としては，第１の文字列を同義の第２の文字列に言い換えるパターンの規則を用い，評価関数または評価規則による評価の尺度としては，質問文と回答を含む文の候補との類似度の大小であって，類似度の大きいものに高い評価を与えるものを用いる。出力手段は，類似度が大きくなるように変換された質問文と質問文に対する回答を含む文の候補の文字列とを出力し，これの照合によって回答を得られるようにする。
【００１２】
入力した自然言語の文字列から，冗長な表現を短くした文字列を生成する文内圧縮システムに対応する場合，変形規則としては，第１の文字列を第２の文字列に言い換えるパターンの規則を用いる。また，評価関数または評価規則による評価の尺度としては，変形後の文字列の長短であって，変形後の文字列が短いものに高い評価を与えるものを用いる。
【００１３】
入力した自然言語の文字列の表現を推敲する推敲システムに対応する場合，変形規則としては，第１の文字列を同義の第２の文字列に言い換えるパターンの規則を用いる。また，評価関数または評価規則による評価の尺度としては，大量の用例に関する言語データ中に現れる出現頻度または出現確率であって，出現頻度または出現確率が大きいものに高い評価を与えるものを用いる。
【００１４】
入力した自然言語の文字列の表現を難解文から平易文に変換する難解文変換システムに対応する場合，変換規則としては，第１の文字列を同義の第２の文字列に言い換えるパターンの規則を用いる。評価関数または評価規則による評価の尺度としては，平易な文章集合からなる大量の用例における出現頻度または出現確率であって，出現頻度または出現確率が大きいものに高い評価を与えるものを用いる。
【００１５】
入力した自然言語の文字列の表現をある特定の個人の文体に変換する個人文体変換システムに対応する場合，変換規則としては，第１の文字列を同義の第２の文字列に言い換えるパターンの規則を用いる。評価関数または評価規則による評価の尺度としては，特定の個人の文章集合からなる大量の用例における出現頻度または出現確率であって，出現頻度または出現確率が大きいものに高い評価を与えるものを用いる。
【００１６】
【発明の実施の形態】
図１は，本発明のシステム構成例を示す。図中，１はＣＰＵおよびメモリなどからなる言語変換処理装置，２はキーボードその他の入力装置を表す。
【００１７】
変換対象文１０は，本システムにおける入力となる自然言語文である。以下，特に断らないが変換対象文１０は必ずしも一文に限られるわけではなく，文章または句，節のようなものであってもよい。変換結果文１３は，本システムの出力であって，変換対象文１０を同一の種類の自然言語で言い換えたものである。
【００１８】
言語変換処理装置１のモジュールは，基本的に変形処理部１１と評価処理部１２とから構成される。変形処理部１１は，変形規則記憶部１５に格納されている変形規則を用いて，変換の候補を獲得するモジュールである。評価処理部１２は，変換の候補のよさを，あらかじめ評価情報記憶部１６に記憶されている評価の尺度（評価関数など）によって評価し，最もふさわしい変換の候補を選択するモジュールである。
【００１９】
変換対象文１０が入力されると，変形処理部１１は，変形規則を用いて変換の候補を挙げ，評価処理部１２は，変形の妥当性をチェックして，最も妥当であると判断されたものを選択して，その結果を変換結果文１３として出力する。
【００２０】
変形規則記憶部１５に記憶する変形規則は，人手によってあらかじめ作成された規則であってもよいし，コンピュータによって大量の言語データから自動獲得したものでもよい。変形規則および変換の候補を評価する評価関数（評価尺度）の評価情報は，扱う問題ごとに適正なものを用意する必要がある。変形規則・評価情報操作制御手段１４は，利用者，システム管理者またはシステム開発者によって入力装置２から指示された変形規則および評価情報を，変形規則記憶部１５および評価情報記憶部１６に設定する制御を行う手段である。
【００２１】
本システムで扱う問題に応じて変形規則および評価情報を適正なものにする方法として，変形規則・評価情報操作制御手段１４は，例えば次のような方法を取り得る。
【００２２】
（１）変形規則記憶部１５および評価情報記憶部１６を，それぞれあらかじめシステムで一意な固定のファイル名を持つファイルで実現し，問題に応じてそれらのファイルに格納する変形規則および評価情報を書き換える。
【００２３】
（２）変形規則記憶部１５および評価情報記憶部１６を，それぞれ問題に応じた複数のファイルで構成し，本システムの使用時または環境設定時に，それらのファイル中で使用する変換規則，評価情報が格納されたファイルのファイル名を入力装置２から入力して，変形処理部１１および評価処理部１２にそれぞれ通知する。
【００２４】
（３）変形規則記憶部１５および評価情報記憶部１６に記憶させる各変形規則および各評価情報に，問題に応じた識別子を付与しておき，本システムの使用時または環境設定時に，扱う問題に応じた識別子を入力装置２から入力して，変形処理部１１および評価処理部１２にそれぞれ通知し，変形処理部１１および評価処理部１２は，入力された識別子が付与された変形規則および評価情報を使用する。
【００２５】
評価情報は，評価のための数値情報であってもよいし，関数群もしくはサブルーチン群などによる手続き的なものであってもよい。また，評価方法を記述した規則（ルール）であってもよい。これらの組み合わせで実現することも可能である。評価処理部１２で用いる評価の尺度の例としては，以下のようなものが考えられる。
【００２６】
（１）類似度
例えば，ＡとＢの類似度を調べたいとする。このとき，変形処理部１１が使用する変形規則がすべて同義性を満足するものであるとする。この場合，ＡとＢの類似度が大きくなるように，変形規則でＡ，Ｂを変形し，Ａ，Ｂをよく似た状態にしてから類似度を求める。こうすることにより，意味が同じなのに異なる表現で記述されているような場合でも正しく類似度を計算することができる。なお，類似度の値は，Ａ，Ｂをそれぞれ構文解析し，一致する単語数，文節数，係り受け距離（構文木における二つの文節の間の枝の数），文節距離などを考慮して定めることができる。
【００２７】
（２）長さ
例えば，要約の一つの分野の文圧縮のように，なるべく意味を変えずに文を圧縮したいとする。このとき，変形処理部１１が使用する変形規則はすべて意味をほとんどかえずに変形するものであるとする。この場合，長さを評価の尺度とし，この長さが短くなるように変形を繰り返すと文圧縮が実現される。
【００２８】
（３）出現頻度（または出現確率）
例えば，文章の表現を改善する推敲システムを考える。このとき，変形処理部１１が使用する変形規則がすべて同義性を満足するものであるとする。この場合，推敲したいデータを，そのデータの出現（生起）確率が高くなるように変形すると非常に洗練された文章となる。
【００２９】
もう少し簡単な例でこれを説明すると，例えば入力したデータに「データー」とあったとしよう。また，変形規則に「データー」を「データ」とする規則があったとしよう。新聞記事やコーパスなどのデータベースにより，「データー」と「データ」の出現回数を数え，「データ」の出現回数のほうが数が多い場合，「データ」のほうの評価を「データー」より高くする。
【００３０】
また，出現頻度 (または出現確率) を調べるコーパスをいろいろと変えることにより，さまざまな変換の結果を得ることができる。例えば，入力データが書き言葉のときに，コーパスとして話し言葉を用いると書き言葉の話し言葉への変形が実現される。
【００３１】
また，入力データが法律関係の文のときに，コーパスとして平易な文章の集合を与えておくと，法律関係の難解な文章を平易な文章に変形させることが期待できる。
【００３２】
さらにまた，ここで入力データとして適当に誰かが書いた小説の文章を入れて，コーパスとしてシェークスピアの小説をいれると，シェークスピアの文体の小説が新たに完成することになる。同様に，芥川龍之介の小説を夏目漱石の文体に変形するなどといったことも可能になる。
【００３３】
上記の出現（生起）確率に基づく尺度は，文の正当性のチェックに使うこともできる。ただし，出現（生起）確率が尺度として強すぎる場合には，以下のような尺度を用いるとよい。
▲１▼ 対象としている表現が，コーパスで１回以上出現しているか否か（これは誤植検出などにも使われる尺度である）。
▲２▼ コーパスでの出現（生起）確率がある程度以上か否か。
▲３▼ コーパスでの出現（生起）確率が，環境なしでの出現確率よりも大きいか否か。
【００３４】
ここで示したものは，尺度というよりは条件のようなもので，他の尺度と組み合わせて用いるとよい。他の尺度のところで，もしその変形において，文としての正当性が保証されない場合には，ここで示した尺度を同時に用いるとよい。
【００３５】
図２は，変形処理部１１の処理フローチャートである。変形処理部１１は，まずステップＳ１０により，言い換え対象として指定された変換対象文１０を入力する。キーボードなどからの入力，ファイルからの入力，アプリケーションプログラムからの入力など，入力方法は問わない。
【００３６】
ステップＳ１１では，変形規則記憶部１５から変換に必要な変形規則を読み込む。既に読み込まれている場合には，ここでの読み込みは不要である。また，変形規則記憶部１５に記憶されている変形規則のうち，適用システムに応じて識別子などにより特定された変形規則だけを使用する場合には，その変形規則を選択的に読み込む。
【００３７】
次に，ステップＳ１２では，入力した変換対象文１０を変形規則を用いて変形する。ステップＳ１３では，変換対象文１０を変形した後の表現の候補を評価処理部１２へ引き渡す。このとき，変形した後の表現の候補を一つずつ評価処理部１２へ渡してもよいし，複数ある場合には複数まとめて渡してもよい。
【００３８】
図３は，評価処理部１２の処理フローチャートである。ステップＳ２０では，評価処理部１２は，変形処理部１１から変換対象文１０を変形した後の表現の候補を受け取る。次に，ステップＳ２１では，評価情報記憶部１６に記憶されている評価情報の中から使用する評価情報を選択する。なお，あらかじめ評価情報記憶部１６に必要な評価情報だけが選択されて格納されている場合には，この処理は不要である。この評価情報は，評価処理部１２から呼び出される評価関数のようなものでも，また評価関数が使用するパラメータのようなものでもよい。
【００３９】
ステップＳ２２では，変形処理部１１から受け取った表現の各候補を，評価情報（評価関数）を用いて評価する。ここでは，評価値が数値として算出されることになる。ステップＳ２３では，評価結果の最もよい変形後の表現を選択し，その変形した表現を変換結果文１３として出力する。
【００４０】
本システムは，変形処理部１１が用いる変形規則および評価処理部１２が用いる評価情報を，変換の目的に応じて交換または選択可能に構成することにより，各種の言語変換処理に適用することが可能である。以下，各種の処理システムへの具体的な適用例を説明する。
【００４１】
（Ａ）質問応答システムへの適用例
図４は，質問応答システムへの適用例を示している。図４に示す質問応答システムでは，与えられた質問文の答えが書いてありそうな文を，新聞記事，各種論文，百科事典その他の所定の知識データベースから探し出し，その答えが書いてありそうな文と質問文との類似度が大きくなるように双方を書き換えて照合し，答えが書いてありそうな文での，質問文の疑問詞に対応している箇所を答えとして出力するといったことを行う。
【００４２】
この質問応答システムでは，類似度を尺度として言い換えを行っていることになる。類似度が高くなるように言い換えを行うことで質問文と回答を含むデータとの照合がしやすくなる。
【００４３】
本システムに入力される変換対象文１０は，質問文と，回答が含まれる文の候補となる知識データベースの文である。ユーザからの質問文が，例えば「日本国の首都はどこであるか」であり，知識データベース中にある文が，「東京は日本の首都である」であったとする。
【００４４】
変形処理部１１は，これらの二つの変換対象文１０を，それぞれ質問応答システム用に用意または選択された変形規則を用いて，異なる表現に言い換える。ここで，変形規則として，図４に示すように，
▲１▼「ＸはＹである」→「ＹはＸである」
▲２▼「日本国」→「日本」
・・・・
があったとする。
【００４５】
▲１▼の変形規則により「東京は日本の首都である」から「日本の首都は東京である」という文が生成される。また，▲２▼の変形規則により「日本国の首都はどこであるか」から「日本の首都はどこであるか」が生成される。ここでは，簡単な変形規則を例示したが，通常の変形処理では，変形された文のさらなる変形というように，多段に変形が繰り返されることになる。これらの変形した文の結果が評価処理部１２に引き渡される。
【００４６】
評価処理部１２では，質問応答システム用の評価情報（評価関数）を用いて，変形処理部１１が変形した文を評価する。ここで評価の尺度が，入力した二つの文の類似度であり，類似度が大きくなる変換が評価が高いとすると，多くの変形の中から二つの文の類似度が高いものが選ばれることになる。
【００４７】
変形された質問文と知識データベースの文の中で類似度が最も高いものが，「日本の首都はどこであるか」と「日本の首都は東京である」であったとすると，この変換はよしとされ，これらの二つの文が変換結果文１３として出力される。これらの文から「どこ」と「東京」が対応することがわかり，質問応答システムから質問文に対する回答として，「東京」または「日本国の首都は東京である」がユーザに出力されることになる。
【００４８】
（Ｂ）文内圧縮システムへの適用例
図５は，文内圧縮システムへの適用例を示している。図５に示す文内圧縮システムでは，要約文の作成などのために，与えられた文をできるだけ元の文の意味を保存した形で，冗長な文を短く圧縮する処理を行う。例えば，新聞記事の要約を考えた場合，評価の尺度としては，入力されたデータがより短くなるような変形をよしとする尺度が考えられる。さらに条件として，新聞記事での出現が１個以上というような条件を付加してもよい。以下，具体例に従って説明する。
【００４９】
例えば図５の例のように，変換対象文１０として，「次の参議院選挙でＡ氏を擁立することを決めた」という文が入力されたとする。変形処理部１１は，この変換対象文１０を，文内圧縮システム用に用意または選択された変形規則を用いて，異なる表現に言い換える。ここで，変形規則として，
「ＸでＹを擁立すること」→「ＸでのＹの擁立」
・・・・
という規則があったとすると，変形処理部１１は，変換対象文１０に変形規則を適用することにより，「次の参議院選挙でＡ氏を擁立することを決めた」という文から「次の参議院選挙でのＡ氏の擁立を決めた」という文を生成する。この他にも，種々の変形規則が存在し，多くの変形された文が候補として生成されることになる。これらの文を評価処理部１２に渡す。
【００５０】
評価処理部１２は，文内圧縮システム用の評価情報（評価関数）を用いて，変形処理部１１が変形した文を評価する。ここで評価の尺度が，入力した文の長短であり，文の長さが短いほど評価が高いとすると，多くの変形の中から文が最も短い文が選ばれることになる。この例では，「次の参議院選挙でのＡ氏の擁立を決めた」の評価が高く，変換結果文１３としてこの文が出力されている。
【００５１】
（Ｃ）推敲システムへの適用例
図６は，推敲システムへの適用例を示している。図６に示す推敲システムでは，入力した文を推敲して，より良いと考えられる表現の文に改善する処理を行う。
【００５２】
例えば図６の例のように，変換対象文１０として，「世界の平和・安定に貢献する」という文が入力されたとする。変形処理部１１は，この変換対象文１０を，推敲システム用に用意または選択された変形規則を用いて，異なる表現に言い換える。ここで，変形規則として，
「・」→「と」
・・・・
という規則があったとすると，変形処理部１１は，変換対象文１０に変形規則を適用することにより，「世界の平和・安定に貢献する」という文から「世界の平和と安定に貢献する」という文を生成する。この他にも，種々の変形規則が存在し，多くの変形された文が候補として生成されることになる。これらの文を評価処理部１２に渡す。なお，変形されなかった変換対象文１０についても候補の一つとして評価処理部１２に渡す。
【００５３】
評価処理部１２は，推敲システム用の評価情報（評価関数）を用いて，変形処理部１１が変形した文を評価する。ここで評価の尺度が，大量の言語データ（用例，つまり実際に人々によって用いられたことのある言語表現の集合) での出現頻度もしくは出現確率が大きくなる変換をよしとするものである場合に，評価処理部１２は，大量の言語データにおける「世界の平和・安定に貢献する」と「世界の平和と安定に貢献する」の生起確率を求める。簡便な手法としては，変形した部分を含む小さい領域範囲の文字列が言語データで何回出現したかを数える。例えば「平和・安定」が１３４回，「平和と安定」が２３８２３回現れたとすると，「平和と安定」のほうが出現頻度が大きくこの表現のほうがより自然な表現であるとわかる。これによりこの変形はよしとされ，変換結果文１３として「世界の平和と安定に貢献する」が出力される。なお，出現頻度ではなく，出現（生起）確率を計算してもよく，出現確率にしたほうが評価関数としては精度のよいものとなる。
【００５４】
（Ｄ）難解文変換システムへの適用例
図７は，難解文変換システムへの適用例を示している。図７に示す難解文変換システムでは，法律文章を平易な文に書き換えたり，難しい新聞の記事を小学生向けの易しい文に書き換えたりする処理を行う。
【００５５】
例えば図７の例のように，変換対象文１０として，「大臣を罷免する」という文が入力されたとする。変形処理部１１は，この変換対象文１０を，難解文変換システム用に用意または選択された変形規則を用いて，異なる表現に言い換える。ここで，変形規則として，
「罷免する」→「やめさせる」
・・・・
という規則があったとすると，変形処理部１１は，変換対象文１０に変形規則を適用することにより，「大臣を罷免する」という文から「大臣をやめさせる」という文を生成する。この他にも，種々の変形規則が存在し，多くの変形された文が候補として生成されることになる。これらの文を評価処理部１２に渡す。なお，変形されなかった変換対象文１０についても候補の一つとして評価処理部１２に渡す。
【００５６】
評価処理部１２は，難解文変換システム用の評価情報（評価関数）を用いて，変形処理部１１が変形した文を評価する。ここで評価の尺度が，例えば小学生向けというような低年齢層向けの文章集合での出現頻度または出現確率が大きくなる変換をよしとするものである場合に，評価処理部１２は，あらかじめ定められた範囲での低年齢層向けの文章集合における「大臣を罷免する」と「大臣をやめさせる」の出現頻度を求める。簡便な手法としては，変形した部分を含む小さい領域範囲の文字列が言語データで何回出現したかを数える。「大臣をやめさせる」のほうが出現頻度が大きい場合，この表現のほうが低年齢層向けの易しい表現であるとわかる。これによりこの変形はよしとされ，変換結果文１３として「大臣をやめさせる」が出力される。なお，出現頻度ではなく，出現（生起）確率を計算してもよいことは，前述した例と同様である。
【００５７】
また，評価の尺度としては，所定の文章集合での出現頻度や出現確率に限らず，他の何らかの尺度を用いることもできる。例えば，あらかじめ単語の結び付きや，構文解析結果から得られる文法上の言い回しに対して，評価ポイントを定めておき，それを用いて評価するようなことも可能である。また，変換後の文章集合から平易さを示す何らかの尺度を学習し，それに従って評価する方法も考えられる。
【００５８】
（Ｅ）個人文体変換システム
図８は，個人文体変換システムへの適用例を示している。図８に示す個人文体変換システムでは，例えば芥川龍之介の小説を，夏目漱石の文体の小説に書き換えたり，ある無名の作家の小説をシェークスピアの文体の小説に書き換えたりする処理を行う。
【００５９】
例えば図８の（１）の例のように，変換対象文１０として，「大臣を罷免するなどを行った」という文が入力されたとする。変形処理部１１は，この変換対象文１０を，個人文体変換システム用に用意または選択された変形規則を用いて，異なる表現に言い換える。ここで，「といった」という表現を多用する人の文体への変形規則として，
「するなど」→「するといったこと」
・・・・
という規則があったとすると，変形処理部１１は，変換対象文１０に変形規則を適用することにより，「大臣を罷免するなどを行った」という文から「大臣を罷免するといったことを行った」という文を生成する。この他にも，種々の変形規則が存在し，多くの変形された文が候補として生成されることになる。これらの文を評価処理部１２に渡す。なお，変形されなかった変換対象文１０についても候補の一つとして評価処理部１２に渡す。
【００６０】
評価処理部１２は，個人文体変換システム用の評価情報（評価関数）を用いて，変形処理部１１が変形した文を評価する。ここで評価の尺度が，変換目的である特定個人の文章集合での出現頻度または出現確率が高くなるような表現をよしとするものである場合に，評価処理部１２は，その特定個人の文章集合における「大臣を罷免するなどを行った」という文や，「大臣を罷免するといったことを行った」という文の出現頻度を求める。なお，出現頻度は，必ずしも文全体の出現回数でなくてもよく，変形した部分を含む小さい領域範囲の文字列が文章集合の中で何回出現したかでもよい。「大臣を罷免するといったことを行った」という文の出現頻度が大きい場合，評価処理部１２は，変換結果文１３として「大臣を罷免するといったことを行った」を出力する。
【００６１】
また，「であろう」を多用する人への文体への変更の場合，例えば変換規則として，
「と思われる」→「であろう」
・・・・
という規則を用い，評価の尺度として，その「であろう」を多用する特定個人の文章集合での出現頻度または出現確率が高くなるような表現をよしとするものを用いる。
【００６２】
変形処理部１１は，図８の（２）のように「大臣を罷免すると思われる」という変換対象文１０を入力すると，この入力に対して変換規則を適用することにより，この文を「大臣を罷免するであろう」という表現に変形する。評価処理部１２による評価によって，「大臣を罷免するであろう」という表現の評価値が最も高いことがわかると，評価処理部１２はこの文を変換結果文１３として出力する。
【００６３】
なお，評価の尺度としては，所定の文章集合での出現頻度や出現確率に限らず，他の何らかの尺度を用いることができることは，前述した他のシステムの例と同様である。
【００６４】
以上の適用例の他に，例えば入力データが書き言葉のときに，出現頻度や出現確率などによる変換候補の評価に用いるコーパスとして話し言葉の言語データを用いると，書き言葉を話し言葉へ変換するシステムが実現され，またこの逆に，変換候補の評価に用いるコーパスとして書き言葉の言語データを用いると，話し言葉を書き言葉に変換するシステムを実現することもできる。
【００６５】
以上，種々の言語変換処理を行うシステムへの適用例を説明したが，本システムは，基本的に変形処理部１１と評価処理部１２の二つのモジュールによって実現することが可能である。説明を簡単にするために，主に個々の適用システムごとに，変形規則記憶部１５と評価情報記憶部１６とが用意される例を説明したが，変形規則記憶部１５の変形規則または評価情報記憶部１６の評価関数などの一部または全部を，複数の適用システム間で共用することも可能である。特に変形規則は，ほとんどのケースが，ある文または文節などを同義の他の文または文節に変換するものであるから，複数の適用システム間で共用することができる。もちろん，変形規則を複数の適用システム間で共用しないで，それぞれの適用システムに特化したものとしてもよい。それぞれの適用システムに適した変形規則を用いることにより，文の変形処理および変形後の文の評価処理における処理コストを削減することができる。
【００６６】
【発明の効果】
以上説明したように，本発明によれば，種々の言語変換処理を行うシステムを構築する場合に，変形規則および評価情報（評価関数）を適用システムに応じて用意するだけで，新システムの構築を実現することが可能になる。また，言語変換のインタフェースの統一化が可能であり，利用しやすいユーザ・インタフェースおよびアプリケーション・インタフェースの提供が可能になる。
【図面の簡単な説明】
【図１】本発明のシステム構成例を示す図である。
【図２】変形処理部の処理フローチャートである。
【図３】評価処理部の処理フローチャートである。
【図４】質問応答システムへの適用例を示す図である。
【図５】文内圧縮システムへの適用例を示す図である。
【図６】推敲システムへの適用例を示す図である。
【図７】難解文変換システムへの適用例を示す図である。
【図８】個人文体変換システムへの適用例を示す図である。
【符号の説明】
１言語変換処理装置
２入力装置
１０変換対象文
１１変形処理部
１２評価処理部
１３変換結果文
１４変形規則・評価情報操作制御手段
１５変形規則記憶部
１６評価情報記憶部

Claims

ある自然言語で記述された文字列を，同一の自然言語で記述された他の表現による文字列に変換するシステムにおいて，
前記自然言語の文字列に関する変換目的ごとに用意される変形の規則であって，変形対象の文字列またはそのパターンと，変形後の文字列またはそのパターンとの組の情報からなる変形規則を，文字列の変換の目的に応じて交換可能または後記の変形処理手段が選択可能な状態で記憶する変形規則記憶手段と，
文字列を変形した結果が目的とするふさわしい変換であるかどうかを評価する所定の評価の尺度に従って評価値を算出するための評価関数または評価規則に関する変換目的ごとに用意される評価情報を，文字列の変換の目的に応じて交換可能または後記の評価処理手段が選択可能な状態で記憶する評価情報記憶手段と，
自然言語で記述された変換対象の文字列を入力する入力手段と，
前記入力された文字列を前記変形規則記憶手段に記憶された複数の変形の規則を用いて変形し，複数の変換の候補を生成する，変換目的の異なる複数の変換方式に対して共通に用いることができる変形処理手段と，
前記変形処理手段によって生成された変換の候補を，前記評価情報記憶手段に記憶された評価関数または評価規則を用いて評価値を算出し，評価値の最も高い表現を選択する，変換目的の異なる複数の変換方式に対して共通に用いることができる評価処理手段と，
前記変形処理手段による変形および前記評価処理手段による評価結果から，評価値の最も高い文字列の変換結果を出力する出力手段とを備える
ことを特徴とする言語変換処理統一システム。
前記変換対象となる文字列は，自然言語による質問文に対してデータベースを検索して回答を自然言語で応える質問応答システムにおいて当該システムが入力した質問文と，当該システムが質問文をもとにデータベースから取得した前記質問文に対する回答を含む文の候補の文字列であり，
前記変形規則は，変形対象の第１の文字列を同義の変形後の第２の文字列に言い換えるための，前記第１の文字列またはそのパターンと，前記第２の文字列またはそのパターンとの組の情報からなる変形規則であり，
前記変形処理手段は，前記変形規則を用いて多段に変形を繰り返すように構成され，
前記評価関数または評価規則による評価の尺度は，前記質問文または前記変形処理手段により生成された質問文の変換の候補と，前記回答を含む文の候補または前記変形処理手段により生成された回答を含む文の候補の変換の候補とに対して構文解析により算出された類似度の値の大小であり，類似度の値の大きいものに高い評価値を与えるものである
ことを特徴とする請求項１記載の言語変換処理統一システム。
前記文字列の変換は，入力した文字列から冗長な表現を修正して短くした文字列を生成する文内圧縮システムのための変換であり，
前記変形規則は，変形対象の第１の文字列を変形後の第２の文字列に言い換えるための，前記第１の文字列またはそのパターンと，前記第２の文字列またはそのパターンとの組の情報からなる変形規則であり，
前記評価関数または評価規則による評価の尺度は，変形後の文字列の長短を含み，変形後の文字列が短いものに高い評価値を与えるものである
ことを特徴とする請求項１記載の言語変換処理統一システム。
前記文字列の変換は，入力した文字列の表現を推敲し，より良い表現の文字列に改善する推敲システムのための変換であり，
前記変形規則は，変形対象の第１の文字列を同義の変形後の第２の文字列に言い換えるための，前記第１の文字列またはそのパターンと，前記第２の文字列またはそのパターンとの組の情報からなる変形規則であり，
前記評価関数または評価規則による評価の尺度は，コーパスとしての大量の用例に関する言語データ中に現れる，変形されなかった変形対象を含む変換の候補の出現頻度または出現確率であり，出現頻度または出現確率が大きいものに高い評価値を与えるものである
ことを特徴とする請求項１記載の言語変換処理統一システム。
前記文字列の変換は，入力した難解文の文字列を平易文に変換する難解文変換システムのための変換であり，
前記変形規則は，変形対象の第１の文字列を同義の変形後の第２の文字列に言い換えるための，前記第１の文字列またはそのパターンと，前記第２の文字列またはそのパターンとの組の情報からなる変形規則であり，
前記評価関数または評価規則による評価の尺度は，平易な文章集合からなるコーパスとしての大量の用例における，変形されなかった変形対象を含む変換の候補の出現頻度または出現確率であり，出現頻度または出現確率が大きいものに高い評価値を与えるものである
ことを特徴とする請求項１記載の言語変換処理統一システム。