JP3932350B2 - 言語変換処理統一システム - Google Patents

言語変換処理統一システム Download PDF

Info

Publication number
JP3932350B2
JP3932350B2 JP2001205889A JP2001205889A JP3932350B2 JP 3932350 B2 JP3932350 B2 JP 3932350B2 JP 2001205889 A JP2001205889 A JP 2001205889A JP 2001205889 A JP2001205889 A JP 2001205889A JP 3932350 B2 JP3932350 B2 JP 3932350B2
Authority
JP
Japan
Prior art keywords
evaluation
character string
conversion
sentence
deformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001205889A
Other languages
English (en)
Other versions
JP2003022264A (ja
Inventor
真樹 村田
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2001205889A priority Critical patent/JP3932350B2/ja
Publication of JP2003022264A publication Critical patent/JP2003022264A/ja
Application granted granted Critical
Publication of JP3932350B2 publication Critical patent/JP3932350B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は,ある自然言語で記述された文または文章などの文字列を,同一の自然言語で記述された他の表現による文字列に変換するシステムであって,特に,コンピュータによる自然言語処理において多種多様な言い換えを統一的に扱うことができるようにした言語変換処理統一システムに関するものである。
【0002】
【従来の技術】
自然言語で記述された文または文章に関する表現の変換処理として典型的なものは,機械翻訳である。機械翻訳では,ある国の自然言語で記述された文または文章を他の国の自然言語で記述された文または文章に変換する。
【0003】
機械翻訳が他の国の言語に変換するのに対し,同一の自然言語間での文または文章の変換処理を行うシステムも用いられるようになってきている。例えば,要約文を自動生成したり,文章を推敲したりするシステムである。
【0004】
一般に同一自然言語間での文の変換処理では,変換前の語・句・文などのパターンと変換後の語・句・文などのパターンとの対からなる変換規則を大量に用意し,いわゆるパターン・マッチングによって入力文中に現れる変換前のパターンを探し出し,該当するパターンがあれば,それを変換後の語・句・文などのパターンに置き換える処理を行っている。
【0005】
【発明が解決しようとする課題】
従来の同一自然言語内での文または文章の変換処理では,一般に変換規則による一律な変換を行っており,変換結果の良し悪しについての評価は行われていなかった。また,平易文生成,要約文生成,文章の推敲といった変換の目的に応じて,それぞれ個別に独自のシステムを構築する必要があり,あるシステムで使用する変換の処理ロジック(処理プログラム)を,他のシステムでも利用したり,あるシステムで使用する変換のための規則を他のシステムでも利用したりするといったことはできなかった。
【0006】
そのため,複数の言語変換処理システムを開発する場合に,言語変換処理システムの種類に比例して開発コストが大きくなるという問題があった。また,言語変換処理システムの利用者(アプリケーションプログラムを含む)も,それぞれ個々のシステムごとにユーザ・インタフェースが異なるため,各システム独自のインタフェースに従ってシステムを利用しなければならず,使用方法の習得に時間がかかるという問題があった。
【0007】
本発明は上記問題点の解決を図り,各種の言い換えを統一的に扱うことができるシステムを提供し,複数の言語変換処理システムを開発する場合の開発コストを低減し,また,複数の言語変換処理システムを統一されたインタフェースで利用可能にすることを目的とする。
【0008】
【課題を解決するための手段】
本発明は,上記課題を解決するため,ある自然言語で記述された文字列を,同一の自然言語で記述された他の表現による文字列に変換するシステムにおいて,主要なモジュールとして変形処理手段と評価処理手段とを持ち,さらにこれらに付随する入力手段および出力手段を持つ。また,自然言語の文字列に関する変形の規則を記憶する変形規則記憶手段と,文字列を変形した結果が目的とするふさわしい変換であるかどうかを評価するための尺度を与える評価関数または評価規則を記憶する評価情報記憶手段とを持ち,これらを変換の目的に応じて交換できるようにする。または,変形規則記憶手段および評価情報記憶手段に,変形規則および評価関数等を複数種類用意し,変換の目的に応じて選択できるようにする。
【0009】
入力手段によって,自然言語で記述された変換対象の文字列を入力すると,変形処理手段は,入力された文字列を変形規則記憶手段に記憶された複数の変形の規則を用いて変形し,複数の変換の候補を生成する。評価処理手段は,変形処理手段によって生成された変換の候補を,評価情報記憶手段に記憶された評価関数または評価規則を用いて評価値を算出し,評価値の最も高い表現を選択する。出力手段は,変形処理手段による変形および評価処理手段による評価結果から,評価の最も高い文字列の変換結果を出力する。
【0010】
ここで,変形処理手段が用いる変形規則および評価処理手段が用いる評価関数または評価規則は,変換の目的に応じて交換または選択可能に構成されているため,これらの交換または選択によって,多種多様な言い換えに対応できるようになっている。
【0011】
自然言語による質問に対して,知識データベースを検索して回答を自然言語で応える質問応答システムに対応する場合,入力手段は,質問文と質問文に対する回答を含む文の候補の文字列を入力する。変形規則としては,第1の文字列を同義の第2の文字列に言い換えるパターンの規則を用い,評価関数または評価規則による評価の尺度としては,質問文と回答を含む文の候補との類似度の大小であって,類似度の大きいものに高い評価を与えるものを用いる。出力手段は,類似度が大きくなるように変換された質問文と質問文に対する回答を含む文の候補の文字列とを出力し,これの照合によって回答を得られるようにする。
【0012】
入力した自然言語の文字列から,冗長な表現を短くした文字列を生成する文内圧縮システムに対応する場合,変形規則としては,第1の文字列を第2の文字列に言い換えるパターンの規則を用いる。また,評価関数または評価規則による評価の尺度としては,変形後の文字列の長短であって,変形後の文字列が短いものに高い評価を与えるものを用いる。
【0013】
入力した自然言語の文字列の表現を推敲する推敲システムに対応する場合,変形規則としては,第1の文字列を同義の第2の文字列に言い換えるパターンの規則を用いる。また,評価関数または評価規則による評価の尺度としては,大量の用例に関する言語データ中に現れる出現頻度または出現確率であって,出現頻度または出現確率が大きいものに高い評価を与えるものを用いる。
【0014】
入力した自然言語の文字列の表現を難解文から平易文に変換する難解文変換システムに対応する場合,変換規則としては,第1の文字列を同義の第2の文字列に言い換えるパターンの規則を用いる。評価関数または評価規則による評価の尺度としては,平易な文章集合からなる大量の用例における出現頻度または出現確率であって,出現頻度または出現確率が大きいものに高い評価を与えるものを用いる。
【0015】
入力した自然言語の文字列の表現をある特定の個人の文体に変換する個人文体変換システムに対応する場合,変換規則としては,第1の文字列を同義の第2の文字列に言い換えるパターンの規則を用いる。評価関数または評価規則による評価の尺度としては,特定の個人の文章集合からなる大量の用例における出現頻度または出現確率であって,出現頻度または出現確率が大きいものに高い評価を与えるものを用いる。
【0016】
【発明の実施の形態】
図1は,本発明のシステム構成例を示す。図中,1はCPUおよびメモリなどからなる言語変換処理装置,2はキーボードその他の入力装置を表す。
【0017】
変換対象文10は,本システムにおける入力となる自然言語文である。以下,特に断らないが変換対象文10は必ずしも一文に限られるわけではなく,文章または句,節のようなものであってもよい。変換結果文13は,本システムの出力であって,変換対象文10を同一の種類の自然言語で言い換えたものである。
【0018】
言語変換処理装置1のモジュールは,基本的に変形処理部11と評価処理部12とから構成される。変形処理部11は,変形規則記憶部15に格納されている変形規則を用いて,変換の候補を獲得するモジュールである。評価処理部12は,変換の候補のよさを,あらかじめ評価情報記憶部16に記憶されている評価の尺度(評価関数など)によって評価し,最もふさわしい変換の候補を選択するモジュールである。
【0019】
変換対象文10が入力されると,変形処理部11は,変形規則を用いて変換の候補を挙げ,評価処理部12は,変形の妥当性をチェックして,最も妥当であると判断されたものを選択して,その結果を変換結果文13として出力する。
【0020】
変形規則記憶部15に記憶する変形規則は,人手によってあらかじめ作成された規則であってもよいし,コンピュータによって大量の言語データから自動獲得したものでもよい。変形規則および変換の候補を評価する評価関数(評価尺度)の評価情報は,扱う問題ごとに適正なものを用意する必要がある。変形規則・評価情報操作制御手段14は,利用者,システム管理者またはシステム開発者によって入力装置2から指示された変形規則および評価情報を,変形規則記憶部15および評価情報記憶部16に設定する制御を行う手段である。
【0021】
本システムで扱う問題に応じて変形規則および評価情報を適正なものにする方法として,変形規則・評価情報操作制御手段14は,例えば次のような方法を取り得る。
【0022】
(1)変形規則記憶部15および評価情報記憶部16を,それぞれあらかじめシステムで一意な固定のファイル名を持つファイルで実現し,問題に応じてそれらのファイルに格納する変形規則および評価情報を書き換える。
【0023】
(2)変形規則記憶部15および評価情報記憶部16を,それぞれ問題に応じた複数のファイルで構成し,本システムの使用時または環境設定時に,それらのファイル中で使用する変換規則,評価情報が格納されたファイルのファイル名を入力装置2から入力して,変形処理部11および評価処理部12にそれぞれ通知する。
【0024】
(3)変形規則記憶部15および評価情報記憶部16に記憶させる各変形規則および各評価情報に,問題に応じた識別子を付与しておき,本システムの使用時または環境設定時に,扱う問題に応じた識別子を入力装置2から入力して,変形処理部11および評価処理部12にそれぞれ通知し,変形処理部11および評価処理部12は,入力された識別子が付与された変形規則および評価情報を使用する。
【0025】
評価情報は,評価のための数値情報であってもよいし,関数群もしくはサブルーチン群などによる手続き的なものであってもよい。また,評価方法を記述した規則(ルール)であってもよい。これらの組み合わせで実現することも可能である。評価処理部12で用いる評価の尺度の例としては,以下のようなものが考えられる。
【0026】
(1)類似度
例えば,AとBの類似度を調べたいとする。このとき,変形処理部11が使用する変形規則がすべて同義性を満足するものであるとする。この場合,AとBの類似度が大きくなるように,変形規則でA,Bを変形し,A,Bをよく似た状態にしてから類似度を求める。こうすることにより,意味が同じなのに異なる表現で記述されているような場合でも正しく類似度を計算することができる。なお,類似度の値は,A,Bをそれぞれ構文解析し,一致する単語数,文節数,係り受け距離(構文木における二つの文節の間の枝の数),文節距離などを考慮して定めることができる。
【0027】
(2)長さ
例えば,要約の一つの分野の文圧縮のように,なるべく意味を変えずに文を圧縮したいとする。このとき,変形処理部11が使用する変形規則はすべて意味をほとんどかえずに変形するものであるとする。この場合,長さを評価の尺度とし,この長さが短くなるように変形を繰り返すと文圧縮が実現される。
【0028】
(3)出現頻度(または出現確率)
例えば,文章の表現を改善する推敲システムを考える。このとき,変形処理部11が使用する変形規則がすべて同義性を満足するものであるとする。この場合,推敲したいデータを,そのデータの出現(生起)確率が高くなるように変形すると非常に洗練された文章となる。
【0029】
もう少し簡単な例でこれを説明すると,例えば入力したデータに「データー」とあったとしよう。また,変形規則に「データー」を「データ」とする規則があったとしよう。新聞記事やコーパスなどのデータベースにより,「データー」と「データ」の出現回数を数え,「データ」の出現回数のほうが数が多い場合,「データ」のほうの評価を「データー」より高くする。
【0030】
また,出現頻度 (または出現確率) を調べるコーパスをいろいろと変えることにより,さまざまな変換の結果を得ることができる。例えば,入力データが書き言葉のときに,コーパスとして話し言葉を用いると書き言葉の話し言葉への変形が実現される。
【0031】
また,入力データが法律関係の文のときに,コーパスとして平易な文章の集合を与えておくと,法律関係の難解な文章を平易な文章に変形させることが期待できる。
【0032】
さらにまた,ここで入力データとして適当に誰かが書いた小説の文章を入れて,コーパスとしてシェークスピアの小説をいれると,シェークスピアの文体の小説が新たに完成することになる。同様に,芥川龍之介の小説を夏目漱石の文体に変形するなどといったことも可能になる。
【0033】
上記の出現(生起)確率に基づく尺度は,文の正当性のチェックに使うこともできる。ただし,出現(生起)確率が尺度として強すぎる場合には,以下のような尺度を用いるとよい。
▲1▼ 対象としている表現が,コーパスで1回以上出現しているか否か(これは誤植検出などにも使われる尺度である)。
▲2▼ コーパスでの出現(生起)確率がある程度以上か否か。
▲3▼ コーパスでの出現(生起)確率が,環境なしでの出現確率よりも大きいか否か。
【0034】
ここで示したものは,尺度というよりは条件のようなもので,他の尺度と組み合わせて用いるとよい。他の尺度のところで,もしその変形において,文としての正当性が保証されない場合には,ここで示した尺度を同時に用いるとよい。
【0035】
図2は,変形処理部11の処理フローチャートである。変形処理部11は,まずステップS10により,言い換え対象として指定された変換対象文10を入力する。キーボードなどからの入力,ファイルからの入力,アプリケーションプログラムからの入力など,入力方法は問わない。
【0036】
ステップS11では,変形規則記憶部15から変換に必要な変形規則を読み込む。既に読み込まれている場合には,ここでの読み込みは不要である。また,変形規則記憶部15に記憶されている変形規則のうち,適用システムに応じて識別子などにより特定された変形規則だけを使用する場合には,その変形規則を選択的に読み込む。
【0037】
次に,ステップS12では,入力した変換対象文10を変形規則を用いて変形する。ステップS13では,変換対象文10を変形した後の表現の候補を評価処理部12へ引き渡す。このとき,変形した後の表現の候補を一つずつ評価処理部12へ渡してもよいし,複数ある場合には複数まとめて渡してもよい。
【0038】
図3は,評価処理部12の処理フローチャートである。ステップS20では,評価処理部12は,変形処理部11から変換対象文10を変形した後の表現の候補を受け取る。次に,ステップS21では,評価情報記憶部16に記憶されている評価情報の中から使用する評価情報を選択する。なお,あらかじめ評価情報記憶部16に必要な評価情報だけが選択されて格納されている場合には,この処理は不要である。この評価情報は,評価処理部12から呼び出される評価関数のようなものでも,また評価関数が使用するパラメータのようなものでもよい。
【0039】
ステップS22では,変形処理部11から受け取った表現の各候補を,評価情報(評価関数)を用いて評価する。ここでは,評価値が数値として算出されることになる。ステップS23では,評価結果の最もよい変形後の表現を選択し,その変形した表現を変換結果文13として出力する。
【0040】
本システムは,変形処理部11が用いる変形規則および評価処理部12が用いる評価情報を,変換の目的に応じて交換または選択可能に構成することにより,各種の言語変換処理に適用することが可能である。以下,各種の処理システムへの具体的な適用例を説明する。
【0041】
(A)質問応答システムへの適用例
図4は,質問応答システムへの適用例を示している。図4に示す質問応答システムでは,与えられた質問文の答えが書いてありそうな文を,新聞記事,各種論文,百科事典その他の所定の知識データベースから探し出し,その答えが書いてありそうな文と質問文との類似度が大きくなるように双方を書き換えて照合し,答えが書いてありそうな文での,質問文の疑問詞に対応している箇所を答えとして出力するといったことを行う。
【0042】
この質問応答システムでは,類似度を尺度として言い換えを行っていることになる。類似度が高くなるように言い換えを行うことで質問文と回答を含むデータとの照合がしやすくなる。
【0043】
本システムに入力される変換対象文10は,質問文と,回答が含まれる文の候補となる知識データベースの文である。ユーザからの質問文が,例えば「日本国の首都はどこであるか」であり,知識データベース中にある文が,「東京は日本の首都である」であったとする。
【0044】
変形処理部11は,これらの二つの変換対象文10を,それぞれ質問応答システム用に用意または選択された変形規則を用いて,異なる表現に言い換える。ここで,変形規則として,図4に示すように,
▲1▼「XはYである」→「YはXである」
▲2▼「日本国」→「日本」
・・・・
があったとする。
【0045】
▲1▼の変形規則により「東京は日本の首都である」から「日本の首都は東京である」という文が生成される。また,▲2▼の変形規則により「日本国の首都はどこであるか」から「日本の首都はどこであるか」が生成される。ここでは,簡単な変形規則を例示したが,通常の変形処理では,変形された文のさらなる変形というように,多段に変形が繰り返されることになる。これらの変形した文の結果が評価処理部12に引き渡される。
【0046】
評価処理部12では,質問応答システム用の評価情報(評価関数)を用いて,変形処理部11が変形した文を評価する。ここで評価の尺度が,入力した二つの文の類似度であり,類似度が大きくなる変換が評価が高いとすると,多くの変形の中から二つの文の類似度が高いものが選ばれることになる。
【0047】
変形された質問文と知識データベースの文の中で類似度が最も高いものが,「日本の首都はどこであるか」と「日本の首都は東京である」であったとすると,この変換はよしとされ,これらの二つの文が変換結果文13として出力される。これらの文から「どこ」と「東京」が対応することがわかり,質問応答システムから質問文に対する回答として,「東京」または「日本国の首都は東京である」がユーザに出力されることになる。
【0048】
(B)文内圧縮システムへの適用例
図5は,文内圧縮システムへの適用例を示している。図5に示す文内圧縮システムでは,要約文の作成などのために,与えられた文をできるだけ元の文の意味を保存した形で,冗長な文を短く圧縮する処理を行う。例えば,新聞記事の要約を考えた場合,評価の尺度としては,入力されたデータがより短くなるような変形をよしとする尺度が考えられる。さらに条件として,新聞記事での出現が1個以上というような条件を付加してもよい。以下,具体例に従って説明する。
【0049】
例えば図5の例のように,変換対象文10として,「次の参議院選挙でA氏を擁立することを決めた」という文が入力されたとする。変形処理部11は,この変換対象文10を,文内圧縮システム用に用意または選択された変形規則を用いて,異なる表現に言い換える。ここで,変形規則として,
「XでYを擁立すること」→「XでのYの擁立」
・・・・
という規則があったとすると,変形処理部11は,変換対象文10に変形規則を適用することにより,「次の参議院選挙でA氏を擁立することを決めた」という文から「次の参議院選挙でのA氏の擁立を決めた」という文を生成する。この他にも,種々の変形規則が存在し,多くの変形された文が候補として生成されることになる。これらの文を評価処理部12に渡す。
【0050】
評価処理部12は,文内圧縮システム用の評価情報(評価関数)を用いて,変形処理部11が変形した文を評価する。ここで評価の尺度が,入力した文の長短であり,文の長さが短いほど評価が高いとすると,多くの変形の中から文が最も短い文が選ばれることになる。この例では,「次の参議院選挙でのA氏の擁立を決めた」の評価が高く,変換結果文13としてこの文が出力されている。
【0051】
(C)推敲システムへの適用例
図6は,推敲システムへの適用例を示している。図6に示す推敲システムでは,入力した文を推敲して,より良いと考えられる表現の文に改善する処理を行う。
【0052】
例えば図6の例のように,変換対象文10として,「世界の平和・安定に貢献する」という文が入力されたとする。変形処理部11は,この変換対象文10を,推敲システム用に用意または選択された変形規則を用いて,異なる表現に言い換える。ここで,変形規則として,
「・」→「と」
・・・・
という規則があったとすると,変形処理部11は,変換対象文10に変形規則を適用することにより,「世界の平和・安定に貢献する」という文から「世界の平和と安定に貢献する」という文を生成する。この他にも,種々の変形規則が存在し,多くの変形された文が候補として生成されることになる。これらの文を評価処理部12に渡す。なお,変形されなかった変換対象文10についても候補の一つとして評価処理部12に渡す。
【0053】
評価処理部12は,推敲システム用の評価情報(評価関数)を用いて,変形処理部11が変形した文を評価する。ここで評価の尺度が,大量の言語データ(用例,つまり実際に人々によって用いられたことのある言語表現の集合) での出現頻度もしくは出現確率が大きくなる変換をよしとするものである場合に,評価処理部12は,大量の言語データにおける「世界の平和・安定に貢献する」と「世界の平和と安定に貢献する」の生起確率を求める。簡便な手法としては,変形した部分を含む小さい領域範囲の文字列が言語データで何回出現したかを数える。例えば「平和・安定」が134回,「平和と安定」が23823回現れたとすると,「平和と安定」のほうが出現頻度が大きくこの表現のほうがより自然な表現であるとわかる。これによりこの変形はよしとされ,変換結果文13として「世界の平和と安定に貢献する」が出力される。なお,出現頻度ではなく,出現(生起)確率を計算してもよく,出現確率にしたほうが評価関数としては精度のよいものとなる。
【0054】
(D)難解文変換システムへの適用例
図7は,難解文変換システムへの適用例を示している。図7に示す難解文変換システムでは,法律文章を平易な文に書き換えたり,難しい新聞の記事を小学生向けの易しい文に書き換えたりする処理を行う。
【0055】
例えば図7の例のように,変換対象文10として,「大臣を罷免する」という文が入力されたとする。変形処理部11は,この変換対象文10を,難解文変換システム用に用意または選択された変形規則を用いて,異なる表現に言い換える。ここで,変形規則として,
「罷免する」→「やめさせる」
・・・・
という規則があったとすると,変形処理部11は,変換対象文10に変形規則を適用することにより,「大臣を罷免する」という文から「大臣をやめさせる」という文を生成する。この他にも,種々の変形規則が存在し,多くの変形された文が候補として生成されることになる。これらの文を評価処理部12に渡す。なお,変形されなかった変換対象文10についても候補の一つとして評価処理部12に渡す。
【0056】
評価処理部12は,難解文変換システム用の評価情報(評価関数)を用いて,変形処理部11が変形した文を評価する。ここで評価の尺度が,例えば小学生向けというような低年齢層向けの文章集合での出現頻度または出現確率が大きくなる変換をよしとするものである場合に,評価処理部12は,あらかじめ定められた範囲での低年齢層向けの文章集合における「大臣を罷免する」と「大臣をやめさせる」の出現頻度を求める。簡便な手法としては,変形した部分を含む小さい領域範囲の文字列が言語データで何回出現したかを数える。「大臣をやめさせる」のほうが出現頻度が大きい場合,この表現のほうが低年齢層向けの易しい表現であるとわかる。これによりこの変形はよしとされ,変換結果文13として「大臣をやめさせる」が出力される。なお,出現頻度ではなく,出現(生起)確率を計算してもよいことは,前述した例と同様である。
【0057】
また,評価の尺度としては,所定の文章集合での出現頻度や出現確率に限らず,他の何らかの尺度を用いることもできる。例えば,あらかじめ単語の結び付きや,構文解析結果から得られる文法上の言い回しに対して,評価ポイントを定めておき,それを用いて評価するようなことも可能である。また,変換後の文章集合から平易さを示す何らかの尺度を学習し,それに従って評価する方法も考えられる。
【0058】
(E)個人文体変換システム
図8は,個人文体変換システムへの適用例を示している。図8に示す個人文体変換システムでは,例えば芥川龍之介の小説を,夏目漱石の文体の小説に書き換えたり,ある無名の作家の小説をシェークスピアの文体の小説に書き換えたりする処理を行う。
【0059】
例えば図8の(1)の例のように,変換対象文10として,「大臣を罷免するなどを行った」という文が入力されたとする。変形処理部11は,この変換対象文10を,個人文体変換システム用に用意または選択された変形規則を用いて,異なる表現に言い換える。ここで,「といった」という表現を多用する人の文体への変形規則として,
「するなど」→「するといったこと」
・・・・
という規則があったとすると,変形処理部11は,変換対象文10に変形規則を適用することにより,「大臣を罷免するなどを行った」という文から「大臣を罷免するといったことを行った」という文を生成する。この他にも,種々の変形規則が存在し,多くの変形された文が候補として生成されることになる。これらの文を評価処理部12に渡す。なお,変形されなかった変換対象文10についても候補の一つとして評価処理部12に渡す。
【0060】
評価処理部12は,個人文体変換システム用の評価情報(評価関数)を用いて,変形処理部11が変形した文を評価する。ここで評価の尺度が,変換目的である特定個人の文章集合での出現頻度または出現確率が高くなるような表現をよしとするものである場合に,評価処理部12は,その特定個人の文章集合における「大臣を罷免するなどを行った」という文や,「大臣を罷免するといったことを行った」という文の出現頻度を求める。なお,出現頻度は,必ずしも文全体の出現回数でなくてもよく,変形した部分を含む小さい領域範囲の文字列が文章集合の中で何回出現したかでもよい。「大臣を罷免するといったことを行った」という文の出現頻度が大きい場合,評価処理部12は,変換結果文13として「大臣を罷免するといったことを行った」を出力する。
【0061】
また,「であろう」を多用する人への文体への変更の場合,例えば変換規則として,
「と思われる」→「であろう」
・・・・
という規則を用い,評価の尺度として,その「であろう」を多用する特定個人の文章集合での出現頻度または出現確率が高くなるような表現をよしとするものを用いる。
【0062】
変形処理部11は,図8の(2)のように「大臣を罷免すると思われる」という変換対象文10を入力すると,この入力に対して変換規則を適用することにより,この文を「大臣を罷免するであろう」という表現に変形する。評価処理部12による評価によって,「大臣を罷免するであろう」という表現の評価値が最も高いことがわかると,評価処理部12はこの文を変換結果文13として出力する。
【0063】
なお,評価の尺度としては,所定の文章集合での出現頻度や出現確率に限らず,他の何らかの尺度を用いることができることは,前述した他のシステムの例と同様である。
【0064】
以上の適用例の他に,例えば入力データが書き言葉のときに,出現頻度や出現確率などによる変換候補の評価に用いるコーパスとして話し言葉の言語データを用いると,書き言葉を話し言葉へ変換するシステムが実現され,またこの逆に,変換候補の評価に用いるコーパスとして書き言葉の言語データを用いると,話し言葉を書き言葉に変換するシステムを実現することもできる。
【0065】
以上,種々の言語変換処理を行うシステムへの適用例を説明したが,本システムは,基本的に変形処理部11と評価処理部12の二つのモジュールによって実現することが可能である。説明を簡単にするために,主に個々の適用システムごとに,変形規則記憶部15と評価情報記憶部16とが用意される例を説明したが,変形規則記憶部15の変形規則または評価情報記憶部16の評価関数などの一部または全部を,複数の適用システム間で共用することも可能である。特に変形規則は,ほとんどのケースが,ある文または文節などを同義の他の文または文節に変換するものであるから,複数の適用システム間で共用することができる。もちろん,変形規則を複数の適用システム間で共用しないで,それぞれの適用システムに特化したものとしてもよい。それぞれの適用システムに適した変形規則を用いることにより,文の変形処理および変形後の文の評価処理における処理コストを削減することができる。
【0066】
【発明の効果】
以上説明したように,本発明によれば,種々の言語変換処理を行うシステムを構築する場合に,変形規則および評価情報(評価関数)を適用システムに応じて用意するだけで,新システムの構築を実現することが可能になる。また,言語変換のインタフェースの統一化が可能であり,利用しやすいユーザ・インタフェースおよびアプリケーション・インタフェースの提供が可能になる。
【図面の簡単な説明】
【図1】本発明のシステム構成例を示す図である。
【図2】変形処理部の処理フローチャートである。
【図3】評価処理部の処理フローチャートである。
【図4】質問応答システムへの適用例を示す図である。
【図5】文内圧縮システムへの適用例を示す図である。
【図6】推敲システムへの適用例を示す図である。
【図7】難解文変換システムへの適用例を示す図である。
【図8】個人文体変換システムへの適用例を示す図である。
【符号の説明】
1 言語変換処理装置
2 入力装置
10 変換対象文
11 変形処理部
12 評価処理部
13 変換結果文
14 変形規則・評価情報操作制御手段
15 変形規則記憶部
16 評価情報記憶部

Claims (5)

  1. ある自然言語で記述された文字列を,同一の自然言語で記述された他の表現による文字列に変換するシステムにおいて,
    前記自然言語の文字列に関する変換目的ごとに用意される変形の規則であって,変形対象の文字列またはそのパターンと,変形後の文字列またはそのパターンとの組の情報からなる変形規則を,文字列の変換の目的に応じて交換可能または後記の変形処理手段が選択可能な状態で記憶する変形規則記憶手段と,
    文字列を変形した結果が目的とするふさわしい変換であるかどうかを評価する所定の評価の尺度に従って評価値を算出するための評価関数または評価規則に関する変換目的ごとに用意される評価情報を,文字列の変換の目的に応じて交換可能または後記の評価処理手段が選択可能な状態で記憶する評価情報記憶手段と,
    自然言語で記述された変換対象の文字列を入力する入力手段と,
    前記入力された文字列を前記変形規則記憶手段に記憶された複数の変形の規則を用いて変形し,複数の変換の候補を生成する,変換目的の異なる複数の変換方式に対して共通に用いることができる変形処理手段と,
    前記変形処理手段によって生成された変換の候補を,前記評価情報記憶手段に記憶された評価関数または評価規則を用いて評価値を算出し,評価の最も高い表現を選択する,変換目的の異なる複数の変換方式に対して共通に用いることができる評価処理手段と,
    前記変形処理手段による変形および前記評価処理手段による評価結果から,評価の最も高い文字列の変換結果を出力する出力手段とを備える
    ことを特徴とする言語変換処理統一システム。
  2. 前記変換対象となる文字列は,自然言語による質問文に対してデータベースを検索して回答を自然言語で応える質問応答システムにおいて当該システムが入力した質問文と,当該システムが質問文をもとにデータベースから取得した前記質問文に対する回答を含む文の候補の文字列であり,
    前記変形規則は,変形対象の第1の文字列を同義の変形後の第2の文字列に言い換えるための,前記第1の文字列またはそのパターンと,前記第2の文字列またはそのパターンとの組の情報からなる変形規則であり,
    前記変形処理手段は,前記変形規則を用いて多段に変形を繰り返すように構成され,
    前記評価関数または評価規則による評価の尺度は,前記質問文または前記変形処理手段により生成された質問文の変換の候補と,前記回答を含む文の候補または前記変形処理手段により生成された回答を含む文の候補の変換の候補とに対して構文解析により算出された類似度の値の大小であり,類似度の値の大きいものに高い評価を与えるものである
    ことを特徴とする請求項1記載の言語変換処理統一システム。
  3. 前記文字列の変換は,入力した文字列から冗長な表現を修正して短くした文字列を生成する文内圧縮システムのための変換であり,
    前記変形規則は,変形対象の第1の文字列を変形後の第2の文字列に言い換えるための,前記第1の文字列またはそのパターンと,前記第2の文字列またはそのパターンとの組の情報からなる変形規則であり,
    前記評価関数または評価規則による評価の尺度は,変形後の文字列の長短を含み,変形後の文字列が短いものに高い評価を与えるものである
    ことを特徴とする請求項1記載の言語変換処理統一システム。
  4. 前記文字列の変換は,入力した文字列の表現を推敲し,より良い表現の文字列に改善する推敲システムのための変換であり,
    前記変形規則は,変形対象の第1の文字列を同義の変形後の第2の文字列に言い換えるための,前記第1の文字列またはそのパターンと,前記第2の文字列またはそのパターンとの組の情報からなる変形規則であり,
    前記評価関数または評価規則による評価の尺度は,コーパスとしての大量の用例に関する言語データ中に現れる,変形されなかった変形対象を含む変換の候補の出現頻度または出現確率であり,出現頻度または出現確率が大きいものに高い評価を与えるものである
    ことを特徴とする請求項1記載の言語変換処理統一システム。
  5. 前記文字列の変換は,入力した難解文の文字列を平易文に変換する難解文変換システムのための変換であり,
    前記変規則は,変形対象の第1の文字列を同義の変形後の第2の文字列に言い換えるための,前記第1の文字列またはそのパターンと,前記第2の文字列またはそのパターンとの組の情報からなる変形規則であり,
    前記評価関数または評価規則による評価の尺度は,平易な文章集合からなるコーパスとしての大量の用例における,変形されなかった変形対象を含む変換の候補の出現頻度または出現確率であり,出現頻度または出現確率が大きいものに高い評価を与えるものである
    ことを特徴とする請求項1記載の言語変換処理統一システム。
JP2001205889A 2001-07-06 2001-07-06 言語変換処理統一システム Expired - Lifetime JP3932350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001205889A JP3932350B2 (ja) 2001-07-06 2001-07-06 言語変換処理統一システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001205889A JP3932350B2 (ja) 2001-07-06 2001-07-06 言語変換処理統一システム

Publications (2)

Publication Number Publication Date
JP2003022264A JP2003022264A (ja) 2003-01-24
JP3932350B2 true JP3932350B2 (ja) 2007-06-20

Family

ID=19042117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001205889A Expired - Lifetime JP3932350B2 (ja) 2001-07-06 2001-07-06 言語変換処理統一システム

Country Status (1)

Country Link
JP (1) JP3932350B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170162A (ja) * 2007-05-07 2010-08-05 Ryoma Terao 言語処理システムおよびプログラム
JP5060539B2 (ja) * 2009-10-20 2012-10-31 株式会社東芝 文書処理装置およびプログラム
CN107870901B (zh) 2016-09-27 2023-05-12 松下知识产权经营株式会社 从翻译源原文生成相似文的方法、记录介质、装置以及系统
JP6472466B2 (ja) * 2017-01-23 2019-02-20 日本電信電話株式会社 文体変換装置、方法、及びプログラム
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质
CN109582971B (zh) * 2018-12-20 2022-11-25 广东小天才科技有限公司 一种基于句法分析的批改方法及批改系统
KR102129704B1 (ko) * 2019-11-01 2020-07-02 주식회사 보인정보기술 문항 자동 생성 방법 및 시스템
JP7161255B2 (ja) * 2020-01-28 2022-10-26 株式会社AI Samurai 文書作成支援装置、文書作成支援方法、及び、文書作成プログラム

Also Published As

Publication number Publication date
JP2003022264A (ja) 2003-01-24

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
Oostdijk Corpus linguistics and the automatic analysis of English
US5406480A (en) Building and updating of co-occurrence dictionary and analyzing of co-occurrence and meaning
US8515733B2 (en) Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language
US4903206A (en) Spelling error correcting system
JP3189186B2 (ja) パターンに基づく翻訳装置
CN110543644A (zh) 包含术语翻译的机器翻译方法、装置与电子设备
Lytvyn et al. Development of a method for determining the keywords in the slavic language texts based on the technology of web mining
US6347295B1 (en) Computer method and apparatus for grapheme-to-phoneme rule-set-generation
Van Atteveldt et al. Computational analysis of communication
RU2273879C2 (ru) Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
JP2002312357A (ja) 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体
JP3765799B2 (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
Kristensson et al. A design engineering approach for quantitatively exploring context-aware sentence retrieval for nonspeaking individuals with motor disabilities
JP3932350B2 (ja) 言語変換処理統一システム
JP3669870B2 (ja) 最適テンプレートパターン探索方法,探索装置および記録媒体
Onyenwe et al. A Basic Language Resource Kit Implementation for the Igbo NLP Project
JP4041876B2 (ja) 複数尺度の利用による言語変換処理システムおよびその処理プログラム
Zhekova et al. Methodology for creating natural language interfaces to information systems in a specific domain area
JP4041875B2 (ja) 文章語文体変換システムおよび文章語文体変換処理プログラム
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
Shauki et al. Developing a corpus of entrepreneurship emails (COREnE) for business courses in Malaysian university using integrated moves approach
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
L’haire FipsOrtho: A spell checker for learners of French
CN115080603B (zh) 一种数据库查询语言转换方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061218

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3932350

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term