JP5521669B2 - パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム - Google Patents

パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム Download PDF

Info

Publication number
JP5521669B2
JP5521669B2 JP2010060359A JP2010060359A JP5521669B2 JP 5521669 B2 JP5521669 B2 JP 5521669B2 JP 2010060359 A JP2010060359 A JP 2010060359A JP 2010060359 A JP2010060359 A JP 2010060359A JP 5521669 B2 JP5521669 B2 JP 5521669B2
Authority
JP
Japan
Prior art keywords
component
sentence
input sentence
example sentence
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010060359A
Other languages
English (en)
Other versions
JP2011197713A (ja
Inventor
紹明 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2010060359A priority Critical patent/JP5521669B2/ja
Publication of JP2011197713A publication Critical patent/JP2011197713A/ja
Application granted granted Critical
Publication of JP5521669B2 publication Critical patent/JP5521669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力文などの単語列と、例文パターンなどの文字列とをマッチングするパターンマッチング装置、これを用いた翻訳装置及び翻訳システム、並びに翻訳プログラムに関する。
従来、この種の装置として、文字列間を1対1に対応させた編集距離を用いて、入力文に類似な例文を検索するものがある(特許文献1)。
また、従来の翻訳装置として、パターンベース翻訳装置がある。パターンベース翻訳装置は、入力文の形態素解析結果である入力文の各単語列を参照例文パターンとマッチングをし、マッチングした参照対訳例文パターンを用いて翻訳を行うものである。また、入力文としてのテキスト文と例文パターン間とのマッチングは、テキスト文を直接例文パターンとマッチングさせるのではなく,テキスト文からテキスト文のパターンを抽出し、抽出されたテキスト文のパターンを参照例文パターンにマッチングさせる。
このようなパターンベースの翻訳装置において、参照例文パターンと、形態素解析された入力文の単語列とを直接マッチングするために、参照例文パターンに合わせて入力文を単語や節などに区切る変換をし、変換された入力文の単語列と参照例文パターンをマッチングさせるものがある(特許文献2)。
特開2005−234800号公報 特開2009−129032号公報
本発明は、パターンベースの翻訳装置において、例文パターンとテキスト文間とのマッチングパターンの可変項目がテキスト文の複数の単語に対応する場合に、パターンと文字列間の一対多の対応が可能な編集距離を用いて、例文パターンとテキスト文の文字列間の相違値を算出することできなかったという課題を解決するパターンマッチング装置、これを用いた翻訳装置、及び翻訳システム、並びに翻訳プログラムを提供することにある。
本発明の請求項1に係るパターンマッチング装置は、例文に共通な文字列で構成される固定項目と前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターンと入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、を備えることを特徴とするものである。
本発明の請求項2に係る翻訳装置は、例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と、翻訳を行う対象として入力された入力文に対し、形態素解析を実行する解析手段と、前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段とを備えることを特徴とするものである。
本発明の請求項に係る翻訳システムは、例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と、入力文を示す情報入力する入力手段と、翻訳を行う対象として前記入力手段により入力された入力文に対し、形態素解析を実行する解析手段と、前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段とを備えることを特徴とするものである。
本発明の請求項に係る翻訳プログラムは、例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と接続されたコンピュータ翻訳を行う対象として入力された入力文に対し、形態素解析を実行する解析手段と、前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段として機能させることを特徴とするものである。
請求項1の構成によれば、例文パターンと入力文の文字列との間の一対複数の対応が可能な編集距離を用いて、例文パターンと入力文の文字列間の相違値を算出することできる。
請求項2の構成によれば、翻訳に参照する例文パターンの候補を効率よく検索でき、例文パターンと文字列間の一対複数の対応が可能な編集距離を用いて、参照候補例文パターンと入力文の単語列間の相違値を少ない計算量で直接に算出することを可能となり、少ない計算量で精度よくマッチッグできると共に、その結果、少ない計算量で精度良く入力文を翻訳できる。
請求項の構成によれば、翻訳に参照する例文パターンの候補を効率よく検索でき、例文パターンと文字列間の一対多の対応が可能な編集距離を用いて、参照候補例文パターンと入力文の単語列間の相違値を少ない計算量で直接に算出することを可能となり、少ない計算量で精度よくマッチッグできると共に、その結果、少ない計算量で精度良く入力文を翻訳できる。
請求項の構成によれば、例文パターンと文字列間の一対多の対応が可能な編集距離を用いて、参照候補例文パターンと入力文の単語列間の相違値を少ない計算量で直接に算出することを可能となり、少ない計算量で精度よくマッチッグできると共に、その結果、少ない計算量で精度良く入力文を翻訳できる。
本発明の実施形態に係るパターンマッチング装置の機能的な構成例を示すブロック図である。 文字列間の距離計算のパスを表す説明図である。 算出部の処理手順を示すフローチャートである。 抽出部の処理手順を示すフローチャートである。 本発明の実施形態に係る翻訳システムの機能的な構成例を示すブロック図である。 翻訳装置のハードウェアの一構成例を表すブロック図である。 例文パターンを入力文との類似度とカバー率の関係で範囲を絞る例を示すグラフである。 効率化された算出部の処理手順を示すフローチャートである。 算出部の効率化された処理手順の説明図である。 最適候補が除外される入力文と例文パターンの対応関係を示す図である。 選択部における句の評価処理の手順を示すフローチャートである。 翻訳装置の要部構成の処理手順を示すフローチャートである。 形態素解析結果と例文パターンの固定項目との不整合による誤マッチングを表す説明図である。 本発明の実施形態の変形例に係る翻訳システムの構成例を示すブロック図である。 算出部の固定項目が拡張された距離計算処理を表すフローチャートである。 文字列間の距離計算の具体例1を表す説明図である。 文字列間の距離計算の具体例2を表す説明図である。 文字列間の距離計算の具体例3を表す説明図である。 算出部4の文字列間の距離計算アルゴリズムを表す式である。 抽出部5の抽出アルゴリズムを表す式である。 算出部4aの文字列間の距離計算アルゴリズムを表す式である。 算出部4bの文字列間の距離計算アルゴリズムを表す式である。
以下、本発明の最良の実施形態について、添付図面を参照しつつ説明する。まず、翻訳システム(後述する)に使用できるパターンマッチング装置について説明する。
図1は、本発明の実施形態に係るパターンマッチング装置40の機能的な構成例を示すブロック図である。同図に示すように、パターンマッチング装置40は、算出部4及び抽出部5を含んで構成される。
算出部4は、比較対象の例文パターンA(要素ai)と、入力文の単語列S(要素sj)の相違としての距離値を算出する(i,jは自然数)。抽出部5は、算出部4で算出された距離値Dを定める例文パターンAと単語列S間の全ての対応関係(写像)
Fset(S)を抽出し、距離Dと写像の集合Fset(S)を出力する。
次に、1対多の対応関係(写像)を許す文字列間の距離について説明する。比較対象の例文パターンA=
a1a2…anとし、入力文の単語列S=s1s2…smとする。ここで、例文パターンAの要素aiには二種あり、f(ai)=f(固定項目),とf(ai)=v(可変項目)。例文パターンAから入力文の単語列Sへの写像={(i,j)}が次の写像条件を満たすときに,例文パターンAから入力文の単語列Sへの条件保存写像と呼ぶ。
写像条件は、
・f(ai)= f (固定項目)の場合は、1対1写像で、交差写像が禁止、
・f(ai)= v (可変項目)の場合は、1対多写像で、交差写像が禁止、
である。例文パターンAから入力文Sへの写像重みとは、例文パターンAの要素aiが文字列要素sjに置換する操作、要素aiが挿入する操作、要素sjが脱落操作を用いて、上記の条件保存写像の条件に従って、文字列Aを文字列Sに変換するときに必要な操作の重みである。ここで、aiがsjに置換させる操作の重みは置換重み、aiを挿入する操作の重みが挿入重み、siを削除する操作の重みが脱落重みと呼ぶ.なお、本明細書で、1対多写像を1対複数写像ともいう。
写像条件は下記の通りである。
写像条件:任意の(i1,j1)
∈ M, (i2,j2) ∈ M
ここで、i1,j1は、ai1,sj1の意味であるが、簡単のため番号部分のi1,j1のみで示す。Mは写像(集合)を表す。
1、文字列Aの要素aiが固定項目の場合は、従来の文字列間の編集距離の写像条件である。
case f(ai1)=f or
f(ai2)=f,
1.1、1対1写像である。
i1 = i2
iff j1 = j2.
1.2、交差写像禁止(左右関係を保存する条件)。
i1 < i2,
iff j1 < j2.
2、文字列Aの要素aiが可変項目の場合は、一方向(正方向)で1対n写像。
case f(ai1)=v or
f(ai2)=v,
2.1、逆方向は1対1写像である。
if j1 = j2
then i1 = i2 ,
2.2、正方向が1対n写像の時、nは連続している部分文字列である。
if i1 = i2,
and j1 < j2
then for any (i3,j3)
∈ M and j1<j3< j2 , i1 = i3
2.3、正方向が交差写像禁止である。
if i1 < i2,
then j1 < j2.
2.4、逆方向も交差写像禁止である。
if j1 < j2
then i1 < i2, or i1 = i2.
距離の定義は下記の通りである。
距離の定義: 文字列A=a1a2…anと文字列S=s1s2…sm間のすべでの条件保存写像に対して、最小な条件保存写像の写像重みがAとS間の条件保存距離と呼び、D(A,S)と書く。
以上述べた条件保存写像の写像と距離の定義により、部分文字列間の条件保存距離を記憶するマットリスクd(i,j)、及び動的計画法を用いて、計算可能である。もし、例文パターンAの要素aiが固定項目を表すf(ai)=fなら、要素aiがSの一つの要素Sjに写像可能である。従って、従来の文字列間の編集距離と同じなので、距離d(i,j)は、図2(a)に示すように、矢印で示すパスを従来の計算方法で計算する。距離d(i,j)の計算式は、後述する図3のステップS15fに示す。もし、例文パターンAの要素aiが可変項目を表す
f(ai)=Vなら、要素aiがSの連続している部分単語列に写像することができるので、距離d(i,j)は、図2(b)に示すようなパス(矢印で示す)をすべて計算する必要がある。距離d(i,j)の計算式は、後述する図3のステップS15vに示す。ここで、図2(a)、(b)の縦方向は、例文パターンAの要素f(ai)で、横方向はSの要素f(sj)である。i,jは自然数で、
i=1,2・・・n、j=1,2・・・m
である。
次に、図3及び図4のフローチャートを参照してパターンマッチング装置40の処理動作を説明する。なお、図3及び図4は、説明を分かりやすくするために、手順を簡略化しているが、それぞれ、図19および図20に、比較的正確な算出部4および抽出部5のアルゴリズムを表す式を示す。
まず、比較対象の例文パターンA= a1a2…anと、入力文の単語列S=s1s2…smが、算出部4に入力される(ステップS11)。次に、部分文字列間の距離を記憶するマトリックスd(i,j),対応関係の情報を記憶するマトリックスPathFlag(i,j)を初期化する。例えば、d(0,0)
= 0や、 PathFlag(i,j) = (0,0,0)などの処理が行われる。その処理後にi、jに1が入力され、例文パターンAの要素aiが固定項目かどうか判断される(ステップS12、S13)。
例文パターンAの要素aiが固定項目の場合には、次式で距離値が求められる(ステップS15f)。
d(i,j) = min { d(i-1,j-1) +w(ai,sj)
, d(i-1,j)+q, d(i,j-1)+r }
また、例文パターンAの要素aiが文字列Sの要素sjに置換する場合は、
PathFlag(i,j) = PathFlag or
(0,0,1)
とする。即ち、現在の写像情報PathFlag の内容と(0,0,1)のOR演算を行う。同様に、要素aiが脱落する場合は、
PathFlag(i,j) =
PathFlag or (1,0,0)
とする。要素Sjを挿入する場合は、
PathFlag(i,j) = PathFlag or
(0,1,0)
とする。
例文パターンAの要素aiが可変項目の場合は、次式で距離が求められる(ステップS15v)。
d(i,j) = min { d(i-1,j-1) +w(ai,sj)
, d(i-1,j-2) +w(ai,sj-1…sj), … ,
d(i-1,0) +w(ai,s1…sj),
d(i-1,j)+q, d(i,j-1)+r }
この際に、要素aiがsjに置換する場合は、
PathFlag(i,j) = PathFlag or
(0,0,1)
とし、要素aiが要素sj-1…sjに置換する場合は
PathFlag(i,j) = PathFlag or
(0,0,1)

要素aiが要素sj…sjに置換する場合は、
PathFlag(i,j) = PathFlag or
(0,0,1)
とする。要素aiが脱落する場合は、
PathFlag(i,j) = PathFlag or
(1,0,0)
とする。要素sjを挿入する場合は、
PathFlag(i,j) = PathFlag or
(0,1,0)
とする。
例文パターンAの要素aiが固定項目または可変項目の処理が終了すると、jが1だけインクリメントされ、jがm以下かどうか判断される(ステップS16、S17)。jがmより小さい場合には、jがmと等しくなるまで、ステップS14乃至S16が繰り返される。jがmより大きくなると、jを1とし、iが1だけインクリメントされ、iがn以下かどうか判断される(ステップS18、S19)。iがnと等しくなるまで、ステップS14乃至S18が繰り返される。iがnより大きくなると、算出部4の処理を終了する。
このようにして、例文パターンAと入力文の単語列S間の距離d(i,j)と写像情報PathFlag(i,j)が求められて出力される。ここでは、距離d(i,j)の距離値Dが所定の値かどうか判断する。例えば、最小かどうかを判断する。即ち、最小値Dminを定める例文パターンAと入力文の単語列S間の写像F(A,S)としての写像情報PathFlag(i,j)が、便宜上、抽出部5での抽出処理の前処理として保存されるものとする。この前処理を算出部4の算出処理の後処理としても良い。
算出部4の処理が終了すると、抽出部5の写像の抽出処理に移る。算出部4から抽出部5に例文パターンAと入力文の単語列S間の写像情報PathFlagと、nとmの値が渡される(ステップS21)。その後に、ステップS22で次の処理をする。以下距離算出処理のパスを、逆に辿る処理が行われる。まず、例文パターンA
の要素aiai+1…anと入力文の単語列Sの要素sjsj+1…sm間の写像F(A,S)をMatching(i,j)に保存する。すべでのMatching(i,j)に初期値を付与する。即ち、
PathFlagS=NULL、 Fset(S)=NULL、
Push (n,m) into PathFlagS
とする。次に、PathFlagSが空かどうか判断し、空でなければ、PathFlagSから1要素を取り出して
(i,j)に入れる(ステップS22、S23)。(i,j)の値が(0,0)に等しいか判断する(ステップS24)。(i,j)の値が(0,0)であれば、写像Matching(0,0)をFset(S)に追加すし、ステップ23に戻る(ステップS28)。(i,j)の値が(0,0)でなければ、要素aiが固定項目かどうか判断する(ステップS26)。
例文パターンAの要素aiが固定項目であれば、次の処理を行う(ステップS27f)。例文パターンAの要素aiが単語列Sの要素sjに置換する場合は、
Matching(i-1,j-1)=Mathing(i,j)+(i,j,j);
Push (i-1,j-1) into PathFlagS;
とする。要素aiが脱落する場合は、
Matching(i-1,j)
=Mathing(i,j)+(i,0,0);
Push (i-1,j) into PathFlagS;
とする。要素sjを挿入する場合は、
Matching(i,j-1)
=Mathing(i,j)+(0,j,j);
Push (i,j-1) into PathFlagS
とする。
例文パターンAの要素aiが可変項目であれば、次の処理を行う(ステップS27v)。例文パターンAの要素aiが単語列Sの要素sj1…sj2に置換する場合は、
Matching(i-1,j-1)=Mathing(i,j)+(i,j1,j2);
Push (i-1,j-1) into PathFlagS;
とする。要素aiが脱落する場合は、
Matching(i-1,j)
=Mathing(i,j)+(i,0,0);
Push (i-1,j) into PathFlagS;
とする。要素sjを挿入する場合は、
Push (i,j-1) into PathFlagS
とする。その処理後に、ステップ23に戻り、PathFlagSが空でなければ、ステップS24以降の処理を行い、PathFlagSが空になると、抽出処理を終了する。
このようにして、抽出部5では、例文パターンAと入力文の単語列S間の写像F(A,S)の集合Fset(S)が求められて出力される。
次に、以上述べたパターンマッチング装置40を更に改良したパターンマッチング装置40aを用いた翻訳システム100について説明する。後述するように、パターンマッチング装置40aは、パターンマッチング装置40の算出部4における文字列間の距離計算の時間計算量がO(n3)であるのに対し、その時間計算量がO(n2)と効率のよいマッチングアルゴリズムに改良した算出部4aを含む。
図5は、本実施形態に係る翻訳システム100の構成を示すブロック図である。同図に示すように、翻訳システム100は、及び入力装置10、翻訳装置20a、および出力装置30を含んで構成される。
入力装置10は、例えば、キーボード、ポインティング・ディバイス(いわゆるマウス)や、タッチパネル等で構成され、翻訳装置20aに接続されている。この入力装置10は、翻訳装置20aの使用者に操作されて、第1の言語で表された入力文を入力する。
翻訳装置20aは、入力装置10及び表示装置などの出力装置30に接続されている。この翻訳装置20aは、入力装置10から第1の言語で表された文を取得し、取得した文を第2の言語で表された文へ翻訳し、翻訳した文を出力装置30としての表示装置に表示させる。
出力装置30としての表示装置は、例えば、可視表示装置で、CRT(Cathode Ray Tube)、液晶ディスプレイ、またはプラズマディスプレイなどの表示デバイスを含んで構成される。この表示装置は、翻訳装置20aに制御されて第1の言語で表された入力文、翻訳の処理経過、および翻訳処理結果の翻訳文などの情報を表示画面上に表示する。
翻訳装置20aは、、解析部1、検索部2、パターンマッチング装置40a、選択部6、翻訳部7及び記憶部8を含んで構成される。パターンマッチング装置40aは、算出部4aおよび抽出部5を含んで構成される。これらの各部の機能は、翻訳装置20aが実行するソフトウェア制御により実現される。
図6は、このソフトウェア制御を実現する翻訳装置20aのハードウェアの一構成例を表す図である。
翻訳装置20aは、例えば、CPU(Central
Processing Unit)等の演算部1001、EPROM(Erasable Programmable Read-Only Memory)またはEEPROM(Electrically Erasable Programmable Read-Only Memory)等の読み出し専用メモリであるROM1002(Read-Only Memory )、DRAM(Dynamic RAM)またはSRAM(Static RAM)等の揮発性メモリ及びNVRAM(Non Volatile RAM)等の不揮発性メモリで構成されるRAM1003(Random Access Memory)、並びにハードディスク装置等の外部記憶装置で構成される外部記憶部1004で構成され、演算部1001、ROM1002、RAM1003、および外部記憶部1004は互いにバス1005によって接続されている。
ソフトウェア制御は、ROM1002または外部記憶部1004に格納したプログラムであるアプリケーションを演算部1001が読込み、読込んだアプリケーションに従って演算部1001が演算を行うことにより上記各部の機能を実現する。なお、RAM1003には、演算結果のデータが書き込まれ、特にNVRAMには、電源オフ時にバックアップが必要なデータが保存される。
次に、翻訳装置20aの各部を説明する。
まず、解析部1は、入力装置10から入力された第1言語の文書情報(テキスト文)を形態素解析し、入力文を構成する単語を切り分け、単語の品詞を付与するなどの処理をする。
検索部2は、入力されたテキスト文の文字列および記憶部8の記憶内容(例文パターン対訳辞書)を参照して、入力文と類似な第1言語の例文パターン候補Aset(1以上)を検索(抽出)する。この際に、入力文と候補の例文パターンの検索用の類似度およびカバー率の関係から対象とする候補の範囲を絞って候補の例文パターンを検索する。詳細は後述する。
算出部4aは解析部1で形態素解析された結果の第1言語入力文の単語列Sと、検索部2で検索された第1言語例文パターン候補A間の相違としての距離を求める。
抽出部5は、最小距離が定める第1言語入力文Sと抽出された第1言語の例文パターン候補A間の対応関係(変換写像)を求める。ここで、最小な相違値としての距離値を与える例文パターン候補が複数の場合があるし,最小な相違値を決める例文パターン候補と入力文間の変換写像が複数ある場合もある。
選択部6は、抽出部5で求められたすべての例文パターンの候補と第1言語入力文の単語列間の対応関係集合から、最適な対訳関係(写像)を選択する。選択条件には、優先順位を付けずに総合的に判断する。詳細は後述する。この選択により求められた例文パターン対訳ペア(後述する)の番号と、第1言語入力文の単語列と抽出された第1言語の例文パターン間の対応関係を出力する。
翻訳部7は、選択部6で選択された第1言語入力文の単語列と第1言語例文パターン間の対応関係、第1言語例文パターンとそのパターンに対応している訳語言語の例文パターン間の対応関係を用いて、第1言語入力文の単語列と訳語言語の例文パターン間の対応関係を求め、可変部分を翻訳して、訳文を生成する。
記憶部8は、その記憶内容として、例文対訳辞書および例文パターン対訳辞書を含む。例文パターン対訳辞書は、例えば、例文パターン、訳文パターン、および例文パターンと訳文パターン間の対応関係を一組として記憶している。これを例文パターン対訳ペアと呼ぶ。
次に、翻訳システム100の特徴的構成要素について詳細に説明する。それ以外の構成要素については、例えば、本出願人が出願し、公開された先願(特開2009−12932号公報)他に詳細に開示されている。
まず、検索部2を詳細に説明する。
検索部2では、例文パターンの候補範囲を絞ることにより、以降の処理の効率化による高速化が期待できる。例文パターンを入力文との類似度とカバー率で範囲を絞る場合の例を図7に示す。同図(a)(b)は、横軸を類似度Sim(S,A)、縦軸をカバー率Cov(S,A)としたグラフである。例えば、同図(a)に示すように、入力文との類似度とカバー率がそれぞれある閾値(G2、G1)を超えると、例文パターンを候補とする。右の矩形領域に属している例文パターンが候補となる。ここで、検索部2で検索するとき、入力文Sと例文パターンAの間の検索用の類似度とカバー率が次のように定義されている。
Sim(S,A)=(2 *|S∩A|)/(|S|+ |A|); Cov(S,A)= |S∩A|/|S|
|S|:Sのバイグラム(Bi-gram:2グラムとも云う)の数であり、|A|:AのBi-gramの数でS∩A|: SとAの共通Bi-gramの数である。
さらに、効率よく範囲を絞る例について述べる。レンマ1(Lemma1)およびレンマ2(Lemma1)を導入する。レンマ1、レンマ2は、以下のように定義される。
Lemma1: Sim(S,A)≧Cov(S,A)
Lemma2:
Sim(S,A)<2*Cov(S,A)
レンマ1は、次のように証明される。
証明: Sim(S,A)/Cov(S,A) =
2* |S|/(|S|+ |A|); |A|> |S|
の場合には、例文パターンのBi-gram数が入力文のBi-gram数より多い。もし、この例文パターンを用いて入力文Sを翻訳するときに、例文パターンAには、入力文と対応できない項目がある。従って、例文パターンAから対応できない項目を削除する必要がある。しかし、例文パターンの項目を削除すると、例文パターンが崩れるため、翻訳が困難になる。従って、|A|<=
|S|の場合だけ考えれば十分である。従って、
Sim(S,A)/Cov(S,A) = 2*
|S|/(|S|+ |A|)≧1;
となる。
レンマ2は、次のように証明される。
証明: Sim(S,A)/Cov(S,A) =
2* |S|/(|S|+ |A|); |S| >> |A|
の場合は、入力文Sが例文パターンAより大きければ大きいほど、
Sim(S,A)/Cov(S,A)は2に接近する。つまり、 Sim(S,A)/Cov(S,A)の最大値が2より小さい。従って、
Sim(S,A)/Cov(S,A)<2.
となる。
図7(b)は、図7(a)の矩形領域で示す範囲に対してレンマ1の境界線(45度の傾きの線)以下で、かつレンマ2の境界線(類似度に対してカバー率が2分の1となる線)以上の領域で示す範囲となる。この結果、無駄なマッチングを減らすことができ、効率よくマッチング処理をおこなうことができる。従って、その処理を高速化できる。
次に、パターンマッチング装置40の算出部4を改良したパターンマッチング装置40aの算出部4aについて図3および図8のフローチャートを参照して相違部分を説明する。
算出部4の図3の手順と、算出部4aの図8の手順との相違部分を図9に示す。いずれもaiが可変項目のd(i,j)の計算処理で、図3のステップS15vと、図8のステップS15vaのうち、破線で囲った部分が相違する。図3のステップS15vに示すd(i,j)の式、
d(i,j) = min { d(i-1,j-1) +w(ai,sj)
, d(i-1,j-2) +w(ai,sj-1…sj),
… , d(i-1,0) +w(ai,s1…sj),
d(i-1,j)+q, d(i,j-1)+r }
に対して、aiが可変項目のとき,aiは任意の部分文字列sjに写像しても重みは等しく0とする。即ち、重みwを
w(ai,s1)
= w(ai,s2) = … = w(ai,sm) = w(ai,
sh…sk)
とする。ここで, 1<=h,k<=m.である。この結果、ステップS15vaのd(i,j)
が、
d(i,j) = min { d(i-1,j-1) +w(ai,sj)
, d(i-1,j)+q, d(i,j-1) }
となる。また、図3のステップS15vでは、文字列Aの要素aiが文字列Sの要素sjに置換する場合、
要素aiが要素sj-1…sjに置換する場合、…要素aiが要素sj…sjに置換する場合の処理が複数あったものが、図8のステップS15vaでは、要素 aiが要素sjに置換する場合だけになった。この結果、算出部4の時間計算量がO(n3)からO(n2)に効率化される。なお、図8のフローチャートは、説明を分かりやすくするために、手順を簡略化しているが、図21に、比較的正確な算出部4aのアルゴリズムを表す式を示す。
次に、最適写像を選択する選択部6の詳細について述べる。
例えば、対象となるすべての写像について、置換項目(例文パターンAの項目に対応関係を持っている入力文Sの項目)が一番多い写像を選択すると、本来、候補として選出すべき例文パターンであっても、置換項目の項目数(マッチング数とも言う)が小さいとき、最適な候補の例文パターンとならない場合がある。
この場合の入力文と候補の例文パターンとの対応関例を図10に示す。入力文Sに対して、同じ距離値を持つ例文パターンが複数ある(同図の場合2個)。その中には、一般論として、マッチングした項目数が多ければ多いほど、例文パターンが入力文とのマッチング具合はよいと考えられる。しかし、図10に示すような例外がある。
同図は、最初の入力文Sと候補の例文パターンA1は、その対応関係では、例文パターンA1の名詞句NP2
対して入力文Sの「子供/2が/61 食べ[食べる/47]/47 残した[残す/47 た/74]/47 リンゴ/2 」に正しく対応させており、距離値が0で、置換項目数(マッチング数)は5である。これに対し、入力文Sと候補の例文パターンA3(「NP1 が食べ[食べる/47]/47 残した[残す/47 た/74]/47
NP2 を食べている[食べる て いる]」)間の距離値が同じである。その対応関係では、例文パターンの名詞句NP1 に対して入力文Sの「私/14は/65子供/2」を誤って対応させているが、置換項目数(マッチング数)は7である
図10を参照して述べたように、入力文Sの「私は子供」を例文パターンのNP1
にマッチング(対応)させているので、得られた候補としての例文パターンは間違ったものとなる。もし、「私は子供」が名詞句ではないとする判断が可能なら、「私は子供」がNP1
にマッチングできなくなる。しかし、まだ、句の判断技術は未熟なので、実用的ではない。従って、句の判断技術を使用しない判断手段が必要である。最適な翻訳用候補の例文パターンを選択する基本的な考え方として、
(1) 例文パターンの可変部分にマッチングしている入力文の部分文字列は意味のある句である。
(2) マッチングした項目数ができるだけ多い。
(3) 距離値が小さい。
(4) 上記(1)(2)(3)の評価結果を融合して、総合的に判定する。
このような基本的な考え方に従った具体的例について説明する。まず、(1)項の例文パターンの可変部分に対応する句の評価処理手順について、図11のフローチャートを参照して説明する。なお、本実施例の翻訳システム10bは、公知の図示しない翻訳メモリ(TM)やパターン対訳辞書を備えているものとする。ここでは、これらの要素は、句の評価のために参照するが、翻訳自体は行わないものとする。
まず、句Pが翻訳メモリ(TM)に存在するか判断し、存在する場合には、句の評価値を1.0とする(ステップS51a、S51b)。存在しないならば、パターン対訳辞書に句Pと完全にマッチングするパターンがあるか判断し、ある場合には、句の評価値を0.8とする(ステップS52a、S52b)。この場合、少なくとも句の構造は保証できる。パターン対訳辞書に句Pと完全にマッチングするパターンがないならば次に句を構成する単語だけで判断する。ここでは、単語の数が少ないほど評価を良くし、名詞を含む句は、良い評価をし、動詞等を含む句の場合には、評価を下げている。すなわち、句Pには、動詞、助詞、助動詞、感動詞があるか判断し、ない場合には、名詞を含むと判断し、句の評価値を1.0/(単語数)1/2とする(ステップS53a、S53b)。これらの品詞を含むとき、動詞等を含む句と判断し、句の評価値を0.5/(単語数)1/2
とし(ステップS54)、句の評価手順を終了する。
先に述べた基本的な考え方を採用した最適な翻訳用候補の写像を選択するための計算例について説明する。
・入力文と翻訳用候補の例文パターン間のマッチング集合F1set(S)にある各マッチングF1(A,S)について、Fun1(F1(A, S))と Fun2(F1(A,S))を計算する。
・Fun2(F1(A,S)) < G4(このG4は閾値で0.1〜0.3の値をとる)
の場合は、F1set(S)集合から当該マッチングF1(A,S)を削除する。F1set(S)集合に残ったすべてのマッチングに対して,最大のFun1(F1(A,S))を決めるマッチングを求める。Fun1とFun2の計算方法について、以下にその例を二つ述べる。
次に、Fun1とFun2の計算方法1について説明する。
Fun1とFun2の計算方法1:
Fun1は、次式で与えられる。
Fun1(F1(A,S)) =
( (Σ句の評価値)/句の数 * k1 + マッチングした項目の総数
* k2 - 距離値*K3 )
* f1(例文パターンAのマッチングした固定項目数)
* f2(例文パターンAのマッチングした可変項目数)
Fun2は、次式で与えられる。
Fun2(F1(A, S)) = (Σ句の評価値) / 句の数
ここで,例えば,K1 =10, k2=1,
K3=1である。
次に、Fun1とFun2の計算方法2について説明する。
Fun1とFun2の計算方法2:
Fun1は、次式で与えられる。
Fun1(F1(A,S)) =
((Σ句の評価値)/句の数 * k1 +
+ マッチングした項目の総数 *マッチングした項目の総数
/|A| * k2
+ (|S|*q+|A|*r -距離値)/2)
* f1(パターンAのマッチングした固定項目数) *f2(パターンAのマッチングした可変項目数)
ここで、例えば,K1 =10, k2=3, |S|がF1(A,S)において、写像している項目の数と挿入した項目の数(連続挿入した部分が一つの挿入項目とする)の和、|A|がパターンの可変項目個数と固定項目個数の和、 qとrはそれぞれ、マッチングするときの挿入重みと脱落重みである。
f1 = 0 :例文パターンのマッチングした固定項目数がG5(閾値)より小さい;
other 1
f2 = 0 : 例文パターンにマッチングしていなかった可変項目数がある
; other 1
上記f1、f2は、0か1の値をとり、f1の場合、例文パターンのマッチングした固定項目数がG5(閾値)より小さいとき0であり、それ以外は1である。f2の場合、例文パターンにマッチングしていなかった可変項目数があるとき0であり、それ以外のとき1である。
以上二つの計算例について説明したが、先に述べた基本的な考え方を採用するならば、他の計算方法でも良い。
次に、以上述べた改良された構成要素を含む本実施形態における翻訳装置20aの要部の動作を図12のフローチャートを参照して説明する。
形態素解析済みの入力文Sが解析部1から検索部2に入力されと、検索部2は、入力文Sに対応する例文パターン候補Asetを検索する(ステップS31、S32)。この際、
(1) Sim(S,A)>=Con(S,A);
(2) Sim(S,A)<2*Cov(S,A) ;
(3) 例文パターンの個数を所定の最大値に限定 、
となる条件で、例文パターンの候補範囲を絞り込んで検索を行い、
F1set(S)=F1set(S,A)=NULL; Dmin
=Dmax;
とする。
次に、例文パターン候補Asetから1つの例文パターン候補Aが取り出され、この例文パターンAと入力文Sの間の距離Dが算出部4aにより求められる(ステップS33、S34)。さらに、距離Dが最小値Dminより小さいか判断される(ステップS35)。距離Dが最小値Dminより小さい場合(等しい場合含む)には、抽出部5で、前処理として、距離Dが定める入力文Sと例文パターンAの間の対応関係(写像)F(A,S)が求められ保存される(ステップS36)。距離Dが最小値Dminより小さくない場合およびステップ36で写像の保存処理がされた場合には、例文パターン候補Asetの全ての例文パターンが処理済みかどうか判断される(ステップS37)。全ての例文パターンが処理済でなければ、ステップS33乃至S36の処理が、全ての例文パターンの処理済判断となるまで繰り返される。例文パターン候補Asetの全ての例文パターンが処理済みの判断となると、距離Dが定める例文パターンAと入力文Sの間での全ての写像(対応関係)Fset(S)が求められ、即ち、
Fset(S)= Fset(S)+ F(A,S)
とされる(ステップS38)。次に、選択部6で、求められたFset(S)の中から最適な写像を求め、求められた写像をFres(A,S)に入れる(ステップS39)。
次に、形態素解析結果と、例文パターンの固定項目の不整合による誤マッチングの課題を改善した本実施形態の変形例の翻訳システム100bについて説明する。
そのような場合の一例を図13に示す。同図に示すように、入力文Sが、「分かる よう に
報告 書 を 書いてください」であり、例文パターンAは「分かる ように NP を 書いてください」である。形態素解析の結果“よう/に”は、例文パターンの固定項目“ように”にマッチングできない。
図14は本実施形態の変形例に係る翻訳システム100bの構成例を示すブロック図である。図5で説明した翻訳システム100との相違部分について説明する。同図に示すように、その相違点は、図5で示す翻訳システム100のパターンマッチング装置40aが算出部4aを持つのに対し、翻訳システム100bでは、パターンマッチング装置40bがそれとは異なる算出部4bを持つことである。
算出部4bは、図13で説明した形態素解析結果と、例文パターンの固定項目の不整合による誤マッチングの課題を改善した処理手順を持つ。図15に算出部4bの処理手順を表すフローチャートを示す。その相違部分は、aiが固定項目の算出部4aのステップS15f(図8参照)に対し、算出部4bのステップS15fbには、次の点が追加されている。
例文パターンAの固定項目と入力文間が1対2の写像の場合、即ちaiがsj-1sjに置換する場合には
d(i,j)=d(i-1,j-2) ; PathFlag(i,j)=(0,0,2)
とする。また、例文パターンAの固定項目と入力文間が1対3の写像の場合、aiがsj-2sj-1sjに置換する場合には
d(i,j)=d(i-1,j-3) ;
PathFlag(i,j)=(0,0,3)
とする。この手順追加により、図13で述べた「よう/に」のような不整合の課題も解決できる。なお、図15のフローチャートは、説明を分かりやすくするために、手順を簡略化しているが、図22bに、比較的正確な算出部4bのアルゴリズムを表す式を示す。
次に、図16乃至図18を参照して具体的な例を説明する。
図16に示す具体例1は、例文パターンA が、
例文パターンA = NP1 は NP2 を 食べている[食べる
て いる]
であり、表の縦方向に並べて配置し、入力文Sは、
入力文S = 私は子供が食べ残したリンゴを食べている
であり、形態素解析した結果を表の横方向に並べて配置している。p=r=q=1.0をとした場合の距離を計算している。距離値は0で、1つのマッチング結果が得られた。即ち、
F1(A,S) = { (1,1,1), (2,2,2),
(3,3,7), (4,8,8), (5,9,9) }
である。右辺のカッコ内は、(例文パターンの要素番号,入力文の開始要素番号,
入力文の終了番号)を示す。即ち、矢印上の対応関係を示し、(1,1,1)は、例文パターンAの1番目の要素(可変項目)「NP1」と、入力文Sの1番目の要素「私」との対応関係、同様に(2,2,2)は、例文パターンAの2番目の要素「は」と、入力文Sの2番目の要素「は」との対応関係、(3,3,7)は、例文パターンAの3番目の要素(可変項目)「NP2」と、入力文Sの3番目の要素「子供」、同4番目の要素「が」、同5番目の要素「食べ」、同6番目の要素「残した」、および同7番目の要素「リンゴ」との1対5の対応関係、(4,8,8)は、例文パターンAの4番目の要素「を」と、入力文Sの8番目の要素「を」との対応関係、(5,9,9)は、例文パターンAの9番目の要素「食べている」と、入力文Sの8番目の要素「食べている」との対応関係をそれぞれ示し、いずれも距離値0である。
図17は、具体例2を示し、具体例1と同じ内容の中国語の例を示す。
図18は、具体例3を示し、表の縦方向には、例文パターンAが、
例文パターンA = NP1 は NP2 と 一緒 に
NP3 を 見る
を示し、表の横方向には、入力文Sが、
入力文S =アイスを食べている山崎さんはリンゴとミカンを食べている田中さんと一緒に映画を見る
を、形態素解析した結果の文字列を示す。同様に、p=r=q=1.0をとした場合の距離を計算している。距離値は0で、1つのマッチング結果が得られた。即ち、
F1(A,S) = { (1,1,5),
(2,6,6),(3,7,13),(4,14,14),
(5,15,15),
(6,16,16),(7,17,17),(8,18,18),(9,19,19) }
である。
以上述べたように、本実施形態に係る翻訳システムによれば、パターン抽出技術に依存せず、翻訳に参照する例文パターンの候補を効率よく検索でき,パターンと文字列間の一対多の対応が可能な編集距離を用いて,参照候補例文パターンと入力文の単語列間の相違値を少ない計算量で直接に算出することを可能となり、精度よく参照候補例文パターンと入力文の単語列間の対応関係(写像)を求めることができる。更に、求められた複数の翻訳用パターン候補から最適な翻訳参照パターンを抽出することができる。その結果、少ない計算量で精度良く入力文を翻訳できる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
上記実施形態では、外部記憶装置はハードディスク(Hard Disk)で構成されるとして説明したが、これに限定されるわけではなく、例えば、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory)、DVD−RAM(Digital Versatile Disk
Random Access Memory)、MO(magneto-optic)、及び、フラッシュメモリ(flash memory)で構成される実施形式を採用できる。
1…解析部 2…検索部(検索手段)
4、4a、4b…算出部(算出手段) 5…抽出部(抽出手段)
6…選択部(選択手段) 7…翻訳部(翻訳手段)
8…記憶部(記憶手段)
10…入力装置 20…出力装置
20、20b…翻訳装置 40、40a、40b…パターンマッチング装置
100、100b…翻訳システム
1001…演算部 1002…ROM
1003…RAM 1004…外部記憶部
1005…バス

Claims (4)

  1. 例文に共通な文字列で構成される固定項目と前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターンと入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、
    前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、
    を備えることを特徴とするパターンマッチング装置。
  2. 例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と、
    翻訳を行う対象として入力された入力文に対し、形態素解析を実行する解析手段と、
    前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、
    前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、
    前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と
    前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段と
    を備えることを特徴とする翻訳装置。
  3. 例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と、
    入力文を示す情報入力する入力手段と、
    翻訳を行う対象として前記入力手段により入力された入力文に対し、形態素解析を実行する解析手段と、
    前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、
    前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、
    前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と
    前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段と
    を備えることを特徴とする翻訳システム。
  4. 例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と接続されたコンピュータ
    翻訳を行う対象として入力された入力文に対し、形態素解析を実行する解析手段と、
    前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、
    前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、
    前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と
    前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段として機能させることを特徴とする翻訳プログラム。
JP2010060359A 2010-03-17 2010-03-17 パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム Active JP5521669B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010060359A JP5521669B2 (ja) 2010-03-17 2010-03-17 パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010060359A JP5521669B2 (ja) 2010-03-17 2010-03-17 パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2011197713A JP2011197713A (ja) 2011-10-06
JP5521669B2 true JP5521669B2 (ja) 2014-06-18

Family

ID=44875890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010060359A Active JP5521669B2 (ja) 2010-03-17 2010-03-17 パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム

Country Status (1)

Country Link
JP (1) JP5521669B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014075073A (ja) * 2012-10-05 2014-04-24 Fuji Xerox Co Ltd 翻訳処理装置及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4502615B2 (ja) * 2003-09-26 2010-07-14 日本電気株式会社 類似文検索装置、類似文検索方法、およびプログラム
JP5386855B2 (ja) * 2008-05-30 2014-01-15 富士ゼロックス株式会社 翻訳メモリ翻訳装置および翻訳プログラム
JP5391867B2 (ja) * 2009-06-26 2014-01-15 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム

Also Published As

Publication number Publication date
JP2011197713A (ja) 2011-10-06

Similar Documents

Publication Publication Date Title
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
JP5239307B2 (ja) 翻訳装置及び翻訳プログラム
US20180089169A1 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
RU2618374C1 (ru) Выявление словосочетаний в текстах на естественном языке
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
JP5391867B2 (ja) 翻訳装置及び翻訳プログラム
JP4640593B2 (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP5521669B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP5022252B2 (ja) 表現テンプレート生成装置、その方法およびそのプログラム
Granell et al. An interactive approach with off-line and on-line handwritten text recognition combination for transcribing historical documents
CN116306594A (zh) 一种医学ocr识别纠错方法
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP5521670B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
JP4113204B2 (ja) 機械翻訳装置、その方法およびプログラム
CN105930471A (zh) 演讲摘要生成方法及装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140324

R150 Certificate of patent or registration of utility model

Ref document number: 5521669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150