JP5521669B2 - パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム - Google Patents
パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム Download PDFInfo
- Publication number
- JP5521669B2 JP5521669B2 JP2010060359A JP2010060359A JP5521669B2 JP 5521669 B2 JP5521669 B2 JP 5521669B2 JP 2010060359 A JP2010060359 A JP 2010060359A JP 2010060359 A JP2010060359 A JP 2010060359A JP 5521669 B2 JP5521669 B2 JP 5521669B2
- Authority
- JP
- Japan
- Prior art keywords
- component
- sentence
- input sentence
- example sentence
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Fset(S)を抽出し、距離Dと写像の集合Fset(S)を出力する。
a1a2…anとし、入力文の単語列S=s1s2…smとする。ここで、例文パターンAの要素aiには二種あり、f(ai)=f(固定項目),とf(ai)=v(可変項目)。例文パターンAから入力文の単語列Sへの写像={(i,j)}が次の写像条件を満たすときに,例文パターンAから入力文の単語列Sへの条件保存写像と呼ぶ。
・f(ai)= f (固定項目)の場合は、1対1写像で、交差写像が禁止、
・f(ai)= v (可変項目)の場合は、1対多写像で、交差写像が禁止、
である。例文パターンAから入力文Sへの写像重みとは、例文パターンAの要素aiが文字列要素sjに置換する操作、要素aiが挿入する操作、要素sjが脱落操作を用いて、上記の条件保存写像の条件に従って、文字列Aを文字列Sに変換するときに必要な操作の重みである。ここで、aiがsjに置換させる操作の重みは置換重み、aiを挿入する操作の重みが挿入重み、siを削除する操作の重みが脱落重みと呼ぶ.なお、本明細書で、1対多写像を1対複数写像ともいう。
写像条件:任意の(i1,j1)
∈ M, (i2,j2) ∈ M
ここで、i1,j1は、ai1,sj1の意味であるが、簡単のため番号部分のi1,j1のみで示す。Mは写像(集合)を表す。
1、文字列Aの要素aiが固定項目の場合は、従来の文字列間の編集距離の写像条件である。
case f(ai1)=f or
f(ai2)=f,
1.1、1対1写像である。
i1 = i2
iff j1 = j2.
1.2、交差写像禁止(左右関係を保存する条件)。
i1 < i2,
iff j1 < j2.
2、文字列Aの要素aiが可変項目の場合は、一方向(正方向)で1対n写像。
case f(ai1)=v or
f(ai2)=v,
2.1、逆方向は1対1写像である。
if j1 = j2
then i1 = i2 ,
2.2、正方向が1対n写像の時、nは連続している部分文字列である。
if i1 = i2,
and j1 < j2
then for any (i3,j3)
∈ M and j1<j3< j2 , i1 = i3
2.3、正方向が交差写像禁止である。
if i1 < i2,
then j1 < j2.
2.4、逆方向も交差写像禁止である。
if j1 < j2
then i1 < i2, or i1 = i2.
距離の定義: 文字列A=a1a2…anと文字列S=s1s2…sm間のすべでの条件保存写像に対して、最小な条件保存写像の写像重みがAとS間の条件保存距離と呼び、D(A,S)と書く。
f(ai)=Vなら、要素aiがSの連続している部分単語列に写像することができるので、距離d(i,j)は、図2(b)に示すようなパス(矢印で示す)をすべて計算する必要がある。距離d(i,j)の計算式は、後述する図3のステップS15vに示す。ここで、図2(a)、(b)の縦方向は、例文パターンAの要素f(ai)で、横方向はSの要素f(sj)である。i,jは自然数で、
i=1,2・・・n、j=1,2・・・m
である。
= 0や、 PathFlag(i,j) = (0,0,0)などの処理が行われる。その処理後にi、jに1が入力され、例文パターンAの要素aiが固定項目かどうか判断される(ステップS12、S13)。
d(i,j) = min { d(i-1,j-1) +w(ai,sj)
, d(i-1,j)+q, d(i,j-1)+r }
また、例文パターンAの要素aiが文字列Sの要素sjに置換する場合は、
PathFlag(i,j) = PathFlag or
(0,0,1)
とする。即ち、現在の写像情報PathFlag の内容と(0,0,1)のOR演算を行う。同様に、要素aiが脱落する場合は、
PathFlag(i,j) =
PathFlag or (1,0,0)
とする。要素Sjを挿入する場合は、
PathFlag(i,j) = PathFlag or
(0,1,0)
とする。
d(i,j) = min { d(i-1,j-1) +w(ai,sj)
, d(i-1,j-2) +w(ai,sj-1…sj), … ,
d(i-1,0) +w(ai,s1…sj),
d(i-1,j)+q, d(i,j-1)+r }
この際に、要素aiがsjに置換する場合は、
PathFlag(i,j) = PathFlag or
(0,0,1)
とし、要素aiが要素sj-1…sjに置換する場合は
PathFlag(i,j) = PathFlag or
(0,0,1)
…
要素aiが要素sj…sjに置換する場合は、
PathFlag(i,j) = PathFlag or
(0,0,1)
とする。要素aiが脱落する場合は、
PathFlag(i,j) = PathFlag or
(1,0,0)
とする。要素sjを挿入する場合は、
PathFlag(i,j) = PathFlag or
(0,1,0)
とする。
の要素aiai+1…anと入力文の単語列Sの要素sjsj+1…sm間の写像F(A,S)をMatching(i,j)に保存する。すべでのMatching(i,j)に初期値を付与する。即ち、
PathFlagS=NULL、 Fset(S)=NULL、
Push (n,m) into PathFlagS
とする。次に、PathFlagSが空かどうか判断し、空でなければ、PathFlagSから1要素を取り出して
(i,j)に入れる(ステップS22、S23)。(i,j)の値が(0,0)に等しいか判断する(ステップS24)。(i,j)の値が(0,0)であれば、写像Matching(0,0)をFset(S)に追加すし、ステップ23に戻る(ステップS28)。(i,j)の値が(0,0)でなければ、要素aiが固定項目かどうか判断する(ステップS26)。
Matching(i-1,j-1)=Mathing(i,j)+(i,j,j);
Push (i-1,j-1) into PathFlagS;
とする。要素aiが脱落する場合は、
Matching(i-1,j)
=Mathing(i,j)+(i,0,0);
Push (i-1,j) into PathFlagS;
とする。要素sjを挿入する場合は、
Matching(i,j-1)
=Mathing(i,j)+(0,j,j);
Push (i,j-1) into PathFlagS
とする。
Matching(i-1,j-1)=Mathing(i,j)+(i,j1,j2);
Push (i-1,j-1) into PathFlagS;
とする。要素aiが脱落する場合は、
Matching(i-1,j)
=Mathing(i,j)+(i,0,0);
Push (i-1,j) into PathFlagS;
とする。要素sjを挿入する場合は、
Push (i,j-1) into PathFlagS
とする。その処理後に、ステップ23に戻り、PathFlagSが空でなければ、ステップS24以降の処理を行い、PathFlagSが空になると、抽出処理を終了する。
図5は、本実施形態に係る翻訳システム100の構成を示すブロック図である。同図に示すように、翻訳システム100は、及び入力装置10、翻訳装置20a、および出力装置30を含んで構成される。
Processing Unit)等の演算部1001、EPROM(Erasable Programmable Read-Only Memory)またはEEPROM(Electrically Erasable Programmable Read-Only Memory)等の読み出し専用メモリであるROM1002(Read-Only Memory )、DRAM(Dynamic RAM)またはSRAM(Static RAM)等の揮発性メモリ及びNVRAM(Non Volatile RAM)等の不揮発性メモリで構成されるRAM1003(Random Access Memory)、並びにハードディスク装置等の外部記憶装置で構成される外部記憶部1004で構成され、演算部1001、ROM1002、RAM1003、および外部記憶部1004は互いにバス1005によって接続されている。
Sim(S,A)=(2 *|S∩A|)/(|S|+ |A|); Cov(S,A)= |S∩A|/|S|
|S|:Sのバイグラム(Bi-gram:2グラムとも云う)の数であり、|A|:AのBi-gramの数でS∩A|: SとAの共通Bi-gramの数である。
Lemma1: Sim(S,A)≧Cov(S,A)
Lemma2:
Sim(S,A)<2*Cov(S,A)
証明: Sim(S,A)/Cov(S,A) =
2* |S|/(|S|+ |A|); |A|> |S|
の場合には、例文パターンのBi-gram数が入力文のBi-gram数より多い。もし、この例文パターンを用いて入力文Sを翻訳するときに、例文パターンAには、入力文と対応できない項目がある。従って、例文パターンAから対応できない項目を削除する必要がある。しかし、例文パターンの項目を削除すると、例文パターンが崩れるため、翻訳が困難になる。従って、|A|<=
|S|の場合だけ考えれば十分である。従って、
Sim(S,A)/Cov(S,A) = 2*
|S|/(|S|+ |A|)≧1;
となる。
証明: Sim(S,A)/Cov(S,A) =
2* |S|/(|S|+ |A|); |S| >> |A|
の場合は、入力文Sが例文パターンAより大きければ大きいほど、
Sim(S,A)/Cov(S,A)は2に接近する。つまり、 Sim(S,A)/Cov(S,A)の最大値が2より小さい。従って、
Sim(S,A)/Cov(S,A)<2.
となる。
d(i,j) = min { d(i-1,j-1) +w(ai,sj)
, d(i-1,j-2) +w(ai,sj-1…sj),
… , d(i-1,0) +w(ai,s1…sj),
d(i-1,j)+q, d(i,j-1)+r }
に対して、aiが可変項目のとき,aiは任意の部分文字列sjに写像しても重みは等しく0とする。即ち、重みwを
w(ai,s1)
= w(ai,s2) = … = w(ai,sm) = w(ai,
sh…sk)
とする。ここで, 1<=h,k<=m.である。この結果、ステップS15vaのd(i,j)
が、
d(i,j) = min { d(i-1,j-1) +w(ai,sj)
, d(i-1,j)+q, d(i,j-1) }
となる。また、図3のステップS15vでは、文字列Aの要素aiが文字列Sの要素sjに置換する場合、
要素aiが要素sj-1…sjに置換する場合、…要素aiが要素sj…sjに置換する場合の処理が複数あったものが、図8のステップS15vaでは、要素 aiが要素sjに置換する場合だけになった。この結果、算出部4の時間計算量がO(n3)からO(n2)に効率化される。なお、図8のフローチャートは、説明を分かりやすくするために、手順を簡略化しているが、図21に、比較的正確な算出部4aのアルゴリズムを表す式を示す。
対して入力文Sの「子供/2が/61 食べ[食べる/47]/47 残した[残す/47 た/74]/47 リンゴ/2 」に正しく対応させており、距離値が0で、置換項目数(マッチング数)は5である。これに対し、入力文Sと候補の例文パターンA3(「NP1 が食べ[食べる/47]/47 残した[残す/47 た/74]/47
NP2 を食べている[食べる て いる]」)間の距離値が同じである。その対応関係では、例文パターンの名詞句NP1 に対して入力文Sの「私/14は/65子供/2」を誤って対応させているが、置換項目数(マッチング数)は7である
にマッチング(対応)させているので、得られた候補としての例文パターンは間違ったものとなる。もし、「私は子供」が名詞句ではないとする判断が可能なら、「私は子供」がNP1
にマッチングできなくなる。しかし、まだ、句の判断技術は未熟なので、実用的ではない。従って、句の判断技術を使用しない判断手段が必要である。最適な翻訳用候補の例文パターンを選択する基本的な考え方として、
(1) 例文パターンの可変部分にマッチングしている入力文の部分文字列は意味のある句である。
(2) マッチングした項目数ができるだけ多い。
(3) 距離値が小さい。
(4) 上記(1)(2)(3)の評価結果を融合して、総合的に判定する。
とし(ステップS54)、句の評価手順を終了する。
・入力文と翻訳用候補の例文パターン間のマッチング集合F1set(S)にある各マッチングF1(A,S)について、Fun1(F1(A, S))と Fun2(F1(A,S))を計算する。
・Fun2(F1(A,S)) < G4(このG4は閾値で0.1〜0.3の値をとる)
の場合は、F1set(S)集合から当該マッチングF1(A,S)を削除する。F1set(S)集合に残ったすべてのマッチングに対して,最大のFun1(F1(A,S))を決めるマッチングを求める。Fun1とFun2の計算方法について、以下にその例を二つ述べる。
Fun1とFun2の計算方法1:
Fun1は、次式で与えられる。
Fun1(F1(A,S)) =
( (Σ句の評価値)/句の数 * k1 + マッチングした項目の総数
* k2 - 距離値*K3 )
* f1(例文パターンAのマッチングした固定項目数)
* f2(例文パターンAのマッチングした可変項目数)
Fun2は、次式で与えられる。
Fun2(F1(A, S)) = (Σ句の評価値) / 句の数
ここで,例えば,K1 =10, k2=1,
K3=1である。
Fun1とFun2の計算方法2:
Fun1は、次式で与えられる。
Fun1(F1(A,S)) =
((Σ句の評価値)/句の数 * k1 +
+ マッチングした項目の総数 *マッチングした項目の総数
/|A| * k2
+ (|S|*q+|A|*r -距離値)/2)
* f1(パターンAのマッチングした固定項目数) *f2(パターンAのマッチングした可変項目数)
ここで、例えば,K1 =10, k2=3, |S|がF1(A,S)において、写像している項目の数と挿入した項目の数(連続挿入した部分が一つの挿入項目とする)の和、|A|がパターンの可変項目個数と固定項目個数の和、 qとrはそれぞれ、マッチングするときの挿入重みと脱落重みである。
f1 = 0 :例文パターンのマッチングした固定項目数がG5(閾値)より小さい;
other 1
f2 = 0 : 例文パターンにマッチングしていなかった可変項目数がある
; other 1
上記f1、f2は、0か1の値をとり、f1の場合、例文パターンのマッチングした固定項目数がG5(閾値)より小さいとき0であり、それ以外は1である。f2の場合、例文パターンにマッチングしていなかった可変項目数があるとき0であり、それ以外のとき1である。
(1) Sim(S,A)>=Con(S,A);
(2) Sim(S,A)<2*Cov(S,A) ;
(3) 例文パターンの個数を所定の最大値に限定 、
となる条件で、例文パターンの候補範囲を絞り込んで検索を行い、
F1set(S)=F1set(S,A)=NULL; Dmin
=Dmax;
とする。
Fset(S)= Fset(S)+ F(A,S)
とされる(ステップS38)。次に、選択部6で、求められたFset(S)の中から最適な写像を求め、求められた写像をFres(A,S)に入れる(ステップS39)。
報告 書 を 書いてください」であり、例文パターンAは「分かる ように NP を 書いてください」である。形態素解析の結果“よう/に”は、例文パターンの固定項目“ように”にマッチングできない。
d(i,j)=d(i-1,j-2) ; PathFlag(i,j)=(0,0,2)
とする。また、例文パターンAの固定項目と入力文間が1対3の写像の場合、aiがsj-2sj-1sjに置換する場合には
d(i,j)=d(i-1,j-3) ;
PathFlag(i,j)=(0,0,3)
とする。この手順追加により、図13で述べた「よう/に」のような不整合の課題も解決できる。なお、図15のフローチャートは、説明を分かりやすくするために、手順を簡略化しているが、図22bに、比較的正確な算出部4bのアルゴリズムを表す式を示す。
例文パターンA = NP1 は NP2 を 食べている[食べる
て いる]
であり、表の縦方向に並べて配置し、入力文Sは、
入力文S = 私は子供が食べ残したリンゴを食べている
であり、形態素解析した結果を表の横方向に並べて配置している。p=r=q=1.0をとした場合の距離を計算している。距離値は0で、1つのマッチング結果が得られた。即ち、
F1(A,S) = { (1,1,1), (2,2,2),
(3,3,7), (4,8,8), (5,9,9) }
である。右辺のカッコ内は、(例文パターンの要素番号,入力文の開始要素番号,
入力文の終了番号)を示す。即ち、矢印上の対応関係を示し、(1,1,1)は、例文パターンAの1番目の要素(可変項目)「NP1」と、入力文Sの1番目の要素「私」との対応関係、同様に(2,2,2)は、例文パターンAの2番目の要素「は」と、入力文Sの2番目の要素「は」との対応関係、(3,3,7)は、例文パターンAの3番目の要素(可変項目)「NP2」と、入力文Sの3番目の要素「子供」、同4番目の要素「が」、同5番目の要素「食べ」、同6番目の要素「残した」、および同7番目の要素「リンゴ」との1対5の対応関係、(4,8,8)は、例文パターンAの4番目の要素「を」と、入力文Sの8番目の要素「を」との対応関係、(5,9,9)は、例文パターンAの9番目の要素「食べている」と、入力文Sの8番目の要素「食べている」との対応関係をそれぞれ示し、いずれも距離値0である。
例文パターンA = NP1 は NP2 と 一緒 に
NP3 を 見る
を示し、表の横方向には、入力文Sが、
入力文S =アイスを食べている山崎さんはリンゴとミカンを食べている田中さんと一緒に映画を見る
を、形態素解析した結果の文字列を示す。同様に、p=r=q=1.0をとした場合の距離を計算している。距離値は0で、1つのマッチング結果が得られた。即ち、
F1(A,S) = { (1,1,5),
(2,6,6),(3,7,13),(4,14,14),
(5,15,15),
(6,16,16),(7,17,17),(8,18,18),(9,19,19) }
である。
Random Access Memory)、MO(magneto-optic)、及び、フラッシュメモリ(flash memory)で構成される実施形式を採用できる。
4、4a、4b…算出部(算出手段) 5…抽出部(抽出手段)
6…選択部(選択手段) 7…翻訳部(翻訳手段)
8…記憶部(記憶手段)
10…入力装置 20…出力装置
20、20b…翻訳装置 40、40a、40b…パターンマッチング装置
100、100b…翻訳システム
1001…演算部 1002…ROM
1003…RAM 1004…外部記憶部
1005…バス
Claims (4)
- 例文に共通な文字列で構成される固定項目と前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターンと入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、
前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、
を備えることを特徴とするパターンマッチング装置。 - 例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と、
翻訳を行う対象として入力された入力文に対し、形態素解析を実行する解析手段と、
前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンとの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率との大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、
前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、
前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、
前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段と、
を備えることを特徴とする翻訳装置。 - 例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と、
入力文を示す情報を入力する入力手段と、
翻訳を行う対象として前記入力手段により入力された入力文に対し、形態素解析を実行する解析手段と、
前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンとの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率との大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、
前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、
前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、
前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段と、
を備えることを特徴とする翻訳システム。 - 例文に共通な文字列で構成される固定項目及び前記例文に共通しない文字列を表す記号で構成される可変項目を含む例文パターン、並びに前記例文パターンが翻訳された対訳例文パターンを記憶する記憶手段と接続されたコンピュータを、
翻訳を行う対象として入力された入力文に対し、形態素解析を実行する解析手段と、
前記解析手段によって形態素解析が実行された前記入力文と前記例文パターンとの類似度と前記例文パターンが前記入力文をカバーしている割合を示すカバー率との大小関係に基づいて、前記記憶手段から前記入力文に応じた例文パターンを検索する検索手段と、
前記検索手段によって検索された例文パターンと前記入力文とが相違する程度を表す距離値を前記例文パターンと前記入力文の構成要素毎に算出する場合に、前記距離値の算出対象となる例文パターンの構成要素が前記固定項目であるときには、前記算出対象の直前の構成要素と該直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象を前記入力文の構成要素に置換させるために要する置換重みとの第1の和、前記算出対象の直前の構成要素と前記算出対象に対応する入力文の構成要素との距離値と前記算出対象を挿入するために要する挿入重みとの第2の和、及び前記算出対象と前記算出対象の直前の構成要素に対応する入力文の構成要素との距離値と前記算出対象に対応する入力文の構成要素を削除するために要する脱落重みとの第3の和の中で最小の和を前記距離値として算出し、前記距離値の算出対象となる例文パターンの構成要素が前記可変項目であるときには、前記第1の和、前記第2の和、前記第3の和、及び前記算出対象の直前の構成要素と前記入力文の最初の構成要素から前記算出対象の2つ前の構成要素に対応する入力文の構成要素までの各距離値と前記各距離値に応じた前記置換重みのそれぞれの第4の和の中で最小の和を前記距離値として算出する算出手段と、
前記算出手段で算出された距離値が最小となる例文パターンの構成要素と入力文の構成要素との対応関係を抽出する抽出手段と、
前記抽出手段で抽出された対応関係に基づいて、前記入力文を翻訳する翻訳手段として機能させることを特徴とする翻訳プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010060359A JP5521669B2 (ja) | 2010-03-17 | 2010-03-17 | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010060359A JP5521669B2 (ja) | 2010-03-17 | 2010-03-17 | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011197713A JP2011197713A (ja) | 2011-10-06 |
JP5521669B2 true JP5521669B2 (ja) | 2014-06-18 |
Family
ID=44875890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010060359A Active JP5521669B2 (ja) | 2010-03-17 | 2010-03-17 | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5521669B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014075073A (ja) * | 2012-10-05 | 2014-04-24 | Fuji Xerox Co Ltd | 翻訳処理装置及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4502615B2 (ja) * | 2003-09-26 | 2010-07-14 | 日本電気株式会社 | 類似文検索装置、類似文検索方法、およびプログラム |
JP5386855B2 (ja) * | 2008-05-30 | 2014-01-15 | 富士ゼロックス株式会社 | 翻訳メモリ翻訳装置および翻訳プログラム |
JP5391867B2 (ja) * | 2009-06-26 | 2014-01-15 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
-
2010
- 2010-03-17 JP JP2010060359A patent/JP5521669B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011197713A (ja) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
JP5239307B2 (ja) | 翻訳装置及び翻訳プログラム | |
US20180089169A1 (en) | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated | |
JP2006012168A (ja) | 翻訳メモリシステムにおいてカバレージおよび質を改良する方法 | |
RU2618374C1 (ru) | Выявление словосочетаний в текстах на естественном языке | |
JP2004199427A (ja) | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 | |
JP2018055670A (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
JP6186198B2 (ja) | 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム | |
JP5391867B2 (ja) | 翻訳装置及び翻訳プログラム | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
JP5342760B2 (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
JP5521669B2 (ja) | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム | |
JP5022252B2 (ja) | 表現テンプレート生成装置、その方法およびそのプログラム | |
Granell et al. | An interactive approach with off-line and on-line handwritten text recognition combination for transcribing historical documents | |
CN116306594A (zh) | 一种医学ocr识别纠错方法 | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP5521670B2 (ja) | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
CN105930471A (zh) | 演讲摘要生成方法及装置 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5521669 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |