JP2010055298A - 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム - Google Patents
翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2010055298A JP2010055298A JP2008218444A JP2008218444A JP2010055298A JP 2010055298 A JP2010055298 A JP 2010055298A JP 2008218444 A JP2008218444 A JP 2008218444A JP 2008218444 A JP2008218444 A JP 2008218444A JP 2010055298 A JP2010055298 A JP 2010055298A
- Authority
- JP
- Japan
- Prior art keywords
- language
- translation
- term
- occurrence
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システムは、第1言語のコーパスから、上記第1言語の用語に共起する共起用語を抽出する第1の抽出部と、上記抽出された共起用語の少なくとも1に対応する第2言語の訳語を出力する出力部と、上記第1言語のコーパスに対応する第2言語のコーパスから、上記出力された第2言語の訳語の少なくとも1に共起する訳語候補を抽出する第2の抽出部と、上記抽出された訳語候補それぞれに重み付けをする重付部と、上記重みを最適化し、該最適化された重みに従い上記第1言語の用語についての翻訳対のリストを生成する生成部とを含む。
【選択図】図1A
Description
下記非特許文献2は、未知の英語コーパス及びドイツ語コーパスから単語翻訳を自動特定する方法を記載する。該方法は、未知のドイツ語単語の英語訳を決定するために、ドイツ語単語の関連付けベクターが計算され、そして英語の関連付けマトリックスにおける全ての関連付けベクターと比較されることを含む。
第1言語のコーパスから、上記第1言語の用語に共起する1以上の共起用語を抽出する第1の抽出部と、
上記抽出された共起用語の少なくとも1に対応する1以上の第2言語の訳語を出力する出力部と、
上記第1言語のコーパスに対応する第2言語のコーパスから、上記出力された第2言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出する第2の抽出部と、
上記抽出された訳語候補それぞれに重み付けをする重付部と、
上記重みを最適化し、該最適化された重みに従い上記第1言語の用語についての翻訳対のリストを生成する生成部と
を含む。
(1)上記第1の相関の強さが、上記第1言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記共起用語を含む文書の件数を分子としたときの第1の割合と、上記第1言語のコーパスにおける全文書中において上記第1言語の用語を含む文書の件数を分母とし、該第1言語の用語を含む文書中において上記共起用語を含む文書の件数を分子としたときの第2の割合との比である。
(2)上記第1の相関の強さが、上記第1言語のコーパスにおいて上記共起用語を含む文書の件数を分母とし、上記第1言語のコーパスにおいて上記第1言語の用語を含む全ての文書中において上記共起用語が出現する回数又は上記第1言語の用語と上記共起用語の両方を含む文書の件数を分子とする分数の値である。
(3)上記第1の相関の強さが、上記第1言語のコーパスにおける上記共起用語の出現確率と、上記第1言語のコーパスにおける上記第1言語の用語の出現確率の積を分母とし、上記第1言語のコーパスにおける上記共起用語と上記第1言語の用語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に上記同時出現確率を掛けた値で表現される。
(1)上記第2の相関の強さが、上記第2言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第1の割合と、上記第2言語のコーパスにおける全文書中において上記第2言語の訳語を含む文書の件数を分母とし、該第2言語の訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第2の割合との比である。
(2)上記第2の相関の強さが、上記第2言語のコーパスにおいて上記訳語候補を含む文書の件数を分母とし、上記第2言語のコーパスにおいて上記第2言語の訳語を含む全ての文書中において上記訳語候補が出現する回数又は上記第2言語の訳語と上記訳語候補の両方を含む文書の件数を分子とする分数の値である。
(3)上記第2の相関の強さが、上記第2言語のコーパスにおける上記訳語候補の出現確率と、上記第2言語のコーパスにおける上記第2言語の訳語の出現確率の積を分母とし、上記第2言語のコーパスにおける上記訳語候補と上記第2言語の訳語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に上記同時出現確率を掛けた値で表現される。
(1)上記重み付けが、上記マージされたリストにおいて訳語候補が重複して出現する回数を用いる。
(2)上記重み付けが、上記回数に相対頻度又は該相対頻度を正規化した値を加えた数値であり、該相対頻度が、上記第2言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第1の割合と、上記第2言語のコーパスにおける全文書中において上記第2言語の訳語を含む文書の件数を分母とし、該第2言語の訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第2の割合との比を用いる。
(3)上記重み付けが、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語と、上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する、訳語候補に共起する複数の共起語(以下、訳語候補についての共起語を訳語候補共起語という)との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を用いる。
(1)上記第2言語のコーパスにおいて第2言語の訳語が出現する頻度を用いる、又は該頻度を上記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する。
(2)上記第2言語のコーパスにおいて第2言語の訳語が出現する文書数を用いる、又は該文書数を上記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する。
(3)該評価が、上記第1言語のコーパスにおいて上記共起用語と所定の閾値以上の強さの相関を有する、上記共起用語に共起する複数の共起語と、上記第2言語のコーパスにおいて第2言語の訳語と所定の閾値以上の強さの相関を有する複数の訳語共起語、すなわち訳語候補との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を利用する。ここで、本明細書において、共起用語に共起する共起語を共起用語共起語という場合もある。
(1)ランク=重み付けの値/(1+訳語候補共起語の数×v)
ここで、訳語候補共起語の数は、前記第2言語のコーパスにおいて、前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、vは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。重み付けの値は例えば、前記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数である。
(2)ランク=重み付けの値×(1−α×TL/TLmax)
ここで、TLは、ランク付けの対象となる訳語候補と前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数であり、TLmaxは、全ての訳語候補のうちで、前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、前記テールの影響がどの程度勘定されるかを決定するためのパラメータである。重み付けの値は例えば、前記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数である。
第1言語のコーパスから、上記第1言語の用語に共起する1以上の共起用語を抽出するステップと、
上記抽出された共起用語の少なくとも1に対応する1以上の第2言語の訳語を出力するステップと、
上記第1言語のコーパスに対応する第2言語のコーパスから、上記出力された第2言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出するステップと、
上記抽出された訳語候補それぞれに重み付けをするステップと、
上記重みを最適化し、該最適化された重みに従い上記第1言語の用語についての翻訳対のリストを生成するステップと
を含む。
第1言語のコーパス全体から、上記第1言語の用語に共起する1以上の共起用語であって、該第1言語のコーパスにおいて所定の閾値以上の相関の強さを有する該1以上の共起用語を抽出するステップと、
上記抽出された共起用語の少なくとも1に対応する1以上の第2言語の訳語を出力するステップと、
上記第1言語のコーパスに対応する第2言語のコーパス全体から、上記出力された第2言語の訳語の少なくとも1に共起する1以上の訳語候補であって、該第2言語のコーパスにおいて所定の閾値以上の相関の強さを有する該1以上の訳語候補を抽出するステップと、
上記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該訳語候補それぞれに重み付けをするステップと、
上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように上記重みを最適化し、該最適化された重みに従い上記第1言語の用語についての翻訳対のリストを生成するステップと
を含む。
本発明の実施形態では、翻訳対を作成するために、翻訳対象である用語の言語である第1言語のコーパス、及び第2言語のコーパスを用いる。第2言語のコーパスは、第1の言語に対応するコーパスであり、第1言語のコーパスと同じような内容、すなわち類似内容に関して記述されている。第2言語のコーパスに含まれる文書内容の領域は、第1言語のコーパスに含まれる文書内容の領域と同一であるか又は類似する。例えば、第1言語のコーパスが英語の自動車不具合情報である場合、第2言語のコーパスはまた日本語の自動車不具合情報であり(すなわち、領域が同一である)又は日本語の自動車情報である(すなわち、領域が類似である)。第1言語のコーパスに含まれる各文書は、ほぼ1つのトピックであるようにすることもできる。例えば、各文書は、特定の顧客の苦情を記載した文書でありうる。同様に、第2言語のコーパスに含まれる各文書は、ほぼ1つのトピックであるようにすることもできる。
第1言語のコーパスが英語の自動車不具合情報である場合、該コーパスに含まれる文書データの一例を下記に挙げる。
「Engine oil leaks.」
「Car navigation system does notwork.」
第2言語のコーパスが日本語の自動車不具合情報である場合、該コーパスに含まれる文書データの一例を下記に挙げる。
「走行中、エンジンに異音がする。」
「エンジンオイルの交換をしたにもかかわらず、エンジンチェックランプが点灯する。」
このような不具合情報とともに、文書は、日付、メーカー名、担当者名、顧客名、車種名などの情報を含みうる。
第2言語のコーパスが第1言語の類似内容を含むコーパスである理由は、翻訳対を生成する上で、同等の意味を有する用語は同様の内容を有する異なる言語間の文書において同じような使われ方をする、或いは同じような出現傾向をとる傾向にある、ということに基づく。
第1言語及び第2言語のコーパスそれぞれは、対訳形式になっている必要はない。
同様に、「第2言語の訳語に共起する1以上の訳語候補」とは、第2言語のコーパスにおいて第2言語の訳語と相関の強い共起語をいう。第2言語の訳語と相関の強い共起語を、以下、第2言語の訳語候補ともいう。
同様に、上記共起用語(すなわち、第1言語の共起用語)に共起する共起語とは、第1言語のコーパスにおいて第1言語の共起用語と相関の強い共起語をいう。第1言語の共起用語と相関の強い共起語を、以下、共起用語についての共起語ともいう。
同様に、上記訳語候補(すなわち、第2言語の訳語候補)に共起する訳語候補共起語とは、第2言語のコーパスにおいて第2言語の訳語候補と相関の強い共起語をいう。第2言語の訳語候補と相関の強い共起語を、以下、訳語候補共起語ともいう。
同様に、本発明の実施形態では、第2言語の訳語候補は、第2言語のコーパスに含まれる文書の集合体全体から抽出されうる。
同様に、本発明の実施形態では、共起用語についての共起語は、第1言語のコーパスに含まれる文書の集合体全体から抽出されうる。
同様に、本発明の実施形態では、上記訳語候補共起語は、第2言語のコーパスに含まれる文書の集合体全体から抽出されうる。
上記相関の強さは、語wのテールを求めるために使用されうる。テールとは、キーワードの集合(リスト)である。テールを求めるとは、共起用語又は訳語候補に対して相関が設定された閾値以上の強さの共起用語又は訳語候補を全て求める。
TF*IDFは、第1言語のコーパスにおいて共起用語を含む文書の件数を分母とし、第1言語のコーパスにおいて第1言語の用語を含む全ての文書中において共起用語が出現する回数又は第1言語の用語と共起用語の両方を含む文書の件数を分子とする分数の値である。
形式的には、相互情報量は、2つの離散確率変数x、yについて、x=v、y=wとすれば、
p(x)=doc(v)/doc(all)
p(y)=doc(w)/doc(all)
p(x,y)=doc(w)∩doc(v)
となる。
相対頻度は、p(x,y)/(p(x)*p(y))と等価であるので、相対頻度は相互情報量と本質的に変わらないともいえる。
TAKMIは、テキストデータの中から概念(キーワードとなる文字列とそのカテゴリー)を抽出し、定型情報とともに様々な統計量を計算した上で、その結果を様々な観点からユーザに提示する。統計量は例えば、共起単語の出現頻度、単語の出現頻度、話題の推移である。
相関値は、2つの文書集合A、Bについて、A=v,B=wとすれば、
#A=doc(v)
#B=doc(w)
#D=doc(all)
#(A∩B)=doc(w)∩doc(v)
となる。ここで、Dは全文書集合であり、#は文書集合中の文書数を表す。左辺及び右辺の値は同じになる。
(1)第2言語のコーパスにおいて第2言語の該訳語が出現する頻度を用いる、又は該頻度を前記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する。正規化は、訳語がN語あったとして、該当訳語の頻度を(訳語1の頻度+訳語2の頻度+訳語3の頻度+...+訳語Nの頻度)で割ることによって求められる。
(2)第2言語のコーパスにおいて第2言語の該訳語が出現する文書数を用いる、又は該文書数を前記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する。
(3)第1言語のコーパスにおいて第1言語の共起用語と所定の閾値以上の強さの相関を有する、共起用語についての複数の共起語と、第2言語のコーパスにおいて第2言語の訳語と所定の閾値以上の強さの相関を有する複数の訳語候補との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を利用する。
上記(1)及び(2)についての評価は、訳語候補が第2言語のコーパスに実際に存在するかを調べることによって適切性を評価するものである。例えば、「lever」の訳語候補「てこ」及び「レバー」のうち、対象分野の日本語コーパスではどちらがより多く出現するかで、対象分野における訳語の適切性が判断される。
「mirror」の全訳語候補が、[反動,鏡,反射,映像,映り,範囲,影響,響く,機会,ミラー,反響する,反射する,映す]であるとする。
次に、自動車の不具合に関する文書データベース(コーパス)における各訳語候補の出現文書数が、以下の通りであるとする。
「反動」を含む文書の件数 = 4件
「鏡」を含む文書の件数 = 33件
「反射」を含む文書の件数 = 10件
「映像」を含む文書の件数 = 2件
「映り」を含む文書の件数 = 3件
「範囲」を含む文書の件数 = 17件
「影響」を含む文書の件数 = 25件
「響く」を含む文書の件数 = 7件
「機会」を含む文書の件数 = 1件
「ミラー」を含む文書の件数 = 18件
「反響する」を含む文書の件数= 1件
「反射する」を含む文書の件数= 2件
「映す」を含む文書の件数 = 2件
ここで、閾値が出現文書数であり、閾値が15の場合に出力される訳語は、「鏡」、「範囲」、「影響」及び「ミラー」である。
各文書件数を文書件数の総数(125件)で正規化して、値の大きい順に並べた場合、以下の通りであるとする。
鏡 0.264
影響 0.2
ミラー 0.144
範囲 0.136
反射 0.08
響く 0.056
反動 0.032
映り 0.024
映像 0.016
反射する 0.016
映す 0.016
機会 0.008
反響する 0.008
ここで、閾値が0.1の場合に出力される訳語は、「鏡」、「影響」、「ミラー」及び「範囲」である。
(1)ランク=回数/(1+訳語候補共起語の数×v)
ここで、回数は、上記第2言語の訳語の少なくとも1について抽出された1以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数であり、訳語候補共起語の数は、上記第2言語のコーパスにおいて、上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、vは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。
(2)ランク=重み付けの値×(1−α×TL/TLmax)
ここで、TLは、ランク付けの対象となる訳語候補と上記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数であり、TLmaxは、全ての訳語候補のうちで、上記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、上記テールの影響がどの程度勘定されるかを決定するためのパラメータである。
翻訳対の生成の例は、ステップ101〜ステップ105の順に行われる。該例では、第1言語が英語であり、第2言語が日本語である。翻訳対を生成する方法は、要約すれば以下の通りである。
・ステップ101では、コンピュータ・システムは、ソース言語の用語に共起する1以上の共起用語を抽出する。
・ステップ102では、コンピュータ・システムは、該抽出された共起用語の少なくとも1に対応するターゲット言語の訳語を出力する。
・ステップ103では、コンピュータ・システムは、該出力されたターゲット言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出する。
・ステップ104では、コンピュータ・システムは、該抽出された訳語候補夫々に重み付けをする。
・ステップ105では、コンピュータ・システムは、該重みを最適化し、ランキングの高い訳語候補をソース言語の用語の翻訳対として出力する。
ステップ111では、ソース言語の用語を入力する。ソース言語の用語の入力は、例えばディスプレイ上に表示された所定のウィンドウ内の所定の欄に入力することによって行われる。入力されたソース言語の用語は、メモリ又は記憶装置内に格納される。
ステップ112では、コンピュータ・システムは、該入力されたソース用語の用語に共起する1以上の共起用語を抽出する。該共起用語の抽出において、場合によっては、共起用語が何も得られない場合がある。この理由は、コーパスを使用していること、及び相関の高さを用いて共起用語を抽出しているからである。例えば、第1言語の用語が第1言語のコーパスの全文書に出ている場合、又は閾値の設定次第では、閾値を超える共起用語が存在しない場合があるからである。共起用語が1つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、共起用語が1つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ113では、コンピュータ・システムは、該抽出された共起用語の少なくとも1に対応するターゲット言語の訳語を出力する。該訳語の出力において、場合によっては、抽出された共起用語の全てにおいて、第2言語の訳語が見つかるとは限らない。この理由は、訳語が見つかるかどうかは第1言語−第2言語の対訳辞書などの辞書に依存するからである。1又は複数の共起用語から第2言語の訳語が1つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、第2言語の訳語が1つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ114では、コンピュータ・システムは、該出力されたターゲット言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出する。該訳語候補の抽出において、場合によっては、訳語候補が何も得られない場合がある。この理由は、コーパスを使用していること、及び相関の高さを用いて訳語候補を抽出しているからである。例えば、第2言語の訳語が第2言語のコーパスの全文書に出ている場合、又は閾値の設定次第では、閾値を超える訳語候補が存在しない場合があるからである。訳語候補が1つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、訳語候補が1つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ115では、コンピュータ・システムは、該抽出された訳語候補夫々に重み付けをする。
ステップ116では、コンピュータ・システムは、該重みを最適化する。
ステップ117では、コンピュータ・システムは、ランキングの高い訳語候補をソース言語の用語の翻訳対のリストを生成する。
(実施態様1)
ユーザは、翻訳したいソース言語(英語)の用語「steering wheel」を、コンピュータ・システムに入力する。
コンピュータ・システムは、上記英語のコーパスを利用し、該英語のコーパス全体から、翻訳対象である用語「steering wheel」に共起する共起用語を抽出する。
抽出の結果として、翻訳対象である用語「steering wheel」に共起する共起用語として、「shake」、「vibration」、「steering」、・・・(以下略)がリストとして出力されている。
「steering wheel」に共起する共起用語は、共起文書数(頻度)、又は相関値によってソートされうる。図2Aでは、相関値は相対頻度で表されている。図2Aでは、「steering wheel」に共起する共起用語が、相関の強さ順にソートされ、出力されている。「steering wheel」に共起する全ての共起用語が出力される必要はなく、例えば、所定の閾値以上の相関の強さを有する上記共起用語を出力するようにすることもできる。図2Aでは、相関値が3.5以上である共起用語が出力されており、相関値が3.5未満の共起用語(例えば、「wheel(共起用語)、1362(共起文書数)、3.0(相関値)」、「right、2077、2.7」、「hit、1393、2.7」、「rotor、859、2.5」)は出力されていない。
図2Aのリストが、翻訳対象である用語「steering wheel」のテールである。
以上のようにして、コンピュータ・システムは、英語のコーパスから、翻訳対象である用語に共起する共起用語を抽出することができる。該抽出された共起用語の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。
本発明の1つの実施態様では、該抽出において所定の閾値以上の相関の強さを有する共起用語を抽出しうる。所定の閾値以上の相関の強さを有する共起用語を抽出することによって、抽出する共起用語の精度を向上することが可能である。
ソース言語(英語)で翻訳対象である用語「steering wheel」について、共起用語「window」が抽出されたとする。英語のコーパスは、52万件の自動車不具合情報の文書データを含むとする。
(1)全文書52万件の中に、「window」という名詞を含む文書が1万4千件ヒットした。
よって、全文書の2.7%(=1.4/52)に「window」という名詞が含まれている。
(2)全文書52万件中、「steering wheel」という名詞を含む文書が7千件ヒットした。該7千件の中に、「window」という名詞を含む文書が1千件ヒットした。
よって、「steering wheel」を含む文書の14%(=1/7)に「window」という名詞が含まれている。
(3)「steering wheel」と「window」の相関値は、下記のとおりである。
相関値 5.3 (= 14/2.7 = (1/7)/(1.4/52))
(4)相関値が5.3であることから、「window」という名詞は「steering wheel」がある文書に対して標準(全文書)の5.3倍の濃さで出現する。
(5)以上の通りであるから、共起用語「window」は、翻訳対象である用語「steering wheel」と相関が強いといえる。
ユーザは、翻訳したいソース言語(英語)の用語「accelerator pedal」を、コンピュータ・システムに入力する。
コンピュータ・システムは、英語のコーパスを利用し、該英語のコーパス全体から、翻訳対象である用語「accelerator pedal」に共起する共起用語を抽出する。該英語のコーパスは例えば、自動車不具合情報の文書データを含む文書データの集合体である。
抽出の結果として、翻訳対象である用語「accelerator pedal」に共起する共起用語として、「foot」、「accelerate」、「break pedal」、「cruise control」、・・・、「idle」(以下略)がリストとして出力されている。リストは例えば、次の通りである:テール(accelerator pedal)={foot,accelerate,break pedal,cruise control,・・・,idle,・・・,}。よって、用語「accelerator pedal」のテールは、{foot,accelerate,break pedal,cruise control,・・・,idle,・・・,}である。
図2Bでは、翻訳対象である用語「accelerator pedal」と相関の強い共起用語が、相関の強さ順に出力される。コンピュータ・システムは、相関の強さの閾値が3.5に設定されているので、相関の強さが3.5よりも大きい値を有する共起用語を抽出する。よって、出力されるリストは例えば、次の通りである:テール(accelerator pedal > 3.5)={foot,accelerate,break pedal,cruise control,・・・,idle}。ここで、「> 3.5」は、閾値を3.5にした場合を意味する。
テール(w; S) = {用語v ∈ S|相関の強さ(w; v) > t}
ここで、Sは対象とする共起用語のクラスであり、典型的なクラスとしては、例えば、形容詞、副詞、名詞及び動詞といった文法的な分類によるクラスを指定することが考えられる。tは閾値であり、相関が強い関係を対象とすることから、t>1.0となる。
用語wのテールを求めるために、上記式は2つのパラメータについて定義されている。第1のパラメータは、対象とする共起用語のクラスである。もし、特定のクラスを指定しないなら、全ての自立語が対象となり、第一のパラメータの設定は不要となるので、単にテールw)と記述することができる。第2のパラメータはtであり、閾値である。相関が強い関係を対象とする観点から、相関値が1.0よりも高い全ての用語vを含むことを考えてもよい。しかしながら、閾値を1.0に近い値に設定すると、テール(w)に含まれる用語の数が大きくなる。これは、ステップ102の翻訳で処理される、多くの訳語候補をもたらすことになる。それ故に、必要に応じて、テール(w)に含まれる用語の数を減らすために、第2のパラメータtを1.0よりも高い値に設定することが必要である。例えば、第2のパラメータtの閾値は3.5である(図2Bを参照)。テールは、ソース言語又はターゲット言語に依存しないが、使用するコーパスに依存する。すなわち、テールは言語でなく、分野或いは意味に依存する。よって、使用するコーパスの内容によって、第2のパラメータtの閾値を設定する必要がある。
(実施態様1)
コンピュータ・システムは、ステップ101で抽出された共起用語それぞれについて、対訳辞書を利用して日本語の訳語を出力する。該訳語は例えば、メモリー又は記憶装置、例えばハードディスクに記憶される。コンピュータ・システムは、該訳語の出力において、ソース言語−ターゲット言語対訳電子辞書を使用する。以下、辞書という場合、電子的にデータが格納されている電子辞書を意味する。
共起用語の訳出について2つの状況がありうる:(1)ソース言語の該共起用語の訳が、ソース−ターゲット言語の対訳辞書に収載されている状況、及び(2)ソース言語の該用共起語の訳が知られていない状況。
ソース言語の該共起用語の訳がソース−ターゲット言語の対訳辞書に収載されている場合、コンピュータ・システムは、対訳辞書からソース言語の該共起用語に対応する訳をターゲット言語の訳語として抽出するだけでよい。該抽出されたターゲット言語の該訳語が、ソース言語の上記共起用語の翻訳対である。
一方、ソース言語の該共起用語の訳が知られていない場合、コンピュータ・システムは、正確な翻訳を含みうる訳語の候補集合を得ることが必要である。そこで、訳語の候補がソース−ターゲット言語の対訳辞書内にある場合、該辞書によって提供される種々の訳語の候補の全てが訳語の候補として形成されうる。しかしながら、該形成された訳語の候補集合はあまりにも小さいために、該集合に含まれる訳語の候補の数を以下に述べる方法に従い拡張する。
コンピュータ・システムはまた、該訳語の出力において、対訳辞書に加えて、上記訳語についての同義語、類義語を訳語として出力するために、例えばターゲット言語の同義語辞書、ターゲット言語の類義語辞書及びターゲット言語のシソーラスから選択される少なくとも1の辞書を利用しうる。このように種々の辞書を用いて、辞書が拡張される。
言い換えれば、コンピュータ・システムはさらに、上記訳語を英語に訳し、該英語の訳を再度日本語に訳して、該日本語の訳を訳語として出力する。例えば、「振動」が日英対訳辞書を利用して英語「quake」に訳され、次に「quake」が英日対訳辞書を利用して日本語「震え」に訳される。さらに、辞書中にある「mirror」の訳に「映す」があるとすると、「映す」の英訳「reflect」及び「project」の対訳である和訳「反射する」及び反響する」又は「投影する」も訳語候補に追加するということである。
コンピュータ・システムは、「steering wheel」に共起する表現として出力された共起用語「shake」に対し、英日対訳辞書と、同義語辞書、類義語辞書、シソーラスなどの辞書から任意に選択されうる少なくとも1の辞書を用いて、「震動」、「動揺」、「揺れ」及び「地震」などの複数の訳語を出力する。
同様にして、コンピュータ・システムは、「steering wheel」に共起する共起用語として出力された「vibration」、「steering」などの夫々について、複数の訳語を出力する。
コンピュータ・システムは、ステップ101で抽出された共起用語「foot」、「accelerate」、「break pedal」、「cruise control」、・・・、「idle」それぞれについて、対訳辞書を利用し、抽出された共起用語に対応する日本語の訳語を出力する。該訳語は例えば、メモリー又は記憶装置、例えばハードディスクに記憶される。
「foot」、「accelerate」及び「idle」の訳語はそれぞれ、「足」、「加速する」及び「アイドル」である。翻訳が不可能な共起用語については、日本語の訳語は入手不可能である。
(実施態様1)
コンピュータ・システムは、ステップ102で出力された訳語それぞれについて、日本語のコーパスを利用し、該日本語のコーパス全体から、該訳語それぞれに共起する訳語候補を抽出する。
該日本語のコーパスが、自動車不具合情報の文書データを含む文書データの集合体である。例えば、国土交通省には自動車の不具合情報が蓄積されているおり、該蓄積された不具合情報が、上記日本語のコーパスの例である。該日本語のコーパスは、上記した英語のコーパスと分野が自動車不具合情報であり、両コーパスの分野は同一である、よって、該日本語のコーパスは、英語のコーパスの類似内容を含むコーパスである。本発明の1つの実施態様では、該抽出において所定の閾値以上の相関値を有する訳語候補を抽出しうる。所定の閾値以上の相関値を有する訳語候補を抽出することによって、抽出する訳語候補の精度を向上することが可能である。
コンピュータ・システムは、日本語のコーパスを利用して、訳語「振動」と相関の強い共起用語を訳語候補として抽出する。
抽出の結果、訳語「振動」に共起する訳語候補として、「イグニションコイル」、「車体」、「ノッキング」、・・・(以下略)がリストとして出力されている。
訳語「振動」に共起する訳語候補は、共起文書数、又は相対頻度によってソートされうる。図4Aでは、訳語「振動」に共起する訳語候補が相関の強さ順にソートされ、出力されている。訳語「振動」に共起する全ての訳語候補が出力される必要はなく、例えば、所定の閾値以上の相関の強さを有する訳語候補を出力するようにしてもよい。
以上のようにして、コンピュータ・システムは、日本語のコーパスから、訳語に共起する訳語候補を抽出することができる。該抽出された訳語候補の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。
本発明の1つの実施態様では、該抽出において所定の閾値以上の相関の強さを有する訳語候補を抽出しうる。所定の閾値以上の相関の強さを有する訳語候補を抽出することによって、抽出する訳語候補の精度を向上することが可能である。
同様にして、コンピュータ・システムは、その他の訳語「動揺」、「揺れ」、「地震」、「振動」及び「震え」などの夫々について、日本語のコーパスから、該訳語に共起する訳語候補を抽出する。
訳語「振動」について、訳語候補「高速道路」が抽出されたとする。日本語のコーパスは、5万件の自動車不具合情報の文書データを含むとする。
(1)全文書5万件の中に、「高速道路」という名詞を含む文書が1千件ヒットした。
よって、全文書の2.0%(=1,000/50,000)に「高速道路」という名詞が含まれている。
(2)全文書50万件中、「振動」という名詞を含む文書が8千件ヒットした。該4千件の中に、「高速道路」という名詞を含む文書が1千件ヒットした。
よって、「振動」を含む文書の12.5%(=1,000/8,000)に「高速道路」という名詞が含まれている。
(3)「振動」と「高速道路」の相関値は、下記のとおりである。
相関値 6.25 (= 12.5/2.0 = (1,000/8,000)/(1,000/50,000))
(4)以上の通り、相対頻度が6.25であることから、「高速道路」という名詞は「振動」がある文書に対して標準(全文書)の6.25倍の濃さで出現することがわかる。よって、訳語候補「高速道路」は、訳語「振動」と相関が強いといえる。
以上のようにして、コンピュータ・システムは、日本語のコーパスから、訳語に共起する訳語候補を抽出することができる。該抽出された訳語候補の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。
コンピュータ・システムは、日本語のコーパスを利用して、訳語「足」、「加速する」及び「アイドル」夫々に共起する訳語候補を抽出する。
図4Bは、本発明の実施態様である、訳語「足」、「加速する」及び「アイドル」夫々に共起する訳語候補を示す。
抽出の結果、訳語「足」に共起する訳語候補として、「走行」、「アクセスペダル」、・・・(以下略)がリストとして抽出されている。
同様に、訳語「加速する」に共起する訳語候補として、「アクセスペダル」、「駐車場」、・・・(以下略)がリストとして抽出されている。
同様に、訳語「アイドル」に共起する訳語候補として、「不安定」、「使用」、・・・(以下略)がリストとして抽出されている。
図4Bでは、訳語「足」に共起する訳語候補「アクセルペダル」と訳語「加速する」に共起する訳語候補「アクセルペダル」が重複している。
(実施態様1)
コンピュータ・システムは、ステップ103で出力された、訳語それぞれについて抽出された相関の強い訳語候補のリストをマージする。
コンピュータ・システムは、該マージにおいて、訳語候補それぞれに重み付けをする。
(1)重み付けが、訳語候補それぞれについて、マージされたリスト中に重複して出現する回数を用いる。
例えば、訳語候補「車」がマージされたリスト中に54回重複して出現する場合、訳語候補「車」の重みは54である。
よって、訳語候補それぞれの重み付けは下記の通りである:車(54) ;ハンドル(54) ;左(42) ;前(40) ;ブレーキ(37);右(34) ;車両(33) ;タイヤ(33) ;状態(33) ;車体(29);アクセル(29) ;駐車場(29) ;ディーラー(27)。
(2)重み付けが、上記(1)で述べた回数に相対頻度を加えた数値を用いる。該相対頻度は、ステップ103(図1A及び図4Aを参照)における相対頻度であり、日本語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第1の割合と、日本語のコーパスにおける全文書中において上記訳語を含む文書の件数を分母とし、上記訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第2の割合との比である。
(3)重み付けが、上記(1)で述べた回数に相対頻度を正規化した値を加えた数値を用いる。該相対頻度は、ステップ103(図1A及び図4Aを参照)における相対頻度である。
翻訳対象である用語「accelerator pedal」を含む文書は例えば、共起用語「accelerate」のような語を含む傾向にある。この事象を言い換えると「accelerator pedal」は「accelerate」との相関が強いということであり、相関の強さ(" accelerator pedal "," accelerate ")>t1である。
共起用語" accelerate "について、1つの日本語訳(以下、("accelerate ")’と示す。これはすなわち「加速する」と等しい。)が知られているとする。翻訳対象である用語" accelerator pedal "についての未知の正確な訳が、(" accelerator pedal ")’によって示されるとする(これは「アクセルペダル」と等しい)。" accelerator pedal "と "accelerate "との相関の強さ(=相関の強さ(" accelerator pedal "," accelerate "))が、("accelerator pedal ")’と (" accelerate ")’の相関の強さ(=相関の強さ((" accelerate ")’, (" accelerator pedal ")’))(=相関の強さ(「加速する」,「アクセルペダル」))と同じ値になるとは限らない。しかしながら、同分野におけるその意味的なつながりの強さから、”「加速する」と「アクセルペダル」の相関の強さ(=相関の強さ(("accelerate ")’,("accelerator pedal ")’))が、閾値t2>1.0よりも大きいという予測は妥当であると考えられる。相関の強さ((" accelerate ")’ ,(" accelerator pedal ")’)=相関の強さ(("accelerator pedal ")’,("accelerate ")’)であるので、「加速する」が「アクセルペダル」のテールに含まれるのであれば、「アクセルペダル」が「加速する」のテールに含まれることになる。
従って「アクセルペダル」∈テール(「加速する」である。それ故に、抽出される訳語は、テール("加速する")’中にある訳語候補のセットに対して全ての用語を含む。
言い換えると、
を推定することができれば完全である。しかしながら、この推定は難しい故に、訳語候補のセットが多くのノイズを含むことは避けられない。
ここで、訳語のセットCを考える。共起用語wの訳語の候補がw’であり、該wが用語qのテール中にあるとする。w’と相関の高い共起語のリスト中における各用語が、用語qに対する訳語候補であると考えられる。
従って、訳語候補のセットCは、下記式から得られる。
この定義は、用語qの正確な訳語候補が、qと同じ分類に属すると仮定する。これは、例えばqが名詞(単名詞又は複合名詞)である場合に、ターゲット言語におけるqの意味が名詞によってまた表されると仮定する(図3Bを参照)。しかしながら、用語qによってはこの仮定が必ずしも成り立つとは限らず、この仮定を落とすことが必要な場合もありうる。その場合、class(q)の代わりに、全ての自立語を仮定する。
ソース用語qのテールをその訳語候補のそれぞれのテールと比較することを可能にする前に、ソース用語qの全てのテールが翻訳される必要がある。テール(q)における各用語についての訳語のセットを得るために、所定の一般辞書が使用される。しかしながら、次の計算をより正確にするために、テール中の用語についての訳語候補の各セットに渡って適切な確率分布を見つけることが試行される。そのような確率分布は、両者のコーパスの内容を考慮して、次のステップにおけるアルゴリズムをどの訳語候補が正確な翻訳でありそうかについての情報を提供するために使用される。
ソース言語及びターゲット言語における用語は、一般に幾つかの意味を有し、幾つかの異なる文脈において生じうる。例えば、英語における用語「turn」は、文脈「to turn right」において又は「to turn the volume higher」において生じうる。そして、該用語それぞれは、日本語において「曲がる」又は「回す」と訳されうる。しかしながら、例えばコーパスが自動車の顧客苦情についてのものであるために、用語「turn」の文脈が、前者、すなわち「曲がる」に近いことが予想される。結果として、用語「turn」の正確な訳語を見つけるために、辞書によって提案される「turn」の日本語訳のそれぞれについて重みを得るために、用語「turn」について反復的にアルゴリズムが実行されうる。そして、下記で述べる確率分布を得るために、この重みが最終的に使用される。しかしながら、後者についての良好な推定を得るために、日本語のコーパスにおける「曲がる」及び「回す」の出現頻度を計算し、そして正規化によって確率分布を計算しうる。このような適切な確率分布を得るためのアプローチが、下記に従い行われる。
(1)テール(q)における共起用語wと、wについての訳語の候補w‘との対訳関係の適切性を、用語qと訳語候補との重み付けと同様の計算によってもとめる。wについての訳語の候補のセットがD(w)である。そして、D(w)に渡って下記に述べる確率分布Pw Dを求めるために重み付けを利用する。
(2)w’∈D(w)における各用語について、ターゲットコーパスにおける頻度f(w’)が計算される。結果である頻度ベクターは、確率分布Pw Dを得るために正規化される:
一致度を定義するために、以下に定義される式の用語重み付け(wordScore)の概念が使用される。
コンピュータ・システムは、ステップ102で出力された訳語それぞれについて、日本語のコーパスを利用し、該日本語のコーパス全体から、訳語それぞれに共起する訳語候補を抽出する。
重み付けは例えば、ターゲット言語の訳語それぞれに共起する訳語候補をマージしておこなう。該マージにおいて、訳語候補それぞれに重み付けをする方法は、上記に述べた通りである。図4Cのリストは、一致度を使用して、用語「accelerator pedal」についての上位10個の訳語候補を示す。括弧内の左側は、テール中の共起用語のうち、一般的な翻訳辞書の翻訳対で直接的な対応関係にある語の数を示す。括弧内の右側は重みを示す。
該方法では、Scoremachingを計算し、一方訳語候補のセットCを組み立てる。w”によってテール(w’)中の用語を示すとする。第1に、毎回、用語w”が訳語候補のセットCに加えられ、同じ変数aw”内にPW Dが保存され、これは次のステップにおいて、w”についての一致度を蓄積する。これは、毎回幾つかの用語w∈テール(q)がw’内に翻訳され、及びw”がテール(w’)中に含まれ、w”についての下記式の一致度が更新される:
図4Bの場合を考えると、訳語「足」と共起する訳語候補「アクセルペダル」は、訳語「加速する」と共起する訳語候補「アクセルペダル」と重複している。よって、訳語候補「アクセルペダル」の第2のコーパスにおける出現する回数は少なくとも2である。さらに、訳語「足」の訳語候補「アクセルペダル」の相対頻度と、訳語「加速する」の「アクセスペダル」の相対頻度が、上記出現する回数に加わる。従って、重みは、出現する回数をそのまま重みにするか、又は回数分だけの相対頻度を足し合わせるかの選択となる。
図4Dでは、用語「accelerator pedal」のテール(共起用語である)「foot」が、「アクセスペダル」のテール(訳語候補共起語)「足」に対応する。同様に、用語「accelerator pedal」のテール「accelerate」が、「アクセスペダル」のテール「加速する」及び「上昇する」に対応する。同様に、用語「accelerator pedal」のテール「increase」が、「アクセスペダル」のテール「上がる」に対応する。同様に、用語「accelerator pedal」のテール「surge」が、「アクセスペダル」のテール「上がる」に対応する。これによって、対応関係にある語が合計4つもあることが分かり、結果として、l(c)=4となる。l(c)は、訳語候補のセットcのテール中の直接的に到着可能な(言い換えると、辞書中に翻訳対という形で意味的に対応関係が示されている)用語の数である。なお、l(c)の値は、重みの最適化においても用いられうる(下記式8を参照)。
図4Eの左側は、訳語候補「イグニッションコイル」のテール、すなわち訳語候補と所定の閾値以上の強さの相関を有する共起語を示す。
訳語候補「イグニッションコイル」のテールと、図2Aの翻訳対象である用語「steering wheel」のテールとを比較する。訳語候補「イグニッションコイル」のテールと翻訳対象である用語「steering wheel」のテールとは、直接比較できない。よって、既存の辞書を使用して、意味的に対応しているかを評価する。上記テール間の比較では、「shake」は「振動」と対応し、「vibration」は「振動」と対応している。
図4Eの右側は、訳語候補「ハンドル」のテールを示す。
訳語候補「ハンドル」のテールと、図2Aの翻訳対象である用語「steering wheel」のテールとを比較する。訳語候補「イグニッションコイル」のテールと翻訳対象である用語「steering wheel」のテールとは、直接比較できない。よって、既存の辞書を使用して、意味的に対応しているかを評価する。上記テール間の比較では、「shake」は「振れる」及び「振動する」と対応し、「vibration」は「振れる」及び「振動する」と対応し、「steering」は「ハンドル操作」と対応し、「steer」は「取る」と対応し、「turn」は「曲がる」及び「回す」と対応し、「lock」は「ロックする」と対応し、「left」は「左」と対応し、「right」は「右」と対応している。
上記比較の結果より、複数の訳語候補「イグニッションコイル」及び「ハンドル」のうち、訳語候補「ハンドル」の方が、訳語候補「イグニションコイル」よりも意味的に対応する数が多い。すなわち、訳語候補「ハンドル」の方が、訳語候補「イグニションコイル」よりも重みが大きい。よって、訳語候補として、重みが大きい訳語候補「ハンドル」が、訳語候補として尤もらしいことになる。
コンピュータ・システムは、ステップ104において訳語候補それぞれについての重みを最適化する。
コンピュータ・システムは、対象言語である日本語のコーパスを利用し、該日本語のコーパスにおける特徴を利用して、上記重み付けを補正する。
上記特徴は例えば、訳語の共起のしやすさの程度を考慮する。
(1)1つの例として、重みの最適化が、下記式に従い求められたランクに従い行われる。
ランク=重み付けの値/(1+訳語候補共起語の数×v)
ここで、訳語候補共起語の数は、上記第2言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数である。vは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。
訳語候補共起語は第2言語の約訳語候補のテールである。よって、訳語候補共起語の数は、第2言語のコーパスにおいて訳語候補と所定の閾値以上の強さの相関を有するテールの数でもある。
上記式は、訳語候補共起語の数と該訳語候補共起語の重み(例えば、第2言語の訳語の少なくとも1について抽出された1以上の訳語候補が重複して出現する回数)との間に正相関があることに基づく。
(2)他の例として、重みの最適化が、下記式に従い求められたランクに従い行われる:
ランク=重み付けの値×(1−α×TL/TLmax)
ここで、TLは、ランク付けの対象となる訳語候補と上記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数である。TLmaxは、全ての訳語候補のうちで、上記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、上記テールの影響がどの程度勘定されるかを決定するためのパラメータである。
上記式は、訳語候補共起語の数と該訳語候補共起語の重み(例えば、第2言語の訳語の少なくとも1について抽出された1以上の訳語候補が重複して出現する回数)との間に正相関があることに基づく。
以下に、重みの最適化の具体的を説明する。
訳語候補それぞれの重みは下記の通りである。
車(54) ;ハンドル(54) ;左(42) ;前(40) ;ブレーキ(37);右(34) ;車両(33) ;タイヤ(33) ;状態(33) ;車体(29);アクセル(29) ;駐車場(29) ;ディーラー(27)
ここで、「車」及び「ディーラー」のような語は、翻訳対象である用語に無関係に、高い順位になる傾向がある。この理由は下記の通りである:(1)これらの語が偶然に取り上げられるからである、(2)幾つかの語は、翻訳対象である用語により相関のある語よりも多くの他の語に相関するからである。
上記例においてvを0.3に設定すると、コンピュータ・システムは、訳語候補それぞれについての最適化された重みを得ることができる。なお、ランク付けは例えば最初の15個について求められ、そのうちの上位5件は、下記の通りである:ハンドル(3.31)、左側(2.97)、左(2.84)、アクセル(2.52)、タイヤ(2.48)、....。
コンピュータ・システムは、翻訳対象である用語「steering wheel」の翻訳対として、上位5件を示すリストを、表示装置上又は印刷機に出力する。
ユーザは該リスト結果から、翻訳対象である用語「steering wheel」の翻訳対が「ハンドル」であることを知る。
図5は、本発明の実施態様である、重みを最適化した後の上位10個の訳語候補を示す。
用語が高い一致度を有する場合、該一致度のあるパーセントは、それらの相関の強さ(すなわち、ソース用語qに対する意味上の類似)によるものでなく、それらのテールの大部分がソース言語から直接的に到着可能であるという事実に基づく(図4Dを参照)。テールが長いと、対応関係にある語の数が自ずと増えてしまい、重みが高くなってしまう。
辞書中に直接的な対応関係を示す翻訳対が存在する場合に到着可能であると表現する。例えば、辞書中に”foot”の翻訳が「足」であるという対応関係を示す翻訳対が存在するため、図4Dにおいて、”foot”は「足」に到着可能となっている。訳語候補cのテール中の多くの語が直接的に到着可能であれば、その訳語候補cは、より高い一致度を得るものと見なされる。例えば、日本語コーパスにおける「ディーラー」及び「その後」のような用語が、翻訳対が存在する多くの用語と高い相関関係にあることが観察された。これらの用語は汎用性が高く、翻訳候補となった場合に重みが高くなる傾向が強い。なぜならば、それらのテールの長い部分は、直接的に到着可能であるからである。これらの用語は、ノイズ性の高い翻訳候補として考慮される。なぜならば、それらのテール中の直接的に到着可能な用語のそれらの数は、他の用語のそれよりもはるかに高いからである。到着可能なテールの数が少ないほど、一致度に対するテールの影響はより少なくなる。結果として、到着可能な語を多く含む長いテールの場合に、一致度、すなわち重みを減らす必要がある。そのための一様態を下記式で示す。
図5は、上記式に基づき計算された後の各訳語候補について最適化された重みを示す。図5は、訳語候補(左側は、テール中の共起用語のうち、一般的な翻訳辞書の翻訳対で直接的な対応関係にある語の数、すなわちl(c)の値、右側の値は最適化された重み)を示す。
本発明の実施態様であるコンピュータ・システム(601)は、ソース言語のコーパス(603)及びターゲット言語のコーパス(604)を記録部(例えば、図6B、618)に格納している。代替的に、該コンピュータ・システム(601)は、ネットワークを介してソース言語のコーパス(603)及びターゲット言語のコーパス(604)をサーバ又はプロキシからダウンロードして記録部に格納し、或いはネットワークを介してサーバ又はプロキシ内に格納されているソース言語のコーパス及びターゲット言語のコーパスをアクセスしうる。
コンピュータ・システム(601)は、翻訳対象であるソース言語の用語(602)をユーザから受け取る。
コンピュータ・システム(601)は、第1の抽出部(605)、出力部(606)、第2の抽出部(607)、重付部(608)、生成部(609)並びに必要に応じて、評価部(610)及び登録部(611)を含む。
第1の抽出部(605)は、第1言語のコーパスから、翻訳対象である第1言語の用語に共起する1以上の共起用語を抽出する。第1の抽出部(605)はまた、第1言語のコーパスにおいて所定の閾値以上の第1の相関の強さを有する共起用語を抽出する。
出力部(606)は、抽出された共起用語の少なくとも1に対応する1以上の第2言語の訳語を出力する。出力部(606)はまた、第1言語−第2言語の対訳辞書を用いて第2言語の訳語を訳語リストとして出力し、該リストに含まれる訳語リストに対応する第1言語の共起用語それぞれに対応する第2言語の訳語を訳語リストにさらに追加する。出力部(606)はさらに、第2言語の同義語辞書、第2言語の類義語辞書及び第2言語のシソーラスから選択される少なくとも1以上を用いて上記訳語リストの同義語類義語を訳語リストにさらに追加する。
第2の抽出部(607)は、第1言語のコーパスに対応する第2言語のコーパスから、第2言語の訳語の少なくとも1に共起する1以上の訳語候補を抽出する。第2の抽出部(607)はまた、第2言語のコーパスにおいて所定の閾値以上の第2の相関の強さを有する訳語候補を抽出する
重付部(608)は、訳語候補それぞれに重み付けをする。また、重付部(608)は、上記抽出された1以上の訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをする。さらに、重付部(608)が、上記抽出された訳語候補に加えて、上記第2言語の訳語それぞれについて重み付けをする。
生成部(609)は、重みを最適化し、該最適化された重みに従い第1言語の用語についての翻訳対のリストを生成する。
評価部(610)は、重みの最適化のために、第2言語の訳語候補が共起用語に対する訳語として適切であるかを評価する。
登録部(611)は、出力された翻訳対を第1言語−第2言語の対訳辞書に登録する。
本発明の実施例に係るコンピュータ・システム(601)は、CPU(612)とメイン・メモリ(613)と含み、これらはバス(614)に接続されている。CPU(612)は好ましくは、32ビットまたは64ビットのアーキテクチャに基づくものであり、例えば、インテル社のXeon(商標)シリーズ、Core(商標)シリーズ、Pentium(商標)シリーズ、Celeron(商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズなどを使用することができる。バス(614)には、ディスプレイ・コントローラ(615)を介して、LCDモニタなどのディスプレイ(616)が接続される。ディスプレイ(616)は、そのコンピュータ(601)上で動作中のソフトウェアについての情報を、適当なグラフィック・インターフェースで表示するために使用される。バス(614)にはまた、IDE又はSATAコントローラ(617)を介して、ハードディスク又はシリコン・ディスク(618)と、CD−ROM、DVD又はBlu−rayドライブ(619)が接続されている。CD−ROM、DVD又はBDドライブ(619)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラムをハードディスク又はシリコン・ディスク(618)に導入するために使用される。バス(614)には更に、キーボード・マウスコントローラ(620)を介して、或いはUSBコントローラ(図示せず)を介して、キーボード(621)及びマウス(622)が接続されている。
太線で囲まれた部分が、相関値2以上のテールである。図7では、相関値として相対頻度が使用されている。
例として、文書集合が
A={「商品」カテゴリのキーワード「パソコン」に該当する文書}、
B={「名詞...要望」カテゴリのキーワード「マニュアル…入手する…たい」に該当する文書}、
とする。
上記式の左辺は、
(パソコンに関する文書に限ったときのマニュアル入手要望の割合)
/(全文書中のマニュアル入手の要望の割合)
に相当する。
例として、マニュアル入手に関する文書が全文書中の5%であり、一方パソコンに関する文書に限ると、マニュアル入手に関する文書がパソコンに関する文書中の20%であるとする。かかる場合、「パソコン」と「マニュアル…入手する…たい」との相関値は、4である(20%/5%=4)。よって、相関値の該値より、「パソコン」と「マニュアル…入手する…たい」との関連が強いといえる。
Claims (25)
- 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システムであって、
第1言語のコーパスから、前記第1言語の用語に共起する共起用語を抽出する第1の抽出部と、
前記抽出された共起用語の少なくとも1に対応する第2言語の訳語を出力する出力部と、
前記第1言語のコーパスに対応する第2言語のコーパスから、前記出力された第2言語の訳語の少なくとも1に共起する訳語候補を抽出する第2の抽出部と、
前記抽出された訳語候補それぞれに重み付けをする重付部と、
前記重みを最適化し、該最適化された重みに従い前記第1言語の用語についての翻訳対のリストを生成する生成部と
を含む、前記コンピュータ・システム。 - 前記重付部が、前記抽出された訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをする、請求項1に記載のコンピュータ・システム。
- 前記重み付けが、前記マージされたリストにおいて訳語候補が重複して出現する回数を用いる、請求項2に記載のコンピュータ・システム。
- 前記重み付けが、前記回数に相対頻度又は該相対頻度を正規化した値を加えた数値であり、該相対頻度が、前記第2言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記訳語候補を含む文書の件数を分子としたときの第1の割合と、前記第2言語のコーパスにおける全文書中において前記第2言語の訳語を含む文書の件数を分母とし、該第2言語の訳語を含む文書中において前記訳語候補を含む文書の件数を分子としたときの第2の割合との比を用いる、請求項3に記載のコンピュータ・システム。
- 前記重み付けが、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語と、前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する、前記訳語候補に共起する複数の共起語(以下、訳語候補共起語)との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を用いる、請求項1に記載のコンピュータ・システム。
- 前記重みの最適化が、前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる、請求項1に記載のコンピュータ・システム。
- 前記重みの最適化が、下記式に従い求められたランクに従い行われる:
ランク=重み付けの値/(1+訳語候補共起語の数×v)
ここで、訳語候補共起語の数は、前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、vは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである、
請求項6に記載のコンピュータ・システム。 - 前記重みの最適化が、下記式に従い求められたランクに従い行われる:
ランク=重み付けの値×(1−α×TL/TLmax)
ここで、TLは、ランク付けの対象となる訳語候補と前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数であり、TLmaxは、全ての訳語候補のうちで、前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第1言語のコーパスにおいて第1言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第1言語−第2言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、前記テールの影響がどの程度勘定されるかを決定するためのパラメータである、
請求項6に記載のコンピュータ・システム。 - 前記第2言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第2言語のコーパスにおいて第2言語の訳語が出現する頻度を用いる、又は該頻度を前記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する、請求項1に記載のコンピュータ・システム。
- 前記第2言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第2言語のコーパスにおいて第2言語の訳語が出現する文書数を用いる、又は該文書数を前記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する、請求項1に記載のコンピュータ・システム。
- 前記第2言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第1言語のコーパスにおいて前記第1言語の前記共起用語と所定の閾値以上の強さの相関を有する、前記共起用語に共起する複数の共起語と、前記共起用語に対応する前記訳語が前記第2言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補との間で、第1言語−第2言語の対訳辞書において対訳関係にある数を利用する、請求項1に記載のコンピュータ・システム。
- 前記第1の抽出部が、前記第1言語の用語と前記第1言語のコーパスにおいて所定の閾値以上の第1の相関の強さを有する共起用語を抽出する、請求項1に記載のコンピュータ・システム。
- 前記第1の相関の強さが、前記第1言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記共起用語を含む文書の件数を分子としたときの第1の割合と、前記第1言語のコーパスにおける全文書中において前記第1言語の用語を含む文書の件数を分母とし、該第1言語の用語を含む文書中において前記共起用語を含む文書の件数を分子としたときの第2の割合との比である、請求項12に記載のコンピュータ・システム。
- 前記第1の相関の強さが、前記第1言語のコーパスにおいて前記共起用語を含む文書の件数を分母とし、前記第1言語のコーパスにおいて前記第1言語の用語を含む全ての文書中において前記共起用語が出現する回数又は前記第1言語の用語と前記共起用語の両方を含む文書の件数を分子とする分数の値である、請求項12に記載のコンピュータ・システム。
- 前記第1の相関の強さが、前記第1言語のコーパスにおける前記共起用語の出現確率と、前記第1言語のコーパスにおける前記第1言語の用語の出現確率の積を分母とし、前記第1言語のコーパスにおける前記共起用語と前記第1言語の用語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に前記同時出現確率を掛けた値で表現される、請求項12に記載のコンピュータ・システム。
- 前記出力部が、第1言語−第2言語の対訳辞書を用いて前記第2言語の訳語を訳語リストとして出力し、該リストに、前記第1言語の共起用語の少なくとも1に対応する第2言語の訳語を訳語リストにさらに追加する、請求項1に記載のコンピュータ・システム。
- 前記出力部がさらに、第2言語の同義語辞書、第2言語の類義語辞書及び第2言語のシソーラスから選択される少なくとも1以上を用いて前記訳語リストの同義語類義語を訳語リストにさらに追加する、請求項16に記載のコンピュータ・システム。
- 前記第2の抽出部が、前記第2言語のコーパスにおいて前記第2言語の訳語と所定の閾値以上の第2の相関の強さを有する訳語候補を抽出する、請求項1に記載のコンピュータ・システム。
- 前記第2の相関の強さが、前記第2言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記訳語候補を含む文書の件数を分子としたときの第1の割合と、前記第2言語のコーパスにおける全文書中において前記第2言語の訳語を含む文書の件数を分母とし、該第2言語の訳語を含む文書中において前記訳語候補を含む文書の件数を分子としたときの第2の割合との比である、請求項18に記載のコンピュータ・システム。
- 前記第2の相関の強さが、前記第2言語のコーパスにおいて前記訳語候補を含む文書の件数を分母とし、前記第2言語のコーパスにおいて前記第2言語の訳語を含む全ての文書中において前記訳語候補が出現する回数又は前記第2言語の訳語と前記訳語候補の両方を含む文書の件数を分子とする分数の値である、請求項18に記載のコンピュータ・システム。
- 前記第2の相関の強さが、前記第2言語のコーパスにおける前記訳語候補の出現確率と、前記第2言語のコーパスにおける前記第2言語の訳語の出現確率の積を分母とし、前記第2言語のコーパスにおける前記訳語候補と前記第2言語の訳語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に前記同時出現確率を掛けた値で表現される、請求項18に記載のコンピュータ・システム。
- 翻訳対象である第1言語の用語の翻訳対となる第2言語の用語を出力するための方法であって、
第1言語のコーパスから、前記第1言語の用語に共起する共起用語を抽出するステップと、
前記抽出された共起用語の少なくとも1に対応する第2言語の訳語を出力するステップと、
前記第1言語のコーパスに対応する第2言語のコーパスから、前記出力された第2言語の訳語の少なくとも1に共起する訳語候補を抽出するステップと、
前記抽出された訳語候補それぞれに重み付けをするステップと、
前記重みを最適化し、該最適化された重みに従い前記第1言語の用語についての翻訳対のリストを生成するステップと
を含む、前記方法。 - 前記重み最適化することが、前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われ、該訳語候補共起語が訳語候補に共起する共起語である、請求項22に記載の方法。
- 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するための方法であって、コンピュータ・システムに、下記ステップを実行させることを含み、該方法は、
第1言語のコーパス全体から、前記第1言語の用語に共起する共起用語であって、該第1言語のコーパスにおいて所定の閾値以上の相関の強さを有する該共起用語を抽出するステップと、
前記抽出された共起用語の少なくとも1に対応する第2言語の訳語を出力するステップと、
前記第1言語のコーパスに対応する第2言語のコーパス全体から、前記出力された第2言語の訳語の少なくとも1に共起する訳語候補であって、該第2言語のコーパスにおいて所定の閾値以上の相関の強さを有する該訳語候補を抽出するステップと、
前記抽出された訳語候補についてのリストをマージし、該訳語候補それぞれに重み付けをするステップと、
前記第2言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように前記重みを最適化し、該最適化された重みに従い前記第1言語の用語についての翻訳対のリストを生成するステップであって、該訳語候補共起語が訳語候補に共起する共起語である、前記生成するステップと
を含む、前記方法。 - 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・プログラムであって、コンピュータ・システムに、請求項23又は24のいずれかに記載の方法の各ステップを実行させることを含む、前記コンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218444A JP5284724B2 (ja) | 2008-08-27 | 2008-08-27 | 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218444A JP5284724B2 (ja) | 2008-08-27 | 2008-08-27 | 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055298A true JP2010055298A (ja) | 2010-03-11 |
JP5284724B2 JP5284724B2 (ja) | 2013-09-11 |
Family
ID=42071156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008218444A Expired - Fee Related JP5284724B2 (ja) | 2008-08-27 | 2008-08-27 | 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5284724B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011257979A (ja) * | 2010-06-09 | 2011-12-22 | Olympus Imaging Corp | 画像検索装置、画像検索方法、およびカメラ |
US8676564B2 (en) | 2011-03-08 | 2014-03-18 | International Business Machines Corporation | Method, program and system for finding correspondence between terms |
JP2015143907A (ja) * | 2014-01-31 | 2015-08-06 | Kddi株式会社 | 異なる言語体系に対して適切な検索キーワードを出力するプログラム、装置及び方法 |
US9436891B2 (en) | 2013-07-30 | 2016-09-06 | GlobalFoundries, Inc. | Discriminating synonymous expressions using images |
JP2017068848A (ja) * | 2015-09-30 | 2017-04-06 | 株式会社日立製作所 | 自動分析方法 |
JP2019008772A (ja) * | 2017-06-28 | 2019-01-17 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 文字を入力する方法及び装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09128396A (ja) * | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
JP2002351872A (ja) * | 2001-05-22 | 2002-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体 |
JP2006178536A (ja) * | 2004-12-20 | 2006-07-06 | Oki Electric Ind Co Ltd | 対訳表現抽出装置 |
-
2008
- 2008-08-27 JP JP2008218444A patent/JP5284724B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09128396A (ja) * | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
JP2002351872A (ja) * | 2001-05-22 | 2002-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体 |
JP2006178536A (ja) * | 2004-12-20 | 2006-07-06 | Oki Electric Ind Co Ltd | 対訳表現抽出装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011257979A (ja) * | 2010-06-09 | 2011-12-22 | Olympus Imaging Corp | 画像検索装置、画像検索方法、およびカメラ |
US8676564B2 (en) | 2011-03-08 | 2014-03-18 | International Business Machines Corporation | Method, program and system for finding correspondence between terms |
US8682641B2 (en) | 2011-03-08 | 2014-03-25 | International Business Machines Corporation | Method, program and system for finding correspondence between terms |
US9436891B2 (en) | 2013-07-30 | 2016-09-06 | GlobalFoundries, Inc. | Discriminating synonymous expressions using images |
JP2015143907A (ja) * | 2014-01-31 | 2015-08-06 | Kddi株式会社 | 異なる言語体系に対して適切な検索キーワードを出力するプログラム、装置及び方法 |
JP2017068848A (ja) * | 2015-09-30 | 2017-04-06 | 株式会社日立製作所 | 自動分析方法 |
JP2019008772A (ja) * | 2017-06-28 | 2019-01-17 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 文字を入力する方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5284724B2 (ja) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Learning to reweight terms with distributed representations | |
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
JP5379696B2 (ja) | 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア | |
US7562082B2 (en) | Method and system for detecting user intentions in retrieval of hint sentences | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
US7171351B2 (en) | Method and system for retrieving hint sentences using expanded queries | |
US8700599B2 (en) | Context dependent keyword suggestion for advertising | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
US20050273318A1 (en) | Method and system for retrieving confirming sentences | |
US20120095984A1 (en) | Universal Search Engine Interface and Application | |
JP5284724B2 (ja) | 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
JP2006293830A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
KR20180125746A (ko) | 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법 | |
JP2012506596A (ja) | コンパラブルコーパスを使用する固有表現の翻字 | |
CN102662936A (zh) | 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法 | |
Vechtomova | Facet-based opinion retrieval from blogs | |
Danilova | Cross-language plagiarism detection methods | |
US11216520B2 (en) | Knowledge correlation search engine | |
Juan | An effective similarity measurement for FAQ question answering system | |
KR101233423B1 (ko) | 문헌에서 용어에 대한 서술적 개념 표현을 추출하기 위한 장치 및 그 방법 | |
JP4401269B2 (ja) | 対訳判断装置及びプログラム | |
KR101614551B1 (ko) | 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 | |
CN110929501B (zh) | 文本分析方法和装置 | |
JP4864095B2 (ja) | 知識相関サーチエンジン | |
Taslimipoor et al. | Using Noun Similarity to Adapt an Acceptability Measure for Persian Light Verb Constructions. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110805 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130222 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130307 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130307 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130509 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130509 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130530 |
|
LAPS | Cancellation because of no payment of annual fees |