JP2017521763A

JP2017521763A - インスタンス分類方法

Info

Publication number: JP2017521763A
Application number: JP2016571775A
Authority: JP
Inventors: シルバダニエルゲオルグアンドラーデ; 弘紀水口; 石川　開; 開石川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-06-20
Filing date: 2014-06-20
Publication date: 2017-08-03
Anticipated expiration: 2034-06-20
Also published as: JP6292322B2; WO2015194052A1; US20170116332A1; US10324971B2

Abstract

【課題】テキスト文書の分類において高頻度語の影響を低減する。【解決手段】クラスに関する単語分布を推定し、既知及び未知のクラスを有する全てのインスタンスの集合の観測確率を最大化するように背景分布と補間度とを推定し、新規インスタンスの各単語に関して単語分布から生成される確率及び背景分布から生成される確率を計算し、補間度を用いて確率を組み合わせ、全単語の確率を組み合わせて文書であることを示唆するクラスに関する文書確率を推定し、新規インスタンスを文書確率が最も高いクラスに分類する。【選択図】図３

Description

本発明は、単純ベイズ分類器を用いて新規データインスタンス（例えば、テキスト文書）のクラスを決定する分類方法に関する。

単純ベイズ分類器は、分類に関し、特にテキスト分類において依然として普及している方法であり、サポートベクターマシン（ＳＶＭ）分類器と同様に動作する場合が多い（非特許文献１を参照のこと）。単純ベイズ分類器のひとつの利点は、それが、より複雑な関係であるモデルに容易に拡張可能である生成モデルの解釈を有することである（例えば、非特許文献３を参照）。

単純ベイズ分類器を学習するためには、各クラスｚについて、クラスｚに属する文書で発生する単語の分布を決定する。クラスｚに関する単語分布をθ_ｚと示し、クラスｚにおけるある特定の単語ｗの確率（probability）をθ_ｗ｜ｚと示す。この分布は、多項分布（Multinomial distribution）を用いてモデル化されることが多い。新規テキストを分類するために、新規テキストに与えられるクラスｚの確率は、新規文書の各単語ｗに関する確率θ_ｗ｜ｚを乗算することによって算出される。

単純ベイズ分類器では、訓練データインスタンス（既知のクラスを有するインスタンス）のみを用いて確率θ_ｗ｜ｚを推定することに留意されたい。しかしながら、多くの文書においてよく発生する“Ｉ”又は“ｔｈｅ”のような単語は、クラスとは関係なく、ノイズを誘引する場合が多い。そのため、推定値θ_ｗ｜ｚが信頼性できなくなる。ひとつのアプローチは、ストップワードのリストを用いて、そのような単語を除外することである。しかしながら、そうしたストップワードのリストは、静的であり、文書の分野（domain）に依存する。別のアプローチは、例えば、非特許文献１における単語の逆文献頻度によって単語を重み付けすることである。しかしながら、これらの重みを割り当てる際に、生成モデルとしての単純ベイズ分類器の解釈が失われる。その結果として、単純ベイズ分類器のパラメータとの交互作用と重みとを、連携して学習できない。従って、重みを、固定とするか、又は、訓練データの一部を用いて（例えば、クロスバリデーションを用いて）調整しなければならない。

別の研究ラインは、未知のクラスのインスタンス（例えば、テキスト文書）を付加的に用いることによって、分類精度の向上を試みるものである。訓練データインスタンス（既知のクラスを有するインスタンス）と比べて、そうした付加的なインスタンスは、大量に利用可能な場合が多い。例えば、人手でクラスを付した少数の新聞記事（例えば、“Ａｎｉｍａｌｓ”についての記事か“Ｃｏｍｐｕｔｅｒ”についての記事か）と比べて、そのようなクラス情報が利用可能でない（ラベルなしインスタンス）新聞記事は膨大にある。分類器を学習するためのそうしたアプローチは、多くの場合「半教師あり（semi-supervised）」と呼ばれる。非特許文献２の方法には、ラベルなしインスタンスを用いることによって確率θ_ｗ｜ｚの推定を改善することが可能である、そのような半教師ありアプローチが記載される。ＥＭアルゴリズム（Expectation Maximization algorithm）を用いてラベルなしインスタンスにクラス確率を割り当てることによって、ラベルなしコーパスで発生するが訓練データでは発生しないような単語ｗのθ_ｗ｜ｚを推定することができる。しかしながら、そのようなアプローチは、高頻度語についての課題の解決法を提供しない。

Tackling the poor assumptions of naive Bayes text classifiers, ICML, 2003. Text classification from labeled and unlabeled documents using EM, Machine learning, 2000. Comparing Bayesian network classifiers, UAI, 1999

単純ベイズモデルは、文書のクラスの決定において、多くの場合に無関連である“Ｉ”又は“ｔｈｅ”のような高頻度語の重みを下げることができない。しかしながら、訓練データインスタンスが小標本のため、これらの無関連単語が、あるクラスにおいて、偶然に、その他よりも頻発するおそれがある。その結果として、高頻度語に関して、確率θ_ｗ｜ｚが全てのクラスｚ全体に均一に広がらず、そのため、いくつかの文書が、高頻度語の存在が原因で不正確に分類される。

上記課題を解決するために、単純ベイズ分類器の拡張生成モデルを提案する。拡張モデルは、コーパス全体における単語の頻度分布に設定される背景分布γを導入する。コーパス全体は、訓練データを含み、付加的にクラス情報を利用可能でない他のインスタンスの全てを含むことが可能である。提案するモデルは、文書内の任意の単語を、そのクラスｚによって規定される分布θ_ｚから、又は、背景分布γからサンプリングすることを許可する。その結果、提案するモデルは、特に高頻度語が、任意の分布θ_ｚではなく、背景分布γによって説明されることを許可する。単語が分布θ_ｚ又は分布γのどちらからサンプリングされるかを判断するため、文書内の各単語に、二値指標変数（binary indicator variable）ｄを導入する。パラメータｄに関する事前確率は、単語がγからサンプリングされる確からしさの程度を制御し、このようにして分類結果における高頻度語の影響を制御する。生成モデルとしての定式化により、全インスタンス（ラベルあり、及び、ラベルなし）を有効に用いた事前確率を学習することが可能となるため、この事前確率を人手で調整する必要がなくなる。

本発明は、単純ベイズ分類器の分類結果における高頻度語の影響を低減する効果を有する。高頻度語は、多くの場合、中度又は低頻度語よりも有益でない傾向がある。提案する方法では、任意の個別のクラスの単語分布ではなく、背景分布（コーパス全体の単語頻度分布）により高頻度語を説明することにより、このことを考慮に入れる。提案する方法では、単純ベイズ分類器の生成モデルを拡張して、ラベルなしデータから付加的なパラメータを学習することが可能である（すなわち、クロスバリデーション又は付加的な訓練データを必要としない）。

図１は、単純ベイズモデルのブロック図である。図２は、プレートノーテーションにおける単純ベイズモデルを示す。図３は、本発明の実施形態を示すブロック図である。図４は、プレートノーテーションにおける実施形態（単純ベイズモデルの拡張）を示す。

テキスト分類に関する単純ベイズ分類器の拡張を用いて提案するアイデアを説明する。文書のクラスｚが与えられると、文書内の各単語は、分布θ_ｚから、独立的に、生成されるものとする。この分布としては、カテゴリ分布（categorical distribution）（＝１単語の発生に対する多項分布）が選択されることが多い。プレートノーテーションを用いて、図２にモデルを表している。図１にブロック図を示している。文書を（ｗ_１，．．．，ｗ_ｋ）として示すものとし、ｗ_ｊは文書においてｊ番目の位置にある単語である。このモデルにおいて、クラスｚを有する文書の同時確率は、以下である。

ここで、θ_ｚは、カテゴリ分布のパラメータベクトルで、Σ_ｗθ_ｗ｜ｚ＝１であり、ｐ（ｚ）はクラスｚの事前確率である。従って、以下を得る。

全クラスｚに関して、θでパラメータベクトルθ_ｚを示す。図１に示すハードディスクドライブ及び半導体メモリ１などである不揮発性コンピュータ記憶媒体に記憶される既知のクラスを有するテキストの集合Ｄ＝{（ｔ_１，ｚ_１），．．．，（ｔ_ｎ，ｚ_ｎ）}が与えられると、パラメータθ_ｚを以下を用いて推定することが可能である。

上記は通常のｉｉｄ仮定を用いており、ｚ_ｉはθから独立している。さらに、等式（１）を用いると、図１のブロック１０において、以下を得る。

簡略化のため、ｐ（θ）が一定であると仮定すると、上記数式は以下によって最大化され、

ここで、ｆｒｅｑ_ｚ（ｗ）は、クラスｚを有する文書の集合において単語ｗが発生する回数である。事前確率ｐ（ｚ）は、同様の方法で推定することが可能であり、クラスごとの訓練文書量が全クラスで同じであれば一定である。

図１のブロック２０’における新規文書の分類に関して、単純ベイズ分類器は、以下を用いる。

具体的な例を検討する。それぞれ５つのインスタンスを伴う２つのクラスを有すると仮定する。例えば、動物について（要するに、ｚ＝Ａ）の５文書及びコンピュータについて（要するに、ｚ＝Ｃ）についての５文書である。簡略化のため、各文書は２つの単語を有すると仮定する。クラス“Ａｎｉｍａｌ”及びクラス“Ｃｏｍｐｕｔｅｒ”に属する文書において、それぞれ、単語“Ｉ”が３回及び２回発生すると仮定する。従って、クラス“Ａｎｉｍａｌ”に属する文書において単語”Ｉ”が発生する確率は３／１０であり、クラス“Ｃｏｍｐｕｔｅｒ”に属する文書の確率は２／１０である。類似して、単語“ｍｏｕｓｅ”が、クラス“Ａｎｉｍａｌ”及びクラス“Ｃｏｍｐｕｔｅｒ”に属する文書の文書において、それぞれ、２回及び３回発生すると仮定する。要約すると、次の最大尤度（ＭＬ）を推定する：

ここで、２つの単語“Ｉ”及び“ｍｏｕｓｅ”を含有する新規文書を検討する。新規文書に関するクラスは、以下の比を検討することによって判断される。

この比が１より大きければ、その文書は“Ａｎｉｍａｌ”として分類され、１より小さければ“Ｃｏｍｐｕｔｅｒ”として分類される。単純ベイズ分類器を用いて、これを以下のとおり記載することができる。

従って、単純ベイズ分類器は２クラス間を区別することができないことがわかる。しかしながら、概して、膨大な文書の集合を調査することで、単語”Ｉ”があまり有益でない高頻度語であり、そうした単語が文書の分類にほぼ役立たないということが分かる。対照的に、単語“ｍｏｕｓｅ”はより限定的な単語であり、概して２クラス間を区別することに役立つことが可能である。その結果、単語“ｍｏｕｓｅ”は、クラスの判断に関して（わずかに）より多くの重みを有するべきであるため、単語“Ｉ”及び“ｍｏｕｓｅ”を伴う文書は、“Ａｎｉｍａｌ”ではなく“Ｃｏｍｐｕｔｅｒ”として分類されるべきである。

ここで、図３及び図４に表される単純ベイズモデルの拡張について説明する。

図３は、テキスト文書のような新規データインスタンスを分類するために、通常、コンピュータシステムによって実行されるシステムを示す。図３において、単語分布学習ブロック１０は、従来のシステムと同様にハードディスクドライブ及び半導体メモリのような不揮発性コンピュータ記憶媒体１に記憶されている訓練データ（割り当てられたクラスを有する文書の集合）を用いて各クラスに関する単語分布を学習する。さらに、本実施形態においては、背景分布及び補間パラメータ学習ブロック１５は、ハードディスクドライブ及び半導体メモリのようなコンピュータ記憶媒体２に記憶されるコーパス（文書の集合）を用いて背景分布及び補間パラメータを学習する。分類ブロック２０は、新規インスタンスとして新規文書が提供され、ブロック１０及び１５それぞれから提供される背景分布で補間されている、各クラスに関する単語分布を用いて、文書を分類する。そして、分類ブロック２０は、分類結果として、入力文書の最も確からしいクラスを出力する。

より詳細には、提案するモデルにおいて、単語ｗ_１，．．．，ｗ_ｋ、隠れ変数ｄ_１，．．．，ｄ_ｋ及びびクラスｚを有するテキスト文書の同時確率は、

であり、単語確率ｐ（ｗ｜ｚ，ｄ）は、以下のとおりに規定される。

変数ｄ_ｊは、単語ｗ_ｊがクラスの単語分布θ_ｚ、又は背景分布γのどちらから得られるかを示す二値確率変数（binary random variable）である。変数ｄ_ｊは、訓練文書から観測することができない隠れ変数である。訓練文書（ｗ_１，．．．，ｗ_ｋ，ｚ）の確率を取得するために、全てのｄ_１，．．．，ｄ_ｋを統合して、以下を導く。

事前確率ｐ（ｄ_ｊ）が、文書のクラスから独立し、かつ、単語位置ｊから独立していると仮定する。従って、全単語に関して、一定であるδ：＝ｐ（ｄ_ｊ＝１）と規定する。このようにして、クラスｚを有する文書の同時確率を以下のとおり表現することが可能となる。

クラスｚに関して、単語分布θ_ｗ｜ｚは、等式（１）を用いて既に述べたように推定可能である。図３のブロック１５での背景分布γ及び事前確率δの推定のために、追加的に、図３の不揮発性なコンピュータ記憶媒体２に記憶されているクラスが未知のテキスト文書の集合を用いる。そのようなテキスト文書は、多くの場合、大量に利用可能である。例えば、スパム（spam）検出に関して、ラベル“ｓｐａｍ”又は“ｈａｍ”を人手で付した文書なら数百の文書を有しているが、ラベルなしのメールなら数千のメールを有している。ここで、Ｄ^＊＝{ｔ_１，．．．，ｔ_ｎ＊}を全文書の集合とする。（それはまた、クラスのラベルが利用可能である文書も含む。あるいは、Ｄ^＊は、クラス情報が利用可能でない文書のみの集合である。）Ｄ^＊における単語分布を用いて、γ_ｗを推定する。すなわち、以下である。

ここで、ｆｒｅｑ_Ｄ＊（ｗ）は、Ｄ^＊における単語ｗの頻度である。（例えば、Ｄ^＊が２つ文書を含み、第１の文書において単語ｗが３回発生し、第２の文書においては２回発生するなら、ｆｒｅｑ_Ｄ＊（ｗ）は５に等しい。）

後で示すように、パラメータｄｅｌｔａもまた、Ｄ^＊を用いて学習されることが可能である、又は、人手を介して］０，１］間の値に設定されることが可能である。なお、ｄｅｌｔａが１であれば、モデルは、元の単純ベイズ分類器に縮小する。

最後に、図３のブロック２０において新規文書ｗ_１，．．．，ｗ_ｋを分類するために、以下を用いる。

提案する方法が高頻度語の影響を低減することが可能であることを確認するために、上記と同様の例を検討する。図３の不揮発性コンピュータ記憶媒体２内に、クラス情報のない９０の文書（ラベルなしコーパス）を付加的に有すると仮定する。ラベルなしコーパスにおいて、単語“Ｉ”が２０回発生し、単語“ｍｏｕｓｅ”が１０回発生すると仮定する。これら９０文書（ラベルなしコーパス）は、クラスが既知である１０文書（ラベルありコーパス）とともに、完全コーパス（complete corpus）を形成する。単語ｗに関して、確率ｇａｍｍａ_ｗは以下のとおり推定される。

ゆえに、以下を取得する。

及び

単語“Ｉ”及び“ｍｏｕｓｅ”に関するクラス確率θ_ｗ｜ｚは、元の単純ベイズモデルの確率ｐ（ｗ｜ｚ）に設定される。すなわち、

さらに、簡略化のために、全てのｊに関してδを０．５に設定すること、これはｐ（ｄ_ｊ＝１）＝ｐ（ｄ_ｊ＝０）＝０．５を意味する、を仮定する。ここで、２つの単語“Ｉ”及び“ｍｏｕｓｅ”を含む文書を検討するものとすると、クラスは次の比に基づいて決定される。

従って、文書は、（元となる）単純ベイズ分類器の利用した前のときとは対照的に、“Ｃｏｍｐｕｔｅｒ”記事として分類される。ここで、単語“ｍｏｕｓｅ”の重みが、高頻度語である単語“Ｉ”の重みを抑制することを可能としている。一般的に、高頻度語は、クラスの決定に関連する重みをより下げられ、それらの（ネガティブな）影響が、減らされる。

上記の例が、より一般性を有することを説明する。２つの単語ａ及びｂを有し、かつ、θ_ａ｜ｚ１＝θ_ｂ｜ｚ２、かつ、θ_ａ｜ｚ２＝θ_ｂ｜ｚ１である文書を考える。一般化を損なうことなく、θ_ａ｜ｚ１＞θ_ａ｜ｚ２と仮定する。すなわち、このことは、単語ａがクラスｚ_１を示唆することは、単語ｂがクラスｚ_２を示唆するのと正に同様の強さであることを意味する。さらに、δは］０，１［にあるとする。クラスｚ_１及びｚ_２の双方の事前確率が同じであると仮定すると、以下の比を調査することによって、文書ａ、ｂがクラスｚ_１又はｚ_２として分類されるかを確認できる。

比が１より大きければ、文書はクラスｚ_１として分類され、比が１より小さければ、文書はクラスｚ_２として分類される。γ_ａ＞γ_ｂであり、かつそのときに限って、この比が１より小さいということを示すことができる。従って、単語ｂがａより低い頻度であれば、単語ｂの重みは単語ａの重みよりも高くなる。

その結果として、提案する方法では、高頻度語を緩和するという意味で、ｉｄｆ重み付けと同様の効果を有することが可能である。なお、単純ベイズ分類器は、判別境界そのものの上にいる場合には、文書の分類ができない。

上記説明の証明：
記号を単純化するために、

とし、θ_ａ｜ｚ１＝θ_ｂ｜ｚ２、及びθ_ａ｜ｚ２＝θ_ｂ｜ｚ１、及びθ_ａ｜ｚ１＞θ_ａ｜ｚ２であるため、以下を得る。

パラメータδが、高頻度語の影響を低減する程度を制御するということを確認することは難しくない。ここで、パラメータがコーパスＤ^＊から学習可能であることを示す。いかなるθ_ｚでも説明することができないＤ^＊における高頻度語が多数あるならば、パラメータδが０に近づくようにδを設定することを提案する。固定したパラメータθ_ｚ及びγにおいて提案しているモデルの下で、ｐ（Ｄ^＊）を最大化するパラメータδ^＊を選択することにより、これを達成することができる。このことは、以下を意味する。

この課題に対する適切な解決法を見出すために、観測されない全クラスラベルｚｉ及び全指標変数ｄ_ｊを考慮する、例えば、ＥＭアルゴリズムを用いることが可能である。

なお、δと同様に、単語頻度分布（等式（２）のように）を設定する代わりに、γを推定することも可能である。その際、クラスｚによって良好に説明可能である、すなわちθ_ｗ｜ｚが高い高頻度語ｗに関して、確率γ_ｗは減少する。このことは、そうした高頻度語ｗが、クラスｚに有利となる高い重みを有したままであるという利点を有する。

簡略化のため、この例において、確率θ_ｗ｜ｚ及び確率γ_ｗにカテゴリ分布（又は、単語頻度に関する組合せ因子（combinatorial factor）なしの多項分布）を設定する。しかしながら、実際にテキストをモデル化するには、混合分布モデルの代わりに、特に非特許文献２などにおける混合多項分布を用いることが有利である。その成分数は、クロスバリデーションを用いて決定可能である。各成分に関する単語確率は、例えば、ＥＭアルゴリズムを用いて、ラベルあり及びラベルなしデータから学習可能である。成分数に対して事前にディリクレ過程を用いて、無限混合モデルを仮定することもまた可能である。その場合、確率θ_ｗ｜ｚ及び確率γ_ｗは、マルコフ連鎖モンテカルロ（ＭＣＭＣ）法を用いて推定可能である。

等式（３）の代わりとして、期待文書分類精度を最適化するように、補間パラメータδを設定することが可能である。これは、クラス情報を有する訓練データインスタンス（すなわち、ラベルありデータ）上のクロスバリデーションを用いて達成可能である。

例えば、上記の実施形態のテキスト文書のような新規データインスタンスの分類方法は、専用ハードウェアによって実現されてもよいし、又は、メモリ及びＤＳＰ（デジタル信号プロセッサ）若しくは他の演算及び処理装置の手段を用いて構成されてもよい。一方、機能は、テキスト文書のような新規データインスタンスの分類に関する方法のステップを実現するために用いられるプログラムの実行によって実現されてもよい。

さらに、テキスト文書のような新規データインスタンスの分類に関する方法のステップを実現するプログラムは、コンピュータ読み取り可能な記憶媒体に記録されてよい。この記憶媒体に記録されるプログラムは、テキスト文書のような新規データインスタンスの分類や処理に関する方法を処理するコンピュータシステムによって読み込まれ、実行される。ここで、「コンピュータシステム」は、ＯＳ、周辺機器、又は他のハードウェアを含んでもよい。

さらに、「コンピュータ読み取り可能な記憶媒体」は、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ又は他の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ又は他のリムーバブルメディア、又はハードディスク又はコンピュータシステム内に組み込まれる他の記憶システムを意味する。

さらに、「コンピュータ読み取り可能な記憶媒体」は、プログラムがインターネット、他のネットワーク、電話回路、又は他の通信回路を経由して伝送される場合、サーバ又はクライアントとしての役割を果たすコンピュータシステム内の揮発性メモリ（例えば、ＤＲＡＭ（動的ランダムアクセスメモリ））のような固定時間の間プログラムを保持する部材も含む。

便宜上、本明細書及び以下の特許請求の範囲において、特徴を用語「単語（word）」を用いて説明している。しかしながら、本明細書及び特許請求の範囲の方法は、語彙ではない他の特徴にも適用可能であることに留意されたい。

本発明は、情報価値のない（ストップワードのような）高頻度語を除去する事前特徴選択なし単純ベイズ分類器における入力テキストの分類することができる。特徴選択は、ノイズを除去するため、分類器の性能を向上することが知られている。しかしながら、特徴選択は、部分的に人手で行う必要があり、追加費用を伴う。本発明は、ラベルなしテキストから単語分布を学習することに基づいて、高頻度語のノイズの影響をどのように低減するかを自動的に決定することができる。それは、パラメータを人手で調整する必要がなく、かつ、人手で付加するラベルあり訓練データを必要としないことを意味する。本発明は、単純ベイズ分類器の生成プロセスの拡張として定式化され、それに対して、単語のより複雑な相互作用のモデルへ、又は、モデル単語と付加的な他の属性の種類（例えば、スパム（spam）検出について、実際のメールテキスト＋削除された同じ送信者からのメール回数のような付加的な属性）とへの拡張を容易にすることができる。その結果として、本発明は、追加費用なしに高いテキスト分類の精度を可能とする。

Claims

既知のクラスを有する訓練インスタンス（ラベルありデータ）及び未知のクラスを有する０以上の訓練インスタンス（ラベルなしデータ）の集合を用いて、テキスト文書を含む新規インスタンスを分類する方法であって、
前記ラベルあり及びラベルなしデータを用いて、各クラスｚに関する単語分布θ_ｚを推定する第１のパラメータ学習ステップと、
前記ラベルあり及びラベルなしデータを用いて、背景分布γと、γ及びθ_ｚ間の補間度δとを推定する第２のパラメータ学習ステップと、
新規インスタンスの各単語に関して、前記単語が前記単語分布θ_ｚから又は前記背景分布γから生成される確率を計算することと、δを用いて前記２つの確率を組み合わせることと、得られた全単語の確率を組み合わせて、クラスｚから生成される前記文書であることを示す前記クラスｚに関する文書確率を推定することとを含み、前記新規インスタンスを前記文書確率が最も高いクラスｚ^＊に分類する分類ステップとを含む、方法。
前記第２のパラメータ学習ステップにおいて、前記背景分布γと、γ及びθ_ｚ間の前記補間度δとは、既知及び未知のクラスを有する全ての前記インスタンスの前記集合の観測確率を最大化するように推定される、請求項１に記載の方法。
前記背景分布γは、既知及び未知のクラスを有する全インスタンスにおいて観測される単語頻度分布に設定される、請求項１に記載の方法。
前記補間パラメータδは、期待文書分類精度を最適化するように設定される、請求項１に記載の方法。
各クラスｚの前記単語分布θ_ｚと、前記背景分布γとは、多項分布又は混合多項分布に設定され、前記ラベルありデータを用いて、又は前記ラベルあり及びラベルなしデータの双方を用いて推定される、請求項１に記載の方法。