JP2019511773A

JP2019511773A - サービス・パラメータ選択方法及び関連するデバイス

Info

Publication number: JP2019511773A
Application number: JP2018544540A
Authority: JP
Inventors: ゼン，ウェイ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2016-03-03
Filing date: 2017-02-24
Publication date: 2019-04-25
Anticipated expiration: 2037-02-24
Also published as: EP3425528A4; KR102104193B1; KR20180108810A; EP3425528A1; JP6657417B2; WO2017148327A1; CN107153836A

Abstract

サービス・パラメータ選択方法及び関連デバイスが本願の実施形態において導入される。本方法は：先ず、複数の候補サンプルを含む第1候補サンプル・セットを設定するステップ；第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)を取得するステップ；第1候補サンプル・セットの中で所定の閾値より大きな情報値(IV)を有する候補サンプルを第1予備選択サンプルとして決定し、選択されるように第2被選択サンプル・セットにおいて第1予備選択サンプルを保存するステップ；有意性基準を満たすターゲット・サンプルを取得するために、段階的判別分析及び/又はクラスタ分析を利用して第2被選択サンプル・セットを処理するステップであって、ターゲット・サンプルはサービス・パラメータを決定するために使用される、ステップ；情報値(IV)を利用して、選択されるサンプルの第2サンプル・セットを取得する際に非重要変数を除外するステップ；及び有意性基準を満たすターゲット・サンプルを取得するように選択されるサンプルの第2セットに関して段階的判別分析及びクラスタ分析を実行するステップを含む。本方法により、変数のダイバーシティが保証され、既存の変数選択プロセスが最適化され、次元削減プロセス中に変数情報を喪失してしまう問題が軽減される。

Description

＜関連出願＞
本願は中華人民共和国国家知識産権局に2016年3月3日付で出願された「サービス・パラメータ選択方法及び関連するデバイス」と題する中国特許出願第201610120612.3号に対する優先権を主張しており、その内容は全体的にリファレンスに組み込まれる。
＜技術分野＞

本開示は、データ処理の分野に関し、特にサービス・パラメータを選択する方法及び関連するデバイスに関する。
＜背景技術＞

インターネットにおけるデータに関して実行されるモデリングでは、モデリングに使用されるサービス・パラメータが、大量のデータから選択されるように要求される。変数選択プロセスにおいて、大量のデータが生成される。サービスを行うためにデータが直接的に使用されるケースでは、計算に時間がかかる。更に、不適切なサービス・パラメータ選択法に起因して、統計的に有意義なサービス・パラメータの喪失が引き起こされてしまうかもしれない。

このような観点から、サービス・パラメータを選択する方法及び関連するデバイスが、本開示の実施形態により提供される。

第1側面では、サービス・パラメータを選択する方法が、本開示の実施形態により提供される。本方法は：複数の候補サンプルを含む第1候補サンプル・セットを設定するステップ；前記第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)を取得するステップであって、前記情報値(IV)は変数のバイナリ依存変数に対する比(a ratio of a variable to a binary dependent variable)である、ステップ；前記情報値(IV)が前記第1候補サンプル・セットにおける所定の閾値を超える候補サンプルを、第1予備選択サンプルとして決定し、第2被選択サンプル・セットにおいて前記第1予備選択サンプルを保存するステップ；有意性基準(a significance criterion)を満たすターゲット・サンプルを取得するために段階的判別分析(stepwise discriminant analysis)又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するステップを含む。前記ターゲット・サンプルは前記サービス・パラメータを決定するために使用される。

可能な実施例では、前記有意性基準を満たすターゲット・サンプルにおいて、同一タイプの変数同士の相関、及び相違するタイプの変数同士の相関は、前記有意性基準を満たす。

可能な実施例では、前記第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)を取得するステップが：事前に設定されたバイナリ・ファイルの数に基づいて前記候補サンプルを分けるステップ；及び前記バイナリ・ファイル及び前記情報値(IV)の間の対応関係に基づいて、前記候補サンプルの情報値(IV)を取得するステップを含む。

可能な実施例では、有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するステップが：前記有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析及びクラスタ分析の組み合わせを利用することによって前記第2被選択サンプル・セットを処理するステップを含む。

可能な実施例では、有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するステップが：第3被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記段階的判別分析を実行する、或いは第4被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記クラスタ分析を実行するステップ；及び前記第3被処理サンプル・セット又は前記第4被処理サンプル・セットを前記ターゲット・サンプルとして決定するステップを含む。

可能な実施例では、有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するステップが：第3被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記段階的判別分析を実行し、第4被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記クラスタ分析を実行するステップ；及び前記第3被処理サンプル・セット及び前記第4被処理サンプル・セットを前記ターゲット・サンプルとして決定するステップを含む。

可能な実施例では、第3被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記段階的判別分析を実行するステップが：前記段階的判別分析を利用することにより、前記第2被選択サンプル・セットにおいて前記有意性基準を満たす複数の第1変数を選択し、前記有意性基準を満たす複数の第1変数の中でN個の変数を、前記第3被処理サンプル・セットに入れるために取得するステップ(Nは正の整数)；又は前記第2被選択サンプル・セットにおける前記第1予備選択サンプルを、複数のフォワード選択サブセットに均等に分割し、前記フォワード選択サブセットの各々から、前記有意性基準を満たすM個の変数を、前記第3被処理サンプル・セットに入れるために選択するステップ(Mは正の整数)を含む。

可能な実施例では、第4被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記クラスタ分析を実行するステップが：異なるクラスを有する複数のクラスタ分析セットを取得するために前記クラスタ分析を利用することによって、前記第2被選択サンプル・セットにおける前記第1予備選択サンプルを分類するステップ；及び前記第4被処理サンプル・セットを形成するために前記クラスタ分析セットの各々において前記有意性基準を満たす変数を取得するステップを含む。

可能な実施例では、第3被処理サンプル・セットと第3被処理サンプル・セットとがターゲット・サンプルとして決定される場合に、本方法は：第3被処理サンプル・セット及び第4被処理サンプル・セットに関する重複排除オペレーションを実行するステップを更に含む。

第2側面では、サービス・パラメータを選択するデバイスが、本開示の実施形態により提供される。サービス・パラメータを選択するデバイスは、第1側面におけるサービス・パラメータを選択するために装置においてオペレーションを実行する機能を有する。機能は、ハードウェアにより実現されてもよいし、対応するソフトウェアをハードウェアにより実行することで実現されてもよい。ハードウェア又はソフトウェアは機能に対応する1つ以上のモジュールを含む。可能な実施例では、サービス・パラメータを選択するデバイスはプロセッサ及びメモリを含む。メモリは、サービス・パラメータを選択するデバイスにより上記方法を実行するプログラムを保存するように構成されプロセッサはメモリに保存されるプログラムを実行するように構成される。サービス・パラメータを選択するデバイスは通信インターフェースを更に含んでもよく、その通信インターフェースを介して、サービス・パラメータを選択するデバイスは、他のデバイス又は通信ネットワークと通信する。

第3側面では、コンピュータ記憶媒体が本開示の実施形態により提供される。コンピュータ記憶媒体は、上記のサービス・パラメータを選択するデバイスにより使用されるコンピュータ・ソフトウェア命令を保存するように構成され、コンピュータ・ソフトウェア命令は、上記のサービス・パラメータを選択するデバイス用に設計された上記側面を実施するプログラムを含む。本開示の実施形態は以下の利点を有することが、上記技術的解決手段から理解できる。本開示の実施形態によるサービス・パラメータ選択方法及び関連デバイスによれば、複数の候補サンプルを含む第1候補サンプル・セットが設定され、第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)が取得され、情報値(IV)が第1候補サンプル・セットにおける所定の閾値を超える候補サンプルが、第1予備選択サンプルとして決定され、第1予備選択サンプルは第2被選択サンプル・セットにおいて保存され、第2被選択サンプル・セットは、有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって処理される。ターゲット・サンプルはサービス・パラメータを決定するために使用される。重要な影響を有しない変数は、第2被選択サンプル・セットを取得する際に情報値(IV)に基づいて除外され、そして、有意性基準を満たすターゲット・サンプルは、第2被選択サンプル・セットに関して段階的判別分析及びクラスタ分析を実行し、変数ダイバーシティ(the variable diversity)を保証し、既存の選択プロセスを最適化し、及び次元削減プロセス中の変数情報喪失を減らすことによって取得される。本開示のこれら及び他の側面は概要であり、実施形態についての以下の記述から容易に理解されることが可能である。

図1は本開示の実施形態によるサービス・パラメータを選択する方法のフローチャートである。

図2は本開示の別の実施形態によるサービス・パラメータを選択する方法のフローチャートである。

図3は本開示の実施形態によるサービス・パラメータを選択するデバイスの構造図である。

図4は本開示の実施形態によるサービス・パラメータを選択する装置の構造図である。

本開示の技術的解決手段を当業者にとってより良く理解されるように、本開示の実施形態における技術的解決手段は、本開示の実施形態における図面に関連して明確かつ十分に説明される。

本開示の明細書、特許請求の範囲及び図面に記載される幾つかのフローにおいて、複数のオペレーションが特定の順序で登場しているかもしれない。しかしながら、そのオペレーションは、オペレーションがそこで登場している順序とは異なる順序で実行されてもよいし、或いは並列的に実行されてもよいことが、明確に理解されるべきである。101及び102のようなオペレーションの連続番号は、オペレーションを他のオペレーションと区別するだけのために使用されているに過ぎず、連続番号は何らかの実行順序を指すとは限らない。更に、フローはより多い又はより少ないオペレーションを含んでもよく、オペレーションは連続的に又は同時に実行されてもよい。本願における「第1...」、「第2...」等の用語は、メッセージ、デバイス、モジュール等を、他のメッセージ、デバイス、モジュール等と区別するだけのために使用され、それらの用語は何らかの順序を示すとは限らず、「第1...」及び「第2...」は同一のタイプ又は相違するタイプを有してよいことに留意すべきである。

詳述する前に、以下、使用されることになる幾つかの用語が導入される。

分散拡大係数(VIF：A variance inflation factor)は、説明変数の中に多重共線性(multicollinearity)が存在する場合の分散と、説明変数の中に多重共線性が存在しない場合の分散との比率を示す。VIFはトレランス(a tolerance)の逆数である。より大きなVIFはより深刻な多重共線性を示す。0＜VIF＜10の場合には多重共線性は存在せず、10≦VIF＜10の場合には深刻な多重共線性が存在し、VIF≧100の場合にはより深刻な多重共線性が存在することが、経験的な決定法から分かる。

情報値(An information value (IV))は、変数がバイナリ依存変数において十分な判別能力(a sufficient discrimination ability)を有するか否かを判断するために使用される。

段階的判別分析(STEPDISC)は、判別分析の前にデータを判別するために、有意性基準に合致する変数をスクリーニングするために実行される。段階的判別分析は、クラス間の相違を十分に示すことが可能な或る一群の変数を選択し、情報をあまり含んでいない他の変数を破棄するために、フォワード選択法、バックワード除外法、及び段階的選択法により実行されてもよい。

クラスタ分析(Proc Varclus)は、主成分分析に類似しており、また、冗長な変数を除外するために変数次元削減で一般に適用される。この種の変数分類法によれば、同じクラスの中の変数は可能な限り互いに関連付けられるようになり、異なるクラスの間で変数は可能な限り互いに非相関になる。或るクラスの第2特性根(a second characteristic root of a certain class)が閾値より大きい場合、そのクラスは2つの異なるクラスに更に分割される。

有意性基準は、1つ以上のランダム変数Y1，Y2，...，Yiと他の変数X1，X2，...，Xkとの間の関係を検討するための統計的方法で使用され、その方法は重回帰分析と言及されてもよい。一般に、Y1，Y2，...，Yiは従属変数と言及され、X1，X2，...，Xkは独立変数と言及される。回帰分析は数学的なモデルである。特に、回帰分析は、従属変数と独立変数とが線形な関係にある場合の特殊な線形モデルである。この場合、複数の独立変数が1つの従属変数にまとまって影響を及ぼす。従って、何れの独立変数が従属変数に有意な影響を有するか、何れの独立変数が従属変数に有意な影響を及ぼさないかを判別することが要求され、有意な影響を有する独立変数がモデルに導入され、有意な影響を有しない独立変数は除外される。プロセスは一般に段階的な回帰法、フォワード回帰法、又はバックワード回帰法で実行されてもよい。

図1を参照すると、本開示の実施形態に従ってサービス・パラメータを選択する方法が提供されている。本方法は以下のステップS101ないしS104を含む。

S101では、第1候補サンプル・セットが設定される。第1候補サンプル・セットは複数の候補サンプルを含む。

第1候補サンプル・セットは複数の候補サンプルを含んでもよい。候補サンプルは変数であってもよく、具体的には、異なるタイプの変数であってもよい。或る変数は他の変数と相関を有し、或いは他の変数と相関を有しないかもしれないし、必要とされる変数が変数に含められる。本開示の目的は、必要な変数を選択することである。第1候補サンプル・セット内の候補サンプルの数は膨大であること、有用な変数の見逃し及び多くの時間の消費は不適切な選択方法に起因し得ること、に留意すべきである。候補サンプルは、以後のステップにおける選択に備えて第1候補サンプル・セットに含められる。

S102において、第1候補サンプル・セット内の候補サンプル各々の情報値(IV)が取得される。

情報値(IV)は、変数がバイナリ従属変数において十分な判別能力(又は識別能力)を有するか否かを判断するために使用される。情報値(IV)の値は、評価基準に基づく変数Yに対する変数Xの識別性を示す。即ち、1)≦0.02の値の場合には差異を示さず；2)値が(0.02,0.1)の範囲内にある場合には弱い識別性を示し；3)値が(0.1,0.3)の範囲内にある場合には中程度の識別性を示し；4)≧0.3の値の場合には強い識別性を示す。本実施形態では、情報値(IV)に基づいて実行される予備的なスクリーニング・プロセスにおいて条件を適切に緩和させるために、0.01より大きな情報値(IV)が選択されてよい。実際には、当業者は他の数値を選択してもよく、数値は本願で限定されない。

情報値(IV)は、独立変数Xが従属変数Yに対して識別性を有するか否かを判断するための基準の1つとして考えられてよいという唯それだけのことである点に留意すべきである。具体的に、実際のモデリング・プロセスでは、変数がモデルに最終的に導入されるか否かは、P-値(P-Value)及びバイバー(Bivar)のような多くの他の考察事項に基づいて決定され、これらに限定されない。

S103において、情報値(IV)が第1候補サンプル・セットにおける所定の閾値を超える候補サンプルが、第1予備選択サンプルとして決定され、第1予備選択サンプルは第2被選択サンプル・セット(a second to-be-selected sample set)に保存される。

所定の閾値は0.01であってもよい。候補サンプルの情報値(IV)が0.01を超える場合、候補サンプルは第1予備選択サンプルとして決定され、即ち、候補サンプルは情報値(IV)に基づいて実行される予備選択を通過する。予備選択を経て取得された第1予備選択サンプルは、以後のステップに備えて第2被選択サンプル・セットに保存され、情報値(IV)が所定の閾値を超えない候補サンプルは除外される。

S104において、有意性基準を満たすターゲット・サンプルを取得するために、段階的判別分析、クラスタ分析、又は段階的判別分析及びクラスタ分析の組み合わせを利用することによって、第2被選択サンプル・セットが処理される。ターゲット・サンプルはサービス・パラメータを決定するために使用される。

スクリーニングの第2ラウンドは、段階的判別分析、クラスタ分析、又は段階的判別分析及びクラスタ分析の組み合わせを利用することによって、第2被選択サンプル・セットに関して実行されてもよい。即ち、段階的判別分析及びクラスタ分析は個別的に採用されてもよいし、或いは段階的判別分析及びクラスタ分析の双方が採用されてもよい。有意性基準は、変数が統計的に有意性を有することを示す。有意性基準に関する検査結果は分散分析テーブル(a variance analysis table)を介して出力され、回帰方程式の線形関係が有意であるか否かは、有意性基準に基づいて検査される。選択的に、有意性基準は0.05より大きい。段階的判別分析は、クラス間の差異を十分に示すことが可能な一群の変数を選択し、さほど情報を含まない他の変数を破棄するために、フォワード選択法、バックワード除外法、段階的選択法により実行される。

変数が選択される一方、可変パラメータ及び様々な統計的な値が算出されることを要する段階的回帰分析と比較すると、段階的判別分析では変数が選択される際に判別関数は計算される必要が無く、従って、段階的判別分析の効率は顕著に改善される。従って、段階的判別分析は、大量のデータとともにモデリングする際に、変数の事前スクリーニングに適用される。段階的判別分析は、一般に、判別分析の際の事前スクリーニングに適用される。しかしながら本実施形態では、段階的判別分析は、革新的に、段階的回帰分析の前の変数の予備的スクリーニングにおいて適用され、単独の方法に起因する過剰な情報喪失を避けるために、段階的選択法がフォワード選択法との組み合わせで採用される。

モデリング・データ・セットが何千もの変数を含む場合、幾つかの変数の間に明確な相関が存在し、例えば、変数が同じタイプにおけるものであり、変数は除外されるように要求される。独立変数は、クラスタ分析を利用することにより異なるクラスに分類されてもよく、代表的な変数が各クラスから選択される。このように、変数の数は、モデリングでオペレータにより速やかに削減されることが可能であり、これにより全体的なモデリング・プロセスを高速化する。

クラスタ分析(Proc Varclus)は、主成分分析に類似しており、一般に、冗長的な変数を排除するために変数次元削減において適用される。この種の変数分類法では、同一クラスの変数は可能な限り互いに関連付けられるようになり、異なるクラスの間で変数は可能な限り互いに非相関になる。所定のクラスの第2特性根が閾値より大きい場合、そのクラスは2つの異なるクラスに更に分割される。

本開示の実施形態によるサービス・パラメータ選択方法によれば、複数の候補サンプルを含む第1候補サンプル・セットが設定され、第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)が取得され、情報値(IV)が第1候補サンプル・セットにおける所定の閾値を超える候補サンプルが、第1予備選択サンプルとして決定され、第1予備選択サンプルは第2被選択サンプル・セットにおいて保存され、第2被選択サンプル・セットは、有意性基準を満たすターゲット・サンプルを取得するために、段階的判別分析、クラスタ分析、又は段階的判別分析及びクラスタ分析の組み合わせを利用することによって処理される。ターゲット・サンプルはサービス・パラメータを決定するために使用される。重要な影響を有しない変数は、第2被選択サンプル・セットを取得する際に情報値(IV)に基づいて除外され、そして、有意性基準を満たすターゲット・サンプルは、第2被選択サンプル・セットに関して段階的判別分析及びクラスタ分析を実行し、変数ダイバーシティを保証し、既存の選択プロセスを最適化し、及び次元削減プロセス中の変数情報喪失を減らすことによって取得される。

図2を参照すると、本開示の別の実施形態によりサービス・パラメータを選択する方法が提供されている。本方法は以下のステップS201ないしS205を含む。

S201において、複数の候補サンプルを含む第1候補サンプル・セットが設定される。

S202において、第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)が取得される。

第1候補サンプル・セットにおける候補サンプル・セット各々の情報値(IV)を取得するプロセスは、以下のようにして実行されてもよい。

候補サンプルが、予め設定されたバイナリ・ファイルの数に基づいて、分けられる

候補サンプルの情報値(IV)は、バイナリ・ファイル及び情報値(IV)の間の対応関係に基づいて取得される。具体的には、情報値(IV)は以下の数式から算出される：

情報値(IV)の計算プロセスにおいて、独立変数Xは、計算のために異なるビン(バイナリ・ファイル)に分けられることを要し、ここで、nは分けられるバイナリ・ファイルの数を表し、#G_i及び#B_iはそれぞれ各バイナリ・ファイルにおける良いサンプル及び悪いサンプルの数を表す。連続的な変数の場合、変数は先ずバイナリ・ファイルに分けられ、変数の情報値(IV)はバイナリ・ファイルの数に基づいて変化する。情報値(IV)は、バイナリ・ファイルの数が増えるにつれて増加し、増加率は徐々に小さくなる。連続変数の場合に、バイナリ・ファイルの数は20であってもよいが、本願では限定されない。

S203では、情報値(IV)が第1候補サンプル・セットにおける所定の閾値を超える候補サンプルが、第1予備選択サンプルとして決定され、第1予備選択サンプルが、第2被選択サンプル・セットにおいて保存される。

ステップS203は上記の実施形態のステップS103に類似しており、ここで詳細には説明されない。

S204において、有意性基準を満たすターゲット・サンプルを取得するために、段階的判別分析、クラスタ分析、又は段階的判別分析及びクラスタ分析の組み合わせを利用することによって、第2被選択サンプル・セットが処理される。ターゲット・サンプルはサービス・パラメータを決定するために使用される。

段階的判別分析のみが使用される場合、第3被処理サンプル・セット(a third to-be-processed sample set)を取得するために、第2被選択サンプル・セットに関して段階的判別分析が実行され、第3被処理サンプル・セット及び/又は第4被処理サンプル・セットがターゲット・サンプルとして決定される。

段階的判別分析では、フォワード選択の1ラウンドが実行され、段階的選択の5ラウンドが実行されてもよい。

段階的選択が使用される場合、第2被選択サンプル・セットにおいて有意性基準を満たす複数の第1変数を選択するために、段階的回帰分析法が採用される。

有意性基準を満たす複数の第1変数のうちN個の変数が、第3被処理サンプル・セットに入力されるように取得され、Nは正の整数である。

段階的選択により、指定された有意性基準を満たす全ての変数が選択され、指定されたデータ・セットに出力される。そして、上位N個の被選択変数が選択される。実際には、有意性基準を満たす変数の数がNに到達しない場合が生じうる。この場合、有意性基準と出力される変数の数とが調整されてもよい。この実施形態では、Nは500であってもよいが、本願では限定されない。

フォワード選択が使用される場合、第2被選択サンプル・セットにおける第1予備選択サンプルは、複数のフォワード選択サブセットに均等に分割される。

有意性基準を満たすM個の変数が、フォワード選択サブセットの各々から、第3被処理サンプル・セットに入力されるように選択され、Mは正の整数である。

変数は均等に5グループにランダムにグループ化される。各グループにおいて、指定された有意性基準を満たす変数のうち、M個の変数が、フォワード選択を利用することによって選択される。この実施形態では、Mは100であってもよいが、本願では限定されない。

クラスタ分析のみが使用される場合、第4被処理サンプル・セットを取得するために第2被選択サンプル・セットに関して、クラスタ分析が実行され、第3被処理サンプル・セット及び/又は第4被処理サンプル・セットがターゲット・サンプルとして決定される。

第2被選択サンプル・セットにおける第1予備選択サンプルは、異なるクラスを有する複数のクラスタ分析セットを取得するようにクラスタ分析を利用することによって分類される。

各々のクラスタ分析セットにおいて有意性基準を満たす変数は、第4被処理サンプル・セットを形成するように取得される。

分類は第2特性根によって実行されてもよい。例えば、第2特性根は0.7より大きく設定されてもよい。分類の後、有意性基準を満たす変数が、各クラスから選択されることを要する。選択される変数は以下の条件を満たすことを要する：1)変数は、その変数が所属するクラスの中の変数と高い相関を有する；及び2)変数は他のクラスの変数と低い相関を有する。変数が上記2つの条件を満たすか否かは、変数のクラスにおける量と変数のクラスに類似するクラスにおける量との比率として、次のように表現されてもよいインデックス1-R²に基づいて判断されてもよい。

出力される第4被処理サンプル・セットにおける変数は、インデックス1-R²である。インデックスの値は変数選択では限定されず、インデックスの値に対応する変数の個数はその値に基づいて各クラスで選択されてもよい。選択基準は、値が可能な限り小さいことである。

段階的判別分析とクラスタ分析との双方が使用される場合、第3被処理サンプル・セットを取得ために第2被選択サンプル・セットに関して段階的判別分析が実行され、第4被処理サンプル・セットを取得するために第2被選択サンプル・セットに関してクラスタ分析が実行され、第3被処理サンプル・セット及び第4被処理サンプル・セットがターゲット・サンプルとして決定される。

S205において、第3被処理サンプル・セット及び第4被処理サンプル・セットに関して重複排除オペレーションが実行される。

第3被処理サンプル・セット及び第4被処理サンプル・セットがターゲット・サンプルとして決定される場合、第3被処理サンプル・セット及び第4被処理サンプル・セットを利用することにより、第3被処理サンプル・セット及び第4被処理サンプル・セットをそれぞれ取得するために、第2被選択サンプル・セットに関してスクリーニングが実行される。第3被処理サンプル・セット及び第4被処理サンプル・セットがターゲット・サンプルは別々に選択されるので、第3被処理サンプル・セット及び第4被処理サンプル・セットに同じ変数が存在してもよい。モデリング・プロセスにおいて、重複する変数は、重複排除オペレーションにより除外されることを要し、そのオペレーションは当業者によって理解され、具体的な説明は省略される。

理解を容易にするため、一例として、第1候補サンプル・セットa1，a2，a3，...a10000を採用する。情報値(IV)が0.01より大きいという条件に基づいて、予備選択が実行され、第2被選択サンプル・セットa1，a2，a3，...a8000が取得される。変数選択のために第2被選択サンプル・セットについてフォワード選択の1ラウンドが実行され、a1，a5，a16，...a5977を含む500個の変数が取得されて第3被処理サンプル・セットに入力される。更に、変数選択のために第2被選択サンプル・セットについて段階的分析の5ラウンドが実行され、a1，a5，a7，...a7201を含む500個の変数が取得されて第4被処理サンプル・セットに入力される。変数選択のために第2被選択サンプル・セットについてクラスタ分析が実行され、a1，a52，a103，...a7050を含む200個の変数が取得されて第4被処理サンプル・セットに入力される。第3被処理サンプル・セット及び第4被処理サンプル・セットにおける1200個の変数がターゲット・サンプルとして決定される。1200個の変数の中に重複する変数が存在することが理解されるべきである。最終的な変数プールが、重複排除オペレーションにより取得され、モデリングに使用されてよい。

図3を参照すると、本開示の実施形態に従って、上記のサービス・パラメータを選択する方法に基づいて、サービス・パラメータを選択するデバイスが更に提供されており、以下詳細に説明される。

デバイスは、設定ユニット301と、取得ユニット302と、決定ユニット303と、処理ユニット304とを含む。

設定ユニット301は、複数の候補サンプルを含む第1候補サンプル・セットを設定するように構成される。

取得ユニット302は、第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)を取得するように構成される。

決定ユニット303は、情報値(IV)が第1候補サンプル・セットにおける所定の閾値を超える候補サンプルを、第1予備選択サンプルとして決定し、第2被選択サンプル・セットにおいて第1予備選択サンプルを保存するように構成される。

処理ユニット304は、有意性基準を満たすターゲット・サンプルを取得するために、段階的判別分析、クラスタ分析、又は段階的判別分析及びクラスタ分析の組み合わせを利用することによって、第2被選択サンプル・セットを処理するように構成される。ターゲット・サンプルはサービス・パラメータを決定するために使用される。

選択的に、取得ユニット302は、事前に設定されたバイナリ・ファイルの数に基づいて候補サンプルを分け、及びバイナリ・ファイル及び情報値(IV)の間の対応関係に基づいて、候補サンプルの情報値(IV)を取得するように更に構成される。

選択的に、処理ユニット304は、第3被処理サンプル・セットを取得するために第2被選択サンプル・セットに関して段階的判別分析を実行する、及び/又は第4被処理サンプル・セットを取得するために第2被選択サンプル・セットに関して前記クラスタ分析を実行し、及び第3被処理サンプル・セット及び/又は第4被処理サンプル・セットをターゲット・サンプルとして決定するように更に構成される。

選択的に、処理ユニット304は、段階的判別分析を利用することにより、第2被選択サンプル・セットにおいて有意性基準を満たす複数の第1変数を選択し、有意性基準を満たす複数の第1変数の中でN個の変数を、第3被処理サンプル・セットに入れるために取得するように更に構成される(Nは正の整数)、及び/又は第2被選択サンプル・セットにおける第1予備選択サンプルを、複数のフォワード選択サブセットに均等に分割し、フォワード選択サブセットの各々から、有意性基準を満たすM個の変数を、第3被処理サンプル・セットに入れるために選択するように更に構成される(Mは正の整数)。

選択的に、処理ユニット304は、異なるクラスを有する複数のクラスタ分析セットを取得するためにクラスタ分析を利用することによって、第2被選択サンプル・セットにおける第1予備選択サンプルを分類し、及び第4被処理サンプル・セットを形成するためにクラスタ分析セットの各々において有意性基準を満たす変数を取得するように更に構成される。

選択的に、処理ユニット304は、第3被処理サンプル・セットと第3被処理サンプル・セットとがターゲット・サンプルとして決定される場合に、第3被処理サンプル・セット及び第4被処理サンプル・セットに関して重複排除オペレーションを実行するように更に構成される。

図4に示されるように、本方法を実現するために、本開示の実施形態に従ってサービス・パラメータを選択する装置が更に提供される。装置はプロセッサ401及びメモリ403を含む。

メモリ403はコンピュータ読み取り可能なプログラムを保存するように構成される。

プロセッサ401はメモリ中のプログラムを実行するように構成され、プロセッサは：複数の候補サンプルを含む第1候補サンプル・セットを設定するステップ；第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)を取得するステップ；情報値(IV)が第1候補サンプル・セットにおける所定の閾値を超える候補サンプルを、第1予備選択サンプルとして決定し、第2被選択サンプル・セットにおいて第1予備選択サンプルを保存するステップ；及び有意性基準を満たすターゲット・サンプルを取得するために、段階的判別分析、クラスタ分析、又は段階的判別分析及びクラスタ分析の組み合わせを利用することによって第2被選択サンプル・セットを処理するステップであって、ターゲット・サンプルはサービス・パラメータを決定するために使用される、ステップを実行する。

図4は、本開示の実施形態によりサービス・パラメータを選択する装置の概略図である。サービス・パラメータを選択する装置200は、少なくとも1つのプロセッサ401と、通信バス402と、メモリ403と、少なくとも1つの通信インターフェース404とを含む。

プロセッサ401は、汎用中央処理ユニット(CPU)、マイクロプロセッサ、特定用途向け集積回路(ASIC)であってもよいし、或いは本開示のソリューションにおいてプログラムの実行を制御する1つ以上の集積回路であってもよい。

通信バス402は、上記のコンポーネント間で情報が伝送されるチャネルを含んでよい。通信インターフェース404は、他のデバイス又は通信ネットワーク(例えば、無線アクセス・ネットワーク(RAN)、無線ローカル・エリア・ネットワーク(WLAN))と、トランシーバのような何らかのデバイスを介して通信するように構成される。

メモリ403は、リード・オンリ・メモリ(ROM)、静的な情報及び命令を保存することが可能な他のタイプのスタティック・ストレージ・デバイス、ランダム・アクセス・メモリ(RAM)、或いは動的な情報及び命令を保存することが可能な他のタイプのダイナミック・ストレージ・デバイスであってもよい。メモリ403は、電気的に消去可能でプログラム可能なリード・オンリ・メモリ(EEPROM)、コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)又は他の光ディスク・ストレージ、ディスク・ストレージ(コンパクト・ディスク、レーザー・ディスク、コンパクト・ディスク、ディジタル多用途ディスク、ブルーレイ・ディスク等)、磁気ディスク記憶媒体又は他の磁気ストレージ・デバイス、或いは、その他の任意の媒体(命令又はデータ構造の形式で所望のプログラム・コードを搬送又は保存するために使用されることが可能であって、コンピュータによりアクセスされることが可能なもの)であってもよいが、これらに限定されない。メモリは独立して存在してもよいし、バスを介してプロセッサに接続されてもよい。メモリはプロセッサに統合されていてもよい。

メモリ403は、本開示のソリューションを実行するためのプログラム・コードを保存するように構成され、その実行はプロセッサ401により制御される。プロセッサ401はメモリ403に保存されるプログラム・コードを実行するように構成される。

特定の実施例では、一実施形態として、プロセッサ401は図4のCPU0及びCPU1のような1つ以上のCPUsを含んでよい。

特定の実施例では、一実施形態として、サービス・パラメータを選択する装置400は、図4のプロセッサ401及びプロセッサ408のような複数のプロセッサを含んでいてもよい。複数のプロセッサの各々は、シングルCPUプロセッサ又はマルチCPUプロセッサであってもよい。ここで、プロセッサは、(例えば、コンピュータ・プログラム命令のような)データを処理する1つ以上のデバイス、回路及び/又は処理コアと言及されてもよい。

特定の実施例では、一実施形態として、サービス・パラメータを選択する装置400は、出力デバイス405及び入力デバイス406を更に含んでもよい。出力デバイス405は、プロセッサ401と通信し、様々な方法で情報を表示してもよい。例えば、出力デバイス405は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、陰極線管(CRT)ディスプレイ・デバイス、プロジェクタ等であってもよい。入力デバイス406は、プロセッサ401と通信し、様々な方法でユーザー入力を受けてよい。例えば、入力デバイス406は、マウス、キーボード、タッチ・スクリーン・デバイス、センサー・デバイス等であってもよい。

サービス・パラメータを選択する上記の装置400は、汎用コンピュータ・デバイス又は専用コンピュータ・デバイスであってもよい。特定の実施例では、サービス・パラメータを選択する装置400は、仮想現実デバイス、デスクトップ、ラップトップ、ネットワーク・サーバー、パーソナル・ディジタル・アシスタント(PDA)、モバイル・フォン、タブレット・コンピュータ、ワイヤレス・ターミナル・デバイス、通信デバイス、内蔵デバイス、又は図4のデバイスに類似する構造を有するデバイスであってもよい。サービス・パラメータを選択する装置400のタイプは本開示の実施形態に限定されない。

説明の簡明化のため、上記のシステム、デバイス及びユニットの具体的なオペレーション・プロセスについては方法の実施形態における対応するプロセスを参照してよいことが、当業者に当然に理解されるべきであり、プロセスはここで詳細には説明されない。

本開示の実施形態で提供されるシステム、デバイス、及び方法は他の形式で実現されてもよいことが理解されるべきである。例えば、上記のデバイスの実施形態は単なる例示に過ぎない。例えば、ユニットの分け方は論理的な機能分割であるに過ぎず、実際には他の分割の仕方で実現されてよい。例えば、複数のユニット又はコンポーネントが結合されてもよいし、他のシステムに統合されてもよいし、或いは幾つかの特徴が無視されてもよい、或いは実行されなくてもよい。更に、図示又は説明された相互の結合又は直接的な結合又は通信コネクションは、何らかのインターフェース、デバイス、又はユニットを介する通信コネクション又は間接的な結合であってもよく、電気的、機械的又は他の形式であってもよい。

個別的なパーツとして記述されるユニットは物理的に分離されていてもいなくてもよく、ユニットとして図示されるパーツは物理的なユニットであってもなくてもよく、即ち、一箇所に配置されていてもいなくてもよく、複数のネットワーク・ユニット上に分散されてもよい。実施形態におけるソリューションの目的を達成するために、実際の条件に応じて全部又は一部のユニットが選択されてよい。

更に、本開示の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよいし、各々の機能ユニットが物理的に単独で存在してもよいし、2つ以上の機能ユニットが1つのユニットに統合されてもよい。統合されたユニットは、ハードウェアにより、又はソフトウェア機能ユニットにより実現されてよい。

本開示に従うサービス・パラメータ選択方法及び関連デバイスが詳細に説明されてきた。本開示の実施形態の概念に基づいて、当業者は、具体的な実施形態及びアプリケーションの目的に変更を施すことが可能である。要するに、本明細書の内容は本開示を限定するように解釈されるべきでない。

Claims

サービス・パラメータを選択する方法であって：
複数の候補サンプルを含む第1候補サンプル・セットを設定するステップ；
前記第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)を取得するステップであって、前記情報値(IV)は変数のバイナリ依存変数に対する比である、ステップ；
前記情報値(IV)が前記第1候補サンプル・セットにおける所定の閾値を超える候補サンプルを、第1予備選択サンプルとして決定し、第2被選択サンプル・セットにおいて前記第1予備選択サンプルを保存するステップ；
有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するステップであって、前記ターゲット・サンプルは前記サービス・パラメータを決定するために使用される、ステップ；
を有する方法。
前記有意性基準を満たすターゲット・サンプルにおいて、同一タイプの変数同士の相関、及び相違するタイプの変数同士の相関は、前記有意性基準を満たす、請求項1に記載の方法。
前記第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)を取得するステップが：
事前に設定されたバイナリ・ファイルの数に基づいて前記候補サンプルを分けるステップ；及び
前記バイナリ・ファイル及び前記情報値(IV)の間の対応関係に基づいて、前記候補サンプルの情報値(IV)を取得するステップ；
を含む、請求項1に記載の方法。
有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するステップが：
前記有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析及びクラスタ分析の組み合わせを利用することによって前記第2被選択サンプル・セットを処理するステップ；
を含む、請求項1に記載の方法。
有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するステップが：
第3被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記段階的判別分析を実行する、或いは第4被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記クラスタ分析を実行するステップ；及び
前記第3被処理サンプル・セット又は前記第4被処理サンプル・セットを前記ターゲット・サンプルとして決定するステップ；
を有する、請求項1に記載の方法。
有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するステップが：
第3被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記段階的判別分析を実行し、第4被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記クラスタ分析を実行するステップ；及び
前記第3被処理サンプル・セット及び前記第4被処理サンプル・セットを前記ターゲット・サンプルとして決定するステップ；
を有する、請求項4に記載の方法。
第3被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記段階的判別分析を実行するステップが：
前記段階的判別分析を利用することにより、前記第2被選択サンプル・セットにおいて前記有意性基準を満たす複数の第1変数を選択し、前記有意性基準を満たす複数の第1変数の中でN個の変数を、前記第3被処理サンプル・セットに入れるために取得するステップ(Nは正の整数)；又は
前記第2被選択サンプル・セットにおける前記第1予備選択サンプルを、複数のフォワード選択サブセットに均等に分割し、前記フォワード選択サブセットの各々から、前記有意性基準を満たすM個の変数を、前記第3被処理サンプル・セットに入れるために選択するステップ(Mは正の整数)；
を含む、請求項5に記載の方法。
第4被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記クラスタ分析を実行するステップが：
異なるクラスを有する複数のクラスタ分析セットを取得するために前記クラスタ分析を利用することによって、前記第2被選択サンプル・セットにおける前記第1予備選択サンプルを分類するステップ；及び
前記第4被処理サンプル・セットを形成するために前記クラスタ分析セットの各々において前記有意性基準を満たす変数を取得するステップ；
を含む、請求項5に記載の方法。
サービス・パラメータを選択するデバイスであって：
複数の候補サンプルを含む第1候補サンプル・セットを設定するように構成される設定ユニット；
前記第1候補サンプル・セットにおける候補サンプル各々の情報値(IV)を取得するように構成される取得ユニットであって、前記情報値(IV)は変数のバイナリ依存変数に対する比である、取得ユニット；
前記情報値(IV)が前記第1候補サンプル・セットにおける所定の閾値を超える候補サンプルを、第1予備選択サンプルとして決定し、第2被選択サンプル・セットにおいて前記第1予備選択サンプルを保存するように構成される決定ユニット；
有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析又はクラスタ分析を利用することによって前記第2被選択サンプル・セットを処理するように構成される処理ユニットであって、前記ターゲット・サンプルは前記サービス・パラメータを決定するために使用される、処理ユニット；
を有するデバイス。
前記取得ユニットは：
事前に設定されたバイナリ・ファイルの数に基づいて前記候補サンプルを分け；
前記バイナリ・ファイル及び前記情報値(IV)の間の対応関係に基づいて、前記候補サンプルの情報値(IV)を取得する；
ように構成される、請求項9に記載のデバイス。
前記取得ユニットは：前記有意性基準を満たすターゲット・サンプルを取得するために段階的判別分析及びクラスタ分析の組み合わせを利用することによって前記第2被選択サンプル・セットを処理するように構成される、請求項9に記載のデバイス。
前記処理ユニットは：
第3被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記段階的判別分析を実行する、或いは第4被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記クラスタ分析を実行し；及び
前記第3被処理サンプル・セット又は前記第4被処理サンプル・セットを前記ターゲット・サンプルとして決定する；
ように構成される、請求項9に記載のデバイス。
前記処理ユニットは：
第3被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記段階的判別分析を実行し、第4被処理サンプル・セットを取得するために前記第2被選択サンプル・セットに関して前記クラスタ分析を実行し；及び
前記第3被処理サンプル・セット及び前記第4被処理サンプル・セットを前記ターゲット・サンプルとして決定する；
ように構成される、請求項9に記載のデバイス。
前記処理ユニットは：
前記段階的判別分析を利用することにより、前記第2被選択サンプル・セットにおいて前記有意性基準を満たす複数の第1変数を選択し、前記有意性基準を満たす複数の第1変数の中でN個の変数を、前記第3被処理サンプル・セットに入れるために取得するように構成される(Nは正の整数)；又は
前記第2被選択サンプル・セットにおける前記第1予備選択サンプルを、複数のフォワード選択サブセットに均等に分割し、前記フォワード選択サブセットの各々から、前記有意性基準を満たすM個の変数を、前記第3被処理サンプル・セットに入れるために選択するように構成される(Mは正の整数)；
請求項12に記載のデバイス。
前記処理ユニットは：
異なるクラスを有する複数のクラスタ分析セットを取得するために前記クラスタ分析を利用することによって、前記第2被選択サンプル・セットにおける前記第1予備選択サンプルを分類し；及び
前記第4被処理サンプル・セットを形成するために前記クラスタ分析セットの各々において前記有意性基準を満たす変数を取得する；
ように構成される、請求項12に記載のデバイス。
コンピュータ読み取り可能なプログラムを保存するように構成されるメモリ；及び
請求項1ないし6のうち何れか一項による方法を実行するために前記メモリ内の前記プログラムを実行するように構成されるプロセッサ；
を有する、サービス・パラメータを選択する装置。