JP2022534160A - 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2022534160A
JP2022534160A JP2021541618A JP2021541618A JP2022534160A JP 2022534160 A JP2022534160 A JP 2022534160A JP 2021541618 A JP2021541618 A JP 2021541618A JP 2021541618 A JP2021541618 A JP 2021541618A JP 2022534160 A JP2022534160 A JP 2022534160A
Authority
JP
Japan
Prior art keywords
values
possible values
feature
feature variable
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021541618A
Other languages
English (en)
Other versions
JP7288062B2 (ja
Inventor
リウ,ハァォチァン
リィー,ユァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022534160A publication Critical patent/JP2022534160A/ja
Application granted granted Critical
Publication of JP7288062B2 publication Critical patent/JP7288062B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2022534160000001
本出願の実施形態は、情報を出力するための方法及び装置を開示した。上記方法の具体的な実施形態は情報を出力するための方法であって、ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を含む情報を出力するための方法この実施形態は、ビッグデータからユーザの対応するラベル値をマイニングすることができ、効率的で自動化された情報マイニングが実現された。
【選択図】図2

Description

[関連出願の相互参照]
本出願は、2019年11月13日に提出された、出願番号が201911106997.8で、出願人がベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドで、発明の名称が「情報を出力するための方法及び装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本出願に組み込む。
本出願の実施形態は、コンピュータ技術分野に関し、具体的に情報を処理するための方法及び装置に関する。
現在、中国の金融業の発展に伴い、金融サービスの被覆面は徐々に拡大している。銀行でお金を借りたり、商業銀行に個人のクレジットカードを申し込んだりしたことがあるユーザに対しては、中央銀行には彼らの貸付金額、回数、期限内返済の有無およびクレジットカード消費の借り越し返済の有無などの信用記録が記録されている。商業銀行に手数料を払って信用記録を出力してもらえるが、クレジットカードを扱っておらず、借入記録もない金融サービス対象に対して、その関連する信用情報が不足している。
ビッグデータは、金融関連ビジネスにデータキューブが高く、データ量が巨大という問題をもたらし、どのようにしてビッグデータから関連する金融サービス対象の信用特徴を発掘するかは、現在の重要な研究課題である。
本出願の実施形態は、情報を出力するための方法及び装置を提供する。
第1態様において、本出願の実施形態は、情報を出力するための方法であって、ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を含む情報を出力するための方法を提供する。
いくつかの実施形態において、前記の、前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップは、各特徴変数に対して、判定ステップを実行することを含み、前記判定ステップは、該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、前記第1の数に対する前記第2の数の比率を確定することと、前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することとを含む。
いくつかの実施形態において、前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するステップは、離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得ることと、前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定することと、各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出することと、ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定することと、得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定することと、を含む。
いくつかの実施形態において、前記の、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することは、連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得ることと、前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することと、を含む。
いくつかの実施形態において、前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップは、各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得ること、を含む。
第2態様において、本出願の実施形態は、情報を出力するための装置であって、ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するように構成されるデータ取得ユニットと、前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するように構成される変数分類ユニットと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される第1の集合確定ユニットと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するように構成される第2の集合確定ユニットと、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するように構成される集合出力ユニットと、を含む情報を出力するための装置を提供する。
いくつかの実施形態において、変数分類ユニットは、さらに各特徴変数に対して、判定ステップを実行するように構成され、前記判定ステップは、該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、前記第1の数に対する前記第2の数の比率を確定することと、前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することと、を含む。
いくつかの実施形態において、前記第1の集合確定ユニットは、さらに離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得、前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定し、各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出し、ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定し、得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するように構成される。
いくつかの実施形態において、前記第1の集合確定ユニットは、さらに連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得、前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される。
いくつかの実施形態において、前記第2の集合確定ユニットは、さらに各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得るように構成される。
第3態様において、本出願の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶デバイスと、を備えるサーバであって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1態様のいずれかの実施形態に記載の方法が実装される、サーバを提供する。
第4態様において、本出願の実施形態は、コンピュータプログラムが格納されているコンピュータ可読媒体であって、該コンピュータプログラムがプロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法が実装されるコンピュータ可読媒体を提供する。
本出願の上記実施形態が提供する情報を出力するための方法及び装置は、まずユーザの特徴データを取得することができる。上記特徴データは、ユーザ識別子、特徴変数の取り得る値、および各特徴変数に対応するラベル値を含んでもよい。次に、前記特徴変数を分けて、そのうちの離散型特徴変数と連続型特徴変数を確定する。異なるラベル値に対応する離散型特徴変数の集合と、異なるラベル値に対応する連続型特徴変数の集合を確定する。得られたラベル値と集合の対応関係に基づき、異なるラベル値に対応する特徴変数の集合を確定する。最後に、異なるラベル値に対応する特徴変数の集合を出力する。本実施形態の方法は、ビッグデータからユーザの対応するラベル値をマイニングすることができ、効率的で、自動化された情報マイニングを実現できる。
本出願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになるであろう。
本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。 本出願に係る情報を出力するための方法の一実施形態を示すフローチャートである。 本出願に係る情報を出力するための方法の一応用シーンを示す概略図である。 本出願に係る情報を出力するための方法のもう一つの実施形態を示すフローチャートである。 本出願に係る情報を出力するための装置の一実施形態を示す構造概略図である。 本出願の実施形態を実現するためのサーバに適用されるコンピュータシステムを示す構造概略図である。
以下、図面と実施形態を参照して、本出願をより詳細に説明する。ここで述べている具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。また、説明の便宜上、図面には発明に関連する部分のみが示されていることに留意されたい。
なお、矛盾しない限り、本出願における実施形態及び実施形態における特徴を互いに組み合わせることができる。以下、図面を参照しながら実施形態と組み合わせて本出願を詳細に説明する。
図1は、本出願に係る情報を出力するための方法または情報を出力するための装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、及びサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105の間で通信リンクの媒体を提供するために使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやりとりをすることができる。端末装置101、102、103には、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールすることができる。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェア又はソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、又は単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
サーバ105は、様々なサービスを提供するサーバ、例えば、ユーザにより端末装置101、102、103を介して生成した特徴データを処理するバックエンドサーバであってもよい。バックエンドサーバは、取得した特徴データに対して解析などの処理を行い、処理結果(例えば、異なるラベル値に対応する特徴変数の集合)を端末装置101、102、103にフィードバックすることができる。
サーバ105は、ハードウェアでもソフトウェアでもよいことに留意されたい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装され得る。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、又は単一のソフトウェア若しくはソフトウェアモジュールとして実装され得る。ここでは特に限定しない。
なお、本出願の実施形態により提供される情報を出力するための方法は、一般的にサーバ105によって実行される。それに応じて、情報を出力するための装置は一般的にサーバ105に設けられる。
図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎないことを理解されたい。実装の必要性に応じて、端末装置、ネットワーク及びサーバの数を任意に加減してもよい。
次に、本出願に係る情報を出力するための方法の一実施形態のフロー200を示す図2を参照する。本実施形態の情報を出力するための方法は、ステップ201~205を含む。
ステップ201:ユーザの特徴データを取得する。
本実施形態では、情報を出力するための方法の実行主体(例えば、図1に示すサーバ105)は有線接続方式又は無線接続方式によりユーザの特徴データを取得することができる。上記ユーザは、あるウェブサイトに登録されたユーザであってもよい。上記特徴データは、ユーザ識別子、特徴変数の取り得る値、およびユーザ識別子に対応するラベル値を含んでもよい。
ここで、ユーザ識別子は、ユーザがウェブサイトに登録したIDであってもよい。特徴変数は、ユーザの年齢、学歴、月収、月消費額などであってもよい。上記特徴変数は、離散型特徴変数および連続型特徴変数を含んでもよい。離散型特徴変数とは、その取り得る値が自然数または整数単位でしか計算できないことをいう。逆に、特定区間内で任意に取り得る変数は連続型特徴変数と呼ばれる。ユーザに対応するラベル値は、0または1を含んでもよい。異なるラベル値は、異なるユーザ品質を表すことができる。例えば、ラベル値が0であることはユーザの信用が悪いことを示し、ラベル値が1であることはユーザの信用が良いことを示す。あるいは、ラベル値が0であることはユーザが返済能力を有していることを示し、ラベル値が1であることはユーザが返済能力を有していないことを示す。
実行主体は、ユーザの特徴データを、あるウェブサイトをサポートするバックエンドサーバから取得してもよいし、ユーザの特徴データを格納するためのデータベースから取得してもよい。
ステップ202:特徴変数のうちの離散型特徴変数と連続型特徴変数を確定する。
実行主体は、特徴データを取得した後、特徴変数を解析し、そのうちの離散型特徴変数と連続型特徴変数を確定することができる。具体的には、実行主体は、特徴変数の異なる取り得る値の個数に基づいて、特定の特徴変数が離散型特徴変数であるか、または連続型特徴変数であるかを判定してもよい。
本実施形態のいくつかのオプション的な実施形態において、実行主体は、各特徴変数に対して、図2に示されていない以下の判断ステップによって離散型特徴変数であるか、または連続型特徴変数であるかを判定してもよい。判断ステップは、該特徴変数の取り得る値の第1の数及び異なる取り得る値の第2の数を統計することと、第1の数と第2の数の比率を確定することと、第1の数が所定の数量閾値よりも大きく及び比率が所定の比率閾値よりも大きければ、該特徴変数を連続型特徴変数と特定することと、第1の数が所定の数量閾値以下であるか、又は比率が所定の比率閾値以下であれば、該特徴変数を離散型特徴変数と特定することとを含む。
本実施形態において、実行主体は、各特徴変数の取り得る値の第1の数及び異なる取り得る値の第2の数を統計することができる。例えば、特徴変数は年齢である。年齢の取り得る値は、20、25、22、29、25、22、26を含んでもよい。年齢の取り得る値の第1の数は7であり、異なる取り得る値の第2の数は5である(重複の25と22を除去した)。そして、実行主体は、第1の数に対する第2の数の比率を計算することができる。先の例では、上記比率は5/7である。第2の数が所定の数量閾値よりも大きく且つ比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定する。そうでなければ、該特徴変数を離散型特徴変数とする。
ステップ203:異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定する。
離散型特徴変数と連続型特徴変数を確定した後、実行主体は、それぞれ異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することができる。具体的には、実行主体は、大量のユーザの特徴データを統計し、同じラベル値を有する複数のユーザ間で共通する離散型特徴変数の取り得る値と連続型特徴変数の取り得る値を確定してもよい。そして、統計結果に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合を得る。例えば、実行主体は、1000人のユーザの特徴データを統計し、ラベル値が1である780人のユーザの間で共有される離散型特徴変数(学歴)の取り得る値はいずれも「院卒及び以上」であり、年齢はいずれも「25~35」に位置し、かつ月収はいずれも「1.5万元超え」であり、月消費はいずれも「8000元未満」であることを発見した。実行主体は、ラベル値1に対応する離散型特徴変数の取り得る値の集合が、学歴「院卒以上」、年齢「25~35」である要素を含むと判定することができる。ラベル値1に対応する連続型特徴変数の取り得る値の集合が、月収「1.5万元超え」、月消費「8000元未満」である要素を含むと判定することができる。
ステップ204:異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づいて、異なるラベル値に対応する特徴変数の取り得る値の集合を確定する。
異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合を確定した後、実行主体は、これらの両者に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定することができる。
本実施形態のいくつかのオプション的な実施形態において、実行主体は、図2に示されていない以下のステップに基づいて異なるラベル値に対応する特徴変数の取り得る値の集合を確定することができる:各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得る。
本実施形態では、実行主体は、単一のラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合との積集合又は和集合を求め、単一のラベル値に対応する特徴変数の取り得る値の集合を得ることができる。サービスの具体的な状況に応じて、2つの集合の積集合を求めるか、和集合を求めるかを選択できることを理解されたい。
ステップ205:異なるラベル値に対応する特徴変数の取り得る値の集合を出力する。
次に、本実施形態に係る情報を出力するための方法の応用シーンを示す概略図である図3を参照する。図3の応用シーンでは、サーバは、特定の金融サイトにおけるユーザの特徴データを取得した。特徴データに対してステップ201~204の処理を行い、ラベル値が1(信用度の高いユーザ)の特徴は年齢が25~40歳、学歴が学部卒以上、月収が8000元超え、預金が5万元以上及び消費が1万元未満であることを特定した。ラベル値が0(信用不良のユーザ )の特徴は、学歴が高校卒、月収が8000元未満、預金が5万元未満、消費額が1万元超えである。
本出願の上記実施形態が提供する情報を出力するための方法は、まずユーザの特徴データを取得することができる。上記特徴データは、ユーザ識別子、特徴変数の取り得る値、および各特徴変数に対応するラベル値を含んでもよい。次に、前記特徴変数を分けて、そのうちの離散型特徴変数と連続型特徴変数を確定する。異なるラベル値に対応する離散型特徴変数の集合と、異なるラベル値に対応する連続型特徴変数の集合を確定する。得られたラベル値と集合の対応関係に基づき、異なるラベル値に対応する特徴変数の集合を確定する。最後に、異なるラベル値に対応する特徴変数の集合を出力する。本実施形態の方法は、ビッグデータからユーザの対応するラベル値をマイニングすることができ、効率的で、自動化された情報マイニングを実現できる。
次に、本出願に係る情報を出力するための方法のもう一つの実施形態のフロー400を示す図4を参照する。図4に示すように、本実施形態の情報を出力するための方法は、ステップ401~405を含んでもよい。
ステップ401:ユーザの特徴データを取得する。
ステップ402:特徴変数のうちの離散型特徴変数と連続型特徴変数を確定する。
ステップ4031:離散型特徴変数に対して、ステップ4031a~4031eを実行する。
ステップ4031a:離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得る。
本実施形態では、実行主体は各離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を訓練サンプルとして用い、第1の二項分類モデルを訓練して得ることができる。具体的には、実行主体は、離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、XGBoostマルチラウンドトレーニングパラメータ最適化方法を採用して第1の二項分類モデルを得ることができる。XGBoost(eXtreme Gradient Boosting)は、Tian Chenが2015年に提案した統合学習アルゴリズムである。伝統的なXGBoostアルゴリズムは、Boosting統合学習アルゴリズムに由来し、進化過程においてまたBagging統合学習方法の優位性を融合し、Gradient Boostingフレームワークにより損失関数をカスタマイズしてアルゴリズムによる汎用問題の解決能力を向上させ、それによりXGBoostアルゴリズムは学術競技と産業分野において非常に頻繁に使用され、分類、回帰、順序付けなどの具体的なシーンに効果的に応用することができる。
ステップ4031b:第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定する。
上記第1の二項分類モデルを訓練して得た後、さらに離散型特徴変数ごとの重みを得ることができる。上記重みは、ツリーごとに離散型特徴変数それぞれの予測スコアを加算したものである。
ステップ4031c:各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出する。
実行主体は、各離散型特徴変数の重みに基づき、各離散型特徴変数をソートし、ソート結果中に上位10%に位置する離散型特徴変数を抽出し、さらに議論する特徴変数とすることができる。
ステップ4031d:ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定する。
実行主体はまた、ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づいて、抽出された各離散型特徴変数の取り得る値の証拠重み(WOE)値を計算することができる。上記予め設定された証拠重み計算式は以下のように示されてもよい。
WOE=ln(ラベル1のユーザ占有率/ラベル0のユーザ占有率)×100%。
ここで、ラベル1のユーザ占有率=ラベル1のユーザ数/全ユーザ数であり、ラベル0のユーザ占有率=ラベル0のユーザ数/全ユーザ数である。
ステップ4031e:得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定する。
実行主体は、抽出された離散型特徴変数それぞれの取り得る値のWOE値を確定した後、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定してもよい。例えば、実行主体は、WOE値>0の離散型特徴変数の取り得る値をラベル値1に対応する離散型特徴変数の取り得る値の集合に追加し、WOE値≦0の離散型特徴変数の取り得る値をラベル値0に対応する離散型特徴変数の取り得る値の集合に追加することができる。
ステップ4032:連続型特徴変数に対して、ステップ4032a~4032bを実行する。
ステップ4032a:連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得る。
実行主体は、各連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、決定木を利用してマルチラウンドの訓練を行い、決定木スプリットポイント構造、すなわち第2の二項分類モデルを得ることができる。
ステップ4032b:第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定する。
上記第2の二項分類モデルを得た後、第2の二項分類モデルで得られたラベル値1の決定パスに基づき、ラベル値1に対応する連続型特徴変数の取り得る値の集合を得ることができる。さらに第2の二項分類モデルで得られたラベル値0の決定パスに基づき、ラベル値0に対応する連続型特徴変数の取り得る値の集合を得ることもできる。
ステップ404:各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得る。
ステップ405:異なるラベル値に対応する特徴変数の取り得る値の集合を出力する。
異なるラベル値に対応する特徴変数の取り得る値の集合を得た後、実行主体は対応するルールを作成することができる。例えば、ラベル値1に対応する特徴変数の取り得る値の集合に基づき、「年齢25~40歳、学歴学部卒以上、月収8000元超、預金5万元超、消費1万元未満のユーザを信用良質ユーザ」というルールを決定する。
本出願の上記実施形態により提供される情報を出力するための方法は、二項分類モデルを利用してユーザ特徴データのマイニングを実現することができ、それによりマイニングされた情報の信頼性が向上される。
さらに図5を参照すると、上記の図に示された方法の実施態様として、本出願は、情報を出力するための装置の一実施形態を提供し、当該装置の実施形態は、図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図5に示すように、本実施形態の情報を出力するための装置500は、データ取得ユニット501と、変数分類ユニット502と、第1の集合確定ユニット503と、第2の集合確定ユニット504と、集合出力ユニット505とを備える。
データ取得ユニット501は、ユーザの特徴データを取得するように構成される。特徴データは、ユーザ識別子、特徴変数の取り得る値、およびユーザ識別子に対応するラベル値を含む。
変数分類ユニット502は、特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するように構成される。
第1の集合確定ユニット503は、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される。
第2の集合確定ユニット504は、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するように構成される。
集合出力ユニット505は、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するように構成される。
本実施形態のいくつかのオプション的な実施形態において、変数分類ユニット502は、さらに各特徴変数に対して、判定ステップを実行するように構成され、前記判定ステップは、該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、前記第1の数に対する第2の数の比率を確定と、第2の数が所定の数量閾値よりも大きく且つ比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数として特定することと、第2の数が所定の数量閾値以下であるか又は比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数として特定することと、を含む。
本実施形態のいくつかのオプション的な実施形態において、第1の集合確定ユニット503は、さらに離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得、第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定し、各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出し、ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定し、得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するように構成される。
本実施形態のいくつかのオプション的な実施形態において、第1の集合確定ユニット503は、さらに連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得、第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される。
本実施形態のいくつかのオプション的な実施形態において、第2の集合確定ユニット504は、さらに各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得るように構成される。
情報を出力するための装置500に列挙されたユニット501~505は、図2を参照して説明された方法の各ステップに対応することを理解されたい。したがって、情報を出力するための方法について上記で記述した動作および特徴は、装置500およびその中に含まれるユニットに同様に適用可能であり、ここではその説明を省略する。
以下、本出願の実施形態を実現するために適用される電子機器(例えば、図1に示すサーバ)600を示す構造概略図である図6を参照する。図6に示すサーバは、あくまでも一例に過ぎず、本出願の実施形態の機能及び使用範囲を限定するものではない。
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているプログラムまたは記憶デバイス608からランダムアクセスメモリ(RAM)603にロードされたプログラムによって様々な適当な動作および処理を実行可能な処理デバイス(例えば、中央処理装置、グラフィックスプロセッサなど)601を含むことができる。RAM603には、電子機器600の動作に必要な様々なプログラム及びデータが更に格納されている。処理デバイス601、ROM602及びRAM603は、バス604を介して互いに接続されている。入/出力(I/O)インターフェース605もバス604に接続されている。
通常、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む入力デバイス606、液晶ディスプレイ(LCD)、スピーカ、振動子などを含む出力デバイス607、例えば、磁気テープ、ハードディスクなどを含む記憶デバイス608、および通信デバイス609がI/Oインターフェース605に接続されてもよい。通信デバイス609により、電子機器600は、データを交換するために他のデバイスと無線または有線で通信することができる。図6は、様々なデバイスを有する電子機器600を示しているが、図示されたデバイスのすべてを実装または具備することが要求されないことを理解されたい。代替的にまたはより多いまたはより少ないデバイスが実装されてもよい。図6に示す各ブロックは、1つのデバイスを表すことも、必要に応じて複数のデバイスを表すこともできる。
特に、本出願の実施形態によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本出願の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施形態では、該コンピュータプログラムは、通信デバイス609を介してネットワークからダウンロードされてインストールされることが可能であり、または記憶デバイス608またはROM602からインストールされ得る。該コンピュータプログラムが処理デバイス601によって実行されると、本出願の実施形態の方法で限定された上記の機能を実行する。注意すべきなのは、本出願の実施形態に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体システム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数本の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本出願の実施形態において、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本出願の実施形態において、コンピュータ可読信号媒体は、ベースバンド内の、または搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ読み取り可能なプログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、電線、光ケーブル、RF(無線周波数)など、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
前記コンピュータ可読媒体は、前記電子機器に含まれるものであってもよく、該電子機器に実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体に一つまたは複数のプログラムが担持され、上記一つまたは複数のプログラムが該電子機器に実行されるとき、ユーザ識別子、特徴変数の取り得る値及び各特徴変数のユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を該電子機器に実行させる。
本出願の実施形態の動作を実行するためのコンピュータプログラムコードは、1種以上のプログラミング言語、又はそれらの組み合わせで作成されることができ、前記プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または(例えば、インターネットサービスプロバイダによるインターネットサービスを介して)外部のコンピュータに接続することができる。
図面のうちのフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法およびコンピュータプログラム製品によって実現できるアーキテクチャ、機能および動作の表示例である。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能命令が含まれている。さらに注意すべきなのは、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応じて、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアベースのシステムで実現することもできれば、専用のハードウェアとコンピュータ命令との組み合わせで実現することもできる。
本出願の実施形態に記載されたユニットは、ソフトウェアで実装されてもよく、ハードウェアで実装されてもよい。記述されたユニットはプロセッサに設けられてもよく、例えば、データ取得ユニット、変数分類ユニット、第1の集合確定ユニット、第2の集合確定ユニット及び集合出力ユニットを含むプロセッサというように記述されてもよい。ここで、これらのユニットの名称は、場合によっては、そのユニット自体を限定するものではなく、例えば、データ取得ユニットは「ユーザの特徴データを取得するユニット」というように記述されてもよい。
以上の記載は、本出願の好ましい実施形態、および適用される技術的原理に関する説明に過ぎない。当業者であれば、本出願の実施形態に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の本出願の趣旨を逸脱しない範囲で、上記の技術的特徴またはそれらの同等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを理解すべきである。例えば、上記の特徴と、本出願の実施形態に開示された類似の機能を持っている技術的特徴とを互いに置き換えてなる技術案(これらに限定されていない)が挙げられる。
本出願の実施形態は、コンピュータ技術分野に関し、具体的に情報を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。
本出願の実施形態は、情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
第3態様において、本出願の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶デバイスと、を備える電子機器であって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1態様のいずれかの実施形態に記載の方法が実装される、電子機器を提供する。
第4態様において、本出願の実施形態は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、該コンピュータプログラムがプロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法が実装されるコンピュータ可読記憶媒体を提供する。
第5態様において、本出願の実施形態は、プロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法が実装されるコンピュータプログラムを提供する。
本出願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになるであろう。
本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。 本出願に係る情報を出力するための方法の一実施形態を示すフローチャートである。 本出願に係る情報を出力するための方法の一応用シーンを示す概略図である。 本出願に係る情報を出力するための方法のもう一つの実施形態を示すフローチャートである。 本出願に係る情報を出力するための装置の一実施形態を示す構造概略図である。 本出願の実施形態を実現するための電子機器に適用されるコンピュータシステムを示す構造概略図である。

Claims (12)

  1. 情報を出力するための方法であって、
    ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、
    前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、
    異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、
    異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、
    異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を含む情報を出力するための方法。
  2. 前記の、前記特徴変数中の離散型特徴変数と連続型特徴変数を確定するステップは、
    特徴変数のそれぞれに対して、判定ステップを実行することを含み、前記判定ステップは、
    該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、
    前記第1の数に対する前記第2の数の比率を確定することと、
    前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、
    前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することとを含む請求項1に記載の方法。
  3. 前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するステップは、
    離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得ることと、
    前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定することと、
    各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出することと、
    ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定することと、
    得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定することと、を含む請求項1に記載の方法。
  4. 前記の、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することは、
    連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得ることと、
    前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することと、を含む請求項1に記載の方法。
  5. 前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップは、
    各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得ること、を含む請求項1に記載の方法。
  6. 情報を出力するための装置であって、
    ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するように構成されるデータ取得ユニットと、
    前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するように構成される変数分類ユニットと、
    異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される第1の集合確定ユニットと、
    異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するように構成される第2の集合確定ユニットと、
    異なるラベル値に対応する特徴変数の取り得る値の集合を出力するように構成される集合出力ユニットと、を含む情報を出力するための装置。
  7. 変数分類ユニットは、さらに
    各特徴変数に対して、判定ステップを実行するように構成され、
    前記判定ステップは、
    該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、
    前記第1の数に対する前記第2の数の比率を確定することと、
    前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、
    前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することと、を含む請求項6に記載の装置。
  8. 前記第1の集合確定ユニットは、さらに
    離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得、
    前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定し、
    各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出し、
    ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定し、
    得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するように構成される請求項6に記載の装置。
  9. 前記第1の集合確定ユニットは、さらに
    連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得、
    前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される請求項6に記載の装置。
  10. 前記第2の集合確定ユニットは、さらに
    各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得るように構成される請求項6に記載の装置。
  11. 1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶デバイスと、を備えるサーバであって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~5のいずれか一項に記載の方法が実装させる、サーバ。
  12. コンピュータプログラムが格納されるコンピュータ可読媒体であって、
    該コンピュータプログラムがプロセッサによって実行されると、請求項1~5のいずれか一項に記載の方法が実装される、コンピュータ可読媒体。
JP2021541618A 2019-11-13 2020-06-09 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7288062B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911106997.8 2019-11-13
CN201911106997.8A CN110795638A (zh) 2019-11-13 2019-11-13 用于输出信息的方法和装置
PCT/CN2020/095193 WO2021093320A1 (zh) 2019-11-13 2020-06-09 用于输出信息的方法和装置

Publications (2)

Publication Number Publication Date
JP2022534160A true JP2022534160A (ja) 2022-07-28
JP7288062B2 JP7288062B2 (ja) 2023-06-06

Family

ID=69444459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021541618A Active JP7288062B2 (ja) 2019-11-13 2020-06-09 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210349920A1 (ja)
EP (1) EP3901789A4 (ja)
JP (1) JP7288062B2 (ja)
CN (1) CN110795638A (ja)
WO (1) WO2021093320A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795638A (zh) * 2019-11-13 2020-02-14 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN113536107B (zh) * 2020-10-06 2022-07-29 西安创业天下网络科技有限公司 基于区块链的大数据决策方法、系统及云端服务中心

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0261769A (ja) * 1988-08-29 1990-03-01 Fujitsu Ltd 分類決定木生成装置
JPH0696050A (ja) * 1992-09-16 1994-04-08 Yaskawa Electric Corp 決定木の作成方法
CN107590735A (zh) * 2017-09-04 2018-01-16 深圳市华傲数据技术有限公司 用于信用评估的数据挖掘方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150220951A1 (en) * 2009-01-21 2015-08-06 Truaxis, Inc. Method and system for inferring an individual cardholder's demographic data from shopping behavior and external survey data using a bayesian network
US20130085965A1 (en) * 2011-10-04 2013-04-04 Hui Dai Method and Apparatus of Investment Strategy Formulation and Evaluation
CN103136247B (zh) * 2011-11-29 2015-12-02 阿里巴巴集团控股有限公司 属性数据区间划分方法及装置
EP2688264B1 (en) * 2012-07-16 2016-08-24 Alcatel Lucent Method and apparatus for privacy protected clustering of user interest profiles
US9384571B1 (en) * 2013-09-11 2016-07-05 Google Inc. Incremental updates to propagated social network labels
US20160125297A1 (en) * 2014-10-30 2016-05-05 Umm Al-Qura University System and method for solving spatiotemporal-based problems
CN105591972B (zh) * 2015-12-22 2018-09-11 桂林电子科技大学 一种基于本体的网络流量分类方法
CN106651574A (zh) * 2016-12-30 2017-05-10 苏州大学 一种个人信用评估方法及装置
US10997672B2 (en) * 2017-05-31 2021-05-04 Intuit Inc. Method for predicting business income from user transaction data
CN107545360A (zh) * 2017-07-28 2018-01-05 浙江邦盛科技有限公司 一种基于决策树的风控智能规则导出方法及系统
CN108154430A (zh) * 2017-12-28 2018-06-12 上海氪信信息技术有限公司 一种基于机器学习和大数据技术的信用评分构建方法
CN110266510B (zh) * 2018-03-21 2022-05-24 腾讯科技(深圳)有限公司 网络控制策略生成方法及装置、网络控制方法、存储介质
CN110210218B (zh) * 2018-04-28 2023-04-14 腾讯科技(深圳)有限公司 一种病毒检测的方法以及相关装置
CN110210884B (zh) * 2018-05-29 2023-05-05 腾讯科技(深圳)有限公司 确定用户特征数据的方法、装置、计算机设备及存储介质
CN109685574A (zh) * 2018-12-25 2019-04-26 拉扎斯网络科技(上海)有限公司 数据确定方法、装置、电子设备及计算机可读存储介质
CN110147821B (zh) * 2019-04-15 2024-09-17 中国平安人寿保险股份有限公司 目标用户群体确定方法、装置、计算机设备及存储介质
US20210097424A1 (en) * 2019-09-26 2021-04-01 Microsoft Technology Licensing, Llc Dynamic selection of features for training machine learning models
CN110795638A (zh) * 2019-11-13 2020-02-14 北京百度网讯科技有限公司 用于输出信息的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0261769A (ja) * 1988-08-29 1990-03-01 Fujitsu Ltd 分類決定木生成装置
JPH0696050A (ja) * 1992-09-16 1994-04-08 Yaskawa Electric Corp 決定木の作成方法
CN107590735A (zh) * 2017-09-04 2018-01-16 深圳市华傲数据技术有限公司 用于信用评估的数据挖掘方法及装置

Also Published As

Publication number Publication date
WO2021093320A1 (zh) 2021-05-20
KR20210097204A (ko) 2021-08-06
EP3901789A4 (en) 2022-09-21
CN110795638A (zh) 2020-02-14
US20210349920A1 (en) 2021-11-11
EP3901789A1 (en) 2021-10-27
JP7288062B2 (ja) 2023-06-06

Similar Documents

Publication Publication Date Title
CN109492772B (zh) 生成信息的方法和装置
CN110119413A (zh) 数据融合的方法和装置
US10554679B2 (en) Abusive traffic detection
CN111898675B (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN107944481A (zh) 用于生成信息的方法和装置
CN112598294A (zh) 在线建立评分卡模型的方法、装置、机器可读介质及设备
JP7288062B2 (ja) 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN111563267A (zh) 用于联邦特征工程数据处理的方法和装置
CN112529477A (zh) 信用评估变量筛选方法、装置、计算机设备及存储介质
CN112131322A (zh) 时间序列分类方法及装置
CN112950359A (zh) 一种用户识别方法和装置
CN111553685B (zh) 确定交易路由通道的方法、装置、电子设备和存储介质
CN111782933B (zh) 用于推荐书单的方法和装置
CN112966756A (zh) 一种可视化的准入规则的生成方法、装置、机器可读介质及设备
CN111259975A (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN112446777A (zh) 一种信用评估方法、装置、设备及存储介质
CN114066603A (zh) 贷后风险预警方法、装置、电子设备和计算机可读介质
CN110895564A (zh) 一种潜在客户数据处理方法和装置
CN112949670B (zh) 用于联邦学习模型的数据集切换方法和装置
CN112948691B (zh) 实体场所的体验指标计算方法和装置
CN111932323B (zh) 物品信息界面显示方法、装置、设备和计算机可读介质
KR102722157B1 (ko) 정보를 출력하는 방법 및 장치
CN118656685A (zh) 一种衍生特征提取方法、装置、计算机设备及存储介质
CN116308722A (zh) 一种风控模型冷启动建模方法、装置及存储介质
CN112288540A (zh) 物品定制化信息推送方法、装置、电子设备和可读介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210804

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230525

R150 Certificate of patent or registration of utility model

Ref document number: 7288062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150