JP6438135B2 - ソーシャルプラットフォームに基づくデータマイニング方法及び装置 - Google Patents

ソーシャルプラットフォームに基づくデータマイニング方法及び装置 Download PDF

Info

Publication number
JP6438135B2
JP6438135B2 JP2017525373A JP2017525373A JP6438135B2 JP 6438135 B2 JP6438135 B2 JP 6438135B2 JP 2017525373 A JP2017525373 A JP 2017525373A JP 2017525373 A JP2017525373 A JP 2017525373A JP 6438135 B2 JP6438135 B2 JP 6438135B2
Authority
JP
Japan
Prior art keywords
registered user
follow
interest
label
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017525373A
Other languages
English (en)
Other versions
JP2018503158A (ja
Inventor
一 鳴 張
一 鳴 張
韜 陳
韜 陳
歡 歡 曹
歡 歡 曹
立 新 羅
立 新 羅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2018503158A publication Critical patent/JP2018503158A/ja
Application granted granted Critical
Publication of JP6438135B2 publication Critical patent/JP6438135B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、コンピュータ分野に関し、具体的には、ソーシャルプラットフォームに基づくデータマイニング方法及び装置に関するものである。
現在、コンピュータ技術が進展し、インターネットがだんだん普及していくにつれ、ますます多くの人がインターネットを介して様々な情報を取得するようになっている。これに応じて、インターネット上の情報数も、コンピュータ技術の進展及びインターネットの普及に伴っていっそう豊かになる。
近年来、移動インターネットが急速に進展する中、人々は、だんだん、移動端末における情報クライアントを介する情報内容の取得に慣れている。このような方式では、ユーザがネットワークを介して情報を取得する時間は、いっそう断片化していく。これを背景に、ユーザに対して価値ありかつユーザが関心を持っている情報をどのように正確に提供するか、より重要な課題となる。特に、新規ユーザに価値ありかつ関心を持っている情報を提供することが急務である。
従来の技術において、推薦システムのコールドスタート問題は、情報クライアントのような製品アプリケーションにおける主なチャレンジである。推薦システムのコールドスタート問題とは、システムは新規ユーザに対して、ユーザの興味捕捉及び有効な内容推薦のために十分なデータを持っていないことをいう。この問題に対して、多様な対策のうち、ユーザがソーシャルネットワーク(Social Network Service、SNS)アカウントで推薦システムにログインし、例えば、ウェイボー、テンセントQQ、人人網等のソーシャルアカウントでログインすることを励ます方法が広く利用されている。推薦システムは、ユーザのソーシャルネットワークプラットフォームの情報(例えば、フォロー関係、友人関係、興味ラベル、発表内容等)によりユーザの興味モデルを初期化することにより、有効な推薦を行うことができる。
一方、ただソーシャルネットワークプラットフォームの公開データだけを内容推薦のために利用する(公開データは、例えば、ビデオ、文章、ピクチャ、音楽、ゲーム、ソフトウェア、友人等である)ことは、実際の応用にあたる困難が少なくない。例えば、ソーシャルネットワークプラットフォームにおける発表内容は、多くの場合幅が短くて内容が雑多であり、ユーザのラベル内容は、きわだったもの(例えば、朝寝坊しないと絶対死ぬ星人、救えない集合体恐怖症患者)が多く、機械学習アルゴリズムによる理解が困難であり、推薦サービスの改良に寄与することが制約されている。同時に、ソーシャルネットワークにおいてあまり活発でなくて、ソーシャル関係が弱いユーザにとって、そのソーシャルネットワークプラットフォームにおける公開データによる推薦効果の改良機能がさらに制限る。その一方、比較的成熟した、ユーザ量が大きい内容推薦サービス提供者は、長年にわたって運営する中、たくさんのユーザ行為情報、例えば、ユーザがオンデマンドしたビデオ、読んだ又はコメントをしたことがある文章などを積み上げてきたものが多い。この部分のデータをソーシャルネットワークの公開データと有効に融合して利用できれば、ユーザに対する推薦効果を大幅に向上させることが可能である。しかし、従来の技術は、ほとんどソーシャルネットワークプラットフォームに提供される公開データを用いたユーザの興味モデルのマイニング及び推薦にフォーカスしており、このような方法の実現は困難が大きく、正確さが低い。
従来技術において、新規登録したユーザは閲覧履歴が記録されたことがないため、対象を絞った情報提供ができない問題に対して、未だに有効な対策が提案されていない。
本発明は、従来技術において、新規登録したユーザは閲覧履歴が記録されたことがないため、対象を絞った情報提供ができない問題を解決するソーシャルプラットフォームに基づくデータマイニング方法及び装置を提供することがその主な目的である。
上記目的を達成するために、本発明の実施例の一態様によれば、ソーシャルプラットフォームに基づくデータマイニング方法が提供される。該方法は、情報クライアントにおける登録済みユーザの興味ラベル辞書を取得することと、ソーシャルプラットフォームにおける、情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、登録済みユーザと第1対象との間の関係情報を読み取ることと、登録済みユーザとの間にフォロー関係を有する第1対象によって、登録済みユーザに対応する第1フォロー集合を決定することと、登録済みユーザの興味ラベル辞書及び第1フォロー集合に基づいて、同じ第1フォロー集合を有する登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築することと、情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上のフォロー関係を有する第2対象を取得し、新規登録したユーザと第2対象との間の関係情報を読み取ることと、新規登録したユーザとの間にフォロー関係を有する第2対象に基づいて、新規登録したユーザの第2フォロー集合を決定することと、第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定することと、を含む。
上記目的を達成するために、本発明の実施例の他の一態様によれば、ソーシャルプラットフォームに基づくデータマイニング装置が提供される。該装置は、情報クライアントにおける登録済みユーザの興味ラベル辞書を取得する第1取得モジュールと、ソーシャルプラットフォームにおける、情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、登録済みユーザと第1対象との間の関係情報を読み取る第2取得モジュールと、登録済みユーザとの間にフォロー関係を有する第1対象によって、登録済みユーザに対応する第1フォロー集合を決定する第1決定モジュールと、登録済みユーザの興味ラベル辞書及び第1フォロー集合に基づいて、同じ第1フォロー集合を有する登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築する第1処理モジュールと、情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上のフォロー関係を有する第2対象を取得し、新規登録したユーザと第2対象との間の関係情報を読み取る第3取得モジュールと、新規登録したユーザとの間にフォロー関係を有する第2対象に基づいて、新規登録したユーザの第2フォロー集合を決定する第2決定モジュールと、第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定する第2処理モジュールと、を備える。
本発明の実施例によれば、ソーシャルプラットフォームに基づくデータマイニング方法が提供される。該方法は、情報クライアントにおける登録済みユーザの興味ラベル辞書を取得することと、ソーシャルプラットフォームにおける、情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、登録済みユーザと第1対象との間の関係情報を読み取ることと、登録済みユーザとの間にフォロー関係を有する第1対象によって、登録済みユーザに対応する第1フォロー集合を決定することと、登録済みユーザの興味ラベル辞書及び第1フォロー集合に基づいて、同じ第1フォロー集合を有する登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築することと、情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上のフォロー関係を有する第2対象を取得し、新規登録したユーザと第2対象との間の関係情報を読み取ることと、新規登録したユーザとの間にフォロー関係を有する第2対象に基づいて、新規登録したユーザの第2フォロー集合を決定することと、第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定することとにより、従来技術において、新規登録したユーザは閲覧履歴が記録されたことがないため、対象を絞った情報提供ができない問題を解決する。そのうえ、新規登録したユーザのソーシャルプラットフォームにおけるフォロー関係によって、ユーザへの対象を絞った情報提供を行う効果を実現する。
本願の一部を構成する図面は、本発明をさらに理解させるためのものであり、また、本発明における模式的実施例及びその説明は本発明を説明するものであり、本発明を不当に限定するものではない。図面において、
本発明の実施例1によるソーシャルプラットフォームに基づくデータマイニングのフローチャートである。 本発明の実施例1による好適なソーシャルプラットフォームに基づくデータマイニングのフローチャートである。 ウェイボーにおけるフォロー集合によって登録済みユーザをマッチングし、登録済みユーザ集合を生成するフローを示す図である。 本発明の実施例2によるソーシャルプラットフォームに基づくデータマイニング装置の構造を示す図である。 本発明の実施例2による好適なソーシャルプラットフォームに基づくデータマイニング装置の構造を示す図である。 本発明の実施例2による好適なソーシャルプラットフォームに基づくデータマイニング装置の構造を示す図である。
なお、衝突しない限り、本願の実施例及び実施例中の構成要件を組み合わせることができる。以下、図面を参照しつつ実施例を結合して本発明を詳しく説明する。
当業者に本発明の方案をよりよく理解してもらうために、以下、本発明の実施例の図面を結合して本発明の実施例の技術案を明瞭かつ完全に説明するが、説明しようとする実施例は本発明の実施例の一部に過ぎず、全部ではないことは、言うまでもない。当業者が本発明の実施例に基づいて、創造的な労働無しに得られた他の実施例も、すべて本発明の保護範囲内に含まれるべきである。
なお、本発明の明細書及び特許請求の範囲並びに上記図面における「第1」、「第2」等の用語は、類似した対象を区別するためのものであり、特定の順番又は前後順序を説明するためのものではない。ここで本発明の実施例を説明するために、このように使用された数字は適した場合であれば互いに取り替え可能であることは、理解されるべきである。また、用語である「含む」、「有する」及びそれらの如何なる変形は、排他的にならずに含まれたものをカバーすることがその意図であり、例えば、一連のステップ又はユニットを含めたプロセス、方法、システム、製品又は機器は、明確に示したステップ又はユニットに限定される必要がなく、これらのプロセス、方法、製品又は機器に対して明確に示していなかったり、固有であったりする他のステップ又はユニットを含むことができる。
(実施例1)
本発明の実施例において、ソーシャルプラットフォームに基づくデータマイニング方法が提供される。
図1は、本発明の実施例1によるソーシャルプラットフォームに基づくデータマイニング方法のフローチャートである。図1に示すように、この方法は、以下のステップS11〜ステップS23を含む。
ステップS11:情報クライアントにおける登録済みユーザの興味ラベル辞書を取得する。
本願の上記ステップS11は、登録済みユーザの閲覧履歴を収集することで、個々の登録済みユーザに対応する興味ラベル辞書を分析して得る。
ステップS13:ソーシャルプラットフォームにおける、情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、登録済みユーザと第1対象との間の関係情報を読み取る。
本願の上記ステップS13は、登録済みユーザのソーシャルプラットフォームにおけるフォロー関係情報を取得することで、登録済みユーザとの間にフォロー関係を有する対象を決定する。
実際の応用において、フォロー関係は、テンセントQQソフトウェアにおける友人関係であってもよいし、ウェイボーにおけるフォロー関係であってもよく、また、人人網における友達関係であってもよい。
ステップS15:登録済みユーザとの間にフォロー関係を有する第1対象によって、登録済みユーザに対応する第1フォロー集合を決定する。
本願の上記ステップS15は、個々の登録済みユーザとの間にフォロー関係を有する第1対象をそれぞれまとめることにより、個々の登録済みユーザの第1フォロー集合を決定する。
ステップS17:登録済みユーザの興味ラベル辞書及び第1フォロー集合に基づいて、同じ第1フォロー集合を有する登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築する。
本願の上記ステップS17は、個々の登録済みユーザのフォロー集合を分析することで、第1フォロー集合が異なる登録済みユーザを、若干の第1フォロー集合にそれぞれ対応する登録済みユーザ集合に分類し、登録済みユーザ集合における登録済みユーザの興味ラベル辞書によって、第1フォロー集合に対応するユーザ集合ラベル辞書を生成する。これにより、第1フォロー集合と興味ラベルとの対応関係を決定する。
ステップS19:情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上のフォロー関係を有する第2対象を取得し、新規登録したユーザと第2対象との間の関係情報を読み取る。
本願の上記ステップS19は、新規登録したユーザのソーシャルプラットフォームにおけるフォロー関係情報を読み取ることで、新規登録したユーザとの間にフォロー関係を有する第2対象を決定する。
実際の応用において、フォロー関係は、テンセントQQソフトウェアにおける友人関係であってもよいし、ウェイボーにおけるフォロー関係であってもよく、また、人人網における友達関係であってもよい。
ステップS21:新規登録したユーザとの間にフォロー関係を有する第2対象に基づいて、新規登録したユーザの第2フォロー集合を決定する。
本願の上記ステップS21は、新規登録したユーザとの間にフォロー関係を有する第2対象をまとめることにより、新規登録したユーザの第2フォロー集合を決定する。
ステップS23:第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定する。
本願の上記ステップS23は、新規登録したユーザの第2フォロー集合と興味モデルにおける若干の第1フォロー集合をマッチングすることで、新規登録したユーザの第2フォロー集合に合致する第1フォロー集合を得ることにより、該第1フォロー集合によって新規登録したユーザへの興味ラベルを決定する。
具体的には、ステップS11〜ステップS23を通じて、ソーシャルプラットフォームにおいて同じ第1フォロー集合を有する登録済みユーザをグループ分けて、該第1フォロー集合に対応する登録済みユーザ集合を得、そして、情報クライアント上の登録済みユーザの興味ラベル辞典の取得により、登録済みユーザ集合に対応するユーザ集合ラベル辞典を得る。このようにして、第1フォロー集合とユーザ集合ラベル辞典との対応関係を有する興味モデルを構築する。そして、新規登録したユーザの第2フォロー集合を取得した後、第2フォロー集合と興味モデルにおける第1フォロー集合を直接マッチングすることにより、新規登録したユーザへの推薦興味ラベルを得ることができる。
実際の応用において、ソーシャルプラットフォームにおける関係からユーザの興味類似性が反映されると考えられる。異なる仮説に基づいて、異なる方法を用いてソーシャルプラットフォームからユーザの興味に類似した他のユーザを見出すことができる。異なる仮説は、異なるタイプのソーシャルプラットフォームに適用され、例えば、テンセントQQ、微信(WeChat)のような双方向コミュニケーションに重点を置いたソーシャルプラットフォームは、友人同士の興味が類似していると想定することができる。これに対し、ウェイボーのような単方向フォローに重点を置いたソーシャルプラットフォームは、共通のフォロー対象を有するユーザ同士の興味が類似していると想定することができ、例えば、2つのユーザがともに雷軍、黄章をフォローしているとすれば、スマートフォンに関心を持つものの可能性が高い。
ソーシャルプラットフォームをウェイボーを例として説明すると、情報クライアント上の登録済みユーザのウェイボーでのフォローリストの内容を選別し、選別したファンの数が一定の数値を超えたフォロー対象、又は選別したファンの数が多い何人のフォロー対象から、第1フォロー集合が構成される。同様な選別方式により、すべての登録済みユーザのウェイボーでのフォローリストを選別し、それぞれの登録済みユーザに対応する第1フォロー集合を得、同じ第1フォロー集合を有する登録済みユーザを若干の登録済みユーザ集合に分類し、それぞれの登録済みユーザ集合が異なる第1フォロー集合を有する。登録済みユーザ集合における登録済みユーザの興味ラベル辞典を収集することで、それぞれの登録済みユーザ集合に対応するユーザ集合ラベル辞典を得る。新規登録したユーザが情報クライアントへの登録を行って、情報クライアントに対してウェイボーでの公開データを呼び出すよう許可を与えた後、この新規ユーザのフォローリストをも同様なように選別し、選別後の第2フォロー集合と若干の登録済みユーザ集合の第1フォロー集合をマッチングすることにより、新規ユーザが属する登録済みユーザ集合を決定し、該登録済みユーザ集合に対応するユーザ集合ラベル辞典、即ち、新規登録したユーザへの推薦興味ラベルを取得する。
上述したように、本発明は、従来技術において、新規登録したユーザは閲覧履歴が記録されたことがないため、対象を絞った情報提供ができない問題を解決している。さらに、新規登録したユーザのソーシャルプラットフォームにおけるフォロー関係によって、ユーザへの対象を絞った情報提供を行う効果を実現する。
本願に提供される好適な実施例において、図2に示すように、ステップS11において、情報クライアントにおける登録済みユーザの興味ラベル辞書を取得する前に、この方法は、以下のステップS101〜ステップS109を含むことが好ましい。
ステップS101:推薦情報を取得する。
ステップS103:推薦情報の内容から推薦情報の興味ラベルを抽出する。
ステップS105:登録済みユーザが推薦情報を操作する行為を記録するための登録済みユーザの行為履歴データを取得する。
ステップS107:行為履歴データに基づいて、興味ラベルのラベル重み値を決定する。
ステップS109:興味重み値に基づいて、登録済みユーザに対応する興味ラベル辞典を決定する。
具体的には、ステップS101〜ステップS109を通じて、情報クライアントにおけるすべての推薦情報の内容を分析し、推薦情報の内容に基づいて、それぞれの推薦情報ごとに興味ラベルを抽出する。登録済みユーザが推薦情報を操作する時に、登録済みユーザの操作行為を記録し、そして、推薦情報への操作行為に基づいて、この推薦情報に対応する興味ラベルを重み算出し、登録済みユーザに対応する興味ラベルの重み値を算出する。ラベル重み値が閾値よりも大きい場合、該ラベルをこのユーザに対応する興味ラベル辞典に加える。
実際の応用において、情報クライアントにおける推薦サービスは、クライアントの推薦した推薦情報内容に興味ラベルを付けるようになり、例えば、内容を分類すると、科学技術、サッカー、バスケットボール等があり、人々を集団別に分類すると、テクオタク、アウトドア派の人、青少年等があり、また、内容のキーワードとして、iPhone(登録商標)、戦車コンテスト、バイエルン・ミュンヘン等がある。これらの興味ラベルは、手動で編集されるものがあれば、推薦情報をアルゴリズムで自動的に分析して認識されるものもある。
推薦サービスの推薦可能な推薦情報はすべて興味ラベルが付けられている場合、登録済みユーザが推薦サービスを利用する行為データ、例えば、閲覧内容、クリック/お気に入り/コメント内容等を記録することにより、情報内容に対応する興味ラベルに基づいて、ユーザの興味ラベル辞典を取得する。この興味ラベル辞典は、ユーザがどのような興味ラベルを有するか、それぞれの興味ラベルの重みがどれぐらいであるかを記述する。この興味ラベル辞典を興味モデルとして後のステップに用いることができる。
具体的には、興味ラベルのラベル重み値の算出方法は、以下を含むことができる。
まず、各ユーザ動作actに対して重みwを設定し、例えば、クリックすれば、1点を加え、閲覧したもののクリックしていなければ、−0.2点を加え、お気に入りにしていれば、5点を加える。
ユーザ動作シーケンスを[act1,act2,・・・,act3]とすると、ユーザの興味ラベル重み値は、
によって算出され、
ここで、Tiは、i番目のユーザ動作の興味ラベルベクトルを表し、wiは、i番目のユーザ動作の重みを表す。
本願に提供される好適な実施例において、ステップS17において、登録済みユーザの興味ラベル辞書及び第1フォロー集合に基づいて、興味モデルを構築するステップは、以下のステップS171〜ステップS175を含むことが好ましい。
ステップS171:第1フォロー集合を、データ選別法、インデックス選別法、条件選別法及び情報選別法を少なくとも含む選別方法により選別して、登録済みユーザに対応する第3フォロー集合が得られる。
ステップS173:第3フォロー集合によって登録済みユーザをマッチングし、同じ第3フォロー集合を有する登録済みユーザを含む登録済みユーザ集合を生成する。
ステップS175:登録済みユーザ集合に含まれる登録済みユーザの興味ラベル辞典に基づいて、登録済みユーザ集合に対応するユーザ集合ラベル辞典を生成する。
具体的には、ステップS171〜ステップS175を通じて、まず登録済みユーザの第1フォロー集合を選別し、ここで、フォロワー数及び/又は友人数及び/又は活発度等の条件に従って第1フォロー集合を選別することができ、あまり活発でなくて友人が少ないユーザを第1フォロー集合から取り除き、選別した第3フォロー集合を生成する。
選別した登録済みユーザを第3フォロー集合とマッチングし、第3フォロー集合のマッチング度が予め設定された閾値よりも大きい、或いは第3フォロー集合が全く同じである登録済みユーザを、同一の登録済みユーザ集合に分類する。第3フォロー集合の内容が相違することから、登録済みユーザ集合が複数あることが可能である。もちろん、第3フォロー集合を人が自ら定義してもよく、人が自ら定義した第3フォロー集合に基づいて登録済みユーザを異なる登録済みユーザ集合にグルーピングする。
登録済みユーザ集合におけるそれぞれの登録済みユーザに対応する興味ラベル辞典の内容に基づいて、現在の登録済みユーザ集合に対応するユーザ集合ラベル辞典を生成する。
上記ソーシャルプラットフォームをウェイボーを例として説明すると、図3に示すように、図3は、ウェイボーにおけるフォロー集合に基づいて登録済みユーザをマッチングすることで登録済みユーザ集合を生成するフローを示す図である。
登録済みユーザのフォローリストの取得により、ファン数を選別条件として、フォローリストにおけるファン数の少ないユーザを選別して排除する。選別したフォローリストに基づいて第3フォロー集合を生成する。もちろん、ウェイボーの場合、第3フォロー集合を人が自ら定義してもよい。例えば、ウェイボーにおける特定したユーザをユーザのカテゴリ別に分類すると、李開復、雷軍、周鴻イ、李彦宏といったコンピュータインタネット分野のユーザを1つの第3フォロー集合に分類することができ、何ジョン、謝娜、戴軍といったエンターテイメントメディア分野のユーザを1つの第3フォロー集合に分類することができ、さらに、魏克星、李娜、劉翔といった体育スポート分野のユーザを1つの第3フォロー集合に分類することができる。
第3フォロー集合に基づいて、登録済みユーザを分類し、共通の第3フォロー集合を有する登録済みユーザを登録済みユーザ集合に分けることにより、興味が類似したユーザ群の目的を達成する。
本願に提供される好適な実施例において、ステップS175において、登録済みユーザ集合に含まれる登録済みユーザの興味ラベル辞典に基づいて、登録済みユーザ集合に対応するユーザ集合ラベル辞典を生成するステップは、以下のステップS1751〜ステップS1759を含むことが好ましい。
ステップS1751:情報クライアントにおける登録済みユーザの第1ユーザ数と登録済みユーザ集合の第2ユーザ数とを取得する。
ステップS1753:ラベル重み値及び第1ユーザ数に基づいて、各興味ラベルの重み分布平均値を算出する。
ステップS1755:登録済みユーザ集合における登録済みユーザのラベル重み値及び第2ユーザ数に基づいて、ユーザ集合興味ラベル辞典における各興味ラベルの集合重み平均値を算出する。
ステップS1757:重み分布平均値及び集合重み平均値に基づいて、興味ラベルがユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値を算出する。
ステップS1759:興味ラベルがユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値と、予め設定された雑音閾値とを順次比較する。
興味ラベルがユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値が、予め設定された雑音閾値よりも大きい場合、登録済みユーザ集合重み値に対応する興味ラベルをユーザ集合ラベル辞典に保持する。
興味ラベルがユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値が、予め設定された雑音閾値以下である場合、登録済みユーザ集合重み値に対応する興味ラベルをユーザ集合ラベル辞典から削除する。
具体的には、ステップS1751〜ステップS1759の実際の応用において、ソーシャルプラットフォームをウェイボーを例として説明すると、興味が類似したユーザ群を見出した後、これらのユーザ個人の興味ラベル辞典を合併して群興味モデルを取得することができる。最もシンプルな方法として、ユーザラベルベクトルを直接加算することで取得する。しかし、実際の応用において、このようにして得た結果には大きな雑音があり、これは、ある分野のウェイボーでの有名人のフォロワーが非常に多いので、多くの人はこの有名人が有名であるというだけの理由でフォローし、フォロー行為そのものからユーザ自身の興味が反映できず、これらのユーザの興味ラベルベクトルを簡単に加算すると、有意義な信号が一般的な興味によって容易に失ってしまうためと認められる。実際の実験例を挙げれば、王興(美団網のファウンダー)をフォローするウェイボーユーザを分析しようとすると、重みが最も大きい興味ラベルは、「インターネット」、「O2O」ではなく、「エンターテイメント」、「社会ニュース」であることが発見された。これは、「エンターテイメント」及び「社会ニュース」は一般的な興味ラベルであり、この2つのラベルを有するユーザは、王興が美団網のファウンダーであるので彼をフォローしているが、実際には「インターネット」及び「O2O」にあまり関心を持っていないためと考えられる。その結果、これらのユーザをすべて無差別に考慮すれば、「エンターテイメント」及び「社会ニュース」の重みが「インターネット」及び「O2O」よりも高い結果が出てしまう。
背景雑音をどのように除去するかは、群の興味を有効にマイニングするコア技術となる。実践にあたり、まず最初にサイト全体の登録済みユーザの重み分布平均値を以下のように統計することが必要である。
ここで、Nは、すべての登録済みユーザの数を表し、Vは、ユーザの興味ラベル重み分布を表す。
上記式により、さらに、ユーザ全体の興味ラベルiにおける重み分布平均値Vbase[i]を求める。
そして、フォロー関係に同じ条件がある登録済みユーザ集合(例えば、ウェイボーにおいて、すべてのフォロー集合のうち、「王興」をフォローする登録済みユーザの集合)について、該登録済みユーザ集合に対して群興味ラベルベクトルVを特定し、雑音除去のための登録済みユーザ集合重み値V’をそれぞれ求める。
ここで、V’[i]は、興味ラベルiの登録済みユーザ集合重み値を表し、V[i]は、興味ラベルiという興味ラベルの集合重み平均値を表し、Vbase[i]は、ユーザ全体の興味ラベルiにおける重み分布平均値である。
登録済みユーザ集合重み値V’と予め設定された雑音閾値とを比較することで、登録済みユーザ集合重み値V’が該雑音閾値よりも小さい場合、この興味ラベルが雑音ラベルであると証され、現在のユーザ集合ラベル辞典から排除すべきである。また、登録済みユーザ集合重み値V’が該雑音閾値以上である場合、この興味ラベルが非雑音ラベルであると判定され、該ラベルを現在のユーザ集合ラベル辞典に保持すべきである。
本願に提供される好適な実施例において、ステップS23において、第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定するステップは、以下のステップS231〜ステップS235を含むことが好ましい。
ステップS231:第2フォロー集合を、データ選別法、インデックス選別法、条件選別法及び情報選別法を少なくとも含む選別方法により選別して、新規登録したユーザに対応する第4フォロー集合が得られる。
ステップS233:第4フォロー集合と第3フォロー集合をマッチングし、新規登録したユーザに対応する登録済みユーザ集合を決定する。
ステップS235:新規登録したユーザに対応する登録済みユーザ集合のユーザ集合ラベル辞典に基づいて、新規登録したユーザへの推薦興味ラベルを決定する。
具体的には、ステップS231〜ステップS235を通じて、まず新規登録したユーザの第2フォロー集合を選別し、ここで、フォロワー数及び/又は友人数及び/又は活発度等の条件に従って第2フォロー集合を選別することができ、あまり活発でなくて友人が少ないユーザを第2フォロー集合から取り除き、選別した第4フォロー集合を生成する。選別にあたり、ステップS171に用いる選別方法と同様な方法を用いてもよいし、他の選別方法を用いてもよい。第2フォロー集合を最適化する目的を達成できれば、用いられる選別方法は限定されない。
そして、第4フォロー集合を個々の第3フォロー集合とマッチングし、新規登録したユーザの第4フォロー集合と第3フォロー集合のマッチング度が、予め設定された閾値よりも大きい、或いは第3フォロー集合が全く同じである場合、該新規登録したユーザが該第3フォロー集合に合致していると判定される。これにより、該新規登録したユーザが属する登録済みユーザ集合を決定する。
新規登録したユーザが属する登録済みユーザ集合のユーザ集合ラベル辞典に基づいて、該新規ユーザに推薦する推薦ラベルを決定する。
実際の応用において、興味が新規登録したユーザに類似したユーザ群の群興味モデルをマイニングした後、この群興味モデルとユーザ個人の興味モデルを一定の重みで融合することができ、そして、融合した興味モデルに基づく内容の推薦を行う。具体的には、融合した興味モデル(興味モデルベクトル)を特定した後、それぞれの興味ラベルの重みに従って、該ラベルにおける最高品質の内容を均等の割合で推薦することができる。
なお、新規ユーザについて、該ユーザのサイト内動作データが一切ないので、該ユーザ個人の興味モデルを取得しようがない。しかしながら、この新規ユーザがソーシャルプラットフォームのネットワークアカウントで情報クライアントにログインしていれば、該新規ユーザのソーシャルプラットフォームにおけるソーシャル関係を取得することができ、そして、サイト内の興味が該ユーザに類似したユーザ群をマイニングし、この群の興味モデルによりユーザに内容を推薦することで、対象を絞った情報推薦を実現することができる。実際には、このようなやり方は、ランダムに推薦したり最もホットな内容を推薦したりすることよりも効果が優れている。
本願に提供される好適な実施例において、ステップS23において、第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定した後、この方法は、以下のステップS24をさらに含むことが好ましい。
ステップS24:推薦興味ラベルに基づいて、新規登録したユーザに推薦情報をプッシュする。
具体的には、ステップS24を通じて、上記ステップで新規登録したユーザに対して決定された興味ラベルに基づいて、興味ラベルに適応した推薦情報を新規登録したユーザにプッシュする。
上記技術案によると、本発明では、ソーシャルネットワークの公開データと推薦サービスのプライベートデータとを有効に結合してユーザに内容を推薦する。ソーシャルネットワークの公開データ又は推薦サービスのプライベートデータのみを用いる場合に比べ、2つのデータを融合することは、より正確な個人化した内容推薦に寄与する。そして、本発明に提案される融合方法は、新規ユーザについても2つのデータを融合することができ(サイト内のデータに基づいてマイニングしたサイト内ユーザの興味モデルをソーシャル関係によって、新規登録したサイト外のユーザに移転する)、従来の方法により達成し得ない効果となる。
推薦サービス提供者の持っているユーザの数が多いほど、この方法では優れた効果となっていることが、本発明の1つの特徴である。その理由は、このような推薦サービス提供者が持っているユーザ群はソーシャルネットワークユーザ群に対して影響範囲が大きく、ソーシャルアカウントを任意に指定すると、その友人又はファンがほとんどサイト内ユーザでないことによって、群興味をマイニングできないまでには至らないためと認められる。これは、今日頭条のような1億にも達したユーザを持つ製品にとって、圧倒的な競争優位利点となるが、小さな推薦製品にとって技術面での障壁となっているといえる。
(実施例2)
本発明の実施例において、ソーシャルプラットフォームに基づくデータマイニング装置がさらに提供され、図4に示すように、この装置は、第1取得モジュール30と、第2取得モジュール32と、第1決定モジュール34と、第1処理モジュール36と、第3取得モジュール38と、第2決定モジュール40と、第2処理モジュール42と、を備える。
第1取得モジュール30は、情報クライアントにおける登録済みユーザの興味ラベル辞書を取得する。
本願の第1取得モジュール30は、登録済みユーザの閲覧履歴を収集することで、個々の登録済みユーザに対応する興味ラベル辞書を分析して得る。
第2取得モジュール32は、ソーシャルプラットフォームにおける、情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、登録済みユーザと第1対象との間の関係情報を読み取る。
本願の第2取得モジュール32は、登録済みユーザのソーシャルプラットフォームにおけるフォロー関係情報を取得することで、登録済みユーザとの間にフォロー関係を有する対象を決定する。
実際の応用において、フォロー関係は、テンセントQQソフトウェアにおける友人関係であってもよいし、ウェイボーにおけるフォロー関係であってもよく、また、人人網における友達関係であってもよい。
第1決定モジュール34は、登録済みユーザとの間にフォロー関係を有する第1対象によって、登録済みユーザに対応する第1フォロー集合を決定する。
本願の第1決定モジュール34は、個々の登録済みユーザとの間にフォロー関係を有する第1対象をそれぞれまとめることにより、個々の登録済みユーザの第1フォロー集合を決定する。
第1処理モジュール36は、登録済みユーザの興味ラベル辞書及び第1フォロー集合に基づいて、同じ第1フォロー集合を有する登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築する。
本願の第1処理モジュール36は、個々の登録済みユーザのフォロー集合を分析することで、第1フォロー集合が異なる登録済みユーザを、若干の第1フォロー集合にそれぞれ対応する登録済みユーザ集合に分類し、登録済みユーザ集合における登録済みユーザの興味ラベル辞書によって、第1フォロー集合に対応するユーザ集合ラベル辞書を生成する。これにより、第1フォロー集合と興味ラベルとの対応関係を決定する。
第3取得モジュール38は、情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上のフォロー関係を有する第2対象を取得し、新規登録したユーザと第2対象との間の関係情報を読み取る。
本願の第3取得モジュール38は、新規登録したユーザのソーシャルプラットフォームにおけるフォロー関係情報を読み取ることで、新規登録したユーザとの間にフォロー関係を有する第2対象を決定する。
実際の応用において、フォロー関係は、テンセントQQソフトウェアにおける友人関係であってもよいし、ウェイボーにおけるフォロー関係であってもよく、また、人人網における友達関係であってもよい。
第2決定モジュール40は、新規登録したユーザとの間にフォロー関係を有する第2対象に基づいて、新規登録したユーザの第2フォロー集合を決定する。
本願の第2決定モジュール40は、新規登録したユーザとの間にフォロー関係を有する第2対象をまとめることにより、新規登録したユーザの第2フォロー集合を決定する。
第2処理モジュール42は、第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定する。
本願の第2処理モジュール42は、新規登録したユーザの第2フォロー集合と興味モデルにおける若干の第1フォロー集合をマッチングし、新規登録したユーザの第2フォロー集合に合致する第1フォロー集合を得ることにより、該第1フォロー集合によって新規登録したユーザへの興味ラベルを決定する。
具体的には、第1取得モジュール30、第2取得モジュール32、第1決定モジュール34、第1処理モジュール36、第3取得モジュール38、第2決定モジュール40、及び第2処理モジュール42によって、ソーシャルプラットフォームにおいて同じ第1フォロー集合を有する登録済みユーザをグループ分けて、該第1フォロー集合に対応する登録済みユーザ集合を得、そして、情報クライアント上の登録済みユーザの興味ラベル辞典の取得により、登録済みユーザ集合に対応するユーザ集合ラベル辞典を得る。このようにして、第1フォロー集合とユーザ集合ラベル辞典との対応関係を有する興味モデルを構築する。そして、新規登録したユーザの第2フォロー集合を取得した後、第2フォロー集合と興味モデルにおける第1フォロー集合を直接マッチングすることにより、新規登録したユーザへの推薦興味ラベルを得ることができる。
実際の応用において、ソーシャルプラットフォームにおける関係からユーザの興味類似性が反映されると考えられる。異なる仮説に基づいて、異なる方法を用いてソーシャルプラットフォームからユーザの興味に類似した他のユーザを見出すことができる。異なる仮説は、異なるタイプのソーシャルプラットフォームに適用され、例えば、テンセントQQ、微信(WeChat)のような双方向コミュニケーションに重点を置いたソーシャルプラットフォームは、友人同士の興味が類似していると想定することができる。これに対し、ウェイボーのような単方向フォローに重点を置いたソーシャルプラットフォームは、共通のフォロー対象を有するユーザ同士の興味が類似していると想定することができ、例えば、2つのユーザがともに雷軍、黄章をフォローしているとすれば、スマートフォンに関心を持つものの可能性が高い。
ソーシャルプラットフォームをウェイボーを例として説明すると、情報クライアント上の登録済みユーザのウェイボーでのフォローリストの内容を選別し、選別したファンの数が一定の数値を超えたフォロー対象、又は選別したファンの数が多い何人のフォロー対象から、第1フォロー集合が構成される。同様な選別方式により、すべての登録済みユーザのウェイボーでのフォローリストを選別し、それぞれの登録済みユーザに対応する第1フォロー集合を得、同じ第1フォロー集合を有する登録済みユーザを若干の登録済みユーザ集合に分類し、それぞれの登録済みユーザ集合が異なる第1フォロー集合を有する。登録済みユーザ集合における登録済みユーザの興味ラベル辞典を収集することで、それぞれの登録済みユーザ集合に対応するユーザ集合ラベル辞典を得る。新規登録したユーザが情報クライアントへの登録を行って、情報クライアントに対してウェイボーでの公開データを呼び出すよう許可を与えた後、この新規ユーザのフォローリストをも同様なように選別し、選別後の第2フォロー集合と若干の登録済みユーザ集合の第1フォロー集合をマッチングすることにより、新規ユーザが属する登録済みユーザ集合を決定し、該登録済みユーザ集合に対応するユーザ集合ラベル辞典、即ち、新規登録したユーザへの推薦興味ラベルを取得する。
上述したように、本発明は、従来技術において、新規登録したユーザは閲覧履歴が記録されたことがないため、対象を絞った情報提供ができない問題を解決している。さらに、新規登録したユーザのソーシャルプラットフォームにおけるフォロー関係によって、ユーザへの対象を絞った情報提供を行う効果を実現する。
本願に提供される好適な実施例において、図5に示すように、この装置は、第4取得モジュール281と、抽出モジュール283と、第5取得モジュール285と、第3決定モジュール287と、第4決定モジュール289と、をさらに備えることが好ましい。
第4取得モジュール281は、推薦情報を取得する。
抽出モジュール283は、推薦情報の内容から推薦情報の興味ラベルを抽出する。
第5取得モジュール285は、登録済みユーザが推薦情報を操作する行為を記録するための登録済みユーザの行為履歴データを取得する。
第3決定モジュール287は、行為履歴データに基づいて、興味ラベルのラベル重み値を決定する。
第4決定モジュール289は、興味重み値に基づいて、登録済みユーザに対応する興味ラベル辞典を決定する。
具体的には、第4取得モジュール281、抽出モジュール283、第5取得モジュール285、第3決定モジュール287、及び第4決定モジュール289によって、情報クライアントにおけるすべての推薦情報の内容を分析し、推薦情報の内容に基づいて、それぞれの推薦情報ごとに興味ラベルを抽出する。登録済みユーザが推薦情報を操作する時に、登録済みユーザの操作行為を記録し、そして、推薦情報への操作行為に基づいて、この推薦情報に対応する興味ラベルを重み算出し、登録済みユーザに対応する興味ラベルの重み値を算出する。ラベル重み値が閾値よりも大きい場合、該ラベルをこのユーザに対応する興味ラベル辞典に加える。
実際の応用において、情報クライアントにおける推薦サービスは、クライアントの推薦した推薦情報内容に興味ラベルを付けるようになり、例えば、内容を分類すると、科学技術、サッカー、バスケットボール等があり、人々を集団別に分類すると、テクオタク、アウトドア派の人、青少年等があり、また、内容のキーワードとして、iPhone、戦車コンテスト、バイエルン・ミュンヘン等がある。これらの興味ラベルは、手動で編集されるものがあれば、推薦情報をアルゴリズムで自動的に分析して認識されるものもある。
推薦サービスの推薦可能な推薦情報はすべて興味ラベルが付けられている場合、登録済みユーザが推薦サービスを利用する行為データ、例えば、閲覧内容、クリック/お気に入り/コメント内容等を記録することにより、情報内容に対応する興味ラベルに基づいて、ユーザの興味ラベル辞典を取得する。この興味ラベル辞典は、ユーザがどのような興味ラベルを有するか、それぞれの興味ラベルの重みがどれぐらいであるかを記述する。この興味ラベル辞典を興味モデルとして後のステップに用いることができる。
具体的には、興味ラベルのラベル重み値の算出方法は、以下を含むことができる。
まず、各ユーザ動作actに対して重みwを設定し、例えば、クリックすれば、1点を加え、閲覧したもののクリックしていなければ、−0.2点を加え、お気に入りにしていれば、5点を加える。
ユーザ動作シーケンスを[act1,act2,・・・,act3]とすると、ユーザの興味ラベル重み値は、
によって算出され、
ここで、Tiは、i番目のユーザ動作の興味ラベルベクトルを表し、wiは、i番目のユーザ動作の重みを表す。
本願に提供される好適な実施例において、第1処理モジュール36は、第1サブ処理モジュール361と、サブマッチングモジュール363と、第1生成モジュール365と、を備えることが好ましい。
第1サブ処理モジュール361は、第1フォロー集合を、データ選別法、インデックス選別法、条件選別法及び情報選別法を少なくとも含む選別方法により選別して、登録済みユーザに対応する第3フォロー集合が得られる。
サブマッチングモジュール363は、第3フォロー集合によって登録済みユーザをマッチングし、同じ第3フォロー集合を有する登録済みユーザを含む登録済みユーザ集合を生成する。
第1生成モジュール365は、登録済みユーザ集合に含まれる登録済みユーザの興味ラベル辞典に基づいて、登録済みユーザ集合に対応するユーザ集合ラベル辞典を生成する。
具体的には、第1サブ処理モジュール361、サブマッチングモジュール363、及び第1生成モジュール365によって、まず登録済みユーザの第1フォロー集合を選別し、ここで、フォロワー数及び/又は友人数及び/又は活発度等の条件に従って第1フォロー集合を選別することができ、あまり活発でなくて友人が少ないユーザを第1フォロー集合から取り除き、選別した第3フォロー集合を生成する。
選別した登録済みユーザを第3フォロー集合とマッチングし、第3フォロー集合のマッチング度が予め設定された閾値よりも大きい、或いは第3フォロー集合が全く同じである登録済みユーザを、同一の登録済みユーザ集合に分類する。第3フォロー集合の内容が相違することから、登録済みユーザ集合が複数あることが可能である。もちろん、第3フォロー集合を人が自ら定義してもよく、人が自ら定義した第3フォロー集合に基づいて登録済みユーザを異なる登録済みユーザ集合にグルーピングする。
登録済みユーザ集合におけるそれぞれの登録済みユーザに対応する興味ラベル辞典の内容に基づいて、現在の登録済みユーザ集合に対応するユーザ集合ラベル辞典を生成する。
上記ソーシャルプラットフォームをウェイボーを例として説明すると、図3に示すように、図3は、ウェイボーにおけるフォロー集合に基づいて登録済みユーザをマッチングするすることで登録済みユーザ集合を生成するフローを示す図である。
登録済みユーザのフォローリストの取得により、ファン数を選別条件として、フォローリストにおけるファン数の少ないユーザを選別して排除する。選別したフォローリストに基づいて第3フォロー集合を生成する。もちろん、ウェイボーの場合、第3フォロー集合を人が自ら定義してもよい。例えば、ウェイボーにおける特定したユーザをユーザのカテゴリ別に分類すると、李開復、雷軍、周鴻イ、李彦宏といったコンピュータインタネット分野のユーザを1つの第3フォロー集合に分類することができ、何ジョン、謝娜、戴軍といったエンターテイメントメディア分野のユーザを1つの第3フォロー集合に分類することができ、さらに、魏克星、李娜、劉翔といった体育スポート分野のユーザを1つの第3フォロー集合に分類することができる。
第3フォロー集合に基づいて、登録済みユーザを分類し、共通の第3フォロー集合を有する登録済みユーザを登録済みユーザ集合に分けることにより、興味が類似したユーザ群の目的を達成する。
本願に提供される好適な実施例において、第1生成モジュール365は、第1サブ取得モジュール3651と、第1サブ算出モジュール3652と、第2サブ算出モジュール3653と、第3サブ算出モジュール3654と、サブ判定モジュール3655と、を備えることが好ましい。
第1サブ取得モジュール3651は、情報クライアントにおける登録済みユーザの第1ユーザ数と登録済みユーザ集合の第2ユーザ数とを取得する。
第1サブ算出モジュール3652は、ラベル重み値及び第1ユーザ数に基づいて、各興味ラベルの重み分布平均値を算出する。
第2サブ算出モジュール3653は、登録済みユーザ集合における登録済みユーザのラベル重み値及び第2ユーザ数に基づいて、ユーザ集合興味ラベル辞典における各興味ラベルの集合重み平均値を算出する。
第3サブ算出モジュール3654は、重み分布平均値及び集合重み平均値に基づいて、興味ラベルがユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値を算出する。
サブ判定モジュール3655は、興味ラベルがユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値と、予め設定された雑音閾値とを順次比較する。
興味ラベルがユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値が、予め設定された雑音閾値よりも大きい場合、登録済みユーザ集合重み値に対応する興味ラベルをユーザ集合ラベル辞典に保持する。
興味ラベルがユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値が、予め設定された雑音閾値以下である場合、登録済みユーザ集合重み値に対応する興味ラベルをユーザ集合ラベル辞典から削除する。
具体的には、第1生成モジュール365は、第1サブ取得モジュール3651と、第1サブ算出モジュール3652と、第2サブ算出モジュール3653と、第3サブ算出モジュール3654と、サブ判定モジュール3655と、を備えることによって、実際の応用において、ソーシャルプラットフォームをウェイボーを例として説明すると、興味が類似したユーザ群を見出した後、これらのユーザ個人の興味ラベル辞典を合併して群興味モデルを取得することができる。最もシンプルな方法として、ユーザラベルベクトルを直接加算することで取得する。しかし、実際の応用において、このようにして得た結果には大きな雑音があり、これは、ある分野のウェイボーでの有名人のフォロワーが非常に多いので、多くの人はこの有名人が有名であるというだけの理由でフォローし、フォロー行為そのものからユーザ自身の興味が反映できず、これらのユーザの興味ラベルベクトルを簡単に加算すると、有意義な信号が一般的な興味によって容易に失ってしまうためと認められる。実際の実験例を挙げれば、王興(美団網のファウンダー)をフォローするウェイボーユーザを分析しようとすると、重みが最も大きい興味ラベルは、「インターネット」、「O2O」ではなく、「エンターテイメント」、「社会ニュース」であることが発見された。これは、「エンターテイメント」及び「社会ニュース」は一般的な興味ラベルであり、この2つのラベルを有するユーザは、王興が美団網のファウンダーであるので彼をフォローしているが、実際には「インターネット」及び「O2O」にあまり関心を持っていないためと考えられる。その結果、これらのユーザをすべて無差別に考慮すれば、「エンターテイメント」及び「社会ニュース」の重みが「インターネット」及び「O2O」よりも高い結果が出てしまう。
背景雑音をどのように除去するかは、群の興味を有効にマイニングするコア技術となる。実践にあたり、まず最初にサイト全体の登録済みユーザの重み分布平均値を以下のように統計することが必要である。
ここで、Nは、すべての登録済みユーザの数を表し、Vは、ユーザの興味ラベル重み分布を表す。
上記式により、さらに、ユーザ全体の興味ラベルiにおける重み分布平均値Vbase[i]を求める。
そして、フォロー関係に同じ条件がある登録済みユーザ集合(例えば、ウェイボーにおいて、すべてのフォロー集合のうち、「王興」をフォローする登録済みユーザの集合)について、該登録済みユーザ集合に対して群興味ラベルベクトルVを特定し、雑音除去のための登録済みユーザ集合重み値V’をそれぞれ求める。
ここで、V’[i]は、興味ラベルiの登録済みユーザ集合重み値を表し、V[i]は、興味ラベルiという興味ラベルの集合重み平均値を表し、Vbase[i]は、ユーザ全体の興味ラベルiにおける重み分布平均値である。
登録済みユーザ集合重み値V’と予め設定された雑音閾値とを比較することで、登録済みユーザ集合重み値V’が該雑音閾値よりも小さい場合、この興味ラベルが雑音ラベルであると証され、現在のユーザ集合ラベル辞典から排除すべきである。また、登録済みユーザ集合重み値V’が該雑音閾値以上である場合、この興味ラベルが非雑音ラベルであると判定され、該ラベルを現在のユーザ集合ラベル辞典に保持すべきである。
登録済みユーザ集合重み値V’と予め設定された雑音閾値とを比較することで、登録済みユーザ集合重み値V’が該雑音閾値よりも小さい場合、この興味ラベルが雑音ラベルであると証され、現在のユーザ集合ラベル辞典から排除すべきである。また、登録済みユーザ集合重み値V’が該雑音閾値以上である場合、この興味ラベルが非雑音ラベルであると判定され、該ラベルを現在のユーザ集合ラベル辞典に保持すべきである。
本願に提供される好適な実施例において、第2処理モジュール42は、第2サブ処理モジュール421と、第1サブ決定モジュール423と、第2サブ決定モジュール425と、を備えることが好ましい。
第2サブ処理モジュール421は、第2フォロー集合を、データ選別法、インデックス選別法、条件選別法及び情報選別法を少なくとも含む選別方法により選別して、新規登録したユーザに対応する第4フォロー集合が得られる。
第1サブ決定モジュール423は、第4フォロー集合と第3フォロー集合をマッチングし、新規登録したユーザに対応する登録済みユーザ集合を決定する。
第2サブ決定モジュール425は、新規登録したユーザに対応する登録済みユーザ集合のユーザ集合ラベル辞典に基づいて、新規登録したユーザへの推薦興味ラベルを決定する。
具体的には、第2サブ処理モジュール421、第1サブ決定モジュール423、及び第2サブ決定モジュール425によって、まず新規登録したユーザの第2フォロー集合を選別し、ここで、フォロワー数及び/又は友人数及び/又は活発度等の条件に従って第2フォロー集合を選別することができ、あまり活発でなくて友人が少ないユーザを第2フォロー集合から取り除き、選別した第4フォロー集合を生成する。選別にあたり、ステップS171に用いる選別方法と同様な方法を用いてもよいし、他の選別方法を用いてもよい。第2フォロー集合を最適化する目的を達成できれば、用いられる選別方法は限定されない。
そして、第4フォロー集合を個々の第3フォロー集合とマッチングし、新規登録したユーザの第4フォロー集合と第3フォロー集合のマッチング度が、予め設定された閾値よりも大きい、或いは第3フォロー集合が全く同じである場合、該新規登録したユーザが該第3フォロー集合に合致していると判定される。これにより、該新規登録したユーザが属する登録済みユーザ集合を決定する。
新規登録したユーザが属する登録済みユーザ集合のユーザ集合ラベル辞典に基づいて、該新規ユーザに推薦する推薦ラベルを決定する。
実際の応用において、興味が新規登録したユーザに類似したユーザ群の群興味モデルをマイニングした後、この群興味モデルとユーザ個人の興味モデルを一定の重みで融合することができ、そして、融合した興味モデルに基づく内容の推薦を行う。具体的には、融合した興味モデル(興味モデルベクトル)を特定した後、それぞれの興味ラベルの重みに従って、該ラベルにおける最高品質の内容を均等の割合で推薦することができる。
なお、新規ユーザについて、該ユーザのサイト内動作データが一切ないので、該ユーザ個人の興味モデルを取得しようがない。しかしながら、この新規ユーザがソーシャルプラットフォームのネットワークアカウントで情報クライアントにログインしていれば、該新規ユーザのソーシャルプラットフォームにおけるソーシャル関係を取得することができ、そして、サイト内の興味が該ユーザに類似したユーザ群をマイニングし、この群の興味モデルによりユーザに内容を推薦することで、対象を絞った情報推薦を実現することができる。実際には、このようなやり方は、ランダムに推薦したり最もホットな内容を推薦したりすることよりも効果が優れている。
本願に提供される好適な実施例において、図6に示すように、この装置は、プッシュモジュール43をさらに備えることが好ましい。
プッシュモジュール43は、推薦興味ラベルに基づいて、新規登録したユーザに推薦情報をプッシュする。
具体的には、プッシュモジュール43によって、上記ステップで新規登録したユーザに対して決定された興味ラベルに基づいて、興味ラベルに適応した推薦情報を新規登録したユーザにプッシュする。
上記技術案によると、本発明では、ソーシャルネットワークの公開データと推薦サービスのプライベートデータとを有効に結合してユーザに内容を推薦する。ソーシャルネットワークの公開データ又は推薦サービスのプライベートデータのみを用いる場合に比べ、2つのデータを融合することは、より正確な個人化した内容推薦に寄与する。そして、本発明に提案される融合方法は、新規ユーザについても2つのデータを融合することができ(サイト内のデータに基づいてマイニングしたサイト内ユーザの興味モデルをソーシャル関係によって、新規登録したサイト外のユーザに移転する)、従来の方法により達成し得ない効果となる。
推薦サービス提供者の持っているユーザの数が多いほど、この方法では優れた効果となっていることが、本発明の1つの特徴である。その理由は、このような推薦サービス提供者が持っているユーザ群はソーシャルネットワークユーザ群に対して影響範囲が大きく、ソーシャルアカウントを任意に指定すると、その友人又はファンがほとんどサイト内ユーザでないことによって、群興味をマイニングできないまでには至らないためと認められる。これは、今日頭条のような1億にも達したユーザを持つ製品にとって、圧倒的な競争優位利点となるが、小さな推薦製品にとって技術面での障壁となっているといえる。
本願の実施例に提供される各機能ユニットは、移動端末、コンピュータ端末又は類似した演算装置で実行されることができるし、記憶媒体の一部として記憶されることもできる。
このように、本発明の実施例は、コンピュータ端末を提供することができ、このコンピュータ端末は、コンピュータ端末群におけるいずれか1つのコンピュータ端末機器であることができる。本実施例において、上記コンピュータ端末は、移動端末等の端末機器に置き換えられてもよい。
本実施例において、上記コンピュータ端末は、コンピュータネットワークの複数のネットワーク機器のうち少なくとも1つのネットワーク機器に位置してもよい。
本実施例において、上記コンピュータ端末は、ソーシャルプラットフォームに基づくデータマイニング方法における、情報クライアントにおける登録済みユーザの興味ラベル辞書を取得するステップと、ソーシャルプラットフォームにおける、情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、登録済みユーザと第1対象との間の関係情報を読み取るステップと、登録済みユーザとの間にフォロー関係を有する第1対象によって、登録済みユーザに対応する第1フォロー集合を決定するステップと、登録済みユーザの興味ラベル辞書及び第1フォロー集合に基づいて、同じ第1フォロー集合を有する登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築するステップと、情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上のフォロー関係を有する第2対象を取得し、新規登録したユーザと第2対象との間の関係情報を読み取るステップと、新規登録したユーザとの間にフォロー関係を有する第2対象に基づいて、新規登録したユーザの第2フォロー集合を決定するステップと、第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定するステップと、のプログラムコードを実行することができる。
このコンピュータ端末は、1つ又は複数個のプロセッサと、メモリと、伝送装置と、を備えてもよい。
メモリは、ソフトウェアプログラム及びモジュール、例えば、本発明の実施例におけるソーシャルプラットフォームに基づくデータマイニング方法に対応するプログラム命令/モジュールを記憶することができ、プロセッサは、メモリに記憶されたソフトウェアプログラム及びモジュールを実行することで、様々な機能アプリケーション及びデータ処理を実行し、即ち、上述したソーシャルプラットフォームに基づくデータマイニング方法を実現する。メモリは、高速ランダムアクセスメモリを含むことができ、また、不揮発性メモリ、例えば、1つ又は複数個の磁性記憶装置、フラッシュメモリ、又は他の不揮発性ソリッドステートメモリを含むこともできる。一部の例において、メモリは、プロセッサに対して遠隔配置されたメモリをさらに含んでもよく、これらの遠隔メモリは、ネットワークを介して端末に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、移動通信網及びそれらの組み合わせを含むが、これには限定されない。
上記伝送装置は、ネットワークを介してデータの送受信を行う。上記ネットワークの具体例は、有線ネットワーク及び無線ネットワークを含むことができる。一例において、伝送装置は、ケーブルを介して他のネットワーク機器及びルーターに接続されることができることにより、インターネット又はローカルエリアネットワークと通信可能であるネットワークアダプター(Network Interface Controller、NIC)を含む。一例において、伝送装置は、無線の方式によりインターネットとの通信を行う無線周波数(Radio Frequency、RF)モジュールである。
具体的には、メモリは、予め設定された動作要件及び予め設定された権限のユーザの情報、並びにアプリケーションプログラムを記憶するためのものである。
プロセッサは、メモリに記憶された情報及びアプリケーションプログラムを伝送装置によって呼び出すことで、上記方法実施例における各選択可能な又は好適な実施例の方法ステップのプログラムコードを実行することができる。
コンピュータ端末は、スマートフォン(例えば、Android携帯電話、iOS携帯電話等)、タブレットコンピュータ、パームトップコンピュータ、及びモバイルインターネット機器(Mobile Internet Devices、MID)、PAD等の端末機器であってもよいと、当業者が理解することができる。
上記実施例の各種方法におけるステップの一部又は全部は、プログラムによって端末機器の関連するハードウェアを命令して完成させることができ、このプログラムがコンピュータ読み取り可能な記憶媒体に記憶されることができ、記憶媒体は、フラッシュディスク、リードオンリーメモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスク等を含みうると、当業者が理解することができる。
本発明の実施例において、記憶媒体がさらに提供される。本実施例において、上記記憶媒体は、上記方法実施例及びシステム実施例に提供されるソーシャルプラットフォームに基づくデータマイニング方法で実行されるプログラムコードを保存するものであってもよい。
本実施例において、上記記憶媒体は、コンピュータネットワークにおけるコンピュータ端末群のうちいずれか1つのコンピュータ端末に位置するか、或いは移動端末群のうちいずれか1つの移動端末に位置してもよい。
本実施例において、記憶媒体は、情報クライアントにおける登録済みユーザの興味ラベル辞書を取得するステップと、ソーシャルプラットフォームにおける情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、登録済みユーザと第1対象との間の関係情報を読み取るステップと、登録済みユーザとの間にフォロー関係を有する第1対象によって、登録済みユーザに対応する第1フォロー集合を決定するステップと、登録済みユーザの興味ラベル辞書及び第1フォロー集合に基づいて、同じ第1フォロー集合を有する登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築するステップと、情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上のフォロー関係を有する第2対象を取得し、新規登録したユーザと第2対象との間の関係情報を読み取るステップと、新規登録したユーザとの間にフォロー関係を有する第2対象に基づいて、新規登録したユーザの第2フォロー集合を決定するステップと、第2フォロー集合と興味モデルをマッチングし、興味モデルに基づいて、新規登録したユーザへの推薦興味ラベルを決定するステップと、を実行するためのプログラムコードを記憶するように構成されてもよい。
本実施例において、記憶媒体は、ソーシャルプラットフォームに基づくデータマイニング方法に提供される様々な好適な又は選択可能な方法ステップを実行するプログラムコードを記憶するように構成されてもよい。
以上、図面を参照しつつ、本発明によるソーシャルプラットフォームに基づくデータマイニング方法を例示的に説明した。しかし、上記発明に提案されるページレイアウト方法及びシステムについて、さらに、本発明の内容から逸脱しない限り様々な改良が可能である。それゆえ、記載した請求項の保護範囲に基づいて本発明の保護範囲が定められるべきである。
以上は、本発明の好適な実施例に過ぎず、本発明を限定することは意図していない。当業者であれば、本発明に様々な変更や変形が可能である。本発明の思想や原則内の如何なる修正、均等の置き換え、改良なども、本発明の保護範囲内に含まれるべきである。

Claims (14)

  1. 情報クライアントにおける登録済みユーザの興味ラベル辞書を取得することと、
    ソーシャルプラットフォームにおける、前記情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、前記登録済みユーザと前記第1対象との間の関係情報を読み取ることと、
    前記登録済みユーザとの間にフォロー関係を有する前記第1対象によって、前記登録済みユーザに対応する第1フォロー集合を決定することと、
    前記登録済みユーザの前記興味ラベル辞書及び前記第1フォロー集合に基づいて、同じ前記第1フォロー集合を有する前記登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築することと、
    前記情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上のフォロー関係を有する第2対象を取得し、前記新規登録したユーザと前記第2対象との間の関係情報を読み取ることと、
    前記新規登録したユーザとの間にフォロー関係を有する前記第2対象に基づいて、前記新規登録したユーザの第2フォロー集合を決定することと、
    前記第2フォロー集合と前記興味モデルをマッチングし、前記興味モデルに基づいて、前記新規登録したユーザへの推薦興味ラベルを決定することと、
    を含み、
    前記情報クライアントにおける登録済みユーザの興味ラベル辞書を取得する前に、
    推薦情報を取得することと、
    前記推薦情報の内容から前記推薦情報の前記興味ラベルを抽出することと、
    前記登録済みユーザが前記推薦情報を操作する行為を記録するための前記登録済みユーザの行為履歴データを取得することと、
    前記行為履歴データに基づいて、前記興味ラベルのラベル重み値を決定することと、
    前記興味ラベルのラベル重み値に基づいて、前記登録済みユーザに対応する前記興味ラベル辞典を決定することと、を含むことを特徴とするソーシャルプラットフォームに基づくデータマイニング方法。
  2. 前記登録済みユーザの興味ラベル辞書及び前記第1フォロー集合に基づいて、興味モデルを構築することは、
    前記第1フォロー集合を、データ選別法、インデックス選別法、条件選別法及び情報選別法を少なくとも含む選別方法により選別して、前記登録済みユーザに対応する第3フォロー集合が得られることと、
    前記第3フォロー集合によって前記登録済みユーザをマッチングし、同じ前記第3フォロー集合を有する前記登録済みユーザを含む登録済みユーザ集合を生成することと、
    前記登録済みユーザ集合に含まれる前記登録済みユーザの前記興味ラベル辞典に基づいて、前記登録済みユーザ集合に対応するユーザ集合ラベル辞典を生成することと、を含む
    請求項に記載の方法。
  3. 前記登録済みユーザ集合に含まれる前記登録済みユーザの前記興味ラベル辞典に基づいて、前記登録済みユーザ集合に対応するユーザ集合ラベル辞典を生成することは、
    前記情報クライアントにおける登録済みユーザの第1ユーザ数と前記登録済みユーザ集合の第2ユーザ数とを取得することと、
    前記ラベル重み値及び前記第1ユーザ数に基づいて、各前記興味ラベルの重み分布平均値を算出することと、
    前記登録済みユーザ集合における前記登録済みユーザの前記ラベル重み値及び前記第2ユーザ数に基づいて、ユーザ集合興味ラベル辞典における各前記興味ラベルの集合重み平均値を算出することと、
    前記重み分布平均値及び前記集合重み平均値に基づいて、前記興味ラベルが前記ユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値を算出することと、
    前記興味ラベルが前記ユーザ集合興味ラベル辞典にある前記登録済みユーザ集合重み値と、予め設定された雑音閾値とを順次比較し、
    前記興味ラベルが前記ユーザ集合興味ラベル辞典にある前記登録済みユーザ集合重み値が、予め設定された雑音閾値よりも大きい場合、前記登録済みユーザ集合重み値に対応する興味ラベルを前記ユーザ集合ラベル辞典に保持し、
    前記興味ラベルが前記ユーザ集合興味ラベル辞典にある前記登録済みユーザ集合重み値が、予め設定された雑音閾値以下である場合、前記登録済みユーザ集合重み値に対応する興味ラベルを前記ユーザ集合ラベル辞典から削除することと、を含む
    請求項に記載の方法。
  4. 前記第2フォロー集合と前記興味モデルをマッチングし、前記興味モデルに基づいて、前記新規登録したユーザへの推薦興味ラベルを決定することは、
    前記第2フォロー集合を、データ選別法、インデックス選別法、条件選別法及び情報選別法を少なくとも含む選別方法により選別して、前記新規登録したユーザに対応する第4フォロー集合が得られることと、
    前記第4フォロー集合と前記第3フォロー集合をマッチングし、前記新規登録したユーザに対応する前記登録済みユーザ集合を決定することと、
    前記新規登録したユーザに対応する前記登録済みユーザ集合の前記ユーザ集合ラベル辞典に基づいて、前記新規登録したユーザへの前記推薦興味ラベルを決定することと、を含む
    請求項に記載の方法。
  5. 前記第2フォロー集合と前記興味モデルをマッチングし、前記興味モデルに基づいて、前記新規登録したユーザへの推薦興味ラベルを決定した後、
    前記推薦興味ラベルに基づいて、前記新規登録したユーザに前記推薦情報をプッシュするステップ、をさらに含む
    請求項1乃至のうち何れか一項に記載の方法。
  6. 興味ラベルの前記登録済みユーザ集合重み値V’[i]を下記式によって算出し、
    ここで、V’[i]は、興味ラベルiの前記登録済みユーザ集合重み値を表し、V[i]は、興味ラベルiの前記集合重み平均値を表し、Vbase[i]は、興味ラベルiの前記重み分布平均値を表す
    請求項に記載の方法。
  7. 情報クライアントにおける登録済みユーザの興味ラベル辞書を取得する第1取得モジュールと、
    ソーシャルプラットフォームにおける、前記情報クライアント上の登録済みユーザとの間にフォロー関係を有する第1対象を取得し、前記登録済みユーザと前記第1対象との間の関係情報を読み取る第2取得モジュールと、
    前記登録済みユーザとの間にフォロー関係を有する前記第1対象によって、前記登録済みユーザに対応する第1フォロー集合を決定する第1決定モジュールと、
    前記登録済みユーザの前記興味ラベル辞書及び前記第1フォロー集合に基づいて、同じ前記第1フォロー集合を有する前記登録済みユーザと興味ラベルとの対応関係を特徴づけるための興味モデルを構築する第1処理モジュールと、
    前記情報クライアントに新規登録したユーザに関して、ソーシャルプラットフォーム上
    のフォロー関係を有する第2対象を取得し、前記新規登録したユーザと前記第2対象との間の関係情報を読み取る第3取得モジュールと、
    前記新規登録したユーザとの間にフォロー関係を有する前記第2対象に基づいて、前記新規登録したユーザの第2フォロー集合を決定する第2決定モジュールと、
    前記第2フォロー集合と前記興味モデルをマッチングし、前記興味モデルに基づいて、前記新規登録したユーザへの推薦興味ラベルを決定する第2処理モジュールと、
    を備え
    推薦情報を取得する第4取得モジュールと、
    前記推薦情報の内容から前記推薦情報の前記興味ラベルを抽出する抽出モジュールと、
    前記登録済みユーザが前記推薦情報を操作する行為を記録するための前記登録済みユーザの行為履歴データを取得する第5取得モジュールと、
    前記行為履歴データに基づいて、前記興味ラベルのラベル重み値を決定する第3決定モジュールと、
    前記興味ラベルのラベル重み値に基づいて、前記登録済みユーザに対応する前記興味ラベル辞典を決定する第4決定モジュールと、をさらに備えることを特徴とするソーシャルプラットフォームに基づくデータマイニング装置。
  8. 前記第1処理モジュールは、
    前記第1フォロー集合を、データ選別法、インデックス選別法、条件選別法及び情報選別法を少なくとも含む選別方法により選別して、前記登録済みユーザに対応する第3フォロー集合が得られる第1サブ処理モジュールと、
    前記第3フォロー集合によって前記登録済みユーザをマッチングし、同じ前記第3フォロー集合を有する前記登録済みユーザを含む登録済みユーザ集合を生成するサブマッチングモジュールと、
    前記登録済みユーザ集合に含まれる前記登録済みユーザの前記興味ラベル辞典に基づいて、前記登録済みユーザ集合に対応するユーザ集合ラベル辞典を生成する第1生成モジュールと、を備える
    請求項に記載の装置。
  9. 前記第1生成モジュールは、
    前記情報クライアントにおける登録済みユーザの第1ユーザ数と前記登録済みユーザ集合の第2ユーザ数とを取得する第1サブ取得モジュールと、
    前記ラベル重み値及び前記第1ユーザ数に基づいて、各前記興味ラベルの重み分布平均値を算出する第1サブ算出モジュールと、
    前記登録済みユーザ集合における前記登録済みユーザの前記ラベル重み値及び前記第2ユーザ数に基づいて、ユーザ集合興味ラベル辞典における各前記興味ラベルの集合重み平均値を算出する第2サブ算出モジュールと、
    前記重み分布平均値及び前記集合重み平均値に基づいて、前記興味ラベルが前記ユーザ集合興味ラベル辞典にある登録済みユーザ集合重み値を算出する第3サブ算出モジュールと、
    前記興味ラベルが前記ユーザ集合興味ラベル辞典にある前記登録済みユーザ集合重み値と、予め設定された雑音閾値とを順次比較し、
    前記興味ラベルが前記ユーザ集合興味ラベル辞典にある前記登録済みユーザ集合重み値が、予め設定された雑音閾値よりも大きい場合、前記登録済みユーザ集合重み値に対応する興味ラベルを前記ユーザ集合ラベル辞典に保持し、
    前記興味ラベルが前記ユーザ集合興味ラベル辞典にある前記登録済みユーザ集合重み値が、予め設定された雑音閾値以下である場合、前記登録済みユーザ集合重み値に対応する興味ラベルを前記ユーザ集合ラベル辞典から削除するサブ判定モジュールと、を備える
    請求項に記載の装置。
  10. 前記第2処理モジュールは、
    前記第2フォロー集合を、データ選別法、インデックス選別法、条件選別法及び情報選別法を少なくとも含む選別方法により選別して、前記新規登録したユーザに対応する第4フォロー集合が得られる第2サブ処理モジュールと、
    前記第4フォロー集合と前記第3フォロー集合をマッチングし、前記新規登録したユーザに対応する前記登録済みユーザ集合を決定する第1サブ決定モジュールと、
    前記新規登録したユーザに対応する前記登録済みユーザ集合の前記ユーザ集合ラベル辞典に基づいて、前記新規登録したユーザへの前記推薦興味ラベルを決定する第2サブ決定モジュールと、を備える
    請求項に記載の装置。
  11. 前記推薦興味ラベルに基づいて、前記新規登録したユーザに前記推薦情報をプッシュするプッシュモジュール、をさらに備える
    請求項乃至10のうち何れか一項に記載の装置。
  12. 興味ラベルの前記登録済みユーザ集合重み値V’[i]を下記式によって算出し、
    ここで、V’[i]は、興味ラベルiの前記登録済みユーザ集合重み値を表し、V[i]は、興味ラベルiの前記集合重み平均値を表し、Vbase[i]は、興味ラベルiの前記重み分布平均値を表す
    請求項に記載の装置。
  13. 請求項1に記載のソーシャルプラットフォームに基づくデータマイニング方法に提供されるステップのプログラムコードを実行するコンピュータ端末。
  14. 請求項1に記載のソーシャルプラットフォームに基づくデータマイニング方法が実行するプログラムコードを保存する記憶媒体。
JP2017525373A 2014-11-10 2015-07-10 ソーシャルプラットフォームに基づくデータマイニング方法及び装置 Active JP6438135B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410645497.2A CN104317959B (zh) 2014-11-10 2014-11-10 基于社交平台的数据挖掘方法及装置
CN201410645497.2 2014-11-10
PCT/CN2015/083804 WO2016074492A1 (zh) 2014-11-10 2015-07-10 基于社交平台的数据挖掘方法及装置

Publications (2)

Publication Number Publication Date
JP2018503158A JP2018503158A (ja) 2018-02-01
JP6438135B2 true JP6438135B2 (ja) 2018-12-12

Family

ID=52373191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017525373A Active JP6438135B2 (ja) 2014-11-10 2015-07-10 ソーシャルプラットフォームに基づくデータマイニング方法及び装置

Country Status (8)

Country Link
US (1) US10360230B2 (ja)
EP (2) EP3220289A4 (ja)
JP (1) JP6438135B2 (ja)
CN (2) CN104317959B (ja)
BR (1) BR112017009666A2 (ja)
CA (1) CA2966757C (ja)
MX (1) MX2017006054A (ja)
WO (1) WO2016074492A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317959B (zh) * 2014-11-10 2018-07-17 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置
CN105824855B (zh) * 2015-01-09 2019-12-13 阿里巴巴集团控股有限公司 一种对数据对象筛选分类的方法、装置以及电子设备
CN104991973B (zh) * 2015-07-31 2018-11-13 网易传媒科技(北京)有限公司 一种用户兴趣领域的确定方法和设备
CN105354018B (zh) 2015-09-29 2019-05-21 小米科技有限责任公司 用于更换显示背景的方法、装置及设备
CN105303398B (zh) * 2015-09-29 2020-03-27 努比亚技术有限公司 一种信息显示方法和系统
CN106503050B (zh) * 2016-09-23 2021-04-16 耀灵人工智能(浙江)有限公司 一种基于大数据进行阅读文章推荐的方法与系统
CN106357517B (zh) * 2016-09-27 2020-09-11 腾讯科技(北京)有限公司 定向标签生成方法及装置
CN107967276A (zh) * 2016-10-19 2018-04-27 阿里巴巴集团控股有限公司 一种推荐对象的方法和设备
CN107103033B (zh) * 2017-03-21 2021-04-27 创新先进技术有限公司 冷启动用户的偏好预测方法和装置
CN107656918B (zh) * 2017-05-10 2019-07-05 平安科技(深圳)有限公司 获取目标用户的方法及装置
CN107452401A (zh) * 2017-05-27 2017-12-08 北京字节跳动网络技术有限公司 一种广告语音识别方法及装置
CN109145280B (zh) * 2017-06-15 2023-05-12 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN107688605B (zh) * 2017-07-26 2019-02-26 平安科技(深圳)有限公司 跨平台数据匹配方法、装置、计算机设备和存储介质
CN107451255B (zh) * 2017-07-31 2020-05-19 陕西识代运筹信息科技股份有限公司 一种基于关注关系的用户兴趣处理方法和装置
CN110020117B (zh) * 2017-09-29 2022-05-03 北京搜狗科技发展有限公司 一种兴趣信息获取方法、装置及电子设备
CN107909428A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 电子装置、产品推荐方法和计算机可读存储介质
CN107886357A (zh) * 2017-11-06 2018-04-06 北京希格斯科技发展有限公司 基于用户行为数据判定内容价值的方法和系统
CN108197211A (zh) * 2017-12-28 2018-06-22 百度在线网络技术(北京)有限公司 一种信息推荐方法、装置、服务器和存储介质
AU2019206495A1 (en) 2018-01-11 2020-09-03 Editorji Technologies Private Limited Method and system for customized content
CN108763189B (zh) * 2018-04-12 2022-03-25 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CA183996S (en) * 2018-05-03 2019-07-17 Beijing Kuaimajiabian Technology Co Ltd Display screen with graphical user interface
CA184013S (en) * 2018-05-03 2019-07-17 Beijing Kuaimajiabian Technology Co Ltd Display screen with graphical user interface
CA184012S (en) * 2018-05-03 2019-07-17 Beijing Kuaimajiabian Technology Co Ltd Display screen with graphical user interface
CA184007S (en) * 2018-05-03 2019-07-17 Beijing Kuaimajiabian Technology Co Ltd Display screen with graphical user interface
CN108615199A (zh) * 2018-05-11 2018-10-02 国家计算机网络与信息安全管理中心 基于互联网公开论坛注册情况的用户活动轨迹挖掘方法
USD875124S1 (en) * 2018-07-06 2020-02-11 Beijing Microlive Vision Technology Co., Ltd. Display screen or portion thereof with a graphical user interface
CN109241529B (zh) * 2018-08-29 2023-05-02 中国联合网络通信集团有限公司 观点标签的确定方法和装置
CN110968780B (zh) * 2018-09-30 2021-11-16 腾讯科技(深圳)有限公司 页面内容推荐方法、装置、计算机设备和存储介质
CN109787784B (zh) * 2018-10-26 2022-04-22 深圳壹账通智能科技有限公司 群组推荐方法、装置、存储介质和计算机设备
CN109634725B (zh) * 2018-12-11 2023-08-15 苏州大学 一种群智感知任务的派发方法及装置
CN110097394A (zh) * 2019-03-27 2019-08-06 青岛高校信息产业股份有限公司 产品潜客推荐方法和装置
CN110544108B (zh) * 2019-04-18 2022-12-13 国家计算机网络与信息安全管理中心 社交用户的分类方法、装置、电子设备及介质
CN110555081B (zh) * 2019-04-18 2022-05-31 国家计算机网络与信息安全管理中心 社交互动的用户分类方法、装置、电子设备及介质
CN110298245B (zh) * 2019-05-22 2023-10-13 平安科技(深圳)有限公司 兴趣收集方法、装置、计算机设备及存储介质
CN111143670A (zh) * 2019-12-09 2020-05-12 中国平安财产保险股份有限公司 一种信息确定方法及相关产品
JP2021135722A (ja) * 2020-02-26 2021-09-13 国立大学法人 東京大学 情報処理装置、及びプログラム
USD943629S1 (en) * 2020-05-07 2022-02-15 Beijing Dajia Internet Information Technology Co., Ltd. Display screen or portion thereof with graphical user interface
CN111683154B (zh) * 2020-06-17 2023-11-14 腾讯科技(深圳)有限公司 一种内容推送的方法、装置、介质及电子设备
CN111722245B (zh) 2020-06-22 2023-03-10 阿波罗智能技术(北京)有限公司 定位方法、定位装置和电子设备
CN111859131B (zh) * 2020-07-21 2021-06-15 山东省科院易达科技咨询有限公司 一种多约束条件下的个性化信息推荐方法及信息推荐系统
CN111798351A (zh) * 2020-09-09 2020-10-20 北京神州泰岳智能数据技术有限公司 一种数据处理的方法及装置、可读存储介质
TWI749908B (zh) * 2020-11-25 2021-12-11 英業達股份有限公司 基於社群資訊追蹤及預測產品品質的方法
CN116361566A (zh) * 2023-03-29 2023-06-30 竞速信息技术(廊坊)有限公司 一种基于大数据的用户关系推荐方法及装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003253765A1 (en) * 2002-06-27 2004-01-19 Small World Productions, Inc. System and method for locating and notifying a user of a person, place or thing having attributes matching the user's stated prefernces
US8386488B2 (en) * 2004-04-27 2013-02-26 International Business Machines Corporation Method and system for matching appropriate content with users by matching content tags and profiles
US8060463B1 (en) * 2005-03-30 2011-11-15 Amazon Technologies, Inc. Mining of user event data to identify users with common interests
JP2007334502A (ja) * 2006-06-13 2007-12-27 Fujifilm Corp 検索装置、方法およびプログラム
US7685192B1 (en) * 2006-06-30 2010-03-23 Amazon Technologies, Inc. Method and system for displaying interest space user communities
US7739231B2 (en) * 2006-08-28 2010-06-15 Manyworlds, Inc. Mutual commit people matching process
US20080077574A1 (en) * 2006-09-22 2008-03-27 John Nicholas Gross Topic Based Recommender System & Methods
US20090082111A1 (en) * 2007-04-06 2009-03-26 Smith Michael J System and method for connecting users based on common interests, such as shared interests of representations of professional athletes
WO2008134595A1 (en) * 2007-04-27 2008-11-06 Pelago, Inc. Determining locations of interest based on user visits
CN101685458B (zh) * 2008-09-27 2012-09-19 华为技术有限公司 一种基于协同过滤的推荐方法和系统
US9195739B2 (en) * 2009-02-20 2015-11-24 Microsoft Technology Licensing, Llc Identifying a discussion topic based on user interest information
US8489515B2 (en) * 2009-05-08 2013-07-16 Comcast Interactive Media, LLC. Social network based recommendation method and system
CN102687166B (zh) * 2009-12-31 2016-02-10 诺基亚技术有限公司 用于用户兴趣建模的方法和设备
CN102316046B (zh) * 2010-06-29 2016-03-30 国际商业机器公司 向社交网络中的用户推荐信息的方法和装置
KR101565339B1 (ko) * 2010-11-03 2015-11-04 네이버 주식회사 집단지성을 이용한 추천 시스템 및 방법
CN102467542B (zh) * 2010-11-11 2016-06-15 腾讯科技(深圳)有限公司 获取用户相似度的方法、装置及用户推荐方法、系统
CN102622364B (zh) * 2011-01-28 2017-12-01 腾讯科技(深圳)有限公司 一种信息聚合的方法、装置及信息处理系统
CN102903047A (zh) * 2011-07-26 2013-01-30 阿里巴巴集团控股有限公司 一种商品信息投放方法和设备
CN102426686A (zh) * 2011-09-29 2012-04-25 南京大学 一种基于矩阵分解的互联网信息产品推荐方法
JP5730741B2 (ja) * 2011-10-19 2015-06-10 日本電信電話株式会社 話題推薦装置及び方法及びプログラム
US20130297590A1 (en) * 2012-04-09 2013-11-07 Eli Zukovsky Detecting and presenting information to a user based on relevancy to the user's personal interest
CN103514204B (zh) 2012-06-27 2018-11-20 华为技术有限公司 信息推荐方法和装置
US9154575B2 (en) * 2012-08-28 2015-10-06 Facebook, Inc. Soft matching user identifiers
CN102880691B (zh) * 2012-09-19 2015-08-19 北京航空航天大学深圳研究院 一种基于用户亲密度的混合推荐系统及方法
US9288275B2 (en) 2012-10-11 2016-03-15 ThistleWorks Computer implemented event-centric social networking platform
CN103810192A (zh) * 2012-11-09 2014-05-21 腾讯科技(深圳)有限公司 一种用户的兴趣推荐方法和装置
CN103106285B (zh) * 2013-03-04 2017-02-08 中国信息安全测评中心 一种基于信息安全专业社交网络平台的推荐算法
US20140358945A1 (en) * 2013-06-03 2014-12-04 Tencent Technology (Shenzhen) Company Limited Systems and Methods for Matching Users
CN103870538B (zh) * 2014-01-28 2017-02-15 百度在线网络技术(北京)有限公司 针对用户进行个性化推荐的方法、用户建模设备及系统
CN103870541B (zh) 2014-02-24 2017-05-31 微梦创科网络科技(中国)有限公司 社交网络用户兴趣挖掘方法和系统
CN103995823A (zh) * 2014-03-25 2014-08-20 南京邮电大学 一种基于社交网络的信息推荐方法
US9754210B2 (en) * 2014-04-01 2017-09-05 Microsoft Technology Licensing, Llc User interests facilitated by a knowledge base
CN104090971A (zh) * 2014-07-17 2014-10-08 中国科学院自动化研究所 面向个性化应用的跨网络行为关联方法
CN104317959B (zh) * 2014-11-10 2018-07-17 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置

Also Published As

Publication number Publication date
EP4446908A1 (en) 2024-10-16
CN104317959B (zh) 2018-07-17
CN108197330A (zh) 2018-06-22
CA2966757A1 (en) 2016-05-19
JP2018503158A (ja) 2018-02-01
MX2017006054A (es) 2017-10-24
BR112017009666A2 (pt) 2017-12-26
CN104317959A (zh) 2015-01-28
US10360230B2 (en) 2019-07-23
US20170322981A1 (en) 2017-11-09
WO2016074492A1 (zh) 2016-05-19
EP3220289A4 (en) 2018-05-16
CN108197330B (zh) 2019-10-29
EP3220289A1 (en) 2017-09-20
CA2966757C (en) 2021-08-10

Similar Documents

Publication Publication Date Title
JP6438135B2 (ja) ソーシャルプラットフォームに基づくデータマイニング方法及び装置
CN110198310B (zh) 一种网络行为反作弊方法、装置及存储介质
CN106339507B (zh) 流媒体消息推送方法和装置
CN106326391B (zh) 多媒体资源推荐方法及装置
CN105335409B (zh) 一种目标用户的确定方法、设备和网络服务器
WO2017096877A1 (zh) 一种推荐方法和装置
CN110858914B (zh) 视频素材推荐方法及装置
CN109064217B (zh) 基于用户等级的核身策略确定方法、装置及电子设备
CN108920577A (zh) 电视智能推荐方法
CN110348907A (zh) 一种广告人群的定向方法及装置
WO2017101652A1 (zh) 网站页面间访问路径的确定方法及装置
CN105574030A (zh) 一种信息搜索方法及装置
CN114338064A (zh) 识别网络流量类型的方法、装置、设备和存储介质
CN112100221A (zh) 一种资讯推荐方法、装置、推荐服务器及存储介质
CN107547626B (zh) 用户画像的共享方法和装置
CN110297967B (zh) 兴趣点确定方法、装置、设备及计算机可读存储介质
KR101929649B1 (ko) 채팅로그 키워드 추출을 통한 관심사 관련 오픈 채팅방 추천 시스템 및 방법
CN105956061B (zh) 一种用户间相似度确定方法及装置
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
CN108024148B (zh) 基于行为特征的多媒体文件识别方法、处理方法及装置
CN110852338B (zh) 用户画像的构建方法及装置
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
CN111368070B (zh) 热点事件的确定方法及装置
CN107292750B (zh) 社交网络的信息收集方法及信息收集装置
CN113076450A (zh) 一种目标推荐列表的确定方法和装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181115

R150 Certificate of patent or registration of utility model

Ref document number: 6438135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250