CN108604230A - 具有职业和非职业内容的用户馈送 - Google Patents

具有职业和非职业内容的用户馈送 Download PDF

Info

Publication number
CN108604230A
CN108604230A CN201680002451.6A CN201680002451A CN108604230A CN 108604230 A CN108604230 A CN 108604230A CN 201680002451 A CN201680002451 A CN 201680002451A CN 108604230 A CN108604230 A CN 108604230A
Authority
CN
China
Prior art keywords
model
professional
score
user
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201680002451.6A
Other languages
English (en)
Inventor
张梁
L·朱
D·王
S·赵
Y·刘
S·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
LinkedIn Corp
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108604230A publication Critical patent/CN108604230A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

呈现了用于优化包括职业和非职业帖子的用户馈送的内容的方法、系统和计算机程序。一种方法包括用于训练机器学习分类器以基于包括分配给每个帖子的集群的多个特征将社交网站的帖子分类为职业或非职业帖子的操作。识别用于放置在社交网站的用户馈送中的帖子,每个帖子与得分相关联,并且基于所述帖子中的单词的语义含义将每个帖子分配给所述集群中的一个。该方法进一步包括用于调用机器学习分类器来将每个帖子分类为职业或非职业帖子的操作,以及用于增加被分类为职业帖子的帖子的得分的操作。基于每个帖子的得分对帖子进行排名以用于呈现在用户馈送中。

Description

具有职业和非职业内容的用户馈送
技术领域
本文中公开的主题一般涉及用于对社交网络中的内容进行排名的方法、系统和程序,并且更特别地涉及用于选择用于在社交网络的用户馈送上发布的内容的方法、系统和计算机程序。
背景技术
社交网络经常在通常被称为用户馈送的内容中提供大量的内容用于呈现给用户。用户对用户馈送的兴趣主要取决于内容的质量:如果内容是无趣的,则用户将放弃社交网络,但是如果内容是有趣的,则用户将继续访问用户馈送。
发现用户感兴趣的内容是具有挑战性的命题,因为社交网络必须理解用户馈送中的帖子的内容,以便向用户赋予期望的兴趣水平。当用户馈送包括职业内容(例如,与用户的职业相关的内容)和非职业内容(例如,与社交网络中的用户的朋友相关的内容)时,问题被进一步复杂化。
附图说明
附图中的各种附图仅图示出本公开内容的示例实施例并且不能被认为是限制其范围。
图1是图示出根据一些示例实施例的包括社交联网服务器的联网系统的框图。
图2A和2B是根据一些示例实施例的在社交网站上包括用户馈送的用户界面的截屏。
图3是根据一些示例实施例的用于为用户馈送选择内容的方法的流程图。
图4是图示出根据一些示例实施例的用于训练分类器的方法的图。
图5是图示出根据一个示例实施例的将帖子分配给集群的图。
图6是图示出根据一些示例实施例的用于对非职业内容进行排名的方法的图。
图7是图示出根据一些示例实施例的用于创建用户馈送的方法的图。
图8图示出根据一个示例实施例的提供对用户馈送的访问的社交联网服务器。
图9是根据一些示例实施例的用于对包括职业和非职业帖子的用户馈送的内容进行优化的方法的流程图。
图10是图示出根据一些示例实施例的可以被安装在机器上的软件架构的示例的框图。
图11图示出根据示例实施例的形式为计算机系统的机器的图解表示,在该机器内可以执行一组指令用以引起该机器实行本文中讨论的方法论中的任何一个或多个。
具体实施方式
呈现了用于优化包括职业和非职业帖子的用户馈送的内容的示例方法、系统和计算机程序。示例仅代表可能的变化。除非另有明确陈述,否则组件和功能是可选的并且可以被组合或被细分,并且操作可以在顺序方面进行变化或者可以被组合或细分。在以下描述中,为了解释的目的,阐述了众多具体的细节以提供对示例实施例的透彻理解。然而,对本领域技术人员将显而易见的是,可以在没有这些具体细节的情况下实践本主题。
在一些示例实施例中,社交网站中的用户馈送包括与和用户的社交活动相关的非职业内容混合的、与用户的职业活动相关的职业内容。内容由社交网络的其它用户来提供,并且系统通过利用机器学习技术训练分类器自动确定帖子类型来确定每个帖子是否被认为是职业或非职业内容。
机器学习分类器利用一个或多个特征来进行关于帖子是否被认为是职业或非职业的确定。特征是可以包括有用于确定帖子是否被认为是职业或非职业的信息的发帖成员或帖子的各方面。机器学习分类器所考虑的特征中的一个是帖子的文本。对文本进行分析并且基于每个单词的语义含义将帖子中的单词分配给多个集群中的一个。此外,基于单词的集群化将帖子分配给集群中的一个。然后将单词和帖子的集群用作用于机器学习分类器(也被称为机器学习工具或P/NP工具)的特征。
在机器学习分类器确定帖子的类型之后,基于分配给每个帖子的得分将职业和非职业帖子混合到用户馈送中。在一个示例实施例中,提高(例如,增加)职业帖子的得分以相对于非职业帖子有利于职业帖子。
在一个一般方面中,一种方法包括用于训练机器学习分类器以基于包括分配给每个帖子的集群的多个特征将社交网站的帖子分类为职业或非职业帖子的操作。识别用于放置在社交网站的用户馈送中的帖子,每个帖子与得分相关联,并且基于所述帖子中的单词的语义含义将每个帖子分配给所述集群中的一个。所述方法进一步包括用于调用机器学习分类器来将每个帖子分类为职业或非职业帖子的操作,以及用于增加被分类为职业帖子的帖子的得分的操作。基于每个帖子的得分对帖子进行排名以用于呈现在用户馈送中。这增加了职业帖子相对于非职业帖子的定位。
一个一般方面包括一种系统,其包括包含指令的存储器和一个或多个计算机处理器。所述指令在由所述一个或多个计算机处理器执行时引起所述一个或多个计算机处理器实行包括以下的操作:训练机器学习分类器以基于多个特征将社交网站的帖子分类为职业帖子或非职业帖子,所述多个特征包括来自分配给每个帖子的多个集群中的集群。识别用于放置在社交网站的用户馈送中的帖子,每个帖子与得分相关联,并且基于所述帖子中的单词的语义含义将每个帖子分配给所述集群中的一个。所述操作进一步包括调用机器学习分类器来将每个帖子分类为职业帖子或非职业帖子,以及用于增加被分类为职业帖子的帖子的得分的操作。基于每个帖子的得分对帖子进行排名以用于呈现在用户馈送中。
一个一般方面包括包含指令的非暂时性机器可读存储介质,所述指令在由机器执行时引起所述机器实行包括以下的操作:训练机器学习分类器来基于多个特征将社交网站的帖子分类为职业帖子或非职业帖子,所述多个特征包括来自分配给每个帖子的多个集群中的集群。识别用于放置在社交网站的用户馈送中的帖子,每个帖子与得分相关联,并且基于所述帖子中的单词的语义含义将每个帖子分配给所述集群中的一个。所述操作进一步包括调用机器学习分类器来将每个帖子分类为职业帖子或非职业帖子,以及用于增加被分类为职业帖子的帖子的得分的操作。基于每个帖子的得分对帖子进行排名以用于呈现在用户馈送中。
图1是图示出根据一些示例实施例的包括社交联网服务器112的联网系统的框图,其图示出高层级的基于客户端-服务器的网络架构102的示例实施例。社交联网服务器112经由网络114(例如,互联网或广域网(WAN))向一个或多个客户端设备104提供服务器侧功能性。图1图示出在客户端设备104上执行的例如web浏览器106(例如,由微软公司(Corporation)开发的Internet浏览器)、(一个或多个)客户端应用程序108以及社交联网客户端110。社交联网服务器112进一步与提供对一个或多个数据库116-124的访问的一个或多个数据库服务器126通信地耦合。
客户端设备104可以包括但不限于,移动电话、台式计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板、超级本、上网本、多处理器系统、基于微处理器的或可编程的消费者电子系统或用户128可用来访问社交联网服务器112的任何其它通信设备。在一些实施例中,客户端设备104可以包括用以显示信息(例如,以用户界面的形式)的显示模块(未示出)。在另外的实施例中,客户端设备104可以包括触摸屏、加速度计、陀螺仪、相机、麦克风、全球定位系统(GPS)设备等中的一个或多个。
在一个实施例中,社交联网服务器112是对来自客户端设备104的搜索查询或初始化请求进行响应的基于网络的装置。一个或多个用户128可以是人、机器或与客户端设备104交互的其它部件。在各种实施例中,用户128不是网络架构102的一部分,但是可以经由客户端设备104或另一部件与网络架构102进行交互。例如,网络114的一个或多个部分可以是自组网、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、WAN、无线WAN(WWAN)、城域网(MAN)、互联网的一部分、公共交换电话网络(PSTN)的一部分、蜂窝电话网络、无线网络、WiFi网络、WiMax网络、另一类型的网络或两个或多个这样的网络的组合。
客户端设备104可以包括一个或多个应用程序(也被称为“应用”),诸如但不限于,web浏览器106、社交联网客户端110以及其它客户端应用程序108,诸如消息传送应用程序、电子邮件(email)应用程序、新闻应用程序等。在一些实施例中,如果在客户端设备104中存在社交联网客户端110,那么将社交联网客户端110配置成为应用程序在本地提供用户接口并且在按需的基础上与社交联网服务器112通信以用于不是本地可用的数据和/或处理能力(例如,用以访问成员简档、用以认证用户128、用以识别或定位其它连接的成员等)。相反地,如果在客户端设备104中不包括社交联网客户端110,那么客户端设备104可以使用web浏览器106来访问社交联网服务器112。
此外,虽然关于客户端-服务器架构描述了基于客户端-服务器的网络架构102,但是本主题当然不限于这样的架构,并且可以在例如分布式的或对等架构系统中同样很好地找到应用程序。
除客户端设备104之外,社交联网服务器112与一个或多个数据库服务器126和(一个或多个)数据库116-124通信。在一个示例实施例中,将社交联网服务器112通信地耦合到成员活动数据库116、社交图数据库118、成员简档数据库120、布局数据库122以及模块数据库124。数据库116-124可以被实现为一个或多个类型的数据库,包括但不限于,分层数据库、关系数据库、面向对象的数据库、一个或多个平面文件或其组合。
成员简档数据库120存储关于已向社交联网服务器112注册的成员的成员简档信息。关于成员简档数据库120,所述成员可以包括个人或组织,诸如公司、企业、非营利性组织、教育机构或其它这样的组织。
与一些示例实施例一致,在用户初始地注册以成为由社交联网服务器112提供的社交联网服务的成员时,提示用户提供一些个人信息,诸如姓名、年龄(例如,出生日期)、性别、兴趣、联系信息、家乡、地址、配偶的和/或家庭成员的姓名、教育背景(例如,学校、专业、入学和/或毕业日期等)、雇佣历史、职业行业、技能、职业组织等。该信息被存储在例如成员简档数据库120中。类似地,当组织的代表初始地向由社交联网服务器112提供的社交联网服务注册该组织时,可以提示该代表提供关于该组织的某些信息。该信息可以被存储在例如成员简档数据库120中。在一些实施例中,可以(例如,在后台中或离线地)处理简档数据以生成各种导出简档数据。例如,如果成员已经提供了关于该成员针对相同公司或不同公司担任的各种工作头衔以及担任多长时间的信息,则该信息可以用于推断或导出指示成员的总体资历水平或在特定公司内的资历水平的成员简档属性。在一些示例实施例中,从一个或多个外部托管的数据源中导入或以其它方式访问数据可以增强针对成员和组织二者的简档数据。例如,对于特定公司,可以从一个或多个外部数据源导入财务数据,并且使其成为公司的简档的一部分。
当用户与由社交联网服务器112提供的社交联网服务进行交互时,将社交联网服务器112配置成监测这些交互。交互的示例包括但不限于,对由其它成员输入的帖子进行评论、查看成员简档、编辑或查看成员自己的简档、共享该社交联网服务之外的内容(例如,由不同于社交联网服务器112的实体提供的文章)、更新当前状态、发布内容以供其他成员进行查看和评论以及其它这样的交互。在一个实施例中,将这些交互的记录存储在成员活动数据库116中,这将使由成员进行的交互与存储在成员简档数据库120中的他或她的成员简档相关联。在一个示例实施例中,成员活动数据库116包括由社交联网服务的用户创建的用于在用户馈送上呈现的帖子。
布局数据库122存储用于定义对应网页的布局的一个或多个布局配置文件。在一个实施例中,布局配置文件根据要在网页的每个定义部分和/或区段出现的内容的类型和/或实质来定义网页的部分和/或区段。以这种方式,由社交联网服务器112提供的一个或多个网页每个都可以与对应的布局配置文件相关联。替换地和/或附加地,布局配置文件对应于一个以上的网页。
模块数据库124提供对一个或多个模块的访问,所述一个或多个模块可以由社交联网服务器112检索并被传送到客户端设备104。存储在模块数据库124内的模块提供各种功能性和特征,用于与由社交联网服务器112提供的社交联网服务衔接。在一个实施例中,将存储在模块数据库124内的模块设计成提供给定的特征或功能性。例如,模块数据库124可以包括提供关于成员连接的更新的模块、促进从成员简档数据库120中选择的成员简档的编辑和/或上传的模块、针对成员的简档检索新闻或其它感兴趣的项目的模块、促进搜索由社交联网服务器112提供的内容的模块以及其它这样的模块。总之,存储在模块数据库124中的模块可以提供增强成员对社交联网服务的体验的一个或多个功能性。
在一个实施例中,社交联网服务器112通过一个或多个数据库服务器126与各种数据库116-124通信。在这点上,(一个或多个)数据库服务器126提供一个或多个接口和/或服务,以用于向数据库116-124提供内容、修改数据库116-124中的内容、从数据库116-124移除内容或以其它方式与数据库116-124交互。例如且没有限制,这样的接口和/或服务可以包括一个或多个应用程序编程接口(API)、经由面向服务的架构(“SOA”)提供的一个或多个服务、经由面向REST的架构(“ROA”)提供的一个或多个服务或其组合。在替换实施例中,社交联网服务器112与数据库116-124通信并包括数据库客户端、引擎和/或模块,以用于向一个或多个数据库116-124提供数据、修改存储在一个或多个数据库116-124内的数据和/或从一个或多个数据库116-124中检索数据。
虽然(一个或多个)数据库服务器126被图示为单个块,但是本领域技术人员将认识到,(一个或多个)数据库服务器126可以包括一个或多个这样的服务器。例如,(一个或多个)数据库服务器126可以包括但不限于,交换服务器、服务器、轻量级目录访问协议(LDAP)服务器、MySQL数据库服务器、或被配置成提供对数据库116-124中的一个或多个的访问的任何其它服务器或其组合。因此且在一个实施例中,由社交联网服务实现的(一个或多个)数据库服务器126进一步被配置成与社交联网服务器112通信。
图2A和2B是根据一些示例实施例的在社交网站上包括用户馈送202的用户界面的截屏。在一个示例实施例中,用户馈送202包括一个或多个用户帖子204、208。当用户向下滚动用户馈送202时,向用户呈现更多的帖子。在一些示例实施例中,对帖子优先级化以按所估计的用户感兴趣的次序呈现帖子。
在一个示例实施例中,把帖子分类为职业帖子(例如,帖子204)或非职业帖子(例如,208)中的一个。职业帖子与用户的职业活动相关联,而非职业帖子与用户在社交网络上的社交活动相关。职业活动涉及与用户的工作相关联的用户的动作。如果用户为营利性组织工作,那么所述活动涉及商务目的或商业目的。如果用户的工作是政府工作,那么所述职业活动可以包括与用户的工作相关的政府活动。如果用户为非营利性组织工作,那么所述职业活动可以包括与非营利性组织相关的动作。因为帖子的不同性质,所以对职业和非职业帖子优先级化的准则是不同的。例如,如果发帖者与用户具有密切的关系,则可以使非职业帖子排名高,但是即使发帖者与用户不具有密切的关系(例如,如果发帖者是在用户的职业中公认的权威),也可以使职业帖子排名高。
在用户馈送202的一些示例实施例中,社交网络确定如何根据多个准则对职业帖子和非职业帖子进行整理。例如,一些用户可能对职业内容更感兴趣,而其它用户可能对非职业内容更感兴趣。此外,社交网络通过估计用户将对哪些帖子具有更高的兴趣来决定如何对职业帖子进行整理。
在用户首次加入社交网络时,用户可能在该社交网络上没有很多用户连接。因此,重要的是为用户提供高度感兴趣的职业内容,以便增加用户在社交网络中的参与度,因此用户可以继续添加新的连接并为其它用户提供内容。
图3是根据一些示例实施例的用于为用户馈送选择内容的方法300的流程图。虽然顺序地呈现和描述了该流程图中的各种操作,但是本领域技术人员将意识到可以以不同的次序执行、组合或省略或者并行地执行所述操作中的一些或全部。
方法300描述被执行以创建用户馈送的操作。在较高层次上描述操作,并且在图3之后的附图的描述中呈现针对所述操作中的每一个的更多细节。
机器学习是在不明确地对计算机进行编程的情况下给予计算机学习的能力的研究领域。机器学习探索算法(在本文中也被称为工具)的构建和研究,其可以从现有数据学习并进行关于新数据的预测。这样的机器学习工具通过从示例输入建立模型进行操作,以便进行被表达为输出的数据驱动的预测或决策。虽然关于一些机器学习工具呈现了示例实施例,但是可以将本文中呈现的原理应用于其它机器学习工具。
在一些示例实施例中,可以使用不同的机器学习工具。例如,可以使用逻辑回归(LR)、朴素贝叶斯、随机森林(RF)、神经网络(NN)和支持向量机(SVM)工具来对帖子进行分类或评分。
一般,在机器学习中存在两种类型的问题:分类问题和回归问题。分类问题的目的在于将项目分类为若干类别中的一个。例如,该对象是苹果还是橙子回归算法的目的在于例如通过提供作为实数的值来对某项目进行量化。在我们的案例中,示例实施例对帖子进行分类以确定该帖子是职业的还是非职业的。在其它示例实施例中,也利用机器学习来针对帖子的质量提供得分(例如,从1到100的数字)。
在操作302处,训练一个或多个机器学习工具。在示例实施例中,利用若干机器学习工具来创建用户馈送:为职业帖子提供得分的得分职业(SP)工具、为非职业帖子提供得分的得分非职业(SNP)工具、以及确定帖子是职业帖子还是非职业帖子的职业/非职业(P/NP)工具。
在一些示例实施例中,利用现有数据来训练机器学习工具。例如,数据可以是由将帖子分类为职业或非职业帖子的人类鉴定者输入的,但是其它类型的数据也是可能的。下面参考图4提供了关于P/NP工具的训练的更多细节。
在训练完工具之后,在操作304处,收集用户帖子。可以以许多方式创建用户帖子,诸如由社交网络的用户创建,或者帖子可以指的是具有互联网上可用的信息的网页,或者帖子可以由社交网络提供方来创建,或者帖子可以由广告商来创建等。
所述方法从操作304流至操作306,其中每个帖子与来自多个集群的机器学习集群相关联(例如,被分配给)。集群是基于帖子中的单词的语义含义的。下面在图5中提供了关于将帖子分配给集群的更多细节。
在操作308处,P/NP工具确定帖子中的每一个是职业帖子还是非职业帖子。另外,在操作310处,SP工具为职业帖子中的每一个提供得分。在一些示例实施例中,SP工具使用关联模型来为帖子提供得分。在其它示例实施例中,首先在一些用户馈送中随机地呈现职业帖子,并且然后测量点进率(CTR)。CTR变成针对帖子的得分,但是可以利用其它因素来计算得分,诸如帖子的作者、何时创建了帖子的时间等。
在一些示例实施例中,不根据发布时间来进行帖子的排名,因为社交网络强调内容的质量而不是何时创建了内容的时间。出于该原因,在一些示例实施例中,不呈现帖子创建时间,因为用户可能会被搞糊涂。如果呈现了帖子创建时间,则用户可以假定用户馈送具有时间次序,但是由于根据帖子的得分对其进行分类,所以帖子可能不遵循帖子创建时间的次序,并且将会把用户搞糊涂。
在操作312处,SNP工具为非职业帖子提供得分。下面参考图6提供了关于操作312的更多细节。
在一些示例实施例中,针对职业或非职业帖子的得分是基于CTR的。然而,如果仅通过CTR对帖子进行排名,那么非职业帖子通常会具有更高的得分。为了避免强调非职业内容超过了职业内容,一些示例实施例增加针对职业帖子的得分,以便提高社交网络中职业内容的呈现。
所述方法从操作312流至操作314,其中增加了职业帖子的得分。在操作316处,职业和非职业帖子基于它们各自的得分被合并以便创建用户馈送。在操作318处,提供用户馈送以用于呈现给用户。下面参考图7提供了关于操作314、316和318的更多细节。
图4是图示出根据一些示例实施例的用于训练P/NP工具的方法的图。P/NP工具对问题“该帖子是职业帖子还是非职业帖子”给出了答案。
最初,收集鉴定者数据402。如本文中所使用的,鉴定者是人,也被称为编辑,其阅读帖子并根据可用类别中的一个对帖子进行分类。在一个示例实施例中,鉴定者考察每个帖子404并且按照职业的或非职业的将类别406分配给帖子。在另一示例实施例中,从社交网络的用户接收类别数据。
此外,识别特征408用于训练机器学习P/NP工具。然后由机器学习P/NP工具使用所识别的特征来对帖子404进行分类。在一个示例实施例中,所述特征包括以下中的一个或多个:
-帖子的长度(例如,表达为字符数或单词数);
-指示帖子是否包括图片的标志;
-帖子中的图片数;
-帖子的类型。在一个示例实施例中,帖子可以是对另一用户的帖子的评论、或另一用户的帖子的共享、或由用户创建的原始帖子;
-从帖子中的文本和共享内容中的文本(例如,如果用户共享文章或另一用户的帖子,则该共享内容中的文本)训练机器学习帖子集群ID(CID)。下面参考图5提供了关于如何使用CID作为用于P/NP工具的特征的更多细节。
-原始创建了帖子的发帖者的声誉得分;
-共享帖子的发帖者的声誉得分;或
-发布帖子的时间。
应当注意的是,评估特征以用于分类中最具挑战性的部分之一是评估帖子中的内容(例如,文本)。简单地使用单词作为特征可能不太有效,因为许多单词具有同义词,并且一些单词具有多个语义含义。这就是为什么在一些示例实施例中利用每个单词的语义含义作为特征。下面参考图5提供了关于如何识别每个单词的语义含义以及如何评估帖子的语义含义的更多细节。
在操作410处,通过评定每个特征对分类过程的价值来训练机器学习P/NP工具。作为训练的结果,已训练P/NP工具412准备好用于分类新的帖子。
应当注意的是,在图4中图示出的实施例是示例性的。其它实施例可以利用不同的特征、附加的特征、较少的特征等。因此,图4中图示出的实施例不应被解释为是排他性的或限制性的,而是示例性的或例证性的。
图5是图示出根据一个示例实施例的将帖子分配给集群的图。使用帖子中的文本作为用于对职业或非职业内容进行分类的特征是具有挑战性的。例如,线性回归(LR)算法可以用于其它特征,但是LR对于文本来说更难,因为单词根据其中使用所述单词的语境可以意味着不同的意思。
为了包括与帖子的语义含义相互关联的特征,帖子的单词根据其语义含义被分类,并且然后使用其语义含义来将帖子分类到多个集群中的一个中。
首先,对帖子404进行解析以识别帖子404中的单词。在英语语言中,这是直截了当的命题,但是在其中单词之间没有空格充当定界符的其它语言(比如中文)中,解析更为复杂。
在操作504处,向量化每个单词,其意味着向每个单词分配高维向量506,其中每个向量506与该单词的语义含义互相关联。在一个示例实施例中,利用工具Word2vec用于向量化操作504,但是也可以利用其它工具,诸如潜在狄利克雷分派(LDA)。
Word2vec是用于产生单词嵌入的一组相关模型。这些模型是被训练以重构单词的语言语境的浅层、两层神经网络。Word2vec采用大的文本语料库作为输入并产生高维空间(通常在一百维与几百维之间)。给语料库中的每个唯一单词分配空间中的对应向量506。将向量506定位在向量空间中,使得在语料库中共享共同语境的单词在空间中彼此紧邻地定位。在一个示例实施例中,向量506的每个元素都是实数。
例如,可以利用Word2vec来识别两个单词之间的相似度。在一个示例中,使用大量的标题作为输入,并且创建与单词“software(软件)”具有类似含义的单词的列表。该列表包括了具有0.8110的与“software”相关的指示概率的错误拼写“sofware”,以及具有0.6615的概率的单词“android”。
在创建了单词向量506之后,基于单词向量506创建帖子向量512。在一个示例实施例中,帖子向量512是单词向量506的平均,但是其它等式也是可能的。使用帖子向量512作为到根据帖子向量之间的接近度将帖子向量分类到对应集群中的工具的输入。在一个示例实施例中,使用K均值聚类508来将帖子分配给多个集群中的一个。
K均值聚类是一种最初用在信号处理中的向量量化方法,其对于数据挖掘中的集群分析来说是流行的。K均值聚类的目的在于将n个观察划分到k个集群中,其中每个观察属于具有最近的均值的集群,用作集群的原型。这导致数据空间被划分成沃罗诺伊单元。
在一些示例实施例中,集群数在5和10之间,但是其它实施例可以利用在10和100之间的集群或更多。在用中文语言实现的一个示例实施例中,所识别的集群中的一些包括了生活方式集群、用于共享职业内容的集群、用于广告和工作发布的集群以及针对用英语写的帖子的集群。
K均值聚类508的结果是帖子集群ID(CID)514。在图5的示例性实施例中,图示出六个集群K1-K6的使用。因此,帖子CID 514是六个集群K1-K6中的一个。
在一个示例实施例中,使用帖子CID 514作为用于P/NP工具的特征。因为单词的向量化是基于单词的语义含义来执行的并且帖子向量512是基于帖子中的单词的语义含义的,所以用于帖子的集群或主题同样与帖子的语义含义相关联。帖子的这种语义含义增强了P/NP工具的分类算法。
图6是图示出根据一些示例实施例的用于对非职业内容进行排名(例如,评分)的操作321的图。SNP工具的训练类似于图4中图示出的P/NP工具的训练。训练数据包括历史数据602,其包括多个非职业帖子208和对应的CTR 606。基于点击数除以帖子查看数来测量CTR 606,但是也可以利用用于计算CTR的其它等式。
在一个示例实施例中,被识别用于SNP工具的特征608包括:
-查看者与创建该帖子的发帖者之间的历史关系;
-查看者与发帖者之间的连接强度,其中所述连接强度是基于发帖者与查看者之间在社交网络中的活动水平;
-更新的类型(例如,评论、共享或原始帖子);
-帖子中的文本。在一个示例实施例中,使用用于帖子的集群信息,如图5中所示;
-指示帖子是否包括图片的标志;
-帖子中文本的长度(例如,以字符数或单词数来测量的);
-查看者的简档;
-创建帖子的发帖者的简档;以及
-当帖子被另一用户共享时创建原始帖子的用户的简档;
在操作610处,执行SNP工具以基于历史数据602来评定特征。在操作612处,训练SNP工具用于对非职业内容进行排名。在一个示例实施例中,SNP工具的输出是与帖子对查看者的关联相关联的NP得分值(例如,实数);NP得分越高,帖子与查看者越相关。
图7是图示出根据一些示例实施例的用于创建用户馈送202的操作314和316的图。在将用于用户馈送202的帖子204、208分类为职业或非职业帖子之后,并且在获得针对每个帖子的得分(例如,得分702和708)之后,下一步操作是通过组合所述职业和非职业帖子来创建用户馈送202。
在一个示例实施例中,将社交网络配置成相对于非职业内容提高用户馈送202上的职业内容。在一个示例实施例中,通过增加职业帖子204的得分702来实现提高职业内容。
为了形成用户馈送202,馈送管理器808(参见图8)组合职业帖子204和非职业帖子208以创建经整理的用户馈送202,其被提供用于在客户端设备104上呈现给用户128。
每个职业帖子204都与得分S 702相关联。在一个示例实施例中,得分702是基于针对职业帖子的CTR的。在一个示例实施例中,根据职业帖子204的得分对其进行整理,其中最高得分处在列表的顶部。
为了提高职业帖子的存在,在操作314处,提高(例如,增加)职业帖子得分702,并且当职业和非职业帖子被整理在一起时,职业帖子204由于该提高而被给予较大的权重。
在一个示例实施例中,通过将职业帖子得分702乘以大于1的常数α来提高职业帖子得分702以获得提高的帖子得分704。在一些示例实施例中,α具有在1.1与2.0之间的范围中的值,但是在其它示例实施例中,α可以在1.1与20(或更大)之间的范围中。
在其它示例实施例中,可以使用其它等式来提高得分,诸如利用二次等式、或多项式等式、或阶梯函数等。
在操作316处,馈送管理器808将职业帖子的经提高的得分S 704与非职业帖子的得分T 708进行比较,并且按照得分的降序创建职业和非职业帖子的经整理的用户馈送202。
在图7的示例性实施例中,经整理的用户馈送202以具有最高得分的职业帖子开始,随后是具有第二高得分的职业帖子,随后是具有最高得分的非职业帖子等。
图8图示出根据一个示例实施例的提供对用户馈送的访问的社交联网服务器112。在一个示例实施例中,社交联网服务器112包括用于管理用户馈送的多个工具和多个数据库。用于管理用户馈送的多个工具包括向量化器804、集群确定模块806、馈送管理器808、SP工具810、SNP工具812以及P/NP工具814。
向量化器804采用帖子作为输入,解析帖子的单词并且为帖子的每个单词创建向量。在一个实施例中,向量化器利用Word2vec工具,如以上参考图5所描述的。
集群确定模块806采用单词向量作为输入,基于每个帖子中的单词的单词向量来计算帖子向量,并且将每个帖子分配给来自多个集群中的集群。在一个实施例中,集群确定模块806利用K均值聚类,如以上参考图5所描述的。
馈送管理器808创建用户馈送202以用于在客户端设备104的用户界面上呈现。在一个示例实施例中,馈送管理器808如以上参考图7描述的那样组合职业帖子和非职业帖子。
SP工具810利用机器学习算法基于多个特征(诸如,点进率和帖子中单词的语义含义)确定职业帖子的得分,但是可以利用其它度量(诸如,帖子在用户的显示器上的时间量、或用户请求从用户馈送中移出帖子的次数)。
SNP工具812利用机器学习算法基于多个特征(诸如以上参考图6描述的特征)来确定非职业帖子的得分。
P/NP工具814利用机器学习算法基于多个特征(诸如以上参考图4描述的特征)将帖子分类为职业帖子或非职业帖子。
应当注意的是,在图8中图示出的实施例是示例性的。其它实施例可以利用不同的模块或机器学习算法、将两个模块的功能性组合成一个模块、跨多个服务器分布一个模块的功能性等。因此,图8中图示出的实施例不应被解释为是排他性的或限制性的,而是示例性的或例证性的。
图9是根据一些示例实施例的用于对包括职业和非职业帖子的用户馈送的内容进行优化的方法900的流程图。虽然顺序地呈现和描述了该流程图中的各种操作,但是本领域技术人员将意识到可以以不同的次序执行、组合或省略或者并行地执行所述操作中的一些或全部。
在操作902处,训练机器学习分类器以基于多个特征将社交网站的帖子分类为职业帖子或非职业帖子。所述多个特征包括来自分配给每个帖子的多个集群中的集群。在一些示例实施例中,所述多个特征包括图4中描述的特征408。
该方法从操作902流至操作904,其用于识别用于放置在社交网站的用户馈送中的多个帖子。每个帖子都与得分相关联。在操作906处,基于帖子中的单词的语义含义,将来自所述多个帖子中的每个帖子分配给所述多个集群中的一个。
该方法从操作906流至操作908,其用于调用机器学习分类器以将每个帖子分类为职业帖子或非职业帖子。在操作910处,增加被分类为职业帖子的帖子的得分,并且在操作912处,基于每个帖子的得分对所述多个帖子进行排名(例如,整理)以用于呈现在用户馈送中。
在一些示例实施例中,每个帖子的分配进一步包括为帖子中的每个单词计算语义向量;基于针对帖子中单词的语义向量为帖子计算语义向量;以及对帖子的语义向量进行k均值聚类以获得识别被分配给帖子的集群的帖子集群标识符。
在一些示例实施例中,所述语义向量是在多维空间中,其中将每个语义向量定位在所述多维空间中,使得共享语义含义的单词接近地位于所述多维空间中。
此外,在一个示例实施例中,针对每个帖子的得分是基于针对该帖子的呈现的点进率。在其它示例实施例中,职业帖子与帖子的发帖者的职业活动相关联,其中非职业帖子不与帖子的发帖者的职业活动相关联。
此外,在一些示例实施例中,机器学习分类器的训练进一步包括获得由一个或多个人针对多个训练帖子输入的鉴定;向分类器训练程序输入所述多个训练帖子、针对所述多个训练帖子的鉴定以及所述多个特征;以及执行所述分类器训练程序以训练机器学习分类器。
在一个示例实施例中,所述多个特征进一步包括以下中的一个或多个:帖子的长度;帖子是否包括图片;选自评论、共享或原始帖子中的帖子的类型;帖子的发帖者的声誉以及发帖时间。在另一示例实施例中,增加被分类为职业帖子的帖子的得分包括将被分类为职业帖子的帖子的得分乘以大于1的常数。
在一个示例实施例中,所述多个帖子的排名进一步包括按照所述帖子的得分的降序对所述帖子进行整理,其中将具有较高得分的帖子在用户馈送中呈现在具有较低得分的帖子的前面。在另一示例实施例中,针对非职业帖子的得分由机器学习算法基于选自包括以下的群组的特征中的一个或多个来确定:查看者与发帖者之间的历史关系、所述查看者与所述发帖者之间的连接强度、所述帖子的类型、所述帖子中的文本、所述帖子的长度、所述发帖者的简档以及所述查看者的简档。
图10是图示出可以与本文中描述的各种硬件架构结合地使用的代表性软件架构1002的框图1000。图10仅仅是软件架构1002的非限制性示例,并且将意识到的是,可以实现许多其它架构以促进本文中描述的功能性。软件架构1002可以在诸如图11的机器1100的硬件上执行,机器1100除其它之外包括处理器1104、存储器/储存器1106和I/O组件1118。图示出代表性硬件层1050并且其可以表示例如图11的机器1100。代表性硬件层1050包括具有相关联的可执行指令1054的一个或多个处理单元1052。可执行指令1054表示软件架构1002的可执行指令,其包括图1-9的方法、模块等等的实现。硬件层1050也包括存储器和/或存储模块1056,其也具有可执行指令1054。硬件层1050也可以包括其它硬件1058,其表示硬件层1050的任何其它硬件,诸如作为机器1100的一部分图示出的其它硬件。
在图10的示例架构中,可以将软件架构1002概念化为其中每个层提供特定功能性的层栈。例如,软件架构1002可以包括诸如操作系统1020、库1016、框架/中间件1014、应用程序1012和表示层1010的层。在操作上,应用程序1012和/或层内的其它组件可以通过软件栈调用应用编程接口(API)调用1004,并且响应于API调用1004接收被图示为消息1008的响应、返回值等。图示出的层本质上是代表性的,并且并非所有的软件架构都具有所有层。例如,一些移动或专用操作系统可以不提供框架/中间件层1014,而其它可以提供这样的层。其它软件架构可以包括附加的或不同的层。
操作系统1020可以管理硬件资源并提供公共服务。操作系统1020可以包括例如内核1018、服务1022和驱动器1024。内核1018可以充当硬件与其它软件层之间的抽象层。例如,内核1018可以负责存储器管理、处理器管理(例如,调度)、组件管理、联网、安全设置等。服务1022可以为其它软件层提供其它公共服务。驱动器1024可以负责控制底层硬件或与其对接。例如,驱动器1024可以包括显示器驱动器、相机驱动器、驱动器、闪速存储器驱动器、串行通信驱动器(例如,通用串行总线(USB)驱动器)、驱动器、音频驱动器、电源管理驱动器等,这取决于硬件配置。
库1016可以提供可以由应用程序1012和/或其它组件和/或层利用的公共基础设施。库1016通常提供允许其它软件模块以比直接地与底层操作系统1020的功能性(例如、内核1018、服务1022和/或驱动器1024)对接更容易的方式执行任务的功能性。库1016可以包括可以提供诸如存储器分派函数、串操纵函数、数学函数等的函数的系统库1042(例如,C标准库)。此外,库1016可以包括API库1044,诸如媒体库(例如,用以支持诸如MPEG4、H.264、MP3、AAC、AMR、JPG、PNG的各种媒体格式的呈现和操纵的库)、图形库(例如,可以用于在显示器上渲染2D和3D图形内容的OpenGL框架)、数据库库(例如,可以提供各种关系数据库功能的SQLite)、web库(例如,可以提供web浏览功能性的WebKit)等。库1016也可以包括各种各样的其它库1046以给应用程序1012和其它软件组件/模块提供许多其它API。
框架1014(有时也被称为中间件)可以提供可以由应用程序1012和/或其它软件组件/模块利用的更高级的公共基础设施。例如,框架1014可以提供各种图形用户界面(GUI)功能、高级资源管理、高级定位服务等。框架1014可以提供可以由应用程序1012和/或其它软件组件/模块利用的大范围的其它API,其中的一些可以具体到特定的操作系统或平台。
应用程序1012包括P/NP工具814、SP工具810、SNP工具812、内置应用程序1036和/或第三方应用程序1038。代表性内置应用程序1036的示例可以包括但不限于,联系人应用程序、浏览器应用程序、书籍阅读器应用程序、定位应用程序、媒体应用程序、消息传送应用程序和/或游戏应用程序。第三方应用程序1038可以包括内置应用程序1036中的任何以及广泛种类的其它应用程序。在具体示例中,第三方应用程序1038(例如,由不同于特定平台的供应商的实体使用AndroidTM或iOSTM软件开发包(SDK)开发的应用程序)可以是在移动操作系统(诸如iOSTM、AndroidTMPhone或其它移动操作系统)上运行的移动软件。在该示例中,第三方应用程序1038可以调用由诸如操作系统1020的移动操作系统提供的API调用1004来促进本文中描述的功能性。
应用程序1012可以利用内置操作系统功能(例如,内核1018、服务1022和/或驱动器1024)、库(例如,系统库1042、API库1044和其它库1046)或框架/中间件1014来创建用户接口以与系统的用户进行交互。替换地或附加地,在一些系统中,与用户的交互可以通过表示层(诸如表示层1010)发生。在这些系统中,应用程序/模块“逻辑”可以与和用户交互的应用程序/模块的方面分离。
一些软件架构利用虚拟机。在图10的示例中,这点通过虚拟机1006被图示出。虚拟机创建其中应用程序/模块可以就好像它们正在硬件机器(诸如例如图11的机器1100)上执行一样执行的软件环境。虚拟机1006由主机操作系统(例如,图10中的操作系统1020)托管并且通常(虽然并非总如此)具有虚拟机监测器1060,其管理虚拟机1006的操作以及与主机操作系统(例如,操作系统1020)的接口。软件架构在虚拟机1006内执行,诸如操作系统1034、库1032、框架/中间件1030、应用程序1028和/或表示层1026。在虚拟机1006内执行的软件架构的这些层可以与先前描述的对应层相同或可以不同。
图11是图示出根据一些示例实施例的机器1100的组件的框图,所述机器1100能够从机器可读介质(例如,机器可读存储介质)中读取指令并且执行本文中讨论的方法论中的任何一个或多个。具体地,图11示出以计算机系统的示例形式的机器1100的图解表示,在所述机器1100内可以执行用于引起机器1100实行本文中讨论的方法论中的任何一个或多个的指令1110(例如,软件、程序、应用程序、小应用程序、应用或其它可执行代码)。例如,指令1110可以引起机器1100执行图3和9的流程图。附加地或替换地,指令1110可以实现图8和10的机器学习工具、P/NP工具、SP工具以及SNP工具等。指令1110将通用的、未被编程的机器1100转变成被编程成以所描述的方式实现所描述和所图示的功能的特定机器1100。
在替换实施例中,机器1100作为独立设备来操作或可以将其耦合(例如,联网)到其它机器。在联网部署中,机器1100可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力来操作,或者在对等(或分布式)网络环境中作为对等机器来操作。机器1100可以包括但不限于,交换机、控制器、服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如,智能手表)、智能家居设备(例如,智能家电)、其它智能设备、web装置、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其它方式执行指定由机器1100所采取的动作的指令1110的任何机器。此外,虽然仅图示出单个机器1100,但是术语“机器”也将被理解为包括单独地或联合地执行指令1110以实行本文中讨论的方法论中的任何一个或多个的机器1100的集合。
机器1100可以包括处理器1104、存储器/储存器1106和I/O组件1118,其可以被配置成诸如经由总线1102与彼此通信。在示例实施例中,处理器1104(例如,中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另一处理器或其任何适当的组合)可以包括可以执行指令1110的例如处理器1108和处理器1112。术语“处理器”意图为包括可以包含可以同时地执行指令的两个或多个独立处理器(有时也被称为“核”)的多核处理器。虽然图11示出多个处理器1104,但是机器1100可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如,多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或其任何组合。
存储器/储存器1106可以包括存储器1114(诸如主存储器或其它存储器存储)和存储单元1116,二者都可由处理器1104诸如经由总线1102访问。存储单元1116和存储器1114存储体现本文中描述的方法论或功能中的任何一个或多个的指令1110。指令1110在由机器1100执行期间也可以完全地或部分地驻留在存储器1114内、存储单元1116内、处理器1104中的至少一个内(例如,处理器的高速缓冲存储器内)或其任何适当的组合。因此,存储器1114、存储单元1116和处理器1104的存储器是机器可读介质的示例。
如本文中使用的,“机器可读介质”的意思是能够暂时地或永久地存储指令和数据的设备,并且可以包括但不限于,随机存取存储器(RAM)、只读存储器(ROM)、缓冲器存储器、闪速存储器、光学介质、磁性介质、高速缓冲存储器、其它类型的存储(例如,可擦可编程只读存储器(EEPROM))和/或其任何适当的组合。术语“机器可读介质”应被理解为包括能够存储指令1110的单个介质或多个介质(例如,集中式或分布式数据库、或相关联的高速缓存和服务器)。术语“机器可读介质”还应被理解为包括能够存储用于由机器(例如,机器1100)执行的指令(例如,指令1110)使得所述指令在由机器的一个或多个处理器(例如,处理器1104)执行时引起该机器实行本文中描述的方法论中的任何一个或多个的任何介质或多个介质的组合。因此,“机器可读介质”指代单个存储装置或设备、以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”不包括信号本身。
I/O组件1118可以包括各种各样的组件以接收输入、提供输出、产生输出、传送信息、交换信息、捕捉测量结果等等。在特定机器中所包括的具体I/O组件1118将取决于机器的类型。例如,诸如移动电话的便携式机器将可能包括触摸输入设备或其它这样的输入机构,然而无头服务器机器将可能不包括这样的触摸输入设备。将意识到的是,I/O组件1118可以包括在图11中未示出的许多其它组件。根据功能性对I/O组件1118进行分组仅仅是为了简化下面的论述,并且该分组绝不是限制性的。在各种示例实施例中,I/O组件1118可以包括输出组件1126和输入组件1128。输出组件1126可以包括视觉组件(例如,诸如等离子体显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)之类的显示器)、听觉组件(例如,扬声器)、感触组件(例如,振动马达、阻力机构)、其它信号发生器等等。输入组件1128可以包括字母数字输入组件(例如,键盘、被配置成接收字母数字输入的触摸屏、摄影光学键盘或其它字母数字输入组件)、基于点的输入组件(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器或其它指向仪器)、触觉输入组件(例如,物理按钮、提供触摸的定位和/或力量或触摸手势的触摸屏、或其它触觉输入组件)、音频输入组件(例如,麦克风)等。
在另外的示例实施例中,I/O组件1118可以除一大批其它组件之外包括生物计量组件1130、运动组件1134、环境组件1136、或位置组件1138。例如,生物计量组件1130可以包括用以检测表情(例如,手表情、面部表情、声音表情、身体姿势或眼睛跟踪)、测量生物信号(例如,血压、心率、体温、出汗或脑波)、识别个人(例如,语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的组件。运动组件1134可以包括加速度传感器组件(例如,加速度计)、重力传感器组件、旋转传感器组件(例如,陀螺仪)等。环境组件1136可以包括例如光照传感器组件(例如,光度计)、温度传感器组件(例如,检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如,气压计)、声学传感器组件(例如,检测背景噪声的一个或多个麦克风)、接近度传感器组件(例如,检测附近对象的红外传感器)、气体传感器(例如,为安全起见用以检测危险气体的浓度或测量大气中的污染物的气体检测传感器)、或可以提供对应于周围物理环境的指示、测量结果或信号的其它组件。定位组件1138可以包括位置传感器组件(例如,全球定位系统(GPS)接收器组件)、高度传感器组件(例如,高度计或检测可以从其导出高度的气压的气压计)、方向传感器组件(例如,地磁仪)等。
可以使用各种各样的技术来实现通信。I/O组件1118可以包括可操作用于分别经由耦合1124和耦合1122将机器1100耦合到网络1132或设备1120的通信组件1140。例如,通信组件1140可以包括网络接口组件或用以与网络1132对接的其它适当的设备。在另外的示例中,通信组件1140可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、组件(例如,低能量)、组件以及用以经由其它形式提供通信的其它通信组件。设备1120可以是另一机器或各种各样的外围设备(例如,经由USB耦合的外围设备)中的任何。
此外,通信组件1140可以检测标识符或包括可操作用于检测标识符的组件。例如,通信组件1140可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件(例如,用以检测诸如通用产品代码(UPC)条形码的一维条形码、多维条形码(诸如快速响应(QR)代码、Aztec代码、数据矩阵、Dataglyph、MaxiCode、PDF417、Ultra Code、UCCRSS-2D条形码)和其它光学代码的光学传感器)、或声学检测组件(例如,用以识别带标记的音频信号的麦克风)。此外,可以经由通信组件1140得到各种信息,诸如经由互联网协议(IP)地理定位的定位、经由信号三角测量的定位、经由检测可以指示特定定位的NFC信标信号的定位等。
在各种示例实施例中,网络1132的一个或多个部分可以是自组网络、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网、互联网的一部分、公共交换电话网(PSTN)的一部分、简易老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、另一类型的网络或两个或多个这样的网络的组合。例如,网络1132或网络1132的一部分可以包括无线或蜂窝网络,并且耦合1124可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或另一类型的蜂窝或无线耦合。在该示例中,耦合1124可以实现各种类型的数据传输技术中的任何,诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强型数据速率GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准制订组织定义的其它技术、其它远程协议或其它数据传输技术。
可以经由网络接口设备(例如,包括在通信组件1140中的网络接口组件)使用传输介质并利用许多众所周知的传输协议(例如,超文本传输协议(HTTP))中的任何一种在网络1132上接收或传送指令1110。类似地,可以经由到设备1120的耦合1122(例如,对等耦合)使用传输介质接收或传送指令1110。术语“传输介质”应被理解为包括能够存储、编码或承载用于由机器1100执行的指令1110并且包括数字或模拟通信信号的任何无形介质或用以促进这样的软件通信的其它无形介质。
贯穿本说明书,多个实例可以实现如单个实例所描述的组件、操作或结构。虽然一个或多个方法的单独操作被图示和描述为分离的操作,但是可以同时执行单独操作中的一个或多个,并且完全不要求以所例证的次序执行操作。可以将示例配置中呈现为分离的组件的结构和功能性实现为组合的结构或组件。类似地,可以将呈现为单个组件的结构和功能性实现为分离的组件。这些和其它变化、修改、添加和改进落入本文中主题的范围内。
足够详细地描述了本文中例证的实施例以使得本领域技术人员能够实践所公开的教导。也可以使用其它实施例并且从其导出其它实施例,使得可以进行结构和逻辑替换和改变而不脱离本公开内容的范围。因此,不应以限制性意义理解具体实施方式,并且仅由所附权利要求以及这样的权利要求有权享有的等同物的全部范围来限定各种实施例的范围。
如本文中所使用的,可以以包括性或排他性意义来解释术语“或”。此外,可以为本文中描述为单个实例的资源、操作或结构提供多个实例。附加地,各种资源、操作、模块、引擎和数据存储之间的边界在某种程度上是任意的,并且在具体的例证性配置的上下文中例证了特定操作。设想了功能性的其它分派并且其可以落入本公开内容的各种实施例的范围内。一般,可以将示例配置中呈现为分离资源的结构和功能性实现为组合的结构或资源。类似地,可以将呈现为单个资源的结构和功能性实现为分离的资源。这些和其它变化、修改、添加和改进落入如由所附权利要求所表示的本公开内容的实施例的范围内。因此,应以例证性而非限制性意义来看待说明书和附图。

Claims (20)

1.一种方法,包括:
训练机器学习分类器以基于多个特征将社交网站的帖子分类为职业帖子或非职业帖子,所述多个特征包括来自分配给每个帖子的多个集群中的集群;
识别用于放置在社交网站的用户馈送中的多个帖子,每个帖子与得分相关联;
基于所述帖子中的单词的语义含义,将来自所述多个帖子的每个帖子分配给所述多个集群中的一个;
调用所述机器学习分类器以将每个帖子分类为职业帖子或非职业帖子;
增加被分类为职业帖子的所述帖子的得分;以及
基于每个帖子的得分对所述多个帖子进行排名以用于呈现在所述用户馈送中,其中所述方法的操作由处理器来执行。
2.如权利要求1所述的方法,其中每个帖子的分配进一步包括:
为所述帖子中的每个单词计算语义向量;
基于针对所述帖子中的单词的语义向量来计算针对所述帖子的语义向量;以及
对所述帖子的语义向量进行k均值聚类以获得识别被分配给所述帖子的集群的帖子集群标识符。
3.如权利要求2所述的方法,其中所述语义向量是在多维空间中,其中将每个语义向量定位在所述多维空间中,使得共享语义含义的单词接近地位于所述多维空间中。
4.如权利要求1所述的方法,其中针对每个帖子的得分是基于针对所述帖子的呈现的点进率。
5.如权利要求1所述的方法,其中所述职业帖子与所述帖子的发帖者的职业活动相关联,其中所述非职业帖子不与所述帖子的发帖者的职业活动相关联。
6.如权利要求1所述的方法,其中所述机器学习分类器的训练进一步包括:
获得由一个或多个人针对多个训练帖子输入的鉴定;
向分类器训练程序输入所述多个训练帖子、针对所述多个训练帖子的所述鉴定以及所述多个特征;以及
执行所述分类器训练程序以训练所述机器学习分类器。
7.如权利要求1所述的方法,其中所述多个特征进一步包括以下中的一个或多个:所述帖子的长度;所述帖子是否包括图片;选自评论、共享或原始帖子中的所述帖子的类型;所述帖子的发帖者的声誉以及发帖时间。
8.如权利要求1所述的方法,其中增加被分类为职业帖子的帖子的得分包括将被分类为职业帖子的帖子的得分乘以大于1的常数。
9.如权利要求1所述的方法,其中对所述多个职业帖子进行排名进一步包括:按照所述帖子的得分的降序对所述帖子进行整理,其中将具有较高得分的帖子在所述用户馈送中呈现在具有较低得分的帖子前面。
10.如权利要求1所述的方法,其中针对所述非职业帖子的得分由机器学习算法基于选自包括以下的群组的至少一个或多个特征来确定:查看者与发帖者之间的历史关系、所述查看者与所述发帖者之间的连接强度、所述帖子的类型、所述帖子中的文本、所述帖子的长度、所述发帖者的简档以及所述查看者的简档。
11.一种系统,包括:
包括指令的存储器;以及
一个或多个计算机处理器,其中所述指令在由所述一个或多个计算机处理器执行时引起所述一个或多个计算机处理器实行包括以下的操作:
训练机器学习分类器以基于多个特征将社交网站的帖子分类为职业帖子或非职业帖子,所述多个特征包括来自分配给每个帖子的多个集群中的集群;
识别用于放置在社交网站的用户馈送中的多个帖子,每个帖子与得分相关联;
基于所述帖子中的单词的语义含义,将来自所述多个帖子的每个帖子分配给所述多个集群中的一个;
调用所述机器学习分类器以将每个帖子分类为职业帖子或非职业帖子;
增加被分类为职业帖子的所述帖子的得分;以及
基于每个帖子的得分对所述多个帖子进行排名以用于呈现在所述用户馈送中。
12.如权利要求11所述的系统,其中每个帖子的分配进一步包括:
为所述帖子中的每个单词计算语义向量;
基于针对所述帖子中的单词的语义向量来计算针对所述帖子的语义向量;以及
对所述帖子的语义向量进行k均值聚类以获得识别被分配给所述帖子的集群的帖子集群标识符。
13.如权利要求11所述的系统,其中所述职业帖子与所述帖子的发帖者的职业活动相关联,其中所述非职业帖子不与所述帖子的发帖者的职业活动相关联。
14.如权利要求11所述的系统,其中训练机器学习分类器进一步包括:
获得由一个或多个人针对多个训练帖子输入的鉴定;
向分类器训练程序输入所述多个训练帖子、针对所述多个训练帖子的所述鉴定以及所述多个特征;以及
执行所述分类器训练程序以训练所述机器学习分类器。
15.如权利要求11所述的系统,其中所述多个特征进一步包括以下中的一个或多个:所述帖子的长度;所述帖子是否包括图片;选自评论、共享或原始帖子中的所述帖子的类型;所述帖子的发帖者的声誉以及发帖时间。
16.一种包括指令的非暂时性机器可读存储介质,所述指令当由机器执行时引起所述机器实行包括以下的操作:
训练机器学习分类器以基于多个特征将社交网站的帖子分类为职业帖子或非职业帖子,所述多个特征包括来自分配给每个帖子的多个集群中的集群;
识别用于放置在社交网站的用户馈送中的多个帖子,每个帖子与得分相关联;
基于所述帖子中的单词的语义含义,将来自所述多个帖子的每个帖子分配给所述多个集群中的一个;
调用所述机器学习分类器以将每个帖子分类为职业帖子或非职业帖子;
增加被分类为职业帖子的所述帖子的得分;以及
基于每个帖子的得分对所述多个帖子进行排名以用于呈现在所述用户馈送中。
17.如权利要求16所述的机器可读存储介质,其中每个帖子的分配进一步包括:为所述帖子中的每个单词计算语义向量;
基于针对所述帖子中的单词的语义向量来计算针对所述帖子的语义向量;以及
对所述帖子的语义向量进行k均值聚类以获得识别被分配给所述帖子的集群的帖子集群标识符。
18.如权利要求16所述的机器可读存储介质,其中训练机器学习分类器进一步包括:
获得由一个或多个人针对多个训练帖子输入的鉴定;
向分类器训练程序输入所述多个训练帖子、针对所述多个训练帖子的所述鉴定以及所述多个特征;以及
执行所述分类器训练程序以训练所述机器学习分类器。
19.如权利要求16所述的机器可读存储介质,其中所述多个特征进一步包括以下中的一个或多个:所述帖子的长度;所述帖子是否包括图片;选自评论、共享或原始帖子中的所述帖子的类型;所述帖子的发帖者的声誉以及发帖时间。
20.如权利要求16所述的机器可读存储介质,其中增加被分类为职业帖子的帖子的得分包括将被分类为职业帖子的帖子的得分乘以大于1的常数。
CN201680002451.6A 2016-07-14 2016-07-14 具有职业和非职业内容的用户馈送 Withdrawn CN108604230A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/090063 WO2018010147A1 (en) 2016-07-14 2016-07-14 User feed with professional and nonprofessional content

Publications (1)

Publication Number Publication Date
CN108604230A true CN108604230A (zh) 2018-09-28

Family

ID=60952681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680002451.6A Withdrawn CN108604230A (zh) 2016-07-14 2016-07-14 具有职业和非职业内容的用户馈送

Country Status (3)

Country Link
US (1) US20180189603A1 (zh)
CN (1) CN108604230A (zh)
WO (1) WO2018010147A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10521482B2 (en) 2017-04-24 2019-12-31 Microsoft Technology Licensing, Llc Finding members with similar data attributes of a user for recommending new social connections
TWI711245B (zh) * 2018-03-14 2020-11-21 大陸商萬民半導體(澳門)有限公司 降壓衍生開關模式電源設備及其控制器

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11144826B2 (en) * 2017-12-27 2021-10-12 Facebook, Inc. Post topic classification
US11604990B2 (en) * 2020-06-16 2023-03-14 Microsoft Technology Licensing, Llc Multi-task learning framework for multi-context machine learning

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7246164B2 (en) * 2001-05-10 2007-07-17 Whoglue, Inc. Distributed personal relationship information management system and methods
US9195739B2 (en) * 2009-02-20 2015-11-24 Microsoft Technology Licensing, Llc Identifying a discussion topic based on user interest information
US9153000B2 (en) * 2010-12-13 2015-10-06 Microsoft Technology Licensing, Llc Presenting content items shared within social networks
US9984126B2 (en) * 2012-07-23 2018-05-29 Salesforce.Com, Inc. Identifying relevant feed items to display in a feed of an enterprise social networking system
WO2014183089A1 (en) * 2013-05-09 2014-11-13 Metavana, Inc. Hybrid human machine learning system and method
CN103793503B (zh) * 2014-01-24 2017-02-08 北京理工大学 一种基于web文本的观点挖掘与分类的方法
US9563693B2 (en) * 2014-08-25 2017-02-07 Adobe Systems Incorporated Determining sentiments of social posts based on user feedback
US10140591B2 (en) * 2014-09-26 2018-11-27 Oracle International Corporation Method and system for supplementing job postings with social network data
CN104573046B (zh) * 2015-01-20 2018-07-31 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
US20170085509A1 (en) * 2015-09-17 2017-03-23 Vicente Fernandez Semantics classification aggregation newsfeed, an automated distribution method
US10621154B2 (en) * 2015-12-31 2020-04-14 International Business Machines Corporation Identifying patterns of a set of software applications
US20170255906A1 (en) * 2016-03-04 2017-09-07 Linkedln Corporation Candidate selection for job search ranking

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10521482B2 (en) 2017-04-24 2019-12-31 Microsoft Technology Licensing, Llc Finding members with similar data attributes of a user for recommending new social connections
TWI711245B (zh) * 2018-03-14 2020-11-21 大陸商萬民半導體(澳門)有限公司 降壓衍生開關模式電源設備及其控制器

Also Published As

Publication number Publication date
WO2018010147A1 (en) 2018-01-18
US20180189603A1 (en) 2018-07-05

Similar Documents

Publication Publication Date Title
US10832219B2 (en) Using feedback to create and modify candidate streams
US10990899B2 (en) Deep and wide machine learned model for job recommendation
US11372940B2 (en) Embedding user categories using graphs for enhancing searches based on similarities
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
US20170300862A1 (en) Machine learning algorithm for classifying companies into industries
US20170154307A1 (en) Personalized data-driven skill recommendations and skill gap prediction
CN108701118A (zh) 语义类别分类
US20180285824A1 (en) Search based on interactions of social connections with companies offering jobs
US11204973B2 (en) Two-stage training with non-randomized and randomized data
US10521482B2 (en) Finding members with similar data attributes of a user for recommending new social connections
CN107896510A (zh) 社交网络中与朋友的帖子混合的质量行业内容
US10931620B2 (en) Calculating efficient messaging parameters
US10607189B2 (en) Ranking job offerings based on growth potential within a company
CN105279672A (zh) 线索推荐
CN109074368A (zh) 使用异构社交网络的图形框架
CN110168591A (zh) 确定行业相似性以增强职位搜索
CN109978175A (zh) 用于机器学习模型的并行化坐标下降法
CN108694228A (zh) 社交网络分类中的头衔消歧
CN110175297A (zh) 馈送中的个性化的每成员模型
CN108604230A (zh) 具有职业和非职业内容的用户馈送
US11334612B2 (en) Multilevel representation learning for computer content quality
CN110427564A (zh) 将深度学习集成到广义加性混合效应(game)框架中
US10459997B1 (en) Ranking search results based on members? posting activity and content
US10572835B2 (en) Machine-learning algorithm for talent peer determinations
US20180336280A1 (en) Customized search based on user and team activities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180928

WW01 Invention patent application withdrawn after publication