CN105447038A - 用于获取用户特征的方法和系统 - Google Patents

用于获取用户特征的方法和系统 Download PDF

Info

Publication number
CN105447038A
CN105447038A CN201410437643.2A CN201410437643A CN105447038A CN 105447038 A CN105447038 A CN 105447038A CN 201410437643 A CN201410437643 A CN 201410437643A CN 105447038 A CN105447038 A CN 105447038A
Authority
CN
China
Prior art keywords
user
targeted customer
primary sources
feature
sources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410437643.2A
Other languages
English (en)
Inventor
罗琳
潘莹欣
陈航
赵石顽
邵科峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201410437643.2A priority Critical patent/CN105447038A/zh
Priority to US14/823,296 priority patent/US20160063376A1/en
Publication of CN105447038A publication Critical patent/CN105447038A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开内容涉及用于获取用户特征的方法和系统。本发明的一个实施例提供一种用于获取用户特征的方法,包括:响应于目标用户的第一类数据不足以获取所述目标用户的特征,收集所述目标用户的第二类数据,所述第一类数据和所述第二类数据是不同类别的数据;基于所述第二类数据,确定与所述目标用户相似的一个或多个参考用户;以及基于所述参考用户的所述第一类数据来获取所述目标用户的所述特征。还描述了相应的系统。

Description

用于获取用户特征的方法和系统
技术领域
本发明的实施例涉及用于获取用户特征的方法和系统。
背景技术
随着智能计算的发展,在web环境中越来越多的计算服务基于个体用户的特征提供个性化的、智能化的服务。这种基于用户特征的服务对于提高用户满意度、增强用户体验以及提高用户的操作效率而言是有益的。准确地获取用户特征是这种服务的基础。用户特征的示例包括但不限于:用户的性格特点、用户的一般性行为习惯,用户在完成特定任务时的行为习惯、用户的认知特性、用户的社会背景、人口统计特征,等等。
传统上,用户特征依赖于人工输入。例如,可以要求用户填写预定义的表单。然而,这种方式将增加用户负担,并且灵活性不足。已经提出通过对用户的行为进行学习来获得用户特征。例如,可以从用户本人的历史行为的数据中挖掘和学习用户的特征。最常用的历史行为数据是用户输入的信息,例如文本信息。然而,这种信息往往数量有限,不足以获得准确和完整的用户特征。特别地,在一些情况下,一些任务甚至完全不允许用户输入任何信息。可用样本信息的不足甚至缺失给用户特征的获取带来了困难。
发明内容
总体上,本发明的实施例提出一种用于准确地获取用户特征的技术方案。
在本发明的一个方面,提供一种用于获取用户特征的方法。所述方法包括:响应于目标用户的第一类数据不足以获取所述目标用户的特征,收集所述目标用户的第二类数据,所述第一类数据和所述第二类数据是不同类别的数据;基于所述第二类数据,确定与所述目标用户相似的一个或多个参考用户;以及基于所述参考用户的所述第一类数据来获取所述目标用户的所述特征。
在本发明的另一方面,提供一种用于获取用户特征的系统。所述系统包括:数据收集单元,被配置为响应于目标用户的第一类数据不足以获取所述目标用户的特征,收集所述目标用户的第二类数据,所述第一类数据和所述第二类数据是不同类别的数据;参考用户确定单元,被配置为基于所述第二类数据,确定与所述目标用户相似的一个或多个参考用户;以及特征获取单元,被配置为基于所述参考用户的所述第一类数据来获取所述目标用户的所述特征。
根据本发明的实施例,可以将不同类别的数据有机地结合在一起。即使在目标用户的主要数据不足甚至缺失的情况下,仍然能够借助于其他相似用户的有关数据,准确地估计出目标用户的一个或多个用户特征,从而允许为目标用户提供个性化和智能化的服务。本发明的其他特征和优点将通过下文描述而变得容易理解。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显其中:
图1示出了适于用来实现本发明实施例的示例性计算机系统/服务器的示意性框图;
图2示出了根据本发明实施例的用于获取用户特征方法的示意性流程图;
图3示出了根据本发明实施例的用于基于包含文本数据的第一类数据来获取用户特征的方法的示意性流程图;
图4示出了根据本发明实施例的用于获取用户特征方法的示意性流程图;以及
图5示出了根据本发明实施例的用于获取用户特征的系统的示意性框图。
在附图中,相同或相似的标号被用来表示相同或相似的元素。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的方框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括-但不限于-操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
下面将详细描述本发明实施例的机制和原理。除非特别声明,在下文和权利要求中使用的术语“基于”表示“至少部分地基于”。术语“包括”表示开放性包括,即“包括但不限于”。术语“多个”表示“两个或更多”。术语“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。其他术语的定义将在下文描述中给出。
图2示出了根据本发明的实施例的用于在web环境中获取用户特征的方法200的流程图。在下文描述中,为讨论方便之目的,将目前正在被考虑的用户称为“目标用户”。换言之,执行方法200是为了获取目标用户的一个或多个特征。而且,根据本发明的实施例,可以使用方法200在目标用户正在web环境中进行操作的同时动态地获取其特征,以实现在线特征获取。备选地或附加地,也可以使用用户在web环境中的历史操作数据来获取特征,以实现离线特征获取。
在此使用的术语“特征”是指描述用户的性格、行为、心理、认知等方面的习惯或偏好的任何信息。作为示例,在一个实施例中,用户特征包括用户的各种性格特征。这些性格特征可被用于提高计算服务的智能性和灵活性,从而改善用户体验和操作效率。例如,在一个实施例中,用户特征可以包括“大五人格”中的一个或多个性格特征。如已知的,大五人格是指用户的外倾性、情绪稳定性、开放性、随和性和尽责性。这些性格特征对于社交网络等web环境中的应用通常具有重要意义。
如图所示,方法200开始于步骤S210,对于任意待处理的用户(称为“目标用户”),响应于确定目标用户的第一类数据不足以确定用户的特征,获取该目标用户的第二类数据。
在此使用的术语“第一类数据”是指能够被独立使用以获取用户特征的数据。例如,在一个实施例中,第一类数据可以包括文本数据,其描述与用户相关联的文本。例如,文本数据可以包括用户在浏览社交网络站点、博客、微博或者任何其他网站时,针对特定内容或对象发表的评论、帖子、回复或者各种其他形式的言论,等等。例如,在从提供开源程序代码的网站上下载特定的代码片段之后,用户可以在该网站上评论所下载的代码片段的质量,例如其编程风格、注释风格,等等。
备选地或附加地,充当第一类数据的文本数据也可以包括与目标用户有关的任何其他文本,例如描述目标用户的以下一个或多个方面的文本:背景、兴趣、工作单位、家庭地址,等等。这样的文本信息例如可以由目标用户提供,并且由相应的网站维护,例如维护在用于目标用户的简档(profile)中。
在下文描述的某些实施例中,将使用文本数据作为第一类数据的示例。然而应当理解,这仅仅是出于说明之目的,并非意在限制本发明的范围。除了文本数据之外或者作为替代,第一类数据可以包括其他类型的数据,例如描述用户的行为或动作的数据,等等。
如果目标用户的第一类数据足以获取该目标用户的特征,则可以直接基于第一类数据而获取用户的一个或多个特征。例如,在第一类数据包含文本数据的实施例中,可以基于文本中所包含的心理语言学(psycholinguistic)词汇,来预测目标用户的一个或多个性格特征。图3示出了这方面的一个示例性方法300的流程图。
方法300开始于步骤S310,在此从与用户相关联的文本数据中提取心理语言学词汇。与用户相关联的文本例如是用户过去输入的文本。在一个实施例中,语言学词汇可以是预先定义的。接下来,在步骤S320,可以基于提取的词汇来计算心理语言学特征或得分。在一个实施例中,不同的语言心理学词汇与心理特征或得分之间的对应关系可以被预先定义和存储。通过将步骤S310处提取的语言心理学词汇与预定义对应关系中的词汇相匹配,可以确定目标用户的心理学特征和/或得分。以这些特征或者得分作为输入,在步骤S330,可以使用任何目前已知或者将来开发的心理特征预测模型,来预测用户的一个或多个心理特征作为用户特征。这样的心理预测模型是已知的,在此不再赘述,以避免混淆本发明的主旨。
应当理解,方法300仅仅是基于第一类数据来获取用户特征的一个示例性实施例,并非意在限制本发明的范围。可以采用任何其他适当的方式来获取用户特征。例如,在一个备选实施例中,可以通过实验建立文本数据(例如,关键词)与用户特征之间的直接关联关系。在这样的实施例中,可以从用户过往输入的文本数据中提取关键词。继而,通过关键词匹配,可以基于预定义的关联关系直接确定用户的一个或多个特征。任何其他的实施例均是可行的,本发明的范围在此方面不受限制。
继续参考图2,在步骤S210处,如果确定目标用户本人的第一信息并不足以获取他/她的特征,则目标用户的第二类数据将被收集。根据本发明的实施例,第二类数据和第一类数据是不同类别的数据,其分别描述目标用户的不同方面。例如,在第一类数据包括文本数据的实施例中,第二类数据可以包括行为数据,其描述目标用户的一个或多个历史行为。
可以理解,动作数据通常比文本数据更加丰富,因此也更加容易获取。例如,在浏览网站时,某些用户可能仅仅进行浏览而不会发表言论。又如,一些网站可能根本不允许用户发布文本信息。此时,这些情况将会导致文本数据的不足甚至缺失。然而,描述用户在浏览网站中的浏览行为、交互动作、浏览历史等等的数据可以作为行为数据被收集和保存。这样,即便无法收集到足够的文本数据,仍然可以收集到比较丰富的行为数据。
在下文对某些实施例的描述中,将使用行为数据作为第二类数据的示例。然而应当理解,第二类数据并不限于行为数据。在某些情况下,用户的文本信息可能比行为数据更加丰富。作为示例,对于社交网站而言,这是很可能发生的情况,因为用户使用社交网站的主要目的是与其他人互动而不是简单地进行内容浏览。相应地,在一个实施例中,可以使用行为数据作为第一类数据,而使用文本数据作为第二类数据。
接下来,方法200进行到步骤S220,在此基于在步骤S210处收集的第二类数据,确定与目标用户相似的一个或多个参考用户(referenceuser)。作为示例,如上所述,第二类数据可以包括行为数据。在这样的实施例中,可以根据第二类数据确定目标用户的一个或多个历史行为。相应地,对于任何给定的其他用户(成为“候选用户”),可以收集该候选用户的有关动作数据,以便确定该候选用户的一个或多个历史行为。如果候选用户的历史行为与目标用户的历史行为足够接近,可以将该候选用户确定为一个参考用户。
仅出于描述之目的,现在考虑一个具体示例。假设在步骤S210处收集的目标用户的第二类数据包括涉及如下行为的数据:(1)目标用户在提供开源程序代码的网站上对一个或多个程序代码片段的下载,以及(2)目标用户对所下载的程序代码片段的评级或打分。此时,对于给定的候选用户,可以收集该候选用户的行为数据,其描述该候选用户在该网站上下载的程序代码片段。基于目标用户和候选用户的行为数据,可以二者所下载的程序代码段之间的重叠。在一个实施例中,可以将重叠的数目或者比例量化为得分,称为“下载得分”。下载得分指示了目标用户与候选用户在“下载”这一行为上的相似性。以类似方式,可以获得“评级得分”。在一个实施例中,可以对各种得分进行加权和或者加权平均之类的操作,以其结果作为目标用户与候选用户之间的相似性得分。如果该相似性得分超过预定阈值,表明目标用户与候选用户在这些行为上具有足够的相似性。由此,该候选用户可被选择为参考用户。
特别地,在步骤S220处,可以从各种不同的候选用户群中选择与目标用户相似的参考用户。在一个实施例中,部分或者全部参考用户可以从“种子用户”(seeduser)中确定。在此使用的术语“种子用户”是指具有足够的第一类数据的用户。换言之,每个种子用户的第一类数据足以独立地获取或预测一个或多个用户特征。例如,在第一类数据包括文本数据的实施例中,与种子用户相关联的文本量(例如,以字符数衡量)超过预定阈值,足以预测该用户的一个或多个特征。
备选地或附加地,在一个实施例中,可以从“非种子用户”(non-seeduser)中选择与目标用户相似的参考用户。在此使用的术语“非种子用户”是指单独不具备足够的第一类数据的那些用户。换言之,对于每个非种子用户而言,与之关联的第一类数据的数据量不足以独立地获取用户特征。例如,在第一类数据包括文本数据的实施例中,与非种子用户相关联的文本量低于预定阈值,使得用户的特征不能被准确地预测。
根据本发明的实施例,种子用户和非种子用户可以通过各种不同方式被结合使用。例如,在一个实施例中,可以首先搜索与目标用户相似的种子用户。如果找到,则可以将这些种子用户确定为参考用户,而不再考虑非种子用户。另一方面,如果没有找到与目标用户相似的种子用户,则可以转而在非种子用户中搜索与目标用户相似的参考用户。备选地,在另一实施例中,可以在种子用户与非种子用户二者中确定与目标用户相似的参考用户。此时,在步骤S220处确定的参考用户中可以同时包括种子用户和非种子用户。
方法200继而进行到步骤S230,在此基于在步骤S220处确定的参考用户的第一类数据,获取所述目标用户的所述特征。一般地,由于参考用户与目标用户具有较高的相似性,因此可以认为参考用户的第一类数据所反映的参考用户的特征与目标用户的特征也是相似的。
具体而言,在一个实施例中,如果参考用户中包含一个或多个种子用户,则可以基于每个种子用户的第一类数据,获取该种子用户的特征。作为示例,基于第一类数据的特征获取可以采用上文参考图3描述的方法300来实现。而后,可以对这些特征进行结合。例如,可以对各个种子用户的特征的值进行平均、加权平均、求和等各种运算,以其结果作为目标用户的特征。备选地,也可以首先对不同种子用户的第一类数据进行结合,并且继而使用结合之后的第一类数据来获取用户特征。特别地,在采用加权平均的实施例中,用于每个种子用户的权重可以基于该种子用户与目标用户之间的相似性来确定。
另一方面,如果参考用户中包括一个或多个非种子用户,由于每个非种子用户个体的第一类数据不足以获取特征,因此可以对这些非种子用户的第一类数据进行聚集。例如,可以将非种子用户的文本数据聚合在一起。接下来,可以基于聚合之后的文本数据来生成用户特征。第一类数据的聚集例如可以基于非种子用户之间的相似性来执行。这方面的实施例将在下文描述。
通过执行方法200,本发明的实施例可以将不同类别的数据(例如,文本数据和行为数据)有机地结合在一起。以此方式,即使主要类型的数据不足甚至缺失,仍然可以借助于其他用户准确地获取目标用户的特征。基于这些特征,可以在为该用户提供服务时提高智能性。
下面参考图4,其示出了根据本发明一个实施例的用于获取用户特征的方法400的流程图。方法400可以被视作上文描述的方法200的一种示例性的具体实现。
方法400开始于步骤S410,在此确定目标用户是否具有足够的第一类数据。如果是,在步骤S420处基于第一类数据获取目标用户的一个或多个特征。步骤S410和S420的细节已在上文参考方法200描述,在此不再赘述。
特别地,在方法400中,在步骤S420之后,方法400可以进行到步骤S425,在此存储目标用户的第一类数据以及任何有关信息。以此方式,目标用户可被标识为种子用户。关于种子用户的信息例如可以存储在称为“种子库”的专门存储中,以便将来在获取其他用户的特征时使用。
另一方面,如果在步骤S410处确定目标用户的第一类数据不足以获取用户特征,方法400进行到步骤S430,在此收集目标用户的第二类数据,例如行为数据。步骤S430的细节已在上文参考方法200描述,不再赘述。
接下来,在步骤S440,基于第二类数据计算目标用户与一个或多个种子用户之间的相似性。为此,还需要收集这些种子用户的第二类数据,例如行为数据。在一个实施例中,种子用户的第二类数据可以与相应的种子数据相关联地被存储在特定的种子库中。相似性的计算方式的实施例已在上文参考方法200描述,在此不再赘述。
随后,在步骤S445,判断是否存在与目标用户的相似性超过预定阈值的至少一个种子用户。如果在步骤S445处确定存在与用户足够相似的一个或多个种子用户,则这些种子用户将被确定为参考用户。相应地,方法400进行到步骤S450,在此基于种子用户的第一类数据来获取目标用户的特征。例如,可以基于每个种子用户的第一类数据来计算一个或多个特征的值。继而,可以通过对这些特征值执行诸如加权平均之类的运算,来获得针对目标用户的特征值。备选地,在另一些实施例中,可以首先对各个种子用户的第一类数据进行合并(例如,借助于加权平均),而后使用合并后的第一类数据来获取目标用户的特征。
特别地,在一个实施例中,可以灵活地确定每个种子用户在目标用户的特征的获取过程中的贡献。例如,在以加权平均的方式来获取目标用户的特征的实施例中,各个种子用户的贡献可以体现为相应种子用户在加权平均中的权重。根据本发明的实施例,可以基于各种适当的因素来确定用于各个种子用户的权重。例如,如上文所述,在一个实施例中,可以基于种子用户与目标用户之间的相似性来确定权重。
特别地,在一个实施例中,对于参考用户中的给定种子用户(称为“第一种子用户”),可以基于第一类数据和/或第二类数据来确定该第一种子用户与参考用户中的其他种子用户之间的偏离度。偏离度被用于衡量第一种子用户在一个或多个特征维度上的特异性。
作为示例,考虑这样的实施例,第二类数据包括用户在提供程序源代码的网站上针对特定程序代码片段的评分数据。如果发现第一种子用户针对某个程序代码片段的评分明显高于或者低于其他种子用户针对该程序代码片段的评分,则可以认为第一种子用户的随和性可能具有特异性。例如,当第一用户的随和性较低时,他/她对程序代码片段的评分可能相对于其他用户而言总是偏低。
此时,对于性格特征的“随和性”这一维度而言,第一种子用户明显偏离参考用户中的其他种子用户。相应地,在基于种子用户的第一类数据获取目标用户的特征时,可以适当下调第一种子用户对于“随和性”这一维度的权重。这样,可以对第一种子用户在“随和性”维度上的特异性进行适当的补偿。以类似方式,可以基于第一类数据和/或第二类数据,来调整相应种子用户在特征获取中对相应特征维度的贡献。
返回步骤S445,如果在此确定不存在与目标用户相似的种子用户,方法400进行到步骤S455,在此在非种子用户中搜索与目标用户相似的参考用户。非种子用户与目标用户之间的相似性同样可以基于第二类数据来确定。
如上所述,每个个体非种子用户的第一类数据不足以获取任何特征。由此,在一个实施例中,可以通过聚集多个非种子用户的第一类数据,对第一类数据进行扩充,以满足特征获取的需要。具体而言,在步骤S460,基于第二类数据对参考用户中的非种子用户进行分组。例如,在一个实施例中,可以对这些非种子用户应用聚类(clustering)过程,使得第二类数据的相似性大于预定阈值的那些非种子用户被聚集在一起。注意,根据本发明的实施例,在步骤S460使用的相似性阈值与在步骤S445使用的相似性阈值可以相同也可以不同。
接下来,在步骤S465,基于分组对非种子用户的第一类数据进行聚集。具体而言,属于相同分组的非种子用户的第一类数据可以被聚集在一起。作为示例,在第一类数据包含文本数据的实施例中,与相同分组内的所有非种子用户相关联的文本数据被聚集在一起。在一个实施例中,可以对这些非种子用户的文本求并集,从而获得聚集后的文本。以此方式,聚集后的文本中不会存在重复的内容。
在步骤S470,基于聚集后的第一类数据来获取目标用户的特征。可以理解,通过对第一类数据的聚集,属于相同分组的非种子用户的第一类数据的聚集很可能变得足以获取或预测用户特征。如果是这样,可以将该分组视作一个特殊的种子用户,并且按照与步骤S450相似的方式来获取用户特征。
通过上述过程,即便目标用户的第一类数据缺失(步骤S410的分支“否”)并且不存在与目标用户相似的种子用户(步骤445的分支“否”),仍然可以通过聚集与目标用户相似的非种子用户的第一类数据,来成功地获取目标用户的特征。
应当理解,方法400仅仅是一种示例性的可能实现,无意以任何方式限制本发明的实施例。例如,在一个实施例中,取代在找不到相似的种子用户的情况下才寻找相似的非种子用户,参考用户中可以同时包括种子用户和非种子用户二者。此时,不仅可以如图4所示那样针对非种子用户而聚集第一类数据,也可以将非种子用户的第一类数据与相似的种子用户的第一类数据进行聚集。基于本公开内容所给出的教导,本领域技术人员还可以想到很多其他可能的变化。这些变化均落入本发明的范围之内。
图5示出了根据本发明实施例的用于获取用户特征的系统500的示意性框图。如图所示,根据本发明的实施例,用于获取用户特征的系统500包括:数据收集单元510,被配置为响应于目标用户的第一类数据不足以获取所述目标用户的特征,收集所述目标用户的第二类数据,所述第一类数据和所述第二类数据是不同类别的数据;参考用户确定单元520,被配置为基于所述第二类数据,确定与所述目标用户相似的一个或多个参考用户;以及特征获取单元530,被配置为基于所述参考用户的所述第一类数据来获取所述目标用户的所述特征。
在一个实施例中,所述目标用户的所述第一类数据包括文本数据,所述文本数据描述与所述目标用户相关联的文本。此时,所述数据收集单元510可以包括:行为数据收集单元,被配置为收集所述目标用户的行为数据,所述行为数据描述所述目标用户过去的行为。
在一个实施例中,所述参考用户确定单元520可以包括:第一确定单元,被配置为基于所述行为数据,确定与所述目标用户具有相似行为的用户作为所述候选用户。
在一个实施例中,所述参考用户确定单元520可以包括:第二确定单元,被配置为从种子用户中确定所述参考用户,每个所述种子用户的所述第一类数据足以获取所述特征。在这样的实施例中,所述特征获取单元530可以包括:偏离度确定单元,被配置为基于所述第一类数据和所述第二类数据中的至少一项,确定所述参考用户中的第一种子用户与所述参考用户中的其他种子用户之间的偏离度;以及贡献调节单元,被配置为响应于确定所述偏离度超过预定阈值,调节所述第一种子用户的所述第一类数据在获取所述特征中的贡献。
在一个实施例中,所述参考用户确定单元520可以包括:第三确定单元,被配置为从非种子用户中确定所述参考用户,每个所述非种子用户的所述第一类数据不足以获取所述特征。在这样的实施例中,所述特征获取单元530可以包括:用户分组单元,被配置为基于所述第二类数据对所述参考用户中的非种子用户进行分组;以及数据聚集单元,被配置为基于所述分组对所述参考用户中的所述非种子用户的所述第一类数据进行聚集。相应地,所述特征获取单元530可被配置为基于聚集后的所述第一类数据来获取所述特征。
在一个实施例中,系统500还可以包括:种子用户标识单元,被配置为通过存储所述目标用户和所述特征的有关信息,将所述目标用户标识为种子用户,以便在其他用户的所述特征的获取中使用
应当注意,为清晰起见,图5中没有示出系统500所包括的可选单元或者子单元。上文所描述的所有特征和操作分别适用于系统500,故在此不再赘述。而且,系统500中的单元或子单元的划分不是限制性的而是示例性的,旨在从逻辑上描述其主要功能或操作。一个单元的功能可以由多个单元来实现;反之,多个单元亦可由一个单元来实现。本发明的范围在此方面不受限制。
而且,系统500所包含的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。例如,在某些实施方式中,系统500可以利用软件和/或固件来实现。备选地或附加地,系统500可以部分地或者完全地基于硬件来实现。例如,系统500中的一个或多个单元可以实现为集成电路(IC)芯片、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA),等等。本发明的范围在此方面不受限制。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是一但不限于一电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言一诸如Java、Smalltalk、C++等,以及常规的过程式编程语言一诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包括局域网(LAN)或广域网(WAN)一连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
计算机可读程序指令也可加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (16)

1.一种用于获取用户特征的方法,所述方法包括:
响应于目标用户的第一类数据不足以获取所述目标用户的特征,收集所述目标用户的第二类数据,所述第一类数据和所述第二类数据是不同类别的数据;
基于所述第二类数据,确定与所述目标用户相似的一个或多个参考用户;以及
基于所述参考用户的所述第一类数据来获取所述目标用户的所述特征。
2.根据权利要求1所述的方法,其中所述目标用户的所述第一类数据包括文本数据,所述文本数据描述与所述目标用户相关联的文本,并且其中收集所述目标用户的第二类数据包括:
收集所述目标用户的行为数据,所述行为数据描述所述目标用户过去的行为。
3.根据权利要求2所述的方法,其中确定与所述目标用户相似的一个或多个参考用户包括:
基于所述行为数据,确定与所述目标用户具有相似行为的用户作为所述参考用户。
4.根据权利要求1所述的方法,其中确定与所述目标用户相似的一个或多个参考用户包括:
从种子用户中确定所述参考用户,其中每个所述种子用户是所述第一类数据足以获取所述特征的用户。
5.根据权利要求4所述的方法,其中基于所述参考用户的所述第一类数据来获取所述目标用户的所述特征包括:
基于所述参考用户中的种子用户的所述第一类数据和所述第二类数据中的至少一项,确定所述参考用户中的第一种子用户与所述参考用户中的其他种子用户之间的偏离度;以及
响应于确定所述偏离度超过预定阈值,调节所述第一种子用户的所述第一类数据在获取所述特征中的贡献。
6.根据权利要求1到5任一项所述的方法,其中确定与所述目标用户相似的一个或多个参考用户包括:
从非种子用户中确定所述参考用户,其中每个所述非种子用户是所述第一类数据不足以获取所述特征的用户。
7.根据权利要求6所述的方法,其中基于所述参考用户的所述第一类数据来获取所述目标用户的所述特征包括:
基于所述参考用户中的非种子用户的所述第二类数据,对所述参考用户中的所述非种子用户进行分组;
基于所述分组对所述参考用户中的所述非种子用户的所述第一类数据进行聚集;以及
基于聚集后的所述第一类数据来获取所述特征。
8.根据权利要求1所述的方法,还包括:
响应于所述目标用户的所述第一类数据足以获取所述目标用户的所述特征,存储所述目标用户的所述第一类数据,以便在获取其他用户的所述特征时使用。
9.一种用于获取用户特征的系统,所述系统包括:
数据收集单元,被配置为响应于目标用户的第一类数据不足以获取所述目标用户的特征,收集所述目标用户的第二类数据,所述第一类数据和所述第二类数据是不同类别的数据;
参考用户确定单元,被配置为基于所述第二类数据,确定与所述目标用户相似的一个或多个参考用户;以及
特征获取单元,被配置为基于所述参考用户的所述第一类数据来获取所述目标用户的所述特征。
10.根据权利要求9所述的系统,其中所述目标用户的所述第一类数据包括文本数据,所述文本数据描述与所述目标用户相关联的文本,
并且其中所述数据收集单元包括:行为数据收集单元,被配置为收集所述目标用户的行为数据,所述行为数据描述所述目标用户过去的行为。
11.根据权利要求10所述的系统,其中所述参考用户确定单元包括:
第一确定单元,被配置为基于所述行为数据,确定与所述目标用户具有相似行为的用户作为所述参考用户。
12.根据权利要求9所述的系统,其中所述参考用户确定单元包括:
第二确定单元,被配置为从种子用户中确定所述参考用户,其中每个所述种子用户是所述第一类数据足以获取所述特征的用户。
13.根据权利要求12所述的系统,其中所述特征获取单元包括:
偏离度确定单元,被配置为基于所述参考用户中的种子用户的所述第一类数据和所述第二类数据中的至少一项,确定所述参考用户中的第一种子用户与所述参考用户中的其他种子用户之间的偏离度;以及
贡献调节单元,被配置为响应于确定所述偏离度超过预定阈值,调节所述第一种子用户的所述第一类数据在获取所述特征中的贡献。
14.根据权利要求9到13任一项所述的系统,其中所述参考用户确定单元包括:
第三确定单元,被配置为从非种子用户中确定所述参考用户,其中每个所述非种子用户是所述第一类数据不足以获取所述特征的用户。
15.根据权利要求14所述的系统,其中所述特征获取单元包括:
用户分组单元,被配置为基于所述参考用户中的非种子用户的所述第二类数据,对所述参考用户中的所述非种子用户进行分组;以及
数据聚集单元,被配置为基于所述分组对所述参考用户中的所述非种子用户的所述第一类数据进行聚集,
所述特征获取单元被配置为基于聚集后的所述第一类数据来获取所述特征。
16.根据权利要求9所述的系统,还包括:
种子用户标识单元,被配置为响应于所述目标用户的所述第一类数据足以获取所述目标用户的所述特征,存储所述目标用户的所述第一类数据,以便在获取其他用户的所述特征时使用。
CN201410437643.2A 2014-08-29 2014-08-29 用于获取用户特征的方法和系统 Pending CN105447038A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410437643.2A CN105447038A (zh) 2014-08-29 2014-08-29 用于获取用户特征的方法和系统
US14/823,296 US20160063376A1 (en) 2014-08-29 2015-08-11 Obtaining user traits

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410437643.2A CN105447038A (zh) 2014-08-29 2014-08-29 用于获取用户特征的方法和系统

Publications (1)

Publication Number Publication Date
CN105447038A true CN105447038A (zh) 2016-03-30

Family

ID=55402882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410437643.2A Pending CN105447038A (zh) 2014-08-29 2014-08-29 用于获取用户特征的方法和系统

Country Status (2)

Country Link
US (1) US20160063376A1 (zh)
CN (1) CN105447038A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202570A (zh) * 2016-08-11 2016-12-07 乐视控股(北京)有限公司 一种用户信息获取方法及装置
CN106228477A (zh) * 2016-07-08 2016-12-14 盛玉伟 房地产点击量绘制方法及系统
CN107562461A (zh) * 2017-09-08 2018-01-09 北京京东尚科信息技术有限公司 特征计算系统及方法、存储介质和电子设备
CN107767171A (zh) * 2017-09-29 2018-03-06 阿里巴巴集团控股有限公司 确定用户重要度的方法、装置和电子设备
CN108122123A (zh) * 2016-11-29 2018-06-05 华为技术有限公司 一种扩展潜在用户的方法及装置
CN109697258A (zh) * 2018-12-27 2019-04-30 丹翰智能科技(上海)有限公司 一种用于确定目标用户的定制财经信息的方法与设备
CN113098974A (zh) * 2021-04-14 2021-07-09 每日互动股份有限公司 一种确定设备数量的方法、服务器及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960248B (zh) * 2016-01-08 2021-02-23 阿里巴巴集团控股有限公司 一种基于数据驱动预测用户问题的方法及装置
US9942356B1 (en) * 2017-02-24 2018-04-10 Spotify Ab Methods and systems for personalizing user experience based on personality traits
US9742871B1 (en) 2017-02-24 2017-08-22 Spotify Ab Methods and systems for session clustering based on user experience, behavior, and interactions
CN111695353B (zh) * 2020-06-12 2023-07-04 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质
CN116050859B (zh) * 2022-12-07 2023-11-14 国义招标股份有限公司 基于大数据的动态基准线碳排放交易方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637178A (zh) * 2011-02-14 2012-08-15 北京瑞信在线系统技术有限公司 一种音乐推荐方法、装置及系统
CN102929959A (zh) * 2012-10-10 2013-02-13 杭州东信北邮信息技术有限公司 一种基于用户行为的图书推荐方法
CN103297440A (zh) * 2013-06-24 2013-09-11 北京星网锐捷网络技术有限公司 应用流量特征库的建立方法和装置、网络设备
CN103593381A (zh) * 2013-08-06 2014-02-19 北京爱真心信息科技有限公司 一种互联网婚恋交友推荐平台及方法
CN103914494A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户身份识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637178A (zh) * 2011-02-14 2012-08-15 北京瑞信在线系统技术有限公司 一种音乐推荐方法、装置及系统
CN102929959A (zh) * 2012-10-10 2013-02-13 杭州东信北邮信息技术有限公司 一种基于用户行为的图书推荐方法
CN103914494A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种微博用户身份识别方法及系统
CN103297440A (zh) * 2013-06-24 2013-09-11 北京星网锐捷网络技术有限公司 应用流量特征库的建立方法和装置、网络设备
CN103593381A (zh) * 2013-08-06 2014-02-19 北京爱真心信息科技有限公司 一种互联网婚恋交友推荐平台及方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228477A (zh) * 2016-07-08 2016-12-14 盛玉伟 房地产点击量绘制方法及系统
CN106202570A (zh) * 2016-08-11 2016-12-07 乐视控股(北京)有限公司 一种用户信息获取方法及装置
CN108122123A (zh) * 2016-11-29 2018-06-05 华为技术有限公司 一种扩展潜在用户的方法及装置
CN108122123B (zh) * 2016-11-29 2021-08-20 华为技术有限公司 一种扩展潜在用户的方法及装置
CN107562461A (zh) * 2017-09-08 2018-01-09 北京京东尚科信息技术有限公司 特征计算系统及方法、存储介质和电子设备
CN107562461B (zh) * 2017-09-08 2021-09-03 北京京东尚科信息技术有限公司 特征计算系统及方法、存储介质和电子设备
CN107767171A (zh) * 2017-09-29 2018-03-06 阿里巴巴集团控股有限公司 确定用户重要度的方法、装置和电子设备
WO2019062692A1 (zh) * 2017-09-29 2019-04-04 阿里巴巴集团控股有限公司 确定用户重要度的方法、装置和电子设备
TWI733028B (zh) * 2017-09-29 2021-07-11 開曼群島商創新先進技術有限公司 確定用戶重要度的方法、裝置和電子設備
CN109697258A (zh) * 2018-12-27 2019-04-30 丹翰智能科技(上海)有限公司 一种用于确定目标用户的定制财经信息的方法与设备
CN113098974A (zh) * 2021-04-14 2021-07-09 每日互动股份有限公司 一种确定设备数量的方法、服务器及存储介质
CN113098974B (zh) * 2021-04-14 2023-04-07 每日互动股份有限公司 一种确定人口数量的方法、服务器及存储介质

Also Published As

Publication number Publication date
US20160063376A1 (en) 2016-03-03

Similar Documents

Publication Publication Date Title
CN105447038A (zh) 用于获取用户特征的方法和系统
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
Nirala et al. A survey on providing customer and public administration based services using AI: chatbot
CN110070391B (zh) 数据处理方法、装置、计算机可读介质及电子设备
US20180053119A1 (en) Method and system for semi-supervised learning in generating knowledge for intelligent virtual agents
US20180054523A1 (en) Method and system for context sensitive intelligent virtual agents
US20180054464A1 (en) Method and system for collaborative intelligent virtual agents
US20160357790A1 (en) Resolving and merging duplicate records using machine learning
CN103336793B (zh) 一种个性化论文推荐方法及其系统
US20140279739A1 (en) Resolving and merging duplicate records using machine learning
CN102262647B (zh) 信息处理装置、信息处理方法和程序
CN107480141B (zh) 一种基于文本和开发者活跃度的软件缺陷辅助分派方法
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
CN112799747A (zh) 智能助理评价、推荐方法、系统、终端及可读存储介质
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
US20190340516A1 (en) System and method for quantitatively analyzing an idea
CN110971659A (zh) 推荐消息的推送方法、装置及存储介质
CN111680165B (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN105069103A (zh) App搜索引擎利用用户评论的方法及系统
US11809505B2 (en) Method for pushing information, electronic device
CN105095311A (zh) 推广信息的处理方法、装置及系统
KR101931624B1 (ko) 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체
CN111179055A (zh) 授信额度调整方法、装置和电子设备
US11216730B2 (en) Utilizing machine learning to perform a merger and optimization operation
CN109299007A (zh) 一种缺陷修复者自动推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160330