CN103714063A - 数据分析方法及其系统 - Google Patents

数据分析方法及其系统 Download PDF

Info

Publication number
CN103714063A
CN103714063A CN201210371691.7A CN201210371691A CN103714063A CN 103714063 A CN103714063 A CN 103714063A CN 201210371691 A CN201210371691 A CN 201210371691A CN 103714063 A CN103714063 A CN 103714063A
Authority
CN
China
Prior art keywords
feature
sample data
project
user
identification feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210371691.7A
Other languages
English (en)
Other versions
CN103714063B (zh
Inventor
赵石顽
吴贤
袁泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201210371691.7A priority Critical patent/CN103714063B/zh
Priority to US14/037,720 priority patent/US11176586B2/en
Priority to US14/063,784 priority patent/US11222375B2/en
Publication of CN103714063A publication Critical patent/CN103714063A/zh
Application granted granted Critical
Publication of CN103714063B publication Critical patent/CN103714063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施方式总体上涉及数据处理,进一步本发明的实施方式涉及数据分析及其系统。本发明用于提供一种个性化的数据分析方法从而找到目标分析项目中有区别度的特征。具体而言,本发明提供一种数据分析方法,包括:获取样本数据,选择所述样本数据的判别性特征;对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。

Description

数据分析方法及其系统
技术领域
本发明的实施方式总体上涉及数据处理,进一步本发明的实施方式涉及数据分析及其系统。
背景技术
数据分析已经在很多重要领域发挥重要作用。很多网络应用都向用户推荐商品(包括图书、电影等各种商品)以及推荐好友。比如在在线书店中,当用户购买或浏览图书时,在线书店可能向用户推荐他/她可能感兴趣的图书。再比如在在线社交网络中,用户可能被推荐好友。在线应用往往根据用户的个人数据和之前的网络行为进行推荐。借助于所述推荐系统,用户能够容易的获得更多的信息。但是很多推荐算法过于复杂(比如矩阵分解模型Matrix Factorization,某些基于概率的模型,基于图的模型等)导致推荐应用本身都无法解释为何向用户推荐某个项目而不是其它项目。此外,有些推荐系统即便给出推荐的理由,但是所述理由也不是个性化的,而是使用通用的理由进行推荐,比如当用户浏览一个在线书店的书A时,该在线书店将书B推荐给用户,其理由是购买了书A的其它用户也购买了书B。
发明内容
为了提供一种个性化的数据分析方法从而找到目标分析项目中有区别度的特征,发明提供一种数据分析方案。
具体而言,本发明提供一种数据分析方法,包括:获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
本发明还提供一种数据分析系统,包括:获取装置,被配置为获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择装置,被配置为选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;确定装置,被配置为对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及关联装置,被配置为响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
通过本发明的数据分析方案可以个性化的识别目标分析项目中有区分度的特征,从而使得数据分析结果更加详尽、充实。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算系统100的框图。
图2示出了按照本发明的一个实施例的数据分析方法的流程图。
图3示出了按照本发明的一个实施例的选择判别性特征的流程图。
图4A示出了按照本发明的一个实施例的样本数据示意图。
图4B示出了按照本发明的另一个实施例的样本数据示意图。
图4C示出了按照本发明的又一个实施例的样本数据示意图。
图5示出了按照本发明的一个实施例的数据分析系统示意图。
图6示出了按照本发明的一个实施例的选择装置的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(DPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括--但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionm Dans)的制造品(manufacturD)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VDSA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
图2示出了按照本发明的一个实施例的数据分析方法的流程图。在步骤201,获取样本数据。在步骤203,选择所述样本数据的判别性特征(discriminative feature)。在步骤205,对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征。在步骤207,响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。在一个例子中,使用图2所示的方法可以向用户提供向其推荐电影的解释。下面对图2所示方法的各个步骤进行详细描述。
具体而言,在步骤201,获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目。
按照本发明的一个实施例,所述用户可能是一个用户,从而使得本实施例可以为单一的用户挖掘个性化的判别性特征。按照本发明的另一个实施例,所述用户也可能是多个用户的集合(比如一个兴趣小组中的多个用户),这样使得本实施例可以根据用户群的行为为用户群挖掘个性化的判别性特征。
按照本发明的一个实施例,所述项目可以是下列各项中的至少一项:商品、其它用户。所述商品可以是有形商品,比如在线购物商店中所销售的商品,也可以是供下载的无形商品,比如电子图书、电子音乐、电影等。所述其它用户可以是用户的好友,所述用户的被关注者(followee),所述用户的关注者(follower),具有共同兴趣的其它用户,在同一分组内的其它用户等。下文中主要以电影为例进行说明,但本发明并不只限于对电影的数据进行分析。
样本数据中包含正样本数据和负样本数据可以使在后续步骤中选择出的判别性特征具有区别度。如果仅使用正样本数据,则只有正样本数据中的特征可能被选择,而实际上正样本数据中的特征实际上可能并非具有区别度。比如如果正样本数据中包含10部电影,负样本数据中也包含10部电影,正样本数据以及负样本数据中各有7部电影都是由主演Tom主演的,如果仅在样本数据中包含正样本数据,那么按照后续介绍的步骤“主演Tom”这个特征就被选择为判别性特征,但是实际上“主演Tom”并不具有区别度,因为“主演Tom”在正样本中出现的概率与在负样本中出现的概率相同。因此本实施例中的样本数据包含正样本数据和负样本数据从而使得后续选择出的判别性特征具有区别度。
按照本发明的一个实施例,所述正样本数据与负样本数据的数量相同。按照本发明的另一个实施例,所述正样本数据与负样本数据的数量不同。
按照本发明的一个实施例,所述步骤201获取样本数据进一步包括:根据下列各项中的至少一项获取样本数据:所述用户的操作历史、推荐系统为所述用户产生的推荐结果。
本发明对推荐系统不做限定,其可以是利用任何推荐算法的任何推荐系统。按照本发明的一个实施例,如果对推荐系统所推荐的结果中的项目确定判别性特征,即所述目标分析项目来自所述推荐结果,则在样本数据中包括推荐系统对所述用户的推荐结果,对所述目标分析项目而言,可以进一步提高对目标分析项目确定判别性特征的命中率,因为所述判别性特征是基于包含所述目标分析项目的样本数据中获得的。更具体而言,如果在样本数据中包含推荐结果,则所述推荐结果中的至少一个目标分析项目包含判别性特征的概率就越大。
按照本发明的一个实施例所述推荐结果可能包含正面推荐结果和负面推荐结果。所述正面推荐结果比如可以是推荐用户观看的电影,所述负面推荐结果比如可以是不推荐用户观看的电影。在一般的网络应用中,虽然推荐系统只会展示正面推荐结果而不会展示负面推荐结果,但是推荐系统往往存储有正面推荐结果和负面推荐结果。
按照本发明的一个实施例,所述操作历史包括下列各项中的至少一项:所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论。其中,所述用户对项目的打分可以采用任何度量方式,如是五分制、十分制、百分制等。以五分制为例,可以设定用户打分为4分或5分的项目为正样本数据,并且用户打分为1分、2分、3分的项目为负样本数据。
所述用户对项目的操作可以包括下列各项中的至少一项:用户对项目的点击、用户对项目的浏览超过预订时长、用户对项目的预订操作。如果用户对项目的操作包括用户对项目的点击,可以将用户点击的项目作为正样本数据,并且将用户所没有点击的项目作为负样本数据。如果用户对项目的操作包括用户对项目浏览超过预订时长,可以将用户浏览超过预订时长的项目作为正样本数据,并且将用户浏览短于预订时长的项目作为负样本数据。如果用户对项目的操作包括用户对项目的预订操作,例如购买操作,则可以将用户购买的项目作为正样本数据,并且将用户未购买的项目作为负样本数据;在另一个例子中,也可以将用户购买的项目作为正样本数据,并且将用户浏览但未购买的项目作为负样本数据,从而可以减少和精炼负样本数据中的数量。在其它例子中,用户对项目的预订操作也可以是跳过操作(skip)、删除操作等,这样可以将用户跳过或删除的项目作为负样本数据。
如果用户对项目的操作包括所述用户对项目的评论,则可以进一步借助语义分析技术和情感分析技术分析用户对项目的评论是正面评论还是负面评论,从而划分正样本数据和负样本数据。
可选的,如果负样本数据中的数据量过大,可以对负样本数据的容量增加一些限制,在一种实施例中,可以随机选取预订数量的项目作为负样本数据。在另一中实施例中,可以根据所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论对负样本数据进行筛选,从而挑选用户最不偏好的项目作为负样本数据,从而使得负样本数据的数据量控制在预订阈值之内,比如如果用户打分为1分、2分、3分的项目数过多,可以仅将用户打分为1分的项目作为负样本数据。
在图2中的步骤203,选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征。所述判别性特征相比于其它特征对于正负样本的划分起到了更加决定性的作用。比如一个用户非常喜欢由主演Tom主演的电影,并且对没有由主演Tom主演的电影都不喜欢,那么“主演Tom”就是一个判别性特征。
图3示出了按照本发明的一个实施例的选择判别性特征的流程图。按照图3所示的实施例,选择所述样本数据的判别性特征进一步包括:确定所述样本数据中的待选特征(步骤310),以及从所述待选特征中选择判别性特征(步骤320)。
按照本发明的一个实施例,所述待选特征进一步包括下列各项中的至少一项:结构化特征(structu red feature)、非结构化特征(non-structuredfeature),其中所述结构化特征包括下列各项中的至少一项:属性以及所述属性的值、属性,并且其中所述非结构化特征包括所述样本数据中的关键词。以电影为例,所述结构化特征例如可以是“主演Tom”(属性以及所述属性的值)或“主演”(属性);所述非结构化特征可以是影评或电影简介中的关键词,比如特定的地点等。可选的,如果待选特征包括非结构化特征,则需要对所述项目进行分析以确定其中的非结构化特征,比如通过命名实体识别技术识别电影简介或电影评论中的实体名称,比如地点、人名、单位名称等;再例如,还可以通过语义分析挖掘项目中的所有名词作为非结构化特征,或者通过语义分析挖掘项目中重复出现次数达到预订阈值的名词作为非结构化特征。
按照本发明的一个实施例,其中所述待选特征进一步包括下列各项中的至少一项:静态特征、动态特征。其中所述静态特征是所述项目所固有的特征,静态特征在一段时间内不算时间的变化而变化,比如一部电影的“主演”、“类型”等都属于静态特征。而所述动态特征是根据时间的不断变化而动态变化的特征,比如观看了同一部电影的其它用户还观看了其它电影的名单,购买了同一本图书的其它用户还购买了其它图书的名单,属于同一个用户的好友名单等。
按照本发明的一个实施例,其中所述待选特征进一步包括下列各项中的至少一项:原始特征、组合特征、概括特征。其中所述原始特征包括所述样本数据中项目原有的特征,仍然以电影为例,“主演”是每个电影项目都包含的特征,因此“主演=Tom”就是样本数据中的原有特征。所述组合特征包括多个所述原始特征的组合,比如“主演=Tom、类型=喜剧”是两个原始特征(“主演=Tom”以及“类型=喜剧”)的组合。所述概括特征包括对多个所述原始特征的进行概括所形成的特征,比如“主演”是“主演=Tom”、“主演=Jack’等的概括特征。在这个例子中,概括特征“主演”仅包含属性而不包含属性的值。
按照本发明的一个实施例,步骤320进一步包括:计算所述待选特征的区分度值(步骤321);以及根据所述区分度值从待选特征中筛选出判别性特征(步骤322)。可选的、步骤322可以将区分度值超过预订阈值的待选特征选出作为判别性特征。可选的、步骤203可以仅选择具有正面区分度的待选特征作为判别性特征,比如所有由主演Tom主演的电影都是用户所偏好的电影,而所有由主演Bob所主演的电影都是用户所非偏好的电影,因此特征“主演=Tom”与“主演=Bob”可能具有相同的区分度。但是特征“主演=Tom”出现在正样本数据中,而“主演=Bob”出现在负样本数据中,所以“主演=Tom”是具有正面区分度的判别性特征,而“主演=Bob”是具有负面区分度的判别性特征。在一个具体应用中,可能不会将用户所非偏好的项目作为目标分析项目(比如仅将推荐系统所做出的正面推荐结果作为目标分析项目),因此不需要将具有负面区分度的判别性特征“主演=Bob”作为判别性特征,这样可以进一步减少存储判别性特征所占用的存储空间。
按照本发明的另一个实施例,步骤320进一步包括:计算所述待选特征的区分度值;按照所述区分度值对所述待选特征进行排序;以及从排序的待选特征中筛选出判别性特征。本实施例可以更有利于控制判别性特征的数量,比如按照具体应用场景的规定,筛选出的判别性特征不能超过8个,则通过上述排序过程,可以更加清楚的了解有哪8个待选特征应当被筛选出来作为判别性特征。
下面按照图4A-4C对如何计算待选特征的区分度值以及筛选判别性特征进行示例性描述。
图4A示出了按照本发明的一个实施例的样本数据示意图。在图4A的例子中假设正样本数据和负样本数据各包含10部电影,每部电影都具有关于主演的原始特征,在主演为Tom的4部电影中,有1部电影是正样本数据,有3部是负样本数据,在主演为Jack的12部电影中,有9部是正样本数据,有3部是负样本数据,在主演为Bob的4部电影中,没有正样本数据,都是负样本数据。在本例子中,假设待选特征就是关于主演的原始特征“主演=Tom”、“主演=Jack”以及“主演=Bob”。
按照本发明的一个实施例,所述计算所述待选特征的区分度值(图3步骤321)进一步包括:根据所述待选特征在所述正样本数据中出现的次数与所述待选特征在所述样本数据中出现的次数之比计算所述区分度值。
图4A中待选特征的区分度值可以用下述公式表示:
Di=N+ i/(N+ i+N- i)                        公式1
其中Di表示第i个待选特征的区分度值,N+ i表示第i个待选特征在正样本数据中出现的数量,N- i表示第i个待选特征在负样本数据中出现的数量。在正样本数据和负样本数据数量相同的情况下,最没有区分度的待选特征的区分度值为0.5;区分度越大的待选特征,其区分度值偏离0.5的距离就越大。按照公式1,图4A中的各个待选特征的区分度值如下:
D(“主演=Tom”)=1/(1+3)=0.25
D(“主演=Jack”)=9/(9+3)=0.75
D(“主演=Bob”)=0/(0+4)=0
按照本发明的一个实施例,可以根据所述区分度值从待选特征中筛选出判别性特征(图3中的步骤322),其中“主演=Bob”是区分度最大的判别性特征。如果仅设定将区分度值与0.5的距离高于0.3的待选特征筛选出来作为判别性特征,那么只有“主演=Bob”作为判别性特征,如果设定将区分度值与0.5的距离高于0.2的待选特征都筛选出来作为判别性特征,那么所有三个待选特征都可以作为判别性特征。
按照本发明的另一个实施例,可以区分具有正面区分度的判别性特征和具有负面区分度的判别性特征,其中具有正面区分度的判别性特征的区分度值高于0.5,而具有负面区分度的判别性特征的区分度值低于0.5。因此“主演=Tom”和“主演=Bob”属于具有负面区分度的判别性特征,也就是对于主演是Tom或Bob的电影,该用户一般都不太喜欢。而“主演=Jack”属于具有正面区分度的判别性特征,也就是对于主演是Jack的电影,该用户一般都比较喜欢。
按照本发明的另一个实施例,所述计算所述待选特征的区分度值(图3步骤321)进一步包括:根据所述待选特征在所述正样本数据和所述负样本数据中分布的熵以及所述待选特征在样本数据中出现的次数占总样本数据的比重计算所述区分度值。由于熵(Entropy)可以用来度量数据的不确定性,因此可以借助熵来计算区分度值。根据本实施例计算区分度值的公式如下所示:
D i = [ ( - P i + log 2 P i + - P i - log 2 P i - ) * ( N i + + N i - Sum ) ]
P i + = N i + N i + + N i - 公式2
P i - = N i - N i + + N i -
在公式2中,Di表示第i个待选特征的区分度值。
Figure BDA00002210247900164
表示第i个待选特征在正样本数据中出现的次数与在总样本数据中出现的次数之比,
Figure BDA00002210247900165
表示第i个待选特征在负样本数据中出现的次数与在总样本数据中出现的次数之比。
Figure BDA00002210247900166
表示第i个待选特征在正样本数据中出现的数量,
Figure BDA00002210247900167
表示第i个待选特征在负样本数据中出现的数量。Sum表示正样本数据和负样本数据的数据集的总和。
通过公式2可以计算图4A中各个待选特征的区分度值如下:
D(“主演=Tom”)=(-1/4log2(1/4)-3/4log2(3/4))*4/20=0.81*0.2=0.162
D(“主演=Jack”)=(-9/12log2(9/12)-3/12log2(3/12))*12/20=0.81*0.6=0.486
D(“主演=Bob”)=(-0/4log2(0/4)-4/4log2(4/4))*4/20=0*0.2=0
上述区分度值不仅考虑了所述待选特征在所述正样本数据和所述负样本数据中分布的熵,而且进一步考虑了所述待选特征在样本数据中出现的次数占总样本数据的比重。对于待选特征“主演=Tom”和“主演=Jack”而言,尽管其熵相同都为0.81,但是由于待选特征“主演=Jack”在样本数据中出现的次数更多(高达12次),因此“主演=Jack”更具有代表性,其的区分度值更大。
图4B示出了按照本发明的另一个实施例的样本数据示意图。在图4B所示的例子中,将关于主演的原始特征与关于类型的原始特征进行组合,因此所述待选特征是组合特征。比如将原始特征“主演=Tom”与“类型=喜剧”进行组合形成组合特征“主演=Tom,类型=喜剧”。并且针对每个组合特征(作为待选特征)计算每个组合特征的区分度值。可以根据上述公式1和公式2进行计算每个待选特征的区分度值,在此不再赘述。
图4C示出了按照本发明的又一个实施例的样本数据示意图。在图4C所示的例子中,所述概括特征包括对多个所述原始特征的进行概括所形成的特征。举例而言,在4C的例子中要判断概括特征“主演”与概括特征“类型”哪个更具有区分度,从而筛选出判别性特征,其中“主演”是原始特征“主演=Tom”、“主演=Jack”、“主演=Bob”的概括特征,“类型”是原始特征“类型=喜剧”、“类型=爱情”的概括特征。
可以借助信息增益(information gain)来进一步计算概括特征的区别度值。其中所述信息增益表示新的分类方式所导致的不确定性的降低。具体而言,可以根据下面公式3计算概括特征的区别度值:
Di=DO-Dci
D0=-P+log2P+-P-log2P-
D ci = Σ j [ ( - P j + log 2 P j + - P j - log 2 P j - ) * ( N j + + N j - Sum ) ]
P j + = N j + N j + + N j - 公式3
P j - = N j - N j + + N j -
在公式3中,Di表示第i个待选特征(概括特征)的区分度值。D0表示样本数据在未分类状态下的区分度值,P+表示样本数据在未分类状态下的正样本数据占总样本数据的比重,P-表示样本数据在未分类状态下的负样本数据占总样本数据的比重。Dci表示样本数据在当前分类状态下(如图4C所示)第i个待选特征的区分度值,其包括第i个概括特征下各个原始特征的区分度值之和。
Figure BDA00002210247900181
表示第j个原始特征在正样本数据中出现的数量与在总样本数据中出现的数量之比,
Figure BDA00002210247900182
表示第j个原始特征在负样本数据中出现的数量与在总样本数据中出现的数量之比。
Figure BDA00002210247900183
表示第j个原始特征在正样本数据中出现的数量,表示第j个原始特征在负样本数据中出现的数量。Sum表示正样本数据和负样本数据的数据集的总和。
按照上述公式3计算概括特征“主演”和“类型”的区分度值如下:
D 0 = - 10 20 log 2 ( 10 20 ) - 10 20 log 2 ( 10 20 ) = 1
Dc(“主演”)=(-1/4log2(1/4)-3/4log2(3/4))*4/20+
(-9/12log2(9/12)-3/12log2(3/12))*12/20+
(-0/4log2(0/4)-4/4log2(4/4))*4/20
=0.648
D(“主演”)=1-0.648=0.352
Dc(“类型”)=(-6/12log2(6/12)-6/12log2(6/12))*12/20+
(-4/8log2(4/8)-4/8log2(4/8))*8/20
=1
D(“类型”)=1-1=0
可见概括特征“主演”的区分度值大于概括特征“类型”的区分度值,因此概括特征“主演”被选作判别性特征。
回到图2,在步骤205,对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征。在一种实施例中,所述目标分析项目可能仅具有一个判别性特征。在另一个实施例中,所述目标分析项目可能具有多个判别性特征,在这种情况下,可以进一步根据关联到目标分析项目的判别性特征的数量限制来确定关联到所述目标分析项目的判别性特征,比如如果仅允许1个判别性特征被关联到所述目标分析项目,则可以选择区别度值最大的判别性特征与所述目标分析项目相关联。
在步骤207,响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。根据本发明的一个实施例,将所述至少一个目标分析项目与至少一个所述判别性特征相关联进一步包括将所述至少一个目标分析项目与相关联的至少一个所述判别性特征一并展示给用户,使得用户在查看所述至少一个目标分析项目时可以同时查看至少一个所述判别性特征。
按照本发明的一个实施例,其中所述至少一个目标分析项目为至少一个推荐项目,所述筛选出判别性特征进一步包括:筛选出具有正面区分度的待选特征作为判别性特征。所述实施例可以适用于为推荐系统所推荐的结果增加合理的解释。也就是说当前的推荐系统大都只提供推荐结果给用户而没有向用户解释为什么推荐所述推荐结果,或者为用户提供的对推荐结果的解释并非个性化的解释,而是通用的、不变的解释。借助本应用场景,可以向用户提供推荐结果的解释(比如为何推荐这部电影给用户是因为这部电影由Jack主演)。当然本发明中的方法可以由推荐系统执行,也可以独立于推荐系统执行。
在另一个场景下,所述数据分析方法可以被用于基于所述至少一个判别性特征向所述用户推荐更多的项目,也就是说所述判别性特征可以被进一步反馈到推荐系统以用于产生或校正推荐结果。
在又一个场景下,所述数据分析方法可以被用于统计对一个或多个用户而言最重要的至少一个判别性特征是什么,从而对项目的属性进行更加合理的布局,使得最重要的属性被展示在最显眼的位置。
在其它的场景下,所述被选出的判别性特征还可以被用于进行更广泛的数据分析和挖掘,本发明对此不做具体限定。
上文描述了本发明中的数据分析方法,下面将结合图5、图6描述在同一发明构思下的数据分析系统,其中相同或相应的实现细节由于在上文中已经进行了详细和完整的描述,因此在下文中将不再进行赘述。
图5示出了按照本发明的一个实施例的数据分析系统示意图。图5中的数据分析系统,包括:获取装置,被配置为获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;选择装置,被配置为选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;确定装置,被配置为对至少一个项目,确定其是否具有至少一个判别性特征;以及关联装置,被配置为响应于具有所述至少一个判别性特征,将所述至少一个项目与所述至少一个判别性特征相关联。
按照本发明的一个实施例,所述获取装置进一步被配置为:根据下列各项中的至少一项获取样本数据:所述用户的操作历史、推荐系统为所述用户产生的推荐结果。
按照本发明的一个实施例,所述操作历史包括下列各项中的至少一项:所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论
图6示出了按照本发明的一个实施例的选择装置的示意图。按照图6的实施例,所述选择装置进一步包括:确定子装置、选择子装置。其中确定子装置被配置为确定所述样本数据中的待选特征,并且选择子装置被配置为从所述待选特征中选择判别性特征。
按照本发明的一个实施例,其中所述待选特征进一步包括下列各项中的至少一项:结构化特征、非结构化特征,其中所述结构化特征包括下列各项中的至少一项:属性以及所述属性的值、属性,并且其中所述非结构化特征包括所述样本数据中的关键词。
按照本发明的一个实施例,所述待选特征进一步包括下列各项中的至少一项:原始特征,所述原始特征包括所述样本数据中项目原有的特征;组合特征,所述组合特征包括多个所述原始特征的组合;概括特征,所述概括特征包括对多个所述原始特征的进行概括所形成的特征。
按照本发明的一个实施例,所述选择子装置进一步包括计算子装置、筛选子装置。其中所述计算子装置被配置为计算所述待选特征的区分度值;筛选子装置被配置为根据所述区分度值从待选特征中筛选出判别性特征。
按照本发明的另一个实施例,所述选择子装置进一步包括计算子装置、排序子装置、筛选子装置。其中所述计算子装置被配置为计算所述待选特征的区分度值;所述排序子装置被配置为根据所述区分度值对所述待选特征进行排序;并且所述筛选子装置被配置为根据所述区分度值从待选特征中筛选出判别性特征。
按照本发明的一个实施例,所述计算子装置进一步被配置为根据所述待选特征在所述正样本数据中出现的次数与所述待选特征在所述样本数据中出现的次数之比计算所述区分度值。
按照本发明的另一个实施例,所述计算子装置进一步被配置为:根据所述待选特征在所述正样本数据和所述负样本数据中分布的熵以及所述待选特征在样本数据中出现的次数占总样本数据的比重计算所述区分度值。
按照本发明的一个实施例,所述至少一个目标分析项目为至少一个推荐项目,所述筛选子装置进一步被配置为筛选出具有正面区分度的待选特征作为判别性特征。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (20)

1.一种数据分析方法,包括:
获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;
选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;
对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及
响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
2.如权利要求1所述的方法,其中所述获取样本数据进一步包括:
根据下列各项中的至少一项获取样本数据:所述用户的操作历史、推荐系统为所述用户产生的推荐结果。
3.如权利要求2所述的方法,其中所述操作历史包括下列各项中的至少一项:
所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论。
4.如权利要求1所述的方法,其中所述选择所述样本数据的判别性特征进一步包括:
确定所述样本数据中的待选特征,以及
从所述待选特征中选择判别性特征。
5.如权利要求4所述的方法,其中所述待选特征进一步包括下列各项中的至少一项:结构化特征、非结构化特征,
其中所述结构化特征包括下列各项中的至少一项:属性以及所述属性的值、属性,并且
其中所述非结构化特征包括所述样本数据中的关键词。
6.如权利要求4所述的方法,其中所述待选特征进一步包括下列各项中的至少一项:
原始特征,所述原始特征包括所述样本数据中项目原有的特征;
组合特征,所述组合特征包括多个所述原始特征的组合;
概括特征,所述概括特征包括对多个所述原始特征的进行概括所形成的特征。
7.如权利要求4-6中任意一个所述的方法,其中从所述待选特征中选择判别性特征进一步包括:
计算所述待选特征的区分度值;
根据所述区分度值从所述待选特征中筛选出判别性特征。
8.如权利要求7所述的方法,其中所述计算所述待选特征的区分度值进一步包括:
根据所述待选特征在所述正样本数据中出现的次数与所述待选特征在所述样本数据中出现的次数之比计算所述区分度值。
9.如权利要求7所述的方法,其中所述计算所述待选特征的区分度值进一步包括:
根据所述待选特征在所述正样本数据和所述负样本数据中分布的熵以及所述待选特征在样本数据中出现的次数占总样本数据的比重计算所述区分度值。
10.如权利要求1所述的方法,其中所述至少一个目标分析项目为至少一个推荐项目,所述选择所述样本数据的判别性特征进一步包括:
选择具有正面区分度的待选特征作为判别性特征。
11.一种数据分析系统,包括:
获取装置,被配置为获取样本数据,其中所述样本数据包含正样本数据和负样本数据,所述正样本数据包括用户所偏好的项目,并且所述负样本数据包含用户非偏好的项目;
选择装置,被配置为选择所述样本数据的判别性特征,其中所述判别性特征包括对区分正样本数据和负样本数据中的项目具有区分度的特征;
确定装置,被配置为对至少一个目标分析项目,确定其是否具有至少一个所述判别性特征;以及
关联装置,被配置为响应于具有至少一个所述判别性特征,将所述至少一个目标分析项目与至少一个所述判别性特征相关联。
12.如权利要求11所述的系统,其中所述获取装置进一步被配置为:
根据下列各项中的至少一项获取样本数据:所述用户的操作历史、推荐系统为所述用户产生的推荐结果。
13.如权利要求12所述的系统,其中所述操作历史包括下列各项中的至少一项:
所述用户对项目的打分、所述用户对项目的操作、所述用户对项目的评论。
14.如权利要求11所述的系统,其中所述选择装置进一步包括:
确定子装置,被配置为确定所述样本数据中的待选特征,以及
选择子装置,被配置为从所述待选特征中选择判别性特征。
15.如权利要求14所述的系统,其中所述待选特征进一步包括下列各项中的至少一项:结构化特征、非结构化特征,
其中所述结构化特征包括下列各项中的至少一项:属性以及所述属性的值、属性,并且
其中所述非结构化特征包括所述样本数据中的关键词。
16.如权利要求14所述的系统,其中所述待选特征进一步包括下列各项中的至少一项:
原始特征,所述原始特征包括所述样本数据中项目原有的特征;
组合特征,所述组合特征包括多个所述原始特征的组合;
概括特征,所述概括特征包括对多个所述原始特征的进行概括所形成的特征。
17.如权利要求14-16中任意一个所述的系统,其中所述选择子装置进一步包括:
计算子装置,被配置为计算所述待选特征的区分度值;
筛选子装置,被配置为根据所述区分度值从待选特征中筛选出判别性特征。
18.如权利要求17所述的系统,其中所述计算子装置进一步被配置为:
根据所述待选特征在所述正样本数据中出现的次数与所述待选特征在所述样本数据中出现的次数之比计算所述区分度值。
19.如权利要求17所述的系统,其中所述计算子装置进一步被配置为:
根据所述待选特征在所述正样本数据和所述负样本数据中分布的熵以及所述待选特征在样本数据中出现的次数占总样本数据的比重计算所述区分度值
20.如权利要求17所述的系统,其中所述至少一个目标分析项目为至少一个推荐项目,所述选择装置进一步被配置为:
选择具有正面区分度的待选特征作为判别性特征。
CN201210371691.7A 2012-09-28 2012-09-28 数据分析方法及其系统 Active CN103714063B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210371691.7A CN103714063B (zh) 2012-09-28 2012-09-28 数据分析方法及其系统
US14/037,720 US11176586B2 (en) 2012-09-28 2013-09-26 Data analysis method and system thereof
US14/063,784 US11222375B2 (en) 2012-09-28 2013-10-25 Data analysis method and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210371691.7A CN103714063B (zh) 2012-09-28 2012-09-28 数据分析方法及其系统

Publications (2)

Publication Number Publication Date
CN103714063A true CN103714063A (zh) 2014-04-09
CN103714063B CN103714063B (zh) 2017-08-04

Family

ID=50386126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210371691.7A Active CN103714063B (zh) 2012-09-28 2012-09-28 数据分析方法及其系统

Country Status (2)

Country Link
US (2) US11176586B2 (zh)
CN (1) CN103714063B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912935A (zh) * 2016-05-03 2016-08-31 腾讯科技(深圳)有限公司 广告检测方法及广告检测装置
CN110163647A (zh) * 2019-03-14 2019-08-23 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN113449509A (zh) * 2021-08-05 2021-09-28 湖南特能博世科技有限公司 文本分析方法、装置及计算机设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189740B1 (en) * 2013-01-03 2015-11-17 Aaron Emigh Recommendation rationalization
JP6578722B2 (ja) * 2015-04-17 2019-09-25 富士ゼロックス株式会社 推薦プログラム及び情報処理装置
CN107423335B (zh) * 2017-04-27 2020-06-05 电子科技大学 一种针对单类协同过滤问题的负样本选择方法
CN108009877B (zh) * 2017-11-24 2021-10-15 创新先进技术有限公司 信息挖掘方法及装置
CN108921398B (zh) * 2018-06-14 2020-12-11 口口相传(北京)网络技术有限公司 店铺质量评价方法及装置
CN109190794B (zh) * 2018-07-27 2021-08-24 广州视源电子科技股份有限公司 行为序列清洗方法及装置、用户转化率预测方法及装置
CN109919357B (zh) * 2019-01-30 2021-01-22 创新先进技术有限公司 一种数据确定方法、装置、设备及介质
CN110992127B (zh) * 2019-11-14 2023-09-29 北京沃东天骏信息技术有限公司 一种物品推荐方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010013009A1 (en) * 1997-05-20 2001-08-09 Daniel R. Greening System and method for computer-based marketing
US20030126237A1 (en) * 2001-11-29 2003-07-03 Sony Corporation Information providing method and information providing system
CN101079063A (zh) * 2007-06-25 2007-11-28 腾讯科技(深圳)有限公司 一种基于场景信息推送广告的方法、系统及设备
CN101188011A (zh) * 2007-12-21 2008-05-28 北京新智视界网络技术有限公司 基于搜索的网络情景营销方法
US7631008B2 (en) * 2005-11-16 2009-12-08 Yahoo! Inc. System and method for generating functions to predict the clickability of advertisements
CN102124466A (zh) * 2008-09-05 2011-07-13 索尼公司 内容推荐系统、内容推荐方法、内容推荐设备、程序以及信息存储介质
CN102663001A (zh) * 2012-03-15 2012-09-12 华南理工大学 基于支持向量机的博客作者兴趣与性格自动识别方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6655963B1 (en) * 2000-07-31 2003-12-02 Microsoft Corporation Methods and apparatus for predicting and selectively collecting preferences based on personality diagnosis
US7860811B2 (en) 2004-11-04 2010-12-28 Manyworlds, Inc. Adaptive recommendation explanations
EP1723596A1 (en) * 2004-02-27 2006-11-22 Accenture Global Services GmbH System for individualized customer interaction
US7757170B2 (en) 2004-08-20 2010-07-13 Fuji Xerox Co., Ltd. Recommendation aggregation for digest generation
US20090234711A1 (en) * 2005-09-14 2009-09-17 Jorey Ramer Aggregation of behavioral profile data using a monetization platform
US8805339B2 (en) * 2005-09-14 2014-08-12 Millennial Media, Inc. Categorization of a mobile user profile based on browse and viewing behavior
US20100121705A1 (en) * 2005-11-14 2010-05-13 Jumptap, Inc. Presentation of Sponsored Content Based on Device Characteristics
US7739231B2 (en) 2006-08-28 2010-06-15 Manyworlds, Inc. Mutual commit people matching process
US8301623B2 (en) * 2007-05-22 2012-10-30 Amazon Technologies, Inc. Probabilistic recommendation system
KR100917784B1 (ko) * 2007-12-24 2009-09-21 한성주 콘텐트에 대한 코멘트를 기반으로 한 집단 감성 정보 검색방법 및 시스템
US7734609B2 (en) * 2008-01-03 2010-06-08 Firehose, Llc Multi-level reputation based recommendation system and method
US8156069B2 (en) 2008-02-29 2012-04-10 Raytheon Company System and method for explaining a recommendation produced by a decision support tool
US8117207B2 (en) * 2008-04-18 2012-02-14 Biz360 Inc. System and methods for evaluating feature opinions for products, services, and entities
US8380562B2 (en) * 2008-04-25 2013-02-19 Cisco Technology, Inc. Advertisement campaign system using socially collaborative filtering
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
US20110295722A1 (en) * 2010-06-09 2011-12-01 Reisman Richard R Methods, Apparatus, and Systems for Enabling Feedback-Dependent Transactions
US8949211B2 (en) * 2011-01-31 2015-02-03 Hewlett-Packard Development Company, L.P. Objective-function based sentiment
JP2013088832A (ja) * 2011-10-13 2013-05-13 Sony Corp 情報処理装置、情報処理方法、および、プログラム
US20130103550A1 (en) * 2011-10-24 2013-04-25 Carl Patrick Nygaard Discovery of digital goods in an online marketplace
US20140258016A1 (en) * 2013-03-08 2014-09-11 Ebay Inc. System and method for generating recommendations
US9607050B2 (en) * 2014-06-02 2017-03-28 SynerScope B.V. Computer implemented method and device for ranking items of data
US10373067B1 (en) * 2014-08-13 2019-08-06 Intuit, Inc. Domain-specific sentiment keyword extraction with weighted labels
US10346881B2 (en) * 2014-09-19 2019-07-09 International Business Machines Corporation Advertising within social networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010013009A1 (en) * 1997-05-20 2001-08-09 Daniel R. Greening System and method for computer-based marketing
US20030126237A1 (en) * 2001-11-29 2003-07-03 Sony Corporation Information providing method and information providing system
US7631008B2 (en) * 2005-11-16 2009-12-08 Yahoo! Inc. System and method for generating functions to predict the clickability of advertisements
CN101079063A (zh) * 2007-06-25 2007-11-28 腾讯科技(深圳)有限公司 一种基于场景信息推送广告的方法、系统及设备
CN101188011A (zh) * 2007-12-21 2008-05-28 北京新智视界网络技术有限公司 基于搜索的网络情景营销方法
CN102124466A (zh) * 2008-09-05 2011-07-13 索尼公司 内容推荐系统、内容推荐方法、内容推荐设备、程序以及信息存储介质
CN102663001A (zh) * 2012-03-15 2012-09-12 华南理工大学 基于支持向量机的博客作者兴趣与性格自动识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912935A (zh) * 2016-05-03 2016-08-31 腾讯科技(深圳)有限公司 广告检测方法及广告检测装置
CN105912935B (zh) * 2016-05-03 2019-06-14 腾讯科技(深圳)有限公司 广告检测方法及广告检测装置
CN110163647A (zh) * 2019-03-14 2019-08-23 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN110163647B (zh) * 2019-03-14 2023-06-27 腾讯科技(深圳)有限公司 一种数据处理方法及装置
CN113449509A (zh) * 2021-08-05 2021-09-28 湖南特能博世科技有限公司 文本分析方法、装置及计算机设备

Also Published As

Publication number Publication date
CN103714063B (zh) 2017-08-04
US11176586B2 (en) 2021-11-16
US20140095346A1 (en) 2014-04-03
US20140095345A1 (en) 2014-04-03
US11222375B2 (en) 2022-01-11

Similar Documents

Publication Publication Date Title
CN103714063A (zh) 数据分析方法及其系统
US11823218B2 (en) Customer clustering using integer programming
CN106021586B (zh) 一种信息处理方法及服务器
TWI636416B (zh) 內容個人化之多相排序方法和系統
CN106326391B (zh) 多媒体资源推荐方法及装置
KR102219344B1 (ko) 자동 광고 대행 서버, 자동으로 광고 매체를 위한 캠페인 정보를 생성하여 광고의 집행을 대행하는 방법 및 상기 방법을 실행하기 위한 컴퓨터 프로그램
US9208202B1 (en) Systems and methods for determining interest in an item or category of items
CN108885624B (zh) 信息推荐系统及方法
CN111143697B (zh) 一种内容推荐的方法以及相关装置
CN103164804A (zh) 一种个性化的信息推送方法及装置
US20140297655A1 (en) Content Presentation Based on Social Recommendations
CN110674391B (zh) 基于大数据的产品数据推送方法、系统和计算机设备
CN106354867A (zh) 多媒体资源的推荐方法及装置
US20190278819A1 (en) Systems and methods of providing recommendations of content items
CN113961823B (zh) 新闻推荐方法、系统、存储介质及设备
WO2023231542A1 (zh) 表示信息的确定方法、装置、设备及存储介质
CN108965360B (zh) 一种推荐数据处理方法及服务器、计算机存储介质
CN105022807A (zh) 信息推荐方法及装置
US11256722B2 (en) Techniques for modeling aggregation records
CN108694174B (zh) 内容投放数据的分析方法及装置
WO2023137050A1 (en) Systems and methods for generating a personality profile based on user data from different sources
CN114155051A (zh) 一种物品展示方法、装置、电子设备和存储介质
CN111353864A (zh) 一种产品推荐方法、装置、服务器及存储介质
CN111556116B (zh) 一种培训媒体推送方法、培训媒体的显示方法及相关装置
CN113837846B (zh) 商品推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant