CN110267086B - 主播标签建立方法和装置、直播网络界面引擎接口和介质 - Google Patents
主播标签建立方法和装置、直播网络界面引擎接口和介质 Download PDFInfo
- Publication number
- CN110267086B CN110267086B CN201810469193.3A CN201810469193A CN110267086B CN 110267086 B CN110267086 B CN 110267086B CN 201810469193 A CN201810469193 A CN 201810469193A CN 110267086 B CN110267086 B CN 110267086B
- Authority
- CN
- China
- Prior art keywords
- users
- user
- anchor
- individual
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4665—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4826—End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种主播标签建立方法和装置、直播网络界面引擎接口和介质。该方法包括:确定当前观看主播直播的用户的个体特征;基于所述个体特征,确定当前观看主播直播的用户的群体特征;基于所述群体特征,为主播建立标签。本公开实施例能够自动为主播建立标签,节省人工成本,且准确率高。
Description
技术领域
本公开涉及互联网领域,具体涉及一种主播标签建立方法和装置、直播网络界面引擎接口和介质。
背景技术
目前,在网络直播中,为了便于用户分类查找,将主播的直播根据类型贴上标签。例如,以游戏为主的主播,贴上游戏标签;以唱歌为主的主播,贴上唱歌标签。这样,用户可以从云标签入口先选择想要观看的主播标签。然后,将符合该标签的主播列表,呈现给用户。用户可以从中选择自己喜欢的主播进行观看。
现有技术中,为主播贴标签一般采取两种方式。一种方式是主播自己贴标签。另一种方式是由后台管理人员手动贴标签。前一种方式中,主播为吸引粉丝,常常会给自己打出与实际情况不符的标签,如“美女”、“才艺”。后一种方式中,后台管理人员的数量远远小于主播的数量,工作量巨大,做不到实时性。而且,主播可能上午表演“唱歌”,下午表演“脱口秀”。后台管理人员按照主播一个时刻的表演贴标签,造成对用户的误导。
发明内容
本公开的一个目的在于提出一种主播标签建立方案,其能够自动为主播建立标签,节省人工成本,且准确率高。
根据本公开实施例的第一方面,公开了一种主播标签建立方法,包括:
确定当前观看主播直播的用户的个体特征;
基于所述个体特征,确定当前观看主播直播的用户的群体特征;
基于所述群体特征,为主播建立标签。
根据本公开实施例的第二方面,公开了一种主播标签建立装置,包括:
个体特征确定单元,用于确定当前观看主播直播的用户的个体特征;
群体特征确定单元,用于基于所述个体特征,确定当前观看主播直播的用户的群体特征;
标签建立单元,用于基于所述群体特征,为主播建立标签。
根据本公开实施例的第三方面,公开了一种直播网络界面引擎接口,包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行如上所述的方法。
根据本公开实施例的第四方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的方法。
本公开实施例中,基于当前观看主播直播的用户的个体特征,统计出这些用户的群体特征,而这些用户的群体特征反映了该主播当前表演的类型,从而借助于当前观看主播直播的用户的特征统计,得到主播的标签。该实施方式自动为主播建立标签,不需要人工参与。由于主播的标签是根据实时观看的用户群体的特征总结出的,因此是客观的,消除了主观偏差,准确率高。另外,主播的标签根据实时观看的用户群体的变化实时变化,避免了主播在不同时段表演不同内容而贴同一标签对用户的误导。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1A-C、图2A-C示出根据本公开一示例实施方式的主播标签建立方法的应用场景的直播观看界面变化图,其中,图1A示出在某一天上午向用户显示的标签云界面,该云界面示出各种标签;图1B示出在图1A的界面选择“唱歌”后显示的唱歌主播列表界面,该界面中有主播“蓝精灵”;图1C示出在图1B的主播列表界面选择“蓝精灵”后进入的该主播的直播界面;图2A示出在该天下午向用户显示的标签云界面,该云界面示出各种标签;图2B示出在图2A的界面选择“脱口秀”后显示的脱口秀主播列表界面,该界面中还有主播“蓝精灵”,说明了主播标签是根据主播表演类型的变化动态建立的;图2C示出在图2B的主播列表界面选择“蓝精灵”后进入的该主播的直播界面。
图3示出根据本公开一示例实施方式的主播标签建立方法的另一应用场景界面图,其中在该场景中,标签不是进入主播列表界面的入口,而是在主播直播时显示在直播内容的旁边,用于帮助用户了解该主播。
图4示出根据本公开一示例实施方式的主播标签建立方法应用的一个系统构架的示意图。
图5示出根据本公开一示例实施方式的主播标签建立方法的流程图。
图6示出根据本公开一示例实施方式的基于个体特征确定当前观看主播直播的用户的群体特征的具体流程图。
图7示出根据本公开一示例实施方式的对当前观看主播直播的用户进行聚类的具体流程图。
图8示出根据本公开一示例实施方式,在个体特征包括消费程度这样一个子特征的情况下,确定当前观看主播直播的用户的个体特征的具体流程图。
图9示出根据本公开一示例实施方式,在个体特征包括在线程度这样一个子特征的情况下,确定当前观看主播直播的用户的个体特征的具体流程图。
图10示出根据本公开一示例实施方式,在个体特征包括互动程度这样一个子特征的情况下,确定当前观看主播直播的用户的个体特征的具体流程图。
图11示出根据本公开一示例实施方式,在个体特征包括最常上线时间段这样一个子特征的情况下,确定当前观看主播直播的用户的个体特征的具体流程图。
图12示出根据本公开一示例实施方式,在个体特征包括经常上线时间段这样一个子特征的情况下,确定当前观看主播直播的用户的个体特征的具体流程图。
图13示出根据本公开一示例实施方式,在个体特征包括关注主播标签这样一个子特征的情况下,确定当前观看主播直播的用户的个体特征的具体流程图。
图14示出根据本公开一示例实施方式的确定聚成的类的用户的群体特征的具体流程图。
图15示出根据本公开另一示例实施方式的确定聚成的类的用户的群体特征的具体流程图。
图16示出根据本公开一示例实施方式的将各类的用户的群体特征聚合成当前观看主播直播的用户的群体特征的具体流程图。
图17示出根据本公开一示例实施方式的基于所述群体特征为主播建立标签的具体流程图。
图18示出根据本公开另一示例实施方式的基于所述群体特征为主播建立标签的具体流程图。
图19示出根据本公开另一示例实施方式的主播标签建立方法的流程图。
图20示出根据本公开另一示例实施方式的主播标签建立装置的模块图。
图21示出根据本公开一示例实施方式的直播网络界面引擎接口的结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
目前,在网络直播中,为了便于用户分类查找,将主播的直播根据类型贴上标签。例如,以游戏为主的主播,贴上游戏标签;以唱歌为主的主播,贴上唱歌标签。这样,用户可以从云标签入口先选择想要观看的主播标签。然后,将符合该标签的主播列表,呈现给用户。用户可以从中选择自己喜欢的主播进行观看。另外,标签还可以设置在主播直播画面的旁边,帮助用户识别主播的类型。
为主播贴标签已知采取两种方式。一种方式是主播自己贴标签。另一种方式是由后台管理人员手动贴标签。前一种方式中,主播为吸引粉丝,常常会给自己打出与实际情况不符的标签,如“美女”、“才艺”。后一种方式中,后台管理人员的数量远远小于主播的数量,工作量巨大,做不到实时性。而且,主播可能上午表演“唱歌”,下午表演“脱口秀”。后台管理人员按照主播一个时刻的表演贴标签,造成对用户的误导。因此,需要一种能够自动为主播建立标签,节省人工成本,且准确率高的技术。
由于当前观看主播直播的用户的群体特征能够反映出主播当前表演的类型,因此,本公开实施例巧妙地借助于当前观看主播直播的用户的特征统计,得到主播的标签,实现了自动为主播建立标签,而不需要人工参与。由于主播的标签是根据实时观看的用户群体的特征总结出的,因此是客观的,消除了主观偏差,准确率高。另外,主播的标签根据实时观看的用户群体的变化实时变化,避免了主播在不同时段表演不同内容而贴同一标签对用户的误导。
下面结合图1A-C、图2A-C、图3,描述一下根据本公开一示例实施方式的主播标签建立方法的应用场景。本公开实施例的标签至少可以应用于以下两种场景:在第一种场景中,为主播贴上标签,将各种标签放置在用户进入直播界面的云标签入口,用户选择一个标签,即为用户呈现具有该标签的主播列表。在这种场景中,标签主要用作直播网站或应用的入口选择。在第二种场景中,标签还可以设置在主播直播画面的旁边,帮助用户识别主播的类型。即,如果用户不是通过入口的标签选择来观看主播的直播,而是例如通过关键词搜索来搜索到一个主播,但并不了解该主播平时的表演类型,此时直播画面旁边的标签起到快速帮助用户了解该主播的表演类型和风格的作用。
当用户打开直播网站,或打开直播应用后,向用户呈现如图1A所示的界面,它是一个标签云界面100,该云界面示出各种主播标签101,如“颜值”、“唱歌”、“跳舞”等,用户可以在该界面上选择一个标签,表示用户想看具有该标签的主播表演。图1A显示的界面右上角具有当前时间显示。用户打开直播网站或直播应用的当前时间是2018年5月1日9:04:18。
如图1A所示,用户选择“唱歌”标签,为用户呈现如图1B所示的界面,该界面显示唱歌主播列表。该唱歌主播列表中列出了主播头像102和主播名103。主播头像102是主播在直播网站或直播应用注册时上传的,主播名103是主播在直播网站或直播应用注册时起的名字,它可以是主播的真实姓名(如“袁杰”),也可以是网名(如“蜡笔小新”),也可以含有一些描述成分的介绍(如“平民歌后”)。
用户根据主播头像102和主播名103,在图1B的页面选择主播。当选择主播后,进入如图1C所示的主播的直播界面。图1C是“蓝精灵”这个主播的直播界面。
如图1C所示,在直播界面的左边部分,是直播的画面105。在右边部分,是评论和送礼物区104。送礼物是指用户为主播购买直播网站上提供的虚拟礼物(例如“鲜花”等)送给主播,用户买该虚拟礼物消费的费用一般会以网站平台和主播分成的方式一部分流入主播的账户。评论是指用户在直播过程中写下的话和主播在直播过程中写下的话。用户写下的话和主播写下的话形成互动。
由于本公开实施例是借助于当前观看主播直播的用户的特征统计,得到主播的标签,实现自动为主播建立标签。如果主播在不同时间段作了不同的表演,其当前观看主播直播的用户可能是不一样的,贴的标签也就不一样。因此,如图2A所示,当用户在2018年5月1日17:05:07打开直播网站或直播应用时,选择“脱口秀”标签。这时,如图2B所示,在为用户显示的主播列表中同样具有“蓝精灵”,这是因为“蓝精灵”上午可能在直播唱歌,下午在直播脱口秀,上下午的观看用户不同,特征统计得出的标签就不一样。因此,用户下午在脱口秀的主播列表中,又看到了“蓝精灵”。
当用户在图2B的界面上选择“蓝精灵”后,进入如图2C所示的“蓝精灵”的直播界面。
另外,根据本公开实施例的标签还可以设置在主播直播画面的旁边,帮助用户识别主播的类型。用户可能通过搜索的方式搜索到主播,但并不了解该主播平时的表演类型,此时直播画面旁边的标签起到快速帮助用户了解该主播的表演类型和风格的作用。如图3所示,用户通过搜索“蓝精灵”或“蓝”,搜索到“蓝精灵”这个主播,但并不了解该主播。用户进入“蓝精灵”的直播界面时,直播画面105旁边的标签106有助于用户快速了解该主播。如图3所示,当前时间是2018年5月1日17:05:09,“蓝精灵”这个主播当前的标签是“颜值”、“脱口秀”。但是,如果当前时间是2018年5月1日9:04:20,该主播当前的标签可能就是“颜值”、“唱歌”。
图4示出根据本公开一示例实施方式的主播标签建立方法应用的一个系统构架的示意图。该系统构架包括直播平台200、主播终端210和用户终端220。
主播终端210是主播直播使用的终端,它可以是专用直播设备,也可以是装有摄像头和收音器的一般终端,例如台式电脑、手机、PDA、笔记本电脑、车载设备等。用户终端220是用户观看直播使用的终端,它可以是有放音器的一般终端,例如台式电脑、手机、PDA、笔记本电脑、车载设备等。直播平台200是直播方运营直播的平台,其可以由单台计算机或多台联网的计算机实现,也可以由多台联网的计算机各自一部分联合实现。例如,它可以采用虚拟机集群的形式,即从多台物理机上分别划分出一部分作为虚拟机,集体行使直播平台200的功能。在云环境下,它可以由云环境中的多台分布式计算设备联合实现。
直播平台200包括管理后台201、直播网络界面引擎接口202、和配置文件库203。直播网络界面引擎接口202的作用是接收主播终端210的请求、和用户终端220的请求,从而在直播时,根据这些请求,对呈现给用户终端220的界面和呈现给主播终端210的界面进行改变。例如,当用户选择标签时为用户呈现具有该标签的主播列表;当观看直播的一个用户发表了评论后,向观看该直接的所有用户的界面、以及主播的界面上都显示这一评论。管理后台201是执行后台的管理功能(例如用户历史观看直播的信息的存储等)的设备。配置文件库203存储有主播标签建立过程中用到的各种配置,例如,下文中描述的在对当前观看主播直播的用户进行聚类中使用的各种阈值或其他参数、基于所述群体特征为主播建立标签所用的群体特征标签对应关系表,等等。
主播终端210和直播平台200之间的连接可以是有线的,也可以是无线的。同样,用户终端220和直播平台200之间的连接可以是有线的,也可以是无线的。
图5示出根据本公开一示例实施方式的主播标签建立方法的流程图。该主播标签建立方法主要是在图4的直播网络界面引擎接口202实现的。
如图5所示,根据本公开一个实施例的主播标签建立方法包括:
步骤310、确定当前观看主播直播的用户的个体特征;
步骤320、基于所述个体特征,确定当前观看主播直播的用户的群体特征;
步骤330、基于所述群体特征,为主播建立标签。
下面对这些步骤进行详细描述。
在步骤310中,确定当前观看主播直播的用户的个体特征。
个体特征是指用户个体在历史上观看直播时表现出来的特征,它着眼于用户个人而非所有用户。它一般包括若干个体子特征。个体子特征即分项考虑得到的用户在历史上观看直播时统计到的数据,或者用户在直播网站注册时登记的个人信息。
在一个实施例中,个体子特征包括但不限于以下中的一项或多项:
消费程度;
在线程度;
互动程度;
最常上线时间段;
经常上线时间段;
性别;
关注主播标签。
其中,消费程度、在线程度、互动程度、最常上线时间段、经常上线时间段、性别、关注主播标签是分项考虑得到的用户在历史上观看直播时统计到的数据。性别是用户在直播网站注册时登记的个人信息。
消费程度是用户在历史上观看直播时消费的情况。消费主要是指为主播购买礼物(打赏)。消费程度可以用不同的方式来表征。
在一个实施例中,消费程度用用户在直播网站或直播应用中在用户贡献榜中的排名来表示。用户每次给主播购买礼物后,直播网络界面引擎接口202将购买礼物的数据(包括金额、打赏主播、日期等)传送到管理后台。管理后台为用户累计为主播购买礼物花费的所有金额,并维护一个用户贡献榜。在用户贡献榜中,所有用户按照其在直播网站或直播应用中为主播购买礼物花费的总金额排队,总金额越高的,排在越前面。因此,用户在用户贡献榜中的排名,直接反映了用户在当前直播网站或直播应用中的消费程度。
由于用户贡献榜是存储在管理后台201的,因此,在一个实施例中,在个体特征包括体现为用户贡献榜中的排名的消费程度的情况下,步骤310包括:
从管理后台存储的用户贡献榜,读取用户在用户贡献榜中的排名,作为消费程度。
通过用户在用户贡献榜中的排名,来体现消费程度的一个好处在于,获取数据的直接性。
在一个实施例中,消费程度用用户的历史消费总金额来表示。历史消费总金额是指用户在该直播网站或直播应用历史上为主播购买礼物花费的总额。用户每次给主播购买礼物后,直播网络界面引擎接口202将购买礼物的数据(包括金额、打赏主播、日期等)传送到管理后台201。管理后台201为用户累计为主播购买礼物花费的所有金额。因此,直播网络界面引擎接口202可以从管理后台201直接调取用户的历史消费总金额。
因此,在一个实施例中,在个体特征包括体现为用户的历史消费总金额的消费程度的情况下,步骤310包括:
从管理后台调取用户的历史消费总金额,作为消费程度。
用用户的历史消费总金额作为消费程度,相对于使用用户在用户贡献榜中的排名作为消费程度,优点是能使不同用户的消费程度具有客观的比例关系。用名次衡量的消费程度,往往不能反映出不同用户的消费程度之间的真实比例关系。
在一个实施例中,消费程度用用户的历史消费总金额与历史上单位时间段内平均消费金额的加权和来表示。历史消费总金额是指用户在该直播网站或直播应用历史上为主播购买礼物花费的总额。历史上单位时间段内平均消费金额是指历史消费总金额除以用户为主播购买礼物的单位时间段(例如天)数的结果。例如,在单位时间段是天的情况下,用户历史消费总金额是12000元,这些消费总金额是分别在6天为主播购买礼物花出去的(即只在6天中有为主播购买礼物的行为,共花费12000元),则平均消费金额为12000/6=2000(元)。
该实施例综合考虑用户的历史消费总金额和历史上单位时间段内平均消费金额的好处在于,用户的历史消费总金额代表着用户的财力,但历史上单位时间段内平均消费金额代表消费强度,即其每次出手是大额还是小额。用户的历史消费总金额固然对于确定用户消费程度很关键,但花费的集中程度(即每个单位时间段的花费,如每天的花费)也反映了用户的消费程度,也是一个很重要的指标。例如,三年为主播购买礼物共花掉3000元和一天为主播购买礼物花掉3000元,显然是不一样的,应该认为后者的消费程度更高。因此,该实施例综合考虑用户的历史消费总金额和历史上单位时间段内平均消费金额,用它们的加权和来代表消费程度,综合考虑了用户的财力和单位时间内花费的强度,比较合理地确定了消费程度,从而使建立的标签更准确。
在该实施例中,如图8所示,步骤310包括:
步骤3101、获取该用户的历史消费总金额;
步骤3102、获取该用户的历史上单位时间段内平均消费金额;
步骤3103、计算所述历史消费总金额与所述历史上单位时间段内平均消费金额的加权和,作为所述消费程度。
在步骤3101,该用户的历史消费总金额可以由直播网络界面引擎接口202从管理后台201获取。
在步骤3102,在一个实施例中,由于管理后台201存储有用户历史上的消费记录,即为主播购买礼物的记录。因此,直播网络界面引擎接口202可以从关联后台201获取用户为主播购买礼物的记录,从中获取用户为主播购买礼物的单位时间段(例如天)数。然后,用历史消费总金额除以用户为主播购买礼物的单位时间段(例如天)数,即得到历史上单位时间段内平均消费金额。
在步骤3103,为历史消费总金额与历史上单位时间段内平均消费金额分配的权重是预先根据经验确定的,可以利用这些权重计算所述历史消费总金额与所述历史上单位时间段内平均消费金额的加权和,作为所述消费程度。
在线程度是用户在历史上在线观看直播的情况。该子特征对于衡量用户对直播网络或直播应用的粘着度很重要。用户在线程度高,说明其对于直播网络或直播应用的粘着度高。在线程度可以用不同的方式来表征。
在一个实施例中,在线程度用用户的历史在线总时长来表示。用户每次在线看直播,直播网络界面引擎接口202可以把用户在线的时长、在线开始时间、结束时间等传送到管理后台201。管理后台201为用户累计为用户在线的时长。这样,在管理后台201,就维护有用户的历史在线总时长的数据。
因此,在一个实施例中,在个体特征包括体现为用户的历史在线总时长的在线程度的情况下,步骤310包括:
从管理后台调取用户的历史在线总时长,作为在线程度。
在另一个实施例中,在线程度用用户的历史在线总时长与历史上单位时间段内平均在线时长的加权和来表示。历史在线总时长是指用户在该直播网站或直播应用上历史上在线时长的总和。历史上单位时间段内平均在线时长是指历史在线总时长除以用户在线的单位时间段(例如天)数的结果。例如,在单位时间段是天的情况下,用户的历史在线总时长是300小时。这些时长分别是在60天进行的。也就是说,这60天有在直播网站或直播应用观看直播的行为,共用了300小时,则历史上单位时间段内平均在线时长为300/60=5(小时)。
该实施例综合考虑用户的历史在线总时长和历史上单位时间段内平均在线时长的好处在于,用户的历史在线总时长代表着用户总共在该直播网站或直播应用上花费的时间,该指标好说明用户是长期用户。但历史上单位时间段内平均在线时长代表每单位时间段(例如每天)的在线强度,即其每次一观看直播是无法自拔还是能够自行克制。用户的历史在线总时长固然反映了用户的长期粘着性,但每单位时间段(例如每天)的在线强度也反映了用户的短期沉迷程度,同样也是一个很重要的指标。例如,用户一个月上了20小时的直播网站和两天共上了20小时的直播网站,显然是不一样的,应该认为后者更有潜力称为直播网站的铁粉。因此,该实施例综合考虑用户的历史在线总时长和历史上单位时间段内平均在线时长,用它们的加权和来代表在线程度,综合考虑了用户的长期粘着性和短期沉迷程度,比较合理地确定了在线程度,从而使建立的标签更准确。
在该实施例中,如图9所示,步骤310包括:
步骤3101a、获取该用户的历史在线总时长;
步骤3102a、获取该用户的历史上单位时间段内平均在线时长;
步骤3103a、计算所述历史在线总时长与历史上单位时间段内平均在线时长的加权和,作为所述在线程度。
在步骤3101a,该用户的历史在线总时长可以由直播网络界面引擎接口202从管理后台201获取。
在步骤3102a,在一个实施例中,由于管理后台201存储有用户历史上的在线记录,即用户在哪些单位时间段(例如哪些天)分别在线多长时间的记录。因此,直播网络界面引擎接口202可以从关联后台201获取所述在线记录,从中统计出用户有在线行为的单位时间段数(例如天数)。然后,用历史在线总时长除以用户有在线行为的单位时间段数(例如天数),即得到历史上单位时间段内平均在线时长。
在步骤3103a,为历史在线总时长与历史上单位时间段内平均在线时长分配的权重是预先根据经验确定的,可以利用这些权重计算所述历史在线总时长与所述历史上单位时间段内平均在线时长的加权和,作为所述在线程度。
互动程度是用户在历史上与主播互动情况(除了送礼物之外其它的发表言论行为)。该子特征对于衡量用户对直播的参与度。用户互动程度高,说明其对于直播的参与度高。互动程度可以用不同的方式来表征。
在一个实施例中,互动程度用用户的历史互动总次数来表示。互动是指,除为用户购买礼物外,其它在评论和送礼物区104发表言论的行为。在评论和送礼物区104发表言论,要么是用户写话给主播,要么是主播写话给用户。无论是用户写话给主播,还是主播写话给该用户,都算作该用户的一次互动。直播网络界面引擎接口202可以把用户的每次互动行为的时间都传送到管理后台201。管理后台201为用户累计互动次数。这样,在管理后台201,就维护有用户的历史互动总次数的数据。
因此,在一个实施例中,在个体特征包括体现为用户的历史互动总次数的互动程度的情况下,步骤310包括:
从管理后台调取用户的历史互动总次数,作为互动程度。
在另一个实施例中,互动程度用用户的历史互动总次数与历史上单位时间段内平均互动次数的加权和来表示。历史互动总次数是指用户在该直播网站或直播应用上历史上互动次数的总和。历史上单位时间段内平均互动次数是指历史互动总次数除以用户互动的单位时间段(例如天)数的结果。例如,在单位时间段是天的情况下,用户的历史互动总次数是500次。这些互动分别是在50天进行的。也就是说,这50天有在直播网站或直播应用有互动行为,共互动了500次,则历史上单位时间段内平均互动次数为500/50=10(次)。
该实施例综合考虑用户的历史互动总次数和历史上单位时间段内平均互动次数的好处在于,用户的历史互动总次数代表着用户总共在该直播网站或直播应用上互动的次数,该指标好说明用户长期有互动的习惯。但历史上单位时间段内平均互动次数代表每单位时间段(例如每天)的互动次数,这代表了用户互动的强度。一个互动强度高的用户,容易成为直播网站或直播应用的铁粉。例如,用户一个月互动了100次和一天之内就互动了100次,显然是不一样的,应该认为后者更有潜力称为直播网站或应用的铁粉。因此,该实施例综合考虑用户的历史互动总次数和历史上单位时间段内平均互动次数,用它们的加权和来代表互动程度,综合考虑了用户的长期互动习惯和短期互动强度,比较合理地确定了互动程度,从而使建立的标签更准确。
在该实施例中,如图10所示,步骤310包括:
步骤3101b、获取该用户的历史互动总次数;
步骤3102b、获取该用户的历史上单位时间段内平均互动次数;
步骤3103b、计算所述历史互动总次数与历史上单位时间段内平均互动次数的加权和,作为所述互动程度。
在步骤3101b,该用户的历史互动总次数可以由直播网络界面引擎接口202从管理后台201获取。
在步骤3102b,在一个实施例中,由于管理后台201存储有用户历史上的互动记录,即用户每次互动的互动时间。因此,直播网络界面引擎接口202可以从关联后台201获取所述互动时间,从互动时间可以确定互动发生的单位时间段(如哪一天)。然后,统计出用户有互动行为的单位时间段数(例如天数)。然后,用历史互动总次数除以用户有互动行为的单位时间段数(例如天数),即得到历史上单位时间段内平均互动次数。
在步骤3103b,为历史互动总次数与历史上单位时间段内平均互动次数分配的权重是预先根据经验确定的,可以利用这些权重计算所述历史互动总次数与所述历史上单位时间段内平均互动次数的加权和,作为所述互动程度。
最常上线时间段是用户在每天各时间段中最经常上线的时间段。将每天按预定规则划分成若干时间段,最常上线时间段就是在各时间段中上线的天数最多的一个时间段。它能够反映用户喜欢在每天的什么时间上线。例如,将每天24小时按照每2小时一个时间段划分成12个时间段,分别为0:00:00-2:00:00,2:00:00-4:00:00,4:00:00-6:00:00,……,22:00:00-24:00:00。例如,用户在上线的所有天中在20:00:00-22:00:00上线的天数最多,说明用户最喜欢每天在20:00:00-22:00:00上线。
将最常上线时间段作为一个个体子特征的好处是,某些类型的主播,其每天直播的时间段往往呈现出一些特点。例如,游戏主播经常后半夜进行直播,游戏主播的粉丝的最常上线时间段往往也集中在后半夜。因此,将最常上线时间段作为一个个体子特征,能够更准确地为主播打标签。
在该实施例中,如图11所示,步骤310包括:
步骤3101c、确定该用户历史上在各时间段上线的天数;
步骤3102c、将上线天数最多的时间段确定为最常上线时间段。
在步骤3101c,由于管理后台201存储有用户历史上的上线记录,即用户每次上线的开始时间和结束时间。因此,直播网络界面引擎接口202可以从关联后台201获取所述上线记录,从每次上线记录可以确定该次上线所在的时间段。然后,统计出用户历史上在各时间段上线的天数。
例如,用户历史上只有三天上线,其中,第一天在7:50:08-9:08:10上线,由于该期间跨6:00:00-8:00:00和8:00:00-10:00:00两个时间段,因此认为用户在6:00:00-8:00:00和8:00:00-10:00:00两个时间段上线;第二天用户在8:50:07-11:08:10上线,由于该期间跨8:00:00-10:00:00和10:00:00-12:00:00两个时间段,因此认为用户在8:00:00-10:00:00和10:00:00-12:00:00两个时间段上线;第三天用户在6:50:07-12:08:10和16:59:00-19:25:00上线,6:50:07-12:08:10跨6:00:00-8:00:00、8:00:00-10:00:00、10:00:00-12:00:00、12:00:00-14:00:00四个时间段,16:59:00-19:25:00跨16:00:00-18:00:00和18:00:00-20:00:00两个时间段,因此认为用户在6:00:00-8:00:00、8:00:00-10:00:00、10:00:00-12:00:00、12:00:00-14:00:00、16:00:00-18:00:00和18:00:00-20:00:00六个时间段。因此,统计出的用户在各时间段上线的天数如下表:
时间段 | 上线的天数 |
0:00:00-2:00:00 | 0 |
2:00:00-4:00:00 | 0 |
4:00:00-6:00:00 | 0 |
6:00:00-8:00:00 | 2 |
8:00:00-10:00:00 | 3 |
10:00:00-12:00:00 | 2 |
12:00:00-14:00:00 | 1 |
14:00:00-16:00:00 | 0 |
16:00:00-18:00:00 | 1 |
18:00:00-20:00:00 | 1 |
20:00:00-22:00:00 | 0 |
22:00:00-24:00:00 | 0 |
表1统计出的用户在各时间段上线的天数示例
在步骤3102c中,由于已经确定该用户历史上在各时间段上线的天数,因此可以确定上线天数最多的时间段,将其确定为最常上线时间段。
在如表1统计出的用户在各时间段上线的天数的例子中,用户在8:00:00-10:00:00上线的天数最多。因此,8:00:00-10:00:00是用户上线最活跃的时间段。将该时间段确定为最常上线时间段。
经常上线时间段是用户在每天各时间段中上线天数比例超过预定比例阈值的时间段。用户在每天各时间段中上线天数比例是指用户在每天各时间段中上线天数占用户有上线行为的天数的比。例如,在表1中,用户在6:00:00-8:00:00这个时间段上线2天,用户有上线行为的有3天,则用户在6:00:00-8:00:00的上线天数比例为2/3=67%。如果预定比例阈值为60%,则6:00:00-8:00:00可以认为是一个经常上线时间段。
用经常上线时间段取代最常上线时间段作为一个个体子特征的好处是,每个用户的最常上线时间段通常只有一个,但很多用户都是在一天的几个时间段有空闲,可能在几个时间段都上线,这几个时间段上线的次数可能相差甚微。如果把最常上线时间段作为个体子特征就只能取一个时间段,不能反映出用户对几个时间段相差不大的偏好。而对于一个用户,经常上线时间段可以由多个,只要用户在这些时间段中上线天数比例都超过预定比例阈值就可以,因此,能够在用户对几个时间段具有相差不大的偏好时,更客观地反映用户的偏好,提高主播标签建立的准确率。
在该实施例中,如图12所示,步骤310包括:
步骤3101d、确定该用户历史上在各时间段上线的天数;
步骤3102d、确定该用户历史上上线的总天数;
步骤3103d、基于该用户历史上在各时间段上线的天数、以及该用户历史上上线的总天数,确定该用户历史上在各时间段上线的天数比例;
步骤3104d、将所述天数比例超过预定比例阈值的时间段确定为经常上线时间段。
在步骤3101d,由于管理后台201存储有用户历史上的上线记录,即用户每次上线的开始时间和结束时间。因此,直播网络界面引擎接口202可以从关联后台201获取所述上线记录,从每次上线记录可以确定该次上线所在的时间段。然后,统计出用户历史上在各时间段上线的天数。
在步骤3102d,直播网络界面引擎接口202也可以从获取的上线记录中,统计出用户在哪些天上线,从而确定该用户历史上上线的总天数。
在步骤3103d,将该用户历史上在各时间段上线的天数除以该用户历史上上线的总天数,则可以得到该用户历史上在各时间段上线的天数比例。
在步骤3104d,将所述天数比例超过预定比例阈值的时间段确定为经常上线时间段。
例如,在上述表1的例子中,确定该用户历史上上线的总天数为3,则该用户历史上在各时间段上线的天数比例如下表:
表2用户在各时间段上线的天数比例示例
假设预定比例阈值是60%,则6:00:00-8:00:00、8:00:00-10:00:00、10:00:00-12:00:00为用户的经常上线时间段。
关注主播标签是用户关注的主播中超过预定人数比例都具有的标签。在直播网站或直播应用中,具有关注功能。用户如果对某个主播感兴趣,可以将其设置为关注。这样,用户下次进入直播网站或直播应用时,如果仍想观看该主播的表演,直接可以从“关注”中找到该主播进行观看。同时,该主播的动向可以向用户进行推送。由于用户可能关注上百、甚至上千个主播,将他们每个主播的标签都设为关注主播标签是不切实际的。而且,对于用户平时不太感兴趣的类型的主播,有时用户也会关注关注一两个,如果将关注的所有主播的标签都设为关注主播标签,对于很多用户来说,关注主播标签就变成了所有的标签。因此,将用户关注的主播中超过预定人数比例都具有的标签设为关注主播标签。该标签可以反映出用户关注的主播中,哪种类型或者说哪种标签的主播比较多,从而也可以反映出该用户是一个什么样的人。
用关注主播标签作为一个个体子特征的好处是,每个用户的关注的主播标签直接放映了其对何种类型主播的喜好,从而为当前主播贴标签提高重要的参考。
在该实施例中,如图13所示,步骤310包括:
步骤3101e、确定该用户关注的主播;
步骤3102e、确定该用户关注的主播具有的标签;
步骤3103e、逐个标签地确定关注的主播中具有该标签的人数;
步骤3104e、将所述人数占用户关注的主播总人数的比例超过预定人数比例阈值的标签作为关注主播标签。
在步骤3101e中,用户对某位主播进行关注,都会由直播网络界面引擎接口202通知管理后台201记录,因此,可以从管理后台201查询到用户关注的主播列表。
在步骤3102e中,直播网络界面引擎接口202每次为主播贴标签后,都会将贴标签结果存储在管理后台201。因此,可以从管理后台201查询到用户关注的主播具有的标签。
在步骤3103e中,由于已经确定该用户关注的每个主播具有的标签,就可以逐个标签地确定关注的主播中具有该标签的人数。
例如,用户关注了5个主播:主播A、主播B、主播C、主播D、主播E。当前,主播A的标签是“脱口秀”;主播B的标签是“颜值”、“唱歌”;主播C的标签是“颜值”、“喊麦”、“脱口秀”;主播D的标签是“颜值”、“脱口秀”;主播E的标签是“颜值”、“跳舞”。因此,用户关注的主播中具有各种标签的人数如下表:
标签 | 人数 |
颜值 | 4 |
唱歌 | 1 |
跳舞 | 1 |
段子 | 0 |
脱口秀 | 3 |
喊麦 | 1 |
户外 | 0 |
讲故事 | 0 |
表3统计出的用户关注的主播中具有各种标签的人数示例
在步骤3104e中,将所述人数占用户关注的主播总人数的比例超过预定人数比例阈值的标签作为关注主播标签。
如表3中例子中,由于用户关注的主播总人数为5,用户关注的主播中具有各种标签的人数占用户关注的主播总人数的比例如下表所示:
标签 | 人数比例 |
颜值 | 80% |
唱歌 | 20% |
跳舞 | 20% |
段子 | 0 |
脱口秀 | 60% |
喊麦 | 20% |
户外 | 0 |
讲故事 | 0 |
表4用户关注的主播中具有各种标签的人数示例
假设预定人数比例阈值为50%,将“颜值”、“脱口秀”作为关注主播标签。
在步骤320中,基于所述个体特征,确定当前观看主播直播的用户的群体特征。
个体特征包括个体子特征。如上所述,个体子特征包括但不限于以下中的一个或多个:
消费程度;
在线程度;
互动程度;
最常上线时间段;
经常上线时间段;
性别;
关注主播标签。
在一个实施例中,相应地,步骤320包括以下中的一项或多项:
对于消费程度,确定当前观看主播直播的用户中消费程度超过预定消费程度阈值的用户数,如果所述用户数超出消费程度对应的用户数阈值,将消费程度确定为所述群体特征;
对于在线程度,确定当前观看主播直播的用户中在线程度超过预定在线程度阈值的用户数,如果所述用户数超出在线程度对应的用户数阈值,将在线程度确定为所述群体特征;
对于互动程度,确定当前观看主播直播的用户中互动程度超过预定互动程度阈值的用户数,如果所述用户数超出互动程度对应的用户数阈值,将互动程度确定为所述群体特征;
对于最常上线时间段,如果当前观看主播直播的用户中具有特定最常上线时间段的用户数超出特定最常上线时间段对应的用户数阈值,将该特定最常上线时间段确定为所述群体特征;
对于经常上线时间段中的特定上线时间段,如果当前观看主播直播的用户中具有该特定上线时间段作为经常上线时间段之一的用户数超出经常上线时间段对应的用户数阈值,将该特定上线时间段确定为所述群体特征;
对于性别,如果当前观看主播直播的用户中特定性别的用户数超过性别对应的用户数阈值,将该特定性别确定为所述群体特征;
对于关注主播标签中的特定标签,如果当前观看主播直播的用户中具有该特定标签作为关注主播标签之一的用户数超出关注主播标签对应的用户数阈值,将该特定标签确定为所述群体特征。
以下分别讨论以上的各项。
对于消费程度,对于一个一般的主播,观看其直播的用户中应该既有消费高的(为主播买礼物花钱多的),也有消费低的(不太为主播买礼物的),但如果当前观看某一个主播的用户中消费程度绝大多数都很高,这时消费程度是当前观看主播直播的用户的群体具有的区别于其它群体的一个显著特征。一般来说,对于颜值主播,有可能会出现这种情况。
当前观看某一个主播的用户中消费程度绝大多数都很高,这里涉及两个阈值。第一个阈值是消费程度高的阈值,第二个阈值是消费程度高的用户数的阈值。只有两个阈值都满足,才认为消费程度是一个显著特征。因此,先确定当前观看主播直播的用户中消费程度超过预定消费程度阈值(预先根据经验设定)的用户数,然后再判断是否所述用户数超出消费程度对应的用户数阈值(预先根据经验设定),如果是,将消费程度确定为所述群体特征。例如,预定消费程度阈值是1800元。当前观看主播直播的有200个用户,其中170个用户的消费程度是在1800元以上。消费程度对应的用户数阈值是150人。由于170大于150,因此将消费程度确定为所述群体特征。
对于在线程度,对于一个一般的主播,观看其直播的用户中应该既有在线时间长的,也有在线时间短的,但如果当前观看某一个主播的用户中在线程度绝大多数都很高,这时在线程度是当前观看主播直播的用户的群体具有的区别于其它群体的一个显著特征。一般来说,对于游戏主播,有可能会出现这种情况。
当前观看某一个主播的用户中在线程度绝大多数都很高,这里涉及两个阈值。第一个阈值是在线程度高的阈值,第二个阈值是在线程度高的用户数的阈值。只有两个阈值都满足,才认为在线程度是一个显著特征。因此,先确定当前观看主播直播的用户中在线程度超过预定在线程度阈值(预先根据经验设定)的用户数,然后再判断是否所述用户数超出在线程度对应的用户数阈值(预先根据经验设定),如果是,将在线程度确定为所述群体特征。例如,预定在线程度阈值是36小时。当前观看主播直播的有200个用户,其中180个用户的在线程度是在36小时以上。在线程度对应的用户数阈值是170人。由于180大于170,因此将在线程度确定为所述群体特征。
对于互动程度,对于一个一般的主播,观看其直播的用户中应该既有互动次数多的,也有互动次数少的,但如果当前观看某一个主播的用户中互动程度绝大多数都很高,这时互动程度是当前观看主播直播的用户的群体具有的区别于其它群体的一个显著特征。一般来说,对于户外主播,有可能会出现这种情况。
当前观看某一个主播的用户中互动程度绝大多数都很高,这里涉及两个阈值。第一个阈值是互动程度高的阈值,第二个阈值是互动程度高的用户数的阈值。只有两个阈值都满足,才认为互动程度是一个显著特征。因此,先确定当前观看主播直播的用户中互动程度超过预定互动程度阈值(预先根据经验设定)的用户数,然后再判断是否所述用户数超出互动程度对应的用户数阈值(预先根据经验设定),如果是,将互动程度确定为所述群体特征。例如,预定互动程度阈值是58次。当前观看主播直播的有200个用户,其中150个用户的互动程度是在58次以上。互动程度对应的用户数阈值是140人。由于150大于140,因此将互动程度确定为所述群体特征。
对于最常上线时间段,对于一个一般的主播,观看其直播的用户中可能最常上线时间段落在各个时间段的用户都有,且落在各个时间段的用户分布应该符合人类作息规律。例如,在晚上19:00-24:00有空上线的人可能会多一些,因此最常上线时间段落在晚上18:00-20:00、20:00-22:00、22:00-24:00这三个时间段的用户一般会比其它时间段多一些。因此,每个特定最常上线时间段都对应有一个用户数阈值,其中18:00-20:00、20:00-22:00、22:00-24:00这三个时间段的用户数阈值可能较高。因此,一旦当前观看主播直播的用户中具有特定最常上线时间段的用户数超出特定最常上线时间段对应的用户数阈值,说明当前观看主播直播的用户中有很多用户都喜欢在该特定最常上线时间段上线,该特定最常上线时间段可以被确定为群体特征。
例如,当前观看某主播直播的用户有1000个,其中850个的最常上线时间段是0:00:00-2:00:00,0:00:00-2:00:00对应的用户数阈值为500。由于850大于500,0:00:00-2:00:00这个特定最常上线时间段可以被确定为群体特征。
对于经常上线时间段,对于一个一般的主播,观看其直播的用户中可能经常上线时间段落在各个时间段的用户都有,且落在各个时间段的用户分布应该符合人类作息规律。例如,在晚上19:00-24:00有空上线的人可能会多一些,因此经常上线时间段落在晚上18:00-20:00、20:00-22:00、22:00-24:00这三个时间段的用户一般会比其它时间段多一些。因此,每个上线时间段都对应有一个用户数阈值,其中18:00-20:00、20:00-22:00、22:00-24:00这三个时间段的用户数阈值可能较高。因此,对于经常上线时间段中的特定上线时间段,一旦当前观看主播直播的用户中具有该特定上线时间段作为经常上线时间段之一的用户数超出特定经常上线时间段对应的用户数阈值,将该特定上线时间段确定为所述群体特征。
例如,当前观看某主播直播的用户有1000个,其中850个的经常上线时间段中有0:00:00-2:00:00,0:00:00-2:00:00对应的用户数阈值为500。由于850大于500,0:00:00-2:00:00这个特定上线时间段可以被确定为群体特征。
对于性别,如果当前观看主播直播的用户中特定性别的用户数超过性别对应的用户数阈值,将该特定性别确定为所述群体特征。
例如,用户数阈值为800。当前观看某主播直播的用户有1000个,其中900个是男性。由于900大于800,则将性别男确定为群体特征。
对于关注主播标签中的特定标签,如果当前观看主播直播的用户中具有该特定标签作为关注主播标签之一的用户数超出关注主播标签对应的用户数阈值,将该特定标签确定为所述群体特征。
例如,当前观看某主播直播的用户有1000个,其中920个的用户的关注直播标签之一为“颜值”,关注主播标签对应的用户数阈值为900。由于920大于900,则将“颜值”确定为当前观看主播直播的用户的群体特征。
以上描述了步骤320中,基于所述个体特征,确定当前观看主播直播的用户的群体特征的一种实施方式。它针对个体特征中的每一个体子特征,逐一按照相应的阈值,判断该个体子特征能否作为当前观看主播直播的用户的群体特征。它着眼于当前观看主播直播的用户的整体,进行群体特征的确定。
在本公开的另一实施方式中,先将当前观看主播直播的用户聚类,然后对于每一类分别确定该类的群体特征,并根据每一类的群体特征,确定当前观看主播视频的用户的群体特征。这种实施方式利用聚类的方式,确定的当前观看主播视频的用户的群体特征更准确。原因是:在当前观看主播视频的用户中,也有不同的群体,其中有主流群体,还可能有一些偶然看见了主播的直播进来看看的少数群体。而这些用户的主流群体的群体特征才是反映当前主播是一个什么样的主播的关键因素。而且,主流群体也可以是多股不同特点的主流子群体合成的。例如,观看颜值主播的人,有一群用户属于泛泛颜值控,只要颜值高的主播其都喜欢看;还有一群人纯粹是因为喜欢当前主播的颜值而观看。这两个子群体在直播观看行为中表现出一些不同的特点。很显然,后者对于当前主播的粘着度更好。因此,在该实施方式中,先对当前观看主播视频的用户聚类,对于聚成的类,确定该类的用户的群体特征,将各类的用户的群体特征聚合成当前观看主播视频的用户的群体特征,这样得到的当前观看主播视频的用户的群体特征描述群体更加准确,从而提高了主播标签建立准确率。
因此,如图6所示,在一个实施例中,步骤320包括:
步骤3201、基于所述个体特征,对当前观看主播视频的用户进行聚类;
步骤3202、对于聚成的类,确定该类的用户的群体特征;
步骤3203、将各类的用户的群体特征聚合成当前观看主播视频的用户的群体特征。
下面对这些步骤具体进行描述。
在步骤3201中,基于所述个体特征,对当前观看主播视频的用户进行聚类。
聚类是将特征向量按照特征向量的距离聚成多个类的过程。因此,在该实施例中,先要用个体特征包含的多个个体子特征(如上所述的消费程度、在线程度、互动程度、最常上线时间段等)构造个体特征向量。个体特征包含几个个体子特征,就构造出几维的个体特征向量。个体特征向量中的每个个体子特征叫做一个维度。所述个体特征包括多个维度的个体子特征构成的个体特征向量。
在一个实施例中,如图7所示,步骤3201包括:
步骤32011、从当前观看主播视频的用户中选择预定数目个用户,该预定数目个用户的个体特征向量为聚类中心点;
步骤32012、对于当前观看主播视频的用户中除聚类中心点外的用户,确定该用户的个体特征向量与各聚类中心点的个体特征向量的距离;
步骤32013、将该用户聚集到所述距离最短的聚类中心点的类中;
步骤32014、将每类中聚集的用户的个体特征向量取平均,作为重新确定的聚类中心点;
步骤32015、确定当前观看主播视频的用户的个体特征向量与各聚类中心点的个体特征向量的距离;
步骤32016、将用户重新聚集到所述距离最短的聚类中心点的类中,直到满足预定条件聚类结束。
下面对这些步骤分别描述。
在步骤32011中,从当前观看主播视频的用户中选择预定数目个用户,该预定数目个用户的个体特征向量为聚类中心点。该预定数目是打算聚成的类的数目,要聚成多少类,就选择多少个用户。由于用户的个体特征向量是一个预定数目维度的个体特征向量,其包含预定数目个个体子特征(例如包含消费程度、在线程度、最常上线时间段三个个体子特征),因此,可以将其看成是一个n维向量空间中的一个坐标点。例如,某个用户的消费程度为255元,在线程度为4.5个小时,最常上线时间段为20:00:00-22:00:00,则其个体特征向量为(255,4.5,20:00:00-22:00:00)。聚类中心点就是选取的预定数目个用户在n维个体特征向量空间中的坐标点。
在步骤32012中,由于将每个用户的个体特征向量看作是n维个体特征向量空间中的一个点,这些用户与上述聚类中心点的用户的聚类就转化成了这些用户各自的个体特征向量在n维个体特征向量空间中的点与聚类中心点的距离问题。该距离越近,说明两个用户在主播观看行为方面越相似。因此,对于当前观看主播视频的用户中除聚类中心点外的用户,可以确定该用户的个体特征向量与各聚类中心点的个体特征向量在n维个体特征向量空间中的距离。
在步骤32013中,将该用户聚集到所述距离最短的聚类中心点的类中。例如,聚类中心点有3个,用户的个体特征向量与每个聚类中心点的个体特征向量之间可以计算出一个距离,将该用户聚类到在3个距离中最小的距离对应的聚类中心点的类。最后,所有用户聚类到3类。
在步骤32014中,将每类中聚集的用户的个体特征向量取平均,作为重新确定的聚类中心点。
在一个实施例中,将每类中聚集的用户的个体特征向量取平均包括:
对于个体特征向量中消费程度、在线程度、互动程度中的任一个个体子特征,将每类聚集的用户的该个体子特征的平均值作为平均后的个体特征向量中的相应子特征;
对于个体特征向量中最常上线时间段、经常上线时间段、性别、关注主播标签中的任一个个体子特征,将每类中聚集的用户中具有的最多的特定个体子特征,作为平均后的个体特征向量中的相应子特征。
如上所述,消费程度、在线程度、互动程度这些个体子特征是可以量化的,可以针对每类聚类的用户的这些个体子特征之一,计算平均值,作为平均后的个体特征向量中的相应子特征。例如,某一类中聚集了3个用户。第一个用户的消费程度为210元,在线程度为6小时,互动程度为5.1次。第二个用户的消费程度为200元,在线程度为8小时,互动程度为4.9次。第三个用户的消费程度为190元,在线程度为7小时,互动程度为5次。因此,平均后的个体特征向量中,消费程度这个子特征为(210+200+190)/3=200(元),在线程度这个子特征为(6+8+7)/3=7(小时),互动程度这个子特征为(5.1+4.9+5)/3=5(次)。
然而,个体特征向量中最常上线时间段、经常上线时间段、性别、关注主播标签这些个体子特征是无法量化的,它们不是一个数值,而是字符串。个体特征向量所取的特定字符串就是特定个体特征向量。例如,最常上线时间段是0:00:00-2:00:00时,0:00:00-2:00:00就是特定个体特征向量。每类聚类的用户中每个用户都有一个特定个体特征向量。例如,对于最常上线时间段来说,有的用户的特定最常上线时间段是0:00:00-2:00:00,有的用户的特定最常上线时间段是2:00:00-4:00:00。在每类聚类的用户具有的最多的特定个体子特征,就是每类聚类的用户的该个体子特征中最普遍的特定个体子特征,将其确定为平均后的个体特征向量中的相应子特征。例如,某一类聚集有3个用户,其中2个用户的最常上线时间段是20:00:00-22:00:00,1个用户的最常上线时间段是18:00:00-20:00:00,因此,将20:00:00-22:00:00作为平均后的个体特征向量中的最常上线时间段这个特征子向量。
重新确定聚类中心点的意义在于,由于最初的聚类中心点是随机选择的,从计算出的当前观看主播视频的用户中除聚类中心点外的用户与各聚类中心点的个体特征向量的距离可以看出,一些随机选择的聚类中心点并不适合作为聚类中心点,因此,要按照每类中聚集的用户的个体特征向量的平均,重新确定聚类中心点。
在步骤32015中,确定当前观看主播视频的用户的个体特征向量与各聚类中心点的个体特征向量的距离可以参照步骤32012的方法。因为聚类中心点是重新确定的,当前观看主播视频的用户的个体特征向量与各聚类中心点的个体特征向量的距离也需要重新确定。
在步骤32016中,将用户重新聚集到所述距离最短的聚类中心点的类中,直到满足预定条件聚类结束。将用户重新聚集到所述距离最短的聚类中心点的类中,可以参照步骤32013的方法。
在一个实施例中,所述预定条件包括:当前聚成的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值的平均值小于第一阈值。
该实施例主要是考虑,由于重新聚类,聚成的每个类中用户数目可能发生变化,每个类都有一个用户数目变化差值。这些变化差值的绝对值越大,说明当前聚成的类与前一次聚成的类包含的用户仍然相差很大,聚类并没有达到稳定,因此,要让当前聚成的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值的平均值足够小,才认为聚类已经稳定,聚类结束。
第一阈值是预先根据经验确定的。
例如,当前观看主播视频的用户有100个,前一次聚成3类,每类的用户数分别是64、25、11,重新聚类后,每类的用户数分别为68、22、10,当前聚成的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值的平均值=(∣68-64∣+∣22-25∣+∣10-11∣)/3=(4+3+1)/3=2.67。如果第一阈值为3,则满足预定条件,认为聚类已经稳定,聚类结束。
在另一个实施例中,所述预定条件包括:当前聚成的用户数目最多的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值小于第二阈值。
该实施例的好处在于,它不是对当前聚成的每个类中的用户数目与前一次聚成的相应类中的用户数目的差值进行控制,而是控制这些类中用户数目最多的一个类,让其包含的用户数目的差值绝对值小于第二阈值。在实践中,发明人发现,让这些类中用户数目最多的一个类达到稳定,比让所有类达到稳定,更为重要,因为用户数目最多的一个类才是最大程度反映了主播的特点的一个类,因此,这个类在确定当前观看主播视频的用户的群体特征时意义更大。因此,控制这些类中用户数目最多的一个类的用户数目稳定性,比泛泛对每个类的用户数数目稳定性进行控制,效果更佳。
第二阈值是预先根据经验确定的。
例如,当前观看主播视频的用户有100个,前一次聚成3类,每类的用户数分别是64、25、11,重新聚类后,每类的用户数分别为68、22、10。聚成的用户数目最多的是用户数为68的这个类,其用户数目与前一次聚成的相应类中的用户数目的差值绝对值为4。假设第二阈值为3,则不满足预定条件,认为聚类没有稳定,要继续重新聚类。
在一个实施例中,所述个体特征向量由多个维度的归一化后个体子特征构成。归一化是指对于数值型个体子特征,例如消费程度、在线程度、互动程度,用该数值型个体子特征除以某一基准,从而使个体子特征变成在不同用户之间可比较的相对数值。
在一个实施例中,该某一基准可以是针对特定数值型个体子特征,预先确定的数值基准。例如,对于消费程度,预先设置数值基准为10000元;对于在线程度,预先设置数值基准为10小时;对于互动程度,预先设置数值基准为100次。假设用户的个体特征向量中,消费程度这个个体子特征为1200元,归一化后个体子特征为1200/10000=12%;在线程度这个个体子特征为6.5小时,归一化后个体子特征为6.5/10=65%;互动程度这个个体子特征为15次,归一化后个体子特征为15/100=15%。
在另一个实施例中,该某一基准是所有用户的该个体子特征的最大值。也就是说,所述归一化后个体子特征为用户的个体子特征与所有用户的该个体子特征的最大值的比值。这里的所有用户不仅限于当前观看当前主播直播的用户,其包括所有观看过该直播网站或直播应用的用户。用所有用户的该个体子特征的最大值作为基准,相对于采用预先确定的数值基准的方案,具有的好处是,使得该基准实时性随着所有用户观看的行为的变化而动态变化,因而实时反映了当前用户的观看直播行为,在所有用户的观看直播行为中所处的地位的变化。因此,该实施例相对于采用预先确定的数值基准的方案,能够提高建立主播标签的准确性。
例如,对于消费程度,所有用户的消费程度的最大值为5000元;对于在线程度,所有用户的在线程度的最大值为50小时;对于互动程度,所有用户的互动程度的最大值是50次。假设用户的个体特征向量中,消费程度这个个体子特征为1200元,归一化后个体子特征为1200/5000=24%;在线程度这个个体子特征为6.5小时,归一化后个体子特征为6.5/50=13%;互动程度这个个体子特征为15次,归一化后个体子特征为15/50=30%。
在一个实施例中,在所述个体特征向量由多个维度的归一化后个体子特征构成的情况下,步骤32012、32015中提到的用户的个体特征向量与各聚类中心点的个体特征向量的距离为用户的各个维度的归一化后个体子特征与聚类中心点的相应维度的归一化后个体子特征的差的平方和的平方根。
例如,个体特征向量由归一化后消费程度、归一化后在线程度、归一化后互动程度构成。假设用户的归一化后消费程度、归一化后在线程度、归一化后互动程度分别为24%、13%、30%,聚类中心点的归一化后消费程度、归一化后在线程度、归一化后互动程度分别为20%、10%、25%,用户的各个维度的归一化后个体子特征与聚类中心点的相应维度的归一化后个体子特征的差的平方和为(24%-20%)2+(13%-10%)2+(30%-25%)2=0.005,其平方根为7.07%。该用户的个体特征向量与聚类中心点的个体特征向量的距离为7.07%。
在一个实施例中,所述个体特征向量由多个维度的字符串个体子特征构成。字符串个体子特征包括如上所述的最常上线时间段、经常上线时间段、性别、关注主播标签等。它们无法用具体数值来表示,只能用字符串(例如2:00:00-4:00:00)来表示,因此,也无法归一化。
在一个实施例中,对于这些字符串个体子特征构成的个体特征向量,步骤32012、32015中提到的用户的个体特征向量与各聚类中心点的个体特征向量的距离为用户的各个维度的字符串个体子特征与聚类中心点的相应维度的字符串个体子特征的匹配得分的平方和的平方根。
在一个实施例中,对于最常上线时间段,可以按如下方式确定用户的最常上线时间段与聚类中心点的最常上线时间段的匹配得分:
确定用户的最常上线时间段与聚类中心点的最常上线时间段中间间隔的时间段数量;
按照间隔的时间段数量,查找间隔时间段数量与匹配得分对应关系表,获得匹配得分。
如果用户的最常上线时间段与聚类中心点的最常上线时间段重合,则用户的最常上线时间段与聚类中心点的最常上线时间段中间间隔的时间段数量为0。如果用户的最常上线时间段与聚类中心点的最常上线时间段间隔了1个时间段,则用户的最常上线时间段与聚类中心点的最常上线时间段中间间隔的时间段数量为1。如果用户的最常上线时间段与聚类中心点的最常上线时间段间隔了2个时间段,则用户的最常上线时间段与聚类中心点的最常上线时间段中间间隔的时间段数量为2。例如,假设用户的最常上线时间段为6:00:00-8:00:00,聚类中心点的最常上线时间段是12:00:00-14:00:00,则认为它们间隔了8:00:00-10:00:00和10:00:00-12:00:00两个时间段,用户的最常上线时间段与聚类中心点的最常上线时间段中间间隔的时间段数量为2。
间隔时间段数量与匹配得分对应关系表的一个示例如下表:
间隔时间段数量 | 匹配得分 |
0 | 0 |
1 | 0.2 |
2 | 0.4 |
3 | 0.6 |
4 | 0.8 |
5以上 | 1 |
表5间隔时间段数量与匹配得分对应关系表的示例
假设用户的最常上线时间段为6:00:00-8:00:00,聚类中心点的最常上线时间段是12:00:00-14:00:00,它们之间间隔了2个时间段,匹配得分为0.4。
在一个实施例中,对于经常上线时间段,可以按如下方式确定用户的经常上线时间段与聚类中心点的经常上线时间段的匹配得分:
如果用户的经常上线时间段与聚类中心点的经常上线时间段完全没有重合,则匹配得分为1;
如果用户的经常上线时间段与聚类中心点的经常上线时间段至少有一个时间段重合,则匹配得分=1-(用户的经常上线时间段与聚类中心点的经常上线时间段中重合的时间段数×2)/(用户的经常上线时间段数+聚类中心点的经常上线时间段数)。
例如,用户的经常上线时间段只有一个,聚类中心点的经常上线时间段也只有一个,则匹配得分=1-(1×2)/(1+1)=0;再例如,用户的经常上线时间段只有一个,聚类中心点的经常上线时间段有2个,其中一个与用户的经常上线时间段重合,则匹配得分=1-(1×2)/(1+2)=0.33;再例如,聚类中心点的经常上线时间段只有一个,用户的经常上线时间段有2个,其中一个与聚类中心点的经常上线时间段重合,则匹配得分=1-(1×2)/(2+1)=0.33;再例如,聚类中心点的经常上线时间段有2个,用户的经常上线时间段也有2个,其中聚类中心点的一个经常上线时间段与用户的一个警察上线时间段重合,则匹配得分=1-(1×2)/(2+2)=0.5。
在一个实施例中,对于性别,可以按如下方式确定用户的性别与聚类中心点的性别的匹配得分:
如果用户的性别与聚类中心点的用户性别一致,则匹配得分为0;如果用户的性别与聚类中心点的用户性别不一致,则匹配得分为1。
在一个实施例中,对于关注主播标签,可以按如下方式确定用户的关注主播标签与聚类中心点的关注主播标签的匹配得分:
如果用户的关注主播标签与聚类中心点的关注主播标签完全没有重合,则匹配得分为1;
如果用户的关注主播标签与聚类中心点的关注主播标签至少有一个标签重合,则匹配得分=1-(用户的关注主播标签与聚类中心点的关注主播标签中重合的标签数×2)/(用户的关注主播标签数+聚类中心点的关注主播标签数)。
例如,用户的关注主播标签只有一个,聚类中心点的关注主播标签也只有一个,则匹配得分=1-(1×2)/(1+1)=0;再例如,用户的关注主播标签只有一个,聚类中心点的关注主播标签有2个,其中一个与用户的关注主播标签重合,则匹配得分=1-(1×2)/(1+2)=0.33;再例如,聚类中心点的关注主播标签只有一个,用户的关注主播标签有2个,其中一个与聚类中心点的关注主播标签重合,则匹配得分=1-(1×2)/(2+1)=0.33;再例如,聚类中心点的关注主播标签有2个,用户的关注主播标签也有2个,其中聚类中心点的一个关注主播标签与用户的一个关注主播标签重合,则匹配得分=1-(1×2)/(2+2)=0.5。
在另一个实施例中,所述个体特征向量由第一数量维度的归一化后个体子特征和第二数量维度的字符串个体子特征构成。
所述距离为用户的各第一数量维度的归一化后个体子特征与聚类中心点的相应维度的归一化后个体子特征的差的平方和、加上各第二数量维度的字符串个体子特征与聚类中心点的相应维度的字符串个体子特征的匹配得分的平方和的相加结果的的平方根。
例如,个体特征向量由归一化的消费程度、归一化的在线程度、归一化的互动程度、最常上线时间段、关注主播标签这5个个体子特征构成。前3个属于归一化后个体子特征,后2个属于字符串个体子特征。第一数量为3,第二数量为2。
假设用户的归一化后消费程度、归一化后在线程度、归一化后互动程度分别为24%、13%、30%,聚类中心点的归一化后消费程度、归一化后在线程度、归一化后互动程度分别为20%、10%、25%,则用户的各第一数量维度的归一化后个体子特征与聚类中心点的相应维度的归一化后个体子特征的差的平方和为(24%-20%)2+(13%-10%)2+(30%-25%)2=0.005。假设用户的最常上线时间段与聚类中心点的最常上线时间段的匹配得分为0.05,用户的关注主播标签与聚类中心点的关注主播标签的匹配得分为0.05,则各第二数量维度的字符串个体子特征与聚类中心点的相应维度的字符串个体子特征的匹配得分的平方和为0.052+0.052=0.005。两个平方和的相加结果为0.01,平方根后得到0.1。因此,所述距离为0.1。
在步骤3203中,对于聚成的类,确定该类的用户的群体特征。
在一个实施例中,步骤3203包括:仅对聚成的类中用户数目超过预定用户数目阈值的类,确定该类的用户的群体特征。
聚成的类中用户数目多的类,往往代表了主流群体,它们是经常来看当前主播的表演的一群用户。聚成的类中用户数目少的类,往往是一些偶然性群体,它们常常是一些偶然看见了主播的直播进来看看的用户组成的少数群体。而这些用户的主流群体的群体特征才是反映当前主播是一个什么样的主播的关键因素。聚成的类中用户数目超过预定用户数目阈值,代表其可能是主流群体。因此,仅对聚成的类中用户数目超过预定用户数目阈值的类,确定该类的用户的群体特征的好处是,剔除了偶然性群体对于主播标签建立的干扰,提高主播标签建立的准确性。
如图14所示,在所述个体特征包括归一化后个体子特征的情况下,步骤3202包括:
步骤32021、确定该类中特定归一化后个体子特征超过预定子特征阈值的用户数;
步骤32022、如果所述用户数超出第一用户数阈值,将该特定归一化后个体子特征确定为所述群体特征。
特定归一化后个体子特征是指归一化的消费程度、归一化的在线程度、归一化的互动程度等中的任意一项。
由于归一化后个体子特征都是数值型的,可以通过两个阈值的比较来确定群体特征,即先用户的归一化后个体子特征与预定子特征阈值比较,确定该类中特定归一化后个体子特征超过预定子特征阈值的用户数,然后在将所述用户数与第一用户数阈值比较,如果超出,则将该特定归一化后个体子特征确定为所述群体特征。
对于一个一般的主播,观看其直播的用户中应该既有特定归一化后个体子特征(例如归一化的消费程度)高的,也有低的,但如果当前观看某一个主播的用户的某一类中,绝大多数用户的特定归一化后个体子特征(例如归一化的消费程度)都很高,这时该特定归一化后个体子特征(例如归一化的消费程度)是该类区别于其它类的一个显著特征。
绝大多数用户的特定归一化后个体子特征(例如归一化的消费程度)都很高,这里涉及两个阈值。第一个阈值是特定归一化后个体子特征高的阈值,即预定子特征阈值;第二个阈值是特定归一化后个体子特征高的用户数的阈值,即第一用户数阈值。只有两个阈值都满足,才认为该特定归一化后个体子特征是一个显著特征。例如,对于消费程度来说,预定子特征阈值是1800元。该类中有200个用户,其中170个用户的消费程度是在1800元以上。第一用户数阈值是150人。由于170大于150,因此将消费程度确定为该类的群体特征。
该实施例的好处是,当前观看某一个主播的用户的某一类中,绝大多数用户的特定归一化后个体子特征(例如归一化的消费程度)都很高,往往是说明这一类的用户比较特殊,用其来识别主播的类型,给主播打标签,能提高打标签的准确性。
另外,在一个实施例中,步骤32022可以包括:
如果该类中为多个特定归一化后个体子特征确定出的所述用户数都超出第一用户数阈值,将多个特定归一化后个体子特征中、确定出的用户数从大到小前预定名次的归一化后个体子特征,确定为所述群体特征。
该实施例的好处是,如果当前观看某一个主播的用户的某一类中,绝大多数用户的多个特定归一化后个体子特征(例如归一化的消费程度、归一化的互动程度、归一化的在线程度)都很高,仅选取少量特定归一化后个体子特征就能代表这一类群体的特点。将这些特定归一化后个体子特征全部选出,增大处理开销。实际上,对于某些类型的主播,例如颜值主播,在用户消费程度普遍都高的情况下,往往用户的互动程度普遍也都高,用户的在线程度普遍也不低。将这些个体子特征都选出,没有多大意义。因此,该实施例在该类中为多个特定归一化后个体子特征确定出的所述用户数都超出第一用户数阈值的情况下,仅将多个特定归一化后个体子特征中、确定出的用户数从大到小前预定名次的归一化后个体子特征,确定为所述群体特征,有利于减少确定的群体特征,在不影响打标签准确率的情况下,减小处理开销。
如图15所示,在所述个体特征包括字符串个体子特征的情况下,步骤3202包括:
步骤32021a、确定该类中具有特定字符串个体子特征的用户数;
步骤32022a、如果所述用户数超出第二用户数阈值,将该字符串个体子特征确定为所述群体特征。
特定字符串个体子特征是指取值为特定字符串的个体子特征。例如0:00:00-2:00:00就是最常上线时间段的一个特定字符串个体子特征。如果该类中,最常上线时间段为0:00:00-2:00:00的用户数超出第二用户数阈值,该类的用户很可能是痴迷于游戏的用户,将0:00:00-2:00:00作为这个群体的特征,使该群体与其它群体区别开,非常重要。也就是说,对于字符串个体子特征而言,例如对于最常上线时间段,其每个特定字符串个体子特征,例如0:00:00-2:00:00、2:00:00-4:00:00、4:00:00-6:00:00……都有可能其用户数超过第二用户数阈值,因此,都有可能被确定为群体特征。例如,可能把0:00:00-2:00:00和18:00:00-20:00:00同时确定为某个类的群体特征。
另外,在一个实施例中,步骤32022a可以包括:
如果该类中为多个特定字符串个体子特征确定出的所述用户数都超出第二用户数阈值,将多个特定字符串个体子特征中、确定出的用户数从大到小前预定名次的字符串个体子特征,确定为所述群体特征。
该实施例的好处是,如果当前观看某一个主播的用户的某一类中,绝大多数用户的多个特定字符串个体子特征(例如0:00:00-2:00:00、2:00:00-4:00:00、4:00:00-6:00:00)都很高,仅选取少量特定字符串个体子特征就能代表这一类群体的特点。将这些特定字符串个体子特征全部选出,增大处理开销。实际上,对于某些类型的主播,例如游戏主播,其用户往往在后半夜在线,0:00:00-2:00:00、2:00:00-4:00:00、4:00:00-6:00:00自然都会很活跃,将这些特定个体子特征都选出,没有多大意义。因此,该实施例在该类中为多个特定字符串个体子特征确定出的所述用户数都超出第二用户数阈值的情况下,仅将多个特定字符串个体子特征中、确定出的用户数从大到小前预定名次的字符串个体子特征,确定为所述群体特征,在不影响打标签准确率的情况下,减小处理开销。
在步骤3203中,将各类的用户的群体特征聚合成当前观看主播直播的用户的群体特征。
在一个实施例中,将每一类的用户的全部群体特征聚合成当前观看主播直播的用户的群体特征。例如,聚类成2个类。第一个类中得到三个群体特征“消费程度”、“0:00:00-2:00:00”、“互动程度”,第二个类中得到两个群体特征“消费程度”、“在线程度”,则聚合成的当前观看主播直播的用户的群体特征为“消费程度””、“在线程度”、“互动程度”、“0:00:00-2:00:00”。
为了防止每个类中得到群体特征过多,导致聚合成的当前观看主播直播的用户的群体特征也过多的情况发生,在一个实施例中,对于各类中的每一群体特征,确定在当前观看主播直播的用户中的匹配用户数量是否足够,如果太少则不采用该群体特征。即,在该实施例中,如图16所示,步骤3203包括:
对于各类中的每一群体特征,确定在当前观看主播直播的用户中的匹配用户,其中所述匹配用户是归一化后个体子特征和/或字符串个体子特征与该群体特征匹配的用户;
将匹配用户数量超过预定匹配用户数量阈值的群体特征,聚合成当前观看主播直播的用户的群体特征。
例如,当前观看主播直播的用户有50个,其中分成2个类,第一个类有35个用户,得到三个群体特征“消费程度”、“0:00:00-2:00:00”、“互动程度”。第二个有15个用户,得到两个群体特征“消费程度”、“在线程度”。
对于“消费程度”,50个用户中有42个用户的归一化后个体子特征和/或字符串个体子特征与其匹配。
对于“在线程度”,50个用户中有21个用户的归一化后个体子特征和/或字符串个体子特征与其匹配。
对于“互动程度”,50个用户中有19个用户的归一化后个体子特征和/或字符串个体子特征与其匹配。
对于“0:00:00-2:00:00”,50个用户中有31个用户的归一化后个体子特征和/或字符串个体子特征与其匹配。
假设预定匹配用户数量阈值为30,匹配用户数量超过预定匹配用户数量阈值的群体特征是“消费程度”、“0:00:00-2:00:00”。聚合成的当前观看主播直播的用户的群体特征是“消费程度”、“0:00:00-2:00:00”。
该实施例的好处是,在不影响标签建立效果的前提下,减少处理开销。
在步骤330中,基于所述群体特征,为主播建立标签。
在一个实施例中,如果确定出的当前观看主播直播的用户的群体特征有多个,则如图17所示,步骤330包括:
步骤3301、基于每个群体特征,查找单群体特征单标签对应关系表,获得相应标签;
步骤3302、将为多个群体特征获得的标签整合。
单群体特征单标签对应关系表中,一个群体特征只能与一个标签相对应。下表是一个单群体特征单标签对应关系表的示例:
群体特征 | 标签 |
消费程度 | 颜值 |
在线程度 | 游戏 |
互动程度 | 户外 |
0:00:00-2:00:00 | 游戏 |
…… | …… |
表6单群体特征单标签对应关系表的示例
假设步骤320得到的群体特征包括“消费程度”、“在线程度”、“0:00:00-2:00:00”,查表6得到对应的标签是“颜值”、“游戏”、“游戏”。整合后的标签为“颜值”、“游戏”。
在一个实施例中,如果确定出的当前观看主播直播的用户的群体特征有多个,则步骤330包括:
基于所述多个群体特征,查找多群体特征单标签对应关系表,获得单个标签。
多群体特征单标签对应关系表中,多个群体特征与一个标签相对应。下表是一个多群体特征单标签对应关系表的示例:
表7多群体特征单标签对应关系表的示例
假设步骤320得到的群体特征包括“消费程度”、“在线程度”、“0:00:00-2:00:00”,查表7得到对应的标签是“游戏”。
该实施例的优点是:在实践中,往往需要将多个群体特征结合,推定一个标签,这样得到的标签准确性更高,避免了由一个群体特征推导出一个标签时的武断。
在一个实施例中,如果确定出的当前观看主播直播的用户的群体特征有多个,且来自多类,则如图18所示,步骤330包括:
为每一类中的群体特征,查找群体特征与单标签对应关系表,获得该类的单个标签;
将为多类获得的标签整合。
也就是说,每一类得到一个标签,然后将多类获得的标签整合。该实施例的好处是,由于每一类的用户具有一些共性,各类用户之间相对比较独立,因此,针对每一类的用户,得到一个标签,再将这些标签整合,既避免得到太多标签造成网络处理负担过重,又保证了标签具有代表性,提高打标签准确性。
群体特征单标签对应关系表中,可以是多个群体特征与一个标签相对应,也可以是一个群体特征与一个标签相对应。下表是一个群体特征单标签对应关系表的示例:
群体特征 | 标签 |
在线程度、0:00:00-2:00:00 | 游戏 |
消费程度 | 颜值 |
…… | …… |
表8群体特征单标签对应关系表的示例
假设步骤320得到的群体特征包括“消费程度”、“在线程度”、“0:00:00-2:00:00”,其中“消费程度”来自一个类,“在线程度”、“0:00:00-2:00:00”来自另一个类。因此,查找表8,整合后的标签为“游戏”、“颜值”。
在一个实施例中上述单群体特征单标签对应关系表、多群体特征单标签对应关系表、以及群体特征与单标签对应关系表、以及如上所述的各种阈值可以维护在图4的配置文件库203中,供直播网络界面引擎接口202需要时调用。
由于直播的发展非常迅速,可能会不断产生新的直播形式,上述单群体特征单标签对应关系表、多群体特征单标签对应关系表、以及群体特征与单标签对应关系表中已经配置的标签有可能产生不足够的情况,因此,为了适应新的直播形式,本公开实施例通过用户反馈来增加新的标签。
在一个实施例中,在步骤330之后,如图19所示,所述方法还包括:
步骤340a、接收对建立的标签的用户反馈;
步骤340b、响应于接收到预定次数以上的、指示将标签修改成所述单群体特征单标签对应关系表、或多群体特征单标签对应关系表、或群体特征与单标签对应关系表中未包含的替代标签的用户反馈,将该替代标签、以及所述预定次数以上的用户反馈所针对的标签基于的群体特征,相对应地增加到所述单群体特征单标签对应关系表、或多群体特征单标签对应关系表、或群体特征与单标签对应关系表中。
如果直播中产生了一种新的直播形式,按照步骤310-330,会为其分配一个已经配置好的标签,但是,如果观看的用户觉得该标签不是很贴切,则会在界面的适当位置输入反馈,在反馈中写明应分配的替代标签,该替代标签是所述单群体特征单标签对应关系表、或多群体特征单标签对应关系表、或群体特征与单标签对应关系表中未包含的,这时,不会立即增加该替代标签作为新标签。因为一个用户的看法可能有主观偏差。但是,如果直播网络界面引擎接口202接收到多个用户的反馈(即接收到预定次数以上的反馈),都指示将标签修改成该同样的替代标签,则该主播可能在做一种新的直播形式,该替代标签可能会更加清楚地反映该直播的类型。在这种情况下,可以将该替代标签加入所述单群体特征单标签对应关系表、或多群体特征单标签对应关系表、或群体特征与单标签对应关系表中。同时,由于在步骤320中,已经获得了当前观看主播视频的用户的群体特征,可以将该群体特征与该替代标签相对应地存储到单群体特征单标签对应关系表、或多群体特征单标签对应关系表、或群体特征与单标签对应关系表中,便于以后在遇到类似的群体特征的情况下,为用户贴该新的标签。
如图20所示,根据本公开的一个实施例,还提供了一种主播标签建立装置,包括:
个体特征确定单元410,用于确定当前观看主播直播的用户的个体特征;
群体特征确定单元420,用于基于所述个体特征,确定当前观看主播直播的用户的群体特征;
标签建立单元430,用于基于所述群体特征,为主播建立标签。
在一个实施例中,所述群体特征确定单元420进一步用于:
基于所述个体特征,对当前观看主播直播的用户进行聚类;
对于聚成的类,确定该类的用户的群体特征;
将各类的用户的群体特征聚合成当前观看主播直播的用户的群体特征。
在一个实施例中,所述个体特征包括多个维度的个体子特征构成的个体特征向量。所述基于所述个体特征,对当前观看主播直播的用户进行聚类,具体包括:
从当前观看主播直播的用户中选择预定数目个用户,该预定数目个用户的个体特征向量为聚类中心点;
对于当前观看主播直播的用户中除聚类中心点外的用户,确定该用户的个体特征向量与各聚类中心点的个体特征向量的距离;
将该用户聚集到所述距离最短的聚类中心点的类中;
将每类中聚集的用户的个体特征向量取平均,作为重新确定的聚类中心点;
确定当前观看主播直播的用户的个体特征向量与各聚类中心点的个体特征向量的距离;
将用户重新聚集到所述距离最短的聚类中心点的类中,直到满足预定条件聚类结束。
在一个实施例中,所述预定条件包括:当前聚成的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值的平均值小于第一阈值。
在一个实施例中,所述预定条件包括:当前聚成的用户数目最多的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值小于第二阈值。
在一个实施例中,所述个体特征向量由多个维度的归一化后个体子特征构成。所述距离为用户的各个维度的归一化后个体子特征与聚类中心点的相应维度的归一化后个体子特征的差的平方和的平方根。
在一个实施例中,所述个体特征向量由多个维度的字符串个体子特征构成。所述距离为用户的各个维度的字符串个体子特征与聚类中心点的相应维度的字符串个体子特征的匹配得分的平方和的平方根。
在一个实施例中,所述个体特征向量由第一数量维度的归一化后个体子特征和第二数量维度的字符串个体子特征构成。所述距离为用户的各第一数量维度的归一化后个体子特征与聚类中心点的相应维度的归一化后个体子特征的差的平方和、加上各第二数量维度的字符串个体子特征与聚类中心点的相应维度的字符串个体子特征的匹配得分的平方和的相加结果的的平方根。
在一个实施例中,所述归一化后个体子特征为用户的个体子特征与所有用户的该个体子特征的最大值的比值。
在一个实施例中,所述个体子特征包括消费程度,所述消费程度为用户的历史消费总金额与历史上单位时间段内平均消费金额的加权和。个体特征确定单元410进一步用于:
获取该用户的历史消费总金额;
获取该用户的历史上单位时间段内平均消费金额;
计算所述历史消费总金额与所述历史上单位时间段内平均消费金额的加权和,作为所述消费程度。
在一个实施例中,所述个体子特征包括在线程度,所述在线程度为用户的历史在线总时长与历史上单位时间段内平均在线时长的加权和。个体特征确定单元410进一步用于:
获取该用户的历史在线总时长;
获取该用户的历史上单位时间段内平均在线时长;
计算所述历史在线总时长与历史上单位时间段内平均在线时长的加权和,作为所述在线程度。
在一个实施例中,所述个体子特征包括互动程度,所述互动程度为用户的历史互动总次数与历史上单位时间段内平均互动次数的加权和。个体特征确定单元410进一步用于:
获取该用户的历史互动总次数;
获取该用户的历史上单位时间段内平均互动次数;
计算所述历史互动总次数与历史上单位时间段内平均互动次数的加权和,作为所述互动程度。
在一个实施例中,所述个体子特征包括最常上线时间段,最常上线时间段是用户在每天各时间段中最经常上线的时间段。个体特征确定单元410进一步用于:
确定该用户历史上在各时间段上线的天数;
将上线天数最多的时间段确定为最常上线时间段。
在一个实施例中,所述个体子特征包括经常上线时间段,经常上线时间段是用户在每天各时间段中上线天数比例超过预定比例阈值的时间段。个体特征确定单元410进一步用于:
确定该用户历史上在各时间段上线的天数;
确定该用户历史上上线的总天数;
基于该用户历史上在各时间段上线的天数、以及该用户历史上上线的总天数,确定该用户历史上在各时间段上线的天数比例;
将所述天数比例超过预定比例阈值的时间段确定为经常上线时间段。
在一个实施例中,所述个体子特征包括关注主播标签,关注主播标签是用户关注的主播中超过预定人数比例都具有的标签。个体特征确定单元410进一步用于:
确定该用户关注的主播;
确定该用户关注的主播具有的标签;
逐个标签地确定关注的主播中具有该标签的人数;
将所述人数占用户关注的主播总人数的比例超过预定人数比例阈值的标签作为关注主播标签。
在一个实施例总,所述群体特征确定单元420进一步用于:
仅对聚成的类中用户数目超过预定用户数目阈值的类,确定该类的用户的群体特征。
在一个实施例中,所述个体特征包括归一化后个体子特征。所述群体特征确定单元420进一步用于:
确定该类中特定归一化后个体子特征超过预定子特征阈值的用户数;
如果所述用户数超出第一用户数阈值,将该特定归一化后个体子特征确定为所述群体特征。
在一个实施例中,所述如果所述用户数超出第一用户数阈值,将该特定归一化后个体子特征确定为所述群体特征,具体包括:
如果该类中为多个特定归一化后个体子特征确定出的所述用户数都超出第一用户数阈值,将多个特定归一化后个体子特征中、确定出的用户数从大到小前预定名次的归一化后个体子特征,确定为所述群体特征。
在一个实施例中,所述个体特征包括字符串个体子特征。所述群体特征确定单元420进一步用于:
确定该类中具有特定字符串个体子特征的用户数;
如果所述用户数超出第二用户数阈值,将该字符串个体子特征确定为所述群体特征。
在一个实施例中,所述如果所述用户数超出第二用户数阈值,将该字符串个体子特征确定为所述群体特征,具体包括:
如果该类中为多个特定字符串个体子特征确定出的所述用户数都超出第二用户数阈值,将多个特定字符串个体子特征中、确定出的用户数从大到小前预定名次的字符串个体子特征,确定为所述群体特征。
在一个实施例中,所述个体特征包括归一化后个体子特征和/或字符串个体子特征。所述将各类的用户的群体特征聚合成当前观看主播直播的用户的群体特征,包括:
对于各类中的每一群体特征,确定在当前观看主播直播的用户中的匹配用户,其中所述匹配用户是归一化后个体子特征和/或字符串个体子特征与该群体特征匹配的用户;
将匹配用户数量超过预定匹配用户数量阈值的群体特征,聚合成当前观看主播直播的用户的群体特征。
在一个实施例中,如果确定出的当前观看主播直播的用户的群体特征有多个,所述标签建立单元430进一步用于:
基于每个群体特征,查找单群体特征单标签对应关系表,获得相应标签;
将为多个群体特征获得的标签整合。
在一个实施例中,如果确定出的当前观看主播直播的用户的群体特征有多个,所述标签建立单元430进一步用于:
基于所述多个群体特征,查找多群体特征单标签对应关系表,获得单个标签。
在一个实施例中,如果确定出的当前观看主播直播的用户的群体特征有多个,且来自多类,所述标签建立单元430进一步用于::
为每一类中的群体特征,查找群体特征与单标签对应关系表,获得该类的单个标签;
将为多类获得的标签整合。
在一个实施例中,所述装置还包括:
用户反馈接收单元(未示),用于接收对建立的标签的用户反馈;
增加单元(未示),用于响应于接收到预定次数以上的、指示将标签修改成所述单群体特征单标签对应关系表、或多群体特征单标签对应关系表、或群体特征与单标签对应关系表中未包含的替代标签的用户反馈,将该替代标签、以及所述预定次数以上的用户反馈所针对的标签基于的群体特征,相对应地增加到所述单群体特征单标签对应关系表、或多群体特征单标签对应关系表、或群体特征与单标签对应关系表中。
根据本公开实施例的主播标签建立方法可以由图4的直播网络界面引擎接口202实现。下面参照图21来描述根据本公开实施例的直播网络界面引擎接口202。图21显示的直播网络界面引擎接口202仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图21所示,直播网络界面引擎接口202以通用计算设备的形式表现。直播网络界面引擎接口202的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图5中所示的各个步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
直播网络界面引擎接口202也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该直播网络界面引擎接口202交互的设备通信,和/或与使得该直播网络界面引擎接口202能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,直播网络界面引擎接口202还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与直播网络界面引擎接口202的其它模块通信。应当明白,尽管图中未示出,可以结合直播网络界面引擎接口202使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
根据本公开的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (26)
1.一种主播标签建立方法,其特征在于,包括:
确定当前观看主播直播的用户的个体特征;
基于所述个体特征,确定当前观看主播直播的用户的群体特征;
基于所述群体特征,查找群体特征与主播标签对应关系表,获得相应标签,将为所述群体特征获得的标签整合,其中,所述群体特征与主播标签对应关系表中,群体特征与主播标签存在映射关系;
基于整合得到的标签,为主播建立标签;其中,所述标签用于用户识别主播的表演类型和风格。
2.根据权利要求1所述的方法,其特征在于,所述基于所述个体特征,确定当前观看主播直播的用户的群体特征,具体包括:
基于所述个体特征,对当前观看主播直播的用户进行聚类;
对于聚成的类,确定该类的用户的群体特征;
将各类的用户的群体特征聚合成当前观看主播直播的用户的群体特征。
3.根据权利要求2所述的方法,其特征在于,所述个体特征包括多个维度的个体子特征构成的个体特征向量,
所述基于所述个体特征,对当前观看主播直播的用户进行聚类,具体包括:
从当前观看主播直播的用户中选择预定数目个用户,该预定数目个用户的个体特征向量为聚类中心点;
对于当前观看主播直播的用户中除聚类中心点外的用户,确定该用户的个体特征向量与各聚类中心点的个体特征向量的距离;
将该用户聚集到所述距离最短的聚类中心点的类中;
将每类中聚集的用户的个体特征向量取平均,作为重新确定的聚类中心点;
确定当前观看主播直播的用户的个体特征向量与各聚类中心点的个体特征向量的距离;
将用户重新聚集到所述距离最短的聚类中心点的类中,直到满足预定条件聚类结束。
4.根据权利要求3所述的方法,其特征在于,所述预定条件包括:当前聚成的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值的平均值小于第一阈值。
5.根据权利要求3所述的方法,其特征在于,所述预定条件包括:当前聚成的用户数目最多的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值小于第二阈值。
6.根据权利要求3所述的方法,其特征在于,所述个体特征向量由第一数量维度的归一化后个体子特征和第二数量维度的字符串个体子特征构成,
所述距离为用户的各第一数量维度的归一化后个体子特征与聚类中心点的相应维度的归一化后个体子特征的差的平方和、加上各第二数量维度的字符串个体子特征与聚类中心点的相应维度的字符串个体子特征的匹配得分的平方和的相加结果的平方根。
7.根据权利要求6所述的方法,其特征在于,所述归一化后个体子特征为用户的个体子特征与所有用户的该个体子特征的最大值的比值。
8.根据权利要求2所述的方法,其特征在于,所述对于聚成的类,确定该类的用户的群体特征,包括:
仅对聚成的类中用户数目超过预定用户数目阈值的类,确定该类的用户的群体特征。
9.根据权利要求2所述的方法,其特征在于,所述个体特征包括归一化后个体子特征,
所述对于聚成的类,确定该类的用户的群体特征,包括:
确定该类中特定归一化后个体子特征超过预定子特征阈值的用户数;
如果所述用户数超出第一用户数阈值,将该特定归一化后个体子特征确定为所述群体特征。
10.根据权利要求2所述的方法,其特征在于,所述个体特征包括字符串个体子特征,
所述对于聚成的类,确定该类的用户的群体特征,包括:
确定该类中具有特定字符串个体子特征的用户数;
如果所述用户数超出第二用户数阈值,将该特定字符串个体子特征确定为所述群体特征。
11.根据权利要求2所述的方法,其特征在于,如果确定出的当前观看主播直播的用户的群体特征有多个,且来自多类,所述基于所述群体特征,查找群体特征与主播标签对应关系表,获得相应标签,将为所述群体特征获得的标签整合,包括:
为每一类中的群体特征,查找群体特征与单标签对应关系表,获得该类的单个标签;
将为多类获得的标签整合。
12.根据权利要求1-11中任一项所述的方法,其特征在于,在基于整合得到的标签,为主播建立标签之后,所述方法还包括:
接收对建立的标签的用户反馈;
响应于接收到预定次数以上的、指示将标签修改成所述群体特征与单标签对应关系表中未包含的替代标签的用户反馈,将该替代标签、以及所述预定次数以上的用户反馈所针对的标签基于的群体特征,相对应地增加到所述群体特征与单标签对应关系表中。
13.一种主播标签建立装置,其特征在于,包括:
个体特征确定单元,用于确定当前观看主播直播的用户的个体特征;
群体特征确定单元,用于基于所述个体特征,确定当前观看主播直播的用户的群体特征;
标签建立单元,用于基于所述群体特征,查找群体特征与主播标签对应关系表,获得相应标签,将为所述群体特征获得的标签整合,其中,所述群体特征与主播标签对应关系表中,群体特征与主播标签存在映射关系;基于整合得到的标签,为主播建立标签;其中,所述标签用于用户识别主播的表演类型和风格。
14.根据权利要求13所述的装置,其特征在于,所述群体特征确定单元进一步用于:
基于所述个体特征,对当前观看主播直播的用户进行聚类;
对于聚成的类,确定该类的用户的群体特征;
将各类的用户的群体特征聚合成当前观看主播直播的用户的群体特征。
15.根据权利要求14所述的装置,其特征在于,所述个体特征包括多个维度的个体子特征构成的个体特征向量,
所述基于所述个体特征,对当前观看主播直播的用户进行聚类,具体包括:
从当前观看主播直播的用户中选择预定数目个用户,该预定数目个用户的个体特征向量为聚类中心点;
对于当前观看主播直播的用户中除聚类中心点外的用户,确定该用户的个体特征向量与各聚类中心点的个体特征向量的距离;
将该用户聚集到所述距离最短的聚类中心点的类中;
将每类中聚集的用户的个体特征向量取平均,作为重新确定的聚类中心点;
确定当前观看主播直播的用户的个体特征向量与各聚类中心点的个体特征向量的距离;
将用户重新聚集到所述距离最短的聚类中心点的类中,直到满足预定条件聚类结束。
16.根据权利要求15所述的装置,其特征在于,所述预定条件包括:当前聚成的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值的平均值小于第一阈值。
17.根据权利要求15所述的装置,其特征在于,所述预定条件包括:当前聚成的用户数目最多的类中的用户数目与前一次聚成的相应类中的用户数目的差值绝对值小于第二阈值。
18.根据权利要求15所述的装置,其特征在于,所述个体特征向量由第一数量维度的归一化后个体子特征和第二数量维度的字符串个体子特征构成,
所述距离为用户的各第一数量维度的归一化后个体子特征与聚类中心点的相应维度的归一化后个体子特征的差的平方和、加上各第二数量维度的字符串个体子特征与聚类中心点的相应维度的字符串个体子特征的匹配得分的平方和的相加结果的平方根。
19.根据权利要求18所述的装置,其特征在于,所述归一化后个体子特征为用户的个体子特征与所有用户的该个体子特征的最大值的比值。
20.根据权利要求14所述的装置,其特征在于,所述群体特征确定单元进一步用于:
仅对聚成的类中用户数目超过预定用户数目阈值的类,确定该类的用户的群体特征。
21.根据权利要求14所述的装置,其特征在于,所述个体特征包括归一化后个体子特征,所述群体特征确定单元进一步用于:
确定该类中特定归一化后个体子特征超过预定子特征阈值的用户数;
如果所述用户数超出第一用户数阈值,将该特定归一化后个体子特征确定为所述群体特征。
22.根据权利要求14所述的装置,其特征在于,所述个体特征包括字符串个体子特征,所述群体特征确定单元进一步用于:
确定该类中具有特定字符串个体子特征的用户数;
如果所述用户数超出第二用户数阈值,将该特定字符串个体子特征确定为所述群体特征。
23.根据权利要求14所述的装置,其特征在于,如果确定出的当前观看主播直播的用户的群体特征有多个,且来自多类,所述标签建立单元进一步用于:
为每一类中的群体特征,查找群体特征与单标签对应关系表,获得该类的单个标签;
将为多类获得的标签整合。
24.根据权利要求13-23中任一项所述的装置,其特征在于,所述装置还包括:
用户反馈接收单元,用于接收对建立的标签的用户反馈;
增加单元,用于响应于接收到预定次数以上的、指示将标签修改成所述群体特征与单标签对应关系表中未包含的替代标签的用户反馈,将该替代标签、以及所述预定次数以上的用户反馈所针对的标签基于的群体特征,相对应地增加到所述群体特征与单标签对应关系表中。
25.一种直播网络界面引擎接口,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-12中的任一项所述的方法。
26.一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-12中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810469193.3A CN110267086B (zh) | 2018-05-16 | 2018-05-16 | 主播标签建立方法和装置、直播网络界面引擎接口和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810469193.3A CN110267086B (zh) | 2018-05-16 | 2018-05-16 | 主播标签建立方法和装置、直播网络界面引擎接口和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110267086A CN110267086A (zh) | 2019-09-20 |
CN110267086B true CN110267086B (zh) | 2022-02-25 |
Family
ID=67911632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810469193.3A Active CN110267086B (zh) | 2018-05-16 | 2018-05-16 | 主播标签建立方法和装置、直播网络界面引擎接口和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110267086B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782289B (zh) * | 2019-10-28 | 2020-11-10 | 四川旅投数字信息产业发展有限责任公司 | 一种基于用户画像的业务推荐方法和系统 |
CN111263183A (zh) * | 2020-02-26 | 2020-06-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 唱歌状态识别方法及装置 |
CN113747189B (zh) * | 2021-09-07 | 2023-11-28 | 广州博冠信息科技有限公司 | 直播信息的显示控制方法、装置、电子设备及计算机介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104410911A (zh) * | 2014-12-31 | 2015-03-11 | 合一网络技术(北京)有限公司 | 基于视频情感标注辅助识别面部表情的方法 |
CN104837059A (zh) * | 2014-04-15 | 2015-08-12 | 腾讯科技(北京)有限公司 | 视频处理方法、装置和系统 |
CN106355449A (zh) * | 2016-08-31 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
CN106453284A (zh) * | 2016-09-27 | 2017-02-22 | 北京金山安全软件有限公司 | 直播标签更新方法、装置和终端设备 |
CN107105320A (zh) * | 2017-03-07 | 2017-08-29 | 上海交通大学 | 一种基于用户情绪的在线视频热度预测方法及系统 |
-
2018
- 2018-05-16 CN CN201810469193.3A patent/CN110267086B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104837059A (zh) * | 2014-04-15 | 2015-08-12 | 腾讯科技(北京)有限公司 | 视频处理方法、装置和系统 |
CN104410911A (zh) * | 2014-12-31 | 2015-03-11 | 合一网络技术(北京)有限公司 | 基于视频情感标注辅助识别面部表情的方法 |
CN106355449A (zh) * | 2016-08-31 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
CN106453284A (zh) * | 2016-09-27 | 2017-02-22 | 北京金山安全软件有限公司 | 直播标签更新方法、装置和终端设备 |
CN107105320A (zh) * | 2017-03-07 | 2017-08-29 | 上海交通大学 | 一种基于用户情绪的在线视频热度预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110267086A (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108476334B (zh) | 广告投放的跨屏优化 | |
CN105493057B (zh) | 利用精确性控制的内容选择 | |
US20140278913A1 (en) | Advertisement campaign simulator | |
US20100274644A1 (en) | Engine, system and method for generation of brand affinity content | |
US9817846B1 (en) | Content selection algorithms | |
CN110267086B (zh) | 主播标签建立方法和装置、直播网络界面引擎接口和介质 | |
CN109447688A (zh) | 广告投放方法、装置及存储设备、计算机设备 | |
EP3252696A1 (en) | Dynamic content item creation | |
CN112215448A (zh) | 分配客服的方法和装置 | |
CN118096266B (zh) | 基于互联网的智能化广告营销系统及方法 | |
CN115907868A (zh) | 一种广告投放分析方法及装置 | |
CN109948051A (zh) | 结合群体交易行为的内容推送方法、装置、服务器及系统 | |
US20160275569A1 (en) | Method and system for advertisement coordination | |
US20160267551A1 (en) | Method and system for advertisement coordination | |
CN111340455A (zh) | 自动化生成数据分析结果的方法、装置、设备及存储介质 | |
US9946442B2 (en) | Method, apparatus, and computer program for providing sub-content while providing online content | |
CN116762070A (zh) | 用于提供图像推荐的系统、方法、计算平台和存储介质 | |
US8725558B1 (en) | Intra-site product advertising system | |
US20160275568A1 (en) | Method and system for advertisement coordination | |
US20160267531A1 (en) | Method and system for advertisement coordination | |
US20130185165A1 (en) | Media exchange platform | |
US20100082598A1 (en) | Engine, system and method for generation of brand affinity content | |
KR20060057722A (ko) | 검색 서비스 제공 방법 및 상기 방법을 수행하는 검색시스템 | |
US20160086233A1 (en) | Distribution apparatus, distribution method, and non-transitory computer readable storage medium | |
AU2016204434A1 (en) | Engine, system and method for generation of brand affinity content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |