CN110392314A - 直播间内容标签扩散算法、存储介质、电子设备及系统 - Google Patents

直播间内容标签扩散算法、存储介质、电子设备及系统 Download PDF

Info

Publication number
CN110392314A
CN110392314A CN201810348772.2A CN201810348772A CN110392314A CN 110392314 A CN110392314 A CN 110392314A CN 201810348772 A CN201810348772 A CN 201810348772A CN 110392314 A CN110392314 A CN 110392314A
Authority
CN
China
Prior art keywords
direct broadcasting
broadcasting room
content tab
sample
room
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810348772.2A
Other languages
English (en)
Other versions
CN110392314B (zh
Inventor
王璐
陈少杰
张文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810348772.2A priority Critical patent/CN110392314B/zh
Publication of CN110392314A publication Critical patent/CN110392314A/zh
Application granted granted Critical
Publication of CN110392314B publication Critical patent/CN110392314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种直播间内容标签扩散算法、存储介质、电子设备及系统,涉及大数据领域,该方法包括选取设定数量的直播间样本,并基于业务经验对样本的直播间进行内容标签l的标注;对内容标签l进行扩散;对其它未被标记的直播间通过扩散算法得到分布概率。对于基于业务经验标注的直播间,初始化分数P0(i)=1,且已被基于业务经验标注的直播间在内容标签l的扩散中,保持分布概率为1。本发明通过标注样本扩散到其他未知标签的样本,有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。

Description

直播间内容标签扩散算法、存储介质、电子设备及系统
技术领域
本发明涉及大数据领域,具体涉及一种直播间内容标签扩散算法、存储介质、电子设备及系统。
背景技术
直播间是一个信息的载体,给直播间打上符合其内容和表现形式的内容标签可以对直播内容信息进行归纳,从而有利于直播平台内容的组织和编排。因此,如何采用有效的方法对直播间打上准确的内容标签是一个十分重要的问题。
直播间标签提取的方式一般有以下几种方式:一是采用直播网站人工定义的分区作为标签,这样做的问题是一个直播间只对应一个分区,标签不够丰富;二是采用人工的方式给指标间打标,但是由于直播间众多导致人工成本太高。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种直播间内容标签扩散算法,通过标注样本扩散到其他未知标签的样本,有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。
为达到以上目的,本发明采取的技术方案是,包括:
选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注;
对内容标签l进行扩散,扩散的计算公式为:
其中,k是迭代的轮次,Pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为N(i),ξ为设定阈值,wji是直播间j和直播间i之间的相似度;
对其它未被标记的直播间通过扩散算法得到分布概率。
在上述技术方案的基础上,对于直播间j和直播间i之间的相似度计算,计算公式为:
其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。
在上述技术方案的基础上,对于基于业务经验标注的直播间,初始化分数P0(i)=1,且已被基于业务经验标注的直播间在内容标签l的扩散中,保持分布概率为1。
在上述技术方案的基础上,所述内容标签为多个,且每个内容标签至少对应一个直播间。
在上述技术方案的基础上,对直播间标注的内容标签包括户外、游戏和颜值。
本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。
本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法。
本发明还提供一种直播间内容标签扩散系统,包括:
标注模块,其用于选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注;
计算模块,其用于对内容标签l进行扩散,扩散的计算公式为:
其中,k是迭代的轮次,Pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为N(i),ξ为设定阈值,wji是直播间j和直播间i之间的相似度;
扩散计算模块,其用于对其它未被标记的直播间通过扩散算法得到分布概率。
在上述技术方案的基础上,对于直播间j和直播间i之间的相似度计算,计算公式为:
其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。
在上述技术方案的基础上,所述内容标签为多个,且每个内容标签至少对应一个直播间。
与现有技术相比,本发明的优点在于:通过选取直播间样本,然后基于业务经验对样本的直播间进行内容标签标注,接着进行标注标签内容的扩散,最后便可其它未被标记的直播间通过扩散算法得到分布概率,只需要少量的人工标注样本,通过这些标注样本扩散到其他未知标签的样本,便可以有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。
附图说明
图1为本发明实施例中一种直播间内容标签扩散算法的流程图;
图2为本发明实施例中一种电子设备的结构示意图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供一种直播间内容标签扩散算法,只需要少量的人工标注样本,通过这些标注样本扩散到其他未知标签的样本,从而有效地解决标注样本过少的问题,节省大量的人工成本。本发明的直播间内容标签扩散算法包括:
S1:选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注,即对直播间样本中的直播间进行内容标签l的标注。业务经验为直播平台在运营的过程中,对不同内容的直播间进行的人为分类划分过程中,所掌握的直播间与内容标签间对应关系的经验,即知道什么样内容的直播间具体对应什么内容标签。此处的l表示某一内容标签,内容标签为多个,且每个内容标签至少对应一个直播间。直播间标注的内容标签包括户外、游戏和颜值,即包括户外标签、游戏标签和颜值标签,按照此将标签内容标记到样本的直播间上,户外标签对应的是直播内容为进行室外游玩、室外生存、室外表演等活动的直播间,游戏标签对应的是直播内容为进行网络或单机游戏的直播间,颜值标签对应的是直播内容为唱歌、跳舞等才艺表演的直播间。
S2:对内容标签l进行扩散,即将内容标签l扩散标记到与已标记直播间内容相近的直播间上,扩散的计算公式为:
其中,k是迭代的轮次,Pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为N(i),ξ为设定阈值,通过设定阈值ξ,用于找出相近的直播间j和直播间i,使得计算控制在一定的范围内,wji是直播间j和直播间i之间的相似度;
对于直播间j和直播间i之间的相似度计算,计算公式为:
其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,设定的时间段一般为最近的30天,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。
对于基于业务经验标注的直播间,初始化分数P0(i)=1,且已被基于业务经验标注的直播间在内容标签l的扩散中,保持分布概率为1。
S3:对其它未被标记的直播间通过扩散算法得到分布概率。
至此,完成标注样本的扩散,据此便可以实现对其它直播间内容标签的准确标注。
进一步的,创建标签l集合,标签l集合内为标签内容为l的直播间,记直播间r对与内容标签li的概率分布是将其进行归一化,从而可以得到最终的标签概率分布分数:
以下结合一实例对本发明实施例的直播间内容标签扩散算法进行具体说明。
假设某内容个标签k,人工标注了直播间a和直播间b,下面计算直播间c对于内容标签k的概率分布。
假设直播间c的邻居有直播间a、直播间b和直播间d,通过计算得到直播间c与它们之间的相似度:wac=0.6,wbc=0.2,wdc=0.4;
初始化时Pa(0)=1,Pb(0)=1;
第一轮迭代,Pc(1)=0.6*1+0.2*1=0.8,通过直播间d的邻居关系计算出Pd(1)=0.2
第二轮迭代,Pc(2)=0.6*1+0.2*1+0.2*0.4=0.88
根据上述迭代不断更新概率分数最终得到直播间c对于内容标签k的概率分布。
本发明实施例的直播间内容标签扩散算法,通过选取直播间样本,然后基于业务经验对样本的直播间进行内容标签标注,接着进行标注标签内容的扩散,最后便可其它未被标记的直播间通过扩散算法得到分布概率,只需要少量的人工标注样本,通过这些标注样本扩散到其他未知标签的样本,便可以有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。
另外,对应上述直播间内容标签扩散算法,本发明还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例所述的直播间内容标签扩散算法的步骤。需要说明的是,所述存储介质包括U盘、移动硬盘、ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
参见图2所示,对应上述直播间内容标签扩散算法,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例的直播间内容标签扩散算法。
本发明还提供一种基于上述直播间内容标签扩散算法的直播间内容标签扩散算法系统,包括标注模块、计算模块和扩散计算模块。
标注模块用于选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注;计算模块用于对内容标签l进行扩散,扩散的计算公式为:
其中,k是迭代的轮次,Pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为N(i),ξ为设定阈值,wji是直播间j和直播间i之间的相似度;
扩散计算模块用于对其它未被标记的直播间通过扩散算法得到分布概率。内容标签为多个,且每个内容标签至少对应一个直播间。
对于直播间j和直播间i之间的相似度计算,计算公式为:
其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。
本发明实施例的直播间内容标签扩散系统,通过选取直播间样本,然后基于业务经验对样本的直播间进行内容标签标注,接着进行标注标签内容的扩散,最后便可其它未被标记的直播间通过扩散算法得到分布概率,只需要少量的人工标注样本,通过这些标注样本扩散到其他未知标签的样本,便可以有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种直播间内容标签扩散算法,其特征在于,包括以下步骤:
选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注;
对内容标签l进行扩散,扩散的计算公式为:
其中,k是迭代的轮次,Pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为N(i),ξ为设定阈值,wji是直播间j和直播间i之间的相似度;
对其它未被标记的直播间通过扩散算法得到分布概率。
2.如权利要求1所述的一种直播间内容标签扩散算法,其特征在于:对于直播间j和直播间i之间的相似度计算,计算公式为:
其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。
3.如权利要求1所述的一种直播间内容标签扩散算法,其特征在于:对于基于业务经验标注的直播间,初始化分数P0(i)=1,且已被基于业务经验标注的直播间在内容标签l的扩散中,保持分布概率为1。
4.如权利要求1所述的一种直播间内容标签扩散算法,其特征在于:所述内容标签为多个,且每个内容标签至少对应一个直播间。
5.如权利要求4所述的一种直播间内容标签扩散算法,其特征在于:对直播间标注的内容标签包括户外、游戏和颜值。
6.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至5任一项所述的方法。
7.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的方法。
8.一种直播间内容标签扩散系统,其特征在于,包括:
标注模块,其用于选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注;
计算模块,其用于对内容标签l进行扩散,扩散的计算公式为:
其中,k是迭代的轮次,Pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为N(i),ξ为设定阈值,wji是直播间j和直播间i之间的相似度;
扩散计算模块,其用于对其它未被标记的直播间通过扩散算法得到分布概率。
9.如权利要求8所述的一种直播间内容标签扩散系统,其特征在于:对于直播间j和直播间i之间的相似度计算,计算公式为:
其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。
10.如权利要求8所述的一种直播间内容标签扩散系统,其特征在于:所述内容标签为多个,且每个内容标签至少对应一个直播间。
CN201810348772.2A 2018-04-18 2018-04-18 直播间内容标签扩散方法、存储介质、电子设备及系统 Active CN110392314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810348772.2A CN110392314B (zh) 2018-04-18 2018-04-18 直播间内容标签扩散方法、存储介质、电子设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810348772.2A CN110392314B (zh) 2018-04-18 2018-04-18 直播间内容标签扩散方法、存储介质、电子设备及系统

Publications (2)

Publication Number Publication Date
CN110392314A true CN110392314A (zh) 2019-10-29
CN110392314B CN110392314B (zh) 2021-10-15

Family

ID=68283220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810348772.2A Active CN110392314B (zh) 2018-04-18 2018-04-18 直播间内容标签扩散方法、存储介质、电子设备及系统

Country Status (1)

Country Link
CN (1) CN110392314B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261429A (zh) * 2020-10-21 2021-01-22 北华大学 无卡顿智能终端直播应用系统、方法、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262659A (zh) * 2011-07-15 2011-11-30 北京航空航天大学 一种基于内容计算的音频标签传播方法
EP2580712A1 (en) * 2010-06-12 2013-04-17 Toyota Motor Europe NV/SA Methods and systems for semantic label propagation
CN103678671A (zh) * 2013-12-25 2014-03-26 福州大学 一种社交网络中的动态社区检测方法
US8793283B1 (en) * 2011-04-20 2014-07-29 Google Inc. Label propagation in a distributed system
US9031951B1 (en) * 2012-04-02 2015-05-12 Google Inc. Associating interest and disinterest keywords with similar and dissimilar users
CN106599051A (zh) * 2016-11-15 2017-04-26 北京航空航天大学 一种基于生成图像标注库的图像自动标注的方法
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN106991614A (zh) * 2017-03-02 2017-07-28 南京信息工程大学 Spark下基于标签传播的并行重叠社区发现方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2580712A1 (en) * 2010-06-12 2013-04-17 Toyota Motor Europe NV/SA Methods and systems for semantic label propagation
US8793283B1 (en) * 2011-04-20 2014-07-29 Google Inc. Label propagation in a distributed system
CN102262659A (zh) * 2011-07-15 2011-11-30 北京航空航天大学 一种基于内容计算的音频标签传播方法
US9031951B1 (en) * 2012-04-02 2015-05-12 Google Inc. Associating interest and disinterest keywords with similar and dissimilar users
CN103678671A (zh) * 2013-12-25 2014-03-26 福州大学 一种社交网络中的动态社区检测方法
CN106599051A (zh) * 2016-11-15 2017-04-26 北京航空航天大学 一种基于生成图像标注库的图像自动标注的方法
CN106875014A (zh) * 2017-03-02 2017-06-20 上海交通大学 基于半监督学习的软件工程知识库的自动化构建实现方法
CN106991614A (zh) * 2017-03-02 2017-07-28 南京信息工程大学 Spark下基于标签传播的并行重叠社区发现方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261429A (zh) * 2020-10-21 2021-01-22 北华大学 无卡顿智能终端直播应用系统、方法、设备及存储介质

Also Published As

Publication number Publication date
CN110392314B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN108280059B (zh) 直播间内容标签提取方法、存储介质、电子设备及系统
CN104050196B (zh) 一种兴趣点数据冗余检测方法及装置
CN107038256B (zh) 基于数据源的业务定制装置、方法及计算机可读存储介质
US20160180402A1 (en) Method for recommending products based on a user profile derived from metadata of multimedia content
CN109034864A (zh) 提高广告投放精准度的方法、装置、电子设备及存储介质
CN104252616B (zh) 人脸标注方法、装置及设备
CN106295584A (zh) 深度迁移学习在人群属性的识别方法
CN106383904B (zh) 视频推荐方法及装置
CN103995889A (zh) 图片分类方法及装置
CN103631874B (zh) 社交平台的ugc标签类别确定方法和装置
CN105045818A (zh) 一种图片的推荐方法、装置和系统
CN113412608B (zh) 内容推送方法、装置、服务端及存储介质
CN104239453B (zh) 数据处理方法及装置
CN110472154A (zh) 一种资源推送方法、装置、电子设备及可读存储介质
CN108132963A (zh) 资源推荐方法和装置、计算设备和存储介质
CN113204660B (zh) 多媒体数据处理方法、标签识别方法、装置及电子设备
CN105809471A (zh) 一种获取用户属性的方法、装置及电子设备
CN107038664A (zh) 教学课程推送方法、装置、存储介质及处理器
CN110392314A (zh) 直播间内容标签扩散算法、存储介质、电子设备及系统
CN106027693A (zh) 基于ip地址的定位方法及装置
CN110059222A (zh) 一种基于协同过滤的视频标签添加方法
CN103617221B (zh) 软件推荐方法及系统
CN108153661A (zh) 执行测试用例的方法和装置
CN103679502B (zh) 应用推荐方法和系统
Amaral et al. K-means algorithm in statistical shape analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant