CN108763189B - 一种直播间内容标签权重计算方法、装置及电子设备 - Google Patents

一种直播间内容标签权重计算方法、装置及电子设备 Download PDF

Info

Publication number
CN108763189B
CN108763189B CN201810327431.7A CN201810327431A CN108763189B CN 108763189 B CN108763189 B CN 108763189B CN 201810327431 A CN201810327431 A CN 201810327431A CN 108763189 B CN108763189 B CN 108763189B
Authority
CN
China
Prior art keywords
live broadcast
target
content
broadcast room
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810327431.7A
Other languages
English (en)
Other versions
CN108763189A (zh
Inventor
王璐
陈少杰
张文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810327431.7A priority Critical patent/CN108763189B/zh
Publication of CN108763189A publication Critical patent/CN108763189A/zh
Application granted granted Critical
Publication of CN108763189B publication Critical patent/CN108763189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8352Generation of protective data, e.g. certificates involving content or source identification data, e.g. Unique Material Identifier [UMID]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种直播间内容标签权重计算方法、装置及电子设备。本发明实施例方法包括:对目标直播间进行内容标签的标注,对目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,根据目标直播间中各内容标签的词向量,确定待计算权重的目标内容标签的相似词集合;根据该目标内容标签的相似词集合,计算所述目标直播间内目标内容标签权重。本发明实施例中从直播间相关文本中找到与标签相关的关联词语,通过目标内容标签的相关统计信息计算目标内容标签的权重系数,有效解决了内容标签的权重的计算问题,实现对直播间内容标签权重的快速计算。

Description

一种直播间内容标签权重计算方法、装置及电子设备
技术领域
本发明涉及直播技术领域,特别涉及一种直播间内容标签权重计算方法、装置及电子设备。
背景技术
直播间是一个信息的载体,给直播间打上符合其内容和表现形式的标签可以对内涵信息进行归纳,从而有利于直播平台内容的组织和编排。通常,我们可以采用直播网站人工定义、运营人员给直播间打上一些合适的标签,然而这些对于同一个直播间这些标签的权重是不一样的,标签权重高说明直播间对于这种标签的表现更加突出或者典型。
目前,还没有有效直播间内容标签权重计算方法,如何计算这些权重是一个非常重要的问题。
发明内容
本发明实施例提供了一种直播间内容标签权重计算方法、装置及电子设备,以提供有效解决直播间内容标签权重的计算的方案。
第一方面,本申请提供了一种直播间内容标签权重计算方法,该方法包括:
对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;
对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;
根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;
根据所述相似词集合,计算所述目标直播间内目标内容标签权重。
进一步的,所述对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,包括:
对所述目标直播间的相关文本进行分词,得到分词后的文本;
采用word2vec算法计算得到目标直播间中各内容标签的词向量;
其中,目标内容标签L,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签L外其他内容标签wi的词向量表示为:
(wi1,wi2,...,wis);
其中,s是向量的维度,Wis表示内容标签wi在s维度的词向量。
进一步的,所述根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合,包括:
对于所述目标直播间中除目标内容标签L外其他内容标签wi,分别计算各内容标签与目标内容标签L的余弦距离di
Figure BDA0001627029010000021
选择di值最大的前预设个数的内容标签作为目标内容标签L的相似词,得到目标内容标签的相似词集合;
其中,Wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。
进一步的,所述根据所述相似词集合,计算所述目标直播间内目标内容标签权重,包括:
统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;
统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;
计算标签关联词集合房间的信息熵;
采用如下公式计算所述目标直播间内目标内容标签权重:
Figure BDA0001627029010000031
其中:R是全网直播间个数;L是目标内容标签;
wr是目标内容标签L的相似词集合,该集合包含词语wr1,wr2,...,wrm
N(wri)是全网直播间中的文本中出现词语wr的次数;
N(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;
H(wr)是标签关联词集合房间的信息熵。
进一步的,所述计算标签关联词集合房间的信息熵,采用如下公式:
Figure BDA0001627029010000032
其中:
R(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。
第二方面,本申请提供一种直播间内容标签权重计算装置,该装置包括:
标注模块,用于对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;
训练模块,用于对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;
确定模块,用于根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;
计算模块,用于根据所述相似词集合,计算所述目标直播间内目标内容标签权重。
进一步的,所述训练模块具体用于:
对所述目标直播间的相关文本进行分词,得到分词后的文本;
采用word2vec算法计算得到目标直播间中各内容标签的词向量;
其中,目标内容标签L,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签L外其他内容标签wi的词向量表示为:
(wi1,wi2,...,wis);
其中,s是向量的维度,Wis表示内容标签wi在s维度的词向量。
进一步的,所述确定模块具体用于:
对于所述目标直播间中除目标内容标签L外其他内容标签wi,分别计算各内容标签与目标内容标签L的余弦距离di
Figure BDA0001627029010000041
选择di值最大的前预设个数的内容标签作为目标内容标签L的相似词,得到目标内容标签的相似词集合;
其中,Wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。
进一步的,所述计算模块具体用于:
统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;
统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;
计算标签关联词集合房间的信息熵;
采用如下公式计算所述目标直播间内目标内容标签权重:
Figure BDA0001627029010000042
其中:R是全网直播间个数;L是目标内容标签;
wr是目标内容标签L的相似词集合,该集合包含词语wr1,wr2,...,wrm
N(wri)是全网直播间中的文本中出现词语wr的次数;
N(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;
H(wr)是标签关联词集合房间的信息熵。
进一步的,所述计算模块采用如下公式:
Figure BDA0001627029010000051
其中:
R(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。
第三方面,本发明还提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实现第一方面中任一所述的方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一所述的方法。
本发明实施例通过对目标直播间进行内容标签的标注,对目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,根据目标直播间中各内容标签的词向量,确定待计算权重的目标内容标签的相似词集合;根据该目标内容标签的相似词集合,计算所述目标直播间内目标内容标签权重。本发明实施例中从直播间相关文本中找到与标签相关的关联词语,通过目标内容标签的相关统计信息计算目标内容标签的权重系数,有效解决了内容标签的权重的计算问题,实现对直播间内容标签权重的快速计算。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中直播间内容标签权重计算方法的一个实施例示意图;
图2是本发明实施例步骤S102的一个实施例示意图;
图3是本发明实施例步骤S104的一个实施例示意图;
图4是本发明实施例中直播间内容标签权重计算装置的一个实施例示意图;
图5是本发明实施例中电子设备的一个实施例示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例中直播间内容标签权重计算方法应用于直播间内容标签权重计算装置,该装置位于电子设备中,该电子设备可以是手机、平板电脑或者个人电脑、服务器等电子设备,也可以是未来出现的电子设备等。
请参阅图1,本发明实施例中直播间内容标签权重计算方法的一个实施例包括:
S101、对目标直播间进行内容标签的标注;
其中,该目标直播间中标注的内容标签包括目标内容标签;本实施例中,可以采用直播网站人工定义的方式或机器定义的方式(预先编程)给直播间进行内容标签的标注,每个直播间对应一个或者多个内容标签,整个直播间的内容标签集合可以用{L1,L2,...,Lm}表示。
S102、对目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量;
具体的,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;目标直播间的相关文本可以包括目标直播间的弹幕、动态以及帖子等文本信息的一项或多项。
S103、根据目标直播间中各内容标签的词向量,确定待计算权重的目标内容标签的相似词集合;
S104、根据该目标内容标签的相似词集合,计算目标直播间内目标内容标签权重。
本发明实施例通过对目标直播间进行内容标签的标注,对目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,根据目标直播间中各内容标签的词向量,确定待计算权重的目标内容标签的相似词集合;根据该目标内容标签的相似词集合,计算所述目标直播间内目标内容标签权重。本发明实施例中从直播间相关文本中找到与标签相关的关联词语,通过目标内容标签的相关统计信息计算目标内容标签的权重系数,有效解决了内容标签的权重的计算问题,实现对直播间内容标签权重的快速计算。
进一步的,如图2所示,上述步骤S102具体可以包括:
S1021、对所述目标直播间的相关文本进行分词,得到分词后的文本;
S1022、采用word2vec算法计算得到目标直播间中各内容标签的词向量;
本实施例中,word2vec算法指的是用于计算词向量的CBoW模型和Skip-gram模型。其中,目标内容标签L,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签L外其他内容标签wi的词向量表示为:
(wi1,wi2,...,wis);
其中,s是向量的维度,Wis表示内容标签wi在s维度的词向量。
进一步的,上述步骤S103具体可以包括:
对于所述目标直播间中除目标内容标签L外其他内容标签wi,分别计算各内容标签与目标内容标签L的余弦距离di
Figure BDA0001627029010000081
选择di值最大的前预设个数的内容标签作为目标内容标签L的相似词,得到目标内容标签的相似词集合;
其中,Wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。
在本发明一些实施例中,如图3所示,上述步骤S104具体可以包括:
S1041、统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;
S1042、统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;
S1043、计算标签关联词集合房间的信息熵;
S1044、采用预置公式计算所述目标直播间内目标内容标签权重。
该预置公式具体如下:
Figure BDA0001627029010000082
其中:R是全网直播间个数;L是目标内容标签;
wr是目标内容标签L的相似词集合,该集合包含词语wr1,wr2,...,wrm
N(wri)是全网直播间中的文本中出现词语wr的次数;
N(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;
H(wr)是标签关联词集合房间的信息熵。
进一步的,上述步骤S1043中计算标签关联词集合房间的信息熵采用如下公式:
Figure BDA0001627029010000091
其中:
R(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。
下面介绍本发明实施例中直播间内容标签权重计算装置的实施例。
请参阅图4,为本发明实施例中直播间内容标签权重计算装置的一个实施例示意图,该装置包括:
标注模块401,用于对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;
训练模块402,用于对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;
确定模块403,用于根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;
计算模块404,用于根据所述相似词集合,计算所述目标直播间内目标内容标签权重。
进一步的,所述训练模块402具体用于:
对所述目标直播间的相关文本进行分词,得到分词后的文本;
采用word2vec算法计算得到目标直播间中各内容标签的词向量;
其中,目标内容标签L,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签L外其他内容标签wi的词向量表示为:
(wi1,wi2,...,wis);
其中,s是向量的维度,Wis表示内容标签wi在s维度的词向量。
进一步的,所述确定模块403具体用于:
对于所述目标直播间中除目标内容标签L外其他内容标签wi,分别计算各内容标签与目标内容标签L的余弦距离di
Figure BDA0001627029010000101
选择di值最大的前预设个数的内容标签作为目标内容标签L的相似词,得到目标内容标签的相似词集合;
其中,Wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。
进一步的,所述计算模块404具体用于:
统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;
统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;
计算标签关联词集合房间的信息熵;
采用如下公式计算所述目标直播间内目标内容标签权重:
Figure BDA0001627029010000102
其中:R是全网直播间个数;L是目标内容标签;
wr是目标内容标签L的相似词集合,该集合包含词语wr1,wr2,...,wrm
N(wri)是全网直播间中的文本中出现词语wr的次数;
N(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;
H(wr)是标签关联词集合房间的信息熵。
进一步的,所述计算模块404采用如下公式:
Figure BDA0001627029010000111
其中:
R(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。
本发明实施例中还提供一种电子设备,请参见图5,所述电子设备包括:
存储器501,处理器502及存储在所述存储器上并可在所述处理器上运行的计算机程序503,其中,所述处理器502执行所述计算机程序503时可以实现上述直播间内容标签权重计算方法。
为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。存储器501可用于存储计算机程序503,上述计算机程序包括软件程序、模块和数据,处理器502通过运行执行存储在存储器501的计算机程序503,从而执行电子设备的各种功能应用以及数据处理。
在具体的实施过程中,存储器501可用于存储软件程序以及模块,处理器502通过运行存储在存储器501的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如游戏类应用程序、聊天类应用程序)等;存储数据区可存储根据电子设备的使用所创建的数据(游戏配置数据、音频数据)等。此外,存储器501可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器502是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器501内的软件程序和/或模块,以及调用存储在存储器501内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器502可包括一个或多个处理单元;优选的,处理器502可集成应用处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等。
本发明实施例还提供一种计算机可读存储介质,其中,该计算机可读存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的直播间内容标签权重计算方法的部分或全部步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种直播间内容标签权重计算方法,其特征在于,所述方法包括:
对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;
对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;
根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;
根据所述相似词集合,计算所述目标直播间内目标内容标签权重;
所述对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,包括:
对所述目标直播间的相关文本进行分词,得到分词后的文本;
采用word2vec算法计算得到目标直播间中各内容标签的词向量;
其中,目标内容标签L,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签L外其他内容标签wi的词向量表示为:
(wi1,wi2,...,wis);
其中,s是向量的维度,Wis表示内容标签wi在s维度的词向量;
所述根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合,包括:
对于所述目标直播间中除目标内容标签L外其他内容标签wi,分别计算各内容标签与目标内容标签L的余弦距离ai
Figure FDA0003483356410000011
选择di值最大的前预设个数的内容标签作为目标内容标签L的相似词,得到目标内容标签的相似词集合;
其中,Wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。
2.根据权利要求1所述的方法,其特征在于,所述根据所述相似词集合,计算所述目标直播间内目标内容标签权重,包括:
统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;
统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;
计算标签关联词集合房间的信息熵;
采用如下公式计算所述目标直播间内目标内容标签权重:
Figure FDA0003483356410000021
其中:R是全网直播间个数;L是目标内容标签;
wr是目标内容标签L的相似词集合,该集合包含词语wr1,wr2,...,wrm
N(wri)是全网直播间中的文本中出现词语wr的次数;
N(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;
H(wr)是标签关联词集合房间的信息熵。
3.根据权利要求2所述的方法,其特征在于,所述计算标签关联词集合房间的信息熵,采用如下公式:
Figure FDA0003483356410000022
其中:
R(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。
4.一种直播间内容标签权重计算装置,其特征在于,所述装置包括:
标注模块,用于对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;
训练模块,用于对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;
确定模块,用于根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;
计算模块,用于根据所述相似词集合,计算所述目标直播间内目标内容标签权重;
所述训练模块具体用于:
对所述目标直播间的相关文本进行分词,得到分词后的文本;
采用word2vec算法计算得到目标直播间中各内容标签的词向量;
其中,目标内容标签L,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签L外其他内容标签wi的词向量表示为:
(wi1,wi2,...,wis);
其中,s是向量的维度,Wis表示内容标签wi在s维度的词向量;
所述确定模块具体用于:
对于所述目标直播间中除目标内容标签L外其他内容标签wi,分别计算各内容标签与目标内容标签L的余弦距离di
Figure FDA0003483356410000031
选择di值最大的前预设个数的内容标签作为目标内容标签L的相似词,得到目标内容标签的相似词集合;
其中,Wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。
5.根据权利要求4所述的装置,其特征在于,所述计算模块具体用于:
统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;
统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;
计算标签关联词集合房间的信息熵;
采用如下公式计算所述目标直播间内目标内容标签权重:
Figure FDA0003483356410000041
其中:R是全网直播间个数;L是目标内容标签;
wr是目标内容标签L的相似词集合,该集合包含词语wr1,wr2,...,wrm
N(wri)是全网直播间中的文本中出现词语wr的次数;
N(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;
H(wr)是标签关联词集合房间的信息熵。
6.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实现权利要求1至3任一所述的方法。
CN201810327431.7A 2018-04-12 2018-04-12 一种直播间内容标签权重计算方法、装置及电子设备 Active CN108763189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810327431.7A CN108763189B (zh) 2018-04-12 2018-04-12 一种直播间内容标签权重计算方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810327431.7A CN108763189B (zh) 2018-04-12 2018-04-12 一种直播间内容标签权重计算方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108763189A CN108763189A (zh) 2018-11-06
CN108763189B true CN108763189B (zh) 2022-03-25

Family

ID=63981696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810327431.7A Active CN108763189B (zh) 2018-04-12 2018-04-12 一种直播间内容标签权重计算方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108763189B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740623B (zh) * 2018-11-21 2020-12-04 北京奇艺世纪科技有限公司 一种演员筛选的方法及装置
CN110519654B (zh) * 2019-09-11 2021-07-27 广州荔支网络技术有限公司 一种标签确定方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102559206A (zh) * 2010-12-30 2012-07-11 第一毛织株式会社 液晶取向剂、用其制备的液晶取向膜和液晶显示器
CN106250513A (zh) * 2016-08-02 2016-12-21 西南石油大学 一种基于事件建模的事件个性化分类方法及系统
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107491479A (zh) * 2017-07-05 2017-12-19 上海大学 一种基于本体库的标签管理方法
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法
CN107766467A (zh) * 2017-09-29 2018-03-06 北京金山安全软件有限公司 一种信息检测方法、装置、电子设备及存储介质
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5643430B2 (ja) * 2011-06-28 2014-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
CN108197330B (zh) * 2014-11-10 2019-10-29 北京字节跳动网络技术有限公司 基于社交平台的数据挖掘方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102559206A (zh) * 2010-12-30 2012-07-11 第一毛织株式会社 液晶取向剂、用其制备的液晶取向膜和液晶显示器
CN106250513A (zh) * 2016-08-02 2016-12-21 西南石油大学 一种基于事件建模的事件个性化分类方法及系统
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107491479A (zh) * 2017-07-05 2017-12-19 上海大学 一种基于本体库的标签管理方法
CN107544957A (zh) * 2017-07-05 2018-01-05 华北电力大学 一种面向商品目标词的情感倾向分析方法
CN107766467A (zh) * 2017-09-29 2018-03-06 北京金山安全软件有限公司 一种信息检测方法、装置、电子设备及存储介质
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Zero-shot Fine-grained Classification by Deep Feature Learning with Semantics";Ao-Xue Li;《International Journal of Automation and Computing》;20130703;第14卷(第7期);第505-520页 *
"机器学习实战之朴素贝叶斯";卑微的蜗牛;《cnblogs.com/zy230530/p/6847243.html》;20140215;网页全文 *
"融合社会标签的联合概率矩阵分解推荐算法";曹玉琳 等;《信息与控制》;20170728;第46卷(第4期);第400-407页 *

Also Published As

Publication number Publication date
CN108763189A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN110896488B (zh) 一种直播间的推荐方法以及相关设备
CN105389722B (zh) 恶意订单识别方法及装置
CN109284784A (zh) 一种针对直播场景视频的内容审核模型训练方法及装置
CN110121098B (zh) 视频播放方法、装置、存储介质和电子装置
CN108763189B (zh) 一种直播间内容标签权重计算方法、装置及电子设备
CN110019163A (zh) 对象特征的预测、推荐的方法、系统、设备和存储介质
CN110889824A (zh) 一种样本生成方法、装置、电子设备及计算机可读存储介质
CN106815226A (zh) 文本匹配方法和装置
CN108256532A (zh) 图像处理方法、装置、电子设备及存储介质
CN111666816A (zh) 物流件状态的检测方法、装置以及设备
CN105184321B (zh) 一种针对于ftrl模型的数据处理方法及装置
CN111062440B (zh) 一种样本选择方法、装置、设备及存储介质
CN115063861A (zh) 模型训练方法、图像背景相似判断方法及装置
CN109460930B (zh) 一种确定风险账户的方法以及相关设备
CN110519654B (zh) 一种标签确定方法、装置、电子设备及存储介质
CN108133020A (zh) 视频分类方法、装置、存储介质及电子设备
CN109063024B (zh) 一种社交平台用户影响力计算方法及装置
CN110580522A (zh) 卷积计算方法及相关设备
CN110222297B (zh) 一种标签用户的识别方法以及相关设备
WO2023005421A1 (zh) 作品封面显示方法、装置、介质和电子设备
CN111127310B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN115686906A (zh) Rpa异常处理方法、装置、服务器和可读存储介质
CN112532406B (zh) 对照实验的数据处理方法、装置、计算机设备及存储介质
CN111047351A (zh) 广告投放方法及装置、存储介质及电子装置
CN113409350B (zh) 一种视频前景和背景分离方法及其相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant