CN108280059A - 直播间内容标签提取方法、存储介质、电子设备及系统 - Google Patents

直播间内容标签提取方法、存储介质、电子设备及系统 Download PDF

Info

Publication number
CN108280059A
CN108280059A CN201810019246.1A CN201810019246A CN108280059A CN 108280059 A CN108280059 A CN 108280059A CN 201810019246 A CN201810019246 A CN 201810019246A CN 108280059 A CN108280059 A CN 108280059A
Authority
CN
China
Prior art keywords
direct broadcasting
broadcasting room
content tab
word
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810019246.1A
Other languages
English (en)
Other versions
CN108280059B (zh
Inventor
王璐
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810019246.1A priority Critical patent/CN108280059B/zh
Priority to PCT/CN2018/081286 priority patent/WO2019136841A1/zh
Publication of CN108280059A publication Critical patent/CN108280059A/zh
Application granted granted Critical
Publication of CN108280059B publication Critical patent/CN108280059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种直播间内容标签提取方法、存储介质、电子设备及系统,涉及大数据推荐技术领域,本发明根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签,充分考虑内容标签的出现次数以及出现的直播间多少,标签多样性好,节约人力成本。

Description

直播间内容标签提取方法、存储介质、电子设备及系统
技术领域
本发明涉及大数据推荐技术领域,具体涉及一种直播间内容标签提取方法、存储介质、电子设备及系统。
背景技术
直播间是一个信息的载体,给直播间打上符合其内容和表现形式的标签可以对内含信息进行归纳,从而有利于直播平台内容的组织和编排。因此,如何采用有效的方法对直播间打上准确的内容标签是一个十分重要的问题。
直播间标签提取的方式一般有以下几种方式。一是采用直播网站人工定义的分区作为标签,这样做的缺陷是一个直播间只对应一个分区,标签不够丰富;且分区的含义较为宽泛,难以描述直播间的特点。二是采用人工的方式给直播间打标,但是由于直播间众多这样做人工成本太高。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种直播间内容标签提取方法、存储介质、电子设备及系统,解决传统方案人力成本较高、标签多样性较差的缺点。
为达到以上目的,本发明采取的技术方案是:本发明公开了一种直播间内容标签提取方法:
构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;
对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;
计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
在上述技术方案的基础上,计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:
其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词wr1,wr2,...,wrm,m表示wr中词的个数;
N(wri)是直播间M的弹幕文本中出现wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词w1,w2,...,wm,n表示wi中词的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
在上述技术方案的基础上,所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。
在上述技术方案的基础上,所述设定时间为一个月。
本发明还公开了一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现基于弹幕文本的直播间内容标签提取方法。
本发明还公开了一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现基于弹幕文本的直播间内容标签提取方法。
本发明还公开了一种基于弹幕文本的直播间内容标签提取系统,包括:
直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;
分词模块,所述分词模块用于根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;
内容标签构建模块,所述内容标签构建模块用于对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;
标签相关度计算模块,所述标签相关度计算模块用于计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
在上述技术方案的基础上,计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:
其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词语wr1,wr2,...,wrm,m表示wr中词语的个数;
N(wri)是直播间M的弹幕文本中出现词语wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词语w1,w2,...,wm,n表示wi中词语的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
在上述技术方案的基础上,所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。
在上述技术方案的基础上,所述设定时间为一个月。
与现有技术相比,本发明的优点在于:
本发明根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签,充分考虑内容标签的出现次数以及出现的直播间多少,标签多样性好,节约人力成本。
附图说明
图1为本发明实施例中直播间内容标签提取方法的流程示意图;
图2为本发明实施例中直播间内容标签提取系统的结构示意图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供一种基于弹幕文本的直播间内容标签提取方法,包括:
S1,构建直播词汇词典,直播词汇词典用于存储与直播平台内容相关的词汇,根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词。
首先构建一个与直播平台内容相关的直播词汇词典,直播词汇词典包含游戏、二次元、以及直播相关的专有名词以及其他网络词汇,主要来源是搜狗的细胞词库和从论坛等网站通过人工方式收集。直播词汇词典的构建是为能够对弹幕文本进行合理的分词,由于弹幕文本中有很多网络常用语和专有名词,因此需要构建一个涵盖内容非常广的分词词典。
S2,对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词。
根据平台的直播内容建立内容标签,内容标签包括通用类标签和分区类标签,通用类标签为直播内容相关的内容标签,不涉及特定方面的专有知识;分区类标签为分区下直播间内关键词相关的内容标签,归纳的方法是观察该分区下房间标题经常会用到的关键性词语,利用分区相关的专有知识进行提炼。
这两类内容标签均可以采用以下步骤进行产生:
1)对近一个月的直播间标题和弹幕采用第一步构建的直播词汇词典进行分词。
2)对分词后的文本进行词频统计,取出出现频率较高或者出现直播间个数较多的词语。
3)在上述词语中,人工筛选挑选合适的词语作为内容标签的候选词。
4)对内容的候选词进行归纳整理,将几个意思相近的词抽象为一个内容标签,并将这些词作为该内容标签下的标签关联词。
S3,计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:
其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词语wr1,wr2,...,wrm,m表示wr中词语的个数;
N(wri)是直播间M的弹幕文本中出现词语wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词语w1,w2,...,wm,n表示wi中词语的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
计算出设定时间内所有内容标签与直播间的相关度后,从高到低进行排序,取分数最大的前10个标签作为该直播间对应的内容标签。
本发明根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词;对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词;计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签,充分考虑内容标签的出现次数以及出现的直播间多少,标签多样性好,节约人力成本。
本发明实施例还公开了一种存储介质,该存储介质上存储有计算机程序,计算机程序被处理器执行时实现基于弹幕文本的直播间内容标签提取方法。
本发明实施例还公开了一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现基于弹幕文本的直播间内容标签提取方法。
参见图2所示,本发明实施例还公开了一种基于弹幕文本的直播间内容标签提取系统,包括:
直播词汇词典,直播词汇词典用于存储与直播平台内容相关的词汇;
分词模块,分词模块用于根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词;
内容标签构建模块,内容标签构建模块用于对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将意思相近的内容标签候选词作为该内容标签下的标签关联词;
标签相关度计算模块,标签相关度计算模块用于计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:
其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词语wr1,wr2,...,wrm,m表示wr中词语的个数;
N(wri)是直播间M的弹幕文本中出现词语wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词语w1,w2,...,wm,n表示wi中词语的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
直播词汇词典包含游戏、二次元、以及直播相关的专有名词以及其他网络词汇。
内容标签包括通用类标签和分区类标签,通用类标签为直播内容相关的内容标签,分区类标签为分区下直播间内关键词相关的内容标签。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种基于弹幕文本的直播间内容标签提取方法,其特征在于:
构建直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;
对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;
计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
2.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:
其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词wr1,wr2,...,wrm,m表示wr中词的个数;
N(wri)是直播间M的弹幕文本中出现wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词w1,w2,...,wm,n表示wi中词的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
3.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。
4.如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法,其特征在于:所述设定时间为一个月。
5.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。
6.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:处理器执行计算机程序时实现权利要求1至4任一项所述的方法。
7.一种基于弹幕文本的直播间内容标签提取系统,其特征在于,包括:
直播词汇词典,所述直播词汇词典用于存储与直播平台内容相关的词汇;
分词模块,所述分词模块用于根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词;
内容标签构建模块,所述内容标签构建模块用于对分词后的文本进行词频统计,提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词,将意思相近的内容标签候选词抽象为一个内容标签,并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词;
标签相关度计算模块,所述标签相关度计算模块用于计算设定时间内所有内容标签与直播间的相关度,根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
8.如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统,其特征在于:计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为:
其中:
M表示直播间ID号,L表示内容标签;
wr是内容标签L下的标签关联词的集合,该集合包含词语wr1,wr2,...,wrm,m表示wr中词语的个数;
N(wri)是直播间M的弹幕文本中出现词语wr的次数;
wi表示直播间M的弹幕文本中出现的全部标签关联词的集合,该集合包含词语w1,w2,...,wm,n表示wi中词语的个数;
N(wi)是直播间M的弹幕文本中的wi出现的总次数;
R是所有直播间个数;
R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
9.如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统,其特征在于:所述内容标签包括通用类标签和分区类标签,所述通用类标签为直播内容相关的内容标签,所述分区类标签为分区下直播间内关键词相关的内容标签。
10.如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统,其特征在于:所述设定时间为一个月。
CN201810019246.1A 2018-01-09 2018-01-09 直播间内容标签提取方法、存储介质、电子设备及系统 Active CN108280059B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810019246.1A CN108280059B (zh) 2018-01-09 2018-01-09 直播间内容标签提取方法、存储介质、电子设备及系统
PCT/CN2018/081286 WO2019136841A1 (zh) 2018-01-09 2018-03-30 直播间内容标签提取方法、存储介质、电子设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810019246.1A CN108280059B (zh) 2018-01-09 2018-01-09 直播间内容标签提取方法、存储介质、电子设备及系统

Publications (2)

Publication Number Publication Date
CN108280059A true CN108280059A (zh) 2018-07-13
CN108280059B CN108280059B (zh) 2020-08-04

Family

ID=62803367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810019246.1A Active CN108280059B (zh) 2018-01-09 2018-01-09 直播间内容标签提取方法、存储介质、电子设备及系统

Country Status (2)

Country Link
CN (1) CN108280059B (zh)
WO (1) WO2019136841A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034049A (zh) * 2018-07-23 2018-12-18 北京密境和风科技有限公司 跳舞视频的识别方法及装置
CN109063133A (zh) * 2018-08-02 2018-12-21 武汉斗鱼网络科技有限公司 一种直播间标签的添加方法、系统、设备及介质
CN109255066A (zh) * 2018-09-30 2019-01-22 武汉斗鱼网络科技有限公司 一种业务对象的标签标记方法、装置、服务器和存储介质
CN109379608A (zh) * 2018-09-13 2019-02-22 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN109547863A (zh) * 2018-10-22 2019-03-29 武汉斗鱼网络科技有限公司 一种标签的标记方法、装置、服务器和存储介质
CN109919213A (zh) * 2019-02-27 2019-06-21 上海六界信息技术有限公司 直播类型的确定方法、装置、设备及存储介质
CN110377843A (zh) * 2019-07-17 2019-10-25 网易(杭州)网络有限公司 直播间处理方法及装置、电子设备、存储介质
CN110519654A (zh) * 2019-09-11 2019-11-29 广州荔支网络技术有限公司 一种标签确定方法及装置
CN110688852A (zh) * 2019-09-27 2020-01-14 西安赢瑞电子有限公司 一种汉字词语频度存储方法
CN110896488A (zh) * 2018-08-23 2020-03-20 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN111027321A (zh) * 2019-11-30 2020-04-17 南京森林警察学院 一种警务相关智能组题系统
CN112699232A (zh) * 2019-10-17 2021-04-23 北京京东尚科信息技术有限公司 文本标签提取方法、装置、设备和存储介质
CN112995690A (zh) * 2021-02-26 2021-06-18 广州虎牙科技有限公司 直播内容品类识别方法、装置、电子设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174343A1 (en) * 2006-01-25 2007-07-26 Fortuna Joseph A Method and system for automatic summarization and digest of celebrity news
CN105893478A (zh) * 2016-03-29 2016-08-24 广州华多网络科技有限公司 一种标签提取方法及设备
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建系统
CN106960042A (zh) * 2017-03-29 2017-07-18 中国科学技术大学苏州研究院 基于弹幕语义分析的网络直播监督方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756233B2 (en) * 2010-04-16 2014-06-17 Video Semantics Semantic segmentation and tagging engine
CN106096031B (zh) * 2016-06-27 2020-06-16 武汉斗鱼网络科技有限公司 一种带标签的视频排序方法及装置
CN106453284B (zh) * 2016-09-27 2019-09-27 香港乐蜜有限公司 直播标签更新方法、装置和终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174343A1 (en) * 2006-01-25 2007-07-26 Fortuna Joseph A Method and system for automatic summarization and digest of celebrity news
CN105893478A (zh) * 2016-03-29 2016-08-24 广州华多网络科技有限公司 一种标签提取方法及设备
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建系统
CN106960042A (zh) * 2017-03-29 2017-07-18 中国科学技术大学苏州研究院 基于弹幕语义分析的网络直播监督方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034049A (zh) * 2018-07-23 2018-12-18 北京密境和风科技有限公司 跳舞视频的识别方法及装置
CN109063133A (zh) * 2018-08-02 2018-12-21 武汉斗鱼网络科技有限公司 一种直播间标签的添加方法、系统、设备及介质
CN109063133B (zh) * 2018-08-02 2021-02-02 武汉斗鱼网络科技有限公司 一种直播间标签的添加方法、系统、设备及介质
CN110896488B (zh) * 2018-08-23 2022-01-04 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN110896488A (zh) * 2018-08-23 2020-03-20 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN109379608A (zh) * 2018-09-13 2019-02-22 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN109379608B (zh) * 2018-09-13 2021-07-23 武汉斗鱼网络科技有限公司 一种直播间的推荐方法以及相关设备
CN109255066A (zh) * 2018-09-30 2019-01-22 武汉斗鱼网络科技有限公司 一种业务对象的标签标记方法、装置、服务器和存储介质
CN109255066B (zh) * 2018-09-30 2021-11-09 武汉斗鱼网络科技有限公司 一种业务对象的标签标记方法、装置、服务器和存储介质
CN109547863A (zh) * 2018-10-22 2019-03-29 武汉斗鱼网络科技有限公司 一种标签的标记方法、装置、服务器和存储介质
CN109547863B (zh) * 2018-10-22 2021-06-15 武汉斗鱼网络科技有限公司 一种标签的标记方法、装置、服务器和存储介质
CN109919213A (zh) * 2019-02-27 2019-06-21 上海六界信息技术有限公司 直播类型的确定方法、装置、设备及存储介质
CN110377843A (zh) * 2019-07-17 2019-10-25 网易(杭州)网络有限公司 直播间处理方法及装置、电子设备、存储介质
CN110519654A (zh) * 2019-09-11 2019-11-29 广州荔支网络技术有限公司 一种标签确定方法及装置
CN110519654B (zh) * 2019-09-11 2021-07-27 广州荔支网络技术有限公司 一种标签确定方法、装置、电子设备及存储介质
CN110688852A (zh) * 2019-09-27 2020-01-14 西安赢瑞电子有限公司 一种汉字词语频度存储方法
CN112699232A (zh) * 2019-10-17 2021-04-23 北京京东尚科信息技术有限公司 文本标签提取方法、装置、设备和存储介质
CN111027321A (zh) * 2019-11-30 2020-04-17 南京森林警察学院 一种警务相关智能组题系统
CN112995690A (zh) * 2021-02-26 2021-06-18 广州虎牙科技有限公司 直播内容品类识别方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN108280059B (zh) 2020-08-04
WO2019136841A1 (zh) 2019-07-18

Similar Documents

Publication Publication Date Title
CN108280059A (zh) 直播间内容标签提取方法、存储介质、电子设备及系统
Zhang et al. Ad hoc table retrieval using semantic similarity
CN104598518B (zh) 一种内容的推送方法和装置
Du et al. An improved focused crawler based on semantic similarity vector space model
Jiang et al. Fast semantic diffusion for large-scale context-based image and video annotation
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108509479B (zh) 实体推荐方法及装置、终端及可读存储介质
CN109543031A (zh) 一种基于多任务对抗学习的文本分类方法
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
CN106874292A (zh) 话题处理方法及装置
Fang et al. Topic aspect-oriented summarization via group selection
CN106815364A (zh) 内容推送方法和装置
CN103020295A (zh) 一种问题标签标注方法及装置
CN111090734B (zh) 基于层级注意力机制优化机器阅读理解能力的方法和系统
CN107180087B (zh) 一种搜索方法及装置
CN104252616A (zh) 人脸标注方法、装置及设备
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN113641707B (zh) 知识图谱消歧方法、装置、设备及存储介质
Tu et al. Multi-label crowd consensus via joint matrix factorization
Wenzhen Personalized music recommendation algorithm based on hybrid collaborative filtering technology
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
CN111177411A (zh) 一种基于nlp的知识图谱构建方法
Kaur et al. Semantic-based integrated plagiarism detection approach for english documents
CN108509449B (zh) 一种信息处理的方法及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant