CN109213841B - 直播主题样本提取方法、存储介质、电子设备及系统 - Google Patents

直播主题样本提取方法、存储介质、电子设备及系统 Download PDF

Info

Publication number
CN109213841B
CN109213841B CN201710515717.3A CN201710515717A CN109213841B CN 109213841 B CN109213841 B CN 109213841B CN 201710515717 A CN201710515717 A CN 201710515717A CN 109213841 B CN109213841 B CN 109213841B
Authority
CN
China
Prior art keywords
live
sample
live broadcast
topic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710515717.3A
Other languages
English (en)
Other versions
CN109213841A (zh
Inventor
龚灿
陈少杰
张文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201710515717.3A priority Critical patent/CN109213841B/zh
Publication of CN109213841A publication Critical patent/CN109213841A/zh
Application granted granted Critical
Publication of CN109213841B publication Critical patent/CN109213841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种直播主题样本提取方法、存储介质、电子设备及系统,涉及直播弹幕过滤领域。该方法的步骤为:获取指定周期内直播对象的文字数据信息;设置在文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库;在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数后形成文字数据对象的直播样本向量;将所有直播样本向量相加,得到直播主题样本向量并进行加权计算得到加权值。本发明提取直播主题样本时,能够显著减小运营成本,大幅度提高工作效率和工作精度;还能够为后续直播主题样本的统计、识别和其他处理提供有力的支持。

Description

直播主题样本提取方法、存储介质、电子设备及系统
技术领域
本发明涉及直播弹幕过滤领域,具体涉及一种直播主题样本提取方法、存储介质、电子设备及系统。
背景技术
随着直播行业的快速发展,越来越多的用户喜爱观看直播。直播平台为了提升用户体验,对每个直播对象(例如直播平台、直播间和直播用户)都设置了直播主题。为了对直播主题进行精细化总结和管理,直播平台会根据直播主题提取每个直播对象的直播主题样本。
目前,现有根据直播主题提取每个直播对象的直播主题样本的方法一般为:人工监测指定周期内直播对象的文字数据(即弹幕),在监测到的所有文字数据中提取直播主题样本。
但是,上述根据直播主题提取每个直播对象的直播主题样本的方法。存在以下缺陷:
当直播对象较多时,需要大量的人工来监测每个直播对象的文字数据,不仅大量增加了运营成本,而且人工监测和提取直播主题样本的工作效率和工作精度均较低。
发明内容
针对现有技术中存在的缺陷,本发明解决的技术问题为:如何自动提取直播主题样本。本发明提取直播主题样本时,能够显著减小运营成本,大幅度提高工作效率和工作精度;还能够为后续直播主题样本的统计、识别和其他处理提供有力的支持。
为达到以上目的,本发明提供的直播主题样本提取方法,包括以下步骤:
S1:服务端获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,转到S2;
S2:服务端设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,转到S3;
S3:服务端在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,转到S4;
S4:服务端将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据A进行加权计算,得到加权值X,计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在S1中的所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W1/W2),W1代表出现过A对应的直播主题样本的文字数据对象的数量,W2代表S1中的所有文字数据对象的数量。
在上述技术方案的基础上,S2还包括以下步骤:为每个所述直播主题样本设置对应的关联信息;S3中所述直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。
在上述技术方案的基础上,S3中所述在每个子文字数据对象的文字信息中,统计与每个直播主题样本及其关联信息的出现次数之前,还包括以下步骤:服务端设置停用词,在所有子文字数据对象的文字信息中剔除停用词。
本发明提供的存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述直播主题样本提取方法。
本发明提供的电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述直播主题样本提取方法。
本发明提供的直播主题样本提取系统,包括设置于服务端上的文字数据信息获取模块、样本词库创建模块、直播样本向量设置模块和直播主题样本向量加权计算模块;
文字数据信息获取模块用于:获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,向样本词库创建模块发送样本词库创建信号;
样本词库创建模块用于:收到样本词库创建信号后,设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,向直播样本向量设置模块发送直播样本向量设置信号;
直播样本向量设置模块用于:收到直播样本向量设置信号后,在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,向直播主题样本向量加权计算模块发送直播主题样本向量加权计算信号;
直播主题样本向量加权计算模块用于:收到直播主题样本向量加权计算信号后,将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据A进行加权计算,得到加权值X,计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在文字数据信息获取模块中的所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W1/W2),W1代表出现过A对应的直播主题样本的文字数据对象的数量,W2代表文字数据信息获取模块中的所有文字数据对象的数量。
与现有技术相比,本发明的优点在于:
(1)参见本发明S1至S4可知,与现有技术中的人工操作相比,本发明能够自动统计直播主题样本的出现次数并进行提取,不仅显著减小了运营成本,而且大幅度提高了工作效率和工作精度。
与此同时,与文字展现的直播主题样本相比,本发明能够将直播主题样本以向量的形式展现;对于统计和识别而言,向量(即数字)能够统一进行统计、识别以及进行后续处理,而文字则不可能达到上述效果。因此本发明能够为后续直播主题样本的统计、识别和其他处理提供有力的支持。
进一步,参加本发明S4可知,本发明得到直播主题样本向量,会对直播主题样本向量进行TF-IDF加权计算,该算法得到的加权值能够体现出对应直播主题样本区分能力的强弱,进而为后续的直播主题样本分类处理打下了良好的基础:例如某直播主题样本在1个文字数据对象的文字信息中出现的频率较高,但在其他文字数据对象的文字信息中出现的频率较低,则该直播主题样本具有很好的类别区分能力,适合用来分类。
(2)参见本发明S2和S3可知,本发明在统计直播主体样本时,将直播主题样本和主播主题样本的关联信息的出现次数,均作为同一直播主题样本的出现次数,进而将非通俗用语通过关联信息识别为对应的直播主题样本,以此来进一步提高提取精度。
(3)参见本发明S3可知,本发明在统计直播主题样本之前,对文字信息进行了停用词的过滤,进行简化了文字信息的数据量;与直接在完整的文字信息中统计直播主题样本的出现次数相比,本发明在简化后的文字信息中统计直播主题样本的工作量较小,进而提高了工作效率。
附图说明
图1为本发明实施例中直播主题样本提取方法的流程图;
图2为本发明实施例中电子设备的连接框图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例中的直播主题样本提取方法,包括以下步骤:
S1:服务端在HIVE(非关系型数据库)中,利用数据库查询语句获取指定周期(至少15天,本实施例中为1个月)内需要提取直播主题样本的直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息(以便后续可以分类管理),每组子文字数据信息包括子文字数据对象和对应的文字信息,转到S2。
S1中直播对象为直播平台、直播间或直播用户:
当直播对象为直播平台时,1个子文字数据对象为指定周期内隶属于直播平台下同一直播主题的单个直播间,文字信息为该直播间在指定周期内收到的所有弹幕;
当直播对象为直播间时,1个子文字数据对象为指定周期内直播间中收到的单条弹幕,文字信息为该单条弹幕的具体信息;
当直播对象为直播用户时,1个子文字数据对象为指定周期内直播用户发送的单条弹幕,文字信息为该单条弹幕的具体信息。
S2:服务端设置若干在S1中文字信息中出现过的直播主题样本(关键词或字),实际应用中直播主题样本的数量根据文字信息的多少来决定,若文字信息较多,则直播主题样本数量较多,例如40万个;为每个直播主题样本设置对应的关联信息,将所有直播主题样本保存形成样本词库,转到S3。
S2中设置直播主题样本的目的为:让与直播主题样本相同的文字信息不会被切分为单独的字,例如直播主题样本为“裸狼”(狼人杀游戏的专有术语),则文字信息中若出现“裸狼”,则不会在后续别切分为“裸”和“狼”两个单字。
S2中为每个直播主题样本设置对应的关联信息的目的为:将非通俗用语识别为通俗用语,以提高提取精度。例如本实施例中的3个直播主题样本分别为“喝彩”、“手机联系方式”和“QQ联系方式”;
“喝彩”的关联信息为“666”,此时文字信息中若含有“666”,则会在后续自动识别为“喝彩”;
“手机联系方式”的关联信息为:1开头的11位连续数字的组合,此时文字信息中若含有“13617258349”,则会在后续自动识别为“手机联系方式”;
“QQ联系方式”的关联信息为:“QQ”和6至10位连续数字的组合,此时文字信息中若含有“QQ324567865”,则会在后续自动识别为“QQ联系方式”。
S3:服务端设置若干停用词,在所有子文字数据对象的文字信息中剔除停用词后,在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,例如:
样本词库中前4个直播主题样本的排列顺序为:“主播”、“裸狼”、“玩”和“太棒”,此时子文字数据对象的文字信息中“主播”、“裸狼”和“玩”各出现了1次,“太棒”出现了2次,假定当前子文字数据对象的文字信息中没有出现其他的直播主题样本,则当前文字数据对象的直播样本向量为1,1,1,2,0,0,0,0…,0,0的数量为样本词库中直播主题样本的数量减4,转到S4。
通过S3可知,本发明实施例在统计直播主题样本之前,对文字信息进行了停用词的过滤,进行简化了文字信息的数据量;与直接在完整的文字信息中统计直播主题样本的出现次数相比,本发明在简化后的文字信息中统计直播主题样本的工作量较小,进而提高了工作效率。
S4:服务端将所有直播样本向量相加,得到直播主题样本向量,例如:直播样本向量为a(x1,x2,0,0,0…,0)和b(y1,y2,0,0,0…,0),a+b=x1+y1,x2+y2,0,0,0…,0。根据TF-IDF(term frequency–inverse document frequency,用于信息检索与数据挖掘的常用加权技术),对直播主题样本向量中的每个数据A进行加权计算,得到加权值X;计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在S1中所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W1/W2),log(W1/W2)代表,W1/W2的对数,W1代表S1中出现过A对应的直播主题样本的文字数据对象的数量,W2代表S1中所有文字数据对象的数量。
通过S1至S4可知,与文字展现的直播主题样本相比,本发明实施例能够将直播主题样本以向量的形式展现;对于统计和识别而言,向量(即数字)能够统一进行统计、识别以及进行后续处理,而文字则不可能达到上述效果。因此本发明实施例能够为后续直播主题样本的统计、识别和其他处理提供有力的支持。
进一步,参加S4可知,本发明实施例得到直播主题样本向量,会对直播主题样本向量进行TF-IDF加权计算,该算法得到的加权值能够体现出对应直播主题样本区分能力的强弱,进而为后续的直播主题样本分类处理打下了良好的基础:例如某直播主题样本在1个文字数据对象的文字信息中出现的频率较高,但在其他文字数据对象的文字信息中出现的频率较低,则该直播主题样本具有很好的类别区分能力,适合用来分类。
本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述直播主题样本提取方法。需要说明的是,所述存储介质包括U盘、移动硬盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
参见图2所示,本发明实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述直播主题样本提取方法。
本发明实施例中的直播主题样本提取系统,包括设置于服务端上的文字数据信息获取模块、样本词库创建模块、直播样本向量设置模块和直播主题样本向量加权计算模块。
文字数据信息获取模块用于:获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,向样本词库创建模块发送样本词库创建信号。
文字数据信息获取模块的直播对象为直播平台、直播间或直播用户:
当直播对象为直播平台时,1个子文字数据对象为指定周期内隶属于直播平台下同一直播主题的单个直播间,文字信息为该直播间在所述指定周期内收到的所有弹幕;
当直播对象为直播间时,1个子文字数据对象为指定周期内直播间中收到的单条弹幕,文字信息为该单条弹幕的具体信息;
当直播对象为直播用户时,1个子文字数据对象为指定周期内直播用户发送的单条弹幕,文字信息为该单条弹幕的具体信息。
样本词库创建模块用于:收到样本词库创建信号后,设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,为每个所述直播主题样本设置对应的关联信息;向直播样本向量设置模块发送直播样本向量设置信号。
直播样本向量设置模块用于:收到直播样本向量设置信号后,设置停用词,在所有子文字数据对象的文字信息中剔除停用词。在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数,直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,向直播主题样本向量加权计算模块发送直播主题样本向量加权计算信号。
直播主题样本向量加权计算模块用于:收到直播主题样本向量加权计算信号后,将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据A进行加权计算,得到加权值X,计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在文字数据信息获取模块中的所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W1/W2),W1代表出现过A对应的直播主题样本的文字数据对象的数量,W2代表文字数据信息获取模块中的所有文字数据对象的数量。
需要说明的是:本发明实施例提供的系统在进行模块间通信时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
进一步,本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (8)

1.一种直播主题样本提取方法,其特征在于,该方法包括以下步骤:
S1:服务端获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,转到S2;
S2:服务端设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,转到S3;
S3:服务端在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,转到S4;
S4:服务端将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据A进行加权计算,得到加权值X,计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在S1中的所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W2/W1),W1代表出现过A对应的直播主题样本的文字数据对象的数量,W2代表S1中的所有文字数据对象的数量;
S1中所述直播对象为直播平台、直播间或直播用户:
当直播对象为直播平台时,1个子文字数据对象为指定周期内隶属于直播平台下同一直播主题的单个直播间,文字信息为该直播间在所述指定周期内收到的所有弹幕;
当直播对象为直播间时,1个子文字数据对象为指定周期内直播间中收到的单条弹幕,文字信息为该单条弹幕的具体信息;
当直播对象为直播用户时,1个子文字数据对象为指定周期内直播用户发送的单条弹幕,文字信息为该单条弹幕的具体信息。
2.如权利要求1所述的直播主题样本提取方法,其特征在于:S2还包括以下步骤:为每个所述直播主题样本设置对应的关联信息;S3中所述直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。
3.如权利要求1所述的直播主题样本提取方法,其特征在于:S3中所述在每个子文字数据对象的文字信息中,统计与每个直播主题样本及其关联信息的出现次数之前,还包括以下步骤:服务端设置停用词,在所有子文字数据对象的文字信息中剔除停用词。
4.一种计算机可读存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至3任一项所述的方法。
5.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:处理器执行计算机程序时实现权利要求1至3任一项所述的方法。
6.一种直播主题样本提取系统,其特征在于:该系统包括设置于服务端上的文字数据信息获取模块、样本词库创建模块、直播样本向量设置模块和直播主题样本向量加权计算模块;
文字数据信息获取模块用于:获取指定周期内直播对象的文字数据信息,文字数据信息包括至少2组子文字数据信息,每组子文字数据信息包括子文字数据对象和对应的文字信息,向样本词库创建模块发送样本词库创建信号;
样本词库创建模块用于:收到样本词库创建信号后,设置若干在所述文字信息中出现过的直播主题样本,将所有直播主题样本保存形成样本词库,向直播样本向量设置模块发送直播样本向量设置信号;
直播样本向量设置模块用于:收到直播样本向量设置信号后,在每个子文字数据对象的文字信息中,统计每个直播主题样本对应的出现次数;将每个子文字数据对象中的每个直播主题样本对应的出现次数,按照所述样本词库中直播主题样本的排列顺序,排列形成文字数据对象的直播样本向量,向直播主题样本向量加权计算模块发送直播主题样本向量加权计算信号;
直播主题样本向量加权计算模块用于:收到直播主题样本向量加权计算信号后,将所有直播样本向量相加,得到直播主题样本向量;对直播主题样本向量中的每个数据A进行加权计算,得到加权值X,计算公式为X=TF·IDF,TF代表A对应的直播主题样本的词频,TF=A/C,C代表在文字数据信息获取模块中的所有文字信息中,每个直播主题样本对应的出现次数之和;IDF=log(W2/W1),W1代表出现过A对应的直播主题样本的文字数据对象的数量,W2代表文字数据信息获取模块中的所有文字数据对象的数量;
所述文字数据信息获取模块的直播对象为直播平台、直播间或直播用户:
当直播对象为直播平台时,1个子文字数据对象为指定周期内隶属于直播平台下同一直播主题的单个直播间,文字信息为该直播间在所述指定周期内收到的所有弹幕;
当直播对象为直播间时,1个子文字数据对象为指定周期内直播间中收到的单条弹幕,文字信息为该单条弹幕的具体信息;
当直播对象为直播用户时,1个子文字数据对象为指定周期内直播用户发送的单条弹幕,文字信息为该单条弹幕的具体信息。
7.如权利要求6所述的直播主题样本提取系统,其特征在于:所述样本词库创建模块还用于:为每个所述直播主题样本设置对应的关联信息;所述直播样本向量设置模块中的直播主题样本对应的出现次数为:直播主题样本与直播主题样本的关联信息的出现次数之和。
8.如权利要求6所述的直播主题样本提取系统,其特征在于:所述直播样本向量设置模块在每个子文字数据对象的文字信息中,统计与每个直播主题样本及其关联信息的出现次数之前,还用于:设置停用词,在所有子文字数据对象的文字信息中剔除停用词。
CN201710515717.3A 2017-06-29 2017-06-29 直播主题样本提取方法、存储介质、电子设备及系统 Active CN109213841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710515717.3A CN109213841B (zh) 2017-06-29 2017-06-29 直播主题样本提取方法、存储介质、电子设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710515717.3A CN109213841B (zh) 2017-06-29 2017-06-29 直播主题样本提取方法、存储介质、电子设备及系统

Publications (2)

Publication Number Publication Date
CN109213841A CN109213841A (zh) 2019-01-15
CN109213841B true CN109213841B (zh) 2021-01-01

Family

ID=64976896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710515717.3A Active CN109213841B (zh) 2017-06-29 2017-06-29 直播主题样本提取方法、存储介质、电子设备及系统

Country Status (1)

Country Link
CN (1) CN109213841B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263854B (zh) * 2019-06-20 2023-06-27 广州酷狗计算机科技有限公司 直播标签确定方法、装置及存储介质
CN116152711B (zh) * 2022-08-25 2024-03-22 北京凯利时科技有限公司 基于多模态的导播方法和系统以及计算机程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统
CN105893478A (zh) * 2016-03-29 2016-08-24 广州华多网络科技有限公司 一种标签提取方法及设备
CN106326371A (zh) * 2016-08-12 2017-01-11 北京奇艺世纪科技有限公司 服务推送方法及装置
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN106407484A (zh) * 2016-12-09 2017-02-15 上海交通大学 一种基于弹幕语义关联的视频标签提取方法
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN106528894A (zh) * 2016-12-28 2017-03-22 北京小米移动软件有限公司 设置标签信息的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990200B1 (en) * 2009-10-02 2015-03-24 Flipboard, Inc. Topical search system
US9542477B2 (en) * 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662965A (zh) * 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统
CN105893478A (zh) * 2016-03-29 2016-08-24 广州华多网络科技有限公司 一种标签提取方法及设备
CN106326371A (zh) * 2016-08-12 2017-01-11 北京奇艺世纪科技有限公司 服务推送方法及装置
CN106407182A (zh) * 2016-09-19 2017-02-15 国网福建省电力有限公司 一种用于企业电子公文文档自动摘要的方法
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN106407484A (zh) * 2016-12-09 2017-02-15 上海交通大学 一种基于弹幕语义关联的视频标签提取方法
CN106528894A (zh) * 2016-12-28 2017-03-22 北京小米移动软件有限公司 设置标签信息的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网络游戏直播平台的互动仪式研究;雷宁;《中国优秀硕士学位论文全文数据库社会科学Ⅱ辑》;20161215(第12期);全文 *

Also Published As

Publication number Publication date
CN109213841A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN105435453A (zh) 一种弹幕信息处理方法、装置和系统
CN111191067A (zh) 绘本识别方法、终端设备及计算机可读存储介质
CN110166811B (zh) 弹幕信息的处理方法、装置及设备
CN110209809B (zh) 文本聚类方法和装置、存储介质及电子装置
CN109213841B (zh) 直播主题样本提取方法、存储介质、电子设备及系统
CN111639138A (zh) 数据处理方法、装置、设备及存储介质
CN111177436B (zh) 一种人脸特征检索方法、装置及设备
CN110334276A (zh) 竞赛平台数据处理方法、装置、设备及存储介质
CN109388693B (zh) 一种确定分区意图的方法以及相关设备
CN109088788B (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN109697676B (zh) 基于社交群的用户分析及应用方法和装置
CN105872731A (zh) 数据处理的方法和装置
CN110909263B (zh) 一种身份特征的伴随关系确定方法及装置
CN111090996B (zh) 一种分词的方法、装置及存储介质
CN114866788A (zh) 视频的处理方法及装置
CN113159178A (zh) 问题扩展方法、装置、服务器及介质
CN112765118A (zh) 一种日志查询方法、装置、设备及存储介质
CN112948646B (zh) 数据识别方法和装置
CN110990708A (zh) 热点事件确定方法、装置、存储介质及电子设备
CN112988829A (zh) 一种大数据分析处理系统
CN106484729B (zh) 一种词汇生成、分类方法及装置
CN112800146B (zh) 风控数据的回溯方法及装置、存储介质和处理器
CN113742571B (zh) 一种基于大数据的消息推送方法及装置、存储介质
CN111054081B (zh) 游戏运营数据处理方法及相关设备
CN112243156B (zh) 弹幕显示方法和装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant