CN110263854B - 直播标签确定方法、装置及存储介质 - Google Patents

直播标签确定方法、装置及存储介质 Download PDF

Info

Publication number
CN110263854B
CN110263854B CN201910538532.3A CN201910538532A CN110263854B CN 110263854 B CN110263854 B CN 110263854B CN 201910538532 A CN201910538532 A CN 201910538532A CN 110263854 B CN110263854 B CN 110263854B
Authority
CN
China
Prior art keywords
word
tag
determining
words
live
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910538532.3A
Other languages
English (en)
Other versions
CN110263854A (zh
Inventor
陶彦百
谢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201910538532.3A priority Critical patent/CN110263854B/zh
Publication of CN110263854A publication Critical patent/CN110263854A/zh
Application granted granted Critical
Publication of CN110263854B publication Critical patent/CN110263854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种直播标签的确定方法、装置及存储介质,属于直播技术领域。所述方法包括:获取目标直播间的公屏聊天数据;通过对公屏聊天数据进行分词处理,确定多个第一分词;基于多个第一分词的词频和逆向文件频率,从多个第一分词中提取N个第一分词;基于N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;基于N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将该至少一个预测标签词作为目标直播间的直播标签。本申请通过对直播间的公屏聊天数据进行分析,来确定直播间的直播标签,可以使得确定的直播标签能够准确反映直播间的直播内容,提高了确定直播标签的准确性和效率。

Description

直播标签确定方法、装置及存储介质
技术领域
本申请涉及直播技术领域,特别涉及一种直播标签的确定方法、装置及存储介质。
背景技术
在直播技术领域,通常需要为直播间设置直播标签,直播标签用于指示直播间的直播类型、直播内容或直播状态等,这样,直播平台即可基于直播标签进行直播推荐,而用户可以基于直播标签快速查询感兴趣的直播间。
目前,通常由主播或观众为直播间设置直播标签。但是,这种人为设置直播标签方式,准确性和效率都较低。比如,在主播为直播间设置了一次直播标签之后,随着直播间内直播内容的变化,主播可能会忘记对直播标签进行修改,导致直播标签与直播内容不匹配。或者,为保证直播标签与直播内容匹配,主播需要根据直播内容的变化频繁修改直播标签,操作较为繁琐。
发明内容
本申请实施例提供了一种直播标签的确定方法、装置及存储介质,可以用于解决相关技术中存在的直播标签的准确性和设置效率较低的问题。所述技术方案如下:
一方面,提供了一种直播标签的确定方法,所述方法包括:
获取目标直播间的公屏聊天数据;
通过对所述公屏聊天数据进行分词处理,确定多个第一分词;
基于所述多个第一分词的词频和逆向文件频率,从所述多个第一分词中提取N个第一分词,所述N为正整数;
基于所述N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;
基于所述N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将所述至少一个预测标签词作为所述目标直播间的直播标签,所述标签识别模型用于确定任一特征矩阵对应的标签词。
可选地,所述通过对所述公屏聊天数据进行分词处理,确定多个第一分词,包括:
基于预设词典库,对所述公屏聊天数据进行分词处理,得到多个第二分词;
从所述多个第二分词中提取预设词性的第二分词,得到所述多个第一分词。
可选地,所述基于所述多个第一分词的词频和逆向文件频率,从所述多个第一分词中提取N个第一分词,包括:
确定所述多个第一分词中每个第一分词的词频和逆向文件频率;
将每个第一分词的词频和逆向文件频率的乘积,确定为每个第一分词的重要度得分;
按照重要度得分从大到小的顺序,从所述多个第一分词中提取排序在前的N个第一分词。
可选地,所述基于所述N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵,包括:
对于所述N个第一分词中的每个第一分词,提取所述每个第一分词所在的句子中包括的词语;
通过词向量模型,确定提取的每个词语对应的词向量;
基于提取的各个词语对应的词向量所组成的第一向量矩阵,确定所述每个第一分词的特征矩阵。
可选地,所述基于提取的各个词语对应的词向量所组成的矩阵,确定所述每个第一分词的特征矩阵,包括:
将提取的各个词语对应的词向量所组成的第一向量矩阵,确定为所述每个第一分词的特征矩阵;或者,
将提取的各个词语对应的词向量所组成的第一向量矩阵转换为预设矩阵大小的第二向量矩阵,将所述第二向量矩阵,确定为所述每个第一分词的特征矩阵。
可选地,所述将提取的各个词语对应的词向量所组成的第一向量矩阵转换为预设矩阵大小的第二矩阵,包括:
利用梯度下降法,确定提取的每个词语的映射权重;
基于提取的每个词语的映射权重,将所述第一向量矩阵映射到预设矩阵大小的矩阵中,得到所述第二向量矩阵。
可选地,所述基于所述N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,包括:
将所述N个第一分词的特征矩阵作为所述标签识别模型的输入,通过所述标签识别模型输出N个预设标签词;或者,
对所述N个第一分词的特征矩阵进行K均值聚类,得到K类第一分词的特征矩阵;确定所述K类第一分词的特征矩阵中每类第一分词的特征矩阵的聚类中心,得到K个第一聚类中心;基于所述K个第一聚类中心,通过所述标签识别模型,确定K个预设标签词;其中,所述K是基于所述N个第一分词的特征矩阵的轮廓系数确定得到。
可选地,所述基于所述K个第一聚类中心,通过所述标签识别模型,确定K个预设标签词,包括:
将所述K个第一聚类中心作为所述标签识别模型的输入,通过所述标签识别模型输出所述K个预测标签词;或者,
统计所述K类第一分词中每类第一分词包括的各个第一分词的词频和重要度得分;将每类第一分词包括的各个第一分词的词频和重要度得分,添加到每类第一分词对应的第一聚类中心中,得到K个第二聚类中心;将所述K个第二聚类中心作为所述标签识别模型的输入,通过所述标签识别模型输出所述K个预测标签词。
可选地,所述将所述至少一个预测标签词作为所述目标直播间的直播标签之后,还包括:
基于所述目标直播间的直播标签,对所述目标直播间或者所述目标直播间的主播进行推荐。
可选地,所述基于所述目标直播间的直播标签,对所述目标直播间或者所述目标直播间的主播进行推荐,包括:
若检测到目标用户偏好的直播类型,与所述目标直播间的直播标签匹配,则向所述目标用户推荐所述目标直播间或者所述目标直播间的主播。
可选地,所述基于所述N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词之前,还包括:
获取多个直播间的历史公屏聊天数据;
对于所述多个直播间中的每个直播间,通过对所述每个直播间的历史公屏聊天数据进行分词处理,确定多个第三分词;
基于所述多个第三分词的词频和逆向文件频率,从所述多个第三分词中提取M个二级标签词,所述M为正整数;
基于所述M个二级标签次中每个二级标签词所在的语句,确定每个二级标签词的特征矩阵,得到所述每个直播间对应的二级标签词和二级标签词的特征矩阵;
基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集;
基于所述训练样本集,对待训练标签识别模型进行训练,得到所述标签识别模型。
可选地,所述基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集,包括:
从所述多个直播间的历史公屏聊天数据中,确定不存在二级标签词的多个语句;
通过词向量模型,确定所述多个语句中每个语句对应的特征矩阵;
将所述多个语句对应的特征矩阵确定为多个负样本;
基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定多个正样本;
基于所述多个正样本和所述多个负样本,确定所述训练样本集。
可选地,所述基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定多个正样本,包括:
将所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定为所述多个正样本;或者,
对所述直播间中每个直播间对应的二级标签词的特征矩阵进行K均值聚类,得到每个直播间对应的K类二级标签词的特征矩阵;确定每个直播间对应的K类二级标签词的特征矩阵的聚类中心,得到每个直播间对应的K个第三聚类中心;对于每个直播间对应的K个第三聚类中心中的每个第三聚类中心,对每个第三聚类中心对应的一类二级标签词进行汇总,得到每个第三聚类中心对应的一级标签词;基于所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定所述多个正样本。
可选地,所述基于所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定所述多个正样本,包括:
将所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定为所述多个正样本;或者,
对于所述直播间中的每个直播间,统计所述每个直播间对应的K类二级标签词中每类二级标签词包括的各个二级标签词的词频和重要度得分;将每类二级标签词包括的各个二级标签词的词频和重要度得分,添加到每类二级标签词对应的第三聚类中心中,得到所述每个直播间对应的K个第四聚类中心;将每个第三聚类中心对应的一级标签词,确定为对应的每个第四聚类中心对应的一级标签词;将所述多个直播间中每个直播间对应的K个第四聚类中心和每个第四聚类中心对应的一级标签词,确定为所述多个正样本。
可选地,所述基于所述多个正样本和所述多个负样本,确定所述训练样本集,包括:
按照预设正负样本比例,对所述多个正样本和所述多个负样本进行混合,得到混合样本集;
基于所述混合样本集,确定所述训练样本集。
可选地,所述基于所述混合样本,确定所述训练样本集,包括:
将所述混合样本集,确定为所述训练样本集;或者,
将所述混合样本集中的一部分样本集,确定为所述训练样本集。
可选地,所述将所述混合样本集中的部分样本集,确定为所述训练样本集之后,还包括:
将所述混合样本集中的另一部分样本集,确定为验证样本集;
所述基于所述训练样本集,对待训练标签识别模型进行训练,得到所述标签识别模型之后,还包括:
基于所述验证样本集,对所述标签识别模型进行验证;
基于验证结果,对所述标签识别模型中的模型参数进行调整。
一方面,提供了一种直播标签的确定装置,所述装置包括:
第一获取模块,用于获取目标直播间的公屏聊天数据;
第一确定模块,用于通过对所述公屏聊天数据进行分词处理,确定多个第一分词;
第一提取模块,用于基于所述多个第一分词的词频和逆向文件频率,从所述多个第一分词中提取N个第一分词,所述N为正整数;
第二确定模块,用于基于所述N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;
第三确定模块,用于基于所述N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将所述至少一个预测标签词作为所述目标直播间的直播标签,所述标签识别模型用于确定任一特征矩阵对应的标签词。
可选地,所述第一确定模块用于:
基于预设词典库,对所述公屏聊天数据进行分词处理,得到多个第二分词;
从所述多个第二分词中提取预设词性的第二分词,得到所述多个第一分词。
可选地,所述第一提取模块用于:
确定所述多个第一分词中每个第一分词的词频和逆向文件频率;
将每个第一分词的词频和逆向文件频率的乘积,确定为每个第一分词的重要度得分;
按照重要度得分从大到小的顺序,从所述多个第一分词中提取排序在前的N个第一分词。
可选地,所述第二确定模块包括:
提取单元,用于对于所述N个第一分词中的每个第一分词,提取所述每个第一分词所在的句子中包括的词语;
第一确定单元,用于通过词向量模型,确定提取的每个词语对应的词向量;
第二确定单元,用于基于提取的各个词语对应的词向量所组成的第一向量矩阵,确定所述每个第一分词的特征矩阵。
可选地,所述第二确定单元包括:
第一确定子单元,用于将提取的各个词语对应的词向量所组成的第一向量矩阵,确定为所述每个第一分词的特征矩阵;或者,
第二确定子单元,用于将提取的各个词语对应的词向量所组成的第一向量矩阵转换为预设矩阵大小的第二向量矩阵,将所述第二向量矩阵,确定为所述每个第一分词的特征矩阵。
可选地,所述第二确定子单元用于:
利用梯度下降法,确定提取的每个词语的映射权重;
基于提取的每个词语的映射权重,将所述第一向量矩阵映射到预设矩阵大小的矩阵中,得到所述第二向量矩阵。
可选地,所述第三确定模块包括:
第三确定单元,用于将所述N个第一分词的特征矩阵作为所述标签识别模型的输入,通过所述标签识别模型输出N个预设标签词;或者,
第四确定单元,用于对所述N个第一分词的特征矩阵进行K均值聚类,得到K类第一分词的特征矩阵;确定所述K类第一分词的特征矩阵中每类第一分词的特征矩阵的聚类中心,得到K个第一聚类中心;基于所述K个第一聚类中心,通过所述标签识别模型,确定K个预设标签词;其中,所述K是基于所述N个第一分词的特征矩阵的轮廓系数确定得到。
可选地,所述第四确定单元用于:
将所述K个第一聚类中心作为所述标签识别模型的输入,通过所述标签识别模型输出所述K个预测标签词;或者,
统计所述K类第一分词中每类第一分词包括的各个第一分词的词频和重要度得分;将每类第一分词包括的各个第一分词的词频和重要度得分,添加到每类第一分词对应的第一聚类中心中,得到K个第二聚类中心;将所述K个第二聚类中心作为所述标签识别模型的输入,通过所述标签识别模型输出所述K个预测标签词。
可选地,所述装置还包括:
推荐模块,用于基于所述目标直播间的直播标签,对所述目标直播间或者所述目标主播间的主播进行推荐。
可选地,所述推荐模块用于:
若检测到目标用户偏好的直播类型,与所述目标直播间的直播标签匹配,则向所述目标用户推荐所述目标直播间或者所述目标直播间的主播。
可选地,所述装置还包括:
第二获取模块,用于获取多个直播间的历史公屏聊天数据;
第四确定模块,用于对于所述多个直播间中的每个直播间,通过对所述每个直播间的历史公屏聊天数据进行分词处理,确定多个第三分词;
第二提取模块,用于基于所述多个第三分词的词频和逆向文件频率,从所述多个第三分词中提取M个二级标签词,所述M为正整数;
第五确定模块,用于基于所述M个二级标签次中每个二级标签词所在的语句,确定每个二级标签词的特征矩阵,得到所述每个直播间对应的二级标签词和二级标签词的特征矩阵;
第六确定模块,用于基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集;
训练模块,用于基于所述训练样本集,对待训练标签识别模型进行训练,得到所述标签识别模型。
可选地,所述第六确定模块包括:
第五确定单元,用于从所述多个直播间的历史公屏聊天数据中,确定不存在二级标签词的多个语句;
第六确定单元,用于通过词向量模型,确定所述多个语句中每个语句对应的特征矩阵;
第七确定单元,用于将所述多个语句对应的特征矩阵确定为多个负样本;
第八确定单元,用于基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定多个正样本;
第九确定单元,用于基于所述多个正样本和所述多个负样本,确定所述训练样本集。
可选地,所述第八确定单元包括:
第三确定子单元,用于将所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定为所述多个正样本;或者,
第四确定子单元,用于对所述直播间中每个直播间对应的二级标签词的特征矩阵进行K均值聚类,得到每个直播间对应的K类二级标签词的特征矩阵;确定每个直播间对应的K类二级标签词的特征矩阵的聚类中心,得到每个直播间对应的K个第三聚类中心;对于每个直播间对应的K个第三聚类中心中的每个第三聚类中心,对每个第三聚类中心对应的一类二级标签词进行汇总,得到每个第三聚类中心对应的一级标签词;基于所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定所述多个正样本。
可选地,所述第四确定子单元用于:
将所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定为所述多个正样本;或者,
对于所述直播间中的每个直播间,统计所述每个直播间对应的K类二级标签词中每类二级标签词包括的各个二级标签词的词频和重要度得分;将每类二级标签词包括的各个二级标签词的词频和重要度得分,添加到每类二级标签词对应的第三聚类中心中,得到所述每个直播间对应的K个第四聚类中心;将每个第三聚类中心对应的一级标签词,确定为对应的每个第四聚类中心对应的一级标签词;将所述多个直播间中每个直播间对应的K个第四聚类中心和每个第四聚类中心对应的一级标签词,确定为所述多个正样本。
可选地,所述第九确定单元用于:
按照预设正负样本比例,对所述多个正样本和所述多个负样本进行混合,得到混合样本集;
基于所述混合样本集,确定所述训练样本集。
可选地,所述第九确定单元用于:
将所述混合样本集,确定为所述训练样本集;或者,
将所述混合样本集中的一部分样本集,确定为所述训练样本集。
可选地,所述装置还包括:
第七确定模块,用于将所述混合样本集中的另一部分样本集,确定为验证样本集;
验证模块,用于在所述训练模块基于所述训练样本集,对待训练标签识别模型进行训练,得到所述标签识别模型之后,基于所述验证样本集,对所述标签识别模型进行验证;
调整模块,用于基于验证结果,对所述标签识别模型中的模型参数进行调整。
一方面,提供了一种直播标签的确定装置,所述装置包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行上述任一种直播标签的确定方法。
一方面,提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行上述任一种直播标签的确定方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例中,可以获取目标直播间的公屏聊天数据,通过对公屏聊天数据进行分词处理,确定多个第一分词,基于多个第一分词的词频和逆向文件频率,从多个第一分词中提取N个第一分词,然后基于N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;基于N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将至少一个预测标签词作为目标直播间的直播标签。本申请通过对直播间的公屏聊天数据进行分析,来确定直播间的直播标签,可以使得确定的直播标签能够准确反映直播间的直播内容,提高了确定直播标签的准确性和效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种标签识别模型的流程图;
图2是本申请实施例提供的一种直播标签的确定方法的流程图;
图3是本申请实施例提供的一种直播标签的确定装置的结构框图;
图4是本申请实施例提供的一种直播标签的确定装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例进行详细地解释说明之前,先对本申请实施例的应用场景予以说明。
本申请实施例应用于根据直播间的公屏聊天数据,提取直播间的直播标签的场景中。示例的,当直播间的公屏存在大量聊天流水数据时,可以根据公屏聊天数据,实时提取该直播间的直播标签,以利用提取的直播标签,为主播的推荐、直播间的推荐或直播内容的推荐提供准确实时的数据支撑。
本申请实施例提供的直播标签的确定方法需要用到标签识别模型,该标签识别模型用于确定任一特征矩阵对应的标签词,也即,该标签识别模型的输入为词语的特征矩阵,输出为标签词。为了便于理解,先对该标签识别模型的训练过程进行介绍。
图1是本申请实施例提供的一种标签识别模型的流程图,该方法可以应用于终端或服务器中,该终端可以为主播端或直播端,服务器可以为直播服务器,比如直播平台的后台服务器。为了便于说明,接下来将以该方法应用于直播服务器中为例进行说明,如图1所示,该方法包括如下步骤。
步骤101:获取多个直播间的历史公屏聊天数据。
其中,公屏是指公共屏幕。直播间的公屏相当于直播间内的群聊窗口,该直播间的主播和观众均可以在该直播间的公屏上发表言论,直播服务器也可以在该公屏上发布公告或通知。每个直播间的公屏聊天数据包括主播或观众发表的言论,主播与观众之间的聊天数据,或者观众与观众之间的聊天数据,也可以包括该直播间内的公告或通知等。
作为一个示例,可以获取多个直播间在当前时间之前的预设时长内的历史聊天数据,比如,获取多个直播间近一个月的历史聊天数据。
作为一个示例,获取多个直播间的历史公屏聊天数据之后,还可以按照预设规则,对这多个直播间中的每个直播间的历史公屏聊天数据进行预处理。比如,从每个直播间的历史公屏聊天数据中过滤掉预设数据,该预设数据包括表情、符号、机器人语录和繁杂词汇中的至少一种。示例的,预处理的规则和相应说明可以如下表1所示。
表1
Figure BDA0002101938840000111
Figure BDA0002101938840000121
作为一个示例,对每个直播间的历史公屏聊天数据进行预处理后,还可以将预处理后的多个直播间的历史公屏聊天数据,按照预设规则进行拼接,并将拼接后的数据存储至数据表中。比如,将预处理后的多个直播间的历史公屏聊天数据按照每个直播间按照逗号拼接成一句话存储至Hive表中。
步骤102:对于多个直播间中的每个直播间,通过对每个直播间的历史公屏聊天数据进行分词处理,确定多个第三分词。
作为一个示例,可以线基于预设词典库,对多个直播间的公屏聊天数据进行分词处理,得到多个第四分词,然后从多个第二分词中提取预设词性的第四分词,得到多个第三分词。
其中,该预设词典库包括多个词语。基于预设词典库,可以将多个直播间的公屏聊天数据中属于该预设词典库的词语进行分词处理,得到多个第四分词。该预设词性可以包括名词、形容词和动词等词性,也即是,仅仅提取名词、形容词和动词等词性的第四分词。
作为一个示例,可以利用jieba中文分词加载预设词典库,并基于该预设词典库,对每个直播间的历史公屏聊天数据进行分词处理。
作为一个示例,可以将收集的经过专家判断的停用词放到stop.txt文件中,以及将收集的自定义词典放到dictionary.txt文件中,将两个文件汇总为该预设词典库中。
步骤103:基于多个第三分词的词频和逆向文件频率,从多个第三分词中提取M个二级标签词,M为正整数。
词频(term frequency,TF)是指某一个给定的词语在样本中出现的频率。示例的,假设一份样本dj里面存在k个词语,k个词语中的第i个词语ti的词频可以通过以下公式(1)确定得到:
Figure BDA0002101938840000122
其中,tfij表示词语ti在样本dj中的词频,nij表示词语ti在样本dj中出现的次数,nkj表示k个词语在样本dj中出现的总次数。而且,这k个词语ti的词频向量为(tf1j,tf2j,...,tfij)。
逆向文件频率(inverse document frequency,IDF)用于度量一个词语的普遍重要性,某个词语的逆向文件频率可以通过对总样本数目与包含该词语的样本数目之间的商取对数得到。
示例的,假设总样本数目为D,ti为第i个词语,dj为第j个样本,则词语ti的逆文本频率idfi可以通过以下公式(2)确定得到:
Figure BDA0002101938840000131
但是词语ti有可能不在样本中,这样会造成公式(2)分母为零,为了避免这种情况,本申请实施例可以在公式(2)的分母加上1,也即是,词语ti的逆文本频率idfi还可以通过以下公式(3)确定得到:
Figure BDA0002101938840000132
基于多个第三分词的词频和逆向文件频率,从多个第三分词中提取M个二级标签词。
作为一个示例,基于多个第三分词的词频和逆向文件频率,从多个第三分词中提取M个二级标签词的操作包括:确定多个第三分词中每个第三分词的词频和逆向文件频率,将每个第三分词的词频和逆向文件频率的乘积,确定为每个第三分词的重要度得分,然后按照重要度得分从大到小的顺序,从多个第三分词中提取排序在前的M个第三分词,将提取的M个第三分词确定为每个直播间对应的M个二级标签词。其中,M可以为预先设置的固定值,也可以根据多个第三分词的数量设置,本申请实施例对此不做限定。
示例的,词语ti的重要度得分tfiidfi可以通过以下公式(4)确定得到:
tfiidfi=tfi×idfi (4)
步骤104:基于M个二级标签次中每个二级标签词所在的语句,确定每个二级标签词的特征矩阵,得到每个直播间对应的二级标签词和二级标签词的特征矩阵。
其中,每个二级标签词的特征矩阵用于表征每个二级标签词的语义,可以基于每个二级标签词所在句子中包括的各个词语对应的词向量确定得到。
作为一个示例,对于M个二级标签词中的每个二级标签词,提取每个二级标签词所在的句子中包括的词语;通过词向量模型,确定提取的每个词语对应的词向量;基于提取的各个词语对应的词向量所组成的第三向量矩阵,确定每个二级标签词的特征矩阵。示例的,词向量模型可以为word2vec模型。
作为一个示例,基于提取的各个词语对应的词向量所组成的第三向量矩阵,确定每个二级标签词的特征矩阵的操作包括以下两种实现方式:
第一种实现方式:将提取的各个词语对应的词向量所组成的第三向量矩阵,确定为每个二级标签词的特征矩阵。
第二种实现方式:将提取的各个词语对应的词向量所组成的第三向量矩阵转换为预设矩阵大小的第四向量矩阵,将第四向量矩阵,确定为每个二级标签词的特征矩阵。
其中,第四向量矩阵的矩阵大小小于第三向量矩阵。示例的,预设矩阵大小的第四向量矩阵为64*64的向量矩阵。通过将第三向量矩阵转换为预设矩阵大小的第四向量矩阵,可以缩小第三向量矩阵的矩阵大小,减小后续处理的复杂度,提高数据处理效率。
作为一个示例,可以利用梯度下降法,确定提取的每个词语的映射权重,然后基于提取的每个词语的映射权重,将第三向量矩阵映射到预设矩阵大小的矩阵中,得到第四向量矩阵。
示例的,假设二级标签词的第三向量矩阵X如以下公式(5)所示:
Figure BDA0002101938840000141
利用梯度下降法确定的每个词语的映射权重W如以下公式(6)所示:
Figure BDA0002101938840000142
则第四向量矩阵X'可以通过以下公式(7)确定得到:
XW=X' (7)
步骤105:基于多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集。
其中,该训练样本集用于对标签识别模型进行训练。
作为一个示例,基于多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集的操作包括如下步骤:
1)从多个直播间的历史公屏聊天数据中,确定不存在二级标签词的多个语句。
2)通过词向量模型,确定多个语句中每个语句对应的特征矩阵。
具体地,可以将每个语句包括的词语作为词向量模型的输入,通过词向量模型输出每个词语的词向量,将每个语句包括的各个词语的词向量所组成的向量矩阵,确定为每个语句对应的特征矩阵。
3)将多个语句对应的特征矩阵确定为多个负样本。
4)基于多个直播间对应的二级标签词和二级标签词的特征矩阵,确定多个正样本。
作为一个示例,基于多个直播间对应的二级标签词和二级标签词的特征矩阵,确定多个正样本的操作可以包括以下两种实现方式:
第一种实现方式:将多个直播间对应的二级标签词和二级标签词的特征矩阵,确定为多个正样本。
第二种实现方式:对多个直播间中每个直播间对应的二级标签词的特征矩阵进行K均值聚类,得到每个直播间对应的K类二级标签词的特征矩阵;基于每个直播间对应的K类二级标签词和K类二级标签词的特征矩阵,确定多个正样本。
其中,每类二级标签词中的二级标签词均为相似标签。K均值聚类中的K值可以预先设置,也可以基于每个直播间对应的各个二级标签词的轮廓系数确定得到。示例的,当每个直播间对应的所有二级标签词的特征矩阵的轮廓系数均趋近于1时,说明这些二级标签词的内聚度和分离度较好,此时可以得到一个最优的K值,则可以将这个最优的K值作为K均值聚类的K值。
作为一个示例,基于每个直播间对应的K类二级标签词和K类二级标签词的特征矩阵,确定多个正样本的操作包括:确定每个直播间对应的K类二级标签词的特征矩阵的聚类中心,得到每个直播间对应的K个第三聚类中心,每个第三聚类中心为每个直播间对应的一个二级标签词的特征矩阵;对于每个直播间对应的K个第三聚类中心中的每个第三聚类中心,对每个第三聚类中心对应的一类二级标签词进行汇总,得到每个第三聚类中心对应的一级标签词;基于多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定多个正样本。
其中,一类二级标签词进行汇总得到的一个一级标签词可以为这类二级标签词中的任一个二级标签词,也可以为这类二级标签词的相似词语或上位词语。比如,若一类二级标签词包括跑步、瑜伽、游泳,则这类二级标签词对应的一级标签词可以为健身。
作为一个示例,基于所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定所述多个正样本的操作包括以下两种实现方式:
第一种实现方式:将多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定为多个正样本。
第二种实现方式:对于直播间中的每个直播间,统计每个直播间对应的K类二级标签词中每类二级标签词包括的各个二级标签词的词频和重要度得分;将每类二级标签词包括的各个二级标签词的词频和重要度得分,添加到每类二级标签词对应的第三聚类中心中,得到每个直播间对应的K个第四聚类中心;将每个第三聚类中心对应的一级标签词,确定为对应的每个第四聚类中心对应的一级标签词;将多个直播间中每个直播间对应的K个第四聚类中心和每个第四聚类中心对应的一级标签词,确定为多个正样本。
5)基于多个正样本和多个负样本,确定训练样本集。
可以将多个正样本和多个负样本进行混合,得到训练样本集。
作为一个示例,可以按照预设正负样本比例,对多个正样本和多个负样本进行混合,得到混合样本集,然后基于混合样本集,确定训练样本集。
其中,该预设正负样本比例可以根据实际需要进行设置,例如预设正负样本比例可以为1:1或2:1等。作为一个示例,可以将正样本和负样本按照1:1的比例进行混合,得到混合样本集。
基于混合样本集,确定训练样本集时,可以将混合样本集全部样本集,确定为训练样本集,也可以将混合样本集中的一部分样本集,确定为训练样本集。
作为一个示例,可以将混合样本集中的一部分样本集,确定为训练样本集,以及将混合样本集中的另一部分样本集,确定为验证样本集。其中,训练样本集和验证样本集的比例可以根据实际需要进行设置,比如可以为7:3。示例的,可以将混合样本集按照7:3的比例划分为训练样本集和验证样本集。
步骤106:基于训练样本集,对待训练标签识别模型进行训练,得到标签识别模型。
其中,该标签识别模型为机器学习模型,具体可以为各种神经网络模型,或者梯度提升决策树分类模型等。梯度提升决策树的思想基础是利用多个弱分类器,即多个决策树进行分类,所有树分类的结果经过计算作为最终答案,由此可以划分各个类别出来。
作为一个示例,当待训练标签识别模型为梯度提升决策树分类模型时,首先,可以初始化多个决策树的加法模型,该加法模型可以为如下公式(8)所示:
Figure BDA0002101938840000171
其中T(x,θm)表示单个决策树,θm表示决策树的参数,M为决策树的个数。
然后,根据向前分布算法,令初始决策树f0(x)=0,则第m步的加法模型如公式(9)所示:
fm(x)=fm-1(x)+T(x,θm) (9)
其中,fm(x)为第m步的加法模型,fm-1(x)为当前决策树模型,则下一个决策树的参数
Figure BDA0002101938840000172
如公式(10)所示:
Figure BDA0002101938840000173
其中,训练样本为1-N,L为损失函数,若损失函数为平方损失,则下一个决策树的参数
Figure BDA0002101938840000174
如公式(11)所示:
Figure BDA0002101938840000175
然后,对每个训练样本i=1,2,...,N计算负梯度,得到每个训练样本的残差γim如以下公式(12)所示:
Figure BDA0002101938840000176
将上一次得到的残差作为训练样本新的真实值,并将数据(xiim)(i=1,2,...,N)作为下一棵决策树的训练集,得到一个新的回归数fm(x),其对应的叶子节点区域为Rjm,j=1,2,...,J。其中J为回归树的叶子节点的个数。
之后,对叶子区域j=1,2,...,J计算最佳拟合值γjm,如以下公式(13)所示:
Figure BDA0002101938840000177
然后,基于基于最佳拟合值更新梯度提升决策树分类模型,如以下公式(14)所示:
Figure BDA0002101938840000181
作为一个示例,在基于训练样本集,对待训练标签识别模型进行训练,得到所述标签识别模型之后,还可以基于验证样本集,对标签识别模型进行验证,然后根据验证结果,对标签识别模型中的模型参数进行调整。
例如,可以利用训练得到的标签识别模型对验证样本集中的样本进行识别,得到预测值,然后根据预测值和数据标签的对比得出准确率和混淆矩阵,结构如下表2所示:
表2
Figure BDA0002101938840000182
根据混淆矩阵计算标签识别模型的正确率,假设验证样本集的样本数为N,那么N=TP+FP+FN+TN,则正确率accuracy可以通过以下公式(15)确定得到:
Figure BDA0002101938840000183
最后根据正确率和混淆矩阵,来调整标签识别模型,以使该标签识别模型的识别准确率更高。
本申请实施例中,使用词频和逆文本频率来提取公屏聊天数据的标签词,构造出了具有明显特征的训练集,提高了算法自动搜索关键词句的能力。另外,通过对提取出来的二级标签词作进一步计算,经过K均值聚合算法聚合后,能够很好的划分各个二级标签词的种类,使其得到的一级标签词更加准确,更具有概括性。
图2是本申请实施例提供的一种直播标签的确定方法的流程图,该方法可以应用于终端或服务器中,该终端可以为主播端或直播端,服务器可以为直播服务器,比如直播平台的后台服务器。接下来,将以该方法应用于直播服务器为例进行说明,如图2所示,该方法包括如下步骤:
步骤201:获取目标直播间的公屏聊天数据。
其中,目标直播间可以为任一主播的直播间,比如,可以为任一正在直播的直播间。目标直播间的公屏聊天数据包括目标直播间内的主播或观众发表的言论,主播与观众之间的聊天数据,或者观众与观众之间的聊天数据,也可以包括该直播间内的公告或通知等。
作为一个示例,可以获取目标主播的实时公屏聊天数据,以便根据目标主播的实时公屏聊天数据,确定目标直播间的实时直播标签。在另一实施例中,还可以获取目标主播间从直播开始时的公屏聊天数据,或者当前时间之前的预设时长内的公屏聊天数据,比如当前时间之前5分钟内的公屏聊天数据。
作为一个示例,获取目标直播间的公屏聊天数据之后,还可以按照预设规则,对目标直播间的公屏聊天数据进行预处理。比如,从目标直播间的公屏聊天数据中过滤掉预设数据,该预设数据包括表情、符号、机器人语录和繁杂词汇中的至少一种。
步骤202:通过对该公屏聊天数据进行分词处理,确定多个第一分词。
作为一个示例,可以基于预设词典库,对公屏聊天数据进行分词处理,得到多个第二分词,然后,从多个第二分词中提取预设词性的第二分词,得到多个第一分词。
其中,该预设词典库包括多个词语。基于预设词典库,可以将目标直播间的公屏聊天数据中属于该预设词典库的词语进行分词处理,得到多个第二分词。该预设词性可以包括名词、形容词和动词等词性,也即是,仅仅提取名词、形容词和动词等词性的第二分词。
作为一个示例,可以利用jieba中文分词加载预设词典库,并基于加载的预设词典库,对目标直播间的历史公屏聊天数据进行分词处理。
步骤203:基于多个第一分词的词频和逆向文件频率,从多个第一分词中提取N个第一分词,N为正整数。
作为一个示例,可以确定多个第一分词中每个第一分词的词频和逆向文件频率;将每个第一分词的词频和逆向文件频率的乘积,确定为每个第一分词的重要度得分;按照重要度得分从大到小的顺序,从多个第一分词中提取排序在前的N个第一分词。
其中,N可以为预先设置的固定值,也可以根据多个第一分词的数量设置,本申请实施例对此不做限定。
步骤204:基于N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵。
其中,每个第一分词的特征矩阵用于表征每个第一分词的语义,可以基于每个第一分词所在句子中包括的各个词语对应的词向量确定得到。
作为一个示例,对于N个第一分词中的每个第一分词,可以提取每个第一分词所在的句子中包括的词语;,然后通过词向量模型,确定提取的每个词语对应的词向量,基于提取的各个词语对应的词向量所组成的第一向量矩阵,确定每个第一分词的特征矩阵。示例的,词向量模型可以为word2vec模型。
作为一个示例,基于提取的各个词语对应的词向量所组成的第一向量矩阵,确定每个第一分词的特征矩阵的操作包括以下两种实现方式:
第一种实现方式:将提取的各个词语对应的词向量所组成的第一向量矩阵,确定为每个第一分词的特征矩阵。
第二种实现方式:将提取的各个词语对应的词向量所组成的第一向量矩阵转换为预设矩阵大小的第二向量矩阵,将第二向量矩阵,确定为每个第一分词的特征矩阵。
其中,第第二向量矩阵的矩阵大小小于第一向量矩阵。示例的,预设矩阵大小的第第二向量矩阵为64*64的向量矩阵。通过将第一向量矩阵转换为预设矩阵大小的第二向量矩阵,可以缩小第一向量矩阵的矩阵大小,减小后续处理的复杂度,提高数据处理效率。
作为一个示例,可以利用梯度下降法,确定提取的每个词语的映射权重;然后基于提取的每个词语的映射权重,将第一向量矩阵映射到预设矩阵大小的矩阵中,得到第二向量矩阵。
步骤205:基于N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将至少一个预测标签词作为目标直播间的直播标签。
作为一个示例,基于N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词的操作包括以下两种实现方式:
第一种实现方式:将N个第一分词的特征矩阵作为标签识别模型的输入,通过标签识别模型输出N个预设标签词。
第二种实现方式:对N个第一分词的特征矩阵进行K均值聚类,得到K类第一分词的特征矩阵;确定K类第一分词的特征矩阵中每类第一分词的特征矩阵的聚类中心,得到K个第一聚类中心;基于K个第一聚类中心,通过标签识别模型,确定K个预设标签词。
其中,K均值聚类的K值可以基于N个第一分词的特征矩阵的轮廓系数确定得到,每个第一聚类中心为一个第一分词的特征矩阵。
作为一个示例,基于K个第一聚类中心,通过标签识别模型,确定K个预设标签词的操作包括以下两种实现方式:
第一种实现方式:将K个第一聚类中心作为标签识别模型的输入,通过所标签识别模型输出K个预测标签词。
第二种实现方式:统计K类第一分词中每类第一分词包括的各个第一分词的词频和重要度得分;将每类第一分词包括的各个第一分词的词频和重要度得分,添加到每类第一分词对应的第一聚类中心中,得到K个第二聚类中心;将K个第二聚类中心作为标签识别模型的输入,通过标签识别模型输出K个预测标签词。
作为一个示例,确定得到目标直播间的直播标签之后,还可以基于目标直播间的直播标签,进行直播推荐。比如,基于目标直播间的直播标签,对目标直播间、目标主播间的主播或者目标直播间的直播内容进行推荐。如此,可以提高直播间的进房率和转化率。
作为一个示例,基于目标直播间的直播标签进行直播推荐的操作包括:若检测到目标用户偏好的直播类型,与目标直播间的直播标签匹配,则向目标用户推荐目标直播间、目标直播间的主播或者目标直播间的直播内容。
作为另一示例,确定得到目标直播间的直播标签之后,若目标直播间未设置直播标签,还可以将该直播标签设置为目标直播间的直播标签,若目标直播间已设置直播标签,还可以基于确定的直播标签对已设置的直播标签进行更新。
本申请实施例中,可以获取目标直播间的公屏聊天数据,通过对公屏聊天数据进行分词处理,确定多个第一分词,基于多个第一分词的词频和逆向文件频率,从多个第一分词中提取N个第一分词,然后基于N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;基于N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将至少一个预测标签词作为目标直播间的直播标签。本申请通过对直播间的公屏聊天数据进行分析,来确定直播间的直播标签,可以使得确定的直播标签能够准确反映直播间的直播内容,提高了确定直播标签的准确性和效率。
图3是本申请实施例提供的一种直播标签的确定装置的结构框图,该装置可以集成于终端或服务器中,如图3所示,该方法包括第一获取模块301、第一确定模块302、第一提取模块303、第二确定模块304和第三确定模块305。
第一获取模块301,用于获取目标直播间的公屏聊天数据;
第一确定模块302,用于通过对该公屏聊天数据进行分词处理,确定多个第一分词;
第一提取模块303,用于基于该多个第一分词的词频和逆向文件频率,从该多个第一分词中提取N个第一分词,该N为正整数;
第二确定模块304,用于基于该N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;
第三确定模块305,用于基于该N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将该至少一个预测标签词作为该目标直播间的直播标签,该标签识别模型用于确定任一特征矩阵对应的标签词。
本申请实施例中,可以获取目标直播间的公屏聊天数据,通过对公屏聊天数据进行分词处理,确定多个第一分词,基于多个第一分词的词频和逆向文件频率,从多个第一分词中提取N个第一分词,然后基于N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;基于N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将至少一个预测标签词作为目标直播间的直播标签。本申请通过对直播间的公屏聊天数据进行分析,来确定直播间的直播标签,可以使得确定的直播标签能够准确反映直播间的直播内容,提高了确定直播标签的准确性和效率。
可选地,该第一确定模块302用于:
基于预设词典库,对该公屏聊天数据进行分词处理,得到多个第二分词;
从该多个第二分词中提取预设词性的第二分词,得到该多个第一分词。
可选地,该第一提取模块303用于:
确定该多个第一分词中每个第一分词的词频和逆向文件频率;
将每个第一分词的词频和逆向文件频率的乘积,确定为每个第一分词的重要度得分;
按照重要度得分从大到小的顺序,从该多个第一分词中提取排序在前的N个第一分词。
可选地,该第二确定模块304包括:
提取单元,用于对于该N个第一分词中的每个第一分词,提取该每个第一分词所在的句子中包括的词语;
第一确定单元,用于通过词向量模型,确定提取的每个词语对应的词向量;
第二确定单元,用于基于提取的各个词语对应的词向量所组成的第一向量矩阵,确定该每个第一分词的特征矩阵。
可选地,该第二确定单元包括:
第一确定子单元,用于将提取的各个词语对应的词向量所组成的第一向量矩阵,确定为该每个第一分词的特征矩阵;或者,
第二确定子单元,用于将提取的各个词语对应的词向量所组成的第一向量矩阵转换为预设矩阵大小的第二向量矩阵,将该第二向量矩阵,确定为该每个第一分词的特征矩阵。
可选地,该第二确定子单元用于:
利用梯度下降法,确定提取的每个词语的映射权重;
基于提取的每个词语的映射权重,将该第一向量矩阵映射到预设矩阵大小的矩阵中,得到该第二向量矩阵。
可选地,该第三确定模块305包括:
第三确定单元,用于将该N个第一分词的特征矩阵作为该标签识别模型的输入,通过该标签识别模型输出N个预设标签词;或者,
第四确定单元,用于对该N个第一分词的特征矩阵进行K均值聚类,得到K类第一分词的特征矩阵;确定该K类第一分词的特征矩阵中每类第一分词的特征矩阵的聚类中心,得到K个第一聚类中心;基于该K个第一聚类中心,通过该标签识别模型,确定K个预设标签词;其中,该K是基于该N个第一分词的特征矩阵的轮廓系数确定得到。
可选地,该第四确定单元用于:
将该K个第一聚类中心作为该标签识别模型的输入,通过该标签识别模型输出该K个预测标签词;或者,
统计该K类第一分词中每类第一分词包括的各个第一分词的词频和重要度得分;将每类第一分词包括的各个第一分词的词频和重要度得分,添加到每类第一分词对应的第一聚类中心中,得到K个第二聚类中心;将该K个第二聚类中心作为该标签识别模型的输入,通过该标签识别模型输出该K个预测标签词。
可选地,该装置还包括:
推荐模块,用于基于该目标直播间的直播标签,对该目标直播间或者该目标主播间的主播进行推荐。
可选地,该推荐模块用于:
若检测到目标用户偏好的直播类型,与该目标直播间的直播标签匹配,则向该目标用户推荐该目标直播间或者该目标直播间的主播。
可选地,该装置还包括:
第二获取模块,用于获取多个直播间的历史公屏聊天数据;
第四确定模块,用于对于该多个直播间中的每个直播间,通过对该每个直播间的历史公屏聊天数据进行分词处理,确定多个第三分词;
第二提取模块,用于基于该多个第三分词的词频和逆向文件频率,从该多个第三分词中提取M个二级标签词,该M为正整数;
第五确定模块,用于基于该M个二级标签次中每个二级标签词所在的语句,确定每个二级标签词的特征矩阵,得到该每个直播间对应的二级标签词和二级标签词的特征矩阵;
第六确定模块,用于基于该多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集;
训练模块,用于基于该训练样本集,对待训练标签识别模型进行训练,得到该标签识别模型。
可选地,该第六确定模块包括:
第五确定单元,用于从该多个直播间的历史公屏聊天数据中,确定不存在二级标签词的多个语句;
第六确定单元,用于通过词向量模型,确定该多个语句中每个语句对应的特征矩阵;
第七确定单元,用于将该多个语句对应的特征矩阵确定为多个负样本;
第八确定单元,用于基于该多个直播间对应的二级标签词和二级标签词的特征矩阵,确定多个正样本;
第九确定单元,用于基于该多个正样本和该多个负样本,确定该训练样本集。
可选地,该第八确定单元包括:
第三确定子单元,用于将该多个直播间对应的二级标签词和二级标签词的特征矩阵,确定为该多个正样本;或者,
第四确定子单元,用于对该直播间中每个直播间对应的二级标签词的特征矩阵进行K均值聚类,得到每个直播间对应的K类二级标签词的特征矩阵;确定每个直播间对应的K类二级标签词的特征矩阵的聚类中心,得到每个直播间对应的K个第三聚类中心;对于每个直播间对应的K个第三聚类中心中的每个第三聚类中心,对每个第三聚类中心对应的一类二级标签词进行汇总,得到每个第三聚类中心对应的一级标签词;基于该多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定该多个正样本。
可选地,该第四确定子单元用于:
将该多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定为该多个正样本;或者,
对于该直播间中的每个直播间,统计该每个直播间对应的K类二级标签词中每类二级标签词包括的各个二级标签词的词频和重要度得分;将每类二级标签词包括的各个二级标签词的词频和重要度得分,添加到每类二级标签词对应的第三聚类中心中,得到该每个直播间对应的K个第四聚类中心;将每个第三聚类中心对应的一级标签词,确定为对应的每个第四聚类中心对应的一级标签词;将该多个直播间中每个直播间对应的K个第四聚类中心和每个第四聚类中心对应的一级标签词,确定为该多个正样本。
可选地,该第九确定单元用于:
按照预设正负样本比例,对该多个正样本和该多个负样本进行混合,得到混合样本集;
基于该混合样本集,确定该训练样本集。
可选地,该第九确定单元用于:
将该混合样本集,确定为该训练样本集;或者,
将该混合样本集中的一部分样本集,确定为该训练样本集。
可选地,该装置还包括:
第七确定模块,用于将该混合样本集中的另一部分样本集,确定为验证样本集;
验证模块,用于在该训练模块基于该训练样本集,对待训练标签识别模型进行训练,得到该标签识别模型之后,基于该验证样本集,对该标签识别模型进行验证;
调整模块,用于基于验证结果,对该标签识别模型中的模型参数进行调整。
需要说明的是:上述实施例提供的直播标签的确定装置在确定直播间的直播标签时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的直播标签的确定装置与直播标签的确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本申请实施例提供的一种直播标签的确定装置400的结构示意图,该装置400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现上述各个方法实施例提供的应用耗电监控方法。当然,该装置400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该装置400还可以包括其他用于实现设备功能的部件,在此不做赘述。示例的,该装置400可以为终端或服务器,比如为直播服务器。
在另一实施例中,还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行上述实施例所述的直播标签的确定方法
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (18)

1.一种直播标签的确定方法,其特征在于,所述方法包括:
获取目标直播间的公屏聊天数据;
通过对所述公屏聊天数据进行分词处理,确定多个第一分词;
基于所述多个第一分词的词频和逆向文件频率,从所述多个第一分词中提取N个第一分词,所述N为正整数;
基于所述N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;
基于所述N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将所述至少一个预测标签词作为所述目标直播间的直播标签,所述标签识别模型用于确定任一特征矩阵对应的标签词;
所述基于所述N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词之前,还包括:
获取多个直播间的历史公屏聊天数据;
对于所述多个直播间中的每个直播间,通过对所述每个直播间的历史公屏聊天数据进行分词处理,确定多个第三分词;
基于所述多个第三分词的词频和逆向文件频率,从所述多个第三分词中提取M个二级标签词,所述M为正整数;
基于所述M个二级标签词中每个二级标签词所在的语句,确定每个二级标签词的特征矩阵,得到所述每个直播间对应的二级标签词和二级标签词的特征矩阵;
基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集,所述训练样本集包括多个正样本;
基于所述训练样本集,对待训练标签识别模型进行训练,得到所述标签识别模型;
其中,所述多个正样本确定过程包括:
对所述直播间中每个直播间对应的二级标签词的特征矩阵进行K均值聚类,得到每个直播间对应的K类二级标签词的特征矩阵;确定每个直播间对应的K类二级标签词的特征矩阵的聚类中心,得到每个直播间对应的K个第三聚类中心;对于每个直播间对应的K个第三聚类中心中的每个第三聚类中心,对每个第三聚类中心对应的一类二级标签词进行汇总,得到每个第三聚类中心对应的一级标签词;将所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定为所述多个正样本。
2.如权利要求1所述的方法,其特征在于,所述通过对所述公屏聊天数据进行分词处理,确定多个第一分词,包括:
基于预设词典库,对所述公屏聊天数据进行分词处理,得到多个第二分词;
从所述多个第二分词中提取预设词性的第二分词,得到所述多个第一分词。
3.如权利要求1所述的方法,其特征在于,所述基于所述多个第一分词的词频和逆向文件频率,从所述多个第一分词中提取N个第一分词,包括:
确定所述多个第一分词中每个第一分词的词频和逆向文件频率;
将每个第一分词的词频和逆向文件频率的乘积,确定为每个第一分词的重要度得分;
按照重要度得分从大到小的顺序,从所述多个第一分词中提取排序在前的N个第一分词。
4.如权利要求1所述的方法,其特征在于,所述基于所述N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵,包括:
对于所述N个第一分词中的每个第一分词,提取所述每个第一分词所在的句子中包括的词语;
通过词向量模型,确定提取的每个词语对应的词向量;
基于提取的各个词语对应的词向量所组成的第一向量矩阵,确定所述每个第一分词的特征矩阵。
5.如权利要求4所述的方法,其特征在于,所述基于提取的各个词语对应的词向量所组成的第一向量矩阵,确定所述每个第一分词的特征矩阵,包括:
将提取的各个词语对应的词向量所组成的第一向量矩阵,确定为所述每个第一分词的特征矩阵;或者,
将提取的各个词语对应的词向量所组成的第一向量矩阵转换为预设矩阵大小的第二向量矩阵,将所述第二向量矩阵,确定为所述每个第一分词的特征矩阵。
6.如权利要求5所述的方法,其特征在于,所述将提取的各个词语对应的词向量所组成的第一向量矩阵转换为预设矩阵大小的第二向量矩阵,包括:
利用梯度下降法,确定提取的每个词语的映射权重;
基于提取的每个词语的映射权重,将所述第一向量矩阵映射到预设矩阵大小的矩阵中,得到所述第二向量矩阵。
7.如权利要求1所述的方法,其特征在于,所述基于所述N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,包括:
将所述N个第一分词的特征矩阵作为所述标签识别模型的输入,通过所述标签识别模型输出N个预设标签词;或者,
对所述N个第一分词的特征矩阵进行K均值聚类,得到K类第一分词的特征矩阵;确定所述K类第一分词的特征矩阵中每类第一分词的特征矩阵的聚类中心,得到K个第一聚类中心;基于所述K个第一聚类中心,通过所述标签识别模型,确定K个预设标签词;其中,所述K是基于所述N个第一分词的特征矩阵的轮廓系数确定得到。
8.如权利要求7所述的方法,其特征在于,所述基于所述K个第一聚类中心,通过所述标签识别模型,确定K个预设标签词,包括:
将所述K个第一聚类中心作为所述标签识别模型的输入,通过所述标签识别模型输出所述K个预测标签词;或者,
统计所述K类第一分词中每类第一分词包括的各个第一分词的词频和重要度得分;将每类第一分词包括的各个第一分词的词频和重要度得分,添加到每类第一分词对应的第一聚类中心中,得到K个第二聚类中心;将所述K个第二聚类中心作为所述标签识别模型的输入,通过所述标签识别模型输出所述K个预测标签词。
9.如权利要求1所述的方法,其特征在于,所述将所述至少一个预测标签词作为所述目标主播的直播标签之后,还包括:
基于所述目标直播间的直播标签,对所述目标直播间或者所述目标主播间的主播进行推荐。
10.如权利要求9所述的方法,其特征在于,所述基于所述目标直播间的直播标签,对所述目标直播间或者所述目标主播间的主播进行推荐,包括:
若检测到目标用户偏好的直播类型,与所述目标直播间的直播标签匹配,则向所述目标用户推荐所述目标直播间或者所述目标直播间的主播。
11.如权利要求10所述的方法,其特征在于,所述基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集,包括:
从所述多个直播间的历史公屏聊天数据中,确定不存在二级标签词的多个语句;
通过词向量模型,确定所述多个语句中每个语句对应的特征矩阵;
将所述多个语句对应的特征矩阵确定为多个负样本;
基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定多个正样本;
基于所述多个正样本和所述多个负样本,确定所述训练样本集。
12.如权利要求11所述的方法,其特征在于,所述基于所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定所述多个正样本,还包括:
对于所述直播间中的每个直播间,统计所述每个直播间对应的K类二级标签词中每类二级标签词包括的各个二级标签词的词频和重要度得分;将每类二级标签词包括的各个二级标签词的词频和重要度得分,添加到每类二级标签词对应的第三聚类中心中,得到所述每个直播间对应的K个第四聚类中心;将每个第三聚类中心对应的一级标签词,确定为对应的每个第四聚类中心对应的一级标签词;将所述多个直播间中每个直播间对应的K个第四聚类中心和每个第四聚类中心对应的一级标签词,确定为所述多个正样本。
13.如权利要求11所述的方法,其特征在于,所述基于所述多个正样本和所述多个负样本,确定所述训练样本集,包括:
按照预设正负样本比例,对所述多个正样本和所述多个负样本进行混合,得到混合样本集;
基于所述混合样本集,确定所述训练样本集。
14.如权利要求13所述的方法,其特征在于,所述基于所述混合样本,确定所述训练样本集,包括:
将所述混合样本集,确定为所述训练样本集;或者,
将所述混合样本集中的一部分样本集,确定为所述训练样本集。
15.如权利要求14所述的方法,其特征在于,所述将所述混合样本集中的部分样本集,确定为所述训练样本集之后,还包括:
将所述混合样本集中的另一部分样本集,确定为验证样本集;
所述基于所述训练样本集,对待训练标签识别模型进行训练,得到所述标签识别模型之后,还包括:
基于所述验证样本集,对所述标签识别模型进行验证;
基于验证结果,对所述标签识别模型中的模型参数进行调整。
16.一种直播标签的确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标直播间的公屏聊天数据;
第一确定模块,用于通过对所述公屏聊天数据进行分词处理,确定多个第一分词;
第一提取模块,用于基于所述多个第一分词的词频和逆向文件频率,从所述多个第一分词中提取N个第一分词,所述N为正整数;
第二确定模块,用于基于所述N个第一分词中每个第一分词所在的语句,确定每个第一分词的特征矩阵;
第三确定模块,用于基于所述N个第一分词的特征矩阵,通过标签识别模型,确定至少一个预测标签词,将所述至少一个预测标签词作为所述目标直播间的直播标签,所述标签识别模型用于确定任一特征矩阵对应的标签词;
第二获取模块,用于获取多个直播间的历史公屏聊天数据;
第四确定模块,用于对于所述多个直播间中的每个直播间,通过对所述每个直播间的历史公屏聊天数据进行分词处理,确定多个第三分词;
第二提取模块,用于基于所述多个第三分词的词频和逆向文件频率,从所述多个第三分词中提取M个二级标签词,所述M为正整数;
第五确定模块,用于基于所述M个二级标签词中每个二级标签词所在的语句,确定每个二级标签词的特征矩阵,得到所述每个直播间对应的二级标签词和二级标签词的特征矩阵;
第六确定模块,用于基于所述多个直播间对应的二级标签词和二级标签词的特征矩阵,确定训练样本集,所述训练样本集包括多个正样本;
训练模块,用于基于所述训练样本集,对待训练标签识别模型进行训练,得到所述标签识别模型;
其中,所述多个正样本确定过程包括:
对所述直播间中每个直播间对应的二级标签词的特征矩阵进行K均值聚类,得到每个直播间对应的K类二级标签词的特征矩阵;确定每个直播间对应的K类二级标签词的特征矩阵的聚类中心,得到每个直播间对应的K个第三聚类中心;对于每个直播间对应的K个第三聚类中心中的每个第三聚类中心,对每个第三聚类中心对应的一类二级标签词进行汇总,得到每个第三聚类中心对应的一级标签词;将所述多个直播间中每个直播间对应的K个第三聚类中心和每个第三聚类中心对应的一级标签词,确定为所述多个正样本。
17.一种直播标签的确定装置,其特征在于,所述装置包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行权利要求1-15任一项所述的直播标签的确定方法。
18.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得处理器能够执行权利要求1-15任一项所述的直播标签的确定方法。
CN201910538532.3A 2019-06-20 2019-06-20 直播标签确定方法、装置及存储介质 Active CN110263854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910538532.3A CN110263854B (zh) 2019-06-20 2019-06-20 直播标签确定方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910538532.3A CN110263854B (zh) 2019-06-20 2019-06-20 直播标签确定方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110263854A CN110263854A (zh) 2019-09-20
CN110263854B true CN110263854B (zh) 2023-06-27

Family

ID=67919890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910538532.3A Active CN110263854B (zh) 2019-06-20 2019-06-20 直播标签确定方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110263854B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110928986B (zh) * 2019-10-18 2023-07-21 平安科技(深圳)有限公司 法律证据的排序和推荐方法、装置、设备及存储介质
CN114175017A (zh) * 2019-10-30 2022-03-11 深圳市欢太科技有限公司 模型构建方法、分类方法、装置、存储介质及电子设备
CN110992067B (zh) * 2019-12-13 2023-08-08 中国平安财产保险股份有限公司 消息推送方法、装置、计算机设备及存储介质
CN113011182B (zh) * 2019-12-19 2023-10-03 北京多点在线科技有限公司 一种对目标对象进行标签标注的方法、装置和存储介质
CN112395421B (zh) * 2021-01-21 2021-05-11 平安科技(深圳)有限公司 课程标签的生成方法、装置、计算机设备及介质
CN114401413B (zh) * 2021-12-10 2023-09-05 北京达佳互联信息技术有限公司 虚拟空间的交互提示方法、装置、电子设备和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735552A (zh) * 2013-12-23 2015-06-24 北京中传数广技术有限公司 一种直播视频标签插入的方法与系统
US9668002B1 (en) * 2015-11-19 2017-05-30 Amazon Technologies, Inc. Identification of live streaming content
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机系统有限公司 文本分类方法及终端设备
CN109213841B (zh) * 2017-06-29 2021-01-01 武汉斗鱼网络科技有限公司 直播主题样本提取方法、存储介质、电子设备及系统
CN107613392B (zh) * 2017-09-22 2019-09-27 Oppo广东移动通信有限公司 信息处理方法、装置、终端设备及存储介质
CN108305612B (zh) * 2017-11-21 2020-07-31 腾讯科技(深圳)有限公司 文本处理、模型训练方法、装置、存储介质和计算机设备
CN108595679B (zh) * 2018-05-02 2021-04-27 武汉斗鱼网络科技有限公司 一种标签确定方法、装置、终端和存储介质
CN109086375B (zh) * 2018-07-24 2021-10-22 武汉大学 一种基于词向量增强的短文本主题抽取方法
CN109063133B (zh) * 2018-08-02 2021-02-02 武汉斗鱼网络科技有限公司 一种直播间标签的添加方法、系统、设备及介质
CN109710916B (zh) * 2018-11-02 2024-02-23 广州财盟科技有限公司 一种标签提取方法、装置、电子设备及存储介质
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质

Also Published As

Publication number Publication date
CN110263854A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110263854B (zh) 直播标签确定方法、装置及存储介质
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
EP3866026A1 (en) Theme classification method and apparatus based on multimodality, and storage medium
CN108073568B (zh) 关键词提取方法和装置
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109815491B (zh) 答题评分方法、装置、计算机设备及存储介质
CN111259625A (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN110874716A (zh) 面试测评方法、装置、电子设备及存储介质
CN110717023B (zh) 面试回答文本的分类方法及装置、电子设备、存储介质
CN108090099B (zh) 一种文本处理方法及装置
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN110612524A (zh) 信息处理装置、信息处理方法以及程序
CN112000801A (zh) 基于机器学习的政务文本分类、热点问题挖掘方法及系统
CN108319588A (zh) 文本情感分析系统及方法、存储介质
CN109800309A (zh) 课堂话语类型分类方法及装置
CN111192170B (zh) 题目推送方法、装置、设备和计算机可读存储介质
CN110502620B (zh) 导诊相似问题对生成方法、系统及计算机设备
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN112052686B (zh) 一种用户交互式教育的语音学习资源推送方法
CN112987940A (zh) 一种基于样本概率量化的输入方法、装置和电子设备
CN111400489B (zh) 对话文本摘要生成方法、装置、电子设备和存储介质
WO2023207566A1 (zh) 语音房质量评估方法及其装置、设备、介质、产品
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant