CN109063133A - 一种直播间标签的添加方法、系统、设备及介质 - Google Patents
一种直播间标签的添加方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN109063133A CN109063133A CN201810873974.9A CN201810873974A CN109063133A CN 109063133 A CN109063133 A CN 109063133A CN 201810873974 A CN201810873974 A CN 201810873974A CN 109063133 A CN109063133 A CN 109063133A
- Authority
- CN
- China
- Prior art keywords
- text information
- live broadcast
- label
- tag
- content text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 89
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 8
- 230000003287 optical effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000000956 alloy Substances 0.000 description 1
- 229910045601 alloy Inorganic materials 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种直播间标签的添加方法、系统、设备及介质。所述方法包括:将待添加标签的直播间进行分类,根据分类之后直播间所属的类别获取直播间的Q个待选标签所对应的Q个标签文本信息;根据预设时间内属于同一类别的直播间中出现的弹幕文本,获取第一内容文本信息以及相对应内容文本信息;并将上述信息向量化,获取第一欧式距离和第二欧式距离;然后获取标签文本信息与所述第一内容文本信息的匹配度;选择匹配度大于预设值的标签文本信息,将标签文本信息对应的待选标签作为直播间标签进行添加。该方法代替了人工通过肉眼判断待添加标签是否符合直播间内容的过程,减少人工判断出错,也避免了通过人工添加的方式造成的成本高的问题。
Description
技术领域
本公开涉及一种直播间标签的添加方法、系统、设备及介质。
背景技术
随着科学技术的快速发展,越来越多的电子多媒体技术应用到人们的日常生活中,其中,视频直播就是其中一种新兴的应用。视频直播可以同一时间透过网络系统在不同的交流平台以视讯的方式进行现场直播,具有直观、快速、交互性强的特点。用户可以通过发送弹幕的方式在直播间表达情感和意见,该弹幕通常为文字文本,直播间也可以包括内容标签,展示直播间主播的分类、风格、内容等信息,该内容标签通常为词组,短语等文字文本。
现有技术采用纯人工添加三级标签的形式为直播间添加标签,通过人工判断,人工手动添加的方法,易造成标签覆盖面不广、标签体系不全、人工判断出错、人工添加成本高的问题。
发明内容
本公开的一个方面提供了一种直播间标签的添加方法,包括:
将待添加标签的直播间进行分类,根据分类之后所述直播间所属的类别获取所述直播间的Q个待选标签所对应的Q个标签文本信息,其中,Q为大于或等于1的正整数;根据预设时间内属于同一所述类别的直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息;将所述标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化,获取向量化之后的所述标签文本信息与所述第一内容文本信息之间的第一欧式距离,获取向量化之后的所述标签文本信息与所述相对应内容文本信息之间的第二欧式距离;通过所述第一欧式距离和所述第二欧式距离获取所述标签文本信息与所述第一内容文本信息的匹配度;选择所述匹配度大于预设值的所述标签文本信息,将所述标签文本信息对应的待选标签作为直播间标签进行添加。
可选地,所述根据预设时间内直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息包括:将所述弹幕文本进行分词,得到的词语文本即为所述第一内容文本信息和相对应内容文本信息。
可选地,所述相对应内容文本信息为所述其余直播间中一个直播间对应一个相对应内容文本信息。
可选地,所述将所述Q个标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化包括:对标签文本信息进行向量化得到第一空间向量集合,其中一个待选标签对应所述空间向量集合中的一个空间向量;对第一内容文本信息进行向量化得到第二空间向量集合,其中所述第一内容文本中的一个分词对应一个空间向量;对相对应内容文本信息进行向量化得到第三空间向量集合,其中所述相对应内容文本中的一个分词对应一个空间向量。
可选地,所述第一欧式距离通过下列公式得到:
其中,为一个标签文本信息向量化之后的空间向量,
为第一内容文本信息中第i个词向量化之后的空间向量,
可选地,所述第二欧式距离通过下列公式得到:
其中,为一个标签文本信息向量化之后的空间向量,
为相对应内容文本信息中第y个词向量化之后的空间向量,
可选地,所述通过所述第一欧式距离和所述第二欧式距离获取所述标签文本信息与所述第一内容文本信息的匹配度,包括:
所述匹配度通过以下公式获得:
其中,
其中,
Score(L,R),为待选标签与第一内容文本信息的匹配度,
L,为一个待选标签的标签文本信息,R,为待添加标签的直播间的第一内容文本信息,Tm,为其余直播间的相对应内容文本信息,
NR,为直播间的总个数,
NRL,为待选标签L在其余直播间中出现的总次数,
Nm,为其余直播间分词后所得到的词的数量,
p(L,Tm),为待选标签L在其余直播间中出现的次数,
为第一欧式距离,
为第二欧式距离,
为一个待选标签的标签文本信息L向量化之后的空间向量,
为待添加标签的直播间的第一内容文本信息中第i个词向量化之后的空间向量,
为其余直播间的相对应内容文本信息中第y个词向量化之后的空间向量,
Nwi,为待添加标签的直播间分词后所得到的词的数量。
可选地,所述方法还包括:当两个以上p(L,Tm)=1时,判断使所述两个以上p(L,Tm)=1的是否属于同一个直播间,若是,则所述两个以上p(L,Tm)=1之和为1。
本公开的另一个方面提供了一种直播间标签添加的电子设备,包括:
处理器;存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行如上文所述的直播间标签的添加方法。
本公开的又一个方面提供了一种直播间标签添加的系统,包括:
第一获取模块,用于将待添加标签的直播间进行分类,根据分类之后所述直播间所属的类别取所述直播间的O个待选标签所对应的Q个标签文本信息,其中,Q为大于或等于1的正整数;第二获取模块,用于根据预设时间内属于同一所述类别的直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息;第三获取模块,将所述标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化,获取向量化之后的所述标签文本信息与所述第一内容文本信息之间的第一欧式距离,获取向量化之后的所述标签文本信息与所述相对应内容文本信息之间的第二欧式距离;第四获取模块,用于通过所述第一欧式距离和所述第二欧式距离获取所述待选标签与所述第一内容文本信息的匹配度;标签添加模块,用于选择所述匹配度大于预设值的所述标签文本信息,将所述标签文本信息对应的待选标签作为直播间标签进行添加。
本公开的再一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上文所述的直播间标签的添加方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的直播间标签的添加方法的流程图;
图2示意性示出了根据本公开实施例的系统框图,
图3示意性示出了根据本公开实施例的电子设备框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
本公开的实施例提供了一种直播间标签的添加方法,如图1所示,包括:
S1,将待添加标签的直播间进行分类,根据分类之后所述直播间所属的类别获取所述直播间的Q个待选标签所对应的Q个标签文本信息,其中,Q为大于或等于1的正整数;S2,根据预设时间内属于同一所述类别的直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息;S3,将所述标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化,获取向量化之后的所述标签文本信息与所述第一内容文本信息之间的第一欧式距离,获取向量化之后的所述标签文本信息与所述相对应内容文本信息之间的第二欧式距离;S4,通过所述第一欧式距离和所述第二欧式距离获取所述标签文本信息与所述第一内容文本信息的匹配度;S5,选择所述匹配度大于预设值的所述标签文本信息,将所述标签文本信息对应的待选标签作为直播间标签进行添加。
本公开通过获取第一欧式距离和第二欧式距离将待选标签和待添加标签的直播间弹幕信息进行匹配,根据匹配度的值确定是否将该标签添加进入直播间。本公开提供的方法代替了人工通过肉眼判断待添加标签是否符合直播间内容的过程,减少人工判断出错,同时也避免了通过人工添加的方式造成的成本高的问题。
具体地,所述步骤S1中,通过人工选择直播间的类别的方式对待添加标签的直播间进行分类,分类的类别通常与该直播间的主题相关。例如,主播在开启直播间时,可以自主选择其直播间的类别属于游戏类、唱歌类、舞蹈类等等。在这些类别中系统会自动划分可以添加的待选标签,例如唱歌类中可以包含歌神、好听等可以添加的标签。通过步骤S1,首先将待添加标签的直播间分类的方式,获取与该区域相关的待选标签,形成一种初步筛选,筛选出相关联的待选标签,避免由于待选标签过多而造成后续计算的复杂。
步骤S1的实现过程可以为:待添加标签的直播间为直播间A,在分类例如为游戏类中,该类别中原本存在直播间B、直播间C等共1999个直播间,将待添加标签的直播间A分入该游戏类中之后,该类别包含直播间A、直播间B、直播间C在内共2000个直播间。并且与该类别相关的待选标签共有4个,因此有四个待选标签词语L1、L2、L3、L4。实际上,若在游戏类的类别中该四个待选标签词语可以例如为“战神”“法师”“强者”“勇士”。该四个待选标签词语L1、L2、L3、L4即为所述标签文本信息,每个标签文本信息对应一个待选标签词语。
所述步骤S2中,所述根据预设时间内属于同一所述类别的直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息包括:将所述弹幕文本通过python切分进行分词,所述第一内容文本信息和所述相对应内容文本信息通过所述分词得到的词语文本。例如,待添加标签的直播间中弹幕文本为“这局打得真好”,通过python切分进行分词,得到“这局”“打”“得”“真好”这四个词语,该四个词语即为第一内容文本信息。同理,对于其余直播间而言,若存在两个其余直播间,一个直播间中弹幕文本为“这魔法攻击力强”,通过python切分进行分词,可以得到“这”“魔法”“攻击力”“强”;另一个直播间中的弹幕文本为“完美绝杀”,通过python切分进行分词,得到“完美”“绝杀”,因此其余直播间的弹幕文本的所有分词“这”“魔法”“攻击力”“强”“完美”“绝杀”,6个词语为相对应内容文本信息。该python切分分词方法为现有技术,本公开在此不做详细赘述。
通过该步骤S2,将与直播间内容直接相关的内容信息拆分为与待选标签一样类型的词语,能实现词语与词语之间语义相似度的比较,该语义相似度的比较通过获取词语之间欧式距离实现,其具体比较过程在本公开后续步骤中进行详细描述。
步骤S2的实现过程例如:将预设时间为24小时之内的直播间A、B、C中出现的弹幕文本分别通过python切分分词,将直播间A中出现的弹幕文本进行分词后得到词WA1、WA2、WA3;将直播间B中出现的弹幕文本进行分词后得到词WB1、WB2、WB3、WB4;将直播间C中出现的弹幕文本进行分词后得到词WCl、WC2。即得到如下的词语集合:
直播间A的词语集合{WA1,WA2,WA3}
直播间B的词语集合{WB1,WB2,WB3,WB4}
直播间C的词语集合{WC1,WC2}
其中,直播间A中词语集合即为第一内容文本信息,直播间B和C中的词语集合即为相对应内容文本信息。
本领域技术人员可以理解的是,步骤S3中所述欧式距离为空间中两点之间距离,通过将词语向量化,即将自然语言这种符号信息转化为向量形式的数字信息,进而两组词语之间的语义相似度则可以根据欧氏距离进行表示,若两组词语之间的语义约相近,则该两组词语在空间中的距离越近,反之,则两组词语在空间中的距离越远。通过将词语向量化之后获取欧式距离的方式能有效获取两组词语之间的语义相似度,避免一些现有技术(例如TF-IDF方法)在对比两组词语时只能对比其词语文本相似度的情况,例如“高兴”与“高人”的词语文本相似度是50%,但实际上其语义相似度应该是0%。
因此,步骤S3中在获取所述第一欧式距离和所述第二欧式距离之前,需将所述标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化,具体包括:通过word2vec对Q个标签文本信息进行向量化得到第一空间向量集合,其中一个待选标签对应所述空间向量集合中的一个空间向量;通过word2vec对第一内容文本信息进行向量化得到第二空间向量集合,其中所述第一内容文本中的一个分词对应一个空间向量;通过word2vec对相对应内容文本信息进行向量化得到第三空间向量集合,其中所述相对应内容文本中的一个分词对应一个空间向量。其余直播间通常为1个以上的直播间,当有多个其余直播间时,所述相对应内容文本信息则应与直播间一一对应,例如其余直播间A对应第三空间向量集合中的空间向量集合A,其余直播间B对应第三空间向量集合中的空间向量集合B。第三空间向量集合可以包括多个子向量集合。
例如:通过word2vec对标签文本信息、第一文本内容信息、相对应内容文本信息进行向量化,得到如下向量集合:
多个待选标签的向量集合,每个词向量为100维,其值为:
本领域技术人员可以理解的是,本实施例中待选标签为4个词,则其向量化之后的空间向量集合(即第一空间向量集合)中对应有四个空间向量,每个空间向量对应一个词。即上文中每个横排的空间向量对应一个词。
直播间A的词语向量化,每个词向量为100维,其值为:
本领域技术人员可以理解的是,本实施例中直播间A为3个词,则其向量化之后的空间向量集合(即第二空间向量集合)中对应有三个空间向量,每个空间向量对应一个词。即上文中每个横排的空间向量对应一个词。
直播间B的词语向量化,每个词向量为100维,其值为:
直播间C的词语向量化,每个词向量为100维,其值为:
本领域技术人员可以理解的是,本实施例中将直播间C和直播间B进行向量化之后得到的空间向量集合为第三空间向量集合,其中包含两个子空间向量集合,一个子空间向量集合对应有四个空间向量,另一个子空间向量集合对应有两个空间向量,每个空间向量对应一个词。即上文中每个横排的空间向量对应一个词。
步骤S3中所述第一欧式距离通过下列公式得到:
其中,为一个标签文本信息向量化之后的空间向量,
为第一内容文本信息中第i个词向量化之后的空间向量,
步骤S3中所述第二欧式距离通过下列公式得到:
其中,为一个标签文本信息向量化之后的空间向量,
为相对应内容文本信息中第y个词向量化之后的空间向量,
在上文实施例中已经得到待选标签L1的空间向量:[0.32322223232,0.123214343,-0.232322,0.22323232,......],
因此,待选标签L1与直播间A中WA1词语的欧式距离为:
待选标签L1与直播间A中WA2词语的欧式距离为:
待选标签L1与直播间A中WA3词语的欧式距离为:
其中,上文中待选标签L1与直播间A中三个词语的欧式距离均为第一欧式距离,同理,可以根据同样的公式得到待选标签L1与其余直播间B、C的每个词语对应的空间向量之间的第二欧式距离。例如,待选标签L1与直播间B中WB1词语的第二欧式距离为0.85,待选标签L1与直播间B中WB1词语的第二欧式距离为0.52,待选标签L1与直播间B中WB1词语的第二欧式距离为0.7,待选标签L1与直播间B中WB1词语的第二欧式距离为0.66。待选标签L1与直播间C中WC1词语的第二欧式距离为0.86,待选标签L1与直播间C中WC2词语的第二欧式距离为0.9。
也可以得到待选标签L2、L3、L4分别与每个直播间A、B、C中的每个词语对应的空间向量之间的第一欧式距离和第二欧式距离。
通过步骤S3,通过将待选标签词语和直播间弹幕文本拆分之后得到的词语进行向量化,并计算待选标签词语与直播间词语之间的欧氏距离,实现词语与词语之间语义相似度的比较过程。
另外,步骤S4中所述通过所述第一欧式距离和所述第二欧式距离获取所述标签文本信息与所述第一内容文本信息的匹配度,包括:
所述匹配度通过以下公式获得:
其中,
其中,
Score(L,R),为待选标签与第一内容文本信息的匹配度,
L,为一个待选标签的标签文本信息,R,为待添加标签的直播间的第一内容文本信息,Tm,为其余直播间的相对应内容文本信息,
NR,为直播间的总个数,
NRL,为待选标签L在其余直播间中出现的总次数,
Nm,为其余直播间分词后所得到的词的数量,
p(L,Tm),为待选标签L在其余直播间中出现的次数,
为第一欧式距离,
为第二欧式距离,
为一个待选标签的标签文本信息L向量化之后的空间向量,
为待添加标签的直播间的第一内容文本信息中第i个词向量化之后的空间向量,
为其余直播间的相对应内容文本信息中第y个词向量化之后的空间向量,
Nwi,为待添加标签的直播间分词后所得到的词的数量。
需要说明的是,在上文公式中作为惩罚系数,避免通过第一欧式距离得到得词语相似度过高,即匹配度过高的情况。
另外,所述方法还包括:当两个以上p(L,Tm)=1时,判断使所述两个以上p(L,Tm)=1的是否属于同一个直播间,若是,则所述两个以上p(L,Tm)=1之和为1。
由于第三空间向量集合可以包括多个子向量集合,例如其余直播间A对应的空间向量集合A,其余直播间B对应的空间向量集合B,其余直播间C对应的空间向量集合C,集合A是对直播间A中的弹幕文本进行分词之后向量化得到,集合A包含多个子向量,每个子向量对应一个词,同理集合B和集合C也包含多个子向量,集合A、集合B和集合C中的子向量即待选标签与子向量即之间的第二欧式距离值在0.8和1之间(包括0.8和1)时,p(L,Tm)=1,即L在其余直播间中出现1次,但当待选标签与集合A中的所有子向量之间的第二欧式距离值中有两个或两个以上的值在0.8和1之间(包括0.8和1)时,应认为L在直播间A中只出现了1次,即上文所述两个以上p(L,Tm)=1之和为1的情况。避免了同样的标签在同一个直播间中出现多次而重复计算其出现次数的情况。
例如:待选标签L1与直播间B中WB1词语的第二欧式距离为0.85,因此认为待选标签L1在直播间B中出现1次。另外,待选标签L1与直播间C中WC1词语的欧式距离为0.86,待选标签L1与直播间C中WC2词语的欧式距离为0.9,因此认为待选标签L1在直播间C中出现1次。标签L1总共出现在其他直播间中共200次,该分区中直播间的总数为2000个。
因此:根据步骤S4中提供的方法,待选标签标签L1与直播间A的匹配度为:
同理可得出待选标签L2与直播间A的匹配度:0.0213
待选标签L3与直播间A的匹配度:0.3209
待选标签L4与直播间A的匹配度:0.2103
在获取所有待选标签与直播间A的匹配度之后,进入步骤S5,选择所述匹配度大于预设值的所述标签文本信息,将所述标签文本信息对应的待选标签作为直播间标签进行添加。
例如选择匹配度大于0.2的待选标签添加进入直播间A,即将标签L3和L4添加进入直播间。
综上所述,本公开实施例通过步骤S1~S5实现了将与待添加标签的直播间中弹幕内容在语义上相似度高、匹配度高的待选标签进行添加的过程。该过程不仅替代了人工添加的方式,而且还从语义相似度的角度进行考虑,避免了词语之间仅是词语文本相似但语义不一定相似的情况,提高了待添加标签与直播间内容之间的语义匹配度。图2示意性示出了根据本公开实施例的系统框图。
如图2所示,所述系统200包括第一获取模块210、第二获取模块220、第三获取模块230、第四获取模块240和标签添加模块250。
具体地,第一获取模块210,用于将待添加标签的直播间进行分类,根据分类之后所述直播间所属的类别获取所述直播间的Q个待选标签所对应的Q个标签文本信息,其中,Q为大于或等于1的正整数;
第二获取模块220,用于根据预设时间内属于同一所述类别的直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息;
第三获取模块230,将所述标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化,获取向量化之后的所述标签文本信息与所述第一内容文本信息之间的第一欧式距离,获取向量化之后的所述标签文本信息与所述相对应内容文本信息之间的第二欧式距离;
第四获取模块240,用于通过所述第一欧式距离和所述第二欧式距离获取所述待选标签与所述第一内容文本信息的匹配度;
标签添加模块250,用于选择所述匹配度大于预设值的所述标签文本信息,将所述标签文本信息对应的待选标签作为直播间标签进行添加。
根据本公开的实施例的模块的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图3示意性示出了根据本公开实施例的电子设备框图。
如图3所示,所述电子设备300包括处理器310和存储器320。该电子设备300可以执行根据本公开实施例的方法。
具体地,处理器310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器310还可以包括用于缓存用途的板载存储器。处理器310可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
存储器320,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行如上文所述的直播间标签的添加方法。
本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (10)
1.一种直播间标签的添加方法,其特征在于,所述方法包括:
将待添加标签的直播间进行分类,根据分类之后所述直播间所属的类别获取所述直播间的Q个待选标签所对应的Q个标签文本信息,其中,Q为大于或等于1的正整数;
根据预设时间内属于同一所述类别的直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息;
将所述标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化,获取向量化之后的所述标签文本信息与所述第一内容文本信息之间的第一欧式距离,获取向量化之后的所述标签文本信息与所述相对应内容文本信息之间的第二欧式距离;
通过所述第一欧式距离和所述第二欧式距离获取所述标签文本信息与所述第一内容文本信息的匹配度;
选择所述匹配度大于预设值的所述标签文本信息,将所述标签文本信息对应的待选标签作为直播间标签进行添加。
2.根据权利要求1所述的方法,其特征在于,所述根据预设时间内直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息包括:
将所述弹幕文本进行分词,得到的词语文本即为所述第一内容文本信息和相对应内容文本信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化包括:
对Q个标签文本信息进行向量化得到第一空间向量集合,其中一个待选标签对应所述空间向量集合中的一个空间向量;
对第一内容文本信息进行向量化得到第二空间向量集合,其中所述第一内容文本中的一个分词对应一个空间向量;
对相对应内容文本信息进行向量化得到第三空间向量集合,其中所述相对应内容文本中的一个分词对应一个空间向量。
4.根据权利要求3所述的方法,其特征在于,所述第一欧式距离通过下列公式得到:
其中,为一个标签文本信息向量化之后的空间向量,
为第一内容文本信息中第i个词向量化之后的空间向量,
5.根据权利要求4所述的方法,其特征在于,所述第二欧式距离通过下列公式得到:
其中,为一个标签文本信息向量化之后的空间向量,
为相对应内容文本信息中第y个词向量化之后的空间向量,
6.根据权利要求5所述的方法,其特征在于,所述通过所述第一欧式距离和所述第二欧式距离获取所述标签文本信息与所述第一内容文本信息的匹配度,包括:
所述匹配度通过以下公式获得:
其中,
其中,
Score(L,R),为待选标签与第一内容文本信息的匹配度,
L,为一个待选标签的标签文本信息,R,为待添加标签的直播间的第一内容文本信息,Tm,为其余直播间的相对应内容文本信息,
NR,为直播间的总个数,
NRL,为待选标签L在其余直播间中出现的总次数,
Nm,为其余直播间分词后所得到的词的数量,
p(L,Tm),为待选标签L在其余直播间中出现的次数,
为第一欧式距离,
为第二欧式距离,
为一个待选标签的标签文本信息L向量化之后的空间向量,
为待添加标签的直播间的第一内容文本信息中第i个词向量化之后的空间向量,
为其余直播间的相对应内容文本信息中第y个词向量化之后的空间向量,
Nwi,为待添加标签的直播间分词后所得到的词的数量。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:当两个以上p(L,Tm)=1时,判断使所述两个以上p(L,Tm)=1的是否属于同一个直播间,若是,则所述两个以上p(L,Tm)=1之和为1。
8.一种直播间标签添加的电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器执行如权利要求1-7中直播间标签的添加方法。
9.一种直播间标签添加的系统,其特征在于,所述系统包括:
第一获取模块,用于将待添加标签的直播间进行分类,根据分类之后所述直播间所属的类别获取所述直播间的Q个待选标签所对应的Q个标签文本信息,其中,Q为大于或等于1的正整数;
第二获取模块,用于根据预设时间内属于同一所述类别的直播间中出现的弹幕文本,获取所述待添加标签的直播间的第一内容文本信息以及其余直播间的相对应内容文本信息;
第三获取模块,将所述标签文本信息、所述第一内容文本信息和所述相对应内容文本信息进行向量化,获取向量化之后的所述标签文本信息与所述第一内容文本信息之间的第一欧式距离,获取向量化之后的所述标签文本信息与所述相对应内容文本信息之间的第二欧式距离;
第四获取模块,用于通过所述第一欧式距离和所述第二欧式距离获取所述待选标签与所述第一内容文本信息的匹配度;
标签添加模块,用于选择所述匹配度大于预设值的所述标签文本信息,将所述标签文本信息对应的待选标签作为直播间标签进行添加。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中直播间标签的添加方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810873974.9A CN109063133B (zh) | 2018-08-02 | 2018-08-02 | 一种直播间标签的添加方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810873974.9A CN109063133B (zh) | 2018-08-02 | 2018-08-02 | 一种直播间标签的添加方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063133A true CN109063133A (zh) | 2018-12-21 |
CN109063133B CN109063133B (zh) | 2021-02-02 |
Family
ID=64832889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810873974.9A Active CN109063133B (zh) | 2018-08-02 | 2018-08-02 | 一种直播间标签的添加方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063133B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919213A (zh) * | 2019-02-27 | 2019-06-21 | 上海六界信息技术有限公司 | 直播类型的确定方法、装置、设备及存储介质 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110198490A (zh) * | 2019-05-23 | 2019-09-03 | 北京奇艺世纪科技有限公司 | 直播视频主题分类方法、装置及电子设备 |
CN110263854A (zh) * | 2019-06-20 | 2019-09-20 | 广州酷狗计算机科技有限公司 | 直播标签确定方法、装置及存储介质 |
CN110377843A (zh) * | 2019-07-17 | 2019-10-25 | 网易(杭州)网络有限公司 | 直播间处理方法及装置、电子设备、存储介质 |
CN110781323A (zh) * | 2019-10-25 | 2020-02-11 | 北京达佳互联信息技术有限公司 | 多媒体资源的标签确定方法、装置、电子设备及存储介质 |
WO2022247906A1 (zh) * | 2021-05-28 | 2022-12-01 | 北京沃东天骏信息技术有限公司 | 直播处理方法、直播平台、装置、系统、介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016074326A1 (zh) * | 2014-11-14 | 2016-05-19 | 广州华多网络科技有限公司 | 一种频道切换的方法、装置和系统 |
CN106453284A (zh) * | 2016-09-27 | 2017-02-22 | 北京金山安全软件有限公司 | 直播标签更新方法、装置和终端设备 |
CN108280059A (zh) * | 2018-01-09 | 2018-07-13 | 武汉斗鱼网络科技有限公司 | 直播间内容标签提取方法、存储介质、电子设备及系统 |
-
2018
- 2018-08-02 CN CN201810873974.9A patent/CN109063133B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016074326A1 (zh) * | 2014-11-14 | 2016-05-19 | 广州华多网络科技有限公司 | 一种频道切换的方法、装置和系统 |
CN106453284A (zh) * | 2016-09-27 | 2017-02-22 | 北京金山安全软件有限公司 | 直播标签更新方法、装置和终端设备 |
CN108280059A (zh) * | 2018-01-09 | 2018-07-13 | 武汉斗鱼网络科技有限公司 | 直播间内容标签提取方法、存储介质、电子设备及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919213A (zh) * | 2019-02-27 | 2019-06-21 | 上海六界信息技术有限公司 | 直播类型的确定方法、装置、设备及存储介质 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110198490A (zh) * | 2019-05-23 | 2019-09-03 | 北京奇艺世纪科技有限公司 | 直播视频主题分类方法、装置及电子设备 |
CN110198490B (zh) * | 2019-05-23 | 2021-07-30 | 北京奇艺世纪科技有限公司 | 直播视频主题分类方法、装置及电子设备 |
CN110263854A (zh) * | 2019-06-20 | 2019-09-20 | 广州酷狗计算机科技有限公司 | 直播标签确定方法、装置及存储介质 |
CN110377843A (zh) * | 2019-07-17 | 2019-10-25 | 网易(杭州)网络有限公司 | 直播间处理方法及装置、电子设备、存储介质 |
CN110781323A (zh) * | 2019-10-25 | 2020-02-11 | 北京达佳互联信息技术有限公司 | 多媒体资源的标签确定方法、装置、电子设备及存储介质 |
WO2022247906A1 (zh) * | 2021-05-28 | 2022-12-01 | 北京沃东天骏信息技术有限公司 | 直播处理方法、直播平台、装置、系统、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109063133B (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109063133B (zh) | 一种直播间标签的添加方法、系统、设备及介质 | |
CN109117777B (zh) | 生成信息的方法和装置 | |
CN109145784B (zh) | 用于处理视频的方法和装置 | |
US11222236B2 (en) | Image question answering method, apparatus and system, and storage medium | |
CN112164391B (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN107193792B (zh) | 基于人工智能的生成文章的方法和装置 | |
CN111061874B (zh) | 敏感信息检测方法和装置 | |
CN101743537B (zh) | 用于学习高效级联检测器的多实例修剪 | |
WO2022022421A1 (zh) | 语言表示模型系统、预训练方法、装置、设备及介质 | |
CN108124191A (zh) | 一种视频审核方法、装置及服务器 | |
CN114465737B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN110232340A (zh) | 建立视频分类模型以及视频分类的方法、装置 | |
CN110264398B (zh) | 图像处理方法及装置 | |
CN108108419A (zh) | 一种信息推荐方法、装置、设备和介质 | |
US9875386B2 (en) | System and method for randomized point set geometry verification for image identification | |
CN108229285B (zh) | 物体分类方法、物体分类器的训练方法、装置和电子设备 | |
US20150205792A1 (en) | Method for object recognition, corresponding system, apparatus and computer program product | |
US20180357490A1 (en) | Method and system for adaptively switching detection strategies for watermarked and non-watermarked real-time televised advertisements | |
CN113822127A (zh) | 视频处理方法、装置、视频处理设备及存储介质 | |
CN115292528B (zh) | 一种新媒体视频的智能化运营方法、设备及存储介质 | |
El-Keilany et al. | Distant Viewing of the Harry Potter Movies via Computer Vision | |
US20180359523A1 (en) | Method and system for progressive penalty and reward based ad scoring for detection of ads | |
CN109919213A (zh) | 直播类型的确定方法、装置、设备及存储介质 | |
CN115086760A (zh) | 直播视频剪辑方法、装置及设备 | |
CN115129902A (zh) | 媒体数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |